KR102493492B1 - 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치 - Google Patents

초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치 Download PDF

Info

Publication number
KR102493492B1
KR102493492B1 KR1020200033090A KR20200033090A KR102493492B1 KR 102493492 B1 KR102493492 B1 KR 102493492B1 KR 1020200033090 A KR1020200033090 A KR 1020200033090A KR 20200033090 A KR20200033090 A KR 20200033090A KR 102493492 B1 KR102493492 B1 KR 102493492B1
Authority
KR
South Korea
Prior art keywords
image
resolution
neural network
low
resolution image
Prior art date
Application number
KR1020200033090A
Other languages
English (en)
Other versions
KR20210116922A (ko
Inventor
조남규
김지원
김태현
박서빈
유진수
조동현
Original Assignee
에스케이텔레콤 주식회사
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사, 한양대학교 산학협력단 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020200033090A priority Critical patent/KR102493492B1/ko
Publication of KR20210116922A publication Critical patent/KR20210116922A/ko
Application granted granted Critical
Publication of KR102493492B1 publication Critical patent/KR102493492B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치를 개시한다.
본 발명의 일 측면에 의하면, 컴퓨터 시스템에 의해 구현되는 뉴럴 네트워크의 학습 방법에 있어서, 복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성하는 과정; 각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 뉴럴 네트워크를 훈련시킴으로써, 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크를 생성하는 과정; 각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출하는 과정; 및 복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 상기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된(meta-learned) 뉴럴 네트워크를 생성하는 과정을 포함하는 학습 방법을 제공한다.

Description

초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치{Method and Device for Fast Adaptation through Meta-learning of Super Resolution Model}
본 발명의 실시예들은 학습 단계에서 뉴럴 네트워크가 여러 이미지의 해상도를 향상시키도록 메타 러닝을 수행하고, 테스트 단계에서 빠른 적응 과정을 수행하는 초해상도 모델에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
초해상도 모델(super resolution model)은 저해상도 이미지의 해상도를 향상시켜 고해상도 이미지를 생성하는 뉴럴 네트워크(neural network)를 의미한다. 초해상도 모델은 스마트폰, TV 및 PC 등 다양한 전자기기에서 이미지 또는 영상 데이터를 처리하는 데 이용된다.
일반적으로, 저해상도 이미지의 해상도를 고해상도로 향상시키는 기술은 보간(interpolation) 방법을 이용하는 기술이다. 보간 방법은 '가장 근접한 이웃(nearest neighbor)' 방식, '이중 입방(bi-cubic)' 방식 등을 통해 저해상도 이미지의 픽셀로부터 고해상도 이미지의 픽셀을 채우는 방법이다. 하지만, 보간 방법을 이용하는 경우 출력 이미지의 해상도가 높을지라도 육안으로는 흐릿하게 보인다는 문제점이 있었다.
이러한 문제점을 해결하기 위해, 카메라를 보조하는 전용 하드웨어를 이용하여 다양한 초점의 이미지를 촬영하고, 여러 이미지로부터 선명한 고해상도 이미지를 출력할 수 있으나, 하드웨어로 인한 추가 비용이 발생한다.
보간 방법의 단점을 보완하고, 추가 하드웨어 없이 초해상도 모델의 성능을 개선하기 위해, 딥러닝 기반의 단일 이미지 초해상도(single image super-resolution, SISR)에 대한 연구가 활발히 진행되고 있다. 여기서, 단일 이미지 초해상도는 단일 이미지 내에 포함된 특징만 이용하여 단일 이미지의 해상도를 증가시키는 기술이다. 특히, SISR이 딥러닝을 기반으로 컨볼루션 뉴럴 네트워크를 이용하는 경우, 하드웨어를 추가하지 않고도 SISR의 성능을 향상시킬 수 있다.
다만, 기존의 딥러닝 기반 초해상도 모델은 학습 단계에서 방대한 트레이닝 데이터 세트를 이용하여 학습되고, 테스트 단계에서는 학습 단계에서 이용되지 않은 테스트 이미지를 입력 받기 때문에 테스트 이미지의 해상도를 효과적으로 향상시키지 못한다. 이는, 딥러닝 학습을 이용하는 대부분의 SISR은 테스트 단계에서 초해상도 모델의 파라미터를 조정하지 않기 때문이다. 즉, 새로운 테스트 이미지에 포함된 특징들을 더 학습하지 않으며, 모든 테스트 이미지에 고정된 네트워크 파라미터를 이용하는 것은 초해상도 모델의 성능을 저하시키는 요인이 된다.
따라서, 훈련 단계에서 다양한 이미지에 대해 학습하되, 테스트 단계에서 각 이미지에 포함된 특징을 이용하여 고해상도 이미지를 생성하는 방안이 필요하다.
한편, 신경망을 이용하지 않는 기존의 초해상도 복원 방법은 사용자에게 저해상도 이미지가 주어지고, 사용자가 직접 개입하여 저해상도 이미지로부터 고해상도 이미지를 생성한다. 이때, 자연 풍경이나 건물 사진과 같이 주어진 저해상도 이미지 내에 크기만을 달리하며 반복되는 영역이 있는 경우, 이 영역을 고해상도 이미지를 생성하는 데 이용한다. 예를 들어, 건물 사진에서 모양은 같고 크기가 다른 창문이 존재할 때, 작은 창문에 대한 고해상도 이미지는 큰 창문이라고 추정한다. 즉, 저해상도 이미지 내 큰 창문은 고해상도 이미지 내 작은 창문이 된다. 사용자는 이러한 패치 리커런스(patch recurrence)를 이용하여 고해상도 이미지를 효율적으로 생성할 수 있다.
다만, 사용자는 고해상도 이미지를 생성할 수 있으나, 주어진 이미지 내에 모든 패치들이 서로 유사한 것은 아니기 때문에 고해상도 이미지의 해상도를 높이는 데 한계가 있다.
본 발명의 실시예들은, 기존 초해상도 모델의 아키텍쳐 변경 없이 테스트 단계에서 빠른 적응(fast adaptation)을 위해, 뉴럴 네트워크의 학습 단계에서 메타 러닝(meta-learning)을 수행하는 뉴럴 네트워크 학습 방법 및 장치를 제공하는 데 주된 목적이 있다.
본 발명의 다른 실시예들은, 학습 단계에서 메타 러닝된 뉴럴 네트워크를 테스트 단계에서 주어진 테스트 이미지에 대해 적응(adaptation)시킨 후 테스트 이미지의 해상도를 향상시킴으로서, 동적인 파라미터를 이용하는 뉴럴 네트워크 활용 방법 및 장치를 제공하는 데 일 목적이 있다.
본 발명의 다른 실시예들은, 신경망을 이미지 전체에 대해 학습시킴으로써 사용자가 직접적인 개입없이 패치 리커런스 영역을 간접적으로 학습하는 뉴럴 네트워크 학습 방법 및 장치를 제공하는 데 일 목적이 있다.
본 발명의 일 측면에 의하면, 컴퓨터 시스템에 의해 구현되는 뉴럴 네트워크의 학습 방법에 있어서, 복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성하는 과정; 각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 뉴럴 네트워크를 훈련시킴으로써, 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크를 생성하는 과정; 각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출하는 과정; 및 복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 상기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된(meta-learned) 뉴럴 네트워크를 생성하는 과정을 포함하는 학습 방법을 제공한다.
본 실시예의 다른 측면에 의하면, 컴퓨터에 의해 구현되는 뉴럴 네트워크 기반 고해상도 이미지 생성 방법에 있어서, 입력 이미지를 획득하는 과정; 상기 입력 이미지에 대한 저해상도 입력 이미지를 생성하는 과정; 메타 러닝된 뉴럴 네트워크에 대해, 상기 저해상도 입력 이미지를 입력 받아 상기 입력 이미지를 출력하도록 적응시키는 과정; 적응이 완료된 뉴럴 네트워크에 상기 입력 이미지를 입력하여 해상도가 향상된 출력 이미지를 획득하는 과정; 및 상기 출력 이미지를 출력하는 과정을 포함하는 고해상도 이미지 생성 방법을 제공한다.
이상에서 설명한 바와 같이 본 발명의 일 실시예에 의하면, 다양한 이미지에 대해 미리 학습된 뉴럴 네트워크의 학습 단계에서 메타 러닝을 수행함으로써, 아키텍쳐의 변경 없이 다양한 이미지에 대한 뉴럴 네트워크의 성능도 향상시키고 테스트 단계에서의 적응 속도를 증가시킬 수 있다.
본 발명의 다른 실시예에 의하면, 다양한 이미지에 대해 메타 러닝된 뉴럴 네트워크의 테스트 단계에서 주어진 테스트 이미지에 대해 적응(adaptation) 과정을 수행한 후에 고해상도 이미지를 생성함으로써, 개별적인 테스트 이미지에 적응적으로 선명한 고해상도 이미지를 생성할 수 있다.
본 발명의 다른 실시예에 의하면, 서로 유사한 패치들을 포함하는 저해상도 이미지에 대해 서로 유사한 패치들의 관계를 학습하는 신경망을 이용함으로써, 고해상도 이미지를 효율적으로 생성할 수 있다.
도 1은 본 발명의 일 실시예에 따른 패치 리커런스를 설명하기 위해 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 메타 러닝을 통한 빠른 적응 방법을 수행하는 과정을 설명하기 위해 예시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 뉴럴 네트워크의 메타 러닝 훈련 방법을 설명하기 위해 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 메타 러닝된 뉴럴 네트워크의 테스트 단계에서 적응 과정을 설명하기 위해 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 뉴럴 네트워크의 학습 장치의 동작 과정을 설명하기 위한 순서도다.
도 6은 본 발명의 일 실시예에 따른 뉴럴 네트워크 기반 고해상도 이미지 생성 장치의 동작 과정을 설명하기 위한 순서도다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '~부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1는 기존의 패치 리커런스를 설명하기 위해 예시한 도면이다.
패치 리커런스(patch-recurrence)란, 서로 유사한 패턴이 반복되는 이미지에 대한 고해상도 이미지를 만들 때, 이미지 내 하나의 패턴을 이용하는 방법을 의미한다. 예를 들어, 정렬된 가로수들이 그려진 자연 이미지나 정렬된 창문들을 포함하는 건물 이미지와 같이, 저해상도 이미지 내에서 일부 영역이 반복되는 경우, 다른 해상도의 이미지를 생성할 때 반복되는 영역을 이용하면 효율적으로 생성할 수 있다. 다만, 기존의 패치 리커런스를 이용하는 방법은 사용자가 직접 서로 유사한 패치를 선택하고 조정하여야 한다.
도 1을 참조하면, 저해상도 이미지(100), 중해상도 이미지(110), 고해상도 이미지(120), 저해상도 패치(104), 제1 패치(112), 제2 패치(114) 및 고해상도 패치(122)가 도시되어 있다. 저해상도 이미지(100), 중해상도 이미지(110) 및 고해상도 이미지(120)는 서로 대응되며, 하나의 트레이닝 데이터 셋을 구성한다.
사용자는 주어진 중해상도 이미지(110) 내 일부 영역인 제1 패치(112)를 결정한다. 제1 패치(112)는 중해상도 이미지(110) 내에서 반복되는 패턴 중 하나를 포함하는 영역일 수 있다. 이후, 학습 장치는 저해상도 이미지(100) 내에서 제1 패치(112)와 유사도가 높은 영역인 저해상도 패치(104)를 검출한다.
사용자는 중해상도 이미지(110) 내에서 저해상도 패치(104)에 대응되는 제2 패치(114)를 검출한다. 제2 패치(114)는 저해상도 패치(104)를 생성하는 데 이용된 영역이다.
사용자는 제2 패치(114)를 이용하여 제1 패치(112)에 대응되는 위치의 고해상도 패치(122)를 생성한다.
전술한 과정을 통해 사용자는 고해상도 이미지를 생성할 수 있으나, 주어진 이미지 내에 모든 패치들이 서로 유사한 것은 아니기 때문에 고해상도 이미지의 해상도를 높이는 데 한계가 있다.
도 2는 본 발명의 일 실시예에 따른 메타 러닝을 통한 빠른 적응 방법을 수행하는 과정을 설명하기 위해 예시한 도면이다.
도 2를 참조하면, 메타 러닝을 통한 빠른 적응 방법은 훈련 단계(train phase)와 테스트 단계(test phase)로 나뉘며, 훈련 단계는 (a) 네트워크 초기화(network initialization) 단계와 (b) 메타 러닝(meta-learning) 단계로 나뉘며, 테스트 단계는 (c) 적응(adaptation) 단계와 (d) 리사이징(resizing) 단계로 나뉜다. 훈련 단계에서 뉴럴 네트워크의 학습 장치(미도시)가 이용되고, 테스트 단계에서는 뉴럴 네트워크의 이미지 생성 장치(미도시)가 이용될 수 있다. 예를 들어, 학습 장치는 서버로 구현되고 이미지 생성 장치는 단말로 구현될 수 있다. 다만, 이는 하나의 예시일 뿐이며 두 장치는 하나의 장치로 구현될 수도 있다. 한편, 네트워크 초기화 단계는 학습 장치가 아닌 외부 장치에 의해 미리 수행될 수 있다.
(a) 네트워크 초기화 단계는 뉴럴 네트워크(200)의 메타 러닝을 수행하기 전에 뉴럴 네트워크(200)가 많은 양의 이미지 데이터에 대해 고해상도 이미지를 생성하도록 미리 훈련하는 단계다. 여기서, 뉴럴 네트워크(200)는 저해상도 이미지를 입력 받고 고해상도 이미지를 출력하는 구성요소다. 학습 과정에서 뉴럴 네트워크(200)의 파라미터들이 초기화된다.
(b) 메타 러닝 단계는 초기 뉴럴 네트워크(210)가 다양한 태스크로 구별되는 이미지들을 학습하는 단계다. 초기 뉴럴 네트워크(210)는 복수의 고해상도 샘플 이미지 각각에 대해, 고해상도 샘플 이미지(H)를 입력 받고, 저해상도 이미지(L) 및 중해상도 이미지(M)를 생성한 후 세 이미지를 학습한다. 이러한 과정을 복수의 고해상도 샘플 이미지에 대해 반복함으로써, 메타 러닝을 수행한다.
한편, 메타 러닝 단계에서 학습 장치는 고해상도 샘플 이미지로부터 저해상도 이미지 및 중해상도 이미지를 생성하며, 저해상도 이미지를 외부에서 공급받을 필요가 없다. 또한, 네트워크 초기화 단계에서 이용되는 방대한 양의 이미지와 달리, 자연 풍경이나 건물 이미지와 같이 패치 리커런스를 포함하는 이미지들에 대해 효율적으로 학습할 수 있다. 또한, 학습 장치가 훈련 단계에서 메타 러닝을 수행함으로써, 적응 단계에서 이미지 생성 장치가 네트워크 적응 속도를 더욱 향상시킬 수 있다.
(c) 적응 단계는 이미지 생성 장치가 메타 러닝된 뉴럴 네트워크(220)를 이미지 생성 장치 별로 입력 이미지들에 대해 적응시킴으로써, 네트워크의 파라미터를 미세하게 조정하는 단계다. 구체적으로, 이미지 생성 장치는 입력 이미지(I)를 획득하고, 다운 샘플링(down-sampling)한 저해상도 입력 이미지를 생성한다. 메타 러닝된 뉴럴 네트워크(220)는 저해상도 입력 이미지와 입력 이미지에 대해 기 설정된 횟수만큼 반복 학습함으로써 입력 이미지에 적응된다. 적응 단계는 직전에 수행되는 전술한 메타 러닝 단계에 의해 적응 속도가 빨라진다.
(d) 리사이징 단계는 최종적으로 적응된 뉴럴 네트워크(230)를 이용하여 입력 이미지(I)의 해상도를 항샹시킨 출력 이미지(O)를 생성하는 단계다. 적응된 뉴럴 네트워크(230)는 적응 단계에서 이용된 입력 이미지에 대한 고해상도 이미지를 생성한 후 출력한다.
전술한 과정을 통해, 이미지 생성 장치별로 자신이 보유한 적은 수의 이미지들에 대해 고해상도의 선명한 이미지를 생성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 뉴럴 네트워크의 메타 러닝 훈련 방법을 설명하기 위해 예시한 도면이다.
도 3을 참조하면, 복수의 고해상도 샘플 이미지(300), 복수의 중해상도 이미지(302), 복수의 저해상도 이미지(304), 초기 뉴럴 네트워크(310), 복수의 태스크 네트워크(320) 및 메타 러닝된 뉴럴 네트워크(330)가 도시되어 있다.
도 2에서 네트워크 초기화 단계와 같이, 초기 뉴럴 네트워크(310)는 임의의 입력 이미지에 대해 해상도가 향상된 출력 이미지를 생성하도록 미리 훈련된 신경망일 수 있다. 구체적으로, 초기 뉴럴 네트워크는 입력 이미지에 대해 생성한 출력 이미지와 정답 이미지 간 손실함수가 작아지도록 훈련된다.
다시 도 3를 참조하면, 복수의 고해상도 샘플 이미지(300)는 주어진 이미지들이며, 복수의 중해상도 이미지(302) 및 복수의 저해상도 이미지(304)는 복수의 고해상도 샘플 이미지(300)에 대응되도록 생성된 이미지들이다. 구체적으로, 저해상도 이미지 및 중해상도 이미지는 타 뉴럴 네트워크에 의해 고해상도 샘플 이미지로부터 최근접(nearest neighbor) 방식, 양선형(bi-linear) 방식 또는 이중 입방(bi-cubic) 방식 중 적어도 어느 하나에 의한 다운 샘플링(down-sampling) 방법을 이용하여 생성될 수 있다.
저해상도 이미지(L1, L2, L3, L4) 및 복수의 중해상도 이미지(M1, M2, M3, M4)는 고해상도 샘플 이미지(H1, H2, H3, H4)에 각각 대응된다. 즉, 고해상도 샘플 이미지, 중해상도 이미지 및 저해상도 이미지가 하나의 트레이닝 데이터 페어(training data pair)를 구성되며, 초기 뉴럴 네트워크(310)의 메타 러닝에 이용된다. 트레이닝 데이터 페어의 수는 메타 러닝에 이용되는 태스크 네트워크의 수와 일치한다.
학습 장치는 각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 저해상도 이미지에 대응되는 중해상도 이미지를 출력하도록 초기 뉴럴 네트워크(310)를 훈련시킴으로써, 즉 초기 뉴럴 네트워크(310)의 파라미터(
Figure 112020028502429-pat00001
)를 갱신함으로써 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크(320)를 생성한다.
구체적으로, 학습 장치는 하나의 저해상도 이미지(L1)를 초기 뉴럴 네트워크(310)에 입력하고, 초기 뉴럴 네트워크(310)에 의해 생성된 중해상도 출력 이미지를 획득한다. 학습 장치는 중해상도 출력 이미지와 중해상도 이미지(M1) 간 차이에 기초하여 손실(loss)을 산출한다. 학습 장치는 산출된 손실을 초기 뉴럴 네트워크(310)의 파라미터(
Figure 112020028502429-pat00002
)에 반영하여, 제1 태스크 파라미터(
Figure 112020028502429-pat00003
)를 갖는 제1 태스크 네트워크(322)를 생성한다. 즉, 제1 태스크 네트워크(322)는 초기 뉴럴 네트워크(310)가 L1 이미지 및 M1 이미지에 대해 학습한 결과이고, 제2 태스크 네트워크(324)는 L2 이미지 및 M2 이미지에 대해 학습한 결과다. 이를 내부 루프라고 지칭하며, 수학식으로 나타내면 수학식 1과 같다.
Figure 112020028502429-pat00004
수학식 1에서
Figure 112020028502429-pat00005
는 i번째 태스크 네트워크의 파라미터,
Figure 112020028502429-pat00006
는 초기 뉴럴 네트워크의 파라미터,
Figure 112020028502429-pat00007
는 학습률(learning rate),
Figure 112020028502429-pat00008
는 그래디언트(gradient), L은 손실함수,
Figure 112020028502429-pat00009
는 저해상도 이미지,
Figure 112020028502429-pat00010
는 중해상도 출력 이미지를 의미한다.
이후, 학습 장치는 복수의 태스크 네트워크(320)로부터 복수의 손실을 산출한다. 구체적으로, 학습 장치는 각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 중해상도 이미지에 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출한다. 예를 들어, 제1 태스크 네트워크(322)가 중해상도 이미지(M1)를 입력 받으면, 고해상도 출력 이미지를 생성한다. 이때, 학습 장치는 고해상도 출력 이미지와 고해상도 이미지(H1) 간 차이에 기초하여 손실을 산출한다.
학습 장치는 복수의 태스크 네트워크(320)으로부터 산출된 복수의 손실들에 기초하여 초기 뉴럴 네트워크(310)의 파라미터를 갱신함으로써, 메타 러닝된(meta-learned) 뉴럴 네트워크(330)를 생성한다. 즉, 메타 러닝된 뉴럴 네트워크(330)는 복수의 태스크 네트워크(320)가 학습한 결과를 초기 뉴럴 네트워크(310)에 반영한 결과다. 이를 외부 루프라고 지칭하며, 수학식으로 나타내면 수학식 2와 같다.
Figure 112020028502429-pat00011
수학식 2에서
Figure 112020028502429-pat00012
는 메타 러닝된 뉴럴 네트워크의 파라미터,
Figure 112020028502429-pat00013
는 학습률,
Figure 112020028502429-pat00014
는 i번째 태스크 네트워크에 의해 생성된 고해상도 출력 이미지,
Figure 112020028502429-pat00015
는 고해상도 샘플 이미지다.
전술한 과정을 통해 메타 러닝된 뉴럴 네트워크(330)는 초기 뉴럴 네트워크(310)에 비해 입력 이미지에 대한 고해상도 이미지를 생성하는 성능이 뛰어나다. 또한, 테스트 단계에서 메타 러닝된 뉴럴 네트워크(330)가 테스트 이미지에 적응하는 속도는 초기 뉴럴 네트워크(310)에 비해 훨씬 빠르다.
도 4는 본 발명의 일 실시예에 따른 메타 러닝된 뉴럴 네트워크의 테스트 단계에서 적응 과정 및 추론 과정을 설명하기 위해 예시한 도면이다.
도 4를 참조하면, 메타 러닝된 뉴럴 네트워크(330), 입력 이미지(400), 저해상도 입력 이미지(410), 중해상도 출력 이미지(420), 적응된 뉴럴 네트워크(430) 및 출력 이미지(440)가 도시되어 있다.
뉴럴 네트워크 기반 이미지 생성 장치는 메타 러닝된 뉴럴 네트워크(330)를 입력 이미지(400)에 적응시키기 위해, 획득한 입력 이미지(400)로부터 다운 샘플링(down-sampling)된 저해상도 입력 이미지(410)를 생성한다. 이때, 저해상도 입력 이미지(410)는 입력 이미지(400)로부터 최근접(nearest neighbor) 방식, 양선형(bi-linear) 방식 또는 이중 입방(bi-cubic) 방식 중 적어도 어느 하나에 의해 다운 샘플링(down-sampling)된 이미지일 수 있다.
이미지 생성 장치는 메타 러닝된 뉴럴 네트워크(330)가 저해상도 입력 이미지(410)를 입력 받아 입력 이미지(400)를 생성하도록 적응시킨다. 구체적으로, 이미지 생성 장치는 저해상도 입력 이미지(410)를 메타 러닝된 뉴럴 네트워크(330)에 입력하여 중해상도 출력 이미지(410)를 획득한다. 이후, 이미지 생성 장치는 중해상도 출력 이미지(420)와 입력 이미지(400) 간 차이에 기초하여 손실함수를 산출하고, 산출된 손실함수에 기초하여 메타 러닝된 뉴럴 네트워크(330)의 파라미터를 갱신(조정)한다. 이러한 과정은 기 설정된 횟수, 기 설정된 손실함수 등 기 설정된 조건을 만족할 때까지 반복하여 수행될 수 있다. 이러한 적응 과정은 직전에 수행되는 메타 러닝에 의해 빠르게 진행된다.
입력 이미지(400)에 대한 적응 과정이 완료되면, 이미지 생성 장치는 적응된 뉴럴 네트워크(430)에 입력 이미지(400)를 입력하고, 해상도가 향상된 출력 이미지(440)를 획득한다.
도 5는 본 발명의 일 실시예에 따른 뉴럴 네트워크의 학습 장치의 동작 과정을 설명하기 위한 순서도다.
학습 장치는 복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성한다(S500).
학습 장치는 복수의 저해상도 이미지 각각에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 초기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 복수의 태스크 네트워크를 생성한다(S502). 이때, 복수의 태스크 네트워크는 복수의 고해상도 샘플 이미지 각각에 대응된다. 한편, 초기 뉴럴 네트워크는 임의의 입력 이미지로부터 해상도가 향상된 출력 이미지를 생성하도록 사전에 훈련될 수 있다.
학습 장치는 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실들을 산출한다(S504). 태스크 네트워크 손실은 태스크 네트워크가 중해상도 이미지를 입력 받아 출력한 고해상도 출력 이미지와, 고해상도 샘플 이미지 간의 차이에 기초하여 산출된다.
학습 장치는 복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 초기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된 뉴럴 네트워크를 생성한다(S506).
도 6은 본 발명의 일 실시예에 따른 뉴럴 네트워크의 이미지 생성 장치의 동작 과정을 설명하기 위한 순서도다.
이미지 생성 장치는 입력 이미지를 획득하고, 입력 이미지에 대한 저해상도 입력 이미지를 생성한다(S600). 메타 러닝된 뉴럴 네트워크는 입력 이미지와 저해상도 입력 이미지에 대해 적응됨으로써, 최종 출력 이미지를 생성할 때 최적의 성능을 발휘할 수 있다.
이미지 생성 장치는 메타 러닝된 뉴럴 네트워크에 대해, 저해상도 입력 이미지를 입력 받아 입력 이미지를 출력하도록 적응 과정을 수행한다(S602). 적응 과정은, 메타 러닝된 뉴럴 네트워크가 출력한 중해상도 출력 이미지와 입력 이미지의 차이에 기초하여 손실을 산출한 후 손실에 기초하여 메타 러닝된 뉴럴 네트워크의 파라미터를 갱신하는 과정이다. 이는, 기 설정된 조건을 만족할 때까지 반복 수행될 수 있다.
이미지 생성 장치는 적응이 완료된 뉴럴 네트워크에 입력 이미지를 입력하여 해상도가 향상된 출력 이미지를 획득한 후 출력한다(S604).
도 5 및 도 6에서는 과정 S500 내지 과정 S604을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 5 및 도 6에 기재된 순서를 변경하여 실행하거나 과정 S500 내지 과정 S604 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 5 및 도 6은 시계열적인 순서로 한정되는 것은 아니다.
한편, 도 5 및 도 6에 도시된 과정들은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등의 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 뉴럴 네트워크 210: 초기 뉴럴 네트워크
220: 복수의 태스크 네트워크 230: 메타 러닝된 뉴럴 네트워크
330: 적응된 뉴럴 네트워크

Claims (11)

  1. 컴퓨터 시스템에 의해 구현되는 뉴럴 네트워크의 학습 방법에 있어서,
    복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성하는 과정;
    각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 뉴럴 네트워크를 훈련시킴으로써, 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크를 생성하는 과정;
    각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출하는 과정; 및
    복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 상기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된(meta-learned) 뉴럴 네트워크를 생성하는 과정;
    을 포함하는 학습 방법.
  2. 제1항에 있어서,
    상기 뉴럴 네트워크는 입력 이미지에 대해 해상도가 향상된 출력 이미지를 생성하도록 미리 훈련된 것인 학습 방법.
  3. 제1항에 있어서,
    상기 복수의 태스크 네트워크를 생성하는 과정은,
    각 저해상도 이미지에 대해, 저해상도 이미지를 상기 뉴럴 네트워크에 입력하여 중해상도 출력 이미지를 획득하는 과정;
    상기 중해상도 출력 이미지와 대응되는 저해상도 이미지의 차이에 기초하여 손실을 산출하는 과정; 및
    각 저해상도 이미지에 대응되는 손실마다 상기 뉴럴 네트워크의 파라미터를 갱신함으로써 상기 복수의 태스크 네트워크를 생성하는 과정;
    을 포함하는 학습 방법.
  4. 제1항에 있어서,
    상기 태스크 네트워크의 손실을 산출하는 과정은,
    상기 태스크 네트워크에 대응되는 중해상도 이미지를 상기 태스크 네트워크에 입력하여 고해상도 출력 이미지를 획득하는 과정; 및
    상기 고해상도 출력 이미지와 대응되는 중해상도 이미지의 차이에 기초하여 손실을 계산하는 과정;
    을 포함하는 학습 방법.
  5. 제1항에 있어서,
    상기 저해상도 이미지 및 중해상도 이미지는,
    상기 고해상도 샘플 이미지로부터 최근접(nearest neighbor) 방식, 양선형(bilinear) 방식 또는 양입방체(bicubic) 방식 중 적어도 어느 하나에 의해 다운 샘플링(down-sampling)된 이미지인 학습 방법.
  6. 컴퓨터에 의해 구현되는 뉴럴 네트워크 기반 고해상도 이미지 생성 방법에 있어서,
    입력 이미지를 획득하는 과정;
    상기 입력 이미지에 대한 저해상도 입력 이미지를 생성하는 과정;
    메타 러닝된 뉴럴 네트워크에 대해, 상기 저해상도 입력 이미지를 입력 받아 상기 입력 이미지를 출력하도록 적응시키는 과정;
    적응이 완료된 뉴럴 네트워크에 상기 입력 이미지를 입력하여 해상도가 향상된 출력 이미지를 획득하는 과정; 및
    상기 출력 이미지를 출력하는 과정;
    을 포함하되,
    상기 메타 러닝된 뉴럴 네트워크는,
    복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성하는 과정;
    각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 뉴럴 네트워크를 훈련시킴으로써, 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크를 생성하는 과정;
    각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출하는 과정; 및
    복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 상기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된 뉴럴 네트워크를 생성하는 과정;
    을 포함하여 학습되는 고해상도 이미지 생성 방법.
  7. 삭제
  8. 뉴럴 네트워크의 학습 장치에 있어서,
    명령어들(instructions)을 저장하는 적어도 하나의 메모리; 및
    상기 메모리에 저장된 적어도 하나의 명령어를 실행함으로써, 이미지 데이터를 처리하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 메모리는 상기 적어도 하나의 프로세서를 통해,
    복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성하고,
    각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 뉴럴 네트워크를 훈련시킴으로써, 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크를 생성하고, 상기 뉴럴 네트워크는 입력 이미지에 대해 해상도가 향상된 출력이미지를 생성하도록 미리 훈련된 것임;
    각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출하고, 및
    복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 상기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된 뉴럴 네트워크를 생성하도록 설정된 학습 장치.
  9. 뉴럴 네트워크 기반 고해상도 이미지 생성 장치에 있어서,
    명령어들을 저장하는 적어도 하나의 메모리; 및
    상기 메모리에 저장된 적어도 하나의 명령어를 실행함으로써, 이미지 데이터를 처리하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 메모리는 상기 적어도 하나의 프로세서를 통해,
    입력 이미지를 획득하는 과정;
    상기 입력 이미지에 대한 저해상도 입력 이미지를 생성하는 과정;
    메타 러닝된 뉴럴 네트워크에 대해, 상기 저해상도 입력 이미지를 입력 받아 상기 입력 이미지를 출력하도록 적응시키는 과정;
    적응이 완료된 뉴럴 네트워크에 상기 입력 이미지를 입력하여 해상도가 향상된 출력 이미지를 획득하는 과정; 및
    상기 출력 이미지를 출력하는 과정;
    을 수행하도록 설정되며,
    상기 메타 러닝된 뉴럴 네트워크의 학습 방법은,
    복수의 고해상도 샘플 이미지 각각에 대해, 저해상도 이미지 및 중해상도 이미지를 생성하는 과정;
    각 저해상도 이미지에 대해, 저해상도 이미지를 입력 받고 대응되는 중해상도 이미지를 출력하도록 뉴럴 네트워크를 훈련시킴으로써, 각 저해상도 이미지에 대응되는 복수의 태스크 네트워크를 생성하는 과정;
    각 중해상도 이미지에 대해, 중해상도 이미지를 입력 받아 대응되는 고해상도 샘플 이미지를 출력하는 태스크 네트워크의 손실을 산출하는 과정; 및
    복수의 태스크 네트워크로부터 산출된 손실들에 기초하여 상기 뉴럴 네트워크의 파라미터들을 갱신함으로써, 메타 러닝된 뉴럴 네트워크를 생성하는 과정
    을 포함하는 고해상도 이미지 생성 장치.
  10. 삭제
  11. 제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200033090A 2020-03-18 2020-03-18 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치 KR102493492B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200033090A KR102493492B1 (ko) 2020-03-18 2020-03-18 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200033090A KR102493492B1 (ko) 2020-03-18 2020-03-18 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210116922A KR20210116922A (ko) 2021-09-28
KR102493492B1 true KR102493492B1 (ko) 2023-01-27

Family

ID=77923372

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200033090A KR102493492B1 (ko) 2020-03-18 2020-03-18 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102493492B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706390A (zh) * 2021-10-29 2021-11-26 苏州浪潮智能科技有限公司 图像转换模型训练方法和图像转换方法、设备及介质
WO2023214708A1 (ko) * 2022-05-06 2023-11-09 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
KR102582736B1 (ko) * 2022-08-26 2023-09-25 주식회사 에너자이 바코드 이미지에 관한 해상도 향상 모델 및 정렬 모델의 학습 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jae Woong Soh et al., "Meta-Transfer Learning for Zero-Shot Super-Resolution," arXiv:2002.12213v1 [cs.CV] 27 Feb 2020 (2020.02.27.)*

Also Published As

Publication number Publication date
KR20210116922A (ko) 2021-09-28

Similar Documents

Publication Publication Date Title
Wang et al. Real-esrgan: Training real-world blind super-resolution with pure synthetic data
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
KR102493492B1 (ko) 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치
US20220222786A1 (en) Image processing method, smart device, and computer readable storage medium
US11087504B2 (en) Transforming grayscale images into color images using deep neural networks
JP7045483B2 (ja) コーディングパターン処理方法及び装置、電子装置、並びにコンピュータプログラム
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
US11048980B2 (en) Optimizing supervised generative adversarial networks via latent space regularizations
US20190005619A1 (en) Image upscaling system, training method thereof, and image upscaling method
Liu et al. Exploit camera raw data for video super-resolution via hidden markov model inference
KR102236788B1 (ko) 이미지 복원 방법 및 장치
US11244426B2 (en) Method for image super resolution imitating optical zoom implemented on a resource-constrained mobile device, and a mobile device implementing the same
CN113066017A (zh) 一种图像增强方法、模型训练方法及设备
US9697584B1 (en) Multi-stage image super-resolution with reference merging using personalized dictionaries
Guan et al. Srdgan: learning the noise prior for super resolution with dual generative adversarial networks
KR102342526B1 (ko) 비디오 컬러화 방법 및 장치
JP2023502653A (ja) 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用
CN115294055A (zh) 图像处理方法、装置、电子设备和可读存储介质
US20220270209A1 (en) Removing compression artifacts from digital images and videos utilizing generative machine-learning models
KR20210019835A (ko) 방향 적응형 병렬 신경망을 이용한 초해상도 영상 생성 장치 및 방법
CN113628115A (zh) 图像重建的处理方法、装置、电子设备和存储介质
Hung et al. Image interpolation using convolutional neural networks with deep recursive residual learning
CN113344784B (zh) 通过潜在空间正则化对监督式生成对抗网络进行优化
WO2023045627A1 (zh) 图像超分方法、装置、设备及存储介质
US20230005104A1 (en) Method and electronic device for performing ai based zoom of image

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant