KR102624154B1 - 이미지 복원 방법 및 장치 - Google Patents

이미지 복원 방법 및 장치 Download PDF

Info

Publication number
KR102624154B1
KR102624154B1 KR1020220007884A KR20220007884A KR102624154B1 KR 102624154 B1 KR102624154 B1 KR 102624154B1 KR 1020220007884 A KR1020220007884 A KR 1020220007884A KR 20220007884 A KR20220007884 A KR 20220007884A KR 102624154 B1 KR102624154 B1 KR 102624154B1
Authority
KR
South Korea
Prior art keywords
low
resolution image
image
resolution
image restoration
Prior art date
Application number
KR1020220007884A
Other languages
English (en)
Other versions
KR20230111885A (ko
Inventor
진경환
이재원
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority to KR1020220007884A priority Critical patent/KR102624154B1/ko
Publication of KR20230111885A publication Critical patent/KR20230111885A/ko
Application granted granted Critical
Publication of KR102624154B1 publication Critical patent/KR102624154B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

이미지 복원 방법 및 장치가 개시된다. 본 개시의 일 실시 예에 따른 이미지 복원 방법은, 저해상도 이미지를 획득하는 단계와, 기 학습된 이미지 복원 알고리즘을 기반으로 저해상도 이미지의 푸리에 정보를 추정하여, 임의의 해상도에서 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출하는 단계와, 저해상도 이미지의 각 좌표에 대응하는 색상 값을 기반으로 임의의 해상도의 고해상도 이미지를 생성하는 단계를 포함할 수 있다.

Description

이미지 복원 방법 및 장치{METHOD AND APPARATUS FOR RESTORING IMAGE}
본 개시는 단일 네트워크로 구성되어 연속적인 방식으로 이미지를 임의의 해상도로 복원하면서 미세한 세부 사항을 학습할 수 있도록 하는 이미지 복원 방법 및 장치에 관한 것이다.
단일 이미지 초해상도(Single image super-resolution, SISR) 기술은 컴퓨터 비전 및 그래픽 분야에서 가장 근본적인 문제 중 하나이다. SISR(이하, SR로 통칭)은 저하된 저해상도 이미지에서 고해상도 이미지를 재구성하는 것을 목표로 한다.
가장 주요한 접근 방식은 딥 비전 아키텍처를 사용하여 특징 맵을 추출한 다음 네트워크 끝에서 고해상도 이미지로 업샘플링하는 것이다. 그러나 이러한 방법의 경우, 업샘플러가 서브픽셀 컨볼루션으로 구현될 때 각 스케일 팩터에 대해 여러 모델을 학습하고 저장해야 한다.
대조적으로 임의의 규모의 SR 방법은 단일 네트워크만을 사용하여, 연속적인 방식으로 이미지를 복원할 수 있다.
이에 최근에는 암시적 신경 함수(implicit neural function)를 이용하여 임의의 해상도로 이미지를 표현하는 태스크를 수행하고 있다. 이러한 암시적 신경 함수는 다층 퍼셉트론(multi-layer perceptron, MLP)에 의해 매개변수화되어, 이미지, 점유(occupancy), 부호화된 거리(signed distance), 모양 표현 및 뷰 합성과 같은 연속 영역 신호를 나타내는데 높은 성능을 보이고 있다. 이러한 다층 퍼셉트론은 좌표를 입력으로 사용하고 경사하강법 최적화 및 기계학습 프레임워크에서 훈련될 수 있다.
암시적 표현의 최근 발전에 영감을 받아 LIIF(Local Implicit Image Function)는 하위 픽셀 컨볼루션을 다층 퍼셉트론으로 대체하여 상당히 큰 스케일 팩터에서도 임의의 규모의 SR을 달성하였다.
그러나 암시적 신경 표현의 다층 퍼셉트론은 고주파 성분을 학습하는데 제한적인 성능을 보이고 있다. 즉 종래의 임의의 규모의 SR 방법은 암시적 신경 표현의 다층 퍼셉트론이 저주파 구성 요소를 학습하는데 편향되어 있고 세부 정보를 캡쳐하지 못하는 스펙트럼 편향 현상이 발생하는 문제가 있다.
전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
선행기술 1: Yinbo Chen, Sifei Liu, and Xiaolong Wang. Learning continuous image representation with local implicit image function. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 86288638, June 2021. 1, 2, 3, 4, 5, 6, 8 선행기술 2: Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, and Kyoung Mu Lee. Enhanced deep residual networks for single image super-resolution. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, July 2017. 1, 2, 4, 5, 6, 7, 8 선행기술 3: Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell, and Gordon Wetzstein. Implicit neural representations with periodic activation functions. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 74627473. Curran Associates, Inc., 2020. 1, 2
본 개시의 실시 예의 일 과제는, 단일 네트워크로 구성되어 자연 이미지에 대한 지배적 주파수(dominant frequency)를 추정하고, 연속적인 방식으로 이미지를 임의의 해상도로 복원하면서 미세한 세부 사항을 학습할 수 있도록 하여 이미지 복원의 정확도를 향상시키고자 하는데 있다.
본 개시의 실시 예의 일 과제는, 자연 이미지에 대한 지배적 주파수 및 필수 푸리에 정보를 추정하여, 임의의 해상도에 대한 암시적 신경망 함수가 고주파수 세부 사항 학습을 우선시하도록 하는데 있다.
본 개시의 실시예의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 개시의 일 실시 예에 따른 이미지 복원 방법은, 저해상도 이미지를 획득하는 단계와, 기 학습된 이미지 복원 알고리즘을 기반으로 저해상도 이미지의 푸리에 정보를 추정하여, 임의의 해상도에서 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출하는 단계와, 저해상도 이미지의 각 좌표에 대응하는 색상 값을 기반으로 임의의 해상도의 고해상도 이미지를 생성하는 단계를 포함할 수 있다.
이 외에도, 본 개시의 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 개시의 실시 예에 의하면, 단일 네트워크로 구성되어 자연 이미지에 대한 지배적 주파수를 추정하고, 연속적인 방식으로 이미지를 임의의 해상도로 복원하면서 미세한 세부 사항을 학습할 수 있도록 함으로써, 이미지 복원의 정확도를 향상시킬 수 있으며, 이미지 복원 작업에 대한 실행 시간을 감소시킬 수 있다.
또한 본 개시의 실시 예에 의하면, 자연 이미지에 대한 지배적 주파수 및 필수 푸리에 정보를 추정하여, 암시적 신경망 함수가 고주파수 세부 사항 학습을 우선시할 수 있도록 함으로써, 상당한 스케일 팩터에서도 고해상도 이미지를 임의의 해상도로 재구성할 수 있다.
본 개시의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시 예에 따른 이미지 복원 시스템을 개략적으로 도시한 도면이다.
도 2는 일 실시 예에 따른 로컬 텍스처 추정기(LTE)의 개요를 나타낸 도면이다.
도 3은 일 실시 예에 따른 이미지 복원 장치를 개략적으로 나타낸 블록도이다.
도 4는 일 실시 예에 따른 이미지 복원 알고리즘의 네트워크 구조를 개략적으로 나타낸 도면이다.
도 5는 일 실시 예에 따른 이미지 복원 알고리즘과 다른 임의 스케일 SR 알고리즘들과의 정성적 비교를 위한 도면이다.
도 6은 일 실시 예에 따른 이미지 복원 알고리즘과 종래 기술(LIIF)의 정수가 아닌 스케일 팩터에서의 정성적 비교를 위한 도면이다.
도 7은 일 실시 예에 따른 이미지 복원 알고리즘에 사용된 인코더(x6 SR 인코더) 간의 정성적 비교를 위한 도면이다.
도 8은 일 실시 예에 따른 이미지 복원 알고리즘에 SwinIR 인코더(x32 SR)를 사용한 결과를 나타낸 도면이다.
도 9는 다양한 텍스처의 이미지에 대한 스펙트럼 및 푸리에 공간을 시각적으로 개시한 도면이다.
도 10은 다양한 인코더로 추정된 푸리에 공간을 시각적으로 개시한 도면이다.
도 11은 일 실시 예에 따른 이미지 복원 알고리즘의 제거 학습 및 해당 푸리에 공간을 시각적으로 개시한 도면이다.
도 12는 일 실시 예에 따른 이미지 복원 알고리즘의 에일리어싱 효과를 나타낸 도면이다.
도 13은 일 실시 예에 따른 이미지 복원 알고리즘의 깁스 현상을 나타낸 도면이다.
도 14는 일 실시 예에 따른 이미지 복원 방법을 설명하기 위한 흐름도이다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다.
그러나 본 개시는 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 개시의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 개시가 완전하도록 하며, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 개시의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 개시를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이하, 본 개시에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시 예에 따른 이미지 복원 시스템을 개략적으로 도시한 도면이다.
도 1을 참조하면, 이미지 복원 시스템(1)은 이미지 복원 장치(100), 사용자 단말(200), 서버(300) 및 네트워크(400)를 포함할 수 있다.
다층 퍼셉트론을 기반으로 하는 암시적 신경 함수는 임의의 해상도로 이미지를 표현할 수 있다. 그러나 암시적 신경 함수의 다층 퍼셉트론은 저주파 구성 요소를 학습하는데 편향되어 세부 정보를 캡쳐하지 못한다는 한계가 있다.
이에, 이미지 복원 시스템(1)은 자연 이미지에 대한 지배적 주파수 추정기인 로컬 텍스처 추정기(Local Texture Estimator, LTE)를 포함하여 암시적 신경 표현을 수행할 수 있다.
이미지 복원 시스템(1)은 심층 SR 아키텍처와 로컬 텍스처 추정기를 함께 훈련할 수 있다. 이에 로컬 텍스처 추정기는 2차원 푸리에 공간에서 이미지 텍스처를 특성화 할 수 있다.
즉, 이미지 복원 시스템(1)은 로컬 텍스처 추정기를 통해 암시적 함수가 미세한 세부 사항을 포착하면서 연속적인 방식으로 이미지를 재구성할 수 있도록 할 수 있다.
도 2는 일 실시 예에 따른 로컬 텍스처 추정기(LTE)의 개요를 나타낸 도면이다.
도 2를 참조하여 개략적으로 설명하면, 로컬 텍스처 추정기는 자연 이미지에 대한 지배적인 주파수와 해당 푸리에 계수(Fourier coefficient)를 추정할 수 있다. 그런 다음 다층 퍼셉트론(MLP)은 추정된 필수 푸리에 정보를 사용하여 고해상도 이미지를 임의의 해상도로 복원(재구성)할 수 있다. 이때 다층 퍼셉트론의 출력에 확대된 저해상도 이미지를 추가하여 저주파 정보를 제공할 수 있다.
즉 이미지의 지배적인 주파수를 사용하면 암시적 함수가 이미지 텍스처 학습을 우선시 할 수 있다.
도 2에 도시된 바와 같이, 수직 텍스처가 있는 이미지의 경우, 이러한 이미지의 지배적인 주파수는 2차원 푸리에 공간에서 x축에 위치할 수 있다. 일 실시 예에서는, 로컬 텍스처 추정기가 심층 SR 아키텍처와 공동으로 훈련될 때, 2차원 푸리에 공간에서 이미지 텍스처를 특성화하여 지배적인 주파수를 추출할 수 있다.
또한 일 실시 예에서는, 지배적인 주파수를 추출하는 것 외에도 푸리에 계수를 추정하여 암시적 함수의 표현력을 향상시킬 수 있다.
한편 일 실시 예에서는, 사용자들이 사용자 단말(200)에서 구현되는 어플리케이션 또는 웹사이트에 접속하여, 이미지 복원 장치(100)의 네트워크를 생성 및 학습하는 등의 과정을 수행할 수 있다.
이러한 사용자 단말(200)은 사용자가 조작하는 데스크 탑 컴퓨터, 스마트폰, 노트북, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.
또한, 사용자 단말(200)은 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 일 수 있다. 사용자 단말(200)은 상술한 내용에 제한되지 아니하며, 웹 브라우징이 가능한 단말기는 제한 없이 차용될 수 있다.
일 실시 예에서, 이미지 복원 시스템(1)은 이미지 복원 장치(100) 및/또는 서버(300)에 의해 구현될 수 있다.
일 실시 예에서, 이미지 복원 장치(100)는 서버(300)에서 구현될 수 있는데, 이때 서버(300)는 이미지 복원 장치(100)가 포함되는 이미지 복원 시스템(1)을 운용하기 위한 서버이거나 이미지 복원 장치(100)의 일부분 또는 전 부분을 구현하는 서버일 수 있다.
일 실시 예에서, 서버(300)는 저해상도 이미지를 획득하고 로컬 텍스처 추정기 기반 임의의 규모의 SR 네트워크를 통해 저해상도 이미지의 고주파 성분을 학습하여, 연속적인 방식으로 저해상도 이미지를 고해상도 이미지로 복원하는 전반의 프로세스에 대한 이미지 복원 장치(100)의 동작을 제어하는 서버일 수 있다.
또한, 서버(300)는 이미지 복원 장치(100)를 동작시키는 데이터를 제공하는 데이터베이스 서버일 수 있다. 그 밖에 서버(300)는 웹 서버 또는 어플리케이션 서버 또는 딥러닝 네트워크 제공 서버를 포함할 수 있다.
그리고 서버(300)는 각종 인공 지능 알고리즘을 적용하는데 필요한 빅데이터 서버 및 AI 서버, 각종 알고리즘의 연산을 수행하는 연산 서버 등을 포함할 수 있다.
또한 본 실시 예에서, 서버(300)는 상술하는 서버들을 포함하거나 이러한 서버들과 네트워킹 할 수 있다. 즉, 본 실시 예에서, 서버(300)는 상기의 웹 서버 및 AI 서버를 포함하거나 이러한 서버들과 네트워킹 할 수 있다.
이미지 복원 시스템(1)에서 이미지 복원 장치(100) 및 서버(300)는 네트워크(400)에 의해 연결될 수 있다. 이러한 네트워크(400)는 예컨대 LANs(local area networks), WANs(Wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 개시의 범위가 이에 한정되는 것은 아니다. 또한 네트워크(400)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다.
또한, 네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다. 더 나아가 네트워크(400)는 사물 등 분산된 구성 요소들 간에 정보를 주고받아 처리하는 IoT(Internet of Things, 사물인터넷) 망 및/또는 5G 통신을 지원할 수 있다.
도 3은 일 실시 예에 따른 이미지 복원 장치를 개략적으로 나타낸 블록도이다.
도 3을 참조하면, 이미지 복원 장치(100)는 통신부(110), 사용자 인터페이스(120), 메모리(130) 및 프로세서(140)를 포함할 수 있다.
통신부(110)는 네트워크(400)와 연동하여 외부 장치간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공할 수 있다. 또한 통신부(110)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
즉, 프로세서(140)는 통신부(110)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다.
일 실시 예에서, 사용자 인터페이스(120)는 이미지 복원 장치(100)의 동작(예컨대, 네트워크의 파라미터 변경, 네트워크의 학습 조건 변경 등)을 제어하기 위한 사용자 요청 및 명령들이 입력되는 입력 인터페이스를 포함할 수 있다.
그리고 일 실시 예에서, 사용자 인터페이스(120)는 이미지 복원 결과를 출력하는 출력 인터페이스를 포함할 수 있다. 즉, 사용자 인터페이스(120)는 사용자 요청 및 명령에 따른 결과를 출력할 수 있다. 이러한 사용자 인터페이스(120)의 입력 인터페이스와 출력 인터페이스는 동일한 인터페이스에서 구현될 수 있다.
메모리(130)는 이미지 복원 장치(100)의 동작의 제어(연산)에 필요한 각종 정보들을 저장하고, 제어 소프트웨어를 저장할 수 있는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다.
메모리(130)는 하나 이상의 프로세서(140)와 전기적 또는 내부 통신 인터페이스로 연결되고, 프로세서(140)에 의해 실행될 때, 프로세서(140)로 하여금 이미지 복원 장치(100)를 제어하도록 야기하는(cause) 코드들을 저장할 수 있다.
여기서, 메모리(130)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media) 등의 비 일시적 저장매체이거나 램(RAM) 등의 일시적 저장매체를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이러한 메모리(130)는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD. CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다.
그리고, 메모리(130)에는 본 개시에 따른 학습을 수행하기 위한 알고리즘에 관련된 정보가 저장될 수 있다. 그 밖에도 본 개시의 목적을 달성하기 위한 범위 내에서 필요한 다양한 정보가 메모리(130)에 저장될 수 있으며, 메모리(130)에 저장된 정보는 서버 또는 외부 장치로부터 수신되거나 사용자에 의해 입력됨에 따라 갱신될 수도 있다.
프로세서(140)는 이미지 복원 장치(100)의 전반적인 동작을 제어할 수 있다. 구체적으로, 프로세서(140)는 메모리(130)를 포함하는 이미지 복원 장치(100)의 구성과 연결되며, 메모리(130)에 저장된 적어도 하나의 명령을 실행하여 이미지 복원 장치(100)의 동작을 전반적으로 제어할 수 있다.
프로세서(140)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(140)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(Hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.
프로세서(140)는 일종의 중앙처리장치로서 메모리(130)에 탑재된 제어 소프트웨어를 구동하여 이미지 복원 장치(100)의 동작을 제어할 수 있다. 프로세서(140)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령어로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다.
프로세서(140)는 저해상도 이미지를 획득하고, 기 학습된 이미지 복원 알고리즘을 기반으로 저해상도 이미지의 푸리에 정보를 추정하여, 임의의 해상도(고해상도)에서 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출할 수 있다. 여기서, 이미지의 푸리에 정보란 적어도 이미지의 지배 주파수 및 진폭에 대한 정보를 포함할 수 있다. 또한, 임의의 해상도에서 저해상도 이미지의 각 좌표란 저해상도 이미지가 고해상도로 표현된다고 가정할 때의 각 화소마다의 위치를 표현하는 좌표를 의미할 수 있다.
이때, 프로세서(140)는 저해상도 이미지를 인코딩하여 잠재 특징벡터를 추출하고, 잠재 특징벡터를 기반으로 저해상도 이미지의 각 좌표에 대응하는 지배적 주파수 및 푸리에 계수를 추정할 수 있다.
그리고 프로세서(140)는 지배적 주파수 및 푸리에 계수를 기반으로 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출할 수 있다.
여기서, 기 학습된 이미지 복원 알고리즘은, 저해상도 이미지가 입력되면 저해상도 이미지의 각 2차원 좌표를 기반으로, 각 2차원 좌표에 대응하는 로컬 잠재 특징벡터에서 도출된 지배적 주파수 및 푸리에 계수를 입력으로 쿼리(query)하여, 각 2차원 좌표에 매핑된 색상 값이 출력되도록 학습된 학습 모델일 수 있다.
프로세서(140)는 저해상도 이미지의 각 좌표에 대응하는 색상 값을 기반으로 임의의 해상도의 고해상도 이미지를 생성할 수 있다. 이때 프로세서(140)는 저해상도 이미지의 업스케일링을 수행하여, LR 스킵 커넥션(LR skip connection) 레이어를 통해 업스케일링된 저해상도 이미지 정보를 반영하여 고해상도 이미지를 생성할 수 있다.
이하에서는, 프로세서(140)에서의 구체적인 이미지 복원 과정에 대해서 도 4 및 수학식 1 내지 8을 참조하여 설명한다.
도 4는 일 실시 예에 따른 이미지 복원 알고리즘의 네트워크 구조를 개략적으로 나타낸 도면이다.
시각적 세계가 연속적인 방식으로 표시되는 동안 기계는 2차원 픽셀 배열을 사용하여 개별 방식으로 이미지를 저장하고 이해(see)할 수 있다. 픽셀 기반 표현은 다양한 컴퓨터 비전 작업에 성공적으로 적용되었지만 해상도의 제약을 받기도 한다. 예를 들어, 컨볼루션 신경망을 훈련시키기 위한 데이터 세트의 이미지들의 해상도가 다른 경우, 이미지의 크기를 동일한 크기로 조정하면 정확도가 떨어질 수 있다.
즉 고정된 해상도로 이미지를 표현하지 않고, 저해상도 이미지를 임의의 고해상도 이미지로 복원하기 위해서는, 이미지에 대한 연속적인 표현을 학습해야 한다.
이에, 프로세서(140)는 이미지를 연속 영역에 정의된 함수로 모델링 하여 임의의 해상도로 이미지를 복원하고 생성할 수 있다.
일 실시 예의 프로세서(140)는 저해상도 이미지에서 고해상도 이미지를 재구성할 수 있다. 보다 구체적으로, 프로세서(140)는 스케일 팩터(scale factor) r이 주어진 경우, 저해상도 이미지()로부터 고해상도 이미지()를 표현하는 것을 목표로 한다.
프로세서(140)는 로컬 암시적 신경 표현(local implicit neural representation)을 기반으로 이미지의 연속 표현을 검토할 수 있다. 일 실시 예에서, 이미지는 RGB 이미지일 수 있다.
로컬 암시적 신경 표현에 있어, 독립 실행형 다층 퍼셉트론(standalone MLP)이 이용되는 경우 고주파수 세부 정보를 캡처하지 못하는 스펙트럼 편향 현상이 발생할 수 있다.
이에 일 실시 예의 프로세서(140)는 자연 이미지(natural image)에 대한 지배적 주파수를 추정할 수 있다. 이때 추정된 주파수는 데이터 기반이며, 이미지 텍스처와 강한 상관 관계가 있다.
그리고 일 실시 예의 프로세서(140)는 스케일 종속 위상 인코딩 및 저해상도 이미지 스킵 연결을 수행하여 고주파 텍스처를 학습함으로써, 연속 도메인 신호를 나타내는 데 뛰어난 성능을 보여줄 수 있다.
도 4는 이미지 복원 장치(100)의 이미지 복원 알고리즘의 네트워크 구조의 실시 예를 개략적으로 나타낸 것이다. 즉 도 4는 로컬 텍스처 추정기(LTE, 도 4의 점선 부분)를 사용하여 임의의 규모의 SR이 가능하도록 하는 네트워크 구조의 실시 예이다.
도 4를 참조하면, 이미지 복원 알고리즘의 네트워크 구조는 인코더 , 로컬 텍스처 추정기 , 디코더 및 LR 스킵 커넥션으로 구성될 수 있다.
로컬 텍스처 추정기 에서의 입력은 인코더 의 출력과, 로컬 그리드(local grid) 및 셀(cell)의 특징 맵일 수 있다.
로컬 텍스처 추정기 는 추출된 진폭, 주파수, 위상 정보를 사용하여 입력을 푸리에 도메인으로 변경할 수 있다.
그리고 프로세서(140)는 LR 스킵 커넥션을 통해 디코더 의 출력에 쌍선형 업스케일된 저해상도(LR) 이미지를 추가할 수 있다. 이러한 긴 LR 스킵 커넥션은 DC 오프셋을 제공할 수 있기 때문에, 로컬 텍스처 추정기 가 지배적인 주파수와 해당하는 필수 푸리에 계수를 학습하는 쪽으로 편향될 수 있다.
즉, 로컬 텍스처 추정기 기반 임의의 규모의 SR 방법은 심층 SR 인코더, 로컬 텍스처 추정기 및 암시적 신경 함수의 세 가지 구성 요소로 구성될 수 있다.
심층 SR 인코더는, 저해상도 이미지와 높이와 너비가 동일한 특징 맵을 추출할 수 있다. 그런 다음 로컬 텍스처 추정기는 인코더에서 특징 맵을 가져와 자연 이미지에 대한 주요 주파수 및 해당 푸리에 계수를 추정할 수 있다. 로컬 텍스처 추정기가 고주파 텍스처를 학습할 때 편향될 수 있도록 스케일 종속 위상 및 LR 스킵 커넥션이 추가로 포함될 수 있다.
마지막으로 암시적 함수는 추정된 푸리에 정보를 사용하여 임의의 해상도로 이미지를 재구성할 수 있다. 따라서 암시적 함수는 디코더를 의미할 수 있다.
일 실시 예에서는, 인코더 , 디코더 및 LR 스킵 커넥션이 백본(backbone) 네트워크들에 기반하여 구현될 수 있다. 예를 들어, 백본 네트워크는 EDSR-baseline, RDN 및 SwinIR 등이 인코더 로 사용될 수 있다.
일 실시 예에서는, 인코더 에서 업샘플링 레이어 없이 백본 네트워크를 사용할 수 있다. 따라서 인코더 의 출력은 입력된 저해상도 이미지와 너비와 높이가 동일할 수 있다.
이에, 일 실시 예에서는, 인코더 의 동작이 수신필드(Receptive Field, RF) 내의 이미지를 선형결합하고 비선형 함수를 연달아 적용하기 때문에(푸리에 변환을 하는 연산과 유사), 푸리에 정보를 추정하는 로컬 텍스처 추정기에 도움이 된다고 가정할 수 있다.
다시 말하면, 일 실시 예의 인코더 와 같은 심층 SR 네트워크가 RF 내부의 자연 이미지의 특징을 추출하여 중요한 푸리에 정보를 추정하는 로컬 텍스처 추정기의 학습 성능을 향상시킬 수 있다.
상술한 바와 같이, 백본 네트워크에 기반하여 구현되는 인코더 , 디코더 및 LR 스킵 커넥션에서, 프로세서(140)는 연속적인 이미지 표현을 위해 로컬 암시적 신경망 함수(Local Implicit Image Function)를 사용할 수 있다. 로컬 암시적 신경망 함수는 이미지 좌표와 좌표 주변의 2차원 심층 특징(deep feature)을 입력으로 받아, 주어진 좌표에서 RGB 값을 출력으로 예측할 수 있다.
보다 구체적으로, 프로세서(140)는 이미지에 대한 연속적 표현을 생성하기 위해 초해상도의 자체 감독 작업을 통해 로컬 암시적 신경망 함수 표현으로 인코더 를 훈련할 수 있다. 로컬 암시적 신경망 함수 표현이란, 이미지를 공간 차원에 분산된 잠재 코드 집합으로 표현하는 것이다.
그리고 디코더 는 좌표가 주어지면 좌표 정보를 취하고 좌표 주변의 로컬 잠재 코드를 입력으로 쿼리한 다음 주어진 좌표에서 RGB 값을 출력으로 예측할 수 있다.
즉, 좌표가 연속적이므로, 로컬 암시적 신경망 함수는 저해상도 이미지를 임의의 고해상도 이미지로 표현할 수 있다.
이에, 로컬 텍스처 추정기 를 제외한 이미지 복원 알고리즘의 네트워크 구조를 기반으로 로컬 암시적 신경 표현에 대해 설명한다.
로컬 암시적 신경 표현을 위해, 디코더 는 모든 이미지에서 공유되며 학습 가능한 가중치 를 가진 심층 신경망에 의해 매개변수화 될 수 있다. 일 실시 예에서, 심층 신경망은 ReLU 활성화가 있는 4계층 다층 퍼셉트론일 수 있으며, 숨겨진 차원(hidden dimension)은 256일 수 있다.
일 실시 예에서, 디코더 는 잠재 텐서와 로컬 좌표를 색상 값(RGB 값)으로 매핑할 수 있다.
즉, 디코더 와 같이 표현할 수 있다. 여기서, 는 인코더 의 잠재 텐서이고, 는 연속 이미지 영역의 2차원 좌표이며, 는 디코더 로부터 예측된 값의 공간이다.
일 실시 예에서는, 단순화를 위해 잠재 텐서 가 저해상도 이미지 와 너비와 높이가 같다고 가정할 수 있다.
그러면, 좌표 에서 예측된 색상 값()은 다음 수학식 1 및 수학식 2와 같이 추정될 수 있다.
수학식 1의 파라미터 는 인코더 의 파라미터 와 디코더 의 파라미터 에 기반한 것으로, 와 같이 표현할 수 있다.
또한, 는 좌표 주변의 4 개의 가장 가까운 잠재 코드에 대한 인덱스 집합을 나타낼 수 있다. 여기서 가장 가까운 잠재 코드는 유클리드 거리를 기반으로 할 수 있으나 이에 한정되는 것은 아니다.
여기서, 는 잠재 코드 에 해당하는 쌍선형 보간 가중치(bilinear interpolation weight)를 나타내며, 가중치의 합은 1 이다(). 쌍선형 보간 가중치는 로컬 앙상블 가중치(local ensemble weight)라고 할 수 있다.
또한, 에서 번째로 가장 가까운 잠재 특징 벡터이고, 는 잠재 코드 의 좌표이다.
상기 수학식 1 및 수학식 2를 기반으로, 와 같은 N 이미지의 일련의 M 데이터 포인트가 주어지면, 로컬 암시적 신경 표현을 위한 학습 문제는 다음 수학식 3과 같이 정의될 수 있다.
실제로 는 2차원에 대해 [-H, H]와 [-W, W]에 걸쳐 있게 된다.
일 실시 예에서, 프로세서(140)는 고해상도 표현에서 로컬 영역을 나타내기 위해, 디코더 에서 로컬 그리드(local grid)로 알려진 상대 좌표 로 연속 표현을 예측할 수 있다.
상기에서 개략적으로 설명한 바와 같이, 종래의 로컬 암시적 신경 표현을 위한 알고리즘(예를 들어, ReLU를 사용하는 MLP)의 경우 저주파 콘텐츠 학습에 편향되어 있는 문제가 있다. 이에 프로세서(140)는 암시적 신경 함수의 스펙트럼 편향 문제를 해결하기 위해, 자연 이미지에 대한 필수 푸리에 정보를 추정할 수 있다.
일 실시 예에서, 추정된 푸리에 정보는 위치 인코딩이나 푸리에 특징 매핑과 달리 데이터 기반이며, 2차원 푸리에 공간에서 이미지 텍스처를 반영할 수 있다.
따라서, 프로세서(140)는 수학식 1에서 다음 수학식 4와 같이 수정하여 로컬 암시적 신경 표현을 학습할 수 있다.
여기서, 는 시프트 불변(shift-invariant)인 로컬 텍스처 추정기를 나타낸다. 로컬 텍스처 추정기 는 진폭 추정기(), 주파수 추정기() 및 위상 추정기()를 포함하여 구성될 수 있다. 또한, 로컬 텍스처 추정기 는 사인파 활성화 레이어를 포함할 수 있다.
예를 들어, 진폭 추정기 및 주파수 추정기 는 각각 256 개의 출력 채널을 갖는 3 x 3 컨볼루션 레이어로 설계될 수 있으며, 특징 맵을 펼쳤을 때 완전 연결 레이어(fully connected layer)와 동일하게 구성될 수 있다.
또한 위상 추정기 는 하나의 완전 연결 레이어이고, 128의 숨겨진 차원으로 구성될 수 있다.
일 실시 예에서, 위상 추정기 는 셀을 입력으로 사용하는 반면, 진폭 추정기 및 주파수 추정기 는 동일한 특징 맵을 사용할 수 있다.
따라서, 일 실시 예에서, 로컬 그리드 좌표 가 주어지면, 로컬 텍스처 추정기 로 표현될 수 있으며, 다음 수학식 5 및 수학식 6과 같이 정의될 수 있다.
여기서, 는 잠재 코드 에 대한 진폭 벡터이고, 는 잠재 코드 에 대한 주파수 행렬이다. 는 요소별 곱셈(element-wise multiplication)을 나타낸다.
즉, 프로세서(140)는 예측된 진폭과 사인파 활성화 출력을 곱할 수 있다.
일 실시 예에서는, 를 원래 신호(original signals)에 최대한 가깝게 나타내기 위해 진폭 벡터와 주파수 행렬이 잠재 코드 에서 추출되었다고 간주할 수 있다.
즉, 이미지 복원 알고리즘의 인코더와 로컬 텍스처 추정기()을 통해, RF 내부의 픽셀을 관찰함으로써 지배적 주파수및 해당 푸리에 계수를 정확하게 추정할 수 있다.
여기서 RF의 크기는 인코더 에 의해 결정될 수 있다.
추정된 주파수와 해당 푸리에 계수는 도 9 내지 도 11에 시각적으로 개시되어 있다.
프로세서(140)는 로컬 텍스처 추정기 의 출력의 정보를 풍부하게 하기 위해, 에서 번째로 가장 가까운 잠재 특징 벡터 에 전개 기법(unfolding technique)을 적용하여, 에서 3 x 3 가장 가까운 잠재 변수를 연결할 수 있다. 이는 훈련 가능한 컨볼루션 필터()로 구현될 수 있다.
프로세서(140)는 고해상도 도메인의 r x r 로컬 영역이 수학식 4와 같이 로컬 텍스처 추정기 에서 추출한 진폭 및 주파수 정보를 공유한다고 가정할 수 있다. 이에 따라, 프로세서(140)는 최근접 이웃(nearest-neighborhood) 보간을 사용하여 추출된 푸리에 정보를 업스케일 할 수 있다.
일 실시 예에서는, 출력 그리드()와 입력 그리드()의 스텝 사이즈(2/r, 그림2의 cell)가 다르다. 즉 최근접 이웃 보간 수행 이전에는 저해상도 도메인(LR domain)이었다가, 최근접 보간 수행 이후부터는 고해상도 도메인(HR domain)이다.
한편, SR 작업의 경우 스케일 팩터가 변경될 때 고해상도(HR) 도메인의 small neighborhood 내에서 에지의 위치가 변경될 수 있다.
이러한 문제를 해결하기 위해, 프로세서(140)는 다음 수학식 7과 같이 로컬 텍스처 추정기 의 함수를 재정의할 수 있다. 즉, 프로세서(140)는 최근접 이웃 보간을 사용하여 추출된 푸리에 정보를 업스케일한 후, 다음 수학식 7과 같이, 예측된 위상을 예측된 주파수와 로컬 그리드 사이의 내적에 추가할 수 있다. 수학식 7의 위상은 특징 맵의 에지 위치에 대한 정보를 포함할 수 있다.
여기서, c는 셀 크기를 나타낸다. 종래의 로컬 암시적 신경 표현을 위한 알고리즘(예를 들어, ReLU를 사용하는 MLP)의 경우, 보이지 않는 비선형 공간을 외삽(extrapolating)할 수 없다는 사실에 기반하여, 프로세서(140)는 를 사용할 수 있다. 여기서, 은 훈련 중 최소 셀 크기를 나타낼 수 있다.
또한, 프로세서(140)는 잔차(residual)의 고주파 성분을 풍부하게 하고 수렴을 안정화 하기 위해, 로컬 암시적 표현에 있어, 긴 LR 스킵 커넥션을 사용할 수 있다.
일 실시 예에서는, 푸리에 분석의 맥락에서 저해상도 이미지의 LR 스킵 커넥션이 로컬 텍스처 추정기 기반 신경 함수에 DC 바이어스를 제공한다고 가정할 수 있다. 이에 대한 실증적 증거는 도 9 내지 도 11에 개시되어 있다.
따라서, 로컬 텍스처 추정기 를 사용한 로컬 암시적 신경 표현은 다음 수학식 8과 같이 공식화 될 수 있다.
한편, 일 실시 예의 이미지 복원 알고리즘은, 임의의 스케일 팩터를 설정하고, 고해상도 이미지에서 스케일 팩터를 반영한 크기의 패치를 선택한 후, 선택한 패치를 스케일 팩터만큼 다운샘플링하여 생성한 훈련 이미지로 학습될 수 있다.
그리고 이미지 복원 알고리즘에서는, 이미지 도메인에 있는 픽셀의 중심 좌표를 기반으로 색상 값이 예측될 수 있다.
프로세서(140)는 이미지 복원 알고리즘에서 예측된 색상 값과 GT(ground truth)의 색상 값의 차이가 최소화되도록 이미지 복원 알고리즘을 최적화 할 수 있다. 이때, GT는 훈련 이미지를 픽셀 샘플(이미지 도메인에 있는 픽셀의 중심 좌표, 해당 픽셀의 색상 값)로 표현하여 생성할 수 있다.
또한, 일 실시 예에서는, 이미지 복원 알고리즘의 훈련을 위해서, 규모 내(in-scale)라고 불리는 X 1 - X 4에서 균일하게 샘플링된 규모로 미니 배치를 구성할 수 있다. 이는 다양한 스케일에서 bicubic degradation의 특성을 가르치기 위한 것이다.
그리고 일 실시 예에서는, 이미지 복원 알고리즘의 일반화 능력을 확인하기 위해 규모 내에 대해서만 아니라, 보이지 않는 규모(특히 X6 - X30)인 규모 외 모두에 대해 이미지 복원 알고리즘을 평가할 수 있다.
r을 X1 - X4에서 무작위로 추출한 스케일 팩터라고 하고, H, W를 트레이닝 패치의 높이, 너비라고 한다.
일 실시 예에서는, 먼저 고해상도 이미지에서 rH x rW 패치를 자른다. 일 실시 예에서는, 훈련 쌍을 준비할 때 GT에 대해 고해상도 패치에서 HW 픽셀을 무작위로 샘플링하고 LR 대응에 대해 스케일 팩터 r만큼 고행상도 패치를 다운 샘플링할 수 있다. 그리고 훈련 중 손실을 계산할 때 보간 출력에서 HW 픽셀을 선택하여 GT와 예측 치수를 일치시킬 수 있다.
이하에서는, 도 5 내지 도 13을 참조하여, 상기 수학식들(특히 수학식 4)에 기반하여 이미지 복원 알고리즘의 구현 성능에 대한 실험 결과를 설명한다.
도 5는 일 실시 예에 따른 이미지 복원 알고리즘과 다른 임의 스케일 SR 알고리즘들과의 정성적 비교를 위한 도면이고, 도 6은 일 실시 예에 따른 이미지 복원 알고리즘과 종래 기술(LIIF)의 정수가 아닌 스케일 팩터에서의 정성적 비교를 위한 도면이며, 도 7은 일 실시 예에 따른 이미지 복원 알고리즘에 사용된 인코더(x6 SR 인코더) 간의 정성적 비교를 위한 도면이고, 도 8은 일 실시 예에 따른 이미지 복원 알고리즘에 SwinIR 인코더(x32 SR)를 사용한 결과를 나타낸 도면이다.
또한, 도 9는 다양한 텍스처의 이미지에 대한 스펙트럼 및 푸리에 공간을 시각적으로 개시한 도면이고, 도 10은 다양한 인코더로 추정된 푸리에 공간을 시각적으로 개시한 도면이며, 도 11은 일 실시 예에 따른 이미지 복원 알고리즘의 제거 학습 및 해당 푸리에 공간을 시각적으로 개시한 도면이고, 도 12는 일 실시 예에 따른 이미지 복원 알고리즘의 에일리어싱 효과를 나타낸 도면이며, 도 13은 일 실시 예에 따른 이미지 복원 알고리즘의 깁스 현상을 나타낸 도면이다.
일 실시 예에서는, 이미지 복원 장치(100)의 성능을 검증하기 위한 실험을 진행하였다. 예를 들어, 이미지 복원 알고리즘(LTE)의 네트워크 훈련을 위해 NTIRE 2017 Challenge의 DIV2K 데이터 세트를 사용할 수 있다. 이하에서는, 다른 SR 방법과의 구분 및 설명의 편의를 위해, 일 실시 예의 이미지 복원 알고리즘은 이미지 복원 알고리즘(LTE)으로 표시한다.
그리고 일 실시 예에서는, 이미지 복원 알고리즘(LTE)의 네트워크 평가를 위해, 검증 데이터 세트에 대한 피크 대 신호 잡음비(peak to-signal-noise ratio, PSNR) 결과를 리포트 할 수 있다. 검증 데이터 세트는 예를 들어, DIV2K 검증 Set1, Set5, Set14, B100 및 Urban100 등이 사용될 수 있다.
일 실시 예에서는, 이미지 복원 알고리즘(LTE)의 네트워크 입력에 48 x 48 패치를 사용할 수 있다. 또한 일 실시 예에서는, 훈련 시간 동안 임의 스케일의 다운 샘플링을 수행할 수 있으며, bicubic 크기 조정을 사용할 수 있다.
또한 일 실시 예에서는, 최적화를 위해 L1 손실과 Adam 알고리즘을 사용할 수 있다.
그리고 일 실시 예에서는, EDSR-baseline 또는 RDN과 같은 CNN 백본 네트워크를 기반으로 하는 인코더로 로컬 텍스처 추정기를 훈련할 수 있다. 이때 이미지 복원 알고리즘(LTE)의 네트워크는 배치 크기가 16일 수 있고, 1000 에포크(epoch)로 훈련되도록 설정될 수 있다. 그리고 러닝 레이트(learning rate)는 1e-4로 초기화되고 [200, 400, 600, 800]에서 인수 0.5 감소하도록 설정될 수 있다.
또한, 일 실시 예에서는, SwinIR과 같은 트랜스포머 기반 인코더로 LTE를 훈련할 수 있다. 이때 이미지 복원 알고리즘(LTE)의 네트워크는 배치 크기가 32일 수 있고 1000 에포크로 훈련되도록 설정될 수 있다. 그리고 러닝 레이트는 2e-4로 초기화되고, [500, 800, 900, 950]에서 인수 0.5 감소하도록 설정될 수 있다.
아래 표 1은 DIV2K 검증 세트(PSNR(dB))에서 임의 규모 SR에 대한 최첨단 방법과의 정량적 비교를 위한 표이다. 진한 점선과 흐린 점선은 각각 최고의 성능과 두 번째로 좋은 성능을 나타낸다.
또한, 아래 표 2는 벤치마크 데이터 세트(PSNR(dB))에서 임의 규모 SR에 대한 최첨단 방법과의 정략적 비교를 위한 표이다. 진한 점선과 흐린 점선은 각각 최고의 성능과 두 번째로 좋은 성능을 나타낸다.
표 1을 참조하여, DIV2K 검증 세트에서, 이미지 복원 알고리즘(LTE)의 네트워크와 종래의 임의 규모 SR 방법인 MetaSR, LIIF 간의 정량적 비교를 할 수 있다. 상단 행 및 하단 행은 각각 EDSR baseline과 RDN을 인코더로 사용했을 때의 결과를 나타낸 것이다.
즉 표 1의 결과를 통해, 이미지 복원 알고리즘(LTE)의 네트워크(ours)는, 인코더 선택에 관계없이 모든 스케일 팩터에 대해 최상의 성능을 달성함을 확인할 수 있으며, 이는 로컬 텍스처 인코딩의 효율성을 나타내는 것이다.
표 2의 상단 행(RDN, RDN-MetaSR, RDN-LIIF, ours)은 벤치마크 데이터 세트에서 이미지 복원 알고리즘(LTE)의 네트워크와 RDN, MetaSR, LIIF를 비교한 것이다. RDN은 특정 스케일로 훈련된다. 따라서 규모 내에서 더 중요한 이점이 있다. 그러나 RDN을 비롯한 다른 방법들에 비해, 이미지 복원 알고리즘(LTE)의 네트워크(ours)는 Set5 x2의 경우를 제외하고 최고의 성능을 보여준다. 최대 PSNR 이득은 x3에 대해 Urban100에서 0.15dB에 이른다.
표 2의 하단 행(SwinIR, ours)을 참조하면, 이미지 복원 알고리즘(LTE)의 네트워크가 트랜스포머 기반 인코더인 SwinIR로 훈련될 때 성능이 상당한 격차(Urban100 x2에서 최대 0.46dB)만큼 추가로 증가하여, 규모 내에서 SwinIR에 대한 경쟁력 있는 결과를 달성한다는 것을 확인할 수 있다.
도 5를 참조하여, 다른 임의 스케일 SR 방법과 이미지 복원 알고리즘(LTE)을 정성적으로 비교할 수 있다. 공정한 비교를 위해 MetaSR, LIIF 및 이미지 복원 알고리즘(LTE)의 네트워크는 RDN으로 훈련될 수 있다. MetaSR은 라지 스케일 팩터(> 4)에 대한 고해상도 이미지를 재구성할 수 있다. MetaSR은 뭉툭한(blocky) 아티팩트(artifact)를 허용하고, LIIF는 구조적 왜곡을 보인다. 대조적으로, 이미지 복원 알고리즘(LTE)의 네트워크는 불연속성 없이 고주파수 디테일을 포착할 수 있다.
도 6을 참조하여, 정수가 아닌 스케일 팩터를 가진 텍스트 이미지에 대해 LIIF와 이미지 복원 알고리즘(LTE)의 네트워크를 비교한다. 이를 통해, 일 실시 예에서는, 이미지 복원 알고리즘(LTE)의 네트워크가 모든 스케일 팩터(즉, 첫 번째 행의 'n',‘t'와 두 번째 행의 'u', 'i', 'n')에 대해 인쇄된 텍스트의 더 선명한 가장자리를 복원할 수 있음을 확인할 수 있다.
도 7은 x6 SR에 대한 정성적 비교를 보여준다. 이미지 복원 알고리즘(LTE)의 네트워크에 이어 SwinIR이 GT에 충실한 가장 시각적으로 만족스러운 이미지를 재구성한다. 이는 이미지 복원 알고리즘(LTE)의 네트워크가 강력한 인코더와 공동으로 훈련할 때 지배적인 주파수와 해당 필수 푸리에 계수를 정확하게 추출한다는 것의 의미할 수 있다. 푸리에 분석을 이용한 실증적 설명은 후술하도록 하며, 도 10을 참조할 수 있다.
도 8을 참조하여, 매우 큰 스케일(특히 x32)에서, 이미지 복원 알고리즘(LTE)의 네트워크의 구현 결과를 시각적으로 볼 수 있다. 이를 위해 SwinIR로 이미지 복원 알고리즘(LTE)의 네트워크를 훈련할 수 있으며, 입력 이미지의 너비는 64px로 설정될 수 있다.
일 실시 예에 따른 이미지 복원 알고리즘(LTE)의 네트워크는 bicubic에 비해 더 선명하고 자연스러운 가장자리로 이미지를 보간할 수 있다.
표 3은 이미지 복원 알고리즘(LTE)의 네트워크의 각 구성 요소 제거에 따른 정량적 결과를 나타낸다(on Urban 100). EDSR baseline이 인코더로 사용될 수 있다. A, -F, -P 및 -L의 정의는 도 11에 도시되어 있다.
일 실시 예에서는, 이를 통해 이미지 복원 알고리즘(LTE)의 네트워크, 특히 로컬 텍스처 추정기의 각 구성 요소의 효과를 확인할 수 있다.
일 실시 예에서는, EDSR-baseline을 사용하여, 진폭 추정기가 없는 로컬 텍스처 추정기(-A), 128개 주파수(not 256)만 추정하는 주파수 추정기가 있는 로컬 텍스처 추정기(-F), 위상 추정기가 없는 로컬 텍스처 추정기(-P) 및 LR 스킵 커넥션이 없는 로컬 텍스처 추정기(-L)를 통해 이미지 복원 알고리즘(LTE)을 재학습 할 수 있다.
표 3을 참조하여, 성능에 대한 로컬 텍스처 추정기의 각 구성 요소의 기여도를 확인할 수 있다. 기본 이미지 복원 알고리즘은 LTE로 표시하고, (-A)가 사용된 이미지 복원 알고리즘은 LTE(-A), (-F)가 사용된 이미지 복원 알고리즘은 LTE(-F), (-P)가 사용된 이미지 복원 알고리즘은 LTE(-P), (-L)가 사용된 이미지 복원 알고리즘은 LTE(-L)로 표시할 수 있다.
즉, 일 실시 예에서는, 각 추정 주파수의 중요도를 확인하기 위해, LTE와 LTE(-F)를 비교할 수 있다. 또한 일 실시 예에서는, LTE와 LTE(-A) 사이의 비교를 통해, 진폭 추정기가 지배적인 주파수를 강조한다는 것을 확인할 수 있다.
그리고 일 실시 예에서는, LTE와 LTE(-P)를 비교하여 위상차를 무시하면 상당한 성능 저하가 발생함을 확인할 수 있다. 또한 일 실시 예에서는, LTE와 LTE(-L)을 비교하여, LR 스킵 커넥션이 지속적으로 LTE 품질을 향상시키는 것을 확인할 수 있다.
도 9 내지 도 11을 참조하여, 추출된 지배 주파수를 다양한 텍스처로 시각화 할 수 있다. 또한 푸리에 공간의 렌즈를 통해 각 LTE의 구성 요소(특히, 진폭, 주파수, 위상, LR 스킵 연결)의 기여도를 확인할 수 있다.
일 실시 예에서는, 시각화를 위해 진폭 추정기와 주파수 추정기의 출력을 관찰할 수 있다. 먼저 2차원 공간에 지배적인 주파수를 분산시키고 등급(magnitude)으로 각 점의 색상을 설정할 수 있다.
모든 스캐터 맵은 에 정의될 수 있으며, 각 맵의 값 범위는 서로 다를 수 있다. 또한 GT 이미지의 16-탭 이산 푸리에 변환(Discrete Fourier Transform, DFT)를 제공하여 LTE의 지배적인 주파수와 GT 이미지의 주파수를 비교할 수 있다.
도 9는 다양한 텍스처의 GT 이미지(상단), GT 이미지 스펙트럼(가운데) 및 LTE에서의 해당 추정 푸리에 공간(하단)을 나타낸다(EDSR-baseline을 인코더로 사용).
일 실시 예에서는, 도 9와 같이 수평, 수직, 대각선 텍스처의 세가지 다른 텍스처를 선택할 수 있다. 맨 아래 행에 있는 LTE의 주파수 맵은 2겹 다운샘플링된 이미지에서 얻은 것일 수 있다.
도 9의 가운데 행과 맨 아래 행을 비교하여 추정된 지배 주파수가 GT 이미지의 지배 주파수를 따르는 것을 확인할 수 있다. 즉 LTE는 RF 내부의 픽셀을 관찰하여 지배적인 주파수와 해당 푸리에 계수를 획득할 수 있다. 상술한 바와 같이 RF의 크기는 EDSR-baseline, RDN 및 SwinIR과 같은 심층 초고해상 인코더에 의해 결정될 수 있다.
상기의 표 2와 도 7은 SwinIR이 인코더로 사용될 때 이미지 복원 알고리즘(LTE)이 더 나은 성능을 달성함을 보여준다.
도 10에 도시된 바와 같이, 푸리에 공간을 시각화 하여 표시할 수 있다. 일 실시 예에서는, SwinIR-LTE가 대각선 축에서 지배적인 주파수를 캡쳐하는 반면 EDSR-baseline-LTE는 저주파 성분만 추정한다는 점을 기반으로 하여, 강력한 인코더가 있는 이미지 복원 알고리즘(LTE)을 통해 정확한 지배 주파수를 추출할 수 있다.
도 11은 LTE의 각 구성요소가 제거된 경우 푸리에 공간을 보여준다. 도 9의 대각선 텍스처는 제거 학습을 위해 선택되었으며, EDSR-baseline이 인코더로 사용될 수 있다.
LTE(-A)는 푸리에 계수가 LTE에서 주어지지 않기 때문에 모든 주파수의 계수를 동일하게 간주할 수 있다. 따라서 LTE(-A)는 저주파 콘텐츠 학습에 중점을 두게 된다.
LTE(-P)는 대각선 축에 위치하는 주파수를 추정 할 수 없다. 스케일 종속 위상 인코딩이 없으면 LTE(-P)는 스케일 독립 정보만 감지할 수 있다.
이미지 신호는 저주파 영역에서 압축적으로 지원될 수 있다. LTE와 LTE(-F)를 비교하여 지배적인 주파수의 부족이 고주파수 세부 사항을 학습하지 못하는 것을 검증할 수 있다. 또한 LTE와 LTE(-L)을 비교하여 LR 스킵 커넥션이 LTE에 DC 바이어스를 제공한다고 추측할 수 있다.
도 10은 SwinIR-LTE가 자연 이미지의 지배적인 주파수를 추정할 수 있음을 보여준다. 또한 도 12의 가운데 행은 SwinIR-LTE가 약한 에일리어싱에서 필수 푸리에 정보를 추출함을 보여준다. 그러나 SwinIR-LTE의 이러한 기능은 저해상도 이미지에 심각한 에일리어싱이 있는 경우에는 제한될 수 있다.
일 실시 예에서는, 도 12에서 저해상도 이미지(왼쪽 아래)에서 거친(harsh) 에일리어싱 아티팩트가 발생할 때 지배적인 주파수(오른쪽 아래)가 GT 스펙트럼(오른쪽 위)과 일치하지 않음을 확인할 수 있다.
인코더의 RF 크기를 확장하고 계산 및 메모리 비용을 증가시켜 이러한 제한을 해결할 수 있다.
도 13을 참조하면, 푸리에 기반의 유한 합으로 연속 신호를 나타낼 때 함수는 불연속에서 오버슈트(overshoot)할 수 있다. 이를 깁스 현상(Gibbs phenomenon)이라고 할 수 있으며, 또는 2차원 이미지의 링잉(ringing) 아티팩트라고 할 수 있다.
즉, 이미지 복원 알고리즘(LTE)은 매우 큰 스케일의 팩터에서 오버슈트를 유발할 수 있다. 일 실시 예에서는, 이러한 문제를 완화하기 위한 평활화 알고리즘을 적용할 수 있다.
실제로 SR 응용 프로그램은 짧은 계산 시간이 필요하다. 또한 고품질 이미지를 재구성하려면 평가하는 동안 많은 메모리가 소모된다.
표 4는 x2 SR 작업에 대하여, 이미지 복원 알고리즘(LTE)과 다른 임의 규모 SR 방법의 메모리 및 계산 시간(ms)을 비교한 것이다. 즉, 표 4를 통해 NVIDIA RTX 3090 24GB의 메모리 제한(상단 행) 및 메모리 소비(하단 행)의 두 경우 모두에 대해 이미지 복원 알고리즘(LTE)의 계산 시간을 다른 임의 규모 SR 방법과 비교할 수 있다.
일 실시 예에서는, 메모리가 제한된 조건에서 고해상도 이미지를 평가하기 위해 쿼리당 96x96 출력 픽셀을 계산할 수 있다. 표 4의 맨 위 행에서, LTE(ours)가 메모리 사용량을 증가시키는 반면에 가장 짧은 계산 시간이 걸리는 것을 확인할 수 있다.
그러나 이미지 복원 알고리즘(LTE)의 계산 시간은 표 4의 맨 아래 행에 설명된 대로 모든 출력 픽셀이 평가될 때 LIIF 보다 느릴 수 있다.
이러한 한계를 극복하기 위해, 일 실시 예에서는, 디코더 구현을 위해 공유 MLP 대신 1x1 컨볼루션을 사용하는 LTE+를 설계하여 사용할 수 있다. 1x1 컨볼루션은 GPU 친화적인 데이터 구조를 가지고 있기 때문에, 일 실시 예의 LTE+는 모든 출력 픽셀을 한 번에 쿼리 할 때 이전 작업에 비해 계산 시간이 짧고 메모리를 덜 소모하게 된다.
즉 일 실시 예에서는, 상기 실험 결과를 통해 LTE 기반 신경 함수가 성능 및 시각적 품질에서 다른 임의 규모 SR 방법보다 성능이 우수함을 확인할 수 있다. LTE는 푸리에 공간의 렌즈를 통해 고주파수 디테일을 포착할 수 있다. 또한 이러한 접근 방식은 메모리 조건에 관계없이 가장 짧은 계산 시간이 소요될 수 있다.
도 14는 일 실시 예에 따른 이미지 복원 방법을 설명하기 위한 흐름도이다.
도 14를 참조하면, S100단계에서, 이미지 복원 장치(100)는 저해상도 이미지를 획득한다.
S200단계에서, 이미지 복원 장치(100)는 저해상도 이미지를 인코딩하여 잠재 특징벡터를 추출한다.
이때, 이미지 복원 장치(100)는 저해상도 이미지의 특정 좌표에서 가장 가까운 4개의 잠재 특징벡터를 추출할 수 있다. 여기서, 특정 좌표 주변의 4 개의 가장 가까운 잠재 특징벡터를 추출하는 것은 대상이 되는 특정 화소에 대응되는 고해상도 화소의 중심에서 가장 가까운 4개의 저해상도 화소들의 좌표에서의 잠재 특징벡터를 추출하는 것을 의미할 수 있다.
그리고 이미지 복원 장치(100)는 저해상도 이미지의 특정 좌표와 4개의 잠재 특징벡터 각각과 구성된 사각형의 너비를 기반으로 정규화된 가중치를 반영하여 잠재 특징벡터를 보간 할 수 있다. 이러한 가중치를 로컬 앙상블 가중치라고 할 수 있다.
또한, 이미지 복원 장치(100)는 3x3 인접한 잠재 특징벡터를 연결(concatenation)하여 전개(unfolding)된 잠재 특징벡터를 생성할 수 있다. 그리고 이미지 복원 장치(100)는 전개된 잠재 특징벡터를 이용하여 이후 네트워크가 수행되도록 할 수 있다.
S300단계에서, 이미지 복원 장치(100)는 잠재 특징벡터를 기반으로 저해상도 이미지의 각 좌표에 대응하는 지배적 주파수 및 푸리에 계수를 추정한다.
이때, 이미지 복원 장치(100)는 잠재 특징벡터를 기반으로 진폭 벡터를 추정한다. 또한 이미지 복원 장치(100)는 잠재 특징벡터를 기반으로 주파수 행렬을 추정한다. 일 실시 예에서는, 잠재 특징벡터를 기반으로 진폭 벡터 및 주파수 행렬을 추정하기 때문에, 이미지 복원의 성능이 보다 향상될 수 있다.
그리고 이미지 복원 장치(100)는 최근접 이웃 알고리즘을 기반으로 진폭 벡터를 업스케일링한다. 또한 이미지 복원 장치(100)는 최근접 이웃 알고리즘을 기반으로 상기 주파수 행렬을 업스케일링한다.
다음으로, 이미지 복원 장치(100)는 저해상도 이미지의 셀 크기를 반영하여 위상을 추정하고, 추정한 위상을 상기 업스케일링한 주파수 행렬과 로컬 그리드 좌표 사이의 내적에 추가할 수 있다. 즉 일 실시 예에서는, 스케일 종속 위상 인코딩이 수행될 수 있다.
이때 로컬 그리드 좌표는, 저해상도 이미지의 특정 좌표와 잠재 특징벡터에 할당된 좌표의 차이에 기반하여 도출되는 것일 수 있다.
이미지 복원 장치(100)는 추정한 위상을 업스케일링한 주파수 행렬과 로컬 그리드 좌표 사이의 내적에 추가한 이후, 주파수 행렬에 대한 사인파 활성화를 수행할 수 있다.
그리고 이미지 복원 장치(100)는 업스케일링한 진폭 벡터와 사인파 활성화 수행 결과 값을 곱한 후, 해당 값을 디코더에 전달할 수 있다.
S400단계에서, 이미지 복원 장치(100)는 지배적 주파수 및 푸리에 계수를 기반으로 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출한다.
S500단계에서, 이미지 복원 장치(100)는 저해상도 이미지의 각 좌표에 대응하는 색상 값을 기반으로 임의의 해상도의 고해상도 이미지를 생성한다.
이미지 복원 장치(100)는 저해상도 이미지의 업스케일링을 수행할 수 있다. 그리고 이미지 복원 장치(100)는 LR 스킵 커넥션 레이어를 통해 업스케일링된 저해상도 이미지 정보를 디코더에서의 출력 결과에 반영(Element-wise Addition)하여 고해상도 이미지를 생성할 수 있다.
LR 스킵 커넥션 시, 업스케일링 방법은 bilinear이 바람직할 수 있으나, Nearest-neighborhood 와 bicubic 등도 적용될 수 있다.
이상 설명된 본 개시에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 개시를 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 개시의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 개시에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 개시에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다. 본 개시에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 개시를 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다. 또한, 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 개시의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 개시의 사상의 범주에 속한다고 할 것이다.
1 : 이미지 복원 시스템
100 : 이미지 복원 장치
110 : 통신부
120 : 사용자 인터페이스
130 : 메모리
140 : 프로세서
200 : 사용자 단말
300 : 서버
400 : 네트워크

Claims (20)

  1. 각 단계가 프로세서에 의해 수행되는, 이미지 복원 방법으로서,
    저해상도 이미지를 획득하는 단계;
    상기 저해상도 이미지를 기 학습된 이미지 복원 알고리즘에 입력하여,
    상기 저해상도 이미지의 각 좌표에 대응하는 지배적 주파수 및 푸리에 계수를 포함하는 푸리에 정보를 추정하고, 상기 추정된 푸리에 정보를 기반으로 임의의 해상도에서 상기 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출하는 단계; 및
    상기 저해상도 이미지의 각 좌표에 대응하는 색상 값을 기반으로 상기 임의의 해상도의 고해상도 이미지를 생성하는 단계를 포함하는,
    이미지 복원 방법.
  2. 제 1 항에 있어서,
    상기 색상 값을 도출하는 단계는,
    상기 저해상도 이미지를 인코딩하여 잠재 특징벡터를 추출하는 단계;
    상기 잠재 특징벡터를 기반으로 상기 지배적 주파수 및 푸리에 계수를 추정하는 단계; 및
    상기 지배적 주파수 및 상기 푸리에 계수를 기반으로 상기 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출하는 단계를 포함하는,
    이미지 복원 방법.
  3. 제 2 항에 있어서,
    상기 잠재 특징벡터를 추출하는 단계는,
    상기 저해상도 이미지의 특정 좌표에서 가장 가까운 4개의 잠재 특징벡터를 추출하는 단계; 및
    상기 저해상도 이미지의 특정 좌표와 상기 4개의 잠재 특징벡터 각각과 구성된 사각형의 너비를 기반으로 정규화된 가중치를 반영하여 상기 잠재 특징벡터를 보간하는 단계를 포함하는,
    이미지 복원 방법.
  4. 제 3 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수를 추정하는 단계는,
    상기 잠재 특징벡터를 기반으로 진폭 벡터를 추정하는 단계; 및
    상기 잠재 특징벡터를 기반으로 주파수 행렬을 추정하는 단계를 포함하는,
    이미지 복원 방법.
  5. 제 4 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수를 추정하는 단계는,
    최근접 이웃(nearest-neighborhood) 알고리즘을 기반으로 상기 진폭 벡터를 업스케일링(Upscaling)하는 단계; 및
    상기 최근접 이웃 알고리즘을 기반으로 상기 주파수 행렬을 업스케일링하는 단계를 포함하는,
    이미지 복원 방법.
  6. 제 5 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수를 추정하는 단계는,
    상기 저해상도 이미지의 셀 크기를 반영하여 위상을 추정하는 단계; 및
    상기 추정한 위상을 상기 업스케일링한 주파수 행렬과 로컬 그리드 좌표 사이의 내적에 추가하는 단계를 포함하고,
    상기 로컬 그리드 좌표는,
    상기 저해상도 이미지의 특정 좌표와 상기 잠재 특징벡터에 할당된 좌표의 차이에 기반하여 도출되는 것인,
    이미지 복원 방법.
  7. 제 6 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수를 추정하는 단계는,
    상기 내적에 추가하는 단계 이후, 상기 주파수 행렬에 대한 사인파 활성화를 수행하는 단계; 및
    상기 업스케일링한 진폭 벡터와 상기 사인파 활성화 수행 결과 값을 곱하는 단계를 포함하는,
    이미지 복원 방법.
  8. 제 1 항에 있어서,
    상기 저해상도 이미지의 업스케일링을 수행하는 단계를 더 포함하고,
    상기 고해상도 이미지를 생성하는 단계는,
    상기 업스케일링된 저해상도 이미지 정보를 반영하여 상기 고해상도 이미지를 생성하는 단계를 포함하는,
    이미지 복원 방법.
  9. 제 3 항에 있어서,
    상기 잠재 특징벡터를 추출하는 단계는,
    3x3 인접한 상기 잠재 특징벡터를 연결(concatenation)하여 전개(unfolding)된 잠재 특징벡터를 생성하는 단계를 더 포함하는,
    이미지 복원 방법.
  10. 제 1 항에 있어서,
    기 학습된 이미지 복원 알고리즘은,
    저해상도 이미지가 입력되면 상기 저해상도 이미지의 각 2차원 좌표를 기반으로, 상기 각 2차원 좌표에 대응하는 로컬 잠재 특징벡터에서 도출된 지배적 주파수 및 푸리에 계수를 입력으로 쿼리하여, 상기 각 2차원 좌표에 매핑된 색상 값이 출력되도록 학습된 학습 모델인,
    이미지 복원 방법.
  11. 이미지 복원 장치로서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 프로세서를 포함하고,
    상기 프로세서는,
    저해상도 이미지를 획득하는 동작,
    상기 저해상도 이미지를 기 학습된 이미지 복원 알고리즘에 입력하여,
    상기 저해상도 이미지의 각 좌표에 대응하는 지배적 주파수 및 푸리에 계수를 포함하는 푸리에 정보를 추정하여, 상기 추정된 푸리에 정보를 기반으로 임의의 해상도에서 상기 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출하는 동작, 및
    상기 저해상도 이미지의 각 좌표에 대응하는 색상 값을 기반으로 상기 임의의 해상도의 고해상도 이미지를 생성하는 동작을 수행하도록 설정되는,
    이미지 복원 장치.
  12. 제 11 항에 있어서,
    상기 색상 값을 도출하는 동작은,
    상기 저해상도 이미지를 인코딩하여 잠재 특징벡터를 추출하는 동작,
    상기 잠재 특징벡터를 기반으로 상기 지배적 주파수 및 푸리에 계수를 추정하는 동작, 및
    상기 지배적 주파수 및 상기 푸리에 계수를 기반으로 상기 저해상도 이미지의 각 좌표에 대응하는 색상 값을 도출하는 동작을 포함하는,
    이미지 복원 장치.
  13. 제 12 항에 있어서,
    상기 잠재 특징벡터를 추출하는 동작은,
    상기 저해상도 이미지의 특정 좌표에서 가장 가까운 4개의 잠재 특징벡터를 추출하는 동작, 및
    상기 저해상도 이미지의 특정 좌표와 상기 4개의 잠재 특징벡터 각각과 구성된 사각형의 너비를 기반으로 정규화된 가중치를 반영하여 상기 잠재 특징벡터를 보간하는 동작을 포함하는,
    이미지 복원 장치.
  14. 제 13 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수 추정 동작은,
    상기 잠재 특징벡터를 기반으로 진폭 벡터를 추정하는 동작, 및
    상기 잠재 특징벡터를 기반으로 주파수 행렬을 추정하는 동작을 포함하는,
    이미지 복원 장치.
  15. 제 14 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수 추정 동작은,
    최근접 이웃 알고리즘을 기반으로 상기 진폭 벡터를 업스케일링하는 동작, 및
    상기 최근접 이웃 알고리즘을 기반으로 상기 주파수 행렬을 업스케일링하는 동작을 포함하는,
    이미지 복원 장치.
  16. 제 15 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수 추정 동작은,
    상기 저해상도 이미지의 셀 크기를 반영하여 위상을 추정하는 동작, 및
    상기 추정한 위상을 상기 업스케일링한 주파수 행렬과 로컬 그리드 좌표 사이의 내적에 추가하는 동작을 포함하고,
    상기 로컬 그리드 좌표는,
    상기 저해상도 이미지의 특정 좌표와 상기 잠재 특징벡터에 할당된 좌표의 차이에 기반하여 도출되는 것인,
    이미지 복원 장치.
  17. 제 16 항에 있어서,
    상기 지배적 주파수 및 푸리에 계수 추정 동작은,
    상기 내적에 추가하는 단계 이후, 상기 주파수 행렬에 대한 사인파 활성화를 수행하는 동작, 및
    상기 업스케일링한 진폭 벡터와 상기 사인파 활성화 수행 결과 값을 곱하는 동작을 포함하는,
    이미지 복원 장치.
  18. 제 11 항에 있어서,
    상기 프로세서는,
    상기 저해상도 이미지의 업스케일링을 수행하는 동작을 더 수행하도록 설정되고,
    상기 고해상도 이미지를 생성하는 동작은,
    상기 업스케일링된 저해상도 이미지 정보를 반영하여 상기 고해상도 이미지를 생성하는 동작을 포함하는,
    이미지 복원 장치.
  19. 제 13 항에 있어서,
    상기 잠재 특징벡터를 추출하는 동작은,
    3x3 인접한 상기 잠재 특징벡터를 연결하여 전개된 잠재 특징벡터를 생성하는 동작을 더 포함하는,
    이미지 복원 장치.
  20. 제 11 항에 있어서,
    기 학습된 이미지 복원 알고리즘은,
    저해상도 이미지가 입력되면 상기 저해상도 이미지의 각 2차원 좌표를 기반으로, 상기 각 2차원 좌표에 대응하는 로컬 잠재 특징벡터에서 도출된 지배적 주파수 및 푸리에 계수를 입력으로 쿼리하여, 상기 각 2차원 좌표에 매핑된 색상 값이 출력되도록 학습된 학습 모델인,
    이미지 복원 장치.
KR1020220007884A 2022-01-19 2022-01-19 이미지 복원 방법 및 장치 KR102624154B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220007884A KR102624154B1 (ko) 2022-01-19 2022-01-19 이미지 복원 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220007884A KR102624154B1 (ko) 2022-01-19 2022-01-19 이미지 복원 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230111885A KR20230111885A (ko) 2023-07-26
KR102624154B1 true KR102624154B1 (ko) 2024-01-10

Family

ID=87427651

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220007884A KR102624154B1 (ko) 2022-01-19 2022-01-19 이미지 복원 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102624154B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Matthew Tancik et al., "Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains", Computer Vision and Pattern Recognition, (2020.06.18.)
Yinbo Chen et al., "Learning Continuous Image Representation with Local Implicit Image Function", CVPR 2021, (2021.04.01.)
Zongyi Li et al., "Fourier Neural Operator for Parametric Partial Differential Equations", Machine Learning, (2021.05.17.)

Also Published As

Publication number Publication date
KR20230111885A (ko) 2023-07-26

Similar Documents

Publication Publication Date Title
Sun et al. Learned image downscaling for upscaling using content adaptive resampler
Lee et al. Local texture estimator for implicit representation function
Yu et al. A unified learning framework for single image super-resolution
CN112634137A (zh) 基于ae提取多尺度空谱特征的高光谱和全色图像融合方法
KR20220124622A (ko) 이미지 압축 방법 및 이미지 압축 장치
JP2013518336A (ja) 入力画像から増加される画素解像度の出力画像を生成する方法及びシステム
US20220286696A1 (en) Image compression method and apparatus
Tang et al. Combining sparse coding with structured output regression machine for single image super-resolution
CN108921801B (zh) 用于生成图像的方法和装置
US11308361B1 (en) Checkerboard artifact free sub-pixel convolution
Vishnukumar et al. Single image super-resolution based on compressive sensing and improved TV minimization sparse recovery
Sidike et al. A fast single-image super-resolution via directional edge-guided regularized extreme learning regression
Khosravi et al. Data compression in ViSAR sensor networks using non-linear adaptive weighting
Occorsio et al. Image scaling by de la vallée-poussin filtered interpolation
US20150324953A1 (en) Method and apparatus for performing single-image super-resolution
Pan et al. Super-resolution from a single image based on local self-similarity
KR102624154B1 (ko) 이미지 복원 방법 및 장치
Cosmo et al. Multiple sequential regularized extreme learning machines for single image super resolution
CN116563167A (zh) 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质
Zhou et al. Single‐frame image super‐resolution inspired by perceptual criteria
Gou et al. Image super‐resolution based on the pairwise dictionary selected learning and improved bilateral regularisation
Su et al. Single image super-resolution based on space structure learning
Singh et al. A content adaptive method of de-blocking and super-resolution of compressed images
Wang et al. Resolution-invariant coding for continuous image super-resolution
Seke et al. Multi‐frame super‐resolution algorithm using common vector approach

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant