KR102644142B1 - 영상 복원 장치 - Google Patents

영상 복원 장치 Download PDF

Info

Publication number
KR102644142B1
KR102644142B1 KR1020210130813A KR20210130813A KR102644142B1 KR 102644142 B1 KR102644142 B1 KR 102644142B1 KR 1020210130813 A KR1020210130813 A KR 1020210130813A KR 20210130813 A KR20210130813 A KR 20210130813A KR 102644142 B1 KR102644142 B1 KR 102644142B1
Authority
KR
South Korea
Prior art keywords
image
daf
stage
content
output
Prior art date
Application number
KR1020210130813A
Other languages
English (en)
Other versions
KR20230047687A (ko
Inventor
신재섭
류성걸
손세훈
김형덕
김효성
Original Assignee
주식회사 픽스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 픽스트리 filed Critical 주식회사 픽스트리
Priority to KR1020210130813A priority Critical patent/KR102644142B1/ko
Publication of KR20230047687A publication Critical patent/KR20230047687A/ko
Application granted granted Critical
Publication of KR102644142B1 publication Critical patent/KR102644142B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

영상 복원 장치를 개시한다.
본 실시예는 모자이크에서부터 저저도 노이즈를 포함하는 합성 저화질 이미지, 실제 저화질 이미지 모두에서 발생하는 단일 왜곡, 수많은 조합과 강도로 구성된 복합 왜곡, 실제 왜곡, 학습과정에서 미학습된 왜곡, 복원 가능 여부 또는 복원 불가능 여부를 판별하는 능력을 하나의 통합된 인공신경망으로 구현하여 영상을 복원할 수 있도록 하는 영상 복원 장치를 제공한다.

Description

영상 복원 장치{Apparatus for Restoring Image}
본 발명의 일 실시예는 영상 복원 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
일반적으로 저해상도 영상을 고해상도 영상으로 복원하는 기술은 복원에 사용되는 입력영상의 수 또는 복원 기술에 따라 구분된다. 입력영상의 수에 따라 단일영상 초해상도 복원 기술과 연속영상 초해상도 복원 기술로 구분된다.
일반적으로 단일영상 초해상도 영상복원 기술은 연속영상 초해상도 영상복원에 비하여 처리 속도는 빠르지만, 복원에 필요한 정보가 부족하므로 영상 복원의 품질이 낮다.
연속영상 초해상도 영상복원 기술은 연속적으로 획득된 다수의 영상들로부터 추출된 다양한 특징을 이용하므로 단일영상 초해상도 영상복원 기술에 비하여 복원된 영상의 품질은 우수하나, 알고리즘이 복잡하고 연산량이 많아 실시간 처리가 어렵다.
복원 기술에 따라서는 보간법을 이용한 기술, 에지 정보를 이용한 기술, 주파수 특성을 이용한 기술, 딥러닝 등과 같은 기계학습을 이용한 기술 등이 있다. 보간법을 이용한 기술은 처리 속도가 빠르지만 가장자리 부분이 흐릿해지는 단점이 있다.
에지 정보를 이용한 기술은 속도도 빠르고 가장자리의 선명도를 유지하면서 영상을 복원할 수 있으나, 에지 방향을 잘못 추정한 경우에는 시각적으로 두드러지는 복원 에러를 포함할 수 있는 단점이 있다.
주파수 특성을 이용한 기술은 고주파성분을 이용하여 에지 정보를 이용한 기술과 같이 가장자리의 선명도를 유지하며 영상을 복원할 수 있으나 경계선 부근의 Ringing Artifact가 발생하는 단점이 있다. 마지막으로 예제 기반 또는 딥러닝과 같은 기계학습을 이용한 기술은 복원된 영상의 품질이 가장 우수하지만 처리속도가 매우 느리다.
상술한 바와 같이 기존의 다양한 고해상도 영상 복원 기술들 중 연속영상 초해상도 영상복원 기술은 기존의 보간법을 이용한 디지털 줌 기능이 필요한 분야에 적용될 수 있으며, 보간법 기반의 영상복원 기술에 비해 우수한 품질의 영상을 제공한다. 그러나, 기존의 초해상도 영상복원 기술은, 제한된 리소스와 실시간 처리가 요구되는 전자광학 장비에는 복잡한 연산량으로 인해 적용할 수 있는 기술이 제한적이다.
실시간 처리가 가능한 기존의 단일영상 기반의 초해상도 영상복원 기술은 기 설정된 배수 이상의 고배율로 영상 확대가 필요한 경우에 연속영상 기반의 복원 기술에 비해 성능 저하가 크다는 문제가 있다.
본 실시예는 모자이크에서부터 저저도 노이즈를 포함하는 합성 저화질 이미지, 실제 저화질 이미지 모두에서 발생하는 단일 왜곡, 수많은 조합과 강도로 구성된 복합 왜곡, 실제 왜곡, 학습과정에서 미학습된 왜곡, 복원 가능 여부 또는 복원 불가능 여부를 판별하는 능력을 하나의 통합된 인공신경망으로 구현하여 영상을 복원할 수 있도록 하는 영상 복원 장치를 제공하는 데 목적이 있다.
본 실시예의 일 측면에 의하면, 다수의 영상 스케일 별로 독립적으로 영상 복원을 학습한 다수의 신경망들을 구성하고, 하위 스케일 신경망들의 영상 복원 결과들을 현재 스케일 신경망의 영상 복원을 위한 부가 정보로 사용하는 구조를 갖는 추론 네트워크 블록; 복수의 상기 하위 스케일 신경망들의 상기 영상 복원 결과들을 부가 정보로 이용할 때, 영상 왜곡 복원과 영상 컨텐츠 보존의 트레이드 오프(trade-off)를 고려하여 스케일 별로 가중치를 상이하게 적용하는 구조를 갖는 네트워크 모듈; 상기 추론 네트워크 블록과 상기 네트워크 모듈을 최하위 스케일로부터 최상위 스케일까지 점진적으로 연결하여 영상 복원을 수행하는 구조를 갖는 것을 특징으로 하는 영상 복원 네트워크를 제공한다.
본 실시예의 다른 측면에 의하면, 해당 단계 입력 스케일로 다운스케일된 영상(Ik-1 content, k=1)만을 입력받아 인공 지능 학습 결과를 반영한 후 기 설정된 배수로 업스케일링한 제1 스케일 레벨 업스케일 복원 영상(Ik detail, k=1)을 출력하는 PDk-1(k=1)(Pretrained Decoder); 및 하위 단계에 포함된 DAF 출력 영상들을 해당 단계의 입력 스케일로 스케일링한 영상(IL→k-1 da-content, k>1, (k-1)>L≥0)(단, k=2인 경우, I0→1 da-content= I0→1 content), 해당 단계 입력 스케일로 다운스케일링한 영상(Ik-1 content, k>1), 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1)을 포함하는 이용 가능 정보를 기반으로 현재 단계의 최적 DAF 출력 정보(Ik-1 da-content, k>1)를 출력하도록 하는 복수의 DAF 모듈(DAFk-1, k>1), DAF 출력 정보(Ik-1 da-content, k>1)와 이전 단계의 PD 출력을 입력으로 받아 제k 스케일 레벨 업스케일 복원 영상(Ik detail, k>1)을 출력하는 PDk-1(k>1)(Pretrained Decoder)를 포함하는 것을 특징으로 하는 영상 복원 장치를 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 모자이크에서부터 저저도 노이즈를 포함하는 합성 저화질 이미지, 실제 저화질 이미지 모두에서 발생하는 단일 왜곡, 수많은 조합과 강도로 구성된 복합 왜곡, 실제 왜곡, 학습과정에서 미학습된 왜곡, 복원 가능 여부 또는 복원 불가능 여부를 판별하는 능력을 하나의 통합된 인공신경망으로 구현하여 영상을 복원할 수 있는 효과가 있다.
도 1은 본 실시예에 따른 PPD 형태에서 이미지 처리를 방법을 나타낸 도면이다.
도 2는 본 실시예에 따른 DAF 적용 구조에서 이미지 처리 방법을 나타낸 도면이다.
도 3a,3b는 본 실시예에 따른 DAFk 모듈의 이미지 처리 방법을 나타낸 도면이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 제1 실시예에 따른 PPD 형태의 영상 복원 장치를 위한 인공지능 네트워크 구성 및 그 학습 방법을 나타낸 도면이다.
본 발명의 영상 복원 장치를 위한 인공지능 네트워크는 영상의 스케일별로 각각 독립적으로 학습을 수행한 복수의 PD(Pretrained Decoder)를 캐스캐이드(Cascade) 방식으로 연결한 PPD(Pretrained Progressive Decoder) 형태를 가진다. 본 발명의 인공지능 네트워크 및 그 학습 방법을 적용한 영상 복원 장치는 복수의 PD에서 영상의 스케일별로 각각 추론한 추론 결과를 다음에 연결된 PD로 입력하는 과정을 수행한다.
[PPD (추론) 네트워크 구조 설명]
다시 말해, k 단계의 추론 네트워크 블록(PDk -1, Ik - 1 detail, Ik - 1 content (또는 DAFk-1(제2 실시예의 경우))과 해당 단계의 추론 결과 영상의 스케일 레벨 k (Ik detail)를 설정하고, 각 단계에 PD와 DAF(제2 실시예의 경우 포함)를 구성하여, 하위 단계에서부터 순차적으로 다음 상위 단계와 연결한다. 각 단계의 PD는 다수개의 입력을 받아 처리할 수 있도록 파라미터 인플레이팅을 적용할 수 있다. 단, 최하위 단계에서는 입력 영상에 대하여 해당 스케일로 스케일링된 한 개의 입력만을 PD에 적용할 수도 있으므로, 최하위 단계의 PD에서는 파라미터 인플레이팅을 적용하지 않을 수 있다.
즉, k>1(최하위 단계가 아닌 단계)에서는 이전 단계의 PD에서 추론한 결과(즉, Ik - 1 detail)를 해당 단계의 PD(즉, PDk - 1)로 입력하고, 해당 단계의 PD에서는 파라미터(Parameter) 인플레이팅(Inflating)을 통해 두 개(예시적으로 두 개이며 다수 개일 수도 있음)의 입력인, 이전 PD의 추론 결과(즉, Ik - 1 detail)와, 입력 영상을 해당 단계 입력 스케일로 스케일링한 결과인 Ik - 1 content (또는, 도 2의 경우, 해당 단계의 DAF(즉, DAFk - 1)의 출력)를 입력으로 받아, 해당 단계에서 업스케일링된 스케일 레벨 k 영상(Ik detail)을 추론하는 인공 지능 네트워크 구조를 갖는다.
본 실시예에 따른 복수의 PD(Pretrained Decoder)는 PDk -1(k=1), PDk - 1 I(k>1)를 포함한다. 본 발명의 인공 지능 네트워크를 적용한 영상 복원 장치는 PDk -1(k=1), 내지 PDk - 1 I(k>1)를 캐스케이드 방식으로 연결한 PPD(Pretrained Progressive Decoder) 구조를 가진다. PDk -1(k=1) 및 PDk - 1 I(k>1)를 연결한 구조에서 각각의 PD를 통한 영상의 스케일 레벨별 추론 결과는 상위 단계의 PD로 입력되는 구조를 갖는다. 즉, PPD로 구성된 인공 지능 네트워크의 최상위 단계 PD의 출력을 통해 입력 영상에 대하여 업스케일된 최상위 스케일 레벨의 영상을 복원할 수 있는 것이다.
PDk - 1(k=1)는 해당 단계 입력 스케일로 다운스케일된 영상(Ik - 1 content, k=1)만을 입력받고, 이에 인공 지능 학습 결과를 반영하여, 기 설정된 배수로 업스케일링한 제1 스케일 레벨 업스케일 복원 영상(Ik detail, k=1)을 출력한다.
PDk - 1 I(k>1)는 해당 단계 입력 스케일로 다운스케일된 영상(Ik-1 content, k>1)과 이전 PD의 출력 복원 영상(Ik-1 detail, k>1)을 입력 받는다. PDk - 1 I(k>1)는 해당 단계 입력 스케일로 다운스케일된 영상(Ik-1 content, k>1)과 이전 PD의 출력 복원 영상(Ik-1 detail, k>1)에 인공 지능 학습 결과를 반영하여 기 설정된 배수로 업스케일링한 제 k 스케일 레벨 업스케일 복원 영상(Ik detail, k>1)을 출력한다.
이하, PDk-1(k=1)에 해당하는 PD0의 동작 과정에 대해 예시적으로 설명한다.
PD0는 제1 단계에 포함되며, 해당 스케일 레벨로 다운스케일링한 제0 스케일 레벨 영상(I0 content)만을 입력 받는다. PD0는 제0 스케일 레벨 영상(I0 content)에 인공 지능 학습 결과를 반영하여 기 설정된 배수로 업스케일링한 제1 스케일 레벨 복원 영상(I1 detail)을 출력한다.
이하, PDk - 1 I(k>1)에 해당하는 PD1 I, PD2 I, PD3 I, PD4 I의 동작 과정에 대해 예시적으로 설명한다.
PD1 I는 제2 단계에 포함되며, 해당 단계 입력 스케일로 다운스케일링한 영상(I1 content)과 제1 스케일 레벨 복원 영상(I1 detail)을 입력받는다. PD1 I는 해당 단계 입력 스케일로 다운스케일링한 영상(I1 content)과 제1 스케일 레벨 복원 영상(I1 detail)에 인공 지능 학습 결과를 반영하여, 기 설정된 배수로 업스케일링한 제2 스케일 레벨 복원 영상(I2 detail)을 출력한다.
PD2 I는 제3 단계에 포함되며, 해당 단계 입력 스케일로 다운스케일링한 영상(I2 content)과 제2 스케일 레벨 복원 영상(I2 detail)을 입력받는다. PD2 I는 해당 단계 입력 스케일로 다운스케일링한 영상(I2 content)과 제2 스케일 레벨 복원 영상(I2 detail)에 인공 지능 학습 결과를 반영하여 기 설정된 배수로 업스케일링한 제3 스케일 레벨 복원 영상(I3 detail)을 출력한다.
PD3 I는 제4 단계에 포함되며, 해당 단계 입력 스케일로 다운스케일링한 영상 (I3 content)과 제3 스케일 레벨 복원 영상(I3 detail)을 입력 받는다. PD3 I는 해당 단계 입력 스케일로 다운스케일링한 영상(I3 content)과 제3 스케일 레벨 복원 영상(I3 detail)에 인공 지능 학습 결과를 반영하여 기 설정된 배수로 업스케일링한 제4 스케일 레벨 복원 영상(I4 detail)을 출력한다.
PD4 I는 제5 단계에 포함되며, 해당 단계 입력 스케일로 다운스케일링한 영상(I4 content)과 제4 스케일 레벨 복원 영상(I4 detail)을 입력 받는다. PD4 I는 해당 단계 입력 스케일로 다운스케일링한 영상(I4 content)과 제4 스케일 레벨 복원 영상(I4 detail)에 인공 지능 학습 결과를 반영하여 기 설정된 배수로 업스케일링한 제5 스케일 레벨 복원 영상(I5 detail)을 출력한다.
본 실시예에서는 제5 스케일 레벨 복원 영상(I5 detail)을 본 발명의 인공 지능 네트워크 및 학습 방법을 적용한 영상 업스케일 복원 장치의 출력으로 사용한다.
[PPD 네트워크 학습 방법]
본 실시예에 따른 복수의 PD(Pretrained Decoder)는 영상의 스케일(Scale)별로 각각 독립적으로 초기 학습을 수행한 후, PPD 형식으로 캐스캐이드로 하위 단계에서 순차적으로 상위 단계 PD들을 연결하면서, 각 단계에 해당하는 PD 추가 시 마다 추가되는 PD에 대하여 튜닝 학습을 진행하며, 이때 이미 이전 단계에서 튜닝 학습이 완료된 PD에 대해서는 다시 학습하지 않도록 한다.
전체 학습 네트워크의 구성은 복수의 PD로 구성되며, 복수의 PD는 PDk -1(k=1), PDk - 1 I(k>1)를 포함한다. 이때 아래첨자 I가 표기될 경우, 해당 PD에 파라미터 인플레이팅이 적용되었음을 나타낸다. 파라미터 인플레이팅은 사전 학습된 네트워크의 입력 채널을 다수 개로 확장하기 위한 방법이다. 해당 방법은 사전 학습된 입력 채널을 다수 개로 복사하는 과정, 복사한 다수 개의 채널을 연결(Concatenation)하는 과정, 연결된 채널 내 파라미터들의 스케일을 조정하는 과정으로 구성된다.
본 발명의 영상 복원 장치 네트워크는 영상의 스케일 레벨 별로 단계를 구성하여 PDk-1(k=1), 내지 PDk-1 I(k>1)를 단계별 캐스캐이드 방식으로 연결한다.
영상 복원 장치 네트워크에 포함된 PDk - 1 I(k>1)는 복수개의 입력을 수용할 수 있도록 파라미터 인플레이팅이 적용될 수 있다.
PPD 구조의 네트워크를 학습하기 위하여, 각각 독립적으로 학습한 PDk -1(k=1) 내지 PDk - 1 I(k>1)를 순차적으로 프로그레시브하게 연결하면서 각 단계별 PD에 대한 튜닝 학습을 진행하여 전체 네트워크를 학습하는 방법을 사용한다. 다시 말해, PPD와 같은 네트워크 구조에서는 복수의 스케일 레벨 별 단계 들에 포함된 PD들을 한 번에 학습하기 어렵다. 이러한 문제를 해결하기 위해서, 네트워크 구성 요소 인 각 단계 별 PD를 순차적으로 연결하면서, 새로이 추가되는 PD에 대하여 기존 초기 학습 파라미터를, 추가되는 네트워크에 맞추어 튜닝하는 튜닝 학습을 진행하여 해당 단계를 위하여 새로 연결되는 PD의 학습을 완료한다. 이때 이전 단계까지 연결되면서 튜닝 학습이 완료된 기 연결된 PD는 학습하지 않고, 추가되는 PD에 대해서만 학습한다.
복수의 스케일을 학습하는 과정을 각각의 스케일별로 독립적으로 수행한 후 서로 연결할 수 있으나, 본 발명에서는 각각의 스케일별로 사전에 독립적으로 학습한 PD를 단계적으로 연결하면서, 새로이 연결되는 PD를 포함하는 네트워크까지의 구성을 기반으로, 새로이 연결되는 PD에 대하여 튜닝 학습을 진행하여 스케일 레벨 별 추가 연결 단계의 네트워크를 순차적으로 연결하는 것이다.
이러한 방식으로 PDk -1(k=1), PDk - 1 I(k>1)는 각각의 네트워크 파라미터가 학습되어 설정된다. PPD에서 각 단계에서의 PD는 원본을 해당 단계 입력으로 스케일링한 영상과 함께, 이전 단계의 PD를 통해 업 스케일한 복원 영상 등, 이용 가능한 영상 정보를 해당 단계의 PD의 입력으로 이용하고, 학습 목표 영상으로, 최초 클린 원본 영상을 해당 단계 PD의 출력 스케일 레벨과 동일하게 스케일링한 영상을 적용하여, 학습을 수행한다. 본 발명의 인공지능 네트워크를 학습 시에는, 다양한 왜곡이 반영된 입력 영상을 원본 입력 영상으로 사용할 수 있으며, 이러한 왜곡이 반영된 영상을 입력 원본으로 하여, 왜곡이 없는 원래의 입력 영상인 최초 클린 원본 영상을 출력할 수 있도록 인공지능 네트워크를 학습하여야 한다.
PDk - 1(k=1)는 해당 단계 입력 스케일로 스케일링한 영상(Ik - 1 content, k=1)만을 입력으로 받고, PDk -1(k=1)의 출력인 제 k (k=1) 스케일 레벨 복원 영상(Ik detail, k=1)의 스케일 레벨로 최초 클린 원본 영상을 스케일링한 영상을 목표 영상으로 하여 튜닝 학습을 수행한다.
PDk - 1 I(k>1)는 해당 단계 입력 스케일로 다운스케일링한 영상(Ik-1 content, k>1)과 이전 단계 PD의 출력 스케일 레벨 복원 영상(Ik-1 detail, k>1)을 입력으로 받고, PDk -1 I(k>1)의 출력인 제 k (k>1) 스케일 레벨 복원 영상(Ik detail, k>1)의 스케일 레벨로 최초 클린 원본 영상을 스케일링한 영상을 목표 영상으로 하여 튜닝 학습을 수행한다.
다음 단계인 PDk I는 해당 단계 입력 스케일로 스케일링한 영상(Ik content, k>1)과 현재 단계 PDk - 1 I(k>1)의 출력 스케일 레벨 복원 영상(Ik detail, k>1)을 입력으로 받아, PDk I의 출력인 제 k+1 (k>1) 스케일 레벨 복원 영상(Ik+1 detail, k>1)의 스케일 레벨로 최초 클린 원본 영상을 스케일링한 영상을 목표 영상으로 하여 튜닝 학습을 수행한다.
도 2는 제2 실시예에 따른 DAF를 적용한 인공지능 네트워크 구성 및 그 학습 방법을 나타낸 도면이다.
[PPD 및 DAF (추론) 네트워크 구조 설명]
제2 실시예에 따른 본 발명의 인공지능 네트워크의 구조는 제1 실시예의 구조에서 각 단계별로 DAF(Domain Aware Fusion) 모듈을 추가로 적용하는 구조이다. (도 2 참조)
즉, 제2 실시예는, 제1 실시예의 구조에서, 각 단계별 PD 앞 단에 DAF를 추가한 구조이다. 다시 말해, 제1 실시예의 구조에서 각 단계의 PD의 입력 중 하나인 해당 단계 입력 스케일로 스케일링한 입력 영상을 그대로 입력으로 사용하지 않고, 대신에 해당 입력 위치에 DAF 모듈을 추가 후, 해당 단계 입력 스케일로 스케일링한 입력 영상을 포함한 해당 단계에서 이용 가능한 다양한 정보를 이용하여, 해당 단계의 PD 출력을 얻기 위한 최적의 정보를 생성한 후 이를 해당 단계 PD의 입력으로 사용하는 구조이다.
즉, 복수의 DAF 모듈(DAFk-1, k>1)은 하위 단계에 포함된 DAF 출력 영상들을 해당 단계의 입력 스케일로 스케일링한 영상(IL→k-1 da-content, k>1, (k-1)>L≥0)(단, k=2인 경우, I0→ 1 da -content= I0→ 1 content), 해당 단계의 입력 스케일로 다운스케일링한 영상(Ik-1 content, k>1), 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1) 등 이용 가능한 정보를 기반으로 현재 단계의 DAF(DAFk-1, k>1)를 수행하여, 현재 단계의 PD의 최적 출력을 얻을 수 있도록 하는 최적 DAF 출력 정보(Ik-1 da-content, k>1)를 생성한다.
[DAF 구조 및 기능 설명]
제2 실시예의 DAF는 해당 단계의 PD를 통한 최적의 업스케일링 복원 영상 출력을 얻기 위해 필요한 정보를 생성하는 모듈로, 여러가지 구조의 모듈을 적용할 수 있다. 그 중 일 예시로 도 3의 구조와 기능에 대하여 설명한다.
복수의 DAF 모듈은, 입력 영상을 해당 단계 입력 스케일로 스케일링한 영상, 해당 단계의 하위 단계별 DAF 출력들을 해당 단계의 입력 스케일로 스케일링한 영상들, 이전 단계 PD 출력 복원 영상을, 각 단계마다 입력 정보로 받는다.
각 단계의 DAF 모듈은 입력 영상을 해당 단계 입력 스케일로 스케일링한 영상, 해당 단계의 하위 단계별 DAF 출력들을 해당 단계의 입력 스케일로 스케일링한 영상들과, 이전 단계 PD 출력 복원 영상과의 차감값을 각각 산출한다.
DAF 모듈은 상기 각 차감값을 그룹 컨벌루션을 취한 후 소프트맥스(Softmax)에 입력하여 출력값을 합산했을 때 총합이 1이되도록 한다. DAF 모듈은 소프트맥스를 거친 각 출력값에, 이전 단계 PD 출력 복원 영상을 곱한 후 합산하여, DAF 출력 정보(Ik-1 da-content, k>1)로 생성하여, 이후에 연결된 PD에 입력한다.
이러한 과정을 거쳐서 출력되는 DAF 출력 정보는 하위 단계의 PD 출력 정보가 단계를 거치면서 실제 입력 영상 정보의 특징을 약화시키지 않고 유지할 수 있도록 하는 기능을 수행한다. 즉, DAF 모듈은, 본 발명의 네트워크에서 필요한 기능을 수행하도록 설계하여 학습, 적용할 수 있으며, 도 3의 예시에서와 같이, 본 발명의 추론 네트워크의 출력을 목표하는 방향으로 유지할 수 있도록 하는 기능을 할 수도 있다.
[PPD 및 DAF 네트워크 학습 방법]
제2 실시예의 네트워크 학습 방법은 제1 실시예에서의 학습방법과 같이 프로그레시브 방식을 사용하며, 제1 실시예와의 차이점은 DAF를 추가하여, 단계별 학습 시 각 단계의 PD와 함께 DAF도 추가하여 같이 학습하는 점이다.
제2 실시예에 따른 복수의 PD(Pretrained Decoder)는 영상의 스케일(Scale)별로 각각 독립적으로 초기 학습을 수행한 후, PPD 형식으로 캐스캐이드로 하위 단계에서 순차적으로 상위 단계 PD와 DAF를 연결하면서, 각 단계에 해당하는 PD 및 DAF 추가 시 마다 추가되는 PD 및 DAF에 대하여 튜닝 학습을 진행하고, 이때 이미 이전 단계에서 튜닝 학습이 완료된 PD 및 DAF에 대해서는 다시 학습하지 않도록 한다.
전체 학습 네트워크의 구성은 복수의 PD와 DAF로 구성되며, 복수의 PD는 PDk -1(k=1), PDk - 1 I(k>1)를 포함하며, 복수의 DAF는 DAFk -1 (k>1)를 포함한다. 이때 아래첨자 I가 표기될 경우, 해당 PD에 파라미터 인플레이팅이 적용되었음을 나타낸다. 파라미터 인플레이팅은 사전 학습된 네트워크의 입력 채널을 다수 개로 확장하기 위한 방법이다. 해당 방법은 사전 학습된 입력 채널을 다수 개로 복사하는 과정, 복사한 다수 개의 채널을 연결(Concatenation)하는 과정, 연결된 채널 내 파라미터들의 스케일을 조정하는 과정으로 구성된다.
PPD 구조의 네트워크를 학습하기 위하여, 각각 독립적으로 학습한 PDk -1(k=1) 내지 PDk - 1 I(k>1)와, 초기화 되어 있는 각 단계별 DAFk -1 (k>1)를, 각 단계 별로 순차적으로 프로그레시브하게 연결하면서, 각 단계 별 PD에 대한 튜닝 학습과 각 단계별 DAF에 대한 학습을 진행하여 전체 네트워크를 학습하는 방법을 사용한다. 다시 말해, PPD와 같은 네트워크 구조에서는 복수의 단계들에 포함된 PD들과 DAF들을 한 번에 학습하기 어렵다. 이러한 문제를 해결하기 위해서, 네트워크 구성 요소 인 각 단계 별 PD와 DAF를 순차적으로 연결하면서, 새로이 추가되는 PD에 대하여, 기존 초기 학습 파라미터를 추가되는 네트워크에 맞추어 튜닝하는 튜닝 학습을 진행하고, 새로이 추가되는 DAF에 대하여 초기화 되어 있는 파라미터를 추가되는 네트워크에 맞추어 학습을 진행하여, 해당 단계를 위하여 새로 연결되는 PD와 DAF의 학습을 완료한다. 이때 이전 단계까지 연결되면서 학습의 완료된 기 연결된 PD와 DAF는 학습하지 않고, 추가되는 PD와 DAF에 대해서만 학습한다.
복수의 스케일을 학습하는 과정을 각각의 스케일별로 독립적으로 수행한 후 서로 연결할 수 있으나, 본 발명에서는 각각의 스케일별로 사전에 독립적으로 학습한 PD를 단계적으로 연결하면서, 새로이 연결되는 PD와 DAF를 포함하는 네트워크까지의 구성을 기반으로, 새로이 연결되는 PD에 대하여 튜닝 학습을 진행하고, 추가 연결되는 DAF에 대하여 학습을 진행하여, 단계 별 네트워크를 순차적으로 연결하는 것이다.
이러한 방식으로 PDk -1(k=1), PDk - 1 I(k>1)와 DAFk -1 (k>1)의 각각의 네트워크 파라미터가 학습되어 설정된다.
실시예 2의 PPD 구조의 네트워크에서, 각 단계에서의 PD는 이전 단계 PD의 출력 영상과, 해당 단계의 DAF 출력 정보를 입력으로 이용하고, 학습 목표 영상으로 최초 클린 원본 영상을 해당 스케일 레벨의 PD의 출력 스케일과 동일하게 스케일링한 영상을 적용하여, 학습을 수행한다.
이때 해당 단계의 DAF도 동시에 학습이 진행되며, DAF는, 이전 단계의 PD의 업스케일 복원 영상 출력, 해당 단계 보다 하위 단계의 DAF 출력들을 현재 단계의 DAF 입력 스케일로 스케일링한 정보들 등, 이용 가능한 정보를 해당 단계의 DAF의 입력으로 적용한 후, 출력 되는 정보를 해당 단계의 PD의 입력으로 적용하고, 해당 단계의 PD의 출력이 학습 목표 영상인 최초 클린 원본 영상을 해당 스케일 레벨로 스케일한 영상이 될 수 있도록 해당 단계의 PD와 함께 DAF 학습을 수행한다.
PDk - 1(k=1)는 해당 단계 입력 스케일로 스케일링된 영상(Ik - 1 content, k=1)만을 입력으로 받고, PDk -1(k=1)의 출력인 제 k (k=1) 스케일 레벨 복원 영상(Ik detail, k=1)의 스케일 레벨로 최초 클린 원본 영상을 스케일링한 영상을 목표 영상으로 하여 튜닝 학습을 수행한다.
DAFk -1 (k>1)는 입력으로, 해당 단계 하위 단계까지에서 얻어진 이용 가능한 다양한 정보를 이용할 수 있으며, 일례로, 도 2에서와 같이, I0 content를 현재 단계의 입력 스케일로 스케일링한 영상, 현재 단계 이전 모든 하위 단계의 DAF 출력 정보들(DAFk-1 출력 정보, 현재 단계>k>1 인 모든 k)을 현재 단계의 입력 스케일로 스케일링한 정보와, 원본 입력 영상을 현재 단계의 입력 스케일로 다운스케일링한 영상(Ik-1 content, k>1)과, 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1) 등 이용 가능한 모든 정보를 입력으로 이용할 수 있다. DAFk -1 (k>1)에 대한 학습은 이러한 입력 정보에 대하여, 해당 단계의 PDk -1 (k>1)가 학습 목표 영상을 생성할 수 있도록 하는 최적의 영상 정보를 출력하도록 학습된다.
PDk - 1 I(k>1)는, DAFk - 1(k>1)의 출력 정보와 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1)을 입력으로 받아, PDk - 1 I(k>1)의 출력인 제 k (k>1) 스케일 레벨 업스케일 복원 영상(Ik detail, k>1)의 스케일 레벨로 최초 클린 원본 영상을 스케일링한 영상을 목표 영상으로 하여 튜닝 학습을 수행한다.
본 실시예에 따른 영상 복원 장치는 학습부를 포함한다.
학습부는 복수의 PD(Pretrained Decoder) 별로 영상의 스케일(Scale)에 따라 각각 독립적으로 학습을 수행한다.
학습부는 하위 스케일 레벨(Scale LEVEL)에서 최상위 스케일 레벨까지의 복수의 PD 및 복수의 DAF를 단계(STEP) 별로 연결하면서 학습을 수행한다. 학습부는 복수의 PD 및 DAF 별로 이전 단계에서 학습한 PD 및 DAF에 대해서 다시 학습을 수행하지 않도록 한다.
학습부는 복수의 PD 중 각각의 스케일 레벨 영상 출력을 얻기 위해 사용되는 PD를 단계별로 선별한다. 학습부는 각각의 단계에 사용되는 PD에서 최초 학습 시 입력 영상의 스케일별로 각각 독립적으로 학습을 수행한다. 학습부는 각각의 스케일 레벨별로 학습이 완료된 PD와 각 PD 앞단의 DAF를 연결한 구조상에서 하위 스케일 레벨부터 단계별로 학습을 수행한다. 학습부는 학습이 완료된 단계까지의 네트워크에서 다음 단계를 추가 연결 후 새로이 추가된 단계의 학습 시에는 이전 단계가 학습 및 업데이트되지 않도록 하는 프로그레시브 학습을 수행한다.
학습부는 복수의 PD 중 최초 스케일 레벨에서 이용되는 PD를 제외한 나머지 단계에서 이용되는 PD마다 파라미터 인플레팅을 수행해서 이전 단계의 PD 출력과 해당 단계의 DAF의 출력을 입력 받아 학습을 수행하도록 한다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (7)

  1. 삭제
  2. 해당 단계 입력 스케일로 다운스케일된 영상(Ik - 1 content, k=1)만을 입력받아 인공 지능 학습 결과를 반영한 후 기 설정된 배수로 업스케일링한 제1 스케일 레벨 업스케일 복원 영상(Ik detail, k=1)을 출력하는 PDk-1(k=1)(Pretrained Decoder); 및
    하위 단계에 포함된 DAF 출력 영상들을 해당 단계의 입력 스케일로 스케일링한 영상(IL→k-1 da-content, k>1, (k-1)>L≥0)(단, k=2인 경우, I0→ 1 da -content= I0→ 1 content), 해당 단계 입력 스케일로 다운스케일링한 영상(Ik-1 content, k>1), 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1)을 포함하는 이용 가능 정보를 기반으로 현재 단계의 최적 DAF 출력 정보(Ik-1 da-content, k>1)를 출력하도록 하는 복수의 DAF 모듈(DAFk-1, k>1)
    를 포함하는 것을 특징으로 하는 영상 복원 장치.
  3. 제2항에 있어서,
    상기 PDk-1(k=1) 이후에 연결되며, 해당 단계의 DAF 모듈(DAFk-1, k>1)의 출력(Ik-1 da-content, k>1)과 상기 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1)을 입력 받고, 상기 해당 단계의 DAF 모듈(DAFk-1, k>1)의 출력(Ik-1 da-content, k>1)과 상기 이전 단계 PD의 출력 복원 영상(Ik-1 detail, k>1)에 인공 지능 학습 결과를 반영하여 기 설정된 배수로 업스케일링한 제 k 스케일 레벨 업스케일 복원 영상(Ik detail, k>1)을 출력하는 PDk-1 I(k>1)
    를 추가로 포함하는 것을 특징으로 하는 영상 복원 장치.
  4. 제3항에 있어서,
    각각 독립적으로 학습한 상기 PDk-1(k=1) 이후에 상기 PDk-1 I(k>1)를 순차적으로 캐스캐이드(Cascade) 방식으로 연결한 PPD(Pretrained Progressive Decoder) 형태를 갖는 것을 특징으로 하는 영상 복원 장치.
  5. 제2항에 있어서,
    상기 복수의 DAF 모듈(DAFk-1, k>1)은
    상기 해당 단계 입력 스케일로 다운스케일된 영상(Ik-1 content, k=1), 해당 단계의 하위 단계별 최적 DAF 출력 정보(Ik-1 da-content, k>1)들을 해당 단계의 입력 스케일로 스케일링한 영상들, 이전 단계 PD 출력 복원 영상을 각 단계마다 입력받는 것을 특징으로 하는 영상 복원 장치.
  6. 제5항에 있어서,
    상기 복수의 DAF 모듈(DAFk-1, k>1)은
    상기 해당 단계 입력 스케일로 다운스케일된 영상(Ik-1 content, k=1), 해당 단계의 하위 단계별 최적 DAF 출력 정보(Ik-1 da-content, k>1)들을 해당 단계의 입력 스케일로 스케일링한 영상들과, 이전 단계 PD 출력 복원 영상과의 차감값을 각각 산출하는 것을 특징으로 하는 영상 복원 장치.
  7. 제6항에 있어서,
    상기 복수의 DAF 모듈(DAFk-1, k>1)은
    상기 차감값 각각에 그룹 컨벌루션을 취한 후 소프트맥스(Softmax)에 입력하여 출력값을 합산했을 때 총합이 1이되도록 한 후 상기 소프트맥스를 거친 상기 출력값 각각에 상기 이전 단계 PD 출력 복원 영상을 곱한 후 합산하여 상기 최적 DAF 출력 정보(Ik-1 da-content, k>1)로 생성한 이후에 연결된 PD에 입력하는 것을 특징으로 하는 영상 복원 장치.
KR1020210130813A 2021-10-01 2021-10-01 영상 복원 장치 KR102644142B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210130813A KR102644142B1 (ko) 2021-10-01 2021-10-01 영상 복원 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210130813A KR102644142B1 (ko) 2021-10-01 2021-10-01 영상 복원 장치

Publications (2)

Publication Number Publication Date
KR20230047687A KR20230047687A (ko) 2023-04-10
KR102644142B1 true KR102644142B1 (ko) 2024-03-06

Family

ID=85984465

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210130813A KR102644142B1 (ko) 2021-10-01 2021-10-01 영상 복원 장치

Country Status (1)

Country Link
KR (1) KR102644142B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102289045B1 (ko) * 2020-03-23 2021-08-11 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102289045B1 (ko) * 2020-03-23 2021-08-11 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치

Also Published As

Publication number Publication date
KR20230047687A (ko) 2023-04-10

Similar Documents

Publication Publication Date Title
CN109102462B (zh) 一种基于深度学习的视频超分辨率重建方法
CN109903228B (zh) 一种基于卷积神经网络的图像超分辨率重建方法
Yu et al. A unified learning framework for single image super-resolution
CN112348743B (zh) 一种融合判别式网络和生成式网络的图像超分辨率方法
Zhang et al. Accurate and efficient image super-resolution via global-local adjusting dense network
KR102236788B1 (ko) 이미지 복원 방법 및 장치
CN111316316A (zh) 用于图像复原的神经网络及其训练与使用方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN112288632A (zh) 基于精简esrgan的单图像超分辨率方法及系统
Esmaeilzehi et al. SRNMSM: A deep light-weight image super resolution network using multi-scale spatial and morphological feature generating residual blocks
CN112884650A (zh) 一种基于自适应纹理蒸馏的图像混合超分辨率方法
CN109993701B (zh) 一种基于金字塔结构的深度图超分辨率重建的方法
KR102119132B1 (ko) 에지 컴퓨팅용 초고해상도 영상을 복원하기 위한 초고해상도 영상 복원 장치 및 방법
KR102644142B1 (ko) 영상 복원 장치
KR102644141B1 (ko) 영상 복원을 위한 네트워크 학습 방법
Gao et al. Efficient multi-scale network with learnable discrete wavelet transform for blind motion deblurring
WO2021115053A1 (zh) 一种基于残差连接的多维图像复原方法和设备
CN112200752A (zh) 一种基于er网络多帧图像去模糊系统及其方法
Esmaeilzehi et al. EFFRBNet: A deep super resolution network using edge-assisted feature fusion residual blocks
CN116862795A (zh) 一种基于逐像素退化预测网络的多级去运动模糊方法
Huang et al. Improving image super-resolution via feature re-balancing fusion
Zhang An alternating minimization algorithm for binary image restoration
Zhao et al. Fast blind decontouring network
Krishna et al. A Trained CNN based Resolution Enhancement of Digital Images
KR102153786B1 (ko) 선택 유닛을 이용한 이미지 처리 방법 및 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right