KR20210125425A - 미지의 저하가 발생한 실제 초 고해상도의 신경망을 학습시키는 시스템 및 방법 - Google Patents

미지의 저하가 발생한 실제 초 고해상도의 신경망을 학습시키는 시스템 및 방법 Download PDF

Info

Publication number
KR20210125425A
KR20210125425A KR1020210042444A KR20210042444A KR20210125425A KR 20210125425 A KR20210125425 A KR 20210125425A KR 1020210042444 A KR1020210042444 A KR 1020210042444A KR 20210042444 A KR20210042444 A KR 20210042444A KR 20210125425 A KR20210125425 A KR 20210125425A
Authority
KR
South Korea
Prior art keywords
gan
image
output
learning
resolution
Prior art date
Application number
KR1020210042444A
Other languages
English (en)
Inventor
아민 케라드만드
하오유 렌
모스타파 엘-카미
슈앙콴 왕
배동운
이정원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20210125425A publication Critical patent/KR20210125425A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

방법 및 장치가 제공된다. 방법은 실제 초 고해상도(SR)를 위한 데이터세트를 생성하는 단계, 제 1 생성적 적대 네트워크(GAN)를 학습시킨는 단계, 제 2 GAN를 학습시키는 단계, 및 상기 제 1 GAN의 출력과 상기 제 2 GAN의 출력을 융합하는 단계를 포함한다.

Description

미지의 저하가 발생한 실제 초 고해상도의 신경망을 학습시키는 시스템 및 방법{System and method of training GAN for real-world super resolution with unknown degradations}
본 발명은 일반적으로 이미지 초 고해상도에 관한 것으로, 특히, 캐스케이드 네트워크 학습, 캐스케이드 네트워크 트리밍 및 확장된 컨볼루션을 통해 효율적인 초 고해상도의 심층 컨볼루션 신경망을 설계하기 위한 시스템 및 방법에 관한 것이다.
초 고해상도 이미징은 저해상도(LR) 이미지에서 고해상도(HR) 이미지를 생성한다. 초 고해상도(SR) 이미징은 이미지 및 비디오의 해상도를 직접적으로 개선할 뿐만 아니라 감시 및 얼굴/홍채 인식에서부터 의료 영상 처리에 이르기까지 폭넓게 적용할 수 있게 한다. 많은 알고리즘/시스템은 SR 이미징을 실행하기 위해서, 보간 (Li, Xin 및 Orchard, Michael, 새로운 엣지 기반의 보간, IEEE 이미지 처리를 위한 트랜랜잭션(TIP), vol. 10, issue 10, pp. 1521-1527(2001년 10월), 전체가 참조로 포함됨), 컨투어 피쳐 (Tai, Yu-Wing; Liu, Shuaicheng; Brown, Michael; Lin, Stephen, 엣지 프라이어 및 단일 이미지 디테일 합성, 2010 IEEE 컴퓨터 비전과 ㅍ패턴 인식(CVPR)을 위한 국제 회의, pp. 2400-2407, 전체가 참조로 포함됨), 및 통계적 이미지 프라이어(김광인 및 권영희, 희소 회귀와 자연적 이미지 프라이어를 사용한 단일 이미지 초 고해상도. IEEE 패턴 분석 및 기계적 지능에 대한 트랜잭션(TPAMI), vol.32, no.6, pp. 1127-1133 (2010년 1월), 전체가 참조로 포함됨)부터, 네이버(neighbor) 임베딩(Chang, Hong; Yeung, Dit-Yan; Xiong, Yimin, 네이버 임베딩을 통한 초 고해상도, 2004 CVPR, pp. 275-282, 전체가 참조로 포함됨) 및 희소 코딩(Yang, Jianchao; Wright, John; Huang, Thomas; Ma, Yi, 희소 표현을 통한 이미지 초 고해상도. IEEE TIP, vol. 19, no. 11, pp. 2861-2873(2010년 11월), 이는 전체가 참조로 포함됨)과 같은 패치 사전으로부터 학습하는 예제 기반 방법 까지 제안되었다.
최근 콘볼루션 신경망(CNN)은 SR 정확도 면에서 상당히 개선되었다. 예를 들어, Dong, Chao; Loy, Chen Change; He Kaiming; 및 Tang, Xiaoou, 이미지 초 고해상도를 위한 심층 컨볼루션 네트워크 학습, 2014 컴퓨터 비전을 위한 유럽 컨퍼런스(ECCV), pp. 184-199(이하 "Dong et al. 2014")을 참조하면 되고, 전체 내용이 참조로 포함된다. "SRCNN" (즉, 초 고해상도 컨볼루션 신경망)이라고도 하며, 이의 정확도는 작은 구조, 예를 들어 3 층 및/또는 작은 컨텍스트 수용 필드에 의해 제한될 수 있다.
이에 대한 응답으로 연구원들은 SRCNN의 크기를 늘릴 것을 제안했지만, 대부분의 제안은 엄청나게 많은 매개 변수를 사용하고, 논의중인 많은 SRCNN은 실시간으로 실행할 수가 없다. 제안되는 대규모 네트워크 크기로 인해 적절한 학습 설정, 즉 학습률, 가중치 초기화 및 가중치 감소를 추측하기조차 매우 어려울 수 있다. 결과적으로 학습이 전혀 수렴되지 않거나 로컬 최저점에 들어갈 수 있다.
본 발명의 기술적 과제는 앞서 설명된 문제점 및/또는 단점을 해결하고 적어도 아래에 설명되는 이점을 제공하기 위한 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
일 실시 예에 따르면, 방법은 실제 초 고해상도(SR)를 위한 데이터세트를 생성하는 단계, 제 1 생성적 적대 네트워크(GAN)를 학습시킨는 단계, 제 2 GAN를 학습시키는 단계, 및 상기 제 1 GAN의 출력과 상기 제 2 GAN의 출력을 융합하는 단계를 포함한다.
일 실시 예에 따르면, 장치는 하나 이상의 비 일시적 컴퓨터 판독 가능 매체; 및 상기 하나 이상의 비 일시적 컴퓨터 판독 가능 매체에 저장된 명령을 실행할 때, 실제 초 고해상도(SR)를 위한 데이터세트를 생성하는 단계, 제 1 생성적 적대 네트워크(GAN)을 학습시키는 단계, 제 2 GAN를 학습시키는 단계, 및 상기 제 1 GAN의 출력과 상기 제 2 GAN의 출력을 융합하는 단계를 실행하는, 적어도 하나의 프로세서를 포함한다.
본 개시 내용의 특정 실시 양태의 상기 및 다른 측면, 특징 및 이점은 첨부 도면과 함께 취해진 다음의 상세한 설명으로부터 더 명백해질 것이다.
도 1은 일 실시 예에 따른, 캐스케이드 학습된 초 고해상도 컨볼루션 신경망(CT-SRCNN)을 구성하기 위한 방법을 도시하는 예시적인 블록도이다.
도 2는 일 실시 예에 따른 캐스케이드 학습을 도시하는 예시도이다.
도 3a 및 3b는 일 실시 예에 따른 기존 학습 방법과 캐스케이드 학습 사이의 차이점 중 일부를 도시한다.
도 4는 일 실시 예에 따른 캐스케이드 학습 후 각각 시작 CNN 및 종료 CNN을 도시한다.
도 5는 일 실시 예에 따른 캐스케이드 네트워크 트리밍을 도시하는 예시도이다.
도 6a 및 6b는 일 실시 예에 따른 네트워크 트리밍 방법들 간의 차이점의 일부를 도시한다.
도 7은 일 실시 예에 따른 필터 트리밍을 수행하기 위한 예시도를 도시한다.
도 8a 및 8b는 각각 일 실시 예에 따른 확장된 컨볼루션과 종래의 컨볼루션 사이의 일부 차이를 도시한다.
도 9는 일 실시 예에 따른 본 장치의 예시도를 도시한다.
도 10은 일 실시 예에 따른, 본 장치를 제조하고 테스트하기 위한 예시적인 흐름도를 도시한다.
도 11은 일 실시 예에 따른 캐스케이드 학습된 CNN 대 비-캐스케이드 학습된 CNN의 수렴 속도를 도시하는 예시도이다.
도 12는 일 실시 예에 따른 종래의 ResBlock를 도시하는 예시도이다.
도 13은 일 실시 예에 따른 단순화된 ResBlock를 도시하는 예시도이다.
도 14는 일 실시 예에 따라 가중된 ResBlock를 도시하는 예시도이다.
도 15는 일 실시 예에 따른 캐스케이드 학습된 시스템을 도시하는 예시도이다.
도 16은 일 실시 예에 따른 컬러 이미지 디코딩을 도시하는 예시도이다.
도 17은 일 실시 예에 따른, 깊이 별 분리 가능한 컨볼루션을 도시하는 예시도이다.
도 18은 일 실시 예에 따른 ResBlocks을 도시하는 예시도이다.
도 19는 일 실시 예에 따른 캐스케이드 진화를 도시하는 예시도이다.
도 20은 일 실시 예에 따른, 현실 세계 SR을 위한 방법의 흐름도를 예시한다.
도 21은 일 실시 예에 따른 SR 접근법을 도시하는 도면이다.
도 22는 일 실시 예에 따른 잔차 채널 주의 네트워크(RCAN)를 도시하는 도면이다.
도 23은 일 실시 예에 따른, 학습된 GAN으로부터의 융합 결과를 나타내는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세히 설명한다. 동일한 요소는 서로 다른 도면에 도시되어 있지만 동일한 참조 번호로 지정된다는 점에 유의해야 한다. 이하의 설명에서, 상세한 구성 및 구성 요소와 같은 특정 세부 사항은 단지 본 개시의 실시 예의 전반적인 이해를 돕기 위해 제공된다. 따라서, 본 발명의 범위를 벗어나지 않고 본 명세서에서 설명된 실시 예의 다양한 변경 및 수정이 이루어질 수 있음은 당업자에게 자명할 것이다. 또한, 잘 알려진 기능 및 구성에 대한 설명은 명확성과 간결성을 위해 생략되었다. 이하에서 설명하는 용어는 본 발명의 기능을 고려하여 정의된 용어로, 사용자, 사용자의 의도 또는 관습에 따라 다를 수 있다. 따라서 용어의 정의는 명세서 전반에 걸친 내용을 토대로 내려져야 한다.
본 발명은 다양한 변형 및 실시 예를 가질 수 있으며, 그 중 실시 예는 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 개시는 실시 예들에 제한되지 않음을 이해해야 한다. 그러나 본 개시의 범위 내의 모든 수정, 등가물 및 대안을 포함한다.
다양한 요소를 설명하기 위해 제 1, 제 2와 같은 서수를 포함하는 용어가 사용될 수 있지만, 구조적 요소는 용어에 의해 제한되지 않는다. 이들 용어는 한 요소를 다른 요소와 구별하는 데만 사용된다. 예를 들어, 본 개시의 범위를 벗어나지 않으면서, 제 1 구조적 요소는 제 2 구조적 요소로 지칭될 수 있다. 유사하게, 제 2 구조적 요소는 또한 제 1 구조적 요소로 지칭될 수 있다. 본 명세서에서 사용되는 용어 "및/또는"은 하나 이상의 관련 항목의 임의의 및 모든 조합을 포함한다.
본 명세서의 용어는 본 발명의 다양한 실시 예를 설명하기 위해 사용된 것일뿐 본 발명을 제한하려는 것은 아니다. 단수형은 문맥에서 달리 명시하지 않는 한 복수형을 포함한다. 본 명세서에서 "포함하다" 또는 "갖는다"라는 용어는 특징의 존재, 번호, 단계, 동작, 구조적 요소, 부분 또는 이들의 조합을 의미하는 것으로 이해되어야 하며, 하나 이상의 다른 특징, 숫자, 단계, 작업, 구조적 요소, 부품 또는 이들의 조합의 존재 또는 추가 가능성을 배제하지 않는다.
다르게 정의되지 않는 한, 본 명세서에서 사용되는 모든 용어는 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의된 용어와 같은 용어는 관련 예술 분야의 문맥 상 의미와 동일한 의미로 해석되어야 하며, 본 명세서에서 명확하게 정의되지 않는 한 이상적이거나 지나치게 형식적인 의미를 갖는 것으로 해석되어서는 안된다.
다양한 실시 예는 하나 이상의 요소를 포함할 수 있다. 요소는 특정 작업을 수행하도록 배열된 임의의 구조를 포함할 수 있다. 실시 예는 예로서 특정 배열에서 제한된 수의 요소로 설명될 수 있지만, 실시 예는 주어진 구현에 대해 원하는 대로 대안적인 배열로 더 많거나 더 적은 요소를 포함할 수 있다. "일 실시 예" 또는 "실시 예"에 대한 언급은 실시 예와 관련하여 설명된 특정 특징, 구조 또는 특성이 적어도 하나의 실시 예에 포함된다는 것을 의미한다는 것에 주목할 가치가 있다. 본 명세서의 여러 곳에서 "일 실시 예" (또는 "실시 예")라는 문구의 출현은 반드시 동일한 실시 예를 지칭하는 것은 아니다.
이 개시는 SRCNN을 생성하기 위한 새로운 접근 방식, 또는 보다 정확하게 몇 가지 새로운 기술을 제공한다. 여기서, "캐스케이드 학습된 초 고해상도 컨볼루션 신경망"(CT-SRCNN)이라는 용어는 본 명세서에서 함께 설명된 모든 새로운 기술을 함께 지칭할 수 있으며, 또는 해당 용어가 사용되는 맥락에 의해 명확해야 하는 하나 이상의 새로운 기술을 지칭할 수도 있다. 감독되지 않은 가중치 초기화로 처음부터 모든 레이어를 학습하는 기존 접근 방식과 달리, CT-SRCNN은 소규모 네트워크(예를 들어, 3 레이어)로 학습을 시작한다. 현재 네트워크가 학습 오류를 적절히 줄일 수 없을 때 새로운 레이어가 점차 네트워크에 삽입된다.
이 "캐스케이드 학습" 전략을 사용하면, 수렴이 더 쉬워지고 더 많은 레이어를 사용할 때 정확도가 지속적으로 증가한다. 그러나 깊이가 증가하는 동안, 네트워크의 상대적 복잡성은 새로운 레이어의 특성 때문에 증가하지 않는다. 보다 구체적으로, CT-SRCNN에서 새로운 레이어의 모든 가중치는 무작위로 초기화되고, 학습률은 고정된다. 이것은 매개 변수를 조정하는 데 많은 시간과 자원을 소비해야 하는 접근 방식에 비해 큰 이점이 있다. 13 개의 레이어가 있는 CT-SRCNN의 특정 예(아래에서 더 자세히 설명하고 표시됨)에서, 정확도는 실행 속도가 5 배 이상 빠르며 매개 변수의 1/5 만 사용하면서, 최첨단 이미지 SR 네트워크로 경쟁력이 있다.
본 명세서에서는, 저장 및 계산 복잡성을 줄여 CT-SRCNN 모델을 더욱 세분화하는 "캐스케이드 네트워크 트리밍(cascade network trimming)" 뿐만 아니라, 완전한 기존의 컨볼루션 계산을 수행하는 대신에, "확장된 컨볼루션(dilated convolution)"의 한 형태를 배치하여 초 고해상도 심층 컨볼루션 신경망의 효율성을 더욱 향상시켜 CT-SRCNN 모델 복잡성을 더욱 줄일 수 있는 또 다른 방법이 설명된다.
본 개시의 나머지 부분에서는 CT-SRCNN의 이러한 세 가지 다른 방식/특징을 순서대로 설명한다.
I. 캐스케이드 학습
II. 캐스케이드 네트워크 트리밍
III. 확장된 컨볼루션
이들 세 가지 방법/기술이 CT-SRCNN의 맥락에서 논의되지만, 각 방법/기술은 당업자에 의해 이해되는 바와 같이 다른 SR 방식 또는 CNN 네트워크에 개별적으로 또는 각기 적용될 수 있다.
도 1은 일 실시 예에 따른 캐스케이드 학습된 초해상도 컨볼루션 신경망(CT-SRCNN)을 구성하기 위한 방법을 도시하는 예시적인 블록도이다.
110에서, 학습 세트가 준비되며, 이는 CT-SRCNN이 저해상도 이미지에서 고해상도 이미지를 만들려고 할 때 사용하기 위해 "학습"할 해당 고해상도(HR) 이미지와 저해상도(LR) 이미지 세트를 의미한다. 이 실시 예에서, 120에서, 각각의 LR 이미지는 바이큐빅 업 샘플링되고 LR/HR 패치는 학습을 위한 준비로 잘린다. 예를 들어, 이 단계에 대해 더욱 상세한 설명을 위해서는, Dong et al. 2014 및 Dong, Chao; Loy, Chen Change; He, Kaiming; 및 Tang, Xiaoou, 심층 컨볼루션 네트워크를 사용한 이미지 초해상도, 패턴 분석 및 기계 지능(TPAMI)에 대한 IEEE 트랜잭션, vol. 38, no. 2, pp. 295-307(2016년 2월)(이하 "Dong at al. 2016a"로 언급)을 참조하면 되고, 이는 본 명세서에서 참조로 포함된다. 당업자에 의해 이해되는 바와 같이, 다양한 사전 학습 준비 기술이 있으며, 본 개시는 사전 학습 준비 기술로서 이 바이큐빅 업 샘플링 및 LR/HR 패치에 제한되지 않는다.
130에서, 캐스케이드 학습이 본 개시에 따라 수행된다. 이하, 본 발명의 특정 실시 예에 따른 캐스케이드 학습의 실시 예를 설명한다. 140에서, 캐스케이드 네트워크 트리밍이 본 개시에 따라 수행된다. 본 발명의 특정 실시 예에 따른 네트워크 트리밍의 실시 예는 아래에서 더 설명된다. 150에서, 프로세스가 완료되고 CT-SRCNN 시스템이 실제 사용 준비가 된다.
이들 상이한 프로세스(즉, 캐스케이드 학습 및 캐스케이드 네트워크 트리밍)가 개별적이고 별개의 스테이지/단계로서 도 1에서 설명 및 도시되었지만, 본 개시에 따른 실제 구현에서 이들 기능들 사이에 중첩된 부분이 있을 수 있다.
I. 캐스케이드 학습
도 2는 일 실시 예에 따른 캐스케이드 학습을 도시하는 예시도이다. 205에서, 학습 과정이 시작된다.
210에서, 학습은 스테이지 i=1에서 시작된다. 신생 네트워크는 b 개의 레이어로 시작하고, 학습 오류가 수렴하거나(220) 임계 값보다 높게 유지되는(250) 각 스테이지에서 c 개의 레이어가 추가된다. 따라서 각 학습 스테이지 i에서 c*(i-1)+b 레이어가 있는 CNN이 학습된다. 스테이지 i=1이면, 처음 b 개의 레이어가 있는 CNN이 학습된다. 스테이지 i=1 이후, 캐스케이드 학습은 필요에 따라 b 개의 레이어, 특히 필요하다면, 한 번에 c 개의 레이어에 중간 레이어를 추가하기 시작한다.
220에서, 네트워크가 수렴하기 시작했는지 여부, 예를 들어, 학습 오류가 (이전 스테이지에서) 특정 양만큼 감소하는 것이 중단했는지 여부가 결정된다. 만약 그렇다면 (즉, CNN이 수렴하고 있다면), c 개의 중간 레이어가 230에서 추가되고, 다음 반복은 240에서 시작된다(i=i+1). 중간 레이어가 다른 레이어의 가중치 행렬 크기에 영향을 주지 않기 때문에, 이 반복 프로세스 중에 새 레이어는 랜덤 가중치로 설정될 수 있다. 실제로 모든 기존 레이어는 이전 가중치 행렬을 상속한다. 이 캐스케이드 학습 반복 프로세스는 학습 오류가 250에서 임계 값보다 작아, CNN 모델이 255에서 출력될 때까지 계속되어 CNN을 더 심층으로 만든다.
도 3a 및 3b는 캐스케이드 학습과 기존 학습 방법 간의 몇 가지 차이점을 도시한다.
도 3a는 도 2의 흐름도의 예가 도시된다. 도 3a에서, 레이어의 수 b는 학습할 제 1 CNN을 나타내는 상단(310)에서 나태낸 바와 같이, 3과 같고, 각 스테이지에서 추가된 레이어 c의 수는 1이다. 각각의 새 레이어에는 무작위로 설정된 가중치가 있으며 기존의 각 레이어는 이전 스테이지의 가중치를 상속한다. 새로 삽입된 모든 중간 레이어와 함께 CNN은 더 심층이 된다. 각 스테이지에서 더 깊은 CNN이 다시 학습된다. 대부분의 가중치가 이전 스테이지에서 상속되기 때문에 고정된 학습률을 사용해도 지속적인 재 학습이 비교적 쉽다.
그러나 기존의 방법은 도 3b에 도시된 바와 같이 동시에 조정해야 하는 "완전한" 세트의 레이어로 시작한다. 도 3b에 도시된 바와 같이 동시에 모든 레이어를 학습시키는 것은 느린 수렴으로 인해 도 3a에 도시된 방식보다 훨씬 더 복잡하고, 이 때 캐스케이드 학습은 수렴될 때까지 더 얕은 네트워크를 학습시키고, 이전에 학습된 레이어를 그대로 유지하면서 랜덤 가중치를 갖는 레이어를 점진적으로 삽입하고, 더 심층의 네트워크가 수렴될 때까지 전체 네트워크를 재학습한다. 또한 캐스케이드 학습은 단순히 학습률을 고정하고 랜덤 가중치로 새 레이어를 생성할 수 있다.
도 4는 일 실시 예에 따른 캐스케이드 학습 후 각각 시작 CNN 및 종료 CNN을 도시한다.
x는 보간된 LR 이미지를 나타내고 y는 일치하는 HR 이미지를 나타낸다. N 개의 샘플인 학습 세트 {(xi, yi), i = 1,?, N}가 주어질 때, CT-SRCNN의 목표는 HR 출력
Figure pat00001
=g(x)를 예측하는 모델 g를 학습하는 것이다. 학습 중, 평균 제곱 오차(MSE)
Figure pat00002
는 학습 세트에 대해 최소화된다.
도 4에서 캐스케이드 학습은 3 레이어 모델(b = 3)에서 시작된다. 제 1 레이어(410)는 64 개의 9x9 필터로 구성되고, 제 2 레이어(413) 및 제 3 레이어(415)는 32 개의 5x5 필터로 구성된다. 모든 가중치(새 레이어의)는 σ = 0.001 인 가우스_함수에 의해 무작위로 초기화되고 모든 컨볼루션은 스트라이드 1을 갖는다.
"스트라이드"는 컨볼루션 레이어의 하이퍼 매개변수 중 하나이며 공간 차원(너비 및 높이) 주변의 깊이 열이 할당되는 방식을 제어하는데, 달리 말하면, 스트라이드는 필터가 입력 볼륨을 중심으로 어떻게 회전하는지를 나타내고, "스트라이드 1"은 필터가 한 번에 한 픽셀씩 입력 볼륨을 중심으로 컨볼루션하는 것을 나타내고, "스트라이드 2"는 필터가 한 번에 두 픽셀을 컨볼루션한다는 것을 나타낸다.
예를 들어, https://en.wikipedia.org/wiki/Convolutional_neural_network Wikipedia에서 다운로드한 "컨볼루션 신경망"에 대한 정의; https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks-Part-2/ 다운로드한 "컨볼루션 신경망 이해를 위한 초보자 가이드- 2부"를 참조하면 되고, 이들은 본 명세서에서 참조되고 있다.
도 4로 돌아가, 같이, 현재 스테이지의 MSE가 크게 감소하지 않는 경우, 예를 들어, 한 에포크에서 오류가 3 % 미만으로 감소하면, 학습은 다음 스테이지로 이동한다. 예를 들어, 도 2의 단계 220. 이 실시 예에서 학습을 가속화하기 위해, 2 개의 새로운 레이어가 각 스테이지에 대해 네트워크에 삽입된다(즉, 도 2의 단계 230에서 c=2). 따라서, 학습은 도 4에 도시된 바와 같이, 3 개의 레이어서 시작된 다음에, 5 개의 레이어, 7 개의 레이어, 5 개의 스테이지 후에 마지막으로 13 개의 레이어로 진행한다. 각각의 새 레이어는 32 개의 3x3 필터로 구성된다. 이 크기는 CNN이 점점 더 심층이 되어도 더 작은 네트워크를 보장한다. 새로운 중간 레이어는 마지막 32 개의 5x5 필터 레이어(415) 바로 앞에 삽입된다. 이전 스테이지에 있는 모든 레이어의 가중치는 이전 스테이지의 가중치를 상속하고 두 새 레이어의 가중치는 항상 무작위로 초기화된다(σ = 0.001인 가우스 분포). 새로운 컨볼루션 레이어는 피쳐 맵의 크기를 줄이므로, 새로운 중간 3x3 레이어마다 2 픽셀이 제로 패딩(zero-padded)된다. 결과적으로 캐스케이드 학습의 모든 스테이지는 동일한 크기의 출력을 가지므로 학습 샘플을 공유할 수 있다.
네트워크가 더 심층이 됨에 따라, 기존 방법을 사용한 학습이 수렴하는 것이 일반적으로 더 어려워진다. 예를 들어, Dong et al. 2016a에서의 SRCNN은 3 개 이상의 레이어로 우수한 성능을 보여주지 못했다. 김지원; 이정권; 이경무, 초 심층 컨볼루션 네트워크를 사용한 정확한 이미지 초 고해상도, 2016 CVPR, pp. 1646-1654 (이하 "VDSR"로 언급함)에서, - 전체가 본 명세서에 참조로 통합됨 - 높은 초기 학습률이 조정되고 점차적으로 감소한다. 그러나 크고 다양한 학습 세트(예를 들어, 160,000 개 이미지에서 3 천만 개 이상의 패치)를 사용하는 경우, 높은 학습률은 제대로 작동하지 않는다. 이에 대한 잠재적인 이유는 높은 학습률로 인해 그라디언트가 사라지거나 폭발하기 때문이다.
CT-SRCNN에서, 각 스테이지에서 몇 개의 가중치만이 무작위로 초기화되므로, 수렴은 비교적 쉽다. 붕괴없이 CT-SRCNN의 모든 레이어에 대한 고정 학습률 0.0001이 가능하다. 학습 속도를 높이려면 제 1 단계만 변경되어야 하고, 예를 들어 제 1 단계의 학습률을 0.001로 설정할 수 있다. 실험/시뮬레이션에서, 도 4의 것과 같은 13 레이어 CT-SRCNN은, VDSR 또는 김지원; 이정권; 이경무, 이미지 초 고해상도를 위한 심층 반복적 컨볼루션 심층망 2016 CVPR, pp. 1637-1645 (이하, "DRCN"로 언급함) - 전체가 본 명세서에 참조로 포함됨 - 과 같은 다른 네트워크에 비해 더 적은 매개 변수를 사용하면서 이미 최첨단 정확도를 달성했다. 반대로 무작위로 초기화된 심층 네트워크를 직접 학습하려면 이러한 네트워크가 허용 가능한 오류로 수렴하지 못할 수 있다고 실험이 나타내는 경우에도, 이들 다른 네트워크에서 최상의 수렴을 보장하기 위해서는 매개 변수를 조정하는 것에 많은 노력이 필요하다.
아래 표 1에서와 같이, 두 가지 이미지 품질 메트릭, 피크 신호 대 노이즈비(PSNR) 및 구조 유사성 측정치(SSIM)가 측정될 때, CT-SRCNN이 더 나은 품질과 더 빠른 속도를 달성하는 것을 알 수 있다. 또한 CT-SRCNN은 VDSR 및 DRCN에 비해 더 많은 세부 정보를 검색한다.
CNN에 L-레이어가 주어지면, i 번째 레이어는 ni-1 입력 채널,
Figure pat00003
콘볼루션 커널, 및
Figure pat00004
필터를 갖는다고 가정한다. i,번째 레이어의 매개 변수의 수는
Figure pat00005
이다. 이 계산에서는 바이어스 항이 무시된다. 그러면 전체 매개 변수 수는
Figure pat00006
이다. 따라서, 예를 들어, 각 레이어에 64-32-1 필터를 갖는 3 레이어 CT-SRCNN에서,
Figure pat00007
이므로, 매개 변수의 총 개수는
Figure pat00008
이다.
PSNR/SSIM은 이미지 재구성 품질을 측정하는 데 사용된다. PSNR은 이미지 픽셀의 가능한 최대 전력과 충실도에 영향을 미치는 노이즈 손상 전력 간의 비율이다. 이것은
Figure pat00009
으로 계산되고, 이 때 MSE는 지상 실측 정보와 재구성된 이미지(SR 출력) 사이에서 계산된다. PSNR이 클수록 이미지 품질이 좋아진다. PSNR의 최대 값은 무한하다. Wikipedia, https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio에서 2017년 6월 27일자로 다운로드한 "피크 신호 대 노이즈비"의 정의를 참조하면 되고, 이는 본 명세서에서 참조되고 있다.
SSIM은 휘도 마스킹 및 콘트라스트 마스킹을 통합하면서, 이미지 저하를 구조 정보의 감지된 변화로 간주하는 인식 기반 모델이다. 이것은 PSNR보다 인간의 시각과 더 일치한다. SSIM은
Figure pat00010
으로 계산되고, 여기서 x는 재구성 이미지, y는 참조 이미지(지상 실측 정보),
Figure pat00011
는 평균,
Figure pat00012
는 분산,
Figure pat00013
는 x와 y 사이의 공분산이고, c1=6.5025, 및 c2=58.5225이다. SSIM는 [0. 1] 사이에 있다. x가 y의 완전한 카피인 경우, SSIM은 1이 된다. 예를 들어, 위키피디아, https://en.wikipedia.org/wiki/Structural_similarity 에서 2017년 6월 27일자로 다운로드한 "구조적 유사성"의 정의를 참조하면 되며, 이는 본 명세서에서 함께 참조된다.
CT-SRCNN과 기존의 방법의 비교
매개 변수의 수 PSNR SSIM 이미지 당 시간
(초 단위)
VDSR >600,000 29.77 0.8314 0.17
DRCN >1,000,000 29.76 0.8311 4.19
13-레이어 캐스케이드 학습
(유일) SRCNN
~150,000 29.91 0.8324 0.03
캐스케이드 트림드 13-레이어 CT-SRCNN ~120,000 29.91 0.8322 0.02
II. 캐스케이드 네트워크 트리밍
대부분의 신경망에는 중복성이 있다. 이러한 중복을 제거하면 효율성이 분명히 향상된다. 본 개시의 실시 예에서, 다수의 필터 및/또는 가중치는 정확도가 약간 떨어진 특정 층으로부터 제거될 수 있다.
이 기술/접근법(캐스케이드 네트워크 트리밍)은 위에서 설명한 캐스케이드 학습과 함께 사용하거나 캐스케이드 학습과 독립적으로 사용할 수 있다. 허용 가능한 정확도 또는 성능을 가진 심층 컨볼루션 신경망이 주어지면, 네트워크 깊이를 동일하게 유지하고 정확도를 저하시키지 않으면서 네트워크 크기, 계산 복잡성 및/또는 처리 속도를 줄이기 위한 기술/접근법이 항상 필요하다.
캐스케이드 학습과 마찬가지로, 캐스케이드 네트워크 트리밍에는 반복 프로세스도 포함된다. 각 스테이지에서, 필터는 d 레이어에서만 트리밍되는데, 이는 L-레이어 네트워크의 경우 (L-(i-1)d-1) 번째 레이어에서 (L-id) 번째 레이어까지 스테이지 i에서 트리밍되는 것을 의미한다. 예를 들어, 13 레이어 CT-SRCNN에서 d = 2 레이어를 트리밍할 때, 제 12 레이어과 제 11 레이어가 제 1 스테이지 i = 1에서 트리밍된 다음에, 네트워크가 미세 조정된다. 수렴되면, 제 2 스테이지 i = 2는 제 9 및 제 10 레이어를 트리밍하는 것으로 시작된다. 이 절차는 모든 레이어가 트리밍될 때까지 반복된다. 위의 절차에서 제 13 레이어는 무시되지만, 절차는 또한 제 1 스테이지에서 제 12 및 제 13 레이어를 트리밍하고 제 2 스테이지에서 제 10 및 제 11 레이어를 트리밍하는 것으로 간주될 수도 있다.
도 5는 일 실시 예에 따른 캐스케이드 네트워크 트리밍을 도시하는 예시도이다. 505에서, 트리밍의 프로세스는 L 개의 레이어가 있는 학습 CNN으로 시작된다.
510에서, 트리밍은 스테이지 i = 1에서 시작된다. 위에서 언급했듯이 전체 L 레이어 CNN의 d 레이어만이 한 스테이지에서 트리밍된다. 따라서,(L-(i-1)d-1) 번째 레이어 내지 (L-id) 번째 레이어는 510에서 스테이지 i에서 트리밍된다. 520에서 미세 조정이 수행된다. 530에서 학습 오류가 (이전 단계에서) 일정량만큼 감소하는 것을 멈췄는지 여부가 결정된다. 그럴 경우, 스테이지 당 트리밍된 레이어를 곱한 총 스테이지 수가 540에서 총 레이어 수 보다 크거나 같은지 여부 ("(id>=L)?")가 결정된다. 학습 오류가 530에서 감소하는 것을 멈추지 않은 경우, 본 방법은 520에서 미세 조정으로 돌아간다.
스테이지 당 트리밍된 레이어를 곱한 총 스테이지 수가 540에서 총 레이어 수보다 크거나 같다고 판단되면 ("(id>=L)?"), 프로세스는 종료되고 트리밍된 CNN 모델이 565에서 출력된다. 스테이지 당 트리밍된 레이어를 곱한 총 스테이지 수가 540에서 총 레이어 수보다 적다고 판단되면 ("(id> = L)?"), 이 방법은 550에서 다음 단계를 시작한다("i=i+1").
도 6a 및 6b는 일 실시 예에 따른 네트워크 트리밍 방법들 간의 차이점 중 일부를 예시한다.
도 6a에서, 본 개시의 일 실시 예에 따라, CNN의 하나의 레이어가 스테이지마다 트리밍되고, 각 스테이지 사이에서 미세 조정이 수행된다. 대조적으로, 도 6b의 CNN의 모든 레이어는 동시에 미세 조정되고 트리밍된다. 도 6b에 도시된 바와 같이 동시에 모든 레이어를 조정하고 트리밍하는 것은 도 6b에 도시된 방식보다 훨씬 더 복잡하다.
캐스케이드 네트워크 트리밍은 레이어에서 전체 필터를 트리밍하여 수행된다. 손실된 정확도를 복구하기 위해 트리밍은 각 트리밍된 레이어 또는 레이어 그룹 이후에 수렴될 때까지 미세 조정하여 레이어별로 수행된다.
도 7에 도시된 바와 같이, 필터가 트리밍되면, 인접한 레이어도 영향을 받는다. 도 7에서, 필터(710)(점선의 블록)는 i 번째 레이어에서 트리밍되고, ni = ni-1,(i+1) 번째 레이어의 일부 가중치(720)(필터 내의 점선으로 표시됨)도 트리밍된다. 따라서 i 번째 레이어에서 필터를 트리밍하면 i 번째 레이어와 (i+1) 번째 레이어 모두에 대한 계산 비용이 감소한다. CNN에서,(i+1) 번째 레이어의 입력 채널 수는 i 번째 레이어의 필터(출력 채널) 수와 같다.
도 7에서는 i 번째 레이어에 ni = 4 개의 필터와 ni-1 = 5 개의 입력 채널이 있고, 트리밍 전 (i+1) 번째 레이어에 ni+1 = 10 개의 필터와 ni = 4 개의 입력 채널이 있다고 가정한다. 필터(710)가 i 번째 레이어에서 트리밍되면 트리밍된 ni는 3으로 감소되고 ni+1은 여전히 10이다. (i + 1) 번째 레이어의 가중치720)는 곱셈에 대응하는 트리밍된 가중치이다. 마지막 섹션에서 언급했듯이, i 번째 레이어에서
Figure pat00014
의 곱셈 값이 있고, (i+1) 번째 레이어에
Figure pat00015
의 곱셈 값이 있다. ni가 감소하면, i 번째 레이어와 (i+1) 번째 레이어에서 곱의 수도 감소한다.
트리밍할 필터를 결정하기 위해 적절한 기준이 사용된다. 이 실시 예에서, 상대적 중요성의 측정이 사용된다. 더 구체적으로, i 번째 레이어에서 j 번째 필터의 상대적 중요도 Ri,j는 j 번째 필터에 있는 모든 가중치의 제곱합으로 정의되고, 여기서 Wi,j는 수학식 1에서와 같이 i 번째 레이어에 있는 j 번째 필터의 가중치 행렬이다.
Figure pat00016
따라서 가장 작은 Ri,j를 갖는 필터는 제거된다. 상술한 바와 같이, 필터(710)가 i 번째 레이어로부터 트리밍될 때, (i+1) 번째 레이어의 일부 가중치(720)도 트리밍되어,
Figure pat00017
가 결과된다. 따라서, Ri+1,j를 계산할 때, 트리밍되지 않은 가중치 Wi+1,j ("독립적 트리밍"이라고도 함)가 수학식 3에서 사용되거나, 트리밍된 가중치
Figure pat00018
가 수학식 2에서 사용된다:
Figure pat00019
아래 알고리즘은 레이어에서 필터를 트리밍하는 반복 프로세스에 대한 예시적인 수준 높은 설명을 제공한다.
필터 트리밍을 위한 알고리즘
Figure pat00020
다른 비율/임계 값
Figure pat00021
Figure pat00022
를 사용하는 것으로 다른 트리밍된 모델이 생성될 수 있다. 필터 트리밍이 인접 레이어에 영향을 미치기 때문에 필터 트리밍이 사용되는 대부분의 경우 정확도를 검색하려면 미세 조정이 필요하다. 대조적으로, 가중치 프루닝은 상대적으로 작은 영향을 미친다. 적절한 트리밍 속도(예를 들어, 0.2 미만)를 사용하면 미세 조정 없이도 정확도가 크게 감소하지 않는다.
III. 확장된 컨볼루션
Figure pat00023
trous 컨볼루션이라고도 하는 확장 컨볼루션은 원래 웨이브릿 분해를 위해 개발된 컨볼루션의 유형이지만 (Holschneider, M .; Kronland-Martinet, R .; Morlet, J .; 및 Tchamitchian, Ph., 웨이브릿 변형의 도움으로 신호 분석을 위한 실시간 알고리즘: WAVELETS: TIME-FREQUENCY METHODS AND PHASE SPACE, J.M. Combes et al., eds., pp. 286-297(1987)를 참조, 이는 본 명세서에 참고로 포함됨), 특히 조밀한 기능을 얻기 위해 의미론적 분할에 적용되었다 (예를 들어, Yu, Fisher 및 Koltun, Vladlen, 확장된 컨볼루션에 의한 멀티스케일 컨텍스트 어그리게이션, 2016 Int'l Conference on Learning Representations(이하 "Yu 등 2016"로 언급)을 참조, 이는 본 명세서에 참고로 포함됨).
풀링(pooling)없이 컨볼루션 레이어로 구성된 순수 컨볼루션 네트워크에서, 단위의 수용 필드는 층별로 선형적으로만 성장할 수 있는데, 피쳐 맵은 입력에서 인접 픽셀을 컨볼루션하는 것으로 생성되기 때문이다. 수용 필드를 증가시키는 가능한 방법은 더 큰 영역에서 입력 픽셀을 컨볼루션하는 것이다. 이는 기존의 컨볼루션에 기존의 고밀도 커널을 사용하는 대신 확장 컨볼루션에서 '확장 커널'을 사용하는 것과 유사하다.
아래 수학식 3에서 정의된 대로, F가 이산 함수이고 K가 컨볼루션 커널이고 확장 컨볼루션 *d가 일반적인 컨볼루션의 일반화된 버전이라고 가정하고, 여기서 d는 팽창 계수이다. 기존의 컨볼루션은 단순한 1-확장 컨볼루션이다 (즉, d=1일 때).
Figure pat00024
CNN에서 확장 컨볼루션을 적용할 때의 한 가지 장점은 도 8a 및 8b에 도시된 바와 같이, 확장 버전이 더 큰 수용 필드를 가지고 있다는 것이다. 확장 컨벌루션 필터는 원래 필터를 업 샘플링하여, 즉 요소 사이에 0을 삽입하여 얻는다. 따라서 설계 상 확장 필터는 제로 요소의 구조화된 패턴을 갖는다. 0 요소가 임의의 패턴과 위치를 갖는 가중치 프루닝과 비교하면, 확장 필터는 제로 가중치에 대해 구조화된 패턴을 가지며 하드웨어 및 소프트웨어의 계산 복잡성을 줄이는 데 훨씬 더 유용하다. 따라서, 초 고해상도의 경우, 본 발명의 실시 예는, 동일한 수용 필드를 유지하고 이를 사용하여 동일한 수용 필드를 가진 확장되지 않은 필터와 비교하여 계산 복잡성을 줄임으로써, 일반적인 사용과는 다르게 확장된 필터를 배치한다.
도 8a 및 8b는 각각 일 실시 예에 따른 확장된 컨볼루션과 종래의 컨볼루션 사이의 차이 중 일부를 예시한다. 도 8b에서, 종래의 컨볼루션은 스트라이드 2로 수행되는 한편, 도 8a에서, 본 개시 내용의 일 실시 예에 따른 스트라이드 1을 갖는 2-확장 컨볼루션(컨볼루션의 곱셈 및 누적 연산이 매 픽셀 대신에 2 픽셀마다 적용됨을 의미함)이 있다. 도 8a와 8b가 동일한 피쳐 맵 크기를 갖지만 (확장 버전의 경우 패딩 포함), 2-확장 피쳐 맵의 수용 필드는 컨볼루션 맵에 비해 더 크다. CNN에서, 입력과 출력은 2D 피쳐 맵이므로 도 8a 또는 8b는 x 방향 또는 y 방향에만 있다.
도 8b는 크기 3 커널 및 스트라이드 2를 갖는 종래의 컨볼루션의 예를 예시하며, 여기서 입력은 7-픽셀 신호(7 개의 원으로 표시됨)이다. 도 8b에서, 인접 픽셀 3 개마다(연결선으로 표시됨) 커널과 컨볼루션된 다음에 제 1 내지 제 3 픽셀(줄이 그어진 원)로 시작하는 피쳐 맵의 출력(정사각형) 및 피쳐 맵의 출력(정사각형)을 생성한다. 도 8b에서 다음 컨볼루션은 스트라이드가 2이기 때문에 제 3 내지 제 5 픽셀이고, 피쳐 맵의 다음 출력(검은색의 사각형)은 수용 필드 3을 갖는, 3 개의 요소로 구성된다.
대조적으로, 도 8a는 크기 3 커널 및 스트라이드 1을 갖는 2-확장 컨볼루션의 예를 예시한다. d-확장 컨볼루션에서, 컨볼루션은 d 픽셀마다 적용된다. 따라서 피쳐 맵의 제 1 출력(줄이 그어진 사각형)은 3x3 커널과 제 1, 제 3 및 제 5 픽셀(줄이 그어진 원)을 컨볼루션하여 생성된다. 그런 다음 제 2, 제 4 및 제 6 픽셀을 컨볼루션하여 다음 출력(검은 색 사각형)을 생성한다.
CNN의 모든 레이어가 스트라이드 1을 갖는 컨볼루션인 실시 예에서, 확장 컨볼루션은 다른 방식으로 적용될 수 있다. 스트라이드가 1 인 kxk 컨볼루션 커널이 주어지면, 결과의 피쳐 맵의 수용 필드는 kxk이다. 2-확장 컨볼루션을 사용하는 경우, 결과의 피쳐 맵의 수용 필드는 (2k-1)×(2k-1)이다. 예를 들어, 도 4에서 CT-SRCNN의 9x9 1-확장 레이어(410) 및 5x5 1-확장 레이어(413)가 5x5 2-확장 레이어 및 3x3 2-확장 레이어로 각각 대체될 수 있다. 결과의 네트워크는 동일한 크기의 수용 필드를 가지지만 커널 크기가 더 작기 때문에 매개 변수가 적다.
따라서, 일 실시 예에서, 일단 9x9 1-확장 레이어 및 2 개의 5x5 1-확장 레이어를 갖는 CT-SRCNN이 학습되면, 이러한 레이어는 미세 조정이 수행되기 전에 5x5 2-확장 레이어 및 2 개의 3x3 2-확장 레이어로 대체될 수 있다. Yu 등의 2016과 달리, 본 발명의 일 실시 예에 따른 확장 CT-SRCNN은 확장 레이어에서 어떠한 제로 패딩도 필요하지 않는다.
위에서 언급했듯이 많은 연구자들은 예를 들어 더 많은 레이어(예를 들어, VDSR) 또는 심층 재귀적 구조(예를 들어, DRCN)를 사용하여 SRCNN의 정확성과 효율성을 높이려고 시도하고 있다. 다른 연구자들도 마찬가지로 더 복잡한 네트워크를 사용할 것을 제안한다. Wang, Zhaowen; Liu, Ding; Yang, Jianchao; Han, Wei; 및 Huang, Thomas, 스파스 프라이어(sparse prior)인 이미지 초 고해상도를 위한 심층 신경망, 2015 컴퓨터 비전에 대한 IEEE 국제 회의(ICCV), pp. 370-378 (본 명세서에서 참조로 포함됨)은 학습된 반복적 수축 및 임계 값 알고리즘을 기반으로 피드 포워드 네트워크와 스파스 표현 프라이어를 통합했다. VDSR은 레이어 수를 20 개로 늘렸고 조정 가능한 그래디언트 클리핑으로 작은 필터와 높은 학습률을 사용했다;같은 그룹은 또한 DRCN에서 재귀 감독 및 건너 뛰기 연결을 사용하여 심층 재귀 CNN도 설계했다. Dahl, Ryan; Norouzi, Mohammad; 및 Shlens, Jonathon, 픽셀 반복적 초 고해상도, arXiv 1702.00783 [2017년 3월 22일] (본 명세서에서 참조로 포함됨)은 ResNet과 픽셀 반복적 초 고해상도를 결합하여, 침대 이미지에 슈퍼 해상도를 적용한 얼굴 및 침대 SR에 대해 유망한 결과를 보여주었다.
다른 그룹들은 자연스러운 질감과 인간의 시각에 더 가까운, 학습 오류에 대해 평균 제곱 오차(MSE) 대신 인식 손실을 사용하는 것을 선호한다. Sønderby, Casper; Caballero, Jose; Theis, Lucas; Shi, Wenzhe; 및 Huszar, Ferenc, 이미지 초 고해상도 용 상각 MAP 추론, arXiv 1610.04490 [2017년 2월 21일] (본 명세서에 참조로 포함됨)은 CNN을 사용하여 직접 MAP 추정을 계산하는 상각 MAP 추론 방법을 도입했다. Johnson, Justin; Alahi, Alexandre; 및 Fei-Fei, Li, 실시간 스타일 전송 및 초 고해상도에 대한 지각 손실, 2016 ECCV, pp. 694?711 (본 명세서에 참조로 포함됨)은 이미지 변환 작업을위한 피드 포워드 네트워크 학습을 위한 지각 손실 함수의 사용을 제안했다. Ledig, Christian 등, 생성적 적대 신경망을 사용한 사실적인 단일 이미지 초 고해상도, arXiv 1609.04802 [2017년 4월 13일](본 명세서에 참조로 포함됨)은 매우 심층의 잔차 신경망(ResNet)를 사용하고, 자연 질감과 유사한 이미지를 얻기 위해 SRGAN(초 고해상도 생성적 적대 네트워크)을 추가로 제시했다.
그러나 위에 나열된 작업은 SR 시스템의 정확도를 향상시켰지만, 향상된 정확도는 더 많은 레이어/매개 변수 및/또는 더 어려운 하이퍼 매개 변수 조정 절차를 필요로 한다. 즉, 정확도의 향상은 복잡성의 극심한 증가로 인해 균형을 맞췄다.
다른 연구자들은 LR 공간에서 피쳐 맵을 추출하고 업 스케일링 필터를 사용하여 학습함으로써 효율성을 개선하는 데 중점을 두었다. Shi, Wenzhe 등, 유효한 부화소 컨볼루션 신경망을 이용한 실시간 단일 이미지 및 비디오 초 고해상도, 2016 CVPR, pp. 1874-1883 - 본 명세서에서 참조로 포함됨 - 은 LR 피쳐 맵을 HR 출력으로 업 스케일링하기 위해 업 스케일링 필터 배열을 학습한 효율적인 서브 픽셀 컨벌루션 레이어를 도입했다. Dong, Chao; Loy, Chen Change; 및 Tang, Xiaoou, 초 고해상도 컨볼루션 신경망 가속화. 2016 ECCV, pp. 391-407 (이하 "Dong at al. 2016b") -전체 내용이 본 명세서에서 통합됨 - 은 정확도를 잃지 않고 속도를 가속화하기 위해 더 작은 필터, 디콘볼루션 레이어 및 기능 공간 축소를 추가하여 SRCNN을 재설계했다.
그러나, 업 스케일링 레이어의 사용으로 인해 이러한 네트워크의 패치 크기와 컨텍스트 수용 필드는 상대적으로 작다. 결과적으로 정확도는 업 샘플링된 LR 공간에서 피쳐 맵을 추출하는 것에 비해 상대적으로 낮다.
대조적으로, 본 명세서에 설명된 CT-SRCNN은 더 심층이 되어, 매개 변수를 크게 조정하지 않고도 높은 정확도를 달성할 수 있다. CT-SRCNN의 네트워크 크기는 위에 나열된 것과 같은 최첨단 솔루션에 비해 훨씬 작다. CT-SRCNN은 단일 GPU에서 720x480의 해상도로 초당 20-25 프레임의 비디오를 처리할 수도 있다. 이 효율성은 네트워크 트리밍 및 확장된 컨볼루션을 통해 더욱 향상될 수 있다.
본 명세서에서는 높은 정확도와 효율성을 모두 갖춘 초 고해상도를 위해 심층 CNN을 학습하는 캐스케이드 학습 방법을 설명한다. 캐스케이드 학습은 네트워크가 상대적으로 더 작은 크기로 지속적으로 더 심층으로 들어갈 수 있도록 한다. 본 명세서에서 설명된 네트워크 트리밍 및 확장 컨볼루션은 네트워크 복잡성을 더욱 감소시킨다. 벤치마크 이미지 및 비디오 데이터세트에 대한 실험 결과는 본 명세서에서 공개된 방법이 다른 최첨단 솔루션과 비교하여 경쟁적인 성능을 달성하지만 훨씬 더 빠른 속도를 제공함을 보여준다.
이미지 초 고해상도 프레임 워크에 설명되어 있지만, 본 명세서에 설명된 기술은 노이즈 제거 또는 이미지 복원과 같은 모든 유형의 목적을 위해 모든 유형의 CNN을 일반화할 수 있다.
도 9는 일 실시 예에 따른 본 장치를 도시하는 예시도이다. 장치(900)는 적어도 하나의 프로세서(910) 및 하나 이상의 비 일시적 컴퓨터 판독 가능 매체(920)를 포함한다. 적어도 하나의 프로세서(910)는 하나 이상의 비 일시적 컴퓨터 판독 가능 매체(920)에 저장된 명령어를 실행할 때, 3 개 이상의 레이어를 갖는 CNN을 학습시키는 단계를 수행하고; 학습 오류가 임계 값 미만이 될 때까지 하나 이상의 중간 레이어를 추가하도록 학습된 CNN에 대해 캐스케이드 학습을 수행하는 단계; 및 캐스케이드 학습으로부터 출력된 CNN의 네트워크 트리밍을 수행하는 단계를 포함한다. 더욱이, 하나 이상의 비 일시적 컴퓨터 판독 가능 매체(920)는 적어도 하나의 프로세서(910)가 3 개 이상의 레이어를 갖는 CNN을 학습시키는 단계; 학습 오류가 임계 값 미만이 될 때까지 하나 이상의 중간 레이어를 추가하기 위해 학습된 CNN에 대해 캐스케이드 학습을 수행하는 단계; 및 캐스케이드 학습으로부터 출력된 CNN의 네트워크 트리밍을 수행하는 단계를 수행하기 위한 명령을 저장한다.
도 10은 일 실시 예에 따른 본 장치를 제조하고 테스트하기 위한 예시적인 흐름도를 도시한다.
1050에서, 적어도 하나의 프로세서 및 하나 이상의 비 일시적 컴퓨터 판독 가능 매체를 포함하는 장치(이 경우, 전술한 칩셋)가 제조된다. 하나 이상의 비 일시적 컴퓨터 판독 가능 매체에 저장된 명령을 실행할 때, 하나 이상의 프로세서는, 3 개 이상의 레이어를 갖는 CNN을 학습시키는 단계: 학습 오류가 임계 값 미만이 될 때까지 하나 이상의 중간 레이어를 추가하기 위해 학습된 CNN에 대해 캐스케이드 학습을 수행하는 단계; 및 캐스케이드 학습으로부터 출력된 CNN의 네트워크 트리밍을 수행하는 단계를 실행한다. 하나 이상의 비 일시적 컴퓨터 판독 가능 매체는 적어도 하나의 프로세서가 3 개 이상의 레이어를 갖는 CNN을 학습시키는 단계; 학습 오류가 임계 값 미만이 될 때까지 하나 이상의 중간 레이어를 추가하도록 학습된 CNN에 대해 캐스케이드 학습을 수행하는 단계; 및 캐스케이드 학습에서 나온 CNN 출력의 네트워크 트리밍을 수행하는 단계를 수행하기 위한 명령을 저장한다.
1060에서, 장치(이 경우, 칩셋)가 테스트된다. 테스팅(1060)은 하나 이상의 비 일시적 컴퓨터 판독 가능 매체에 저장된 명령을 실행할 때, 장치가 3 개 이상의 레이어를 갖는 CNN을 학습시키는 단계; 학습 오류가 임계 값 미만이 될 때까지 하나 이상의 중간 레이어를 추가하기 위해 학습된 CNN에 대해 캐스케이드 학습을 수행하는 단계; 및 캐스케이드 학습으로부터 출력된 CNN의 네트워크 트리밍을 수행하는 단계를 수행하는 적어도 하나의 프로세서를 가지고 있는지 여부에 대한 테스팅; 및 적어도 하나의 프로세서가 3 개 이상의 레이어를 갖는 CNN을 학습시키는 단계; 학습 오류가 임계 값 미만이 될 때까지 하나 이상의 중간 레이어를 추가하기 위해 학습된 CNN에 대해 캐스케이드 학습을 수행하는 단계; 및 캐스케이드 학습으로부터 출력된 CNN의 네트워크 트리밍을 수행하는 단계를 실행하도록 하는 명령을 저장하는 하나 이상의 비 일시적 컴퓨터 판독 가능 매체를 장치가 갖는지 여부에 대한 테스팅을 포함한다.
실험 증명
A. 캐스케이드 학습
세트 14, 스케일 3에서 캐스케이드 학습과 기존 학습의 비교
Figure pat00025
위에서, 본 개시에 따른 캐스케이드 학습된 CNN의 PSNR/SSIM은 VDSR로부터 감독되지 않은 가중치 초기화를 갖는 비-캐스케이드 학습 CNN과 비교된다. 동일한 네트워크 아키텍처에서 CT-SRCNN의 PSNR/SSIM이 비-캐스케이드 학습보다 분명히 우수하다는 것을 알 수 있다.도 11은 일 실시 예에 따른 캐스케이드 학습된 CNN 대 비-캐스케이드 학습된 CNN의 수렴 속도를 나타내는 예시도이다.
CT-SRCNN은 비 CT-SRCNN에 비해 더 빠르게 수렴하는 것으로 나타났다. CT-SRCNN의 정확도는 더 많은 레이어를 사용할 때 지속적으로 증가한다. 이는 캐스케이드 네트워크 학습이 SRCNN을 더 심층적으로 학습한다는 것을 나타낸다. 캐스케이드 네트워크 학습은 정확도와 수렴 속도 모두에서 기존 학습에 비해 더 잘 수행된다.
아래에서, 본 개시에 따른 CT-SRCNN-13의 매개 변수의 수, PSNR, SSIM 및 이미지 당 시간은 스케일 3에서 알려진 SR 네트워크와 비교된다.
Set 14, scale 3에서 캐스케이드 학습과 기존 네트워크의 비교
Figure pat00026
B. 캐스케이드 네트워크 트리밍
아래는 캐스케이드 트리밍된 CT-SRCNN(13 개 레이어 중 4 개가 트리밍 됨)이 비 캐스케이드 트리밍된 CT-SRCNN과 유사한 성능을 보이지만 네트워크 크기가 20 % 감소했음을 보여준다. 본 발명에 따른 캐스케이드 네트워크 트리밍은 다른 네트워크, 즉 고속 SR-CNN(FSRCNN)에도 적용된다(Dong at al. 2016b 참조). 이 네트워크는 7 개의 컨볼루션 레이어와 1 개의 디컨볼루션 레이어로 구성된다. 위의 실시 예에 따른 CT-SRCNN 트리밍과 유사하게, FSRCNN의 2 개의 레이어도 각 스테이지에서 트리밍된다. 아래는 본 발명에 따른 네트워크 캐스케이드 트리밍이 FSRCNN에도 효과적임을 보여준다.
세트 14, 스케일 3에서 캐스케이드 트리밍된 네트워크 평가
Figure pat00027
속도와 정확도 사이에 절충안이 있다. 2 개의 레이어(제 7 및 제 8 레이어) 만 트리밍하면 정확도 손실이 거의 없고 매개 변수의 30 %가 제거된다. 8 개의 레이어가 모두 트리밍된 경우 (캐스케이드 트리밍된 FSRCNN 8 레이어, 8 개의 레이어 트리밍), 정확도는 더 작은 네트워크 크기 (3,900 개 매개 변수에 비해 3,400 개)를 가지고, 공식 모델(FSRCNN 공식 라이트 버전)에 비해 여전히 우수하다.
C. 확장 컨볼루션
아래는 확장된 13 층 CT-SRCNN의 실험 결과를 보여준다. 확장은 제 1 9x9 레이어, 제 2 5x5 레이어 및 마지막 5x5 레이어에 적용된다. 대신에, 5x5, 3x3 및 3x3 2-확장 컨볼루션 레이어가 사용된다. CT-SRCNN의 확장 버전은 확장되지 않은 버전과 유사한 PSNR/SSIM을 달성할 수 있지만, 네트워크 크기는 분명히 감소됨을 알 수 있다.
세트 14, 스케일 3에서 확장된 CT-SRCNN의 평가
Figure pat00028
이미지 향상 기술은 저해상도 입력에서 고해상도 이미지를 검색하기 위한 이미지 및 비디오 초 고해상도, 주어진 노이즈 입력으로부터 깨끗한 이미지를 생성하기 위한 이미지 노이즈 제거, 및 디코딩된 압축 이미지의 이미지 품질을 향상시키는 압축 이미지 복원을 포함한다. 더욱이, 상이한 이미지 향상 작업을 위해 상이한 네트워크 아키텍처가 구현될 수 있다.이미지 압축은 낮은 비트 전송률로 이미지를 저장하거나 전송하기 위해 이미지의 관련성 및 중복성을 줄인다. 이미지 압축은 일반적인 이미징 장치에서 사용되는 이미지 처리의 기본 요소이다. 기존 이미지 코딩 표준(예를 들어, JPEG JPEG2000, 베터 포터블 그래픽스(BPG))는 전체 이미지에서 0이 아닌 모든 양자화 변환 계수에 대해 사용 가능한 비트를 배포하려고 한다. 압축율이 증가하는 동안, 더 큰 양자화 단계를 사용하면 픽셀 당 비트(bpp)가 감소하여 디코딩된 이미지에 블로킹 아티팩트 또는 노이즈가 발생한다. 이러한 문제를 극복하기 위해 사후 처리 디블로킹 또는 노이즈 제거 방법을 사용하여 디코딩된 이미지의 품질을 향상시킬 수 있다. 일반적인 방법에는 사후 필터링이 포함된다. 그러나 이러한 사후 처리 방법은 시간이 많이 걸리는데, 최적의 솔루션을 해결하려면 계산 비용이 많이 드는 반복 프로세스가 필요하기 때문이다. 따라서 실제 응용에 적용하기 어렵다.
이미지 노이즈 제거는 이미지 저하 모델 Y = D(X)를 따르는 임의의 노이즈 이미지 Y로부터 깨끗한 이미지 X를 생성한다. 부가 백색 가우스 노이즈(AWGN) 모델의 경우, i 번째 관찰된 픽셀은 yi = D(xi) = xi + ni이며, 여기서
Figure pat00029
는 평균이 0이고 분산이 σ2 인 독립적이고 동일하게 분포된 (i.i.d) 가우스 노이즈이다. AWGN은 신호 독립적인 열 노이즈 및 기타 시스템 결함을 모델링하는 데 사용되었다. 저 라이트 샷 노이즈로 인한 저하는 신호에 따라 다르며 종종 푸아송 노이즈를 사용하여 모델링되었으며, 여기서 D(xi) = pi이므로,
Figure pat00030
는 평균이 xi 인 푸아송 랜덤 변수이다. 그러나, 이 노이즈는 충분히 큰 λ에 대해,
Figure pat00031
이므로 평균 라이트 조건에 대한 가우스 분포에 접근한다. 따라서 이미징 장치에 의한 캡처로 인한 노이즈는 푸아송-가우스 노이즈라고 하는, AWGN을 갖는 푸아송 노이즈로 더 잘 모델링되므로, 일부 스칼라 α> 0에 대해
Figure pat00032
가 된다.
이미지 노이즈 제거의 경우, 입력은 노이즈 이미지이고 출력은 깨끗한 이미지이다. 본 문서에 공개된 추가 시스템은 위에서 설명한 이미지 초 고해상도와 유사한 캐스케이드 학습 네트워크 아키텍처를 적용할 수 있지만 입력에서 업 샘플 모듈을 제거할 수 있다. 캐스케이드 학습 네트워크 아키텍처는 블라인드 노이즈 제거에도 적용할 수 있고, 이 때 노이즈 레벨은 미지의 것이다.
본 명세서에 개시된 시스템 및 방법은 이미지 노이즈 제거를 위해 심층 CNN을 학습시킬 수 있다. 시스템 및 방법은 노이즈가 있는 이미지 Y를 입력으로 수신하고 깨끗한 이미지 X를 출력으로 예측할 수 있다. N 개의 샘플이 포함된 학습 세트
Figure pat00033
가 주여지면, 시스템은 깨끗한 이미지
Figure pat00034
를 예측하는 모델 S를 학습한다. 학습은 평균 제곱 오차를 최소화하는 것을 목표로 한다.
압축 이미지 복원의 경우, 입력은 디코딩된 압축 이미지이고 출력은 정제된 이미지이다. 아래에 설명된 시스템 및 방법은 위에서 설명한 이미지 초 고해상도와 유사한 캐스케이드 학습 네트워크 아키텍처를 적용할 수 있지만 입력에서 업 샘플 모듈을 제거할 수 있다.
또한, 디코딩된 이미지에서 압축되지 않은 이미지로의 검색은 두 피쳐 맵 간의 매핑으로 간주될 수 있다. 시스템은 디코딩된 이미지로부터 검색을 수행하기 위해 신경망을 적용할 수 있다. 시스템은 디코딩된 이미지에서 압축되지 않은 지상 실측 정보로 심층 CNN을 학습시킬 수 있다. CNN은 디코딩된 이미지를 입력으로 수신하고 깨끗한 이미지를 출력으로 예측한다. N 개의 샘플이 포함된 학습 세트가 주어지면, 시스템은 검색된 이미지를 예측하는 모델을 학습한다. 학습은 학습 세트에 대한 MSE를 최소화하는 것을 목표로 한다.
잔차 네트워크(ResNet)는 이미지 분류 또는 초 고해상도와 같은 컴퓨터 비전 애플리케이션에서 상당한 성능을 보여주었다. 시스템 및 방법은 노이즈 제거 잔차 네트워크(DN-ResNet)를 제공할 수 있다. DN-ResNet은 학습 중에 단계적으로 네트워크에 점차적으로 삽입되는 잔차 블록(ResBlocks)을 포함한다. 이러한 학습 전략을 통해 결과 DN-ResNet은 빠르게 수렴하고 일반적인 노이즈 제거 네트워크보다 계산 효율을 높일 수 있다.
일 실시 예에서, 시스템은 더 나은 노이즈 제거 성능을 제공하기 위해 학습 가능한 가중된 스킵 연결을 갖도록 ResBlock을 수정한다. DN-ResNet은 푸아송-가우스 손상 이미지의 블라인드 노이즈 제거를 위해 학습된 심층 CNN을 제공한다. 복수의 가중된 ResBlock(예를 들어, 5)을 캐스케이드 연결하면, DN-ResNet은 알려진 노이즈 레벨(비 블라인드 노이즈 제거) 및 미지(unknown)의 노이즈 레벨(비 블라인드 노이즈 제거) 모두에 대해, 세 가지 노이즈 제거 문제, 가우스, 푸아송 및 푸아송-가우스에 대해 최첨단 성능을 달성한다. DN-ResNet의 속도는 이전 노이즈 제거 네트워크보다 몇 배 더 빠르다. DN-ResNet은 또한 압축된 이미지 복원 문제와 관련된 이슈에도 잘 작동한다. 따라서 DN-ResNet은 다른 애플리케이션으로 일반화될 수 있다.
도 12는 일 실시 예에 따른 종래의 ResBlock를 도시하는 예시도이다. 도 13은 일 실시 예에 따른 단순화된 ResBlock를 도시하는 예시도이다. 도 14는 일 실시 예에 따라 가중된 ResBlock를 도시하는 예시도이다.
도 12, 13 및 14를 참조하여, DN-ResNet은 단순화된 ResBlock(1300) 또는 가중된 ResBlock(1400)과 같은 기본 요소를 포함할 수 있다. 종래의 ResBlock(1200)과는 달리, 배치 정규화(BN) 레이어(1202 및 1204) 및 부가 후 정류된 선형 유닛(ReLU) 레이어(1206)가 제거되는데, 이러한 레이어를 제거해도 피쳐 맵 기반 ResNet의 성능에 해를 끼치지 않기 때문이다. 또한, 단순화된 ResBlock(1300)은 각 ResBlock(1400)의 스킵 연결은 여러 학습 가능한 가중치를 갖는 스케일 레이어(1404)을 통과하는 학습 가능한 가중 스킵 연결(1402)을 갖도록 가중된 ResBlock(1400)에 도시된 바와 같이 수정될 수 있으며, 여기서 n은 스킵 연결에서 피쳐 맵의 수이다.
DN-ResNet이 더 심층이 됨에 따라, 학습 및 하이퍼 매개 변수 조정이 점점 더 어려워진다. 시스템은 캐스케이드 학습된 ResNet(CT-ResNet)이라고도 하는, 단순화된 ResBlock을 캐스케이드 연결하여 심층 신경망을 학습시킬 수 있다. 캐스케이드 학습은 전체 학습을 스테이즈로 분리하고 하나씩 진행한다. 이 시스템은 간단한 3-레이어 CNN 모델에서 시작하는 CT-ResNet 학습을 제공한다. 제 1 레이어는 64 개의 9x9 필터를 포함할 수 있고, 제 2 레이어는 32 개의 5x5 필터를 포함할 수 있으며, 마지막 레이어는 한개의 15x5 필터를 포함할 수 있다. 컨볼루션은 스트라이드 1을 가질 수 있으며, 가중치는 예를 들어, 시그마 0.001을 사용하여 가우스 분포에서 무작위로 초기화될 수 있다.
도 15는 일 실시 예에 따른 캐스케이드 학습된 시스템(CT-ResNet)(1500)을 도시하는 예시도이다.
3-레이어 CNN이 학습된 후, 시스템(1500)은 스테이지 별 ResBlocks를 캐스케이드한다. 각 스테이지에서 하나의 새로운 ResBlock이 삽입된다. 표시된 예에서 학습은 3 개의 레이어에서 시작하여 5 개 레이어, 7 개 레이어 등으로 진행된다. ResBlock의 각 컨볼루션 레이어는 32 개의 3x3 필터를 포함할 수 있다. 이렇게하면 더 심층이 될 때 더 작은 네트워크를 보장한다. 새 레이어는 마지막 5x5 레이어 바로 앞에 삽입된다. 기존 레이어의 가중치는 이전 단계에서 상속되며 새로운 ResBlock의 가중치는 무작위로 초기화된다. 따라서 CT-ResNet의 가중치는 각 스테이지에서 무작위로 초기화되므로, 수렴이 비교적 쉽다. 예를 들어, 감쇠없이 모든 레이어에 대해 고정 학습률 0.0001을 사용하는 것이 가능하다.
새로운 컨볼루션 레이어는 피쳐 맵의 크기를 줄이므로, 시스템은 각 새로운 3x3 레이어에서 2 개의 픽셀을 0으로 채울 수 있다. 결과적으로 캐스케이드 학습의 모든 스테이지는 출력과 크기가 동일하므로, 학습 샘플을 공유할 수 있다.
도 16은 일 실시 예에 따른 컬러 이미지 디코딩의 예시도이다.
시스템은 각각 빨강/녹색/파랑(RGB) 채널 또는 루마/파랑 차이/빨강 차이(YCbCr) 채널과 같은 서로 다른 색상 채널에서 CT-ResNet을 학습시킬 수 있다. 2,000 개의 학습 이미지가 학습 데이터를 생성하는 데 사용된다. 테스트시, 압축된 이미지가 디코딩된 후(예를 들어, JPEG 2000 또는 BPG), 학습된 CT-ResNet은 RGB 채널로 분리된 디코딩된 이미지의 각 채널에 적용되다. 검색된 이미지는 최종 출력을 얻기 위해 추가로 융합된다. 본 시스템은 JPEG 2000(CR = 159) 및 BPG(QF = 40)를 사용하여, 이미지를 압축/디코딩하고 RGB 채널 및 YCbCr 채널에서 CT-ResNet을 학습시킬 수 있다.
기존의 평균 제곱 오차(MSE) 대신에 엣지 인식 손실 함수를 사용하면 노이즈 제거 성능이 더욱 향상된다. 깊이 별(depthwise) 분리 가능 ResBlock(DS-ResBlock)을 DN-ResNet에 통합한다. DN-DS-ResNet은 위에서 설명한 캐스케이드 학습을 통해 DN-ResNet에서 미세 조정할 수 있다. DN-ResNet의 ResBlock은 스테이지 별로 DN-DS-ResBlocks로 대체될 수 있다. 결과적으로 허용 가능한 정확도 손실과 함께 추가 복잡성 비용 절감이 제공된다.
캐스케이드 학습된 DN-ResNet의 네트워크 크기는 상대적으로 작지만 (예를 들어, 최대 13 개의 레이어를 캐스케이드할 때 150K 매개 변수), 네트워크 크기는 깊이 별 분리 가능 DN-ResNet을 사용하여 더 줄일 수 있다.
도 17은 일 실시 예에 따른 깊이 별 분리 가능한 컨볼루션을 도시하는 도면이다.
도 17을 참조하면, 표준 컨볼루션 레이어(1702)은 깊이 별 컨볼루션(1704) 및 1 x 1 포인트 별 컨볼루션(1706)으로 팩토링된다. 표준 컨볼루션 레이어(1702)는 M 개의 입력 채널과 N x K x K 개의 필터를 갖는다. 깊이 별 컨볼루션 레이어(1704)에서, 표준 컨볼루션 레이어(1702)으로부터의 M 개의 입력 채널은 하나의 K x K 개의 필터를 갖는 M 개의 깊이 별 컨볼루션 레이어 및 M 개의 입력 채널을 갖는 N 개의 1 x 1 컨볼루션 레이어로 대체된다.
결과적으로 곱의 수는:
Figure pat00035
로부터
Figure pat00036
으로 감소되고,
계산의 감소는
Figure pat00037
이 된다.
도 18은 일 실시 예에 따른 ResBlocks의 다이어그램이다.
도 18을 참조하면, 도 13의 ResBlock(1300)과 유사한 DN-ResNet의 깊이 별 분리 가능 ResBlock(1802) 및 ResBlock(1804)이 도시된다. ResBlock(1804)의 표준 컨볼루션 레이어(Conv)는 깊이 별 분리 가능 컨볼루션 레이어(DW-Conv)로 대체된다.
DN-ResNet에서 ResBlocks의 컨볼루션 레이어에는 32 개의 3 x 3 필터가 있으며 입력 채널도 32이다. 예를 들어 ResBlock 1804에서 피쳐 맵의 크기는 640x480이므로, 곱의 수는 다음과 같다:
Figure pat00038
.
DS-ResBlock(1802)에서 곱의 수는 다음과 같다:
Figure pat00039
.
따라서, DS-ResBlock(1802)의 계산 비용은 ResBlock(1804)에 비해 6 배 감소된다.
DS-ResBlock을 캐스케이드 연결하여 DN-DS-ResNet을 구성하는 데 동일한 캐스케이드 학습 절차를 적용할 수 있다. 그러나 캐스케이드 학습에서는 가중치가 무작위로 초기화되기 때문에 많은 학습 시간이 필요하다. 본 명세서에 개시된 바와 같이, 기존 DN-ResNet을 기반으로 DN-DS-ResNet을 학습시키는 또 다른 방법은 "캐스케이드 진화(cascade evolving)"라고 한다.
도 19는 일 실시 예에 따른 캐스케이드 진화를 도시하는 도면이다.
도 19를 참조하여, DN-DS-ResNet을 얻기 위해 DN-ResNet이 주어지면, 모든 ResBlock(1902)은 DS-ResBlock(1904)으로 대체될 수 있으며, 전체 네트워크는 미세 조정될 수 있다. 한 번의 실행으로 이를 수행하면, 미세 조정이 잘 수렴되지 않는다. 대신, ResBlock(1902)은 하나씩 대체될 수 있다. 각 미세 조정 스테이지 (예를 들어, 진화 스테이지 1, 진화 스테이지 2, 진화 스테이지 3 등)에서, 도 19에 도시된 바와 같이, 하나의 ResBlock만이 DS-ResBlock으로 대체되고, 이어서 미세 조정이 수행된다.
캐스케이드 학습과 유사하게 새로운 DS-ResBlock의 가중치는 무작위로 초기화되고 다른 모든 레이어의 가중치는 상속된다. 대체는 전체 네트워크에 미치는 영향이 적은지 확인하기 위해 네트워크 끝에서 시작된다. 각 진화 스테이지에서, 대부분의 가중치가 상속되기 때문에, 수렴은 상대적으로 쉽다.
노이즈 제거 네트워크는 일반적으로 학습 세트에 대해 평균 제곱 오차(MSE)를 최소화하는 것을 목표로 한다.
Figure pat00040
엣지 인식 MSE가 본 명세서에서 제공되며, 여기에서 엣지의 픽셀은 비 엣지 픽셀에 비해 더 높은 가중치가 부여된다. 엣지 인식 손실 함수는 다음과 같이 제공될 수 있다:
Figure pat00041
이 때, M은 엣지 맵, N은 총 픽셀 수, w는 상수이다. 제 2 항은 손실 함수에 제약을 추가한다. 특히 노이즈 레벨이 높을 때, 노이즈가 많은 이미지에서 엣지를 검색하기가 더 어렵기 때문에 이미지 노이즈 제거 문제가 발생한다. 상기 엣지 인식 손실 함수를 적용하면, 제약 조건으로 인해 엣지 검색이 덜 어려워진다. 또한, 엣지와 같은 고주파 정보는 인간의 시각에 더 민감하기 때문에, 손실 함수로 엣지 픽셀의 정확도를 높이면 지각 품질에 기여한다.
실험적 시도에서, 이미지 노이즈 제거를 위해 PASCAL VOC 2010 데이터세트를 사용하여 학습 샘플을 생성한다. 1,000 개의 테스트 이미지는 위에서 설명한 DN-ResNet의 성능을 평가하는 데 사용되며, 나머지 이미지는 학습에 사용된다. 랜덤 가우스/푸아송/푸아송-가우스 노이즈 이미지는 다양한 노이즈 레벨로 생성된다. 33 x 33 노이즈 패치와 대응하는 17 x 17 클린 패치가 잘린다. 여러 노이즈 분산 σ2가 고려되며, 여기서 σ∈{10, 25, 50, 75}이다. 푸아송 또는 푸아송-가우스 노이즈로 손상되기 전에, 입력 이미지 픽셀 값은 세트의 최대 피크 값을 갖도록 조정된다. 푸아송 가우스 노이즈인 경우, σ∈{0.1, 0.2, 0.5, 1, 2, 3, 6, 12}이고 피크 = 10σ이다.
압축된 이미지 복원을 위해 디코딩된 이미지를 얻는다. 33 x 33 디코딩된 패치와 해당 17 x 17 복원된 패치는 학습 세트에서 추가로 추출된다. PSNR은 성능을 평가하는 데 사용된다. 네트워크는 Y 채널에서 학습되지만, 네트워크는 품질을 잃지 않고 RGB 채널에 직접 적용될 수도 있다.
3 개 레이어에서 13 개 레이어까지의 DN-ResNet은 PASCAL VOC 데이터세트를 사용하여 가우스, 푸아송 및 푸아송-가우스 노이즈 제거에서 테스트된다. 이러한 DN-ResNet은 알려진 소음 수준에서 ResBlock(예를 들어, ResBlock(1300))을 캐스케이드 연결하여 학습된다. MSE 손실은 모든 모델에 사용된다. PSNR은 더 많은 레이어를 사용함에 따라 지속적으로 증가한다. 3 개 레이어에서 13 개 레이어까지, PSNR은 모든 시그마 및 피크에서 0.4-0.5dB 증가한다. 표시된 가장 심층의 네트워크는 13 레이어 DN-ResNet이지만, 더 많은 레이어를 캐스케이드 연결하면 정확도를 더욱 향상시킬 수 있다. 캐스케이드 학습은 13-레이어 DN-ResNet이 감독되지 않은 가중치 초기화로 학습되는, 원샷 학습과 비교된다. DN-ResNet-13의 원샷 학습은 모든 테스트에서 캐스케이드 학습보다 0.3dB 낮은 PSNR이 결과된다. 캐스케이드 학습은 "부분 감독 초기화"로 간주될 수 있으므로, 그 수렴은 감독되지 않은 가중치 초기화를 기반으로 하여 원샷 학습에 비해 더 쉬울 것이다. 아래 표 2에서, 굵은 항목은 최상의 결과를 나타낸다.
DN-ResNet 시그마/피크 3-레이어 5-레이어 7-레이어 9-레이어 11-레이어 13-레이어 13-레이어-os
매개 변수 57,184 75,616 94,048 112,480 130,912 149,344 149,344
10 34.43 34.56 34.71 34.80 34.93 34.99 34.70
가우스 25 29.86 30.03 30.10 30.30 30.44 30.52 30.27
50 26.86 27.05 27.22 27.29 27.38 27.50 27.14
75 25.24 25.43 25.55 25.63 25.81 25.89 25.61
1 22.51 22.66 22.74 22.88 22.95 23.06 22.80
푸아송 2 23.66 23.74 23.92 24.05 24.14 24.23 23.96
4 24.67 24.80 24.91 25.14 25.27 25.39 25.01
8 26.01 26.24 26.35 26.55 26.64 26.77 26.49
0.1/1 22.11 22.27 22.36 22.50 22.65 22.73 22.30
0.2/2 22.99 23.14 23.22 23.40 23.59 23.75 23.44
0.5/5 24.54 24.61 24.77 24.90 25.00 25.10 24.78
푸아송-가우스 1/10 25.61 25.69 25.77 25.91 25.99 26.14 25.67
2/20 26.59 26.70 26.89 26.99 27.14 27.29 26.88
3/30 27.10 27.22 27.37 27.50 27.61 27.77 27.41
6/60 27.87 27.98 28.16 28.32 28.48 28.59 28.11
12/120 28.19 28.30 28.44 28.58 28.72 28.88 28.50
DN-ResNet은 또한 위에서 설명한 다양한 엣지 인식 손실 기능과 블라인드 노이즈 제거를 위해 DN-ResNet을 활용하여 학습되었다. 여러 네트워크가 각 노이즈 레벨에 대해 각각 학습되는 비 블라인드 노이즈 제거와는 반대로, 모든 가우스/푸아송/푸아송-가우스 노이즈를 서로 다른 노이즈 레벨과 혼합하여 블라인드 노이즈 제거를 위해 단 하나의 DN-ResNet이 학습된다. 표 3에서, 블라인드 노이즈 제거를 위해 DN-ResNet을 사용하는 것은 비블라인드 노이즈 제거에 비해 크게 감소하지 않는다. 블라인드 노이즈 제거에는 시간이 많이 걸리는 노이즈 레벨 추정이 필요하지 않기 때문에 이러한 절충은 중요하다. 또한, 엣지 인식 손실 기능을 사용하면 PSNR을 0.1-0.15dB까지 개선하고 지각 품질도 향상시킬 수 있다. 가장 좋은 그룹은 Sobel 연산자에서 생성된 그라디언트 크기를 직접 사용하는 것이다.
Sobel 연산자는 이미지 처리 및 컴퓨터 비전, 특히 엣지를 강조하는 이미지를 생성하는 엣지 감지 알고리즘 내에서 사용된다. 연산자는 원본 이미지와 컨볼루션된 2 개의 3x3 커널을 사용하여 도함수의 근사치를 계산하는데 - 하나는 수평 변화 용이고 다른 하나는 수직 변화 용이다. A를 소스 이미지로 정의하고 Gx와 Gy가 각 지점에서 각각 수평 및 수직 미분 근사치를 포함하는 두 이미지인 경우, 계산은 다음과 같다:
Figure pat00042
최종 그라디언트 맵 G는 다음과 같이 얻을 수 있다:
Figure pat00043
DN-ResNet 시그마/피크 비 블라인드 블라인드 블라인드+
'e-a'
블라인드+'e-b'
매개 변수 - 149,344 149,344 149,344 149,344
10 34.99 34.88 35.07 35.05
가우스 25 30.52 30.44 30.59 30.59
50 27.50 27.44 27.58 27.52
75 25.89 25.80 25.94 25.87
1 23.06 22.99 23.14 23.07
푸아송 2 24.23 24.17 24.31 24.25
4 25.39 25.33 25.50 25.41
8 26.77 26.72 26.88 26.81
0.1/1 22.73 22.61 22.74 22.69
0.2/2 23.75 23.69 23.78 23.76
0.5/5 25.10 24.98 25.12 25.08
푸아송-가우스 1/10 26.14 26.07 26.19 26.11
2/20 27.29 27.18 27.30 27.26
3/30 27.77 27.64 27.78 27.70
6/60 28.59 28.51 28.64 28.55
12/120 28.88 28.80 28.93 28.88
DN-ResNet은 블라인드 노이즈 제거 네트워크를 위해 다양한 유형의 ResBlock으로 구성된다. 표 4에서, DS-ResBlocks에 의한 DN-DS-ResNet 구성은 DN-ResBlock에 비해 PSNR을 0.1dB 미만으로 감소시키지만, 계산 비용(예를 들어, 곱셈 및 누적(MAC)의 수)과 네트워크 크기가 크게 감소한다. 이는 위에서 설명한 DS-ResBlock에 대한 네트워크 효율성 향상의 효과를 나타낸다. 또한, DN-DS-ResNet이 원샷 미세 조정 DN-ResNet으로 구성되면 정확도가 크게 감소한다. 이것은 위에서 설명한 캐스케이드 진화의 효과를 나타낸다. DS-ResBlock을 엣지 인식 손실 기능과 함께 사용하면 높은 정확도와 적은 계산 비용을 달성할 수 있다.
DN-ResNet DN DN-DS DN-DS-os DN+'e-a' DN-DS+'e-a'
매개 변수
MACs(Billion)
149,344 45.878 63,728
19.582
63,728
19.582
149,344
45.878
63,728
19.582
공개된 DN-ResNet 및 DN-DS-ResNet은 기존 심층 CNN에 비해 더 나은 효율성과 더 작은 모델 크기로 가우스, 푸아송/푸아송-가우스 노이즈 제거에서 최첨단 성능을 달성한다. 개시된 네트워크는 알려진 노이즈 레벨과 미지의 노이즈 레벨 모두에 효과적이다.
이미지 노이즈 제거 외에도, 공개된 DN-ResNet은 압축된 이미지 복원에도 적용될 수 있다. JPEG, JPEG 2000 및 BPG를 포함한 모든 압축 방법에 대해, DN-ResNet은 디코딩된 이미지의 품질을 향상시킬 수 있다. JPEG, JPEG 2000 및 BPG에 대해 각각 1-2dB, 0.5-1.5dB 및 0.3-0.5dB 게인을 관찰할 수 있다.
이미지 노이즈 제거를 위한 DN-ResNet은 높은 정확도와 효율성을 모두 달성한다. 캐스케이드 학습은 효율적인 심층 ResNet을 학습하는 데 효율적이고 효과적이다. 노이즈 제거 정확도는 스킵 연결에서 학습 가능한 가중치를 추가하여 더욱 향상될 수 있다.
이미지 SR은 누락된 정보를 복구하려고 시도하여 주어진 LR 이미지에서 HR 이미지를 생성한다. 최근에는, 심층 CNN은, 상당한 정밀도의 향상을 보여주기 때문에, 이미지 초 고해상도 문제를 해결하기 위해 배포되었다.
실제 LR-HR 패치가 없기 때문에, 이미지는 바이큐빅 다운 샘플링되어 LR-HR 학습 쌍을 생성한다. 그 결과 깨끗하고 노이즈가 없는 LR 이미지가 생성된다. 안타깝게도, 이미지가 카메라에서 직접 나오는 실제 시나리오에서는 항상 추가되는 노이즈 또는 미지의 저하가 발생하게 마련이다. 결과적으로, 바이큐빅 다운 샘플링을 사용하여 인위적으로 다운 샘플링된 이미지를 재구성하도록 학습된 최첨단 CNN 방법은 실제 이미지에 적용될 때 극적인 아티팩트를 유발할 수 있다. 본 명세서에서는 우수한 지각 품질로 SR 출력을 제공하는 실제 SR 시스템을 학습하는 방법이 개시된다.
도 20은 일 실시 예에 따른, 실제의 초 고해상도를 위한 방법의 흐름도를 예시한다.
2002에서, 실제 SR에 대해 데이터세트가 생성된다. 일반 저하 모델에 의해 저품질 이미지를 다운샘플링하여 LR 이미지로 사용되도록 하고 대응하는 고품질 이미지를 직접 사용하여 HR 이미지로 사용되도록 하거나, 저품질 이미지를 LR 이미지로 직접 사용하여 일반 SR 네트워크에 의해 LR 이미지로부터 고품질 이미지를 초 분해하여 HR 이미지로 사용되도록 함으로써 데이터세트를 생성할 수 있다.
일반 SR 네트워크를 학습하기 위해 이미지 처리 아티팩트로부터 여러 저하를 기반으로 하여 SR 데이터세트를 생성할 수 있다. 보다 구체적으로, LR 이미지 x는 다음과 같이 공식화된 저하 모델에 따라 HR 이미지 y로부터 생성된다:
Figure pat00044
여기서 D는 다운샘플링 연산, k는 블러 커널, n은 노이즈이다. 노이즈는 반드시 추가되는 것은 아니다.
최근접 이웃, 바이리니어, 바이큐빅, 란초스(lanczos)와 같은 여러 다운샘플링 방법이 고려된다. 다운샘플링 방법은 LR 패치를 생성할 때 무작위로 선택된다.
SR의 블러 커널 설정은 일반적으로 간단하다. 표준 편차로 매개 변수화된 가장 일반적으로 사용되는 등방성 가우시안 블루 커널을 사용할 수 있다. 가우스 커널의 표준 편차는 [0.2,3]의 범위에서 무작위로 샘플링될 수 있으며 커널 크기는 15 x 15로 고정될 수 있다.
대부분의 실제 LR 이미지는 일부 이미지 처리 아티팩트로 인해 노이즈가 있다. 일부 실제 노이즈에는 가우스, 푸아송 또는 푸아송-가우스 구성 요소가 포함된다. 따라서, LR 이미지 생성시 가우스, 푸아송 또는 푸아송-가우스 노이즈를 무작위로 선택할 수 있다. 매개 변수는 가우스 노이즈의 시그마가 [0, 25] 범위인 아티팩트를 기반으로 하며, 푸아송 노이즈의 피크는 [50, 150]로부터 균일하게 샘플링된다. 푸아송-가우스 노이즈를 생성할 때, 유사한 포아송 피크 범위를 사용될 수 있지만, 가우스 시그마는 [0, 5] 범위로 감소될 수 있다.
실제 SR에서는, 대상 이미징 장치의 도메인과 일치하는 고품질 LR-HR 이미지 데이터세트가 SR 네트워크의 성능에 중요할 수 있다. 현재의 방법 및 시스템은 고품질 모바일 SR 데이터세트를 생성하기 위한 효과적인 방법론을 제공한다. 보다 구체적으로, 본 방법 및 시스템은 정확한 HR-LR 저하 모델에 대한 지식없이, 동일한 규모로 등록된 이미지 쌍을 사용하여 새로운 모바일 SR 데이터세트를 생성한다. 현실 세계에서 비교적 쉽게 얻을 수 있는 등록된 모바일 디지털 일안 반사(DSLR) 이미지 세트를 고려할 때, 현재의 방법과 시스템은 DSLR 이미지를 초 분해하여 HR 이미지를 생성한다. 데이터세트의 LR 이미지는 해당 모바일 패치이다.
DLSR 이미지를 초 분해하는 방법에는 여러 가지가 있다. DSLR 패치를 초 분해하기 위해 간단한 바이큐빅 업 샘플링 알고리즘을 적용하면, 모바일 SR 네트워크를 학습시키기 위해 고품질의 HR 패치를 생성할 수 있다. 일반 SR 데이터세트에서 학습된 일반 모델을 사용하면 최상의 성능을 얻을 수 있고, 이때 LR-HR 쌍은 다운 샘플링/블러/노이즈를 무작위로 생성하여 여러 저하를 시뮬레이션하여 생성된다.
2004에서, GAN은 초 고해상도 이미지 생성을 위해 학습되었으며, 이때 두 GAN은 향상된 초 고해상도 GAN(ESRGAN)에서 서로 다른 판별기와 하이퍼 매개 변수를 사용하여 학습되었다. 이것은 두 개의 SR 네트워크에 상호 보완적인 특성을 제공한다. SR 네트워크는 ResNet 대신 RCAN을 생성기로 사용하면서 GAN(예를 들어, ESRGAN 프레임 워크)을 사용하여 학습될 수 있다. 테스트 중에 생성기(RCAN)는 주어진 LR 이미지에서 HR 이미지를 추정하는 데 직접 사용될 수 있다. 지각 품질을 더욱 향상시키기 위해서, ESRGAN에서 서로 다른 판별기와 하이퍼 매개 변수를 사용하여 두 개의 RCAN을 학습할 수 있다. 이것은 두 개의 SR 네트워크에 상호 보완적인 특성을 제공한다. 최종 SR 예측은 이 두 RCAN의 픽셀 단위 앙상블이다.
도 21은 일 실시 예에 따른 SR 접근법을 도시하는 도면이다.
SR 데이터세트(2102)는 학습을 위해 2 개의 GAN에 입력된다. 제 1 GAN(2104)은 거짓 추정 HR 이미지(2110)를 생성하는 RCAN 생성기(2108)에서 LR 이미지(2106)를 처리한다. 실제 HR 이미지(2112) 및 추정 HR 이미지(2110)는 표준 판별기(2114)에 의해 처리되고, GAN(2104)은 실제/거짓 결정(2116)을 생성하다. 제 2 GAN(2120)은 거짓 추정 HR 이미지(2126)를 생성하는 RCAN 생성기(2124)에서 LR 이미지(2122)를 처리한다. 실제 HR 이미지(2128) 및 추정 HR 이미지(2126)는 상대론적 판별기(2130)에 의해 처리되고, GAN(2120)은 실제/거짓 결정(2132)를 생성한다.
도 22는 일 실시 예에 따른 RCAN(2200)을 도시하는 도면이다. RCAN은 긴 스킵 연결을 가진 여러 잔차 그룹을 포함하는 잔차 내 잔차(residual in residal; RIR) 구조에 기반할 수 있다. 각 잔차 그룹에는 짧은 스킵 연결이 있는 일부 잔차 블록(ResBlock)이 포함된다. 각 ResBlock에서 채널주의 메커니즘은 채널 간의 상호 의존성을 고려하여 채널 단위 특성을 적응적으로 재조정하는 데 활용될 수 있다. RCAN은 GAN 네트워크를 학습할 때 생성기로 사용할 수 있다.
생성적 적대 네트워크(예를 들어, 초 고해상도 GAN(SRGAN))는 GAN 네트워크의 강도를 활용하여 자연적인 이미지의 공간을 모델링하고, 지각 및 적대적 손실을 사용하여 SR 네트워크가 다양한 자연적 이미지의 매니폴드에 상주하는 출력 이미지를 선호하도록 안내한다. 그 후 SRGAN의 지각에 기반하는 GAN 기반 접근 방식과 관련된 몇 가지 수정 사항이 제공된다. 일 실시 예에서, ESRGAN 프레임워크는 더 선명한 가장자리와 더 사실적인 텍스처 디테일을 만들 수 있는 상대론적 판별기의 사용으로 인해 사용된다.
본 방법 및 시스템은 생성된 실제 SR 데이터세트를 기반으로 두 개의 GAN을 학습시킬 수 있다. 두 생성기 모두 RCAN으로 구현될 수 있다. 두 판별기, (1) 실제 이미지(HR 이미지)가 거짓 이미지(HR 출력)보다 더 현실적인지 예측하는 상대 주의적 판별기; 및 (2) 단순히 실제 이미지가 실제이고 거짓 이미지가 거짓이라고 예측하는 표준 판별기가 사용된다.
학습 중에, 상대론적 생성기
Figure pat00045
의 손실 함수에는 다음과 같이 L1 이미지 손실, 지각 손실 Lp 및 적대적 손실
Figure pat00046
이 포함된다:
Figure pat00047
Figure pat00048
은 RCAN 생성기 네트워크 G(.)로부터의 초 고해상도 이미지 G(xi)와 지상 실측 정보 HR 이미지 yi 사이의 L1 거리를 계산한다.
Figure pat00049
은 미니 배치의 모든 이미지에 대해 평균을 취하는 작업을 나타낸다. 지각 손실 Lp는 사전 학습된 19 레이어 VGG 네트워크를 사용하여 xi 및 yi의 피쳐 맵 거리를 계산한다. 적대 손실
Figure pat00050
은 상대론적 GAN 판별기를 기반으로하며 다음과 같이 정의된다:
Figure pat00051
여기서
Figure pat00052
는 상대론적 GAN에 기반한 판별 기 네트워크, C(xf)는 변환되지 않은 판별기 출력이고 σ는 시그모이드(sigmoid) 함수인 것을 나타낸다. DR(xr, xf)는 입력 이미지가 절대적으로 실제인지 거짓인지를 결정하는 것이 아니라 실제 이미지가 가짜 이미지보다 더 사실적인지 예측한다. 생성기 네트워크 G의 출력 이미지가 xf로 표시되고 해당 실제 이미지가 xr로 표시되면, 해당 판별기 손실 함수는 다음과 같이 정의할 수 있다:
Figure pat00053
하이퍼 매개 변수 λ 및 η는 최종 손실 함수에서 서로 다른 손실 성분의 기여도를 결정한다. 매개 변수 η는 추정치의 정량적 오류를 줄이기 위해 증가될 수 있은 반면 적대적 손실 가중치를 증가시키면 결과의 지각적 품질이 향상될 수 있다. 다른 GAN은 표준 GAN을 기반으로 다른 생성기 손실
Figure pat00054
이 아닌, RCAN 생성기로 학습될 수 있으며, 다음과 같이 표시될 수 있다:
Figure pat00055
여기서
Figure pat00056
는 해당 판별기가
Figure pat00057
로 설명될 수 있는 표준 GAN에 기반한 적대적 손실이다.
2006에서, 학습된 GAN의 출력이 융합된다. 출력은 조도 임계 값에 따라 융합될 수 있다. 제 2 GAN의 출력(상대적 판별기를 사용하는 GAN)의 조도 레벨이 조도 임계 값보다 낮으면, GANS의 두 출력의 픽셀 단위 앙상블이 최종 출력으로 사용된다. 제 2 GAN 출력의 조도 레벨이 조도 임계 값보다 높으면, 제 2 GAN의 출력이 최종 출력으로 사용된다.
최종 SR 예측은 이 두 RCAN의 픽셀 단위 앙상블일 수 있다. 상대론적 생성기가 있는 GAN에 의해 생성된 SR 출력은 고주파 영역에서 우수한 지각 품질을 보여준다. 대조적으로, 표준 생성기를 사용하여 GAN에 의해 생성된 SR 출력은 일부 저 조도 이미지의 부드러운 영역에서 더 적은 아티팩트를 생성한다. 융합은 위 두 GAN의 SR 추정치를 사용한다. 저 조도 이미지에 대한 시각적 품질을 향상시키기 위해 이미지의 모든 픽셀의 중간 밝기를 기반으로 하여 선택적 평균 기법이 활용될 수 있다. 상대론적 GAN 손실을 사용하여 학습된 GAN의 HR 출력은
Figure pat00058
이고, 표준 GAN 손실 함수를 사용하여 학습된 RCAN 모델의 HR 출력은
Figure pat00059
이다. 융합된 출력 이미지
Figure pat00060
는 다음과 같이 파생된다:
Figure pat00061
여기서 Ymedianis는 YCbCr 색 공간 표현의 Y(휘도) 구성 요소에 있는 모든 픽셀의 픽셀 강도 값 중앙값이며, α는 [0,1] 사이의 상수이다. 서로 다른 보완 효과로 서로 다른 적대적 손실을 기반으로 학습된 두 개의 GAN 모델이 융합되므로, 융합에 사용되는 두 이미지의 지각적 품질이 가까워진다. 이렇게 하면 전반적인 지각 품질을 희생하지 않으면서 저 조도 이미지의 일부 영역에서 아티팩트가 감소될 수 있다.
도 23은 일 실시 예에 따른 학습된 GAN으로부터의 융합 결과을 도시하는 도면이다. 이미지(2302)는 아티팩트가 적은 매끄러운 출력을 생성하는 제 1 GAN(2304)(예를 들어, 표준 데시메이터 사용) 및 아티팩트가 있는 선명한 출력을 생성하는 제 2 GAN(2306)(예를 들어, 상대론적 데시메이터 사용)에 입력된다. 2 개의 출력은 픽셀 단위 앙상블(2308)로 융합되어 출력(2310)을 생성한다.
본 개시의 실시 예와 관련하여 위에서 설명된 단계 및/또는 동작은 당업자에 의해 이해되는 바와 같이, 특정 실시 예 및/또는 구현에 따라서, 상이한 순서로, 또는 병렬로, 또는 상이한 에포크에 대해 동시에 등으로 발생할 수 있다. 상이한 실시 예는 상이한 순서로 또는 상이한 방식 또는 수단에 의해 동작을 수행할 수 있다. 당업자에 의해 이해되는 바와 같이, 일부 도면은 수행된 작업의 단순화된 표현이며, 여기에서의 설명은 간략한 개요이며, 실제 구현은 훨씬 더 복잡하고 더 많은 단계 및/또는 구성 요소가 필요하며 특정 구현의 요구 사항에 따라 달라진다. 단순화된 표현이기 때문에, 이들 도면은 다른 필수 단계를 나타내지 않는데, 이는 당업자에 의해 알려져 있고 이해될 수 있고 본 설명에 적절하고 /하거나 도움이되지 않을 수 있기 때문이다.
유사하게, 일부 도면은 관련 구성 요소만을 보여주는 단순화된 블록도이며, 이러한 구성 요소 중 일부는 당업자가 이해할 수 있은 실제 하드웨어가 아닌 해당 분야에서 잘 알려진 기능 및/또는 작동을 나타내는 것이다. 이러한 경우에, 구성 요소/모듈의 일부 또는 전부는 하나 이상의 주문형 집적 회로("ASIC"), 표준 집적 회로, 적절한 명령을 실행하는 컨트롤러, 마이크로컨트롤러 및/또는 임베디드 컨트롤러, 필드 프로그래밍 가능 게이트 어레이("FPGA"), 복합 프로그래밍 가능 논리 장치("CPLD") 등을 포함하여, 펌웨어 및/또는 하드웨어에서 적어도 부분적으로와 같이 다양한 방식 및/또는 방식의 조합으로 구현되거나 제공될 수 있다. 시스템 구성 요소 및/또는 데이터 구조의 일부 또는 전부는 비 일시적 컴퓨터 판독 가능 매체(예 : 하드 디스크, 메모리, 컴퓨터 네트워크 또는 셀룰러 무선 네트워크 또는 기타 데이터 전송 매체, 또는 DVD 또는 플래시 메모리 장치와 같은 적절한 연결을 통해 적절한 드라이브에서 읽을 수 있는 휴대용 미디어 아티클)에 컨텐츠(예를 들어, 실행 가능 또는 기타 기계 판독 가능 소프트웨어 명령 또는 구조화된 데이터)로 저장되어, 컴퓨터 판독 가능 매체 및/또는 하나 이상의 관련 컴퓨팅 시스템 또는 장치가 기술된 기술 중 적어도 일부를 수행하기 위해 콘텐츠를 실행하거나 달리 사용하거나 제공할 수 있게하거나 구성할 수 있다.
하나 이상의 프로세서, 간단한 마이크로 컨트롤러, 컨트롤러 등은 단독으로 또는 다중 처리 배열에 있든간에 본 발명의 실시 예를 구현하기 위해 비 일시적 컴퓨터 판독 가능 매체에 저장된 명령어 시퀀스를 실행하기 위해 사용될 수 있다. 일부 실시 예에서, 하드 와이어드 회로는 소프트웨어 명령 대신에 또는 소프트웨어 명령과 조합하여 사용될 수 있다. 따라서, 본 개시의 실시 예는 하드웨어 회로, 펌웨어 및/또는 소프트웨어의 임의의 특정 조합으로 제한되지 않는다.
본 명세서에서 사용되는 용어 "컴퓨터 판독 가능 매체"는 실행을 위해 프로세서에 제공될 수 있은 명령어를 저장하는 임의의 매체를 지칭한다. 그러한 매체는 비 휘발성 및 휘발성 매체를 포함하지만 이에 제한되지 않는 많은 형태를 취할 수 있다. 비일시적 컴퓨터 판독 가능 매체의 일반적인 형태는 예를 들어, 플로피 디스크, 유연한 디스크, 하드 디스크, 자기 테이프 또는 기타 자기 매체, CD-ROM, 기타 광학 매체, 펀치 카드, 종이 테이프, 구멍 패턴이 있는 기타 물리적 매체, RAM, PROM 및 EPROM, FLASH-EPROM, 기타 메모리 칩 또는 카트리지, 또는 프로세서에 의해 실행될 수 있은 명령이 저장되는 기타 매체를 포함할 수 있다.
본 개시의 일부 실시 예는 적어도 부분적으로 휴대용 장치에서 구현될 수 있다. 본 명세서에 사용된 "휴대용 장치" 및/또는 "모바일 장치"는, 이에만 제한하는 것은 아니지만, 멀티미디어 플레이어, 통신 장치, 컴퓨팅 장치, 탐색 장치 등을 포함하여, 무선 신호를 수신할 수 있는 기능을 갖는 임의의 휴대용 또는 이동식 전자 장치를 지칭한다. 따라서, 모바일 장치는 (이들에만 제한하는 것은 아니지만) 사용자 장비(UE), 랩톱, 태블릿 컴퓨터, 휴대용 디지털 비서(PDA), mp3 플레이어, 핸드 헬드 PC, 인스턴트 메시징 장치(IMD), 휴대 전화, 글로벌 항법 위성 시스템(GNSS) 수신기, 와치 또는 사람이 착용 및/또는 휴대할 수 있은 모든 장치를 포함한다.
본 발명의 다양한 실시 예는 본 개시 내용의 관점에서, 당업자에 의해 이해되는 바와 같이, 마이크로 칩, 실리콘 칩, 컴퓨터 칩 또는 단순히 "칩"이라고도 하는 집적 회로(IC)로 구현될 수 있다. 이러한 IC는 예를 들어 광대역 및/또는 기저 대역 모뎀 칩일 수 있다.
여러 실시 예가 설명되었지만, 본 개시의 범위를 벗어나지 않고 다양한 변형이 이루어질 수 있음을 이해할 것이다. 따라서, 본 개시가 여기에 설명된 임의의 실시 예에 제한되지 않고 오히려 첨부된 청구항 및 그 균등 물에 의해서만 정의된 커버리지를 갖는다는 것은 당업자에게 명백할 것이다.

Claims (20)

  1. 실제(real-world) 초 고해상도(SR)를 위한 데이터세트를 생성하는 단계;
    제 1 생성적 적대 네트워크(GAN)를 학습시킨는 단계;
    제 2 GAN을 학습시키는 단계; 및
    상기 제 1 GAN의 출력과 상기 제 2 GAN의 출력을 융합하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 데이터세트를 생성하는 단계는,
    일반 저하 모델(generic degradation model)에 의해 저품질 이미지를 저 해상도(LR) 이미지로 다운샘플링하는 단계와,
    상기 LR 이미지에 대응하는 고품질 이미지를 고 해상도(HR) 이미지로 직접 사용하는 단계를 포함하는, 방법.
  3. 제 1 항에 있어서,
    상기 데이터세트를 생성하는 단계는,
    저 품질 이미지를 저 해상도(LR) 이미지로 직접 사용하는 단계와,
    상기 저 품질 이미지에서 고화질 이미지를 초 분해(super resolving)하여 고 해상도(HR) 이미지로 사용하는 단계를 포함하는, 방법.
  4. 제 1 항에 있어서,
    상기 제 1 GAN은 표준 판별기(standard discriminator)를 사용하여 학습되는, 방법.
  5. 제 4 항에 있어서,
    상기 제 2 GAN은 상대론적 판별기(relativistic discriminator)를 사용하여 학습되는, 방법.
  6. 제 1 항에 있어서,
    상기 제 1 GAN 및 상기 제 2 GAN은 잔차 채널 주의 네트워크(RCAN; Residual Channel Attention Network)를 사용하여 학습되는, 방법.
  7. 제 6 항에 있어서,
    상기 RCAN은 잔차 내 잔차(residual in residual; RIR) 구조에 기초하는, 방법.
  8. 제 1 항에 있어서,
    상기 제 1 GAN 및 상기 제 2 GAN은 향상된 SR GAN(ESRGAN; Enhanced SR GAN)을 포함하는, 방법.
  9. 제 1 항에 있어서,
    상기 제 1 GAN의 출력 및 상기 제 2 GAN의 출력은 조도 임계 값에 따라 융합되는, 방법.
  10. 제 9 항에 있어서,
    상기 제 2 GAN은 상대론적 판별기를 사용하여 학습되고,
    상기 제 1 GAN의 상기 출력 및 상기 제 2 GAN의 상기 출력은 상기 제 2 GAN의 상기 출력의 조도 레벨이 상기 조도 임계 값보다 낮을 때 융합되는, 방법.
  11. 하나 이상의 비 일시적 컴퓨터 판독 가능 매체; 및
    상기 하나 이상의 비 일시적 컴퓨터 판독 가능 매체에 저장된 명령을 실행할 때,
    실제 초 고해상도(SR)를 위한 데이터세트를 생성하는 단계;
    제 1 생성적 적대 네트워크(GAN)을 학습시키는 단계;
    제 2 GAN를 학습시키는 단계; 및
    상기 제 1 GAN의 출력과 상기 제 2 GAN의 출력을 융합하는 단계를 실행하는, 적어도 하나의 프로세서를 포함하는, 장치.
  12. 제 11 항에 있어서,
    상기 데이터세트를 생성하는 단계는,
    일반 저하 모델에 의해 저품질 이미지를 저 해상도(LR) 이미지로 다운샘플링하는 단계와,
    상기 LR 이미지에 대응하는 고품질 이미지를 고 해상도(HR) 이미지로 직접 사용하는 단계를 포함하는, 장치.
  13. 제 11 항에 있어서,
    상기 데이터세트를 생성하는 단계는,
    저 품질 이미지를 저 해상도(LR) 이미지로 직접 사용하는 단계와,
    상기 저 품질 이미지에서 고화질 이미지를 초 분해하여 고 해상도(HR) 이미지로 사용되도록 하는 단계를 포함하는, 장치.
  14. 제 11 항에 있어서,
    상기 제 1 GAN은 표준 판별기를 사용하여 학습되는, 장치.
  15. 제 14 항에 있어서,
    상기 제 2 GAN은 상대론적 판별기를 사용하여 학습되는, 장치.
  16. 제 11 항에 있어서,
    상기 제 1 GAN 및 상기 제 2 GAN은 잔차 채널 주의 네트워크(RCAN)를 사용하여 학습되는, 장치.
  17. 제 16 항에 있어서,
    상기 RCAN은 잔차 내 잔차(residual in residual; RIR) 구조에 기초하는, 장치.
  18. 제 11 항에 있어서,
    상기 제 1 GAN 및 상기 제 2 GAN은 향상된 SR GAN(ESRGAN)을 포함하는, 장치.
  19. 제 11 항에 있어서,
    상기 제 1 GAN의 출력 및 상기 제 2 GAN의 출력은 조도 임계 값에 따라 융합되는, 장치.
  20. 제 19 항에 있어서,
    상기 제 2 GAN은 상대론적 판별기를 사용하여 학습되고,
    상기 제 1 GAN의 상기 출력 및 상기 제 2 GAN의 상기 출력은 상기 제 2 GAN의 상기 출력의 조도 레벨이 상기 조도 임계 값보다 낮을 때 융합되는, 장치.
KR1020210042444A 2020-04-07 2021-04-01 미지의 저하가 발생한 실제 초 고해상도의 신경망을 학습시키는 시스템 및 방법 KR20210125425A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063006390P 2020-04-07 2020-04-07
US63/006,390 2020-04-07
US17/133,785 US11790489B2 (en) 2020-04-07 2020-12-24 Systems and method of training networks for real-world super resolution with unknown degradations
US17/133,785 2020-12-24

Publications (1)

Publication Number Publication Date
KR20210125425A true KR20210125425A (ko) 2021-10-18

Family

ID=77921914

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210042444A KR20210125425A (ko) 2020-04-07 2021-04-01 미지의 저하가 발생한 실제 초 고해상도의 신경망을 학습시키는 시스템 및 방법

Country Status (3)

Country Link
US (1) US11790489B2 (ko)
KR (1) KR20210125425A (ko)
CN (1) CN113496466A (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021041772A1 (en) 2019-08-30 2021-03-04 The Research Foundation For The State University Of New York Dilated convolutional neural network system and method for positron emission tomography (pet) image denoising
CN111368684A (zh) * 2020-02-27 2020-07-03 北华航天工业学院 一种基于可变形全卷积神经网络的冬小麦自动解译方法
TWI783834B (zh) * 2021-12-22 2022-11-11 國立中正大學 超解析影像處理方法及其系統
CN114926348B (zh) * 2021-12-22 2024-03-01 天翼数字生活科技有限公司 一种去除低照度视频噪声的装置和方法
CN114549308B (zh) * 2022-01-28 2024-03-22 大连大学 面向感知的具有大感受野的图像超分辨率重建方法及系统
CN114609493B (zh) * 2022-05-09 2022-08-12 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法
CN115115516B (zh) * 2022-06-27 2023-05-12 天津大学 基于Raw域的真实世界视频超分辨率的构建方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
DE102007001026B4 (de) 2007-01-02 2008-09-04 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
CN102722712B (zh) 2012-01-02 2014-04-16 西安电子科技大学 基于连续度的多尺度高分辨图像目标检测方法
CN103679185B (zh) 2012-08-31 2017-06-16 富士通株式会社 卷积神经网络分类器系统、其训练方法、分类方法和用途
CN103279933B (zh) 2013-06-07 2016-10-26 重庆大学 一种基于双层模型的单幅图像超分辨率重建方法
JP6236296B2 (ja) 2013-11-14 2017-11-22 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法
US9405960B2 (en) 2014-06-17 2016-08-02 Beijing Kuangshi Technology Co., Ltd. Face hallucination using convolutional neural networks
CN106204499B (zh) 2016-07-26 2019-05-24 厦门大学 基于卷积神经网络的单幅图像去雨方法
US10489887B2 (en) * 2017-04-10 2019-11-26 Samsung Electronics Co., Ltd. System and method for deep learning image super resolution
US11681001B2 (en) 2018-03-09 2023-06-20 The Board Of Trustees Of The Leland Stanford Junior University Deep learning method for nonstationary image artifact correction
US20190294931A1 (en) * 2018-03-26 2019-09-26 Artomatix Ltd. Systems and Methods for Generative Ensemble Networks
US10783622B2 (en) 2018-04-25 2020-09-22 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image
KR102184755B1 (ko) 2018-05-31 2020-11-30 서울대학교 산학협력단 안면 특화 초 고화질 심층 신경망 학습 장치 및 방법
KR102123973B1 (ko) 2018-09-05 2020-06-17 성균관대학교산학협력단 학습 안정화를 위한 생성적 적대 신경망 방법 및 장치
US10997690B2 (en) 2019-01-18 2021-05-04 Ramot At Tel-Aviv University Ltd. Method and system for end-to-end image processing
CN110827200B (zh) 2019-11-04 2023-04-07 Oppo广东移动通信有限公司 一种图像超分重建方法、图像超分重建装置及移动终端
CN111429371B (zh) 2020-03-23 2023-09-29 Oppo广东移动通信有限公司 图像处理方法、装置及终端设备

Also Published As

Publication number Publication date
US11790489B2 (en) 2023-10-17
US20210312591A1 (en) 2021-10-07
CN113496466A (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
US20220300819A1 (en) System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
KR20210125425A (ko) 미지의 저하가 발생한 실제 초 고해상도의 신경망을 학습시키는 시스템 및 방법
US11900234B2 (en) System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
CN114140353B (zh) 一种基于通道注意力的Swin-Transformer图像去噪方法及系统
CN111028177B (zh) 一种基于边缘的深度学习图像去运动模糊方法
CN111028163B (zh) 一种基于卷积神经网络的联合图像去噪与弱光增强方法
Goossens et al. An improved non-local denoising algorithm
Nair et al. An improved decision-based algorithm for impulse noise removal
Delon et al. A patch-based approach for removing impulse or mixed Gaussian-impulse noise
CN110648292A (zh) 一种基于深度卷积网络的高噪声图像去噪方法
Gong et al. Sub-window box filter
Ahn et al. Block-matching convolutional neural network (BMCNN): improving CNN-based denoising by block-matched inputs
Sadreazami et al. Data-adaptive color image denoising and enhancement using graph-based filtering
CN117333387A (zh) 基于频域感知及光照自适应的无监督低光图像增强方法
Sadaka et al. Efficient super-resolution driven by saliency selectivity
Fleig et al. Steered mixture-of-experts autoencoder design for real-time image modelling and denoising
Kim et al. Multilevel feature extraction using wavelet attention for deep joint demosaicking and denoising
TW202139070A (zh) 訓練網路的方法及設備
WO2006112814A1 (en) Edge-sensitive denoising and color interpolation of digital images
Awati et al. Digital image inpainting using modified kriging algorithm
CN113066023B (zh) 一种基于自校准卷积神经网络的sar图像去斑方法
Saito et al. Color shrinkage for color-image sparse coding and its applications
Zhang Non-local clustering via sparse prior for sports image denoising
Nanda et al. Salt-and-Pepper Noise Removal Techniques for Medical Image Reconstruction
Ding et al. A two-stage modular blind denoising algorithm based on real scene

Legal Events

Date Code Title Description
A201 Request for examination