KR20220155737A - 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법 및 장치 - Google Patents
저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법 및 장치 Download PDFInfo
- Publication number
- KR20220155737A KR20220155737A KR1020210063348A KR20210063348A KR20220155737A KR 20220155737 A KR20220155737 A KR 20220155737A KR 1020210063348 A KR1020210063348 A KR 1020210063348A KR 20210063348 A KR20210063348 A KR 20210063348A KR 20220155737 A KR20220155737 A KR 20220155737A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- feature map
- neural network
- resolution
- output
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 abstract description 24
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 3
- 241000023320 Luma <angiosperm> Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
본 발명의 일 실시예는 입력 이미지를 복수개의 제1 합성곱 계층들에 통과시켜 제1 특징맵을 출력하는 단계, 상기 입력 이미지의 채널에 상응하는 이미지 및 상기 제1 특징맵을 더하여 제2 특징맵을 출력하는 단계, 상기 제2 특징맵을 복수개의 역합성곱 계층들 및 복수개의 제2 합성곱 계층들에 통과시켜 확장된 제3 특징맵을 생성하는 단계, 및 상기 제3 특징맵에 대응되도록 보간(interpolation)된 상기 입력 이미지 및 상기 제3 특징맵을 더하여 출력 이미지를 생성하는 단계를 포함하고, 상기 제1 합성곱 계층들은 상기 입력 이미지 및 이전 제1 합성곱 계층들의 출력을 입력으로 받는 것을 특징으로 하는 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 제공한다.
Description
기재된 실시예는 초해상도 이미지 생성 방법에 관한 것으로, 특히 저경량 합성곱 신경망 구조를 이용하여 이미지의 화질을 향상하는 방법에 관한 것이다.
최근 이미지와 비디오의 해상도는 빠르게 증비하고 있으며, 원본 데이터를 저장하기 위한 높은 용량의 네트워크 대역폭과 저장공간이 필요하다. 컴퓨터비전 분야에서는 저해상도 영상을 고해상도 영상으로 만들기 위한 초해상도(Super Resolution) 기술이 활발하게 연구되고 있다. 보통 저해상도 영상은 고해상도 영상만큼 고주파 영역의 화소 (Pixel)정보를 표현할 수 없다. 이에 따라 초해상도 기술은 저해상도 영상에서 소실된 고주파 영역의 화소를 표현하는데 집중하고 있다.
보간 기반의 (Interpolation based) 이미지 초해상도 기술로서, 선형(Bi-linear) 보간 방법은 새로운 화소 정보를 얻기 위해 인접한 2개의 화소값의 선형 방정식으로 새로운 화소 정보를 도출한다.
삼차 (Bi-cubic) 보간 방법은 새로운 화소 정보를 얻기 위해 인접한 4개의 화소값들의 가중합의 평균으로 새로운 화소 정보를 도출하며, 선형 보간 방법에 비해 더 부드러운 이미지를 생성할 수 있다.
또한, 예제 기반의 (Dictionary based) 이미지 초해상도 기술로서, 화면 내부 (Internal) 예제 기반 방법은 화면 내에서 현재 영역과 비슷한 패턴을 검색해 이미지를 대체하는 방법이다.
데이터베이스 (External) 예제 기반 방법은 이미지 패치 (Patch)로 구성된 데이터베이스에서 현재 영역과 비슷한 패턴을 검색해 이미지를 대체하는 방법이며, 화면 내부 예제 기반 방법에 비해 속도가 느린 단점이 있다.
또한, 심층 신경망 기반의 (DNN based) 이미지 초해상도 기술로서, Super Resolution Convolutional Neural Network (SRCNN)는 이미지 초해상도 방법에 심층 신경망을 처음 적용한 구조이며 3개의 합성곱 계층으로 이루어져 있다. 이미지 초해상도 작업에 적합한 구조를 제작하기 위해 입력과 출력이 모두 이미지로 이루어진다. 학습과정에서는 입력 이미지는 저해상도 이미지를 임의의 보간 방법을 이용해 높은 해상도로 변환하여 제작한다. SRCNN은 이전 방법 (Interpolation, Dictionary 등)에 비해 높은 성능을 보인 구조이다.
Very Deep Super Resolution (VDSR)은 SRCNN 이후에 발표된 기술로 입력 이미지를 출력 이미지의 앞단에 더해주는 잔차 학습 방법을 채택해 빠른 속도로 심층 신경망을 학습 시킬 수 있다. 그리고 20개 합성곱 계층을 이용해 수용 영역을 41x41까지 확장시켜 주변 화소 정보를 더 넓게 볼 수 있다는 장점이 있다.
Super Resolution Dense Network (SRDenseNet)는 이미지 분류 문제에서 높은 성능을 보인 DenseNet의 구조를 이미지 초해상도에 사용한 구조이다. 이전에 생성된 특징맵을 이후 합성곱의 입력에 붙혀주는 DenseBlock을 정의했으며, 본 구조에서는 8개의 합성곱 계층으로 구성된 DenseBlock을 8개 사용하였다. 또한, 역합성곱 연산을 이용해 심층 신경망 내부적으로 이미지의 해상도가 4배로 커지게 된다. 이 구조는 이전 계층의 특징맵을 계속해 저장해야 하며, 커널과 같은 매개변수가 매우 많아 높은 메모리 사용량과 추론 (Inference)시간을 요구한다.
향후 전망으로, 저전력/저복잡도 환경에 적합한 심층 신경망 기반 이미지 초해상도 기술이 필요할 것으로 보인다.
또한, 심층 신경망 기반 이미지 초해상도 기술은 기존의 이미지 초해상도의 성능을 비약적으로 뛰어 넘었으며 다양한 서비스 환경에서 사용될 가능성이 높은 기술이다. 현재까지 심층 신경망 기반 이미지 초해상도 기술의 발전은 더 깊고 복잡한 구조를 설계해 높은 복잡도와 약간의 성능 향상을 보이며 발전해왔다.
하지만, CCTV와 저전력 단말기 등 다양한 환경에서 본 기술이 사용되기 위해서는 복잡도를 줄이고 성능을 유지하는 심층 신경망 구조가 필요하다. 또한, 서비스 환경에 따라 적응적으로 복잡하거나 간단한 심층 신경망 구조를 선택할 수 있는 부가기능도 지원해야 할 것이다.
기재된 실시예는 이미지를 입력받아 고해상도 이미지에 가깝도록 복원하는 것을 목적으로 한다.
기재된 실시예는 다양한 서비스 환경에 적용할 수 있도록 종래의 심층 신경망 구조에 비해 복잡도를 낮추고, 비슷한 성능을 낼 수 있는 초해상도 이미지 생성 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법은 입력 이미지를 복수개의 제1 합성곱 계층들에 통과시켜 제1 특징맵을 출력하는 단계, 상기 입력 이미지의 채널에 상응하는 이미지 및 상기 제1 특징맵을 더하여 제2 특징맵을 출력하는 단계, 상기 제2 특징맵을 복수개의 역합성곱 계층들 및 복수개의 제2 합성곱 계층들에 통과시켜 확장된 제3 특징맵을 생성하는 단계, 및 상기 제3 특징맵에 대응되도록 보간(interpolation)된 상기 입력 이미지 및 상기 제3 특징맵을 더하여 출력 이미지를 생성하는 단계를 포함할 수 있다.
이때, 상기 제1 합성곱 계층들은 상기 입력 이미지 및 이전 제1 합성곱 계층들의 출력을 입력으로 받을 수 있다.
기재된 실시예에 따르면 이미지를 입력받아 고해상도 이미지에 가깝도록 복원할 수 있다.
기재된 실시예에 따르면 다양한 서비스 환경에 적용할 수 있도록 종래의 심층 신경망 구조에 비해 복잡도를 낮추고, 비슷한 성능을 낼 수 있는 초해상도 이미지 생성 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 타나낸 흐름도이다.
도 2a 내지 2b는 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 개념적으로 나타낸 도면이다.
도 3a 내지 3b는 도 2a 내지 2b에서 합성곱계층이 추가된 실시예를 나타낸 도면이다.
도 4a 내지 4b는 (S210)단계에서 서로 다른 매개변수를 가지는 커널을 이용해 각각 합성곱 연산을 수행하는 실시예를 나타낸 도면이다.
도 5a 내지 5c는 저해상도 이미지와 보간 기술을 이용하여 고해상도와 같은 크기를 가지는 2개의 이미지를 입력받아 서로 다른 매개변수를 가지는 합성곱 계층을 통과하는 실시예를 나타낸 도면이다.
도 6은 Replicate padding방법을 나타낸 도면이다.
도 7은 역합성곱 연산 방법을 시각적으로 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 장치를 타나낸 블록도이다.
도 2a 내지 2b는 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 개념적으로 나타낸 도면이다.
도 3a 내지 3b는 도 2a 내지 2b에서 합성곱계층이 추가된 실시예를 나타낸 도면이다.
도 4a 내지 4b는 (S210)단계에서 서로 다른 매개변수를 가지는 커널을 이용해 각각 합성곱 연산을 수행하는 실시예를 나타낸 도면이다.
도 5a 내지 5c는 저해상도 이미지와 보간 기술을 이용하여 고해상도와 같은 크기를 가지는 2개의 이미지를 입력받아 서로 다른 매개변수를 가지는 합성곱 계층을 통과하는 실시예를 나타낸 도면이다.
도 6은 Replicate padding방법을 나타낸 도면이다.
도 7은 역합성곱 연산 방법을 시각적으로 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 장치를 타나낸 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 타나낸 흐름도이다.
도 1을 참조하면, 본 발명의 일 실시예는 입력 이미지를 복수개의 제1 합성곱 계층들에 통과시켜 제1 특징맵을 출력한다(S110).
이때, 상기 제1 합성곱 계층들은 상기 입력 이미지 및 이전 제1 합성곱 계층들의 출력을 입력으로 받을 수 있다.
또한, 상기 입력 이미지의 채널에 상응하는 이미지 및 상기 제1 특징맵을 더하여 제2 특징맵을 출력한다(S120).
또한, 상기 제2 특징맵을 복수개의 역합성곱 계층들 및 복수개의 제2 합성곱 계층들에 통과시켜 확장된 제3 특징맵을 생성한다(S130).
또한, 상기 제3 특징맵에 대응되도록 보간(interpolation)된 상기 입력 이미지 및 상기 제3 특징맵을 더하여 출력 이미지를 생성한다(S140).
이하, 도 2내지 도 5를 참조하여, 본 발명의 실시예에 따른 방법을 상세히 설명한다.
도 2a 내지 2b는 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 개념적으로 나타낸 도면이다.
도 2a 내지 2b를 참조하면, 도 1의 (S110)단계 내지 (S140)단계는 도 2a 내지 2b의 (S210)단계 내지 (S240)단계에 상응하는 것을 볼 수 있다.
본 발명의 실시예는 NxM 이미지 크기를 가지는 저해상도 이미지를 입력받아 가로, 세로가 각각 4배 확장된 4Nx4M 이미지 크기를 가지는 고해상도 이미지를 출력하는 심층신경망 구조를 제안한다. 다만 본 발명의 범위가 이에 한정되는 것은 아니다.
이때, 입력이미지는 RGB 및/또는 YUV 등의 컬러 성분을 사용할 수 있다. 예를 들어, YUV 컬러 포맷 중 Luma 채널 성분만을 입력으로 사용할수도 있다.
도 2a 내지 2b는 합성곱 및/또는 역합성곱 계층을 이용해 설계된 구조이다. 도 2a 내지 2b의 합성곱계층(이하 conv로 지칭함.)1-4는 NxM 이미지 크기를 가지는 특징맵을 입력받는다(S210).
이때, Conv3-4는 이전 합성곱 계층의 출력을 붙혀주어 2배 및/또는 3배의 채널 수를 가지는 특징 맵을 입력받는다. Conv4의 출력은 입력 이미지의 채널을 복제한 이미지에 더해지게 되며(S220), 따라서 Conv1-4 계층은 잔차 학습을 수행하게 된다.
이후 역합성곱 계층에 의해 가로, 세로가 각각 2배씩 확장 되며, 2개의 역합성곱 계층을 지난 이후 4Nx4M 크기의 특징맵을 가지게 된다. Conv5-Conv6은 4Nx4M 크기의 특징맵을 입력받아 최종적으로 4Nx4M 크기와 입력 컬러 성분과 동일한 채널의 이미지가 생성되며(S230), 입력 이미지를 보간 방법 중 적어도 하나 이상을 사용하여 4배 확장한 이후 더해지게 된다(S240).
이때, 출력 합성곱 계층을 제외한 모든 합성곱 및/또는 역합성곱 계층은 비선형 활성화 함수 중 적어도 하나 이상을 사용하여 비선형성을 유지할 수 있다.
도 3a 내지 3b는 도 2a 내지 2b에서 합성곱계층이 추가된 실시예를 개념적으로 나타낸 도면이다.
도 3b을 참조하면 도 2b에서 Conv5-Conv7 계층이 추가된 것을 볼 수 있다.
도 3a 내지 3b의 실시예에 따른 방법의 주요 특징은 Conv6-7 계층이 역합성곱 계층 사이에 존재해 2Nx2M의 특징맵의 크기를 가지는 점이며, Conv7의 출력이 두번째 역합성곱 계층의 입력으로 사용된다.
이때 발생할 수 있는 특징맵 메모리 용량 증가를 감소시키기 위해 Conv5 계층은 이전 합성곱 계층의 출력으로 생성된 특징맵의 채널 수를 1x1 커널을 이용해 절반으로 감소시킬 수 있다.
결과적으로 도 2a 내지 2b에 비해 역합성곱 계층에서 특징맵의 채널 수가 절반이 되므로, 합성곱 계층이 추가되었지만 연산 복잡도를 감소 시킬 수 있다.
도 4는 (S210)단계에서 서로 다른 매개변수를 가지는 커널을 이용해 각각 합성곱 연산을 수행하는 실시예를 나타낸 도면이다.
도 4a 내지 4b는 Conv1-Conv3 구간의 연산을 서로 다른 매개변수를 가지는 커널을 이용해 각각 합성곱 연산을 수행하며, Conv3-1, Conv3-2 계층의 출력인 특징맵들을 붙혀주어 Conv4 계층으로 입력되는 구조이다.
이때, 사용되는 커널의 크기는 서로 같거나 다를 수 있다.
일 예로, 도 4a에서는 Conv1-1, Conv2-1, Conv3-1에서 3x3 커널을 사용하였으며, Conv1-2, Conv2-2, Conv3-2에서는 5x5 커널을 이용했다.
도 5a 내지 5c는 저해상도 이미지와 보간 기술을 이용하여 고해상도와 같은 크기를 가지는 2개의 이미지를 입력받아 서로 다른 매개변수를 가지는 합성곱 계층을 통과하는 실시예를 나타낸 도면이다.
이때, 저해상도 이미지가 입력되는 경로는 역합성곱 계층을 이용해 고해상도 이미지와 같은 크기로 확장해주어야한다.
이때, Conv7 계층의 출력인 특징맵은 Conv11 계층의 출력과 붙혀지게 된다.
Conv1-3 계층과 Conv8-10 계층은 DenseConnection을 이용해 합성곱 연산이 이루어 지고 최종적으로 Conv12-14를 통과한 이후 입력이미지를 더해주어 출력 이미지를 생성하게 된다.
본 발명은 도 2내지 5와 같은 신경망 구조를 이용해 종래의 심층 신경망 기술의 복잡도를 줄일 수 있다.
도 6은 Replicate padding방법을 나타낸 도면이다.
도 6을 참조하면, 원본 이미지(610)에 Replicate Padding을 사용한 이미지(620)를 볼 수 있다.
NxM 크기의 이미지를 합성곱 연산하게 되면 커널의 크기와 합성곱 연산의 보폭 (Stride)에 따라 출력의 이미지가 작아지게 된다.
예를 들어, 5x5 크기의 이미지를 3x3 커널과 보폭을 1로 설정하면 출력 이미지의 크기는 3x3으로 줄어들게 된다. 초해상도 분야에서는 합성곱 연산이 입력 이미지의 크기와 동일한 크기의 이미지를 출력해야 하므로, 보통 입력 이미지의 주변을 0으로 둘러싸는 Zero Padding을 사용하게 된다.
이때, Padding의 크기는 보폭이 1인 경우 커널 크기의 절반 (소수점 이하 제거)만큼 사용하게 된다. 하지만 이 방법은 입력 이미지의 크기가 작은 해상도인 경우 가장자리 화소 부분에 이미지 정보와 어울리지 않는 잡음이 생길 가능성이 있다.
따라서, 본 발명에서는 도 6과 같은 Replicate Padding을 사용한다. 이 방법은 주변 화소 값들을 Padding 영역에 복제하는 방법이며, Zero Padding에 비해 Replicate Padding을 사용하는 것이 더 높은 성능을 보이는 것을 실험적으로 확인하였다.
도 7은 역합성곱 연산 방법을 시각적으로 나타낸 도면이다.
초해상도를 위한 심층신경망은 입력 이미지의 형상에 따라 크게 두가지로 나뉘게 된다. 첫 번째로 일반적인 보간 방법으로 고해상도와 같은 크기의 이미지를 생성한 후 입력하는 방법이 존재한다. 두 번째로 저해상도 이미지를 그대로 입력해 심층신경망 내부에서 특정 방법으로 이미지의 해상도를 확장하는 방법이 존재한다.
입력이미지(710)에 대해 Padding을 미리 적용하고 필터(720)를 이용한 가중 곱을 하나의 출력 이미지(730)의 화소에 매핑 (mapping)하게 된다.
도 7에서는 2x2 입력이미지, Padding 크기는 2, 보폭 1을 이용해 4x4 출력 이미지를 생성하게 된다.
본 발명의 실시예는 2개의 역합성곱 계층이 존재한다. 이 계층은 저해상도 이미지 NxM을 입력받아 가로 세로를 각 2배씩 확장시켜 2Nx2M 크기의 이미지를 출력할 수 있다.
이 방법은 역합성곱 계층 이전에 특징맵이 저해상도의 크기를 가지게 되고, 저해상도 이미지에 대해 합성곱 연산을 적용하게 되면 비교적 적은 연산 횟수만 필요하게 된다. 일 예로, 도 2a 내지 2b에서는 DenseConnection이 추가된 4개의 합성곱 연산 이후에 역합성곱 연산이 적용되므로 채널의 개수가 많은 합성곱 연산의 경우 저해상도 이미지에 대해 계산되게 된다. 결과적으로 특징맵을 저장하기 위한 메모리 용량을 줄일 수 있고, 추론 시간을 빠르게 할 수 있다.
도 8은 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 장치를 타나낸 블록도이다.
도 8을 참조하면 본 발명의 일 실시예에 따른 장치는 입력 이미지를 복수개의 제1 합성곱 계층들에 통과시켜 제1 특징맵을 출력하는 제1 계층부, 상기 입력 이미지의 채널에 상응하는 이미지 및 상기 제1 특징맵을 더하여 제2 특징맵을 출력하는 제1 가산부, 상기 제2 특징맵을 복수개의 역합성곱 계층들 및 복수개의 제2 합성곱 계층들에 통과시켜 확장된 제3 특징맵을 생성하는 제2 계층부, 및 상기 제3 특징맵에 대응되도록 보간(interpolation)된 상기 입력 이미지 및 상기 제3 특징맵을 더하여 출력 이미지를 생성하는 제2 가산부를 포함할 수 있다.
이때, 상기 제1 계층부의 제1 합성곱 계층들은 상기 입력 이미지 및 이전 제1 합성곱 계층들의 출력을 입력으로 받을 수 있다.
이하, 도 2내지 도 5를 참조하여, 본 발명의 실시예에 따른 장치를 상세히 설명한다.
도 2a 내지 2b는 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법을 개념적으로 나타낸 도면이다.
도 2a 내지 2b를 참조하면, 도 8의 제1 계층부(810), 제1 가산부(820), 제2 계층부(830), 및 제2 가산부(840)에서 각각 도 2a 내지 2b의 (S210)단계 내지 (S240)단계가 수행되는 것을 알 수 있다.
본 발명의 실시예는 NxM 이미지 크기를 가지는 저해상도 이미지를 입력받아 가로, 세로가 각각 4배 확장된 4Nx4M 이미지 크기를 가지는 고해상도 이미지를 출력하는 심층신경망 구조를 제안한다. 다만 본 발명의 범위가 이에 한정되는 것은 아니다.
이때, 입력이미지는 RGB 및/또는 YUV 등의 컬러 성분을 사용할 수 있다. 예를 들어, 도 2와 같이 YUV 컬러 포맷 중 Luma 채널 성분만을 입력으로 사용할수도 있다.
도 2a 내지 2b는 합성곱 및/또는 역합성곱 계층을 이용해 설계된 구조이다. 도 2a 내지 2b의 합성곱계층1-4는 NxM 이미지 크기를 가지는 특징맵을 입력받는다(S210).
이때, Conv3-4는 이전 합성곱 계층의 출력을 붙혀주어 2배 및/또는 3배의 채널 수를 가지는 특징 맵을 입력받는다. Conv4의 출력은 입력 이미지의 채널을 복제한 이미지에 더해지게 되며(S220), 따라서 Conv1-4 계층은 잔차 학습을 수행하게 된다.
이후 역합성곱 계층에 의해 가로, 세로가 각각 2배씩 확장 되며, 2개의 역합성곱 계층을 지난 이후 4Nx4M 크기의 특징맵을 가지게 된다. Conv5-Conv6은 4Nx4M 크기의 특징맵을 입력받아 최종적으로 4Nx4M 크기와 입력 컬러 성분과 동일한 채널의 이미지가 생성되며(S230), 입력 이미지를 보간 방법 중 적어도 하나 이상을 사용하여 4배 확장한 이후 더해지게 된다(S240).
이때, 출력 합성곱 계층을 제외한 모든 합성곱 및/또는 역합성곱 계층은 비선형 활성화 함수 중 적어도 하나 이상을 사용하여 비선형성을 유지할 수 있다.
도 3a 내지 3b는 도 2a 내지 2b에서 합성곱계층이 추가된 실시예를 개념적으로 나타낸 도면이다.
도 3b를 참조하면 도 2b에서 Conv5-Conv7 계층이 추가된 것을 볼 수 있다.
도 3a 내지 3b의 실시예에 따른 방법의 주요 특징은 Conv6-7 계층이 역합성곱 계층 사이에 존재해 2Nx2M의 특징맵의 크기를 가지는 점이며, Conv7의 출력이 두번째 역합성곱 계층의 입력으로 사용된다.
이때 발생할 수 있는 특징맵 메모리 용량 증가를 감소시키기 위해 Conv5 계층은 이전 합성곱 계층의 출력으로 생성된 특징맵의 채널 수를 1x1 커널을 이용해 절반으로 감소시킬 수 있다.
결과적으로 도 2a 내지 2b에 비해 역합성곱 계층에서 특징맵의 채널 수가 절반이 되므로, 합성곱 계층이 추가되었지만 연산 복잡도를 감소 시킬 수 있다.
도 4a 내지 4b는 (S210)단계에서 서로 다른 매개변수를 가지는 커널을 이용해 각각 합성곱 연산을 수행하는 실시예를 나타낸 도면이다.
도 4a는 Conv1-Conv3 구간의 연산을 서로 다른 매개변수를 가지는 커널을 이용해 각각 합성곱 연산을 수행하며, Conv3-1, Conv3-2 계층의 출력인 특징맵들을 붙혀주어 Conv4 계층으로 입력되는 구조이다.
이때, 사용 되는 커널의 크기는 서로 같거나 다를 수 있다.
일 예로, 도 4a에서는 Conv1-1, Conv2-1, Conv3-1에서 3x3 커널을 사용하였으며, Conv1-2, Conv2-2, Conv3-2에서는 5x5 커널을 이용했다.
도 5a 내지 5c는 저해상도 이미지와 보간 기술을 이용하여 고해상도와 같은 크기를 가지는 2개의 이미지를 입력받아 서로 다른 매개변수를 가지는 합성곱 계층을 통과하는 실시예를 나타낸 도면이다.
이때, 저해상도 이미지가 입력되는 경로는 역합성곱 계층을 이용해 고해상도 이미지와 같은 크기로 확장해주어야한다.
이때, Conv7 계층의 출력인 특징맵은 Conv11 계층의 출력과 붙혀지게 된다.
Conv1-3 계층과 Conv8-10 계층은 DenseConnection을 이용해 합성곱 연산이 이루어 지고 최종적으로 Conv12-14를 통과한 이후 입력이미지를 더해주어 출력 이미지를 생성하게 된다.
이상에서 살핀 바와 같이, 본 발명은 도 2내지 5와 같은 신경망 구조를 이용해 종래의 심층 신경망 기술의 복잡도를 줄일 수 있다.
[표1]
표 1을 참조하면, 상단 행부터 각각 매개변수의 개수, 매개변수의 메모리용량, 특징맵을 포함한 메모리용량을 표현한다.
이때, 메모리 용량 측정은 8x8 이미지 및/또는 32x32 이미지가 입력된 경우 측정하였다. 초해상도 분야에 최초로 심층 신경망을 적용한 SRCNN은 다른 심층 신경망 구조에 비해 적은 양의 매개변수를 사용하는 것을 알 수 있다.
하지만, SRDenseNet은 SRCNN에 비해 약 10배에 달하는 매개변수의 개수를 가지고, 특징맵과 매개변수의 메모리 용량도 많은 것을 알 수 있다. 이에 반해 본 발명에서 제안하는 심층 신경망은 매개변수의 양은 많지만 특징맵의 메모리용량이 크게 차이나지 않는 것을 확인할 수 있다.
이때, SRCNN과 ARCNN은 보간을 통해 확장된 이미지 크기인 32x32가 입력되어 매개변수의 개수에 비해 특징맵을 저장하기 위한 메모리 용량이 많이 필요한 것을 알 수 있다. 이에반해 SRDenseNet과 본 발명은 저해상도 이미지 8x8이 그대로 입력되는 구조를 가진다.
따라서, 본 발명에서 제안하는 심층 신경망 구조는 특징맵 저장을 위한 메모리 용량은 비교적 적게 필요한 것을 알 수 있다.
또한, 본 발명의 일 실시예에 따른 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템에서 구현될 수 있다.
컴퓨터 시스템은 버스를 통하여 서로 통신하는 하나 이상의 프로세서, 메모리, 사용자 인터페이스 입력 장치, 사용자 인터페이스 출력 장치 및 스토리지를 포함할 수 있다. 또한, 컴퓨터 시스템은 네트워크에 연결되는 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙 처리 장치 또는 메모리나 스토리지에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리 및 스토리지는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리는 ROM이나 RAM을 포함할 수 있다.
본 발명에서 설명하는 특정 실행들은 실시예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
610: 원본이미지
620: 패딩된 이미지
620: 패딩된 이미지
Claims (1)
- 입력 이미지를 복수개의 제1 합성곱 계층들에 통과시켜 제1 특징맵을 출력하는 단계;
상기 입력 이미지의 채널에 상응하는 이미지 및 상기 제1 특징맵을 더하여 제2 특징맵을 출력하는 단계;
상기 제2 특징맵을 복수개의 역합성곱 계층들 및 복수개의 제2 합성곱 계층들에 통과시켜 확장된 제3 특징맵을 생성하는 단계; 및
상기 제3 특징맵에 대응되도록 보간(interpolation)된 상기 입력 이미지 및 상기 제3 특징맵을 더하여 출력 이미지를 생성하는 단계;
를 포함하고,
상기 제1 합성곱 계층들은 상기 입력 이미지 및 이전 제1 합성곱 계층의 출력을 입력으로 받는 것을 특징으로 하는 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210063348A KR20220155737A (ko) | 2021-05-17 | 2021-05-17 | 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210063348A KR20220155737A (ko) | 2021-05-17 | 2021-05-17 | 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220155737A true KR20220155737A (ko) | 2022-11-24 |
Family
ID=84235534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210063348A KR20220155737A (ko) | 2021-05-17 | 2021-05-17 | 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220155737A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240102904A (ko) | 2022-12-26 | 2024-07-03 | 서울대학교산학협력단 | 이중선형 업샘플링 연산 장치 및 방법 |
KR102708543B1 (ko) * | 2023-07-21 | 2024-09-20 | 고려대학교 산학협력단 | 확산 모델 기반 컴퓨터 단층촬영 고해상도 변환 장치 및 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190112384A (ko) | 2018-03-26 | 2019-10-07 | 아주대학교산학협력단 | 저 해상도 이미지 보정을 위한 잔차 네트워크 시스템 |
-
2021
- 2021-05-17 KR KR1020210063348A patent/KR20220155737A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190112384A (ko) | 2018-03-26 | 2019-10-07 | 아주대학교산학협력단 | 저 해상도 이미지 보정을 위한 잔차 네트워크 시스템 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240102904A (ko) | 2022-12-26 | 2024-07-03 | 서울대학교산학협력단 | 이중선형 업샘플링 연산 장치 및 방법 |
KR102708543B1 (ko) * | 2023-07-21 | 2024-09-20 | 고려대학교 산학협력단 | 확산 모델 기반 컴퓨터 단층촬영 고해상도 변환 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Swinir: Image restoration using swin transformer | |
CN111683269B (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
Zhang et al. | Non-local kernel regression for image and video restoration | |
US20070237425A1 (en) | Image resolution increasing method and apparatus for the same | |
CN111402139B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN113781320A (zh) | 一种图像处理方法、装置、终端设备及存储介质 | |
KR102122065B1 (ko) | 보간된 전역 지름길 연결을 적용한 잔류 컨볼루션 신경망을 이용하는 초해상도 추론 방법 및 장치 | |
US7965339B2 (en) | Resolution enhancing method and apparatus of video | |
KR20220155737A (ko) | 저경량 합성곱 신경망 구조를 이용한 초해상도 이미지 생성 방법 및 장치 | |
WO2015042873A1 (en) | Decomposition techniques for multi-dimensional data | |
CN113256529B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
US20230153946A1 (en) | System and Method for Image Super-Resolution | |
CN106447607A (zh) | 一种图像拼接方法及装置 | |
CN111681165A (zh) | 图像处理方法、装置、计算机设备和计算机可读存储介质 | |
Shi et al. | (SARN) spatial-wise attention residual network for image super-resolution | |
Chih et al. | Accurate and bandwidth efficient architecture for CNN-based full-HD super-resolution | |
Xiao et al. | Self-feature learning: An efficient deep lightweight network for image super-resolution | |
US20030138161A1 (en) | Method and apparatus for enhancing an image using a wavelet-based retinex algorithm | |
CN107220934B (zh) | 图像重建方法及装置 | |
CN117710189A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112184587A (zh) | 一种边缘数据增强模型、以及基于所述模型的高效边缘数据增强方法及系统 | |
CN113628115B (zh) | 图像重建的处理方法、装置、电子设备和存储介质 | |
CN115294055A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN112801876B (zh) | 信息处理方法、装置及电子设备和存储介质 | |
CN113506305A (zh) | 三维点云数据的图像增强方法、语义分割方法及装置 |