KR20220080249A

KR20220080249A - 영상 처리 방법 및 장치

Info

Publication number: KR20220080249A
Application number: KR1020200169146A
Authority: KR
Inventors: 강덕영; 조양호
Original assignee: 삼성전자주식회사
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-06-14
Also published as: CN114596201A; US20220180480A1; US11734800B2

Abstract

영상 처리 방법 및 장치가 개시된다. 개시된 프로세서에 의해 실행되는, 뉴럴 네트워크를 이용하는 영상 처리 방법은 타겟 영상을 획득하는 단계 및 순차적으로 연결된 복수의 잔차 블록들을 포함하는 뉴럴 네트워크를 이용하여, 타겟 영상에 대응하는 복원 영상을 획득하는 단계를 포함한다. 복수의 잔차 블록들 각각은 이전 잔차 블록으로부터 입력된 영상에 대한 영상 처리를 상이한 스케일에서 수행하고, 상이한 스케일에서 영상 처리한 결과들을 다음 잔차 블록으로 전달한다.

Description

영상 처리 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING RESTORE IMAGE}

아래 실시예들은 영상 처리 방법 및 장치에 관한 것이다.

광학 기술 및 영상 처리 기술의 발달로 인해, 멀티미디어 컨텐츠, 보안 및 인식 등 광범위한 분야에 촬영 장치가 활용되고 있다. 예를 들어, 촬영 장치는 모바일 기기, 카메라, 차량 및 컴퓨터 등에 탑재되어, 영상을 촬영하거나, 객체를 인식하거나, 기기를 제어하기 위한 데이터를 획득할 수 있다. 촬영 장치의 부피는 렌즈의 사이즈, 렌즈의 초점 거리(focal length) 및 센서의 사이즈 등에 의해 결정될 수 있고, 부피를 감소시키기 위해, 소형 렌즈들로 구성된 멀티 렌즈가 이용될 수 있다.

일실시예에 따른 프로세서에 의해 실행되는, 뉴럴 네트워크를 이용하는 영상 처리 방법은 타겟 영상을 획득하는 단계; 및 순차적으로(sequentially) 연결된 복수의 잔차 블록들(plurality of residual blocks)을 포함하는 상기 뉴럴 네트워크를 이용하여, 상기 타겟 영상에 대응하는 복원 영상을 획득하는 단계를 포함하고, 상기 복수의 잔차 블록들 각각은 이전 잔차 블록으로부터 입력된 영상에 대한 영상 처리를 상이한 스케일에서 수행하고, 상기 상이한 스케일에서 영상 처리한 결과들을 다음 잔차 블록으로 전달한다.

일실시예에 따른 영상 처리 방법에서 상기 복수의 잔차 블록들 각각은 각 스케일에서 상기 다음 잔차 블록으로 연결되는 스킵 커넥션(skip connection)을 통해 해당 스케일에서 수행된 영상 처리의 결과를 상기 다음 잔차 블록으로 전달하고, 상기 각 스케일에서 수행된 영상 처리의 결과는 상기 다음 잔차 블록에서 해당 스케일로 수행되는 영상 처리에 이용될 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 복수의 잔차 블록들 각각은 상기 입력된 영상과 상기 상이한 스케일에서 영상 처리한 결과들을 이용하여, 상기 입력된 영상을 단계적으로 복원할 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 복수의 잔차 블록들 각각은 상기 입력된 영상에서 제1 범위의 영역을 참조하는 제1 스케일에서 수행되는 영상 처리에, 상기 제1 범위보다 넓은 제2 범위의 영역을 참조하는 제2 스케일에서 수행된 영상 처리의 결과를 이용할 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 복수의 잔차 블록들 각각은 상기 제2 스케일에서 수행된 영상 처리의 결과를 픽셀 셔플 또는 업 샘플링하여 상기 제1 스케일에서 수행되는 영상 처리에 이용할 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 제2 스케일에서 수행된 영상 처리는 상기 제1 스케일의 영상 처리가 적용되는 영상이 인버스 다운 셔플 또는 다운샘플링된 것에 기반하여 수행될 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 복수의 잔차 블록들 각각은 각 스케일에서 수행되는 영상 처리에서 컨볼루션 연산을 수행한 결과에 정규화 연산을 수행할 수 있다.

일실시예에 따른 영상 처리 방법에서 각 스케일에서 수행되는 영상 처리의 결과는 해당 영상 처리가 적용되기 이전 영상과 함께 상기 다음 잔차 블록으로 전달되어 상기 다음 잔차 블록에서 해당 스케일로 수행되는 영상 처리에 이용될 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 복수의 잔차 블록들 각각에 적용되는 상이한 스케일의 개수는 상기 타겟 영상에 발생 가능한 열화의 크기, 상기 영상 처리에 이용되는 컨볼루션 커널(convolution kernel)의 크기, 상기 상이한 스케일의 정도에 기초하여 결정될 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 타겟 영상은 열화가 나타난 하나 이상의 저해상도 영상이고, 상기 복원 영상은 상기 열화가 감소된 고해상도 영상일 수 있다.

일실시예에 따른 영상 처리 방법에서 상기 타겟 영상은 멀티 렌즈 어레이에 기반하여 촬영된 복수의 영상들 또는 단일 렌즈에 기반하여 여러 번 촬영된 복수의 영상들에 기반하여 결정될 수 있다.

일실시예에 따른 영상 처리 장치는 타겟 영상을 획득하고, 순차적으로 연결된 복수의 잔차 블록들을 포함하는 상기 뉴럴 네트워크를 이용하여 상기 타겟 영상에 대응하는 복원 영상을 획득하는 하나 이상의 프로세서를 포함하고, 상기 복수의 잔차 블록들 각각은 이전 잔차 블록으로부터 입력된 영상에 대한 영상 처리를 상이한 스케일에서 수행하고, 상기 상이한 스케일에서 영상 처리한 결과들을 다음 잔차 블록으로 전달한다.

도 1 내지 도 3은 일 실시예에 따라 타겟 영상이 결정되는 과정을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 영상 처리 방법을 나타낸 도면이다.
도 5 내지 도 10은 일 실시예에 따른 영상 처리 모델의 예시들을 나타낸 도면이다.
도 11은 일 실시예에 따른 영상 처리 장치를 나타낸 도면이다.
도 12 및 도 13은 일 실시예에 따른 영상 처리 장치가 구현될 수 있는 기기의 예시들을 나타낸 도면이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

도 1 내지 도 3은 일 실시예에 따라 타겟 영상이 결정되는 과정을 설명하기 위한 도면이다.

도 1을 참조하면, 카메라(100)는 렌즈 어레이(110)에 기반하여 복안 시야 영상(CEV image, compound eye vision image)(130)을 촬영할 수 있다. 카메라(100)에 의하여 촬영되는 복안 시야 영상(130)의 품질은 센싱 어레이(120)에 포함된 센싱 엘리먼트들의 수 및 센싱 엘리먼트(121)에 입사되는 광량에 의하여 결정될 수 있다. 예를 들어, 복안 시야 영상(130)의 해상도는 센싱 어레이(120)에 포함된 센싱 엘리먼트들의 수에 의하여 결정되고, 복안 시야 영상(130)의 감도는 센싱 엘리먼트(121)에 입사되는 광량에 의하여 결정될 수 있다. 센싱 엘리먼트(121)에 입사되는 광량은 센싱 엘리먼트(121)의 사이즈에 기초하여 결정될 수 있다. 센싱 엘리먼트(121)의 사이즈가 클수록 센싱 엘리먼트(121)에 입사되는 광량은 증가할 수 있고, 센싱 어레이(120)의 동적 범위(dynamic range)가 증가할 수 있다. 따라서, 센싱 어레이(120)에 포함된 센싱 엘리먼트들의 수가 증가함에 따라 센싱 어레이(120)는 고해상도 영상을 촬영할 수 있고, 센싱 엘리먼트(121)의 사이즈가 증가함에 따라 센싱 어레이(120)는 저조도에서 고감도 영상 촬영에 유리하게 작동할 수 있다.

카메라(100)의 부피는 렌즈 엘리먼트(111)의 초점 거리(focal length) f₁에 의하여 결정될 수 있다. 이를 테면, 카메라(100)의 부피는 렌즈 엘리먼트(111)와 센싱 어레이(120) 사이의 간격에 의하여 결정되는데, 렌즈 엘리먼트(111)에 의하여 굴절된 빛(190)을 수집하기 위하여 센싱 어레이(120)는 렌즈 엘리먼트(111)의 초점 거리 f₁에 위치해야 하므로 카메라(100)에 포함된 렌즈 엘리먼트(111)와 센싱 어레이(120)는 렌즈 엘리먼트(111)의 초점 거리 f₁만큼 이격되어 배치되어야 하기 때문이다.

렌즈 엘리먼트(111)의 초점 거리 f₁는 카메라(100)의 시야각과 렌즈 엘리먼트(111)의 사이즈(예를 들어, 렌즈 엘리먼트(111)의 구경의 반지름)에 의하여 결정된다. 예를 들어, 시야각이 고정될 경우 렌즈 엘리먼트(111)의 사이즈에 비례하여 초점 거리 f₁가 길어진다. 또한, 렌즈 엘리먼트(111)의 사이즈는 센싱 어레이(120)의 사이즈에 기초하여 결정될 수 있다. 예를 들어, 일정한 시야각 범위의 영상을 촬영하기 위해서는, 센싱 어레이(120)의 사이즈가 증가함에 따라 렌즈 엘리먼트(111)의 사이즈가 증가되어야 한다.

전술한 바에 의하면, 시야각 및 영상의 해상도를 유지하면서 영상의 감도를 증가시키려면, 카메라(100)의 부피가 증가된다. 예를 들어, 영상의 해상도를 유지하면서 영상의 감도를 증가시키려면, 센싱 어레이(120)에 포함된 센싱 엘리먼트들의 수를 유지하면서 각 센싱 엘리먼트(121)의 사이즈를 증가시켜야 하므로 센싱 어레이(120)의 사이즈가 증가된다. 이 때, 시야각을 유지하려면, 센싱 어레이(120)의 사이즈가 증가함에 따라 렌즈 엘리먼트(111)의 사이즈가 증가하며 렌즈 엘리먼트(111)의 초점 거리 f₁가 길어지므로, 카메라(100)의 부피가 증가된다.

카메라(100)는 렌즈 어레이(110) 및 센싱 어레이(120)를 포함한다. 렌즈 어레이(110)는 렌즈 엘리먼트들을 포함하고, 센싱 어레이(120)는 센싱 엘리먼트들을 포함한다. 렌즈 엘리먼트들은 렌즈 어레이(110)의 평면을 따라 배치될 수 있고, 센싱 엘리먼트들은 센싱 어레이(120)의 평면을 따라 배치될 수 있다. 센싱 어레이(120)의 센싱 엘리먼트들은 렌즈 엘리먼트들 각각에 대응하는 센싱 영역으로 나누어질 수 있다. 렌즈 어레이(110)의 평면은 센싱 어레이(120)의 평면과 평행하고, 렌즈 어레이(110)에 포함된 렌즈 엘리먼트(111)의 초점 거리 f₁만큼 이격될 수 있다. 렌즈 어레이(110)는 마이크로 멀티 렌즈 어레이(MMLA, micro multi lens array) 또는 멀티 렌즈 어레이라고 지칭될 수 있다.

일 실시예에 따르면, 렌즈 어레이(110)에 포함된 렌즈 엘리먼트들 각각의 사이즈를 감소시킬수록, 다시 말해 동일한 넓이에 포함되는 렌즈 엘리먼트들의 수를 증가시킬수록 렌즈 엘리먼트(111)의 초점 거리 f₁는 작아질 수 있고, 카메라(100)의 두께는 감소할 수 있다. 이 경우, 카메라(100)는 각 렌즈 엘리먼트(111)에서 촬영된 저해상도 영상들에 해당하는 복안 시야 영상(130)을 재배열(rearrange) 및 조합하여 원본 고해상도 영상을 복원할 수 있다. 따라서, 렌즈 어레이(110)에 포함된 렌즈 엘리먼트들을 분할함으로써, 박형 카메라(thin camera)가 구현될 수 있다.

렌즈 어레이(110)의 개별 렌즈 엘리먼트(111)는 자신의 사이즈에 대응하는 센싱 어레이(120)의 일정 영역을 커버할 수 있다. 다시 말해, 해당 영역에 포함된 센서 어레이(120)의 센싱 엘리먼트들에는 해당 개별 렌즈 엘리먼트(111)를 통과한 빛(190)이 입사될 수 있다. 빛(190)은 복수의 광선들을 포함할 수 있다. 광선(191)은 광자(photon)(101)의 흐름에 대응할 수 있다. 센싱 어레이(120)의 센싱 엘리먼트들 각각은 렌즈 어레이(110)의 렌즈 엘리먼트들을 통과한 광선(191)에 기초하여 센싱 정보를 생성할 수 있다. 예를 들어, 센싱 엘리먼트(121)는 렌즈 엘리먼트(111)를 통해 입사되는 광선(191)에 기초하여 센싱 정보를 생성할 수 있다. 카메라(100)는 센싱 어레이(120)에 의해 출력된 센싱 정보에 기초하여, 카메라(100)의 시야에 포함된 지점들에 관한 원본 색상 신호(original color signal)에 대응하는 색상 정보(예를 들어, 색상 값)를 결정하고, 결정된 색상 정보에 기초하여 촬영 영상을 복원할 수 있다.

또한, 센싱 엘리먼트(121)는 임의의 색상을 센싱 하기 위한 색상 필터를 포함할 수 있다. 센싱 엘리먼트(121)는 특정 색상에 대응하는 색상 값을 센싱 정보로서 생성할 수 있다. 센싱 어레이(120)를 구성하는 복수의 센싱 엘리먼트들의 각각은 공간적으로 인접한 인접 센싱 엘리먼트와 다른 색상을 센싱하도록 배치될 수 있다.

센싱 정보의 다양성이 충분히 확보되어, 카메라(100)의 시야에 포함된 지점들에 대응하는 원본 신호 정보와 센싱 정보 사이에 완전 랭크(full rank) 관계가 형성될 때, 센싱 어레이(120)의 최대 해상도에 대응하는 촬영 영상이 도출될 수 있다. 센싱 정보의 다양성은 렌즈 어레이(110)에 포함된 렌즈 엘리먼트들의 수 및 센싱 어레이(120)에 포함된 센싱 엘리먼트들의 수와 같은 카메라(100)의 파라미터들에 기초하여 확보될 수 있다.

도 2를 참조하면, 앞서 설명한 구조의 카메라를 통해 객체(210)가 촬영되면 복안 시야 영상(220)이 생성될 수 있다. 복안 시야 영상(220)은, 곤충의 겹눈을 통해 관측된 것처럼, 동일한 객체(210)를 중첩적으로 촬영한 영상을 나타낼 수 있다. 예를 들어, 카메라 장치는 어레이 형태로 배열된 복수의 렌즈 엘리먼트들을 통해 복수의 센싱 엘리먼트들에서 수신된 광선의 세기에 기초하여, 복안 시야 영상(220)을 생성할 수 있다. 도 2의 예시에서는 9개의 저해상도 영상들이 복안 시야 영상(220)을 구성하며, 촬영된 객체(210)가 저해상도 영상들 각각에 나타날 수 있다.

앞서 설명한 카메라 구조로 인해 복안 시야 영상(220) 내 저해상도 영상들에는 디스패리티(disparity)가 발생하게 될 수 있다. 예를 들어, 복안 시야 영상(220)에서 가운데 위치한 저해상도 영상에서는 객체(210)가 가운데 위치하는 반면, 복안 시야 영상(220)에서 가장자리에 위치한 저해상도 영상에서는 객체(210)가 가장자리에 위치하게 될 수 있다.

동일한 객체(210)임에도 카메라 구조로 인해 발생한 디스패리티를 제거하기 위해, 정렬 네트워크(alignment network)에 기반하여 복안 시야 영상(220)이 정렬(align)될 수 있다. 정렬된 영상(230)에서는 각 저해상도 영상들에서 객체(210)의 위치가 복안 시야 영상(220)에 비해 상대적으로 동일할 수 있다.

정렬된 영상(230) 내 복수의 저해상도 영상 각각에 픽셀 셔플(pixel shuffle)을 적용시켜 영상 크기를 확대한 후 복수의 저해상도 영상들을 오버래핑(overlapping)함으로써, 확대된 영상(240)이 결정될 수 있다. 다만, 확대된 영상(240)은 저해상도 영상들을 확대한 것으로 해상도는 여전히 낮기 때문에, 확대된 영상(240)에 객체(210)가 또렷하게(sharply) 나타나지 않고, 마치 여러 상들이 겹치거나 블러가 발생한 것으로 표현되는 등 여러 열화들이 발생할 수 있다.

확대된 영상(240)에 나타난 열화를 영상 복원 네트워크(image restoration network)에 기반하여 제거 또는 감소시킴으로써, 복원 영상(250)이 결정될 수 있다. 예를 들어, 확대된 영상(240)에 나타난 열화는 앞서 설명한 카메라에 적용된 렌즈의 수차에 의한 것일 수 있다. 렌즈 수차로 인해 확대된 영상(240)의 중심에서 외각으로 갈수록 열화가 심해질 수 있으며, 렌즈의 기준으로 대칭 형태(예컨대, 축대칭(Axial Symmetry))를 가질 수 있다. 이처럼 열화는 확대된 영상(240)의 넓은 범위에 걸쳐 나타날 수 있으며, 이에 따라 넓은 범위의 수용장(receptive field)을 가진 영상 복원 네트워크가 필요할 수 있다. 이외에도 카메라 구조나 촬영 환경 등에 따라 확대된 영상(240)에는 다양한 열화가 나타날 수 있다. 복원 영상(250)은 열화가 감소된 고해상도 영상일 수 있다. 본 명세서에서 확대된 영상(240)은 영상 복원의 대상이 되기에 타겟 영상으로도 표현할 수 있다.

도 3를 참조하면, 카메라(300)는 단일 렌즈(310)에 기반하여 복수의 영상들(320)를 촬영할 수 있다. 단일 렌즈(310)는 렌즈 사이즈가 도 1의 개별 렌즈 엘리먼트(111)보다 커서 초점 거리 f₂가 길고, 카메라(300)의 부피도 클 수 있다. 단일 렌즈(310)를 이용하여 한 번 촬영하면 하나의 영상이 생성되는데, 동일 장면을 연속적으로 촬영하면 다른 시점에서 촬영한 복수의 영상들(320)이 생성될 수 있다. 동일한 장면을 연속적으로 빠르게 촬영하더라도 카메라(300)의 미세한 움직임이나 장면 내 객체 움직임에 의해 복수의 영상들(320)에 포함된 정보가 조금씩 달라질 수 있기 때문에, 복수의 영상들(320)을 오버래핑하여 결정된 영상에 블러 등 열화가 발생할 수 있다. 예를 들어, 카메라(300)의 미세한 움직임 등에 의해 발생한 열화는 카메라(300)에서 촬영하는 장면 전체가 흔들리게 되므로 열화가 영상의 넓은 범위에 걸쳐 나타날 수 있으며, 마찬가지로 넓은 범위의 수용장을 가진 영상 복원 네트워크가 요구될 수 있다. 앞서 설명한 복수의 영상들(320)을 오버래핑하여 결정된 영상은 영상 복원의 대상이 되기에 타겟 영상으로도 표현할 수 있다.

아래에서 설명하는 실시예들은 영상 복원 네트워크를 통해 타겟 영상에 대응하는 복원 영상을 획득하는 동작을 설명한다.

도 4는 일 실시예에 따른 영상 처리 방법을 나타낸 도면이다.

도 4를 참조하면, 영상 처리 장치에 구비된 프로세서에 의해 실행되는, 뉴럴 네트워크를 이용하는 영상 처리 방법이 도시된다.

단계(410)에서, 영상 처리 장치는 타겟 영상을 획득한다. 예를 들어, 영상 처리 장치는 내장된 카메라 모듈 또는 외부의 카메라 장치에서 촬영된 영상에 기반하여 타겟 영상을 획득할 수 있다. 타겟 영상은 열화가 나타난 하나 이상의 저해상도 영상으로, 예를 들어, 도 2의 확대된 영상(240)과 도 3의 복수의 영상들(320)을 오버래핑하여 결정된 영상을 포함할 수 있다. 다만, 타겟 영상을 확대된 영상(240)과 결정된 영상으로 제한하는 것은 아니고, 열화가 포함된 영상이라면 본 명세서의 설명이 적용될 수 있다.

단계(420)에서, 영상 처리 장치는 순차적으로 연결된 복수의 잔차 블록들을 포함하는 뉴럴 네트워크를 이용하여, 타겟 영상에 대응하는 복원 영상을 획득한다. 복수의 잔차 블록들을 포함하는 뉴럴 네트워크에 대해서는 도 5 내지 도 9를 통해 상세히 설명한다.

도 5 내지 도 10은 일 실시예에 따른 영상 처리 모델의 예시들을 나타낸 도면이다.

도 5를 참조하면, 뉴럴 네트워크는 컨볼루션 레이어들(510, 530)과 복수의 잔차 블록들(520)를 포함할 수 있다. 도 5의 예시에서, 복수의 잔차 블록들(520)은 컨볼루션 레이어들(510, 530) 사이에서 직렬로 서로 연결될 수 있다.

컨볼루션 레이어(510)는 타겟 영상으로부터 영상 정보를 수집 및/또는 가공하여 첫 번째 잔차 블록으로 전달할 수 있다. 컨볼루션 레이어(530)는 마지막 잔차 블록으로부터 수신된 영상 처리 결과를 기반해서 복원 영상을 결정할 수 있다.

복수의 잔차 블록들(520) 각각은 이전 잔차 블록으로부터 전달된 영상의 열화를 점진적으로 제거 또는 감소시킴으로써 영상을 단계적으로 복원할 수 있다. 복수의 잔차 블록들(520) 각각은 이전 잔차 블록으로부터 입력된 영상에 대한 영상 처리(예컨대, 영상 복원)를 상이한 스케일에서 수행하고, 그 결과들을 다음 잔차 블록으로 전달할 수 있다. 도 5에서는 설명의 편의를 위해 3개의 레벨들(521, 522, 523)로 스케일이 구분되어 있으나, 상이한 스케일 개수가 이에 한정되는 것은 아니다.

각 레벨들(521, 522, 523)에서는 두 개의 컨볼루션 레이어와 그 사이에 배치된 활성화 함수 레이어가 영상 처리에 이용될 수 있다. 두 개의 컨볼루션 레이어 중 첫 번째 컨볼루션 레이어는 전달된 영상으로부터 영상 정보를 수집 및/또는 가공하여 활성화 함수 레이어로 전달할 수 있다. 활성화 함수 레이어는 전달된 정보 중에서 불필요하거나 중요하지 않은 정보를 필터링할 수 있다. 도 5에서는 활성화 함수 레이어의 예시로서 ReLU(rectified linear unit) 레이어가 도시되어 있으나, 이외에도 Leaky ReLU 레이어, PReLU(Parametric ReLU) 레이어, 시그모이드(sigmoid) 레이어, 소프트맥스(softmax) 레이어, 하이퍼볼릭 탄젠트(hyperbolic tangent) 레이어 등 다양한 활성화 함수 레이어가 적용될 수 있다. 마지막 컨볼루션 레이어는 필터링을 통과하여 전달된 정보를 영상으로 표현하여 출력할 수 있으며, 출력되는 영상은 제1 레벨(521)로 입력된 영상의 고주파수 정보(high frequency information)에 해당할 수 있다. 도 5의 제1 레벨(521)에서는 내부의 스킵 커넥션을 통해 제1 레벨(521)로 입력된 영상(예컨대, 블러된 영상)이 마지막 컨볼루션 레이어에서 출력되는 영상에 더해짐으로써, 영상에 포함된 열화(예컨대, 블러)가 감소될 수 있다.

도 6을 참조하여 각 레벨들(521, 522, 523)에 배치된 두 개의 컨볼루션 레이어의 동작에 대해 상세히 설명하면, 모델 기반 디블러링(deblurring) 문제는 다음과 같이 표현될 수 있다.

위의 수학식 1에서, k는 블러 필터(blur filter)이고,

은, 예를 들어, [1, -1], [1; -1]으로 표현되는 가로, 세로 방향의 그레디언트 필터(gradient filter) 또는 다른 종류의 고주파수 필터(high-frequency filter)일 수 있다. 또한, x는 정답(ground truth) 영상이며, x

k는 블러된 영상을 나타낼 수 있다. 또한, y는 입력 영상을 나타내고, F는 프로베니우스 놈(Frobenius norm)을 나타낼 수 있다. 상술된 문제는 경사 하강법(gradient descent)에 기반하여 해결될 수 있으며, 이는 아래와 같이 표현될 수 있다.

위의 수학식 2에서, x_n은 현재 스텝의 추론 영상을 나타내고, x_n+1은 다음 스텝의 추론 영상을 나타내며,

과

은 각각 가중치를 나타낼 수 있다. 디블러링 문제는 현재 스텝의 영상 x_n에 k와

를 순차적으로 컨볼루션한 것과 현재 스텝의 영상 x_n에

와

를 순차적으로 컨볼루션한 것을 가중합(weighted sum)하고, 바이어스(bias)를 더하는 것으로 치환될 수 있다.

위의 수학식 2는 도 6의 좌측 블록도처럼 도식화될 수 있으며, 이를 일반화하면 도 6의 우측 블록도처럼 간단하게 표현될 수 있다. 간단히 표현된 두 개의 컨볼루션 레이어 각각은, 예를 들어, 영상으로부터 특징 데이터를 추출하는 64개의 커널들을 포함할 수 있다. 수학식 2로 표현된 경사 하강법의 한 단계는 두 개의 컨볼루션 레이어들으로 표현될 수 있다.

도 5로 돌아오면, 잔차 블록 내 복수의 레벨들(521, 522, 523)은 영상 처리 시 영상에서 참조하는 범위의 크기를 나타내는 스케일이 상이할 수 있다. 예를 들어, 제1 레벨(521)에서는 입력된 영상에서 제1 범위의 영역을 참조하는 제1 스케일로 영상 처리가 수행되고, 제2 레벨(522)에서는 입력된 영상에서 제1 범위보다 넓은 제2 범위의 영역을 참조하는 제2 스케일로 영상 처리가 수행되며, 제3 레벨(523)에서는 입력된 영상에서 제2 범위보다 넓은 제3 범위의 영역을 참조하는 제3 스케일로 영상 처리가 수행될 수 있다. 각 레벨들(521, 522, 523)에 배치된 컨볼루션 레이어의 커널 사이즈는 동일한데 상술한 것처럼 영상 처리 시 참조하는 영역의 크기가 상이할 수 있는 것은, 제1 레벨(521)에서 제2 레벨(522)로 영상이 전달될 때 인버스 픽셀 셔플(inverse pixel shuffle)이 수행되기 때문일 수 있다.

도 7을 참조하여 인버스 픽셀 셔플에 대해 설명하면, 1채널의 4x4 영상은 인버스 픽셀 셔플을 통해 4채널의 2x2 영상으로 변환될 수 있다. 이때, 1채널의 4x4 영상에서 인접하지 않은 픽셀들이 동일한 채널 내 영상에서 인접하게 배치될 수 있다. 2x2 컨볼루션을 통해서는 1채널의 4x4 영상에서 함께 참조할 수 없었던 영상 정보들이, 4채널의 2x2 영상에서는 함께 참조될 수 있다. 정리하면, 컨볼루션의 크기를 증가시키지 않더라도 인버스 픽셀 셔플을 수행함으로써, 기존 컨볼루션 크기로는 함께 참조할 수 없었던 영상 정보들을 함께 참조하여 영상 처리를 수행할 수 있으며, 영상에서 멀리 떨어진 정보를 함께 참조하기 위해 컨볼루션의 크기를 증가시킴에 따라 연산량이 상당히 증가하는 것을 방지할 수 있다. 인버스 픽셀 셔플로 증가한 채널 수는 이후에 수행될 컨볼루션을 통해 줄일 수 있다.

도 5로 돌아오면, 인버스 픽셀 셔플이 수행된 영상은 이전 잔차 블록으로부터 전달된 제2 스케일의 영상에 더해질 수 있다. 이전 잔차 블록으로부터 전달된 영상은 이전 잔차 블록에서 제2 스케일로 수행된 영상 처리의 결과로서, 제1 레벨(521)로부터 전달되어 인버스 픽셀 셔플이 수행된 영상과 동일한 사이즈를 가지고, 대응하는 픽셀 값끼리 더해질 수 있다. 이를 통해 중복된 연산 방지와 이전 블록 정보 재활용을 달성하고, 여러 레벨에서 영상 정보가 전달되어 네트워크 일부분에 정보의 병목현상이 발생하는 것을 막을 수 있다. 제1 레벨(521)로부터 전달되어 인버스 픽셀 셔플이 수행된 영상과 이전 잔차 블록으로부터 전달된 제2 스케일의 영상은 제2 스케일에 따라 제2 범위의 영역을 참조하는 영상 처리(예컨대, 영상 복원)에 이용될 수 있다. 제2 레벨(522)에서 제2 스케일로 수행되는 영상 처리는 제1 스케일에 비해 참조 가능한 범위가 넓으므로, 영상에서 넓은 범위에 걸쳐 열화를 보다 효과적으로 제거 또는 감소시킬 수 있다. 제2 스케일로 수행된 영상 처리의 결과는 다음 잔차 블록으로 전달될 수 있으며, 다음 잔차 블록에서 제2 스케일로 수행되는 영상 처리에 이용될 수 있다.

또한, 제2 스케일로 수행된 영상 처리의 결과는 픽셀 셔플된 후 제1 레벨(521)로 전달되어 제1 스케일에서 수행되는 영상 처리에 이용될 수 있다.

또한, 제2 스케일로 수행된 영상 처리의 결과는 인버스 픽셀 셔플된 후 제3 레벨(523)로 전달되어 제3 스케일에서 수행되는 영상 처리에 이용될 수 있다. 제3 레벨(523)에서 제3 스케일로 수행되는 영상 처리에는 앞선 설명들이 마찬가지로 적용될 수 있으므로 보다 상세한 설명은 생략한다.

이처럼, 잔차 블록 내부의 각 레벨들(521, 522, 523)이 U자 모양으로 병렬로 연결된 형태를 가짐에 따라, 병렬 잔차 U 블록(parallel residual U block)으로 지칭될 수 있다. 상술된 구조의 잔차 블록들(520)이 순차적으로 연결됨에 따라, 타겟 영상으로부터 복원 영상을 획득하는 전체 영상 처리의 여러 단계에서 다양한 스케일의 영상 정보를 참조할 수 있어 영상 복원 성능이 향상될 수 있다.

도 5의 예시에서는 다른 레벨로 영상이 전달될 때 인버스 픽셀 셔플 또는 픽셀 셔플 후 영상 간 덧셈이 수행되는 데, 실시예에 따라서는 이러한 동작들의 순서가 바뀔 수 있다. 예를 들어, 제1 레벨(521)에서 제2 레벨(522)로 전달되는 영상은 이전 잔차 블록으로부터 전달된 영상에 더해진 후 인버스 픽셀 셔플이 수행될 수 있다. 마찬가지로 제2 레벨(522)의 마지막 컨볼루션 레이어에서 출력되는 영상에 먼저 픽셀 셔플이 적용된 후 그 결과 영상이 제1 레벨(521)과 다음 잔차 블록으로 전달될 수 있다.

도 5의 예시에서 3개의 레벨들(521, 522, 523)로 구분된 스케일은 상황에 따라 달라질 수 있다. 복수의 잔차 블록들 각각에 적용되는 상이한 스케일의 개수(다시 말해, 레벨의 개수)는 여러 레벨에 따른 상이한 스케일을 통해 타겟 영상에 포함될 수 있는 다양한 크기의 열화들이 제거 또는 감소 가능하도록 결정될 수 있다. 예를 들어, 상이한 스케일의 개수는 타겟 영상에 발생 가능한 열화의 크기, 영상 처리에 이용되는 컨볼루션 커널의 크기, 상이한 스케일의 정도(다시 말해, 레벨이 달라짐에 따라 변경되는 스케일 정도)에 기초하여 결정될 수 있다. 가령, 타겟 영상에 발생 가능한 열화의 크기가 121x121이고, 컨볼루션 커널의 크기가 5x5이며, 상이한 스케일의 정도가 5배인 경우, 상이한 스케일의 개수가 3개로 결정되어야, 제1 레벨에서는 5x5 크기의 스케일을 가지고, 제2 레벨에서는 25x25 크기의 스케일을 가지며, 제3 레벨에서는 125x125 크기의 스케일을 가질 수 있어, 발생 가능한 열화가 다양한 스케일에서 제거 또는 감소될 수 있다. 만약 타겟 영상에 발생 가능한 열화가 앞서 설명한 렌즈의 물리적인 요소(예컨대, 렌즈 수차)에 의한 것이라면, 렌즈 정보에 기반하여 타겟 영상에 발생 가능한 열화의 크기가 결정될 수 있다.

도 8을 참조하면, 다른 실시예에 따른 복수의 잔차 블록들이 도시된다. 도 5의 예시에서 잔차 블록 내 다른 레벨로 영상이 전달될 때 수행되는 인버스 픽셀 셔플 또는 픽셀 셔플은 각각 다운샘플링, 업샘플링 동작으로 대체될 수 있다. 예를 들어, 다운샘플링은 영상에서 일부 값을 샘플링함으로써 영상을 축소하는 동작으로, 예를 들어, 평균 풀링(average pooling), 맥스 풀링(max pooling)을 포함할 수 있다. 또한, 업샘플링은 영상에 포함된 값을 증가시켜 영상을 확대하는 동작으로, 예를 들어, 바이리니어 보간(bilinear interpolation), 니어리스트 보간(nearest interpolation)을 포함할 수 있다.

또한, 도 5의 예시에서 인버스 픽셀 셔플 또는 픽셀 셔플된 영상이 이전 잔차 블록으로부터 전달된 영상 또는 해당 레벨에서 처리되는 영상과 더해지는 동작은 결합 연산자(concatenation operator)로도 대체될 수 있다. 결합 연산자는 연산 대상인 두 영상들을 채널 수가 증가되도록 결합시키는 연산자로, 도 8에서

로 표현될 수 있다. 예를 들어, 두 영상들이 각각 32채널을 가진다면, 두 영상들이 결합된 영상은 총 64채널을 가질 수 있다. 도 5에서 설명한 영상 덧셈 연산자는 채널 수가 그대로 유지되는 반면 대응하는 픽셀 값들이 더해지는 것과 대조적일 수 있다. 결합 연산자로 채널 수가 증가된 영상은 해당 레벨의 첫 번째 컨볼루션 레이어에서 채널 수가 원래대로 감소될 수 있어 후속 영상 처리가 적용될 수 있다.

도 8의 예시에서는 다른 레벨로 영상이 전달될 때 다운샘플링 또는 업샘플링 후 영상 간 결합이 수행되는 데, 실시예에 따라서는 이러한 동작들의 순서가 바뀔 수 있따. 예를 들어, 제21 레벨(810)에서 제2 레벨(820)로 전달되는 영상은 이전 잔차 블록으로부터 전달된 영상과 결합된 후 다운샘플링될 수 있다. 마찬가지로, 제2 레벨(820)의 마지막 컨볼루션 레이어에서 출력되는 영상에 먼저 업샘플링이 적용된 후 그 결과 영상이 제1 레벨(810)과 다음 잔차 블록으로 전달될 수 있다.

도 9를 참조하면, 또 다른 실시예에 따른 복수의 잔차 블록들이 도시된다. 도 5의 예시에서 설명하였던, 각 레벨에 포함된 인버스 픽셀 셔플과 컨볼루션 레이어는 스트라이드 컨볼루션 레이어(strided convolution layer)로 대체되고, 컨볼루션 레이어와 픽셀 셔플은 디컨볼루션 레이어(deconvolution layer)로 대체될 수 있다. 각 레벨들(910, 920, 930)에서 컨볼루션 레이어, 스트라이드 컨볼루션 레이어 또는 디컨볼루션 레이어 이후에 정규화 레이어(normalization layer)가 배치될 수 있다. 정규화 레이어는 채널 어텐션(channel attention), 셀프 어텐션(self attention), 배치 정규화(batch normalization), 드랍-아웃(drop-out), 리니어 스케일(linear scale), SFT(spatial feature transform)-layer에 기반할 수 있다.

도 10을 참조하면, 또 다른 실시예에 따른 복수의 잔차 블록들이 도시된다. 도 5의 예시에서는 제1 레벨(521)에서만 내부 스킵 커넥션이 배치된 반면, 도 10에서는 모든 레벨들(1010, 1020, 1030)에 내부 스킵 커넥션이 배치되어 다양한 스케일의 영상 처리에 활용될 수 있다.

도 11은 일 실시예에 따른 영상 처리 장치를 나타낸 도면이다.

도 11을 참조하면, 영상 처리 장치(1100)는 메모리(1110), 프로세서(1120) 및 입출력 인터페이스(1130)를 포함한다. 메모리(1110), 프로세서(1120) 및 입출력 인터페이스(1130)는 버스(bus)(1140)를 통하여 서로 통신할 수 있다.

메모리(1110)는 컴퓨터에서 읽을 수 있는 명령어를 포함할 수 있다. 프로세서(1120)는 메모리(1110)에 저장된 명령어가 프로세서(1120)에서 실행됨에 따라 앞서 언급된 동작들을 수행할 수 있다. 메모리(1110)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.

프로세서(1120)는 명령어들, 혹은 프로그램들을 실행하거나, 영상 처리 장치(1100)를 제어하는 장치로서, 예를 들어, CPU(central processing unit), GPU(graphic processing unit), NPU(neural processing unit), DSP(digital signal processor)일 수 있으나, 영상 처리 장치(1100)에 포함된 프로세서(1120)가 이에 한정되는 것은 아니다. 영상 처리 장치(1100)는 입출력 인터페이스(1130)를 통하여 외부 장치(예를 들어, 카메라 장치 또는 영상이 저장된 데이터베이스)에 연결되고, 데이터(예컨대, 타겟 영상)를 교환할 수 있다. 또는, 영상 처리 장치(1100)는 내부의 카메라 모듈(미도시)에서 촬영된 영상에 기반한 타겟 영상을 수신할 수도 있다. 프로세서(1120)는 타겟 영상을 획득하고, 순차적으로 연결된 복수의 잔차 블록들을 포함하는 뉴럴 네트워크를 이용하여 타겟 영상에 대응하는 복원 영상을 획득한다.

영상 처리 장치(1100)는 스마트 폰, 태블릿, 랩탑, 퍼스널 컴퓨터 등 다양한 컴퓨팅 장치, 스마트 시계, 스마트 안경, 스마트 의류 등 다양한 웨어러블 기기, 스마트 스피커, 스마트 TV, 스마트 냉장고 등 다양한 가전장치, 스마트 자동차, 스마트 키오스크, IoT(Internet of Things) 기기, WAD(Walking Assist Device), 드론, 로봇 등 다양한 컴퓨팅 장치의 일부로 구현될 수 있다.

영상 처리 장치(1100)는 열화(예컨대, 블러) 정도가 심하거나, 초해상도(super-resolution)의 배율이 높은 상황에서, 영상 내 공간적으로 멀리 떨어진 정보도 참조해 영상을 복원할 수 있다. 그 밖에, 영상 처리 장치(1100)에 관해서는 상술된 동작을 처리할 수 있다.

도 12 및 도 13은 일 실시예에 따른 영상 처리 장치가 구현될 수 있는 기기의 예시들을 나타낸 도면이다.

일 실시예에 따른 영상 처리 장치는 다양한 기술 분야에 적용될 수 있다. 예를 들어, 영상 처리 장치는, 복수의 렌즈 엘리먼트들로 구성되는 렌즈 어레이 및 복수의 센싱 엘리먼트들로 구성되는 센서가 비교적 짧은 초점 거리로 이격되도록 설계될 수 있다. 따라서, 영상 처리 장치는, 고화질 촬영을 위해 센서의 크기가 크면서도, 초박형 카메라(ultra-thin camera)로 구현될 수 있다. 이와 같이 영상 처리 장치는 멀티 렌즈 어레이 구조를 통해 보다 감소된 두께로 구현될 수 있다. 영상 처리 장치는 AP, FPGA, Chip 등으로 구현되어 카메라의 영상 신호 프로세서(Image Signal Processor)로서 구현될 수 있다. 영상 처리 장치는 스마트폰의 전면 카메라 또는 후면 카메라에 적용될 수 있다. 영상 처리 장치에서, 대형 풀 프레임 센서(Full Frame Sensor) 및 마이크로 렌즈 어레이(Micro-lens Array)가 결합된 구조로 휴대폰 카메라에 적용될 수 있다. 또한, 박형 구조 또는 커브드(Curved) 구조로 차량용으로 구현될 수도 있다.

예를 들어, 도 12에 도시된 바와 같이, 스마트폰 기기(1200)에 후면 카메라로서, 영상 처리 장치(1210)가 구현될 수 있다. 영상 처리 장치(1210)의 센서는 풀 프레임(full frame)으로 구현될 수 있고, 렌즈 어레이는 마이크로 렌즈(micro lens)로 구현될 수 있다.

또한, 영상 처리 장치는 DSLR 카메라, 차량, 드론(Drone), CCTV, 웹캠(Webcam)용 카메라, 360도 촬영 카메라, 영화 및 방송을 위한 카메라, 및 VR/AR 카메라 등에 사용될 수 있다. 더 나아가, 영상 처리 장치는 유연하거나 연장될 수 있는 카메라(Flexible/Stretchable Camera), 곤충 눈 카메라, 컨택트 렌즈 타입(Contact lens type) 카메라 등과 같은 다양한 분야에도 적용될 수 있다.

더 나아가, 영상 처리 장치는 연속된 프레임의 비디오 영상(Video image)에서, 촬영된 다수의 프레임 정보를 이용하여 해상도를 증가하는 멀티 프레임 고해상도 영상 복원(Multi-frame Super Resolution image restoration)에도 적용될 수 있다.

또한, 도 13에서 도시한 바와 같이, 영상 처리 장치(1300)는 스마트 TV, 스마트폰이나 PC와 같은 영상 표시 장치, DVD/블루레이 플레이어 등 기 촬영된 영상을 재생하거나 표시하는 영상 기기에 사용될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

프로세서에 의해 실행되는, 뉴럴 네트워크를 이용하는 영상 처리 방법에 있어서,
타겟 영상을 획득하는 단계; 및
순차적으로(sequentially) 연결된 복수의 잔차 블록들(plurality of residual blocks)을 포함하는 상기 뉴럴 네트워크를 이용하여, 상기 타겟 영상에 대응하는 복원 영상을 획득하는 단계
를 포함하고,
상기 복수의 잔차 블록들 각각은
이전 잔차 블록으로부터 입력된 영상에 대한 영상 처리를 상이한 스케일에서 수행하고, 상기 상이한 스케일에서 영상 처리한 결과들을 다음 잔차 블록으로 전달하는,
영상 처리 방법.
제1항에 있어서,
상기 복수의 잔차 블록들 각각은
각 스케일에서 상기 다음 잔차 블록으로 연결되는 스킵 커넥션(skip connection)을 통해 해당 스케일에서 수행된 영상 처리의 결과를 상기 다음 잔차 블록으로 전달하고,
상기 각 스케일에서 수행된 영상 처리의 결과는
상기 다음 잔차 블록에서 해당 스케일로 수행되는 영상 처리에 이용되는,
영상 처리 방법.
제1항에 있어서,
상기 복수의 잔차 블록들 각각은
상기 입력된 영상과 상기 상이한 스케일에서 영상 처리한 결과들을 이용하여, 상기 입력된 영상을 단계적으로 복원하는,
영상 처리 방법.
제1항에 있어서,
상기 복수의 잔차 블록들 각각은
상기 입력된 영상에서 제1 범위의 영역을 참조하는 제1 스케일에서 수행되는 영상 처리에, 상기 제1 범위보다 넓은 제2 범위의 영역을 참조하는 제2 스케일에서 수행된 영상 처리의 결과를 이용하는,
영상 처리 방법.
제4항에 있어서,
상기 복수의 잔차 블록들 각각은
상기 제2 스케일에서 수행된 영상 처리의 결과를 픽셀 셔플 또는 업 샘플링하여 상기 제1 스케일에서 수행되는 영상 처리에 이용하는,
영상 처리 방법.
제4항에 있어서,
상기 제2 스케일에서 수행된 영상 처리는 상기 제1 스케일의 영상 처리가 적용되는 영상이 인버스 다운 셔플 또는 다운샘플링된 것에 기반하여 수행되는,
영상 처리 방법.
제1항에 있어서,
상기 복수의 잔차 블록들 각각은
각 스케일에서 수행되는 영상 처리에서 컨볼루션 연산을 수행한 결과에 정규화 연산을 수행하는,
영상 처리 방법.
제1항에 있어서,
각 스케일에서 수행되는 영상 처리의 결과는 해당 영상 처리가 적용되기 이전 영상과 함께 상기 다음 잔차 블록으로 전달되어 상기 다음 잔차 블록에서 해당 스케일로 수행되는 영상 처리에 이용되는,
영상 처리 방법.
제1항에 있어서,
상기 복수의 잔차 블록들 각각에 적용되는 상이한 스케일의 개수는
상기 타겟 영상에 발생 가능한 열화의 크기, 상기 영상 처리에 이용되는 컨볼루션 커널의 크기, 상기 상이한 스케일의 정도에 기초하여 결정되는,
영상 처리 방법.
제1항에 있어서,
상기 타겟 영상은 열화가 나타난 하나 이상의 저해상도 영상이고,
상기 복원 영상은 상기 열화가 감소된 고해상도 영상인,
영상 처리 방법.
제1항에 있어서,
상기 타겟 영상은
멀티 렌즈 어레이에 기반하여 촬영된 복수의 영상들 또는 단일 렌즈에 기반하여 여러 번 촬영된 복수의 영상들에 기반하여 결정되는,
영상 처리 방법.
제1항 내지 제11항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 저장 매체.
타겟 영상을 획득하고, 순차적으로 연결된 복수의 잔차 블록들을 포함하는 뉴럴 네트워크를 이용하여 상기 타겟 영상에 대응하는 복원 영상을 획득하는 하나 이상의 프로세서
를 포함하고,
상기 복수의 잔차 블록들 각각은
이전 잔차 블록으로부터 입력된 영상에 대한 영상 처리를 상이한 스케일에서 수행하고, 상기 상이한 스케일에서 영상 처리한 결과들을 다음 잔차 블록으로 전달하는,
영상 처리 장치.
제13항에 있어서,
상기 복수의 잔차 블록들 각각은
각 스케일에서 상기 다음 잔차 블록으로 연결되는 스킵 커넥션을 통해 해당 스케일에서 수행된 영상 처리의 결과를 상기 다음 잔차 블록으로 전달하고,
상기 각 스케일에서 수행된 영상 처리의 결과는
상기 다음 잔차 블록에서 해당 스케일로 수행되는 영상 처리에 이용되는,
영상 처리 장치.
제13항에 있어서,
상기 복수의 잔차 블록들 각각은
상기 입력된 영상과 상기 상이한 스케일에서 영상 처리한 결과들을 이용하여, 상기 입력된 영상을 단계적으로 복원하는,
영상 처리 장치.
제13항에 있어서,
상기 복수의 잔차 블록들 각각은
상기 입력된 영상에서 제1 범위의 영역을 참조하는 제1 스케일에서 수행되는 영상 처리에, 상기 제1 범위보다 넓은 제2 범위의 영역을 참조하는 제2 스케일에서 수행된 영상 처리의 결과를 이용하는,
영상 처리 장치.
제13항에 있어서,
상기 복수의 잔차 블록들 각각은
각 스케일에서 수행되는 영상 처리에서 컨볼루션 연산을 수행한 결과에 정규화 연산을 수행하는,
영상 처리 장치.
제13항에 있어서,
각 스케일에서 수행되는 영상 처리의 결과는 해당 영상 처리가 적용되기 이전 영상과 함께 상기 다음 잔차 블록으로 전달되어 상기 다음 잔차 블록에서 해당 스케일로 수행되는 영상 처리에 이용되는,
영상 처리 장치.
제13항에 있어서,
상기 복수의 잔차 블록들 각각에 적용되는 상이한 스케일의 개수는
상기 타겟 영상에 발생 가능한 열화의 크기, 상기 영상 처리에 이용되는 컨볼루션 커널의 크기, 상기 상이한 스케일의 정도에 기초하여 결정되는,
영상 처리 장치.
제13항에 있어서,
상기 타겟 영상은
멀티 렌즈 어레이에 기반하여 촬영된 복수의 영상들 또는 단일 렌즈에 기반하여 여러 번 촬영된 복수의 영상들이 정렬된 영상인,
영상 처리 장치.