WO2023055013A1

WO2023055013A1 - 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치

Info

Publication number: WO2023055013A1
Application number: PCT/KR2022/014405
Authority: WO
Inventors: 김계현; 김범석; 이유진; 장태영; 박영오; 박용섭; 이상미; 최광표
Original assignee: 삼성전자 주식회사
Priority date: 2021-09-30
Filing date: 2022-09-27
Publication date: 2023-04-06
Also published as: KR20230046802A

Abstract

저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고, 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고, 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고, 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는, 뉴럴 네트워크에 기초한 영상 처리 방법 및 영상 처리 장치를 제공한다.

Description

[규칙 제37.2조에 의해 ISA가 부여한 발명의 명칭]　뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치

본 개시는 뉴럴 네트워크에 기초하여 원본 영상을 고해상도 영상으로 복원하는 영상 처리 방법 및 영상 처리 장치에 관한 것으로, 보다 상세하게는, 근거리 복원에 적합한 DNN(Deep Neural Network) 및 원거리 복원에 적합한 DNN을 이용하여 근거리 물체는 선명하고 원거리 물체는 부드럽게 복원된 고해상도 영상을 복원하는 영상 처리 방법 및 영상 처리 장치에 관한 것이다.

인공지능(artificial intelligence) 관련 기술의 발달과 고해상도/고화질의 영상을 재생, 저장할 수 있는 하드웨어의 개발 및 보급에 따라, 딥 뉴럴 네트워크(DNN)을 이용하여 원본 영상을 고화질/고해상도 영상으로 효과적으로 복원하는 방법 및 장치에 대한 필요성이 증대하고 있다.

본 개시의 일 실시예에 따른 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법은 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하는 단계; 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하는 단계; 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하는 단계; 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하는 단계; 제1 영상과 제2 영상을 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는 단계를 포함할 수 있다.

또한, 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 장치는 메모리; 및 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.

도 1은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시예에 따른 입력 영상의 깊이 맵에 따라 합성 가중치 맵을 획득하는 방법을 설명하기 위한 도면이다.

도 3은 본 개시의 일 실시예에 따른 영상의 깊이 맵에 기초한 분포 모델의 예시를 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시예에 따른 영상의 깊이 맵에 기초한 분포 모델의 예시를 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시예에 따른 원거리 물체의 복원에 적합한 DNN에 따른 영상 복원 방법을 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시예에 따른 근거리 물체의 복원에 적합한 DNN에 따른 영상 복원 방법을 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시예에 따른 깊이 맵의 분포 모델에 기초하여 합성 가중치 맵을 획득하는 방법을 설명하기 위한 도면이다.

도 8은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.

도 9a는 본 개시의 일 실시예에 따른 거리 센서를 통해 거리 정보를 획득하는 방법을 설명하기 위한 도면이다.

도 9b는 본 개시의 일 실시예에 따른 거리 센서를 통해 거리 정보를 획득하는 방법의 한계를 설명하기 위한 도면이다.

도 10은 본 개시의 일 실시예에 따른 DNN을 이용한 영상의 깊이 맵 획득 방법의 예시를 설명하기 위한 도면이다.

도 11은 본 개시의 일 실시예에 따른 깊이 맵을 획득하기 위한 DNN의 훈련 데이터를 획득하는 방법의 예시를 설명하기 위한 도면이다.

도 12는 본 개시의 일 실시예에 따른 깊이 맵을 획득하기 위한 DNN의 훈련 방법의 예시를 설명하기 위한 도면이다.

도 13은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.

도 14는 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.

도 15는 본 개시의 일 실시예에 따른 멀티-태스크(multi-task) DNN을 이용하는 방법을 설명하기 위한 도면이다.

도 16은 근거리 물체 복원에 적합한 하나의 DNN에 기초한 영상 복원 방법과 복수의 DNN에 기초한 영상 복원 방법의 차이를 설명하기 위한 도면이다.

도 17은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 순서도이다.

도 18은 본 개시의 일 실시예에 따른 영상 처리 장치의 블록도를 도시한다.

본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

또한, 본 명세서에서, '영상(image)' 또는 '픽처'는 정지영상, 복수의 연속된 정지영상(또는 프레임)으로 구성된 동영상, 또는 비디오를 나타낼 수 있다.

또한, 본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.

또한, 본 명세서에서 '저해상도 입력 영상'은 영상 화질 향상의 대상이 되는 영상을 의미한다. '깊이 맵'은 저해상도 입력 영상 내에 존재하는 픽셀들의 거리에 대한 이미지를 의미한다. '특징 맵'은 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 이미지를 의미한다. '합성 가중치 맵'은 2개의 DNN 모델로부터 복원된 2개의 영상을 합성하기 위한 가중치에 대한 이미지를 의미한다. '합성'은 합성 가중치 맵에 기초하여 2개의 DNN 모델로부터 복원된 2개의 영상을 가중 평균하여 영상을 복원하는 것을 의미한다.

또한, '제 1 영상'은 저해상도 입력 영상을 입력으로 하여 원거리 물체의 복원에 적합한 DNN을 통해 획득한 영상을 의미한다. '제 2 영상'은 저해상도 입력 영상을 입력으로 하여 근거리 물체의 복원에 적합한 DNN을 통해 획득한 영상을 의미한다. '고해상도 영상'은 제 1 영상과 제 2 영상을 합성 가중치 맵에 적용하여 가중 평균함으로써 저해상도 입력 영상으로 고화질/고해상도로 복원한 영상을 의미한다. '원거리 물체'는 저해상도 입력 영상 내의 객체들 중 상대적으로 먼 거리에 있는 물체를 의미한다. '근거리 물체'는 저해상도 입력 영상 내의 객체들 중 상대적으로 가까운 거리에 있는 물체를 의미한다. '물체'는 저해상도 입력 영상 내의 모든 객체들(예를 들어, 입력 영상 내의 배경, 멀리 있는 건물, 가까이 있는 구조물 등등)을 의미한다.

이하에서는, 복수의 DNN에 기초하여 획득된 복수의 영상을 합성 가중치 맵에 따라 합성하여 고화질/고해상도의 영상으로 복원하는 방법이 후술된다.

도 1 내지 4, 7 내지 10, 13 내지 15, 17의 방법들은 후술되는 도 18의 영상 처리 장치(1800)의 프로세서(1820)에 의해 동작될 수 있다.

도 1을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)으로부터 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵(115)을 획득하고, 특징 맵(115)을 입력으로 하여 제1 DNN(120)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제1 DNN(120)은 컨볼루션 레이어를 포함하는 일반적인 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)일 수 있다. 제1 DNN(120)은 근거리 물체와 원거리 물체를 구분하는 특징 맵을 입력으로 하여 입력 영상의 합성 가중치 맵을 획득하도록 훈련된 것이다.

또한, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 원거리 물체의 복원에 적합한 제2 DNN(130)을 통해 제1 영상(135)을 획득한다. 제2 DNN(130)은 노이즈가 적지만 출력 영상이 흐릿하고 출력 영상에서 작은 텍스쳐가 사라지는 특징을 가지는 DNN이다. 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 근거리 물체의 복원에 적합한 제3 DNN(140)을 통해 제2 영상(145)을 획득한다. 제3 DNN(140)은 텍스쳐 복원력이 우수하여 출력 영상이 선명하지만 아티팩트가 발생하는 특징을 가지는 DNN이다. 제2 DNN은 L1 손실 모델 또는 L2 손실 모델에 기초한 일반적인 CNN일 수 있고, 제3 DNN은 GAN 손실 모델에 기초한 CNN일 수 있다.

영상 처리 장치(1800)의 프로세서(1820)는 합성 가중치 맵(125)에 기초하여 제1 영상(135) 및 제2 영상(145)를 가중 평균하여 합성함으로써 합성 영상(150)을 획득한다. 저해상도 입력 영상(110)에 비해 합성 영상(150)에 포함된 근거리 물체는 선명하고, 원거리 물체는 부드럽게 복원된다. 따라서, 합성 영상(150)은 저해상도 입력 영상(110)에 비해 고해상도/고화질로 복원된 영상이다.

도 2를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)의 깊이 맵(210)을 획득하고, 깊이 맵(210)에 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 모든 픽셀에 대한 거리 값 분포에 기반하여 특징 맵(115)을 획득하고, 특징 맵(115)을 제1 DNN(120)에 입력하여 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 생성 또는 획득한다.

영상 처리 장치(1800)의 프로세서(1820)는 2개의 DNN 모델로부터 획득된 2개의 영상을 합성하기 위한 합성 가중치 맵(125)을 획득한다. 합성 가중치 맵(125)은 거리 정보에 기반하여 예측된다. 구체적으로, 영상의 모든 픽셀에 대한 거리 값 분포에 기초하여, 영상의 배경 및 물체의 거리 분포를 가우시안 분포로 근사하여 배경 및 물체의 픽셀들에 대한 거리 값을 클러스터링한다.

가우시안 분포는 분포 모델의 대표적인 예시로써, 분포 모델은 가우시안 분포로 한정되지 않는다.

도 3을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(310)의 깊이 맵(320)에 기초하여 분포 모델(330)을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(310) 내의 2개의 물체의 구분을 위해 2개의 물체의 거리 값 분포를 2개의 가우시안 분포 모델에 근사하도록 한다. 입력 영상(310)은 분포 모델(330)의 2개의 가우시안 분포에 따라 가까운 거리의 물체와 먼 거리의 배경으로 구분될 수 있다.

입력 영상(310)의 깊이 맵(320)에 대한 분포 모델(330)의 가우시안 분포에 따르면, 평균 값이 비슷하고, 분산 및 표준 편차가 상이한 2개의 가우시안 분포가 존재한다. 따라서, 2개의 가우시안 분포에 대응하는 2개의 객체들로 입력 영상(310)의 물체들이 구분된다.

도 4를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410)의 깊이 맵(420)에 기초하여 분포 모델(430)을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410) 내의 2개의 물체의 구분을 위해 2개의 물체의 거리 값 분포를 2개의 가우시안 분포 모델에 근사하도록 한다. 입력 영상(410)은 분포 모델(430)의 2개의 가우시안 분포에 따라 가까운 거리의 하나의 건물과 상대적으로 먼 거리의 다른 건물로 구분될 수 있다.

입력 영상(410)의 깊이 맵(420)에 대한 분포 모델(430)의 가우시안 분포에 따르면, 평균 값이 작고 분산 및 표준편차가 큰 가우시안 분포와, 평균 값이 크고 분산 및 표준 편차가 작은 가우시안 분포가 존재한다. 따라서, 2개의 가우시안 분포에 대응하는 2개의 객체들로 입력 영상(410)의 물체들이 구분된다.

영상의 거리 정보는 다양한 방법으로 획득될 수 있다. 예를 들어, 거리 정보는 영상을 찰영하는 카메라의 거리센서, 뎁스 카메라, 라이다 등을 통해 획득되는 정보일 수 있다. 또한, 거리 정보는 단일 또는 복수의 영상으로부터의 3D 복원 과정에서 획득되는 정보일 수 있다. 또한, 거리 정보는 게임과 같은 그래픽 렌더링 과정에서 Z-Buffer에 포함된 정보일 수 있다.

따라서, 다양한 종류의 깊이 맵에 대한 처리 방법이 필요하고, 절대적 거리 및 상대적 거리(상대적인 근거리 및 원거리 정보) 값은 이종의 데이터이므로 이들 모두에 적용될 수 있어야 한다. 이종의 거리 데이터는 거리 값의 분포가 다르기 때문에 영상의 각 픽셀들의 거리 값 분포에 기반하여 합성 가중치 맵이 계산된다.

도 5를 참고하면, 입력 영상(510)은 원거리 물체의 복원에 적합한 제2 DNN에 입력되어, 제1 영상(520)으로 복원된다. 제2 DNN은 노이즈가 적지만 출력 영상이 흐릿해지거나 출력 영상에서 작은 텍스쳐가 사라지는 특징을 가진다. 이에 따라, 제1 영상(520)은 흐릿하지만 입력 영상(510)의 작은 텍스쳐가 사라진다. 제2 DNN은 예를 들어, L1 손실 모델 또는 L2 손실 모델에 기반한 CNN일 수 있다.

도 6을 참고하면, 입력 영상(610)은 근거리 물체의 복원에 적합한 제3 DNN에 입력되어, 제2 영상(620)으로 복원된다. 제3 DNN은 텍스쳐 복원력이 우수하여 출력 영상이 선명하지만, 아티팩트가 발생하는 특징을 가진다. 이에 따라 제2 영상(620)는 입력 영상(610)에 비해 선명하지만 아티팩트가 발생한다. 제3 DNN은 예를 들어, GAN 손실 모델에 기반한 DNN일 수 있다.

도 5 및 도 6을 참고하면, 고해상도 영상을 획득하기 위해 하나의 손실 모델에 기초한 DNN을 이용하는 것은 각각의 장점 및 단점이 있으므로, 복수의 DNN을 이용하여 트레이드-오프를 최소화하여 합성하여 영상의 화질을 개선할 필요가 있다.

또한, 동일한 물체라도, 거리에 따라 적용되는 화질 향상 방법이 달라질 필요가 있다. 단일의 화질 복원 DNN을 적용하게 되면, 복원된 영상이 인위적이고, 복원된 영상의 원근감이 사라진다. 영상의 각 픽셀들은 영상을 촬영하는 카메라로부터의 거리에 따라 초점 및 빛의 환경이 다르기 때문에, 모든 화소에 일률적으로, 단일의 화질 향상 알고리즘을 적용하면 복원된 영상이 부자연스럽게 보이는 한계가 있다. 특히, 야외에서 촬영된 영상은 자연광과 같은 환경적 요인으로 인해 동일한 물체라도 거리에 따라 선명도와 색감이 달라진다. 따라서, 거리 정보를 이용하여, 거리에 따라 다른 DNN을 적용하여 화질이 향상된 영상을 획득하는 방법이 필요하다.

도 7를 참고하면, 입력 영상(410)의 로우 뎁스(raw depth)(420), 즉 가공되지 않은 깊이 정보는 값의 단위(예를 들어, m, km, 또는 임의의 스케일링 단위) 및 분포가 각각 다르기 때문에, 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410)의 로우 뎁스(420)의 깊이 값들의 분포를 먼저 측정한다. 입력 영상(410)에 2개의 물체가 있다고 가정하면, 2개의 물체에 대응하는 2개의 거리 분포 모델, 예를 들어, 가우시안 분포 모델(430)의 평균, 분산, 크기 값을 알 수 있다. 이를 통해 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410)의 물체들을 구분하는 특징 맵을 획득한다. 이 특징 맵, 즉, 가우시안 분포 모델의 평균, 분산, 및 표준편차를 DNN(740)의 입력 특징으로 하여 합성 가중치가 계산될 수 있다. DNN(740)을 통해 획득된 합성 가중치를 이용함으로써 입력 영상(410)의 특성이 더 잘 드러날 수 있다. 이 때, DNN(740)은 일반적인 CNN일 수 있다. DNN(740)은 복수의 훈련용 특징 맵을 통해 합성 가중치 맵을 생성하도록 훈련된 것이다. 이러한 과정을 통해, 임의의 값의 범위를 가지는 로우 뎁스 값이 0 내지 1의 합성 가중치로 변환된다. DNN(740)은 입력 영상(410)의 깊이 값을 비선형적으로 변환하여, 영상의 원근감을 명확하게 하고, 영상 내의 물체가 더 잘 구분되게 한다.

도 8를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 제4 DNN(810)을 통해 깊이 맵(210)을 획득하고, 깊이 맵(210)에 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 특징 맵을 입력으로 하여 제1 DNN(120)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제4 DNN(810)은 U-Net일 수 있고, 복수의 훈련용 입력 영상을 이용하여 입력 영상의 깊이 맵을 획득하도록 훈련된 것이다. 제4 DNN(810)의 예는 도 10에서 후술되고, 제4 DNN(810)의 훈련 방법의 예시는 도 11 내지 12에서 후술된다.

또한, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 원거리 물체의 복원에 적합한 제2 DNN(130)을 통해 제1 영상(135)을 획득하고, 저해상도 입력 영상(110)을 입력으로 하여 근거리 물체의 복원에 적합한 제3 DNN(140)을 통해 제2 영상(145)을 획득한다.

합성 가중치 맵(125)에 기초하여 제1 영상(135) 및 제2 영상(145)를 가중 평균하여 합성함으로써 합성 영상(150)을 획득한다. 저해상도 입력 영상(110)에 비해 합성 영상(150)에 포함된 근거리 물체는 선명하고, 원거리 물체는 부드럽게 복원된다. 따라서, 합성 영상(150)은 저해상도 입력 영상(110)에 비해 고해상도/고화질로 복원된 영상이다.

도 9a를 참고하면, 영상을 촬영하는 장치들(900)은 영상을 촬영하는 장치들로부터 20m 이내의 거리에서 영상(910)을 촬영한다. 영상을 촬영하는 장치들(900)은 영상을 촬영하는 장치들(900)에 포함된 거리 센서를 통해 영상 촬영 시에 영상(910) 내의 물체들에 대한 거리 정보를 획득한다. 따라서, 영상 처리 장치(1800)의 프로세서(1820)는 촬영된 영상에 포함된 거리 정보에 기반하여 깊이 맵(920)을 획득할 수 있다.

도 9b를 참고하면, 영상을 촬영하는 장치들(900)이 300m 이내의 거리의 야외 영상(930)을 촬영할 때, 하늘과 같은 매우 먼 거리는 영상을 촬영하는 장치들(900)에 포함된 거리 센서로 인식이 불가능하다. 즉, 거리 센서의 인식 범위(예를 들어, 300m 내의 범위)로 인해 촬영 대상의 수 km 거리에 위치하는 물체의 거리를 인식할 수 없다. 따라서, 영상 처리 장치(1800)의 프로세서(1820)는 영상(930)의 깊이 맵(940)에서 영상(930)의 탑 뒤쪽의 하늘에 해당하는 먼 거리의 정보를 획득할 수 없다.

도 10을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 영상(1010)의 깊이 맵(1020)을 획득하기 위해, 훈련된 DNN(1000)에 입력 영상(1010)을 입력하여 깊이 맵(1020)을 획득한다.

깊이 맵(1020)을 획득하기 위한 DNN(1000)의 훈련을 위해, 다중-뷰 드론 비행 이미지들을 수집하여 이미지의 상대적 깊이 정보의 어노테이션(annotation)이 생성된다. DNN(1000)은 상대적 깊이 정보의 어노테이션을 이용하여 U-Net에 기초한 구조로 학습된다. U-Net은 다수의 풀링 계층과 다수의 업샘플링 계층을 포함하는 U자 형태의 뉴럴 네트워크이다.

이에 따라, 영상 처리 장치(1800)의 프로세서(1820)는 단일-뷰의 영상(1010)을 상대적 깊이 정보의 어노테이션을 이용하여 학습된 DNN(1000)에 입력하여 깊이 맵(1020)을 획득할 수 있다.

도 11 내지 12는 깊이 맵을 획득하는 DNN(1000)의 훈련 방법의 예시가 후술된다.

도 11을 참고하면, 영상(1110)에는 단거리, 중거리, 장거리(1km이상)의 물체들(예를 들어, 산, 강, 바다, 공원, 도시 등)이 포함될 수 있다.

훈련 데이터를 획득하기 위해 드론(1100)과 같은 촬영 장치를 통해 다중-뷰 이미지(1110)가 촬영된다. Structure From Motion(1115)를 통해 다중-뷰 이미지를 촬영한 드론(1100)의 움직임으로부터 촬영 대상의 구조를 획득(1115)하여 카메라의 위치 및 3D 픽셀 포인트에 기초한 희소 복원(Spares Reconstruction) 이미지(1120)가 획득된다. Structure From Motion(1115)은 복수의 2차원 이미지들을 통해 3차원 구조를 예측하는 방법이다. 희소 복원 이미지(1120)에 다중-뷰 스트레오(multi-view stereo, 1125) 정합을 적용하여, 다중 뷰 이미지들로부터 영상 일관성(photo consistency)을 이용하여 깊이 값이 예측된다. 다중-뷰 스트레오(1125) 정합은 기준 영상과 타겟 영상을 비교하여 시차를 계산하고 시차에 따라 깊이 맵을 생성하는 방법이다. 이 때, 이미지의 하나의 패치를 다른 이미지의 패치와 매칭하여 깊이 값이 예측된다. 이러한 과정을 통해, 깊이 맵을 획득하는 DNN의 훈련을 위한 훈련 데이터로서 이용되는 깊이 맵의 실측 데이터가 획득된다.

거리 센서와 다중-뷰 스트레오 정합을 이용하여도 실측이 어려운 텍스쳐가 없는(textureless) 부분(예를 들어, 하늘, 물 등)의 깊이를 예측하기 위해, 텍스쳐가 없는 부분에 대한 세그멘테이션(segmentation) 맵이 추가로 이용된다.

깊이 맵 및 세그멘테이션 맵을 포함하는 영상(1200)은 마스킹된 깊이 맵(masked depth map; 1210), 물 영역(1220), 하늘 영역(1230)으로 분리될 수 있다.

각 영역들에 대한 손실 정보를 획득하여 깊이 맵을 획득하기 위한 DNN의 손실 함수가 결정될 수 있다.

예를 들어, 깊이 맵을 획득하기 위한 DNN의 손실 함수는 scale-invariant MSE term(Ldata)의 제1 손실 정보, multi-scale gradient term(Lgrad)의 제2 손실 정보, multi-scale and edge-aware smoothness term(Lsmooth)의 제3 손실 정보, multi-scale and water gradient term (Lwater)의 제4 손실 정보, sky maximization term(Lsky)의 제5 손실 정보를 포함할 수 있다.

구체적으로, 깊이 맵으로부터 물 영역(1220) 및 하늘 영역(1230)을 제외하도록 마스킹된 깊이 맵(masked depth map; 1210)에 기초하여, 동일한 픽셀 위치에서 훈련 데이터의 실측된 깊이 값과 DNN을 통해 예측된 깊이 값의 차이의 평균 제곱 오차(Mean Square Error)에 따른 제1 손실 정보와, 훈련 데이터의 실측된 깊이 값들 사이의 급격한 변화가 발생하는 부분에 대해, DNN을 통해 예측된 갚이 값들 사이의 급격한 변화가 나타나지 않는 경우, 실측된 깊이 값들 사이의 급격한 변화에 정합되도록, 급격한 깊이 값의 불연속성을 회복하고, 불연속성이 나타나는 부분의 그래디언트(gradient) 변화를 스무딩하는 제2 손실 정보가 획득된다.

세그멘테이션 맵에서 분리된 물 영역(1220)에 기초하여, 물 영역임을 나타내는 세그멘테이션 정보를 이용하여 깊이를 복원할 수 없는 텍스쳐가 없는 물 영역의 깊이 값에 대한 스무딩 보간(smooth interpolation)을 통해 제3 손실 정보가 획득되고, 실측할 수 없는 물 영역의 깊이 값을 예측하기 위해, 물 영역은 평평하여 x축 방향의 그래디언트는 0이고 y 방향의 그래디언트는 양수인 사실에 기초하여 제4 손실 정보가 획득된다.

세그멘테이션 맵에서 분리된 하늘 영역(1230)에 기초하여, 다른 물체의 예측 깊이와 비교하여 하늘 영역의 깊이를 최대화하고 하늘 영역의 깊이 값을 스무딩하기 위해 하늘 영역의 그래디언트를 조정하여 실측할 수 없는 하늘 영역의 깊이 값을 예측하기 위한 제5 손실 정보가 획득된다.

이러한 5개의 손실 정보들을 포함하는 손실 함수(Ldepth= a*Ldata + b*Lgrad + c*Lsmooth + d*Lwater + e*Lsky)를 최소화하도록, 영상의 깊이 맵을 획득하기 위한 DNN이 훈련될 수 있다. 여기서, a, b, c, d, e는 미리 결정된 소정의 가중치에 해당할 수 있다.

영상의 깊이 맵을 획득하기 위한 DNN은 훈련 데이터를 이용하여 손실 함수의 값이 최소화되도록 훈련된다. 이러한 DNN을 통해 입력 영상의 깊이 맵이 획득될 수 있다.

도 13을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 제5 DNN(1310)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제5 DNN(1310)은 U-Net일 수 있고, 입력 영상(110)의 깊이 맵에 대하여 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 특징 맵을 입력으로 하여 제1 DNN(120)을 통해 합성 가중치 맵(125)을 획득하는 과정을 한번에 수행하기 위해 훈련된 것이다.

도 14를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 제4 DNN(810)을 통해 깊이 맵(210)을 획득하고, 깊이 맵(210)을 입력으로 하여 제6 DNN(1410)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제6 DNN(1410)은 일반적인 CNN일 수 있고, 도 8에서 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 특징 맵을 입력으로 하여 제1 DNN(120)을 통해 합성 가중치 맵(125)을 획득하는 과정을 한번에 수행하기 위해 훈련된 것이다.

본 명세서에서, 태스크(task)란, 머신 러닝을 통해 해결하고자 하는 과제 또는 수행하고자 하는 작업을 지칭한다. 예를 들어, 깊이 맵 추출, 원거리 물체에 적합한 영상 추출, 근거리 물체에 적합한 영상 추출 등이 개별 태스크에 대응될 수 있다.

또한, 본 명세서에서, 멀티태스크(multi-task) DNN이란, 하나의 모델을 이용하여 복수의 태스크에 대한 학습을 수행한 DNN을 의미한다.

도 15를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(1510)을 복수의 테스크를 수행하는 하나의 제7 DNN(1500)에 입력하여, 깊이 맵(1525), 제1 영상(1535), 제2 영상(1545)을 획득할 수 있다. 구체적으로, 제7 DNN(1500)는 공유 레이어(1515), 제1 태스크 레이어(1520), 제2 태스크 레이어(1530), 제3 태스크 레이어(1540)를 포함하고, 공유 레이어(1515)는 입력 영상(1510)의 공유되는 특징을 추출하는 레이어이고, 제1 태스크 레이어(1520)는 공유 레이어(1515)로부터 추출된 특징 맵을 입력으로 하여, 입력 영상(1520)의 깊이 맵(1525)을 획득하기 위한 레이어이고, 제2 태스크 레이어(1530)는 공유 레이어(1515)로부터 추출된 특징 맵을 입력으로 하여, 원거리 물체 복원에 적합한 레이어로 제1 영상(1535)을 획득하기 위한 레이어이고, 제3 태스크 레이어(1540)는 공유 레이어(1515)로부터 추출된 특징 맵을 입력으로 하여, 근거리 물체 복원에 적합한 레이어로 제2 영상(1545)을 획득하기 위한 레이어이다. 공유 레이어(1515), 제1 태스크 레이어(1520), 제2 태스크 레이어(1530), 제3 태스크 레이어(1540)는 각각 복수의 레이어를 포함할 수 있다.

멀티-태스크 DNN은 공유 레이어(1515)를 포함하는 하나의 DNN 모델을 통해 복수의 태스크를 학습시킴으로써 3개의 깊이 맵(1525), 제1 영상(1535), 제2 영상(1545)를 효율적으로 추정할 수 있다.

영상 처리 장치(1800)의 프로세서(1820)는 멀티-태스트 DNN인 제7 DNN(1500)을 통해 깊이 맵(1525), 제1 영상(1535), 제2 영상(1545)을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 깊이 맵(1525)에 분포 모델을 적용하여 특징 맵을 획득하고, 특징 맵을 제1 DNN(120)에 입력하여 합성 가중치 맵을 획득할 수 있다. 영상 처리 장치(1800)의 프로세서(1820)는 합성 가중치 맵에 기초하여 제1 영상(1535) 및 제2 영상(1545)을 합성하여 고화질/고해상도로 복원된 영상을 획득할 수 있다.

도 16을 참고하면, 원본 영상(1610)에 대하여 근거리 물체 복원에 적합한 GAN 손실 모델에 기초한 DNN을 이용하여 영상을 복원하면, 제1 복원 영상(1620)의 원거리 부분(1615)와 같이, 원거리 물체가 과도하게 선명하고 아티팩트가 발생하는 문제가 있다. 이에 따라, 먼 거리에 있음에도 선명하여 원근감이 없고 부자연스럽게 느껴진다. 그러나, 일 실시예에 따른 복수의 DNN, 즉, 원거리 물체의 복원에 적합한 DNN와 근거리 물체의 복원에 적합한 DNN을 이용하여 합성하면, 제2 복원 영상(1630)의 원거리 부분(1625)과 같이 원거리 부분은 부드럽고 흐릿함이 보존되어 자연스러워 복원된 영상의 화질이 원본 영상에 비해 향상될 수 있다.

도 17을 참고하면, 단계 S1710에서, 영상 처리 장치(1800)의 프로세서(1810)는 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득할 수 있다.

일 실시예에 따라, 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득될 수 있다.

일 실시예에 따라, 분포 모델은 가우시안 분포 모델일 수 있다.

일 실시예에 따라, 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득될 수 있다.

일 실시예에 따라, 깊이 맵은 3D 복원 방법을 통해 획득될 수 있다.

일 실시예에 따라, 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득될 수 있다.

일 실시예에 따라, 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용될 수 있다.

단계 S1730에서, 영상 처리 장치(1800)의 프로세서(1810)는 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득할 수 있다.

일 실시예에 따라, 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분할 수 있다.

일 실시예에 따라, 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득될 수 있다.

일 실시예에 따라, 제4 DNN은 U자형 뉴럴 네트워크일 수 있다.

단계 S1750에서, 영상 처리 장치(1800)의 프로세서(1810)는 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득할 수 있다.

단계 S1770에서, 영상 처리 장치(1800)의 프로세서(1810)는 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득할 수 있다.

일 실시예에 따라, 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고, 상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN일 수 있다.

단계 S1790에서, 영상 처리 장치(1800)의 프로세서(1810)는 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.

일 실시예에 따른 영상 처리 장치(1800)는 메모리(1810) 및 메모리(1810)에 접속된 적어도 하나의 프로세서(1820)를 포함할 수 있다. 일 실시예에 따른 영상 처리 장치(1800)의 동작들은 개별적인 프로세서로서 작동하거나, 중앙 프로세서의 제어에 의해 작동될 수 있다. 또한, 영상 처리 장치(1800)의 메모리(1810)는, 외부로부터 수신한 데이터와, 프로세서에 의해 생성된 데이터, 예를 들어, 특징 맵, 제1 영상, 제2 영상, 합성 가중치 맵에 대한 정보 등을 저장할 수 있다.

영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고, 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고, 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고, 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.

본 개시의 일 실시예에 따른 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법은 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하는 단계; 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하는 단계; 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하는 단계; 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하는 단계; 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따라, 상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고, 상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN일 수 있다.

본 개시의 일 실시예에 따라, 상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득될 수 있다.

본 개시의 일 실시예에 따라, 상기 분포 모델은 가우시안 분포 모델일 수 있다.

본 개시의 일 실시예에 따라, 상기 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득될 수 있다.

본 개시의 일 실시예에 따라, 상기 깊이 맵은 3D 복원 방법을 통해 획득될 수 있다.

본 개시의 일 실시예에 따라, 상기 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득될 수 있다.

본 개시의 일 실시예에 따라, 상기 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용될 수 있다.

본 개시의 일 실시예에 따라, 상기 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분할 수 있다.

본 개시의 일 실시예에 따라, 상기 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득될 수 있다.

본 개시의 일 실시예에 따라, 상기 제4 DNN은 U자형 뉴럴 네트워크일 수 있다.

본 개시의 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 방법은 거리에 따라 서로 다른 DNN, 즉 원거리 물체의 복원에 적합한 DNN와 근거리 물체의 복원에 적합한 DNN을 이용하여 합성함으로써 복원된 영상의 화질이 원본 영상에 비해 향상되는 효과를 가질 수 있다.

본 개시에 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 장치는 메모리; 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는: 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고, 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고, 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고, 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.

본 개시의 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 장치는 거리에 따라 서로 다른 DNN, 즉 원거리 물체의 복원에 적합한 DNN와 근거리 물체의 복원에 적합한 DNN을 이용하여 합성함으로써 복원된 영상의 화질이 원본 영상에 비해 향상되는 효과를 가질 수 있다.

한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램 또는 인스트럭션으로 작성가능하고, 작성된 프로그램 또는 인스트럭션은 매체에 저장될 수 있다.

매체는 컴퓨터로 실행 가능한 프로그램 또는 인스트럭션을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

한편, 상술한 DNN과 관련된 모델은, 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(예를 들어, 명령어(instruction)를 포함하는 프로그램 모듈)로 구현되는 경우, DNN 모델은 컴퓨터로 읽을 수 있는 판독 가능한 기록매체에 저장될 수 있다.

또한, DNN 모델은 하드웨어 칩 형태로 집적되어 전술한 영상 처리 장치(1800)의 일부가 될 수도 있다. 예를 들어, DNN 모델은 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 제작될 수도 있다.

또한, DNN 모델은 다운로드 가능한 소프트웨어 형태로 제공될 수도 있다. 컴퓨터 프로그램 제품은 제조사 또는 전자 마켓을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션)을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.

이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims

뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법에 있어서,

저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득(S1710)하는 단계;

상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득(S1730)하는 단계;

상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득(S1750)하는 단계;

상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득(S1770)하는 단계;

상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득(S1790)하는 단계를 포함하는, 영상 처리 방법.
제 1 항에 있어서,

상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고,

상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN인. 영상 처리 방법.
제 1 항 또는 제 2 항에 있어서,

상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득되는, 영상 처리 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 분포 모델은 가우시안 분포 모델인, 영상 처리 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득되는, 영상 처리 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

상기 깊이 맵은 3D 복원 방법을 통해 획득되는, 영상 처리 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,

상기 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득되는, 영상 처리 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용되는, 영상 처리 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,

상기 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분하는, 영상 처리 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,

상기 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득되는, 영상 처리 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,

상기 제4 DNN은 U자형 뉴럴 네트워크인, 영상 처리 방법.
뉴럴 네트워크에 기초한 영상 처리 장치(1800)에 있어서,

메모리(1810); 및

적어도 하나의 프로세서(1820)를 포함하고,

상기 적어도 하나의 프로세서는:

저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고,

상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고,

상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고,

상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고,

상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는, 영상 처리 장치.
제 12 항에 있어서,

상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고,

상기 제3 DNN은 적대적 대립 네트워크(GAN) 모델을 이용하는 DNN인, 영상 처리 장치.
제 12 항 또는 제 13 항에 있어서,

상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득되는, 영상 처리 장치.
제 12 항 내지 제 14 항 중 어느 한 항에 있어서,

상기 분포 모델은 가우시안 분포 모델인, 영상 처리 장치.