KR20220085635A

KR20220085635A - 영상 처리 방법 및 장치

Info

Publication number: KR20220085635A
Application number: KR1020200175858A
Authority: KR
Inventors: 김희원; 이선민; 김지혜; 한승주
Original assignee: 삼성전자주식회사
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-06-22
Also published as: US20220188987A1; EP4016447A1; CN114638876A

Abstract

본 발명은 3 차원의 깊이 영상을 처리하는 방법 및 장치에 관한 것이다. 일실시예에 따른 깊이 영상 처리 방법은 제1 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제1 표면 법선 영상을 생성하는 단계 및 제1 깊이 영상 및 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 제1 깊이 영상이 변화된 제2 깊이 영상을 획득하는 단계를 포함하며, 제1 뉴럴 네트워크는 제1 깊이 영상의 특징 및 제1 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 제1 깊이 영상보다 품질이 향상된 제2 깊이 영상을 생성한다.

Description

영상 처리 방법 및 장치{IMAGE PROCESSING METHOD AND APPARATUS THEREOF}

3차원의 깊이 영상을 처리하는 방법 및 장치에 관한 것이다.

깊이 영상은 카메라와 피사체 사이의 거리 정보를 포함하는 3차원 영상으로, 왕복 시간 추정법(Time-of-Flight, 이하, TOF) 등 피사체와 카메라 사이의 거리를 측정하는 기술이 적용된 깊이 카메라에서 생성될 수 있다.

TOF 방법은 카메라로부터 강한 빛을 전방에 쏜 후, 반사되어 돌아오는 빛을 감지하여 거리를 측정하는 방법이다. TOF 방식의 카메라는 특정 파장의 빛(예를 들면, 근적외선(850nm))을 LED 또는 LD를 이용하여 피사체로 투사하고, 피사체로부터 반사된 동일한 파장의 빛을 포토 다이오드 또는 카메라에서 측정 또는 촬영하여, 매 프레임마다 노출 시간(Integration Time)동안 조사광 신호와 피사체에 반사되어 돌아오는 반사광 신호의 위상차를 계산함으로써 깊이 영상을 생성할 수 있다.

이때, 노출 시간 보다 짧은 시간 동안 카메라 또는 피사체에 움직임이 발생하는 경우, 반사광 신호의 위상에 변화가 발생할 수 있고, 촬상 대상의 재료, 색상, 거리, 조명 등을 포함한 이미징 조건 및 외부 환경 등에 의해 깊이 측정의 오류가 발생할 수 있다. 이에, TOF 카메라로 획득한 깊이 영상에서 잡음을 제거하기 위한 WLS 필터 등 깊이 영상을 보정하기 위한 기술이 개발되고 있다.

실시예들은 노이즈가 강한 깊이 영상의 품질을 개선하기 위한 영상 처리 기술을 개시한다.

실시예들은 ToF 카메라 센서에서 생성된 깊이 영상의 특징인 다중 경로 왜곡(multipath distortion) 문제를 개선하기 위한 영상 처리 기술을 개시한다.

실시예들은 복합적인 깊이 오차의 발생 원인들을 효과적으로 해결한 학습 모델 및 학습 모델의 훈련 방법을 개시한다.

다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.

일 측에 따른 영상 처리 방법은 제1 깊이 영상의 픽셀들에 대응하는 표면 법선(surface normal) 벡터들을 포함하는 제1 표면 법선 영상을 생성하는 단계; 및 기 제1 깊이 영상 및 상기 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 상기 제1 깊이 영상이 변화된 제2 깊이 영상을 획득하는 단계를 포함하고, 상기 제1 뉴럴 네트워크는 상기 제1 깊이 영상의 특징 및 상기 제1 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제1 깊이 영상보다 품질이 향상된 상기 제2 깊이 영상을 생성한다.

상기 제1 뉴럴 네트워크는 상기 제1 깊이 영상에 포함된 노이즈를 제거하고, 상기 제1 깊이 영상의 선명도를 향상시킬 수 있다.

상기 제1 깊이 영상은 TOF(time-of-flight) 영상을 포함할 수 있다.

상기 영상 처리 방법은 제2 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제2 표면 법선 영상을 생성하는 단계; 및 상기 제2 깊이 영상 및 상기 제2 표면 법선 영상을 제2 뉴럴 네트워크에 인가하여, 상기 제2 깊이 영상이 변화된 제3 깊이 영상을 획득하는 단계를 더 포함할 수 있다.

상기 제2 뉴럴 네트워크는 상기 제2 깊이 영상의 특징 및 상기 제2 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제2 깊이 영상보다 품질이 감소된 상기 제3 깊이 영상을 생성할 수 있다.

상기 영상 처리 방법은 상기 제2 깊이 영상과 상기 제3 깊이 영상을 페어링 함으로써, 트레이닝 데이터를 생성하는 단계를 더 포함할 수 있다.

상기 제1 뉴럴 네트워크와 상기 제2 뉴럴 네트워크는 사이클(cycle) GAN 학습 방법으로 학습될 수 있다.

일 측에 따른 학습 방법은 제1 유형의 제1 깊이 영상 및 상기 제1 깊이 영상에 대응하는 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 제2 유형의 제2 깊이 영상을 획득하는 단계; 상기 획득된 제2 깊이 영상 및 상기 제2 깊이 영상에 대응하는 제2 표면 법선 영상을 제2 뉴럴 네트워크에 인가하여, 상기 제1 유형의 제3 깊이 영상을 획득하는 단계; 상기 제2 깊이 영상이 상기 제1 뉴럴 네트워크에 의해 생성된 영상인지에 관한 제1 GAN 손실을 획득하는 단계; 상기 제3 깊이 영상 및 상기 제1 깊이 영상의 차이에 관한 제1 사이클 일관성 손실(cycle consistency loss)을 획득하는 단계; 및 상기 제1 GAN 손실 및 상기 제1 사이클 일관성 손실에 기초하여, 상기 제1 뉴럴 네트워크를 학습시키는 단계를 포함한다.

상기 제1 뉴럴 네트워크를 학습시키는 단계는 상기 제2 유형의 제4 깊이 영상 및 상기 제4 깊이 영상에 대응하는 제4 표면 법선 영상을 상기 제2 뉴럴 네트워크에 인가하여, 상기 제1 유형의 제5 깊이 영상을 획득하는 단계; 상기 획득된 제5 깊이 영상 및 상기 제5 깊이 영상에 대응하는 제5 표면 법선 영상을 상기 제1 뉴럴 네트워크에 인가하여, 상기 제2 유형의 제6 깊이 영상을 획득하는 단계; 상기 제5 깊이 영상이 상기 제2 뉴럴 네트워크에 의해 생성된 영상인지에 관한 제2 GAN 손실을 획득하는 단계; 상기 제6 깊이 영상 및 상기 제4 깊이 영상의 차이에 관한 제2 사이클 일관성 손실(cycle consistency loss)을 획득하는 단계; 및 상기 제1 GAN 손실, 상기 제2 GAN 손실, 상기 제1 사이클 일관성 손실 및 상기 제2 사이클 일관성 손실에 기초하여, 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 학습시키는 단계를 포함할 수 있다.

상기 학습 방법은 상기 제1 깊이 영상 및 상기 제1 표면 법선 영상을 상기 제2 뉴럴 네트워크에 인가하여 획득된 깊이 영상과 상기 제1 깊이 영상의 차이에 관한 제1 ID 손실(identity loss)을 획득하는 단계; 상기 제4 깊이 영상 및 상기 제4 표면 법선 영상을 상기 제1 뉴럴 네트워크에 인가하여 획득된 깊이 영상과 상기 제4 깊이 영상의 차이에 관한 제2 ID 손실을 획득하는 단계; 및 상기 제1 ID 손실 및 상기 제2 ID 손실에 더 기초하여, 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 학습시키는 단계를 더 포함할 수 있다.

상기 학습 방법은 상기 제1 깊이 영상 및 상기 제2 깊이 영상 사이의 차이를 제한하기 위한 제1 범위 보존 손실, 및 제4 깊이 영상 및 제 5 깊이 영상 사이의 차이를 제한하기 위한 제2 범위 보존 손실에 더 기초하여, 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 학습시키는 단계를 더 포함할 수 있다.

상기 학습 방법은 상기 제4 깊이 영상 및 상기 제5 깊이 영상의 차이와 상기 제4 깊이 영상 및 상기 제4 깊이 영상에 대응하는 제1 유형의 실제 깊이 영상의 차이를 구별하기 위한 손실에 기초하여, 상기 제2 뉴럴 네트워크를 학습시키는 단계를 더 포함할 수 있다.

상기 제1 뉴럴 네트워크는 상기 제1 유형의 깊이 영상을 제1 방향으로 변화시켜 상기 제2 유형의 깊이 영상을 생성하도록 사전 학습된 뉴럴 네트워크를 포함할 수 있다.

상기 제2 뉴럴 네트워크는 상기 제2 유형의 깊이 영상을 상기 제1 방향과 상반되는 제2 방향으로 변화시켜 상기 제1 유형의 깊이 영상을 생성하도록 사전 학습된 뉴럴 네트워크를 포함할 수 있다.

상기 제1 유형의 깊이 영상은 노이즈를 포함하는 깊이 영상을 포함하고, 상기 제2 유형의 깊이 영상은 노이즈를 포함하지 않는 깊이 영상을 포함할 수 있다.

상기 제1 뉴럴 네트워크는 입력된 깊이 영상에서 노이즈가 제거된 깊이 영상을 생성하고, 상기 제2 뉴럴 네트워크는 입력된 깊이 영상에 노이즈가 부가된 깊이 영상을 생성할 수 있다.

일 측에 따른 영상 처리 장치는 제1 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제1 표면 법선 영상을 생성하고, 상기 제1 깊이 영상 및 상기 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 상기 제1 깊이 영상이 변화된 제2 깊이 영상을 획득하는 적어도 하나의 프로세서를 포함하고, 상기 제1 뉴럴 네트워크는 상기 제1 깊이 영상의 특징 및 상기 제1 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제1 깊이 영상보다 품질이 향상된 상기 제2 깊이 영상을 생성한다.

상기 프로세서는, 제2 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제2 표면 법선 영상을 생성하고, 상기 제2 깊이 영상 및 상기 제2 표면 법선 영상을 제2 뉴럴 네트워크에 인가하여, 상기 제2 깊이 영상이 변화된 제3 깊이 영상을 획득할 수 있다.

상기 제2 뉴럴 네트워크는, 상기 제2 깊이 영상의 특징 및 상기 제2 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제2 깊이 영상보다 품질이 감소된 상기 제3 깊이 영상을 생성할 수 있다.

상기 프로세서는, 상기 제2 깊이 영상과 상기 제3 깊이 영상을 페어링 함으로써, 트레이닝 데이터를 생성할 수 있다.

도 1은 일실시예에 따른 강화된 깊이 영상을 획득하기 위한 영상 처리 시스템의 구성도.
도 2는 일실시예에 따른 강화된 깊이 영상을 획득하기 위한 뉴럴 네트워크의 학습 방법을 설명하기 위한 도면.
도 3은 일실시예에 따른 강화 CNN 및 노이즈 모사 CNN의 학습 방법을 설명하기 위한 도면.
도 4a 및 도 4b는 일실시예에 따른 강화 CNN 및 노이즈 모사 CNN를 학습시키기 위한 손실 함수를 설명하기 위한 도면들.
도 5는 일실시예에 따른 노이즈 모사 CNN을 학습시키기 위한 손실 함수를 설명하기 위한 도면.
도 6a 및 도 6b은 사전 학습 모델을 이용한 강화 CNN 및 노이즈 모사 CNN의 학습 방법을 설명하기 위한 도면들.
도 7은 일실시예에 따른 영상 처리 장치의 구성의 예시도.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 일실시예에 따른 강화된 깊이 영상을 획득하기 위한 영상 처리 시스템의 구성도이다.

도 1을 참조하면, 일실시예에 따른 영상 처리 시스템은 입력 깊이(depth) 영상(101)에 대응하는 표면 법선(surface normal) 영상(102)을 생성하는 표면 법선 영상 생성 모듈(110) 및 입력 깊이 영상(101) 및 그에 대응하는 표면 법선 영상(102)을 입력 받아 강화된 깊이 영상(103)을 생성하는 뉴럴 네트워크(neural network)(120)를 포함할 수 있다.

깊이 영상은 관찰 시점(viewpoint)으로부터 물체 표면과의 거리와 관련된 깊이 정보를 포함하는 영상으로, 영상을 구성하는 각 픽셀에 대한 2차원의 위치 정보와 더불어 깊이 정보를 포함하는 3차원의 영상이다. 예를 들어, 깊이 영상은 피사체에 조사된 광 신호가 반사되어 돌아오는 시간차(TOF, Time Of Flight)에 기초하여, 촬영된 피사체에 대한 픽셀 별 깊이 값을 제공하는 TOF 센서 카메라로 촬영한 영상(이하, TOF 영상), 레이저 스캐너로 촬영한 영상(이하, LS 영상) 등이 있다. TOF 영상은 LS 영상에 비해 깊이 정보를 빠르게 측정하여 생성될 수 있는 반면, LS 영상에 비해 깊이 측정의 오차가 크며, 깊이 측정의 오차 등으로 인한 강한 노이즈를 포함한 영상이다. 한편, LS 영상은 정교하게 깊이를 측정하여 생성된 영상으로 TOF 영상에 비해 노이즈가 없는 깨끗한 영상이다. 강화된 깊이 영상을 획득하기 위해 영상 처리 시스템에 입력되는 깊이 영상은 TOF 영상 등 노이즈가 포함된 깊이 영상에 해당할 수 있다. 이하에서, 깊이 영상은 영상으로 간략하게 지칭될 수 있다.

표면 법선 영상 생성 모듈(110)은 입력된 깊이 영상(101)의 각 픽셀에 대응하여 표면 법선 벡터를 계산하고, 계산된 표면 법선 벡터들을 이미지화 하여, 입력된 깊이 영상(101)에 대응하는 표면 법선 영상(102)을 생성할 수 있다. 깊이 영상에 대응하는 표면 법선 영상은 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터를 이미지화 한 영상이다. 표면 법선 벡터는 표면의 한 점의 접 평면에 수직인 단위 벡터를 의미한다. 표면 법선 영상 생성 모듈(110)은 입력된 영상(101)의 깊이 정보에 기초하여 각 픽셀의 접 평면을 계산하여 표면 법선 벡터를 획득하고, 입력 영상(101)의 픽셀들의 표면 법선 벡터들을 이미지화 함으로써, 표면 법선 영상(102)을 생성할 수 있다.

뉴럴 네트워크(120)는 입력된 깊이 영상(101) 및 이에 대응하는 표면 법선 영상(102)을 입력으로 받아 강화된 깊이 영상(103)을 생성하는 학습 모델에 해당할 수 있다. 깊이 영상(101) 및 표면 법선 영상(102)은 연결(concatenate)되어 뉴럴 네트워크(120)에 입력될 수 있다. 뉴럴 네트워크(120)는 입력된 깊이 영상(101)의 특징 및 표면 법선 영상(102)의 특징을 내재하는 임베딩 벡터(embedding vector)에 기초하여, 강화된 깊이 영상(103)을 생성할 수 있다. 다시 말해, 뉴럴 네트워크(120)는 깊이 영상(101) 및 표면 법선 영상(102)을 인코딩하여 추출된 특징에 기초하여, 입력된 깊이 영상(101)의 특징을 변경하고, 변경된 특징을 디코딩하여 강화된 깊이 영상(103)을 생성할 수 있다.

강화된 영상(103)은 입력된 깊이 영상(101)이 변화된 영상으로, 뉴럴 네트워크(120)에서 표면 법선 영상(102)으로부터 추출된 특징이 반영되어 입력 영상(101)의 일부 특징이 변화된 영상에 해당할 수 있다. 강화된 영상(103)은 입력된 깊이 영상(101)의 일부 특징이 개선되는 방향으로 변화된 영상, 다시 말해 입력된 깊이 영상(101)에 비해 품질이 향상된 영상에 해당할 수 있다. 예를 들어, 강화된 영상(103)은 입력 영상(101)의 잡음이 제거되거나, 선명도가 향상되는 등의 품질이 향상된 영상에 해당할 수 있다.

일실시예에 따를 때, 뉴럴 네트워크(120)는 CNN으로 구성된 학습 모델에 해당할 수 있다. 뉴럴 네트워크(120)는 복수의 레이어로 구성될 수 있으며, 학습을 통해 레이어들 간의 파라미터가 결정될 수 있다. 뉴럴 네트워크(120)에서 레이어들 간의 파라미터에 기초하여 입력된 깊이 영상(101) 및 표면 법선 영상(102)에 대하여 연산이 수행됨으로써, 강화된 깊이 영상(103)이 생성될 수 있다.

도 1에 도시되어 있지는 않으나, 일실시예에 따른 영상 처리 시스템은 뉴럴 네트워크(120) 뿐만 아니라, 뉴럴 네트워크(120)와 반대되는 방향으로 깊이 영상을 변화시키는 다른 뉴럴 네트워크를 더 포함할 수 있다. 뉴럴 네트워크(120)가 입력된 영상보다 품질이 향상된 영상을 생성하는 네트워크인 경우, 다른 뉴럴 네트워크는 입력된 깊이 영상보다 품질이 감소된 깊이 영상을 생성하는 네트워크에 해당할 수 있다. 이하에서, 뉴럴 네트워크(120)와 다른 뉴럴 네트워크와 구분하기 위해, 강화된 깊이 영상을 생성하는 뉴럴 네트워크(120)는 제1 네트워크로, 제1 네트워크와 반대되는 방향으로 변화된 깊이 영상을 생성하는 뉴럴 네트워는 제2 네트워크로 지칭될 수 있다.

제2 뉴럴 네트워크는 제1 뉴럴 네트워크와 마찬가지로 깊이 영상 및 이에 대응하는 표면 법선 영상을 입력으로 받을 수 있으며, 제2 뉴럴 네트워크는 입력된 깊이 영상의 특징 및 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 품질이 감소된 깊이 영상을 생성할 수 있다. 이 때, 제2 뉴럴 네트워크는 입력된 표면 법선 영상으로부터 추출된 특징을 반영하여 입력된 깊이 영상의 일부 특징을 변화시킬 수 있다. 입력된 깊이 영상의 특징은 제1 뉴럴 네트워크에서 변경된 방향과 반대되는 방향으로 변경될 수 있다. 일실시예에 따른 제2 뉴럴 네트워크는 제1 뉴럴 네트워크의 역함수 개념에 대응될 수 있다.

보다 구체적으로, 제1 뉴럴 네트워크는 입력된 깊이 영상을 제1 방향으로 변화시킨 깊이 영상을 생성할 수 있으며, 여기서 제1 방향은 제1 유형의 깊이 영상을 제2 유형의 깊이 영상으로 변경하는 방향에 해당할 수 있다. 한편, 제2 뉴럴 네트워크는 입력된 깊이 영상을 제1 방향과 반대되는 방향인 제2 방향으로 변화시킨 깊이 영상을 생성할 수 있으며, 여기서 제2 방향은 제2 유형의 깊이 영상을 제1 유형의 깊이 영상으로 변경하는 방향에 해당할 수 있다.

예를 들어, 제1 유형은 노이즈가 강한 영상, 제2 유형은 노이즈가 없는 깨끗한 영상인 경우, 제1 뉴럴 네트워크는 노이즈가 강한 깊이 영상에서부터 노이즈가 제거된 영상을 생성하도록 학습된 네트워크에 해당할 수 있으며, 제2 뉴럴 네트워크는 깨끗한 깊이 영상에서 노이즈를 모사한 영성을 생성하도록 학습된 네트워크에 해당할 수 있다.

제1 뉴럴 네트워크 및 제2 뉴럴 네트워크는 사이클 GAN(cycle GAN) 학습 방법에 따라 학습될 수 있다. 제1 뉴럴 네트워크는 제1 뉴럴 네트워크에 의해 생성된 깊이 영상이 제2 뉴럴 네트워크에 의해 제1 뉴럴 네트워크에 입력된 깊이 영상으로 복구될 수 있도록 학습될 수 있으며, 제2 뉴럴 네트워크는 제2 뉴럴 네트워크에 의해 생성된 깊이 영상이 제1 뉴럴 네트워크에 의해 제2 뉴럴 네트워크에 입력된 깊이 영상으로 복구될 수 있도록 학습될 수 있다. 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크의 학습 방법은 이하에서 상술한다.

일실시예에 따를 때, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 의해 2 이상의 특징이 변화된 깊이 영상이 생성될 수 있다. 예를 들어, 제1 뉴럴 네트워크는 입력된 깊이 영상에서 노이즈가 제거되고, 선명도가 향상된 깊이 영상을 출력할 수 있다. 이 경우, 제2 뉴럴 네트워크는 입력된 깊이 영상에서 노이즈를 부가하고, 선명도가 낮아진 깊이 영상을 출력할 수 있다. 다시 말해, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크는 입력된 깊이 영상의 2 이상의 특징을 서로 다른 방향으로 변화시킨 영상을 생성하는 네트워크에 해당할 수 있다. 깊이 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 의해 변화되는 깊이 영상의 특징(들)은 깊이 영상과 함께 입력된 표면 법선 영상의 특징(들)과 관련될 수 있다.

이하에서, 강화된 깊이 영상을 출력하는 제1 뉴럴 네트워크는 강화 CNN(Enhancement CNN), 제1 뉴럴 네트워크와 반대되는 방향으로 변화된 깊이 영상을 출력하는 제2 뉴럴 네트워크는 노이즈 모사 CNN(Noise Simulation CNN), 제1 유형의 깊이 영상은 노이즈가 강한 영상, 제2 유형의 깊이 영상은 노이즈가 약한 깨끗한 영상인 경우를 예로 들어 설명한다. 여기서, 강화 CNN은 노이즈가 강한 TOF 영상 및 TOF 영상에 대응하는 표면 법선 영상을 입력 받아, 노이즈가 제거된 깨끗한 깊이 영상을 출력하는 학습 모델에 해당할 수 있다. 노이즈 모사CNN은 노이즈가 약한 깨끗한 LS 영상 및 LS 영상에 대응하는 표면 법선 영상을 입력 받아, 노이즈가 포함된 깊이 영상을 출력하는 학습 모델에 해당할 수 있다.

도 2는 일실시예에 따른 강화된 깊이 영상을 획득하기 위한 뉴럴 네트워크의 학습 방법을 설명하기 위한 도면이다.

도 2를 참조하면, 일실시예에 따른 강화된 깊이 영상을 획득하기 위한 뉴럴 네트워크의 학습 방법은 제1 유형의 제1 깊이 영상(201) 및 제1 깊이 영상(201)에 대응하는 제1 표면 법선 영상(211)을 제1 뉴럴 네트워크(210)에 인가하여, 제2 유형의 제2 깊이 영상(202)을 획득하는 단계, 획득된 제2 깊이 영상(202) 및 제2 깊이 영상에 대응하는 제2 표면 법선 영상(212)을 제2 뉴럴 네트워크(220)에 인가하여, 제1 유형의 제3 깊이 영상(203)을 획득하는 단계, 제2 깊이 영상(202)이 제1 뉴럴 네트워크(210)에 의해 생성된 영상인지에 관한 GAN 손실(221)을 획득하는 단계, 제3 깊이 영상(203) 및 제1 깊이 영상(201)의 차이에 관한 사이클 일관성 손실(cycle consistency loss)(231)을 획득하는 단계, 및 GAN 손실(221) 및 사이클 일관성 손실(231)에 기초하여, 제1 뉴럴 네트워크(210)를 학습시키는 단계를 포함할 수 있다.

일실시예에 따른 강화 CNN(210)은 GAN 손실(221)에 기초하여 학습될 수 있다. GAN 손실(221)은 특정 깊이 영상이 강화 CNN(210)에서 생성된 영상인지에 관한 손실로, 특정 깊이 영상이 강화 CNN(210)에서 생성된 노이즈 제거된 영상인지, 본래 노이즈가 없는 깨끗한 영상인지에 관한 판별 결과에 기초하여 획득될 수 있다.

강화 품질 판별기(Enhancement Quality Discriminator)(230)는 생성기인 강화 CNN(210)에 대응되는 판별기로, 판별기(230)는 입력된 깊이 영상이 레이저 스캐너로 촬영된 진짜(real) 깨끗한 깊이 영상인지, 강화 CNN(210)을 통해 생성된 가짜(fake) 깨끗한 깊이 영상인지를 판별하는 네트워크에 해당할 수 있다. 여기서, 진짜 깨끗한 깊이 영상은 노이즈 제거 등의 처리된 영상이 아닌 본래 노이즈가 포함되지 않은 깨끗한 깊이 영상을 의미하고, 가짜 깨끗한 깊이 영상은 노이즈 제거 처리가 수행되어 깨끗한 영상으로 만들어진 깊이 영상을 의미한다.

강화 품질 판별기(230)는 입력된 영상이 진짜 깨끗한 깊이 영상인 경우 진짜로 판별하고, 입력된 영상이 강화 CNN(210)에 TOF 영상을 인가하여 생성된 가짜 깨끗한 깊이 영상인 경우 가짜로 판별하도록 학습될 수 있다. 강화 품질 판별기(230)의 출력에 기초하여, GAN 손실 함수(221)가 구성될 수 있으며, GAN 손실에 기초하여, 생성기(210) 및 판별기(230)가 학습될 수 있다.

생성기(210) 및 판별기(230)는 GAN 손실(221)에 기초하여, 적대적으로 경쟁하면서 학습될 수 있다. GAN 손실(221)에 기초하여, 판별기(230)는 진짜 깨끗한 영상과 생성기(210)에서 생성된 가짜 깨끗한 영상(202)을 잘 구분하도록 학습되고, 생성기(210)는 진짜 깨끗한 깊이 영상에 가까운 깊이 영상을 생성하도록 학습될 수 있다.

일실시예에 따른 강화 CNN(210)은 사이클 일관성 손실(231)에 기초하여 학습될 수 있다. 사이클 일관성 손실(231)은 강화 CNN(210)에서 생성된 영상(202)이 다시 원본 영상(201)으로 복구될 수 있도록 깊이 영상을 변경하는 강화 CNN(210)을 제어하기 위한 손실로, 강화 CNN(210)에서 출력된 영상(202)을 노이즈 모사 CNN(220)에 입력하여, 노이즈 모사 CNN(220)의 출력 영상(203)과 강화 CNN의 입력 영상(201)의 차이에 기초하여 획득될 수 있다.

노이즈 모사 CNN(220)은 강화 CNN에서 출력된 영상(202)과 그에 대응하는 표면 법선 영상(212)을 입력으로 받아, 노이즈가 포함된 깊이 영상(203)을 출력할 수 있다. 도 2에 도시되어 있지는 않으나, 강화 CNN(210)에서 출력된 영상(202)은 표면 법선 영상 생성 모듈에 입력되어, 영상(202)의 깊이 정보에 기초한 표면 법선 영상(212)이 획득될 수 있다. 다시 말해, 일실시예에 따른 학습 방법은 강화 CNN(210)에서 출력된 영상(202)의 픽셀들 각각에 대응하는 표면 법선 벡터를 계산하고, 이를 이미지화 하여 표면 법선 영상(212)을 획득하는 단계를 더 포함할 수 있다.

도 2는 강화 CNN(210)의 GAN 손실(이하, 제1 GAN 손실)(221) 및 깊이 영상(201)을 강화 CNN(210)에 먼저 입력하여 생성된 출력 영상(202)을 노이즈 모사 CNN(220)에 입력하여 획득된 사이클 일관성 손실(이하, 제1 사이클 손실)(231)에 기초하여, 강화 CNN(210)을 학습시키는 과정을 도시한다. 한편, 일실시예에 따른 학습 방법은 강화 CNN 뿐만 아니라 노이즈 모사CNN(220)을 학습시키는 단계를 포함할 수 있다. 일실시예에 따른 학습 방법은 노이즈 모사 CNN의 GAN 손실(이하, 제2 GAN 손실) 및 깊이 영상을 노이즈 모사 CNN에 먼저 입력하여 생성된 출력 영상을 강화 CNN에 입력하여 획득되는 사이클 일관성 손실(이하, 제2 사이클 손실)에 기초하여, 노이즈 모사 CNN을 학습시키는 단계를 포함할 수 있다. 이에 대해서는 도 3에서 상술한다.

도 3은 일실시예에 따른 강화 CNN 및 노이즈 모사 CNN의 학습 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 일실시예에 따른 강화 CNN 및 노이즈 모사 CNN은 사이클 GAN 학습 방법에 따른 제1 GAN 손실(321), 제2 GAN 손실(322), 제1 사이클 손실(331) 및 제2 사이클 손실(332)에 기초하여 학습될 수 있다.

일실시예에 따른 학습 방법은 제2 GAN 손실 및 제2 사이클 손실을 획득하기 위하여, 제2 유형의 제4 깊이 영상(304) 및 제4 깊이 영상(304)에 대응하는 제4 표면 법선 영상(314)을 제2 뉴럴 네트워크(320)에 인가하여, 제1 유형의 제5 깊이 영상(305)을 획득하는 단계, 획득된 제5 깊이 영상(305) 및 제5 깊이 영상(305)에 대응하는 제5 표면 법선 영상을 제1 뉴럴 네트워크(310)에 인가하여, 제2 유형의 제6 깊이 영상(306)을 획득하는 단계, 제5 깊이 영상(305)이 제2 뉴럴 네트워크(320)에 의해 생성된 영상인지에 관한 제2 GAN 손실(322)을 획득하는 단계, 제6 깊이 영상(306) 및 제4 깊이 영상(304)의 차이에 관한 제2 사이클 일관성 손실(322)을 획득하는 단계를 포함할 수 있다.

일실시예에 따른 노이즈 모사 CNN(320)은 제2 GAN 손실(322)에 기초하여 학습될 수 있다. 제2 GAN 손실(322)은 특정 깊이 영상이 노이즈 모사 CNN(320)에서 생성된 영상인지에 관한 손실로, 특정 깊이 영상이 노이즈 모사 CNN(320)에서 생성된 노이즈 영상인지, 본래 노이즈가 포함된 영상인지에 관한 판별 결과에 기초하여 획득될 수 있다.

노이즈 품질 판별기(Noise Quality Discriminator)(340)는 생성기인 노이즈 모사 CNN(320)에 대응되는 판별기로, 판별기(340)는 입력된 깊이 영상이 TOF 카메라로 촬영된 진짜(real) 노이즈 영상인지, 노이즈 모사CNN(320)을 통해 생성된 가짜(fake) 노이즈 영상인지를 판별하는 네트워크에 해당할 수 있다. 여기서, 진짜 노이즈 영상은 노이즈 모사 등의 처리된 영상이 아닌 본래 노이즈가 포함된 깊이 영상을 의미하고, 가짜 노이즈 영상은 노이즈 모사 처리가 수행되어 노이즈 강한 영상으로 만들어진 깊이 영상을 의미한다.

노이즈 품질 판별기(340)는 입력된 영상이 진짜 노이즈 깊이 영상인 경우 진짜로 판별하고, 입력된 영상이 노이즈 모사 CNN(320)에 LS 영상을 인가하여 생성된 가짜 노이즈 영상인 경우 가짜로 판별하도록 학습될 수 있다. 노이즈 품질 판별기(340)의 출력에 기초하여, 제2 GAN 손실 함수(322)가 구성될 수 있으며, 제2 GAN 손실(322)에 기초하여, 생성기(320) 및 판별기(340)가 학습될 수 있다.

생성기(320) 및 판별기(340)는 제2 GAN 손실(322)에 기초하여, 적대적으로 경쟁하면서 학습될 수 있다. 제2 GAN 손실(322)에 기초하여, 판별기(340)는 진짜 노이즈 영상과 생성기(320)에서 생성된 가짜 노이즈 영상(305)을 잘 구분하도록 학습되고, 생성기(320)는 진짜 노이즈 깊이 영상에 가까운 깊이 영상을 생성하도록 학습될 수 있다.

일실시예에 따른 노이즈 모사 CNN(320)은 제2 사이클 일관성 손실(332)에 기초하여 학습될 수 있다. 제2 사이클 일관성 손실(332)은 노이즈 모사 CNN(320)에서 생성된 영상(305)이 원본 영상(304)으로 복구될 수 있도록 깊이 영상을 변경하는 노이즈 모사 CNN(320)을 제어하기 위한 손실로, 노이즈 모사 CNN(320)에서 출력된 영상(305)을 강화 CNN(310)에 입력하여, 강화 CNN(310)의 출력 영상(306)과 노이즈 모사 CNN(320)의 입력 영상(304)의 차이에 기초하여 획득될 수 있다.

도 3에 도시되어 있지는 않으나, 강화 CNN(310)은 노이즈 모사 CNN(320)에서 출력된 영상(305)과 그에 대응하는 표면 법선 영상을 입력으로 받아, 노이즈가 제거된 깊이 영상(306)을 출력할 수 있다. 노이즈 모사 CNN(320)에서 출력된 깊이 영상(305)은 표면 법선 영상 생성 모듈에 입력되어, 영상(305)의 깊이 정보에 기초한 표면 법선 영상이 획득될 수 있다. 다시 말해, 일실시예에 따른 학습 방법은 노이즈 모사 CNN(320)에서 출력된 영상(305)의 픽셀들 각각에 대응하는 표면 법선 벡터를 계산하고, 이를 이미지화 하여 표면 법선 영상을 획득하는 단계를 더 포함할 수 있다.

도 4a 및 도 4b는 일실시예에 따른 강화 CNN 및 노이즈 모사 CNN를 학습시키기 위한 손실 함수를 설명하기 위한 도면이다.

일실시예에 따른 강화 CNN 및 노이즈 모사 CNN은 ID 손실(identity loss)에 기초하여 학습될 수 있다. ID 손실은 영상 생성에 있어서 안정적인 가이드 라인을 주기 위한 것으로, 입력 데이터를 특정 유형의 데이터로 변경한 결과를 출력하는 뉴럴 네트워크에 이미 특정 유형에 해당하는 데이터를 입력하는 경우, 입력 데이터와 동일한 데이터를 출력하도록 학습시키기 위한 손실이다.

도 4a를 참조하면, 일실시예에 따른 제1 ID 손실(441)은 깨끗한 깊이 영상을 출력하는 강화 CNN(410)에 깨끗한 영상(401)을 입력하면, 입력된 영상(401)과 동일한 출력 영상(402)을 생성하도록 강화 CNN(410)을 학습시키기 위한 손실이다. 제1 ID 손실(441)은 강화 CNN(410)에 입력된 깨끗한 영상(401)과 출력된 영상(402)의 차이에 기초하여 획득될 수 있다. 강화 CNN(410)은 제1 ID 손실(441)에 기초하여, 입력된 깨끗한 영상(401)과 생성된 영상(402)의 차이를 감소시키는 방향으로 학습될 수 있다.

도 4b를 참조하면, 일실시예에 따른 제2 ID 손실(442)은 노이즈 깊이 영상을 출력하는 노이즈 모사 CNN(420)에 노이즈 영상(404)을 입력하면, 입력된 영상(404)과 동일한 출력 영상(403)을 생성하도록 노이즈 모사 CNN(420)을 학습시키기 위한 손실이다. 제2 ID 손실(442)은 노이즈 모사 CNN(420)에 입력된 노이즈 영상(403)과 출력된 영상(404)의 차이에 기초하여 획득될 수 있다. 노이즈 모사 CNN(420)은 제2 ID 손실(442)에 기초하여, 입력된 노이즈 영상(403)과 생성된 영상(404)의 차이를 감소시키는 방향으로 학습될 수 있다.

도 5는 일실시예에 따른 노이즈 모사 CNN을 학습시키기 위한 손실 함수를 설명하기 위한 도면이다.

도 5를 참조하면, 일실시예에 따른 노이즈 모사 CNN(510)은 잔차 손실(residual loss)(551)에 기초하여, 학습될 수 있다. 잔차 손실(551)은 노이즈 모사 CNN(510)의 입력 영상(501)과 출력 영상(502)의 차이 값을 판별하는 잔차 판별기(residual discriminator)(520)에 의해 획득될 수 있다.

잔차 판별기(520)는 노이즈 모사 CNN의 입력 영상(501) 및 출력 영상(502) 사이의 차이 값(503)과 학습 데이터에 포함된 깊이 영상의 쌍(511, 512)의 차이 값(513)을 판별하는 네트워크에 해당할 수 있다. 여기서, 학습 데이터에 포함된 깊이 영상의 쌍(511, 512)은 레이저 스캐너와 TOF 카메라로 동시에 촬영되어 정렬(alignment)이 되어있는 LS 영상(511) 및 TOF 영상(512)의 쌍을 의미하며, 깊이 영상의 쌍의 차이 값(513)은 깊이 영상의 쌍을 구성하는 LS영상(511) 및 TOF 영상(512) 사이의 차이 값을 의미한다.

잔차 판별기(520)는 입력 데이터가 노이즈 모사 CNN(510)의 입력 영상 및 출력 영상 사이의 차이 값인지, 학습 데이터에 포함된 깊이 영상의 쌍의 차이 값인지를 판별할 수 있으며, 잔차 판별기(520)의 출력에 기초하여 잔차 손실 함수(551)가 구성될 수 있다. 잔차 손실에 기초하여 잔차 판별기(520)는 노이즈 모사 CNN의 입력 영상 및 출력 영상 사이의 차이 값과 깊이 영상의 쌍의 차이 값을 잘 구분하도록 학습되고, 노이즈 모사 CNN(510)은 입력 영상으로부터 깊이 영상의 쌍의 차이 값에 가까운 출력 영상을 생성하도록 학습될 수 있다. 일실시예에 따를 때, 잔차 판별기(520)에는 입력 영상(501)의 표면 법선 영상(504)이 노이즈 모사 CNN(510)의 입력 영상 및 출력 영상 사이의 차이 값(503)과 함께 입력될 수 있다.

도 5는 잔차 손실에 기초하여 노이즈 모사 CNN이 학습되는 실시예를 도시하고 있으나, 일실시예에 따른 강화 CNN은 잔차 손실에 기초하여 학습될 수 있다. 강화 CNN의 학습을 위한 잔차 손실은 강화 CNN의 입력 영상과 출력 영상의 차이 값을 판별하는 잔차 판별기에 의해 획득될 수 있다. 강화 CNN의 학습을 위한 잔차 판별기는 강화 CNN의 입력 영상 및 출력 영상 사이의 차이 값과 학습 데이터에 포함된 깊이 영상의 쌍의 차이 값을 판별하는 네트워크에 해당할 수 있다.

일실시예에 따른 강화 CNN 및 노이즈 모사 CNN은 범위 보존 손실(Range Preserving loss)에 기초하여 학습될 수 있다. 범위 보존 손실은 입력 영상과 출력 영상의 차이를 제한하기 위한 손실로, 입력 영상과 출력 영상의 차이에 기초하여 획득될 수 있다. 예를 들어, 강화 CNN의 입력 영상과 출력 영상의 평균 제곱 오차로 획득된 범위 보존 손실에 기초하여, 강화 CNN이 학습될 수 있고, 노이즈 모사 CNN의 입력 영상과 출력 영상의 평균 제곱 오차로 획득된 범위 보존 손실에 기초하여, 노이즈 모사 CNN이 학습될 수 있다.

아래의 표 1은 일실시예에 따른 학습 방법에서 이용되는 손실 함수의 설계 예시이다.

GAN loss
Cycle loss
Identity loss
Residual loss
Range Preserving loss

표 1에서, A는 제1 유형의 깊이 영상(예를 들어, TOF 영상), B는 제2 유형의 깊이 영상(예를 들어, LS 영상), C는 제1 유형 및 제2 유형의 깊이 영상 쌍의 차이 값(예를 들어, 쌍을 구성하는 TOF 영상 및 LS 영상의 차이 값)을 의미하고, G1은 제1 뉴럴 네트워크(예를 들어, 강화 CNN), G2는 제2 뉴럴 네트워크(예를 들어, 노이즈 모사 CNN), D1은 생성기인 제1 뉴럴 네트워크에 대응하는 제1 판별기(예를 들어, 강화 품질 판별기), D2는 생성기인 제2 뉴럴 네트워크에 대응하는 제2 판별기(예를 들어, 노이즈 품질 판별기)를 의미하며, DR은 잔차 판별기를 의미한다.

도 6a 및 도 6b는 사전 학습 모델을 이용한 강화 CNN 및 노이즈 모사 CNN의 학습 방법을 설명하기 위한 도면들이다.

일실시예에 따른 강화 CNN 및 노이즈 모사 CNN은 학습을 위한 TOF 영상의 정답(ground truth; GT) 데이터가 되는 LS 영상이 부족하므로, 준 지도 학습(semi-supervised learning) 방법으로 학습될 수 있다. 보다 구체적으로, TOF 깊이 영상 및 WLS(weighted least squares) 필터에 의해 노이즈가 제거된 깊이 영상을 학습 데이터로 하여 사전 학습시킨 CNN 모델을 이용하여, 강화 CNN 및 노이즈 모사 CNN을 상술한 사이클 GAN 학습 방법에 따라 학습시킬 수 있다.

도 6a 및 도 6b를 참조하면, 강화 CNN은 TOF 영상(601)에서 WLS 필터에 의해 노이즈가 제거된 깊이 영상(602)을 생성하도록 학습된 CNN(620)을 사전 학습 모델로 이용할 수 있다. 노이즈 모사 CNN(630)은 WLS 필터에 의해 노이즈가 제거된 영상(602)에서 노이즈가 제거되기 이전의 TOF 영상(601)을 생성하도록 학습된 CNN(640)을 사전 학습 모델로 이용할 수 있다. 다시 말해, 사이클 GAN 방법에 따라 학습되기 이전의 강화 CNN(610) 및 노이즈 모사 CNN(630)은 TOF 영상(601) 및 WLS 필터로 노이즈가 제거된 깊이 영상(602)을 학습 데이터로 하여 학습된 CNN 모델(620, 640)에 해당할 수 있다.

상술한 학습 방법에 따라 학습된 강화 CNN은 강한 노이즈를 포함하는 TOF 영상 및 이에 대응하는 표면 법선 영상을 입력 받아 강화된 깊이 영상을 생성할 수 있다. 강화 CNN은 노이즈 제거 효과 및 선명도 개선 효과가 뛰어난 깊이 영상을 생성할 수 있다. 또한, 강화 CNN은 다중 경로 왜곡 현상이 개선된 깊이 영상을 생성할 수 있다. 특히, 입력 영상에서 굴곡이 큰 부분에서 다중 경로 왜곡이 개선된 영상을 생성할 수 있다.

상술한 학습 방법에 따라 학습된 노이즈 모사 CNN은 깨끗한 깊이 영상에 대응하는 노이즈가 포함된 깊이 영상을 생성함으로써, 노이즈 제거에 관한 뉴럴 네트워크의 학습 데이터 생성에 이용될 수 있다.

도 7은 일실시예에 따른 영상 처리 장치의 구성의 예시도이다.

도 7을 참조하면, 장치(700)는 프로세서(701), 메모리(703) 및 입출력 장치(705)를 포함한다.

일실시예에 따른 장치(700)는 상술한 영상 처리 방법 또는 학습 방법을 수행하는 장치로, 서버 및 사용자의 디바이스(예를 들어, 휴대폰, 컴퓨터 등)를 포함할 수 있다. 프로세서(701)는 도 1 내지 도 6을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(703)는 영상 처리 방법 또는 학습 방법과 관련된 정보를 저장하거나 상술한 영상 처리 방법 또는 학습 방법이 구현된 프로그램을 저장할 수 있다. 메모리(703)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.

프로세서(701)는 프로그램을 실행하고, 장치(700)를 제어할 수 있다. 프로 세서(701)에 의하여 실행되는 프로그램의 코드는 메모리(703)에 저장될 수 있다. 장치(700)는 입출력 장치(705)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

제1 깊이 영상의 픽셀들에 대응하는 표면 법선(surface normal) 벡터들을 포함하는 제1 표면 법선 영상을 생성하는 단계; 및
상기 제1 깊이 영상 및 상기 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 상기 제1 깊이 영상이 변화된 제2 깊이 영상을 획득하는 단계
를 포함하고,
상기 제1 뉴럴 네트워크는
상기 제1 깊이 영상의 특징 및 상기 제1 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제1 깊이 영상보다 품질이 향상된 상기 제2 깊이 영상을 생성하는,
영상 처리 방법.
제1항에 있어서,
상기 제1 뉴럴 네트워크는
상기 제1 깊이 영상에 포함된 노이즈를 제거하고, 상기 제1 깊이 영상의 선명도를 향상시키는,
영상 처리 방법.
제1항에 있어서,
상기 제1 깊이 영상은 TOF(time-of-flight) 영상을 포함하는,
영상 처리 방법.
제1항에 있어서,
제2 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제2 표면 법선 영상을 생성하는 단계; 및
상기 제2 깊이 영상 및 상기 제2 표면 법선 영상을 제2 뉴럴 네트워크에 인가하여, 상기 제2 깊이 영상이 변화된 제3 깊이 영상을 획득하는 단계
를 더 포함하고,
상기 제2 뉴럴 네트워크는
상기 제2 깊이 영상의 특징 및 상기 제2 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제2 깊이 영상보다 품질이 감소된 상기 제3 깊이 영상을 생성하는,
영상 처리 방법.
제4항에 있어서,
상기 제2 깊이 영상과 상기 제3 깊이 영상을 페어링 함으로써, 트레이닝 데이터를 생성하는 단계
를 더 포함하는,
영상 처리 방법.
제4항에 있어서,
상기 제1 뉴럴 네트워크와 상기 제2 뉴럴 네트워크는 사이클(cycle) GAN 학습 방법으로 학습된
영상 처리 방법.
제1 유형의 제1 깊이 영상 및 상기 제1 깊이 영상에 대응하는 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 제2 유형의 제2 깊이 영상을 획득하는 단계;
상기 획득된 제2 깊이 영상 및 상기 제2 깊이 영상에 대응하는 제2 표면 법선 영상을 제2 뉴럴 네트워크에 인가하여, 상기 제1 유형의 제3 깊이 영상을 획득하는 단계;
상기 제2 깊이 영상이 상기 제1 뉴럴 네트워크에 의해 생성된 영상인지에 관한 제1 GAN 손실을 획득하는 단계;
상기 제3 깊이 영상 및 상기 제1 깊이 영상의 차이에 관한 제1 사이클 일관성 손실(cycle consistency loss)을 획득하는 단계; 및
상기 제1 GAN 손실 및 상기 제1 사이클 일관성 손실에 기초하여, 상기 제1 뉴럴 네트워크를 학습시키는 단계
를 포함하는,
학습 방법.
제7항에 있어서,
상기 제1 뉴럴 네트워크를 학습시키는 단계는
상기 제2 유형의 제4 깊이 영상 및 상기 제4 깊이 영상에 대응하는 제4 표면 법선 영상을 상기 제2 뉴럴 네트워크에 인가하여, 상기 제1 유형의 제5 깊이 영상을 획득하는 단계;
상기 획득된 제5 깊이 영상 및 상기 제5 깊이 영상에 대응하는 제5 표면 법선 영상을 상기 제1 뉴럴 네트워크에 인가하여, 상기 제2 유형의 제6 깊이 영상을 획득하는 단계;
상기 제5 깊이 영상이 상기 제2 뉴럴 네트워크에 의해 생성된 영상인지에 관한 제2 GAN 손실을 획득하는 단계;
상기 제6 깊이 영상 및 상기 제4 깊이 영상의 차이에 관한 제2 사이클 일관성 손실(cycle consistency loss)을 획득하는 단계; 및
상기 제1 GAN 손실, 상기 제2 GAN 손실, 상기 제1 사이클 일관성 손실 및 상기 제2 사이클 일관성 손실에 기초하여, 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 학습시키는 단계
를 포함하는,
학습 방법.
제8항에 있어서,
상기 제1 깊이 영상 및 상기 제1 표면 법선 영상을 상기 제2 뉴럴 네트워크에 인가하여 획득된 깊이 영상과 상기 제1 깊이 영상의 차이에 관한 제1 ID 손실(identity loss)을 획득하는 단계;
상기 제4 깊이 영상 및 상기 제4 표면 법선 영상을 상기 제1 뉴럴 네트워크에 인가하여 획득된 깊이 영상과 상기 제4 깊이 영상의 차이에 관한 제2 ID 손실을 획득하는 단계; 및
상기 제1 ID 손실 및 상기 제2 ID 손실에 더 기초하여, 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 학습시키는 단계
를 더 포함하는,
학습 방법.
제8항에 있어서,
상기 제1 깊이 영상 및 상기 제2 깊이 영상 사이의 차이를 제한하기 위한 제1 범위 보존 손실, 및 제4 깊이 영상 및 제 5 깊이 영상 사이의 차이를 제한하기 위한 제2 범위 보존 손실에 더 기초하여, 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 학습시키는 단계
를 더 포함하는,
학습 방법.
제8항에 있어서,
상기 제4 깊이 영상 및 상기 제5 깊이 영상의 차이와 상기 제4 깊이 영상 및 상기 제4 깊이 영상에 대응하는 제1 유형의 실제 깊이 영상의 차이를 구별하기 위한 손실에 기초하여, 상기 제2 뉴럴 네트워크를 학습시키는 단계
를 더 포함하는,
학습 방법.
제7항에 있어서,
상기 제1 뉴럴 네트워크는 상기 제1 유형의 깊이 영상을 제1 방향으로 변화시켜 상기 제2 유형의 깊이 영상을 생성하도록 사전 학습된 뉴럴 네트워크를 포함하고,
상기 제2 뉴럴 네트워크는 상기 제2 유형의 깊이 영상을 상기 제1 방향과 상반되는 제2 방향으로 변화시켜 상기 제1 유형의 깊이 영상을 생성하도록 사전 학습된 뉴럴 네트워크를 포함하는,
학습 방법.
제7항에 있어서,
상기 제1 유형의 깊이 영상은 노이즈를 포함하는 깊이 영상을 포함하고,
상기 제2 유형의 깊이 영상은 노이즈를 포함하지 않는 깊이 영상을 포함하며,
상기 제1 뉴럴 네트워크는 입력된 깊이 영상에서 노이즈가 제거된 깊이 영상을 생성하고,
상기 제2 뉴럴 네트워크는 입력된 깊이 영상에 노이즈가 부가된 깊이 영상을 생성하는,
학습 방법.
하드웨어와 결합되어 제1항 내지 제13항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
제1 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제1 표면 법선 영상을 생성하고, 상기 제1 깊이 영상 및 상기 제1 표면 법선 영상을 제1 뉴럴 네트워크에 인가하여, 상기 제1 깊이 영상이 변화된 제2 깊이 영상을 획득하는 적어도 하나의 프로세서를 포함하고,
상기 제1 뉴럴 네트워크는 상기 제1 깊이 영상의 특징 및 상기 제1 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제1 깊이 영상보다 품질이 향상된 상기 제2 깊이 영상을 생성하는,
영상 처리 장치.
제15항에 있어서,
상기 제1 뉴럴 네트워크는
상기 제1 깊이 영상에 포함된 노이즈를 제거하고, 상기 제1 깊이 영상의 선명도를 향상시키는,
영상 처리 장치.
제15항에 있어서,
상기 제1 깊이 영상은 TOF(time-of-flight) 영상을 포함하는,
영상 처리 장치.
제15항에 있어서,
상기 프로세서는,
제2 깊이 영상의 픽셀들에 대응하는 표면 법선 벡터들을 포함하는 제2 표면 법선 영상을 생성하고, 상기 제2 깊이 영상 및 상기 제2 표면 법선 영상을 제2 뉴럴 네트워크에 인가하여, 상기 제2 깊이 영상이 변화된 제3 깊이 영상을 획득하고,
상기 제2 뉴럴 네트워크는,
상기 제2 깊이 영상의 특징 및 상기 제2 표면 법선 영상의 특징을 내재하는 임베딩 벡터에 기초하여, 상기 제2 깊이 영상보다 품질이 감소된 상기 제3 깊이 영상을 생성하는,
영상 처리 장치.
제18항에 있어서,
상기 프로세서는,
상기 제2 깊이 영상과 상기 제3 깊이 영상을 페어링 함으로써, 트레이닝 데이터를 생성하는,
영상 처리 장치.
제18항에 있어서,
상기 제1 뉴럴 네트워크와 상기 제2 뉴럴 네트워크는 사이클(cycle) GAN 학습 방법으로 학습된,
영상 처리 장치.