KR20240084401A

KR20240084401A - 연속적인 rgb-d 프레임 세트를 활용한 고품질 깊이 영상 생성 방법 및 이의 장치

Info

Publication number: KR20240084401A
Application number: KR1020220169217A
Authority: KR
Inventors: 정민영; 김지완
Original assignee: 숭실대학교산학협력단
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2024-06-13
Anticipated expiration: 2042-12-06
Also published as: KR102770147B1; WO2024123159A1

Abstract

본 발명에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은, 촬영 대상 객체가 포함되는 현재 RGB-D 프레임과 복수의 이웃 프레임을 포함하는 로컬 프레임 세트를 식별하는 과정; 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임에 포함되는 각각의 프레임을 정합시키는 과정; 및 상기 정합된 로컬 프레임 세트의 화소 단위의 평균 정보를 식별하고, 상기 식별된 평균 정보를 정합된 현재 RGB-D 프레임에 반영하는 과정; 을 포함하며, 상기 복수의 이웃 프레임은 상기 현재 RGB-D 프레임을 기준으로 기 설정된 개수의 이전 프레임 및 이후 프레임을 포함할 수 있다.

Description

연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법 및 이의 장치 {METHOD AND APPARATUS FOR GENERATING ENHANCED DEPTH IMAGE USING SEQUENTIALLY SCANNED RGB-D FRAMESET}

본 발명은 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법 및 이의 장치에 관한 것으로, 상세하게, 깊이 영상의 품질을 향상시키기 위한 비지도 학습(unsupervised learning) 알고리즘 및 이에 기반한 정합(registration) 과정을 포함하는 고품질 깊이 영상 생성 방법 및 이의 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

최근, 가상현실(VR, Virtual Reality), 증강현실(AR, Augmented Reality), 자율주행 등 사물을 입체적으로 식별하고 표현할 수 있는 기술이 활용되고 있고, 관련 기술로 3D 비전(3D Vision) 기술, 인공지능(AI, Artificial Intelligence) 기술 등이 활용되고 있으며, 이들 기술들을 구현하기 위한 응용 기술로, 3D 모델링 기술, 객체 검출(object detection) 기술, 영상 분할(Semantic segmentation) 기술, 단일 이미지 깊이 추정(Monocular depth estimation) 기술 등의 고도화가 진행 중에 있다. 이러한 기술들은 3차원 영상(3D image)의 생성 기술과 관련되어 있고, 3차원 영상을 생성할 수 있는 여러 방법들에 대한 요구가 증가하고 있는 상황이다.

3차원 영상을 생성하는 다양한 방법 중 3D 스캐너 등이 알려져 있으나, 가격면에서 보다 저렴하게 3차원 영상을 촬영할 수 있는 심도 카메라(또는 깊이 카메라 또는 뎁스 카메라 또는 RGB-깊이 카메라 또는 RGB-D 카메라 또는 depth camera로 지칭될 수 있음)도 활용되고 있다. 심도 카메라에 의해 생성되는 이미지로서, 깊이 영상(깊이 이미지, depth image, RGB-D 영상)은 RGB 이미지 정보 이외 픽셀에 대한 깊이 정보를 포함하는 영상으로 지칭되고 있고, 깊이 영상의 깊이 정보를 활용하여 3차원 영상을 생성하는 기술이 이미 상용화되고 있다.

심도 카메라를 통해 깊이 영상을 생성하는 방법으로, 하나의 영상에서 주변 픽셀들을 고려하여 식별되는 깊이 정보에 기반하는 단일뷰(single-view) 방법과 현재 영상에서 충분하지 않는 영역을 다른 영상에서 보완할 수 있는 다중뷰(multi-view) 방법이 알려져 있다. 단일뷰 방법은 거리가 멀어지면 제한된 픽셀에서 포함되어야 하는 깊이 정보가 많아지기 때문에 부정확해지는 한계를 가지며, 다른 객체에 의한 가림(Occlusion), 빛의 간섭 등의 문제가 발생할 수 있고, 결과적으로, 깊이 정보 관련 센싱이 안되는 영역(missing-value), 영상처리 과정에서 발생하는 영상 잡음 등이 발생할 수 있다. 이러한 단일뷰 방법에 의해 발생하는 부정확한 영역에 대해, 멀티뷰 방법에 따라 다른 영상에서 보완함으로써 이러한 문제에 대처할 수 있으나, 멀티뷰 방법은 복수의 영상을 정합하는 과정이 요구되는데, 정합 과정에서 상당량의 데이터처리와 이에 따른 긴 소요 시간이 요구되는 점과 이에 필수적으로 요구되는 샘플링에 따라 정합 과정에서의 세부 정보의 소실이 발생함에 따라 깊이 정보 식별에 한계가 발생할 수 있다.

관련하여, 종래 등록특허공보(KR 1901495, 다중 시점 카메라 기반 깊이 영상 추정 방법)은 복수의 다시점 고해상도 영상들을 이용하여 깊이 영상을 생성하는 방법을 개시하고 있으나, 고해상도의 영상에 기초함에 따른 상당량의 데이터처리에 대한 문제를 여전히 해소시키지 못하고 있다.

한국 등록특허공보 KR 1901495 (다중 시점 카메라 기반 깊이 영상 추정 방법, 2018년 09월 28일)

전술한 바와 같이, 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법 및 이의 장치는, 다중뷰 방법에 기반하여 전체 프레임을 정합시키지 않고, 현재 프레임 및 이웃 프레임을 포함하는 로컬 프레임 세트만을 정합하기 위한 비지도 학습(unsupervised learning) 방법을 적용하며, 추가적으로 과적합(overfitting) 학습을 통해 단일뷰 방법의 한계를 극복하고, 부분적으로 어긋나는 영역(misalignment error)이 발생하거나, 많은 데이터를 처리하기 때문에 계산 속도를 높이기 위해 샘플링을 하는 과정에서 디테일한 정보가 소실되는 문제(over-smoothing error)를 해소할 수 있는 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법 및 이의 장치를 제공하는 것에 목적이 있다.

본 명세서의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 명세서의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 명세서의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 명세서의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위하여 본 발명에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은, 촬영 대상 객체가 포함되는 현재 RGB-D 프레임과 복수의 이웃 프레임을 포함하는 로컬 프레임 세트를 식별하는 과정; 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임에 포함되는 각각의 프레임을 정합시키는 과정; 및 상기 정합된 로컬 프레임 세트의 화소 단위의 평균 정보를 식별하고, 상기 식별된 평균 정보를 정합된 현재 RGB-D 프레임에 반영하는 과정; 을 포함하며, 상기 복수의 이웃 프레임은 상기 현재 RGB-D 프레임을 기준으로 기 설정된 개수의 이전 프레임 및 이후 프레임을 포함할 수 있다.

실시예에 따라, 상기 로컬 프레임 세트에 기반하여 비지도 학습(unsupervised learning) 방법에 따른 과정합(overfitting) 학습을 수행하는 과정; 을 더 포함할 수 있다.

실시예에 따라, 상기 과정합(overfitting) 학습을 수행하는 과정은, 상기 로컬 프레임 세트에 포함되는 각각의 RGB-D 프레임에 대응하는 로테이션(rotation) 정보와 트랜스레이션(translation) 정보를 식별하는 과정; 및 상기 식별된 로테이션 정보와 트랜스레이션 정보에 기초하여 포인트 클라우드를 융합하여 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임 투영(projection)시켰을 때 상기 현재 RGB-프레임과 투영된 결과의 차이가 최소화되도록 정합 파라미터를 학습시키는 과정; 을 포함할 수 있다.

또한, 본 발명의 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치는, 촬영 대상 객체가 포함되는 현재 RGB-D 프레임과 복수의 이웃 프레임을 입력 받는 입력부; 및 상기 현재 RGB-D 프레임과 상기 복수의 이웃 프레임을 포함하는 로컬 프레임 세트를 식별하고, 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임에 포함되는 각각의 프레임을 정합시키며, 상기 정합된 로컬 프레임 세트의 화소 단위의 평균 정보를 식별하고, 상기 식별된 평균 정보를 정합된 현재 RGB-D 프레임에 반영하는 제어부;를 포함하며, 상기 복수의 이웃 프레임은 상기 현재 RGB-D 프레임을 기준으로 기 설정된 개수의 이전 프레임 및 이후 프레임을 포함할 수 있다.

실시예에 따라, 상기 로컬 프레임 세트에 기반하여 비지도 학습(unsupervised learning) 방법에 따른 과정합(overfitting) 학습을 수행할 수 있다.

실시예에 따라, 상기 제어부는, 상기 로컬 프레임 세트에 포함되는 각각의 RGB-D 프레임에 대응하는 로테이션(rotation) 정보와 트랜스레이션(translation) 정보를 식별하며, 상기 식별된 로테이션 정보와 트랜스레이션 정보에 기초하여 포인트 클라우드를 융합하여 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임 투영(projection)시켰을 때 상기 현재 RGB-프레임과 투영된 결과의 차이가 최소화되도록 정합 파라미터를 학습시킬 수 있다.

본 발명의 일 실시 예로서 제공되는 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법 및 이의 장치는, 비지도 학습을 수행함으로써 정답 데이터를 필요로 하지 않고, 로컬 프레임 세트만을 정합시키기 위한 과적합 학습을 통해 보다 정확한 정합파라미터를 식별 가능함으로써 정합 정합도를 향상시킬 수 있다.

또한, 본 발명의 일 실시예에 따르면, 전체 프레임의 정합 없이, 로컬 프레임 세트만을 정합시킴으로써 전체 영역 최적화에 따라 부분적으로 어긋나는 영역(misalignment error) 및 많은 데이터를 처리하기 때문에 계산 속도를 높이기 위해 샘플링을 하는 과정에서 디테일한 정보가 소실되는 문제(over-smoothing error)를 줄일 수 있다.

도 1은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치를 설명하기 위한 구조도이다.
도 4은 본 발명의 실시예에 따른 학습 과정을 포함하는 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에서 학습 알고리즘을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에서 로컬 프레임 세트를 설정하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에서 정합하는 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법의 실험 결과에 따른 효과를 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법을 개략적으로 설명하기 위한 도면이다.

본 발명에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 심도 카메라에 적용될 수 있고, 심도 카메라는 실시간으로 2차원 영상(RGB 영상) 및 3차원 영상(깊이 정보가 제공되는 영상)을 동시에 제공하는 장비를 총징할 수 있으며, 휴대가능한 크기와 저렴한 가격으로 인해 컴퓨터 비전 등 다양한 응용 분야에서 활용될 수 있다. 심도 카메라에 의해 생성되는 깊이 영상(RGB-D 영상으로도 지칭될 수 있고, 데이터 가공 전의 영상을 RGB-D 프레임으로 지칭될 수 있음)은 RGB 영상 및 각 픽셀에 대한 깊이(거리) 정보를 포함하는 영상(D-영상 또는 깊이 정보 영상으로 지칭될 수 있음)을 포함할 수 있다. 다만, 종래 심도 카메라에 의해 생성되는 RGB-D 영상의 경우, 촬영 환경에 따라 피사체와의 거리, 빛 반사, 가림 현상 등으로 인해 깊이 영상 내 잡음(noise) 및 인식되지 못하는 영역(missing region)이 많아 RGB 영상에 비해 정밀도가 상당히 떨어지는 한계가 있다.

이러한 종래 RGB-D 영상의 한계를 극복하기 위해, 본 발명에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 RGB-D 영상의 품질을 높이기 위해 이미지 필터(Image filter) 기반 방법 또는 딥러닝(Deep-learning) 기반 방법 중 어느 하나를 활용할 수 있다. 이미지 필터 기반 방법은 전통적인 영상처리 방법을 활용하여 주어진 영상 내에서 주변 영역 또는 대응되는 RGB 영상의 정보를 활용하여 깊이 정보를 예측하는 기법으로, 현재 획득한 영상 내의 정보만 활용 가능하기에 예측 성능이 상대적으로 딥러닝 기반 방법에 비해 떨어지는 한계가 있다. 딥러닝 기반 방법은 고품질의 RGB-D 영상을 정답 데이터(ground-truth)로 활용하여 RGB-D 영상의 품질을 올리는 기법으로, 이미지 필터 기반 방법에 비해 성능이 높으나, 정답 데이터(ground-truth)의 영상 품질에 의존하고, 이러한 고품질의 데이터 세트를 획득하기 어렵다는 한계가 있다. 본 발명의 일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 딥러닝 기반 방법을 활용할 수 있고, 지도 학습(supervised learning) 방법 또는 비지도 학습(unsupervised learning) 방법 중 어느 하나를 활용할 수 있다. 실시예에 따라, 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 비지도 학습 방법에 기반하여 정답 데이터(ground-truth)로 활용하기 위한 고품질의 RGB-D 영상 데이터 세트를 구축하기 위한 방식 대신, 촬영 대상 객체가 포함되어 촬영의 목적이 되는 현재 위치에서 획득한 영상(현재 영상 또는 타겟 프레임 또는 target frame으로 지칭될 수 있음)에서 정확하게 인식되지 못한 부분을 주변의 다른 위치에서 획득한 영상(주변 영상 또는 이웃 영상 또는 neighboring frame)에서 보완하는 다중뷰(multi-view) 정보를 활용한 방식을 활용할 수 있다.

다중뷰(Multi-view) 기반의 방식은 서로 다른 카메라의 상대적인 위치 정보를 찾는 정합(registration) 기술을 요구하는데, 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 다중뷰(multi-view) 기반 방식으로, 다중 카메라를 부착한 환경 세팅 방법 또는 3차원 모델링 데이터 세트 활용 방법 중 어느 하나를 활용할 수 있다. 다중 카메라를 부착한 환경 세팅 방법은 복수의 심도 카메라를 구비한 장비를 활용하여 미리 계산된 위치 정보를 기반으로 고품질의 데이터 세트를 획득하는 방식이며, 특수한 장비를 필요로 하기에 다양한 환경에서 데이터 획득이 어렵다는 문제가 있다. 3차원 모델링 데이터 세트 활용 방법은 연속적으로 촬영된 깊이 영상에 기초하여 전체 영역을 모델링하기 위한 데이터의 위치 정보를 활용하는 기법으로, 이때, 위치 정보는 전체 영역에 최적화되어 있으므로 부분적으로 어긋나는 영역(misalignment error)이 발생하거나, 많은 데이터를 처리하기 때문에 계산 속도를 높이기 위해 샘플링을 하는 과정에서 디테일한 정보가 소실되는 문제(over-smoothing error)가 발생할 수 있다. 실시예에 따라, 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 3차원 모델링 데이터 세트 활용 방법에 기반할 수 있으나, 전체 영역을 모델링하지 않고, 현재 영상 및 현재 영상의 주변 영상의 일부만을 활용할 수 있다. 상세하게, 일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 촬영된 전체 RGB-D 프레임에 대한 정합을 수행하지 않고, 현재 영상의 일부 주변 프레임만을 정합시킴으로써 샘플링 과정을 생략하여 디테일한 정보의 소실 문제를 해결할 수 있을 뿐만 아니라, 복수의 주변 영상의 평균 또는 가중평균 등의 정보를 활용함으로써 깊이 정보가 식별되지 않은 영역에 대한 깊이 정보를 예측할 수 있다. 목적이 되는 현재 영상(target frame)과 정합의 대상이 되는 복수의 주변 영상(neighboring frame)은 로컬 프레임 세트(local frame set)으로 지칭될 수 있으며, 전체 영상이 아닌 로컬 프레임 세트만이 정합 대상이 될 수 있다.

실시예에 따라, 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 다중뷰 방법에 기반하여 연속적인 주변 영상을 활용하기 위해 결과적으로 현재 영상에 주변 영상을 정합하는 과정을 필수적으로 수행할 수 있으며, 정합의 정확도가 전체적인 성능에 영향을 줄 수 있다. 실시예에 따라, 정합 과정은 현재 프레임에 주변 프레임의 깊이 정보를 활용하기 위해 현재 프레임과 주변 프레임에서 일치되는 점 또는 영역을 확인하는 과정으로 지칭될 수 있다. 실시예에 따라, 다수 카메라에 의해 다중뷰 방법이 구현될 수 있으나, 1대의 카메라가 동영상(비디오)처럼 연속적으로 촬영할 수 있고, 1대의 카메라가 비디오처럼 연속적으로 촬영되더라도, 전체 영상은 다른 위치에 존재하는 복수의 카메라에 의해 생성되는 각 프레임들의 집합으로 볼 수 있으므로, 정합 과정은 영상을 촬영하는 카메라 간의 위치 관계를 식별 또는 계산하는 과정을 포함할 수 있으며, 예를 들어, 스테레오 정합(stereo matching) 방법을 이용하여 색상 영상에 해당하는 깊이 맵을 식별하는 과정을 포함할 수 있다.

본 발명에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 현재 영상 및 주변 영상과 어떤 영역이 동일한지 식별하기 위한 정합 방법으로, 특징 기반(feature based 또는 hand-craft feature based) 방법 또는 딥러닝 학습 기반 방법 중 어느 하나를 활용할 수 있다. 특징 기반 방법은 사용자가 객체의 특징을 정의하는 방법이고, 딥러닝 학습 기반 방법은 AI 학습을 활용하는 방법이며, 딥러닝 학습 기반 방법이 로우레벨의 특징을 더 잘 학습 및 식별하여 성능이 뛰어나기에, 본 발명에 따른 실시예는 딥너링 학습 기반 방법을 활용할 수 있으나, 비지도 학습 방법에 기반하여 별도의 정답 데이터(ground-truth) 없이 연속적으로 생성된 현재 영상 및 주변의 RGB-D 영상 프레임 세트를 로컬 프레임 세트로 설정하고, 이에 대해서만 정합 과정을 수행하여 다중뷰(multi-view) 기반의 깊이 영상 데이터 세트 획득 방식의 문제점을 해결할 수 있고, 오픈 데이터 세트 뿐만 아니라, 임의로 획득한 영상으로도 데이터를 생성할 수 있다.

실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법은 심도 카메라에 적용될 수 있고, 심도 카메라에 적용되는 다양한 깊이 영상 생성 방법에 한정되지 않으며, 예를 들어, 심도 카메라에 적용되는 다양한 깊이 영상 생성 방법으로 스테레오(stereo-type) 방법 또는 ToF(Time-of-Flight) 방법, 구조광 패턴(structured pattern) 방법 등 연산을 통해 재가공하여 깊이 영상을 생성하는 다양한 방법에 적용될 수 있다. 스테레오 방식은 두 개의 2D 이미지 센서를 결합해서 깊이 영상을 생성하며, 촬영 대상 객체와의 거리를 측정하기 위해 한 쌍의 카메라를 활용하여 한 쌍의 카메라 사이의 시점 불일치를 이용하고, 두 카메라의 시선 중심 간의 거리는 깊이 측정에 필요한 시차를 생성하기 위한 기준선(IPD, inter-pupillary distance)으로 활용되며, 촬영 대상 객체의 각도 식별에 활용될 수 있다. ToF 방법은 장면의 모든 픽셀에 대한 변조된 광신호의 지연 또는 위상 시프트를 측정하여 이동 시간 정보를 획득할 수 있고, ToF 센서는 픽셀이 장면까지의 거리를 식별할 수 있는 픽셀 배열로 구성될 수 있다. 각 픽셀에서 전송된 신호에 대해 수신된 광신호의 지연이 측정되며, 상관 함수는 각 픽셀에서 수행되고, 평균 또는 적분을 통해 산출되는 상관값은 이동 시간 또는 지연을 표시할 수 있다. 구조광 방법은 구조화된 빛 한 세트(set)의 패턴을 촬영 대상 객체에 투사하고, 이미지 센서로 결과 이미지를 캡처하는 광학 3D 스캐닝 방법으로, 카메라와 투영기 간의 분리로 특정 지점을 찾고, 삼각측량 알고리즘을 활용하여 깊이를 식별할 수 있다.

도 2는 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법을 설명하기 위한 순서도이며, 도 3은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치를 설명하기 위한 구조도이다.

도 2 및 도 3을 참조하면, 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치(300)는 심도 카메라(도면 미도시) 또는 심도 카메라의 촬영부로부터 촬영된 영상을 입력 받는 입출력부(310), 깊이 정보를 학습하거나 촬영 대상 객체를 포함하며 촬영의 목적이 되는 현재 영상의 깊이 정보를 식별하는 제어부(320) 및 깊이 영상 생성 알고리즘이나 설정 정보 등을 포함하는 메모리(330)를 포함할 수 있다.

실시예에 따라, 제어부(320)는 연속적으로 획득한 로컬 프레임 세트(또는 로컬 RGB-D 프레임 세트)을 학습 데이터로 활용할 수 있는 깊이 영상 생성 알고리즘을 활용할 수 있다. 깊이 영상 생성 알고리즘을 통해 학습되기 이전에, 제어부(320)는 로컬 프레임 세트를 설정할 수 있다(S210). 제어부(230)는 연속적으로 촬영된 RGB-D 프레임 데이터 세트 중, 전체 프레임이 아닌 현재의 프레임 및 이의 전후로 기 설정된 개수의 연속된 복수의 프레임만 로컬 프레임 세트로 선택할 수 있다.

연속적으로 촬영된 깊이 영상의 경우, 현재 프레임과 관련도가 높은 프레임은 주변 프레임에 분포할 수 있고, 제어부(320)는 기 설정된 개수의 연속된 영상만을 활용함으로써 샘플링 과정을 생략할 수 있고, 샘플링에 따라 발생할 수 있는 디테일한 정보 소실 문제(over-smoothing error)가 발생하지 않을 수 있다. 예를 들어, 100번 프레임에 대한 깊이 정보의 정확도를 높이고 싶은 경우, 제어부(320)는 90번 프레임부터 110번 프레임까지의 주변 영상을 활용할 수 있고, 해당 주변 프레임들을 100번 프레임의 위치로 정렬시키는 과정을 포함하는 정합 과정을 수행할 수 있다.

실시예에 따라, 기 설정된 개수는 심도 카메라의 이동속도, 조도 변화, 장애물 유무 등 촬영 환경에 따라 상이하게 설정될 수 있으며, 심도 카메라의 이동 속도(또는 회전 속도)가 빨라 영상 속 촬영 대상 객체의 차이가 큰 경우 기 설정된 개수는 증가할 수 있으며, 심도 카메라의 이동 속도가 느려 영상속 촬영 대상 객체의 차이가 작은 경우 기 설정된 개수는 감소할 수 있다.

실시예에 따라, 제어부(320)는 로컬 프레임 세트를 정합할 수 있으며, 정합을 위해 비지도 학습 방법에 따라 깊이 영상 생성 알고리즘을 학습하여 카메라의 위치 정보를 추정할 수 있다(S220). 제어부(320)가 비지도 학습 방법에 따라 깊이 영상 생성 알고리즘을 학습함에 있어, 정합 목적의 네트워크가 아닌 로컬 데이터 세트를 구축하는 것이 목표이므로 각 세트마다 독립적으로 과적합 (overfitting) 학습을 수행하여 정합의 성능을 향상시킬 수 있다.

실시예에 따라, 제어부(320)는 비지도 학습 방법에 따른 깊이 영상 정합 알고리즘을 활용하여 별도의 정답 데이터 세트 없이 연속된 깊이 영상 프레임만으로 고품질 깊이 영상을 생성할 수 있다. 제어부(320)는 로컬 프레임 세트 내에서 현재 프레임을 기준으로 최적화된 깊이(위치) 정보를 추정하므로 부분적으로 어긋나는 영역(misalignment error)이 발생하지 않을 수 있다.

실시예에 따라, 제어부(320)는 정합된 깊이 영상들을 화소 단위로 평균 또는 가중평균하여 깊이 영상을 출력시킬 수 있다(S230). 제어부(320)는 로컬 프레임 세트에서 현재 영상을 제외한 주변 영상을 현재 프레임 기준으로 정합하여 픽셀(화소) 단위의 평균을 식별할 수 있다. 정합 과정 후 픽셀 단위로 식별된 깊이 정보에 대한 평균을 영상 전체에 반영함으로써 잡음이 제거될 수 있으며, 깊이 정보 관련 센싱이 안되는 영역(missing-value)을 보완할 수 있다. 다시 말해서, 제어부(320)는 여러 위치에서 획득한 깊이 영상을 현재 프레임을 기준으로 정합하여 화소 단위로 평균을 계산할 수 있다. 일반적으로 깊이 영상은 촬영 거리에 따라 오차가 증가할 수 있기에, 제어부(320)는 현제 프레임을 기준으로 가까운 거리에 위치한 깊이 정보를 대상으로 높은 가중치 부여할 수 있고, 결과적으로, 간단한 계산으로 화소 단위의 노이즈 감소, 빈 영역에 대한 깊이 정보를 회복시킬 수 있다.

도 4은 본 발명의 실시예에 따른 학습 과정을 포함하는 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법을 설명하기 위한 도면이며, 도 5는 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에서 학습 알고리즘을 설명하기 위한 도면이고, 도 6은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에서 로컬 프레임 세트를 설정하는 과정을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치는 정합을 위해 네트워크를 학습시키는 것이 아니라, 로컬 프레임 세트 안에서만 최대한 정확한 정합파라미터를 식별하도록 학습이 수행되어 정합 정확도가 증가될 수 있고, 비지도 학습 방법에 따른 과정합 학습을 통해 로버스트한 정합(robust registration) 성능을 향상시킬 수 있다. 추가적으로, 과정합의 발생을 확인하기 위한 학습 데이터에 대한 손실(training loss) 및 검증 데이터에 대한 손실(validation loss)를 비교하는 연산이 불필요하며, 과정합을 회피하기 위한 통상적인 과정으로서 정직화(regularization), 교차타당화(cross validation) 등에 따른 데이터처리가 생략됨에 따라 처리속도가 증가할 수 있다. 또한, 본 발명의 일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치는 과적합 훈련된 비지도 학습 방법을 통해 연속적으로 촬영된 RGB-D 데이터 세트만을 활용하기 때문에, 비지도 학습 방법에 따른 과정합 학습 특성상 정답 데이터를 필요로 하지 않는다는 효과도 가질 수 있다.

일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치는 비지도 학습 방법에 기초하여, RGB 영상과 D 영상을 세트로 포함하는 깊이 영상을 입력 받아, 종래의 2개의 프레임 간 정합 학습을 위한 손실 함수(loss function)에서 확장하여 복수개의 프레임 간의 정합 학습을 위한 손실 함수로, 수학식 1 내지 수학식 3에 의해 학습될 수 있다.

[수학식 1]

[수학식 2]

[수학식 3]

일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치는 깊이 영상을 RGB 영상과 D 영상으로 구분하고, 복수의 로컬 RGB-D 프레임 세트에 대해 각각을 이미지로 프로젝션 시킨 값의 차이가 최소화되도록 정합 파라미터를 학습시킬 수 있다.

일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치이 포함하는 깊이 영상 생성 알고리즘은 로컬 프레임 세트에 포함되는 각각의 RGB-D 프레임에 대응하는 로테이션(rotation, R) 정보와 트랜스레이션(translation, T) 정보를 추정, 식별할 수 있고, 식별된 로테이션 정보와 트랜스레이션 정보에 기초하여 포인트 클라우드를 축적 및 융합하여 현재 영상에 복수의 주변 영상을 각각 투영(projection)시켰을 때 차이가 줄도록, 최소화되도록 정합 파라미터를 학습시키면서 업데이트될 수 있다.

일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치이 포함하는 깊이 영상 생성 알고리즘은 수학식 1 내지 3에 따라 로테이션 정보와 트랜스레이션 정보의 추정을 위한 학습할 수 있으며, 포인트(p)를 수학식 1에 따라 D 영역에서 투영시켰을 때의 현재 영상과 주변 영상 중 어느 하나 간의 차이를 감소시키도록, 수학식 2에 따라 RGB 영역에서 투영시켰을 때의 현재 영상과 주변 영상 중 어느 하나 간의 차이를 감소시키도록 정합파라미터를 학습시킬 수 있다. 여기서 M은 코레스펀던스 세트의 개수이며, ω는 각각에 대한 가중치를 지시할 수 있다.

도 7은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에서 정합하는 과정을 설명하기 위한 도면이다.

도 7을 참조하면, 일 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치이 포함하는 깊이 영상 생성 알고리즘은 수학식 4에서와 같이 촬영된 모든 영상에 대해서 로테이션(rotation, R) 정보와 트랜스레이션(translation, T) 정보를 추정하지 않고, 수학식 5에서와 같이 일부 영상에 대해서만 로테이션 정보와 트랜스레이션 정보를 추정할 수 있다.

[수학식 4]

[수학식 5]

도 8은 본 발명의 실시예에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법의 실험 결과에 따른 효과를 설명하기 위한 도면이다.

도 8의 (a) 및 (b)를 참조하면, 본 발명에 따른 연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법에 따른 출력(proposed)이 단일뷰 방법에 따라 생성된 출력(colorization), 다중뷰 방법에 기초하나 모든 영상을 정합하는 방법에 따른 출력(Recon-global), 다중뷰 방법에 기초하며, 일부 영상을 정합하나 비지도 학습 알고리즘의 적용이 없는 방법에 따른 출력(Recon-local) 대비 특징이 뚜렷하지 않는 부분(예를 들어, 텍스쳐가 없는 벽)에 대해 어느 부분이 동일한지 식별이 가능하며, 부분적으로 어긋나는 영역(misalignment error)이 없어 성능이 상대적으로 높다고 이해될 수 있다.

본 발명의 다양한 실시예들은 기기(machine)(예를 들어, 차량 생성 데이터 기록장치 또는 컴퓨터)에 의해 읽을 수 있는 저장 매체(storage medium)(예를 들어, 메모리)에 저장된 하나 이상의 인스트럭션들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서는, 저장 매체로부터 저장된 하나 이상의 인스트럭션들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 인스트럭션에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 인스트럭션들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예를 들어, 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예를 들어, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 명세서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예를 들어, compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다. 이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

촬영 대상 객체가 포함되는 현재 RGB-D 프레임과 복수의 이웃 프레임을 포함하는 로컬 프레임 세트를 식별하는 과정;
상기 현재 RGB-프레임에 상기 복수의 이웃 프레임에 포함되는 각각의 프레임을 정합시키는 과정; 및
상기 정합된 로컬 프레임 세트의 화소 단위의 평균 정보를 식별하고, 상기 식별된 평균 정보를 정합된 현재 RGB-D 프레임에 반영하는 과정; 을 포함하며,
상기 복수의 이웃 프레임은 상기 현재 RGB-D 프레임을 기준으로 기 설정된 개수의 이전 프레임 및 이후 프레임을 포함하는,
연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법.
제1항에 있어서,
상기 로컬 프레임 세트에 기반하여 비지도 학습(unsupervised learning) 방법에 따른 과정합(overfitting) 학습을 수행하는 과정; 을 더 포함하는,
연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법.
제2항에 있어서,
상기 과정합(overfitting) 학습을 수행하는 과정은,
상기 로컬 프레임 세트에 포함되는 각각의 RGB-D 프레임에 대응하는 로테이션(rotation) 정보와 트랜스레이션(translation) 정보를 식별하는 과정; 및
상기 식별된 로테이션 정보와 트랜스레이션 정보에 기초하여 포인트 클라우드를 융합하여 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임 투영(projection)시켰을 때 상기 현재 RGB-프레임과 투영된 결과의 차이가 최소화되도록 정합 파라미터를 학습시키는 과정; 을 포함하는,
연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 방법.
촬영 대상 객체가 포함되는 현재 RGB-D 프레임과 복수의 이웃 프레임을 입력 받는 입력부; 및
상기 현재 RGB-D 프레임과 상기 복수의 이웃 프레임을 포함하는 로컬 프레임 세트를 식별하고, 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임에 포함되는 각각의 프레임을 정합시키며, 상기 정합된 로컬 프레임 세트의 화소 단위의 평균 정보를 식별하고, 상기 식별된 평균 정보를 정합된 현재 RGB-D 프레임에 반영하는 제어부;를 포함하며,
상기 복수의 이웃 프레임은 상기 현재 RGB-D 프레임을 기준으로 기 설정된 개수의 이전 프레임 및 이후 프레임을 포함하는,
연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치.
제5항에 있어서,
상기 제어부는,
상기 로컬 프레임 세트에 기반하여 비지도 학습(unsupervised learning) 방법에 따른 과정합(overfitting) 학습을 수행하는,
연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치.
제5항에 있어서,
상기 제어부는,
상기 로컬 프레임 세트에 포함되는 각각의 RGB-D 프레임에 대응하는 로테이션(rotation) 정보와 트랜스레이션(translation) 정보를 식별하며,
상기 식별된 로테이션 정보와 트랜스레이션 정보에 기초하여 포인트 클라우드를 융합하여 상기 현재 RGB-프레임에 상기 복수의 이웃 프레임 투영(projection)시켰을 때 상기 현재 RGB-프레임과 투영된 결과의 차이가 최소화되도록 정합 파라미터를 학습시키는,
연속적인 RGB-D 프레임 세트를 활용한 고품질 깊이 영상 생성 장치.