KR102323413B1

KR102323413B1 - 카메라 포즈 추정 방법

Info

Publication number: KR102323413B1
Application number: KR1020200056682A
Authority: KR
Inventors: 전해곤
Original assignee: 광주과학기술원
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2021-11-09

Abstract

카메라 포즈 추정 방법이 개시된다. 본 발명에 따른 카메라 추정 방법은, 원본 이미지로터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 시각적 측위 네트워크를 트레이닝하는 단계, 쿼리 이미지를 획득하는 단계, 및, 상기 쿼리 이미지를 상기 시각적 측위 네트워크에 제공하여 카메라의 포즈를 추정하는 단계를 포함한다.

Description

카메라 포즈 추정 방법 {METHOD FOR ESTIMATING POSE OF CAMERA}

본 발명은, 시각적 측위에 기반하여, 환경 조건의 변화에도 불구하고 강인한 성능을 나타낼 수 있는 카메라 포즈 추정 장치에 관한 것이다.

인공 지능(artificial intelligence)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.

또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.

한편, 인공지능을 이용하여 주변의 상황을 인지 및 학습하고 사용자가 원하는 정보를 원하는 형태로 제공하거나 사용자가 원하는 동작이나 기능을 수행하는 기술이 활발하게 연구되고 있다.

시각적 측위(visual localization)란, 카메라에 의해 촬영된 이미지를 이용하여 카메라의 포즈를 추정하는 기술이다.

구체적으로, 시각적 측위(visual localization)는 카메라에 의해 촬영된 이미지를 데이터베이스 내 이미지들과 비교하거나 미리 훈련된 딥 러닝 기반의 예측 모델에 입력함으로써, 카메라의 포즈를 추정하게 된다.

다만 물체의 움직임, 조명의 변화, 시간의 변화, 계절의 변화 등이 발생하는 경우 시각적 측위(visual localization)의 성능은 낮아질 수 있으며, 특히 기하학적 구조(Geometry)가 변경되는 재난 상황에서는 더욱 심각한 문제가 발생할 수 있다.

US9641981B2: Visual localization method US20160209846A1: Visual Localization Within LIDAR Maps US20140010407A1: Image-based localization US20120194644A1: Mobile Camera Localization Using Depth Maps

DSAC: Differentiable RANSAC for Camera Localization, IEEE conference on computer vision and pattern recognition 2017 NetVLAD: CNN architecture for weakly supervised place recognition, IEEE conference on computer vision and pattern recognition 2016 Image-based localization using LSTMs for structured feature correlation, IEEE International Conference on Computer Vision 2017

본 발명은, 시각적 측위에 기반하여, 환경 변화에도 불구하고 강인한 성능을 나타낼 수 있는 카메라 포즈 추정 장치에 관한 것이다.

본 발명의 실시 예에 따른 카메라 포즈 추정 방법은, 원본 이미지로터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 시각적 측위 네트워크를 트레이닝하는 단계, 쿼리 이미지를 획득하는 단계, 및, 상기 쿼리 이미지를 상기 시각적 측위 네트워크에 제공하여 카메라의 포즈를 추정하는 단계를 포함한다.

이 경우 상기 복수의 훈련 이미지는, 상기 원본 이미지로부터 구조물의 형태가 유지될 수 있다.

한편 상기 복수의 훈련 이미지는, 스타일 트랜스퍼 이미지일 수 있다.

한편 상기 복수의 훈련 이미지는, 상기 원본 이미지에 재난 상황의 이미지가 합성된 이미지일 수 있다.

한편 상기 복수의 훈련 이미지는, 상기 원본 이미지에, 상기 원본 이미지와 시간, 날짜, 날씨 및 계절 중 적어도 하나가 상이한 이미지가 합성된 이미지일 수 있다.

상기 시각적 측위 네트워크는, 상기 쿼리 이미지로부터 평면 정보를 추정하고, 상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정할 수 있다.

이 경우 상기 평면 정보는, 평면 분할 맵 및 평면 파라미터를 포함할 수 있다.

이 경우 상기 시각적 측위 네트워크는, 상기 쿼리 이미지로부터 상기 평면 정보를 추정하는 평면 추정 네트워크 및 상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함할 수 있다.

이 경우 상기 평면 추정 네트워크는, 상기 쿼리 이미지에 기반하여 특징 맵을 생성하는 인코더 및 상기 특징 맵을 언샘플링 하여 상기 평면 분할 맵을 생성하는 디코더를 포함할 수 있다.

이 경우 상기 평면 추정 네트워크는, 상기 인코더에 연결되어, 상기 특징 맵을 이용하여 상기 평면 파라미터를 추정하는 파라미터 추정 브랜치를 포함할 수 있다.

이 경우 상기 포즈 추정 네트워크는, 상기 쿼리 이미지 및 상기 평면 분할 맵에 기반하여 특징 벡터를 추출하는 제2 인코더 및 상기 평면 파라미터가 임베딩된 상기 특징 벡터를 이용하여 상기 카메라의 포즈를 추정하는 포즈 추정기를 포함할 수 있다.

한편 본 발명의 실시 예에 따른 카메라 포즈 추정 장치는, 쿼리 이미지를 획득하는 영상 수신부, 및, 상기 쿼리 이미지를 시각적 측위 네트워크에 입력하여 카메라의 포즈를 추정하는 프로세서를 포함하고, 상기 시각적 측위 네트워크는, 원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 트레이닝 될 수 있다.

이 경우 상기 시각적 측위 네트워크는, 상기 쿼리 이미지로부터 평면 정보를 추정하고, 상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정할 수 있다.

이와 같이 본 발명에 따른 카메라 포즈 추정 방법은, 원본 이미지로부터 텍스쳐를 변경한 훈련 이미지를 사용함으로써, 환경 조건의 변화에 강인한 성능을 나타낼 수 있다.

또한 본 발명에 따른 카메라 포즈 추정 방법은, 평면 정보를 추출하고 추출된 평면 정보를 이용하여 카메라의 포즈를 추정하기 때문에, 재난 상황 등에서 나타나는 기하학적 변화에도 불구하고 강인한 성능을 나타낼 수 있는 장점이 있다.

도 1 내지 도 2는 종래 기술의 문제점을 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예에 따른 카메라 포즈 추정 장치를 설명하기 위한 도면이다.
도 4는 CNN의 형태 바이어스를 증가시키기 위한 훈련 이미지를 도시한 도면이다.
도 5는 복수의 훈련 이미지를 이용한 CNN의 트레이닝을 설명하기 위한 도면이다.
도 6 내지 도 7은, 쿼리 이미지를 이용하여 평면 정보를 추정하고, 평면 정보를 이용하여 카메라의 포즈를 추정하는 방법을 설명하기 위한 도면이다.
도 8 및 도 9는, 원본 이미지에 다양한 이미지를 합성하여 뉴럴 네트워크를 트레이닝 한 경우의 실험 결과를 설명하기 위한 도면이다.
도 10은 본 발명에 따른 또 다른 실험 결과를 도시한 도면이다.
도 11은 화재 상황에서의 카메라의 실제 이동 경로 및 카메라의 추정 경로를 도시한 도면이다.
도 12는 계절 변화에 따른 성능을 비교하기 위한 도면이다.
도 13은 스타일 트랜스퍼 이미지(ST)의 수와 관련된 성능을 도시한 도면이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.

도 1 내지 도 2는 종래 기술의 문제점을 설명하기 위한 도면이다.

종래에는 시각적 측위(visual localization)의 방식으로, 카메라에 의해 촬영된 이미지를 데이터베이스 내 이미지들과 비교하거나 미리 훈련된 CNN에 입력하는 방식, 촬영된 이미지의 3D 정보를 데이터베이스 내 3D 정보와 매칭을 시키는 방식 등이 사용되었다.

시각적 측위(visual localization)에서 정확도를 향상시키기 위하여 중요한 것은, 쿼리 이미지를 데이터 베이스 내 이미지들 또는 CNN의 트레이닝에 사용되었던 이미지들과 일치시키거나 그 차이를 최소화시키는 것이다.

다만 영상이 촬영되는 장소의 환경은 변경될 수 있다. 계절의 변화에 의해 도로나 지붕에 눈이 쌓이거나 나무의 잎이 무성해질 수 있으며, 밤/낮의 변화로 인하여 조도가 변경될 수 있고, 데이터베이스 내 이미지에는 포함되지 않았던 새로운 물체(예를 들어 자동차)가 등장할 수도 있다.

이러한 환경 변화가 발생하는 경우 시각적 측위(visual localization)의 성능은 낮아지게 되며, 이러한 문제점을 해결하기 위하여 도 1에서 도시한 바와 같이 의미론적 레이블(semantic label)이 사용되었다.

의미론적 레이블(semantic label)은, 도로, 나무, 건물, 인도 등 환경 변화에도 불구하고 변동성이 적거나 덜한 구조물을 그 종류에 따라 다른 색상으로 나타내는 것으로, 의미론적 레이블(semantic label)을 원본 이미지와 매칭시켜 트레이닝을 하는 경우 딥 러닝을 이용한 시각적 측위(visual localization)의 성능이 향상될 수 있다.

다만 지진, 화재, 해일, 태풍 등의 재난 상황이 발생하였다고 가정한다. 도 2에서는 재난 상황의 예로, 화재 상황을 도시하였다.

이러한 재난 상황에서는 장면 내 기하학적 구조(Geometry)가 변경되게 되며, 이러한 상황에서는 의미론적 레이블(semantic label)을 사용하여도 시각적 측위(visual localization)의 성능이 매우 약화되게 된다.

예를 들어 도 1을 참고하면, 원본 이미지(110) 및 의미론적 레이블(111)을 포함하는 트레이닝 데이터 셋이 CNN의 트레이닝에 사용되었다. 이 경우 딥 러닝 모델은 원본 이미지(110)를 이용하여 의미론적 레이블(111)을 추정하고, 의미론적 레이블(111)을 이용하여 카메라의 포즈를 추정하도록 트레이닝 된다.

그리고 환경 변화에 의하여 나무가 쓰러진 경우를 가정한다.

사용자에 의해 촬영된 쿼리 이미지(120) 상에서 나무가 쓰러진 상태이기 때문에, 딥 러닝 모델이 쿼리 이미지(120)를 이용하여 추정한 이미지(121)는 원본 이미지(110)의 의미론적 레이블(111)과 상이하게 된다. 따라서 이미지(121)를 이용하여 카메라의 포즈를 추정하는 경우, 시각적 측위(visual localization)의 성능이 낮아질 수 있다.

특히 지진, 화재, 해일, 태풍 등의 재난 상황에서는 나무가 쓰러지는 것을 넘어, 벽 또는 지붕이 무너지거나 도로가 파괴되거나 건물이 없어지는 등, 장면 내 기하학적 구조(Geometry)에 극심한 변화가 나타난다.

따라서 재난 상황을 포함하는 여러 환경 변화에도 불구하고, 시각적 측위(visual localization)의 성능을 유지하는 것이 중요하다.

도 3은 본 발명의 실시 예에 따른 카메라 포즈 추정 장치를 설명하기 위한 도면이다.

카메라 포즈 추정 장치(100)는 프로세서(310), 영상 수신부(320), 출력부(330) 및 메모리(340)를 포함할 수 있다.

카메라 포즈 추정 장치(100)는 데이터 마이닝, 데이터 분석, 지능형 의사 결정 및 기계 학습 알고리즘을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다. 여기서, 기계 학습 알고리즘은 딥 러닝 알고리즘을 포함할 수 있다.

영상 수신부(320)는, 영상 신호 입력을 위한 카메라를 포함할 수 있다. 카메라(121)는 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부에 표시되거나 메모리(340)에 저장될 수 있다.

영상 수신부(320)는 통신부를 포함할 수 있다.

카메라 포즈 추정 장치(300)가 촬영 장치인 경우, 통신부는 서버와 통신하여 카메라에 의해 촬영된 쿼리 이미지를 서버에 전송할 수 있다.

카메라 포즈 추정 장치(300)가 서버인 경우, 통신부는 촬영 장치와 통신하여 촬영 장치에 의해 촬영된 쿼리 이미지를 수신하고, 수신된 쿼리 이미지에 기반하여 추정된 카메라의 포즈를 촬영 장치에 전송할 수 있다.

출력부(330)는 시각과 관련된 출력을 발생시키기 위한 것으로, 디스플레이를 포함할 수 있다. 디스플레이는 카메라 포즈 추정 장치(300)에서 처리되는 정보를 표시(출력)할 수 있다.

메모리(340)는 트레이닝 중인 뉴럴 네트워크 또는 트레이닝이 완료됨으로써 생성된 시각적 측위 네트워크를 저장할 수 있다.

뉴럴 네트워크 또는 시각적 측위 네트워크는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 이 경우 뉴럴 네트워크 또는 시각적 측위 네트워크를 구성하는 하나 이상의 명령어는 메모리(340)에 저장될 수 있다.

또한 메모리(340)O는 카메라 포즈 추정 장치의 동작을 위한 프로그램을 저장할 수 있다.

프로세서(310)는 카메라 포즈 추정 장치(300)의 전반적인 동작을 제어할 수 있다.

한편 뉴럴 네트워크는 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.

그리고 훈련 데이터와 훈련 데이터에 대응하는 레이블링 데이터는 하나의 트레이닝 셋(training set)을 구성하고, 뉴럴 네트워크에는 트레이닝 셋의 형태로 입력될 수 있다.

이 경우 뉴럴 네트워크는 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 뉴럴 네트워크에서 유추된 함수에 대한 평가를 통해 뉴럴 네트워크의 파라미터가 결정(최적화)될 수 있다.

프로세서(310)는 훈련 데이터 또는 트레이닝 셋(training set)을 이용하여 뉴럴 네트워크를 훈련시킬 수 있다.

본 명세서에서는 훈련 데이터를 이용하여 학습됨으로써 파라미터가 결정된 뉴럴 네트워크를 시각적 측위 네트워크라 명칭한다. 그리고 뉴럴 네트워크로는, 컨볼루션 뉴럴 네트워크(Convolutional neural network)가 사용될 수 있다.

한편 프로세서(310)는 카메라에 의해 촬영된 쿼리 이미지를 시각적 측위 네트워크에 제공할 수 있다.

구체적으로 카메라 포즈 추정 장치(300)에 시각적 측위 네트워크가 탑재된 경우, 프로세서(310)는 카메라에 의해 촬영된 쿼리 이미지를 카메라 포즈 추정 장치(300)에 탑재된 시각적 측위 네트워크에 입력할 수 있다.

또한 시각적 측위 네트워크가 카메라 포즈 추정 장치(300)에 탑재되지 않은 경우(예를 들어 시각적 측위 네트워크가 카메라 포즈 추정 장치(300)와 통신하는 서버에 탑재된 경우), 프로세서(310)는 카메라에 의해 촬영된 쿼리 이미지를 서버로 전송할 수 있다. 이 경우 서버의 프로세서는 쿼리 이미지를 서버에 탑재된 시각적 측위 네트워크에 입력하여 카메라의 포즈를 추정하고, 카메라의 포즈에 대한 정보를 카메라 포즈 추정 장치(300)에 전송할 수 있다.

한편 프로세서(310)는 카메라의 포즈에 대한 정보를 디스플레이 하도록 디스플레이부를 제어할 수 있다.

한편 본 발명에서는, 환경 변화의 변화에도 불구하고, 촬영된 쿼리 이미지로부터 6-자유도(6 Dgrees Of Freedom, DOF) 카메라의 포즈(카메라의 위치 정보 및 회전 정보 중 적어도 하나)를 추정하는 것을 목표로 한다.

그리고 첫번째 실시 예에서는, CNN의 형태 바이어스를 증가시키는 방식을 용한다.

도 4는 CNN의 형태 바이어스를 증가시키기 위한 훈련 이미지를 도시한 도면이다.

기존의 CNN 기반 시각적 측위 방법은, 형태(shape) 변화가 적은 환경에서는 비교적 잘 동작하지만, 형태(shape)의 변화가 큰 환경에서는 그 성능이 크게 저하된다.

이것은 CNN이 물체 인식을 위하여 형태(shape)보다는 텍스쳐(texture)에 더욱 의존적으로 장면의 묘사(representation)를 학습하는 경향이 크기 때문이다. 여기서 텍스쳐(texture)는 질감을 의미할 수 있다.

다만 환경 조건의 변화가 발생하는 경우 텍스쳐(texture)의 변동성은 형태(shape)의 변동성에 비하여 훨씬 크다. 건물 내부에 불이 난 상황이나 겨울에 눈이 쌓인 상황을 가정하면, 벽/지붕/바닥/기둥 등의 변형보다 텍스쳐의 변동이 훨씬 큰 것이 그 예이다.

따라서 본 발명에서는, 다양한 질감을 가지는 이미지들을 트레이닝 데이터로 사용하여 CNN을 트레이닝 함으로써, CNN이 텍스쳐(texture)와 관련된 특징(feature) 대신 형태(shape)와 관련된 특징(feature)에 더욱 초점을 맞추어 정답값을 추론하도록 할 수 있다.

구체적으로 카메라 포즈 추정 방법은, 원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 뉴럴 네트워크를 트레이닝 하는 방법을 포함할 수 있다.

원본 이미지의 텍스쳐는 다양한 방식으로 변경될 수 있다.

일 례로, 복수의 훈련 이미지는 원본 이미지로부터 구조물의 형태가 유지될 수 있다. 여기서 원본 이미지는 주요 구조물(예를 들어 도로, 바닥, 건물, 벽, 천정, 나무, 다리 등)을 포함할 수 있으며, 복수의 훈련 이미지는 원본 이미지 내 주요 구조물(예를 들어 도로, 바닥, 건물, 벽, 천정, 나무 등)의 형태는 유지한 채, 텍스쳐을 변경하는 방식으로 생성될 수 있다.

다른 예로, 복수의 훈련 이미지는, 스타일 트랜스퍼(style transfer) 이미지일 수 있다.

스타일 트랜스퍼(style transfer)란, 원본 이미지의 컨텐츠는 보존하면서 참조 이미지의 스타일을 원본 이미지에 적용하는 방식이다.

예를 들어 다양한 화가들의 작품(421, 422, 423)들이 원본 이미지(410)에 합성됨으로써, 다양한 텍스쳐를 가지는 복수의 훈련 이미지들이 생성될 수 있다.

여기서 참조 이미지의 스타일은, 참조 이미지의 텍스쳐를 포함할 수 있다. 따라서 원본 이미지(410)에 다양한 참조 이미지들이 합성되는 경우, 원본 이미지로부터 텍스쳐가 다양하게 변경된 복수의 훈련 이미지들이 생성될 수 있다. 이 경우 원본 이미지 내 구조물의 형태는 원본 이미지의 텍스쳐에 비하여 더 많이 보존될 수 있다.

한편 원본 이미지로부터 쿼리 이미지가 어떻게 변형될 것인지를 고려하는 경우, 뉴럴 네트워크가 더욱 효과적으로 트레이닝 될 수 있다.

구체적으로, 원본 이미지가 재난이 발생하지 않은 상황의 이미지라고 가정한다. 그리고 재난이 발생한 상황에서 강인한 성능을 발휘하기 위하여, 복수의 훈련 이미지는 원본 이미지(410)에 재난 상황의 이미지(440)가 합성된 이미지일 수 있다.

이 경우 재난 상황의 이미지의 스타일이 원본 이미지에 적용될 수 있다.

그리고 재난 상황의 이미지의 스타일은 재난 상황의 이미지의 텍스쳐를 포함할 수 있으며, 원본 이미지로부터 텍스쳐가 변경된 훈련 이미지가 생성될 수 있다. 이 경우 원본 이미지 내 구조물의 형태는 원본 이미지의 텍스쳐에 비하여 더 많이 보존될 수 있다.

다른 예를 들어, 원본 이미지로부터 환경 조건이 다양하게 변경된 경우에도 강인한 성능을 발휘하도록, 원본 이미지는 다양한 이미지와 합성될 수 있다.

구체적으로 복수의 훈련 이미지는, 원본 이미지에, 원본 이미지와 시간, 날짜, 날씨 및 계절 중 적어도 하나가 상이한 이미지가 합성된 이미지일 수 있다.

예를 들어 여름에 촬영된 원본 이미지(410)에 눈이 쌓여있는 이미지(430)가 합성될 수 있다. 이 경우 눈이 쌓인 이미지의 텍스쳐가 반영된 훈련 이미지가 생성될 수 있다. 다른 예를 들어 해가 뜬 낮에 촬영된 원본 이미지에 해가 뜨지 않은 밤에 촬영된 이미지가 합성될 수 있다. 이 경우 밤에 촬영된 이미지의 텍스쳐가 반영된 훈련 이미지가 생성될 수 있다. 또한, 원본 이미지 내 구조물의 형태는 원본 이미지의 텍스쳐에 비하여 더 많이 보존될 수 있다.

도 5는 복수의 훈련 이미지를 이용한 CNN의 트레이닝을 설명하기 위한 도면이다.

CNN(540)은 복수의 훈련 이미지(510, 520, 530)를 이용하여 트레이닝 될 수 있다.

구체적으로 프로세서는, 복수의 훈련 이미지 및 정답 데이터를 포함하는 복수의 훈련 데이터 셋을 이용하여 CNN을 트레이닝 할 수 있다.

이 경우 복수의 훈련 이미지를 이용하여 CNN이 출력한 데이터와, 복수의 훈련 이미지에 레이블링 된 정답 데이터 간의 차이가 최소화 되도록, CNN의 파라미터가 최적화 될 수 있다.

한편, 동일한 정답 데이터가, 텍스쳐가 다양하게 변경된 복수의 훈련 이미지에 레이블링 될 수 있다.

즉 텍스쳐가 다양하게 변경됨에도 불구하고 CNN은 동일한 정답 데이터를 추정하도록 트레이닝 되기 때문에, 트레이닝 된 CNN은 환경 조건의 변화에도 불구하고 강인한 성능을 나타낼 수 있다.

한편 정답 데이터는 카메라의 포즈일 수 있다. 그리고 복수의 이미지에 카메라의 포즈가 정답 데이터로 제공되는 경우, 트레이닝된 CNN은 쿼리 이미지로부터 카메라의 포즈를 직접 추정할 수 있다.

다만 이에 한정되지 않으며, 정답 데이터는 평면 정보일 수 있다. 이 경우 트레이닝된 CNN은 쿼리 이미지로부터 쿼리 이미지에 상응하는 평면 정보를 추정할 수 있다. 이와 관련해서는 이후에 다시 설명한다.

한편 환경 변화의 변화에도 불구하고 촬영된 쿼리 이미지로부터 6-자유도(6 Dgrees Of Freedom, DOF) 카메라의 포즈(카메라의 위치 정보 및 회전 정보 중 적어도 하나)를 정확하게 추정하기 위한 두번째 실시 예를 설명한다.

환경 조건의 변화에도 불구하고, 평면 정보의 많은 부분은 보존될 수 있다. 따라서 두번째 실시예는 영상을 표현하는 디스크립터로써 평면 정보를 사용할 수 있다.

따라서 두번째 실시예에서는, 쿼리 이미지로부터 평면 정보를 추정하고, 추정된 평면 정보에 기반하여 카메라의 포즈를 추정한다. 이와 관련해서는 도 6 내지 도 7을 참고하여 설명한다.

도 6 내지 도 7은, 쿼리 이미지를 이용하여 평면 정보를 추정하고, 평면 정보를 이용하여 카메라의 포즈를 추정하는 방법을 설명하기 위한 도면이다.

카메라의 포즈는, 유용한 기하학적 정보를 가지는 구조적 특징(feature)을 이용하여 추정될 수 있다. 여기서 기하학적 정보는, 장면에서의 평행성, 직교성, 동일 평면성 등을 포함할 수 있다.

따라서 본 발명에서는, 쿼리 이미지로부터 평면 정보를 추정하고, 추정된 평면 정보를 포즈 추정 네트워크에 대한 입력으로 사용할 수 있다. 평면 정보는 지배적인 평면(Dominant Plane) 정보를 포함할 수 있다. 여기서 지배적인 평면(Dominant Plane) 정보란, 건물, 도로, 인도, 벽, 천장 등 카메라 포즈를 추정하기 위한 기하학적 정보를 가지고 있는 주요 구조물들을 구성하는 평면 들에 대한 정보를 의미할 수 있다.

한편 시각적 측위 네트워크(600)는 평면 추정 네트워크(610)를 포함할 수 있다.

그리고 프로세서는, 훈련 이미지 및 훈련 이미지에 상응하는 평면 정보를 평면 추정 네트워크(610)에 제공하여 평면 추정 네트워크(610)를 트레이닝 할 수 있다. 이 경우 두드러진 평면(salient plane)들을 추출하기 위하여, 평면 추정을 위한 멀티 레벨의 스케일들과 스킵 커넥션을 가지는 인코더-디코더 네트워크(611)가 사용될 수 있다.

이 경우 평면 추정 네트워크(610)는 쿼리 이미지를 이용하여 평면 정보를 추정할 수 있다.

한편 평면 정보는 평면 분할 맵(plane segmentation maps)과 평면 파라미터(plane parameters)를 포함할 수 있다. 그리고 평면 추정 네트워크(610)는, 평면 분할 맵(plane segmentation maps)과 평면 파라미터(plane parameters)를 추정할 수 있다.

구체적으로 쿼리 이미지는 인코더-디코더 네트워크(611)에 포함되는 인코더에 입력될 수 있다. 이 경우 쿼리 이미지는 인코더 내 하나 이상의 컨볼루션 레이어를 통과하여 특징 맵으로 추출될 수 있다.

또한 인코더-디코더 네트워크(611)에 포함되는 디코더는 하나 이상의 디컨볼루션 레이어를 통하여 특징 맵을 언샘플링 하고, 평면 분할 맵(plane segmentation maps)을 출력할 수 있다.

한편 건물, 도로, 인도, 벽, 천장 등의 주요 구조물을 구성하는 지배적인 평면(dominant planes)이 평면 클래스(class)로 정의될 수 있다. 또한 비 평면 클래스를 포함하는 m+1 채널로 평면 분할 맵이 추정될 수 있다. 여기서 m은 평면의 개수를 의미할 수 있다.

한편 평면 추정 네트워크(610)은 평면 파라미터를 추정하는 파라미터 추정 브랜치(612)를 포함할 수 있다. 여기서 파라미터 추정 브랜치(612)는 둘 이상의 풀리 커넥티드 레이어(fully connected layers)를 포함할 수 있다.

또한 파라미터 추정 브랜치(612)는 인코더-디코더 네트워크(611)에 포함되는 인코더에 연결되어, 인코더에서 출력되는 특징 맵을 이용하여 평면 파라미터를 추정할 수 있다.

한편 추정된 평면 정보(평면 분할 맵 및 평면 파라미터)는 장면의 3D 정보를 표현할 수 있다. 즉 추정된 평면 정보는 평면 분할 맵 및 평면에 상응하는 뎁스 정보를 포함할 수 있다.

한편 시각적 측위 네트워크(600)은 평면 정보에 기반하여 카메라의 포즈를 추정하는 포즈 추정 네트워크(620)을 포함할 수 있다.

이 경우 프로세서는 평면 추정 네트워크(610)에서 추정된 평면 정보 및 평면 정보에 대응하는 카메라의 포즈 정보를 이용하여 포즈 추정 네트워크(620)를 트레이닝 할 수 있다.

이 경우 포즈 추정 네트워크(620)는, 추정된 평면 정보(평면 분할 맵 및 평면 파라미터)를 이용하여 카메라의 6-자유도(6 Dgrees Of Freedom, DOF) 포즈(카메라의 위치(translation) 정보 및 회전(rotation) 정보)를 추정할 수 있다.

구체적으로 포즈 추정 네트워크(620)는 제2 인코더(621)를 포함할 수 있으며, 쿼리 이미지와 평면 분할 맵(plane segmentation maps)은 제2 인코더(621)에 입력될 수 있다.

한편 평면 분할 맵(plane segmentation maps)의 m+1 채널은, softmax 및 argmax 연산을 통해 정보의, 손실 없이 하나의 채널로 변환될 수 있다.

또한 쿼리 이미지와 하나의 채널의 평면 분할 맵(plane segmentation maps)의 결합(concatenation)은, 제2 인코더(621) 내 하나 이상의 컨볼루션 레이어를 통하여 전달될 수 있다.

한편 도 7에서 도시하는 바와 같이, 평면 분할 맵 상의 2D 표현만으로는, 3D 공간에서의 기하학적 구조의 에러를 완전히 포착할 수 없으며, 이로 인하여 장면의 구조적인 모호성이 야기될 수 있다.

따라서 추가적인 3D 정보로 평면 분할 맵이 보강될 수 있다.

구체적으로, 제2 인코더(621)는 쿼리 이미지 및 평면 분할 맵에 기반하여 특징 벡터를 추출할 수 있다.

이 경우 파라미터 추정 브랜치(612)에서 추정된 각 평면에 대응하는 평면 파라미터는, 제2 인코더(621)에서 인코딩된 특징 벡터에 임베딩 될 수 있다.

한편 포즈 추정 네트워크(620)는 포즈 추정기(622)를 포함할 수 있다.

포즈 추정기(622)는 두개의 그룹의 풀리 커넥티드 레이어들을 포함할 수 있으며, 한 그룹의 일련의 풀리 커넥티드 레이어들은 카메라의 위치를, 다른 그룹의 일련의 풀리 커넥티드 레이어들은 카메라의 회전(rotation)을 추정할 수 있다.

그리고 포즈 추정기(622)는 평면 파라미터가 임베딩 된 특징 벡터를 이용하여 카메라의 포즈를 추정할 수 있다.

도 7a는 재난 상황이 아닌 상태를 도시한 도면이고, 도 7b는 재난이 발생하여 기하학적 구조가 변경된 상태를 도시한 도면이다. 본 발명에서는 도 7의 바닥 평면과 같이, CNN이 장면의 지배적인 평면을 고려하도록 트레이닝 되기 때문에, 기하학적 구조에 작은 변화가 발생함에도 불구하고 강인한 포즈 예측이 가능하다.

도 8 및 도 9는, 원본 이미지에 다양한 이미지를 합성하여 뉴럴 네트워크를 트레이닝 한 경우의 실험 결과를 설명하기 위한 도면이다.

도 8a의 좌측 이미지들은 데이터베이스에 보유중인 원본 이미지들이며, 도 8a의 우측 이미지들은 화재가 난 상황에서 촬영되는 쿼리 이미지이다.

또한 도 8b에서는 원본 이미지와 합성되는 다양한 이미지들이 도시되어 있다.

도 8b의 첫번째 행의 이미지들은(1, 2, 3, 4번 이미지), 원본 이미지로부터 쿼리 이미지가 어떻게 변형될 것인지를 고려하여 준비된 이미지들로, 화재 상황에서의 이미지들이다.

그리고 원본 이미지와 합성되는 나머지 이미지들(5, 6, 7, 8, 9, 10, 11, 12번 이미지)은 무작위로 선택되었다.

또한 도 8b의 이미지들을 원본 이미지랑 합성한 후, 합성 이미지들의 다양한 조합으로 뉴럴 네트워크를 트레이닝 하였다.

도 9의 x축은 합성 이미지들의 다양한 조합을 나타내고, y축은 이동(미터(m)) 및 회전(degree)의 에러를 나타낸다.

도 9를 참고하면, 트레이닝 동안 합성 이미지를 사용하지 않은 경우(평행하게 표시된 바(bar))에 비해, 합성 이미지들의 조합을 사용한 경우 상당한 성능 향상이 달성됨을 알 수 있다.

또한 contextual loss가 적은 이미지(1, 2, 3, 4번 이미지)가 많은 조합일 수록, 더욱 높은 성능 향상이 달성됨을 알 수 있다.

도 10은 본 발명에 따른 또 다른 실험 결과를 도시한 도면이다.

각 블록의 첫번째 행은 이동(미터(m)) 및 회전(degree)의 에러를 나타내며, 각 블록의 두번째 행은 고 정밀도 / 중간 정밀도 / 저 정밀도로 정확도를 측정한 결과이다.

한편 House, Office1, Office2 및 School의 각 상황에 대한 데이터베이스에는 각각 118, 216, 515 및 2123 개의 이미지가 포함되어 있으며, 쿼리 이미지의 수는 각각 41, 72, 180 및 746이다.

PoseNet(A. Kendall, M. Grimes, and R. Cipolla, “Posenet: A convolutional network for real-time 6-dof camera relocalization,” in Proc. of IEEE International Conference on Computer Vision (ICCV), 2015.), SCoRF(J. Shotton, B. Glocker, C. Zach, S. Izadi, A. Criminisi, and A. Fitzgibbon, “Scene coordinate regression forests for camera relocalization in rgb-d images,” in Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013.), DSAC(E. Brachmann, A. Krull, S. Nowozin, J. Shotton, F. Michel, S. Gumhold, and C. Rother, “Dsac-differentiable ransac for camera localization,” in Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.)는 종래 기술에 따른 접근법이며, Ours는 본 발명에 따른 접근법이다.

도 10을 참고하면, 본 발명에 따른 접근법이 매우 우수한 성능을 나타내는 것을 알 수 있다.

이것은 텍스쳐 바이어스를 약화시키고 형태 바이어스를 강화시킬 수 있는 훈련 이미지들을 사용한 점, 및 기하학적 구조의 변화에 강인해지도록 지배적인 평면을 활용한 점에 따른 결과이다.

도 11은 화재 상황에서의 카메라의 실제 이동 경로 및 카메라의 추정 경로를 도시한 도면이다.

도 11의 우측 도면은, 본 발명을 이용하여 카메라의 포즈를 추정하고, 추정 결과에 따른 카메라의 예상 위치(파란색 점) 및 실제 카메라의 위치(빨간색 점)를 비교한 결과이다.

도 11의 좌측 도면에는, 특정 지점(우측 도면의 화살표 지점)에서의 데이터베이스 이미지, 쿼리 이미지, 데이터베이스 이미지와의 합성에 사용된 스타일 트랜스퍼 이미지들이 나타나 있다.

본 발명에 따르면, 원본 이미지로부터 텍스쳐 및 기하학적 구조가 변경됨에도 불구하고, 상당히 높은 정확도를 나타내는 것을 알 수 있다.

도 12는 계절 변화에 따른 성능을 비교하기 위한 도면이다.

데이터 베이스 내 네가지 장면(Synthia 1, 2, 3, 4)에 대한 실험이 진행되었었다. 또한 각 장면에 대해서 5000개의 봄/여름/가을 이미지가 트레이닝에 사용되었으며, 쿼리 이미지로는 100개의 겨울 이미지가 사용되었다.

구조물들이 눈으로 덮히는 것으로 인하여 텍스쳐 변화가 가장 크기 때문에, 겨울 이미지가 쿼리 이미지로 사용되었다. 또한 카메라 포즈 추정 장치의 실제적인 테스트를 위하여, 데이터 세트나 쿼리 이미지에는 자동차 및 사람과 같은 동적 객체가 존재하였다.

도 12를 참고하면, 본원 발명(Ours)에 따른 실험 결과는, 종래 기술(PoseNet, SCoRF, DSAC)에 비하여 훨씬 나은 효과를 나타내는 것을 알 수 있다.

도 13은 스타일 트랜스퍼 이미지(ST)의 수와 관련된 성능을 도시한 도면이다.

스타일 트랜스퍼 이미지(ST)들은 동일한 원본 이미지를 이용하여 생성되었다.

도 13을 참고하면, 스타일 트랜스퍼 이미지(ST)의 수가 증가할수록 더 높은 성능이 나타남을 알 수 있다. 이것은 뉴럴 네트워크가 더 많은 종류의 스타일 트랜스퍼 이미지를 이용하여 다양한 상황에 대한 학습을 수행할 수 있기 때문이다.

또한 평면 정보(평면 파라미터 및 평면 분할 맵)를 사용한 본 발명과, 평면 정보를 사용하지 않은 종래 기술을 비교하였다.

그리고 평면 정보를 사용하는 경우 큰 성능 향상이 나타나는 것을 알 수 있다.

이것은, 평면 분할 맵이 파괴 효과로부터 부분적으로 보존된 영역에 초점을 맞추어 쿼리 이미지의 불필요한 특징을 제거하고, 평면 파라미터는 임베딩된 특징으로부터 3D 장면 정보를 학습하여, 평면 분할 맵의 기하학적인 불확실성을 보완하기 때문이다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 서버의 프로세서(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

100: 카메라 포즈 추정 장치

Claims

원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 시각적 측위 네트워크를 트레이닝하는 단계;
쿼리 이미지를 획득하는 단계; 및
상기 쿼리 이미지를 상기 시각적 측위 네트워크에 제공하여 카메라의 포즈를 추정하는 단계를 포함하고,
상기 시각적 측위 네트워크는,
상기 쿼리 이미지로부터 평면 분할 맵 및 평면 파라미터가 포함된 평면 정보를 추정하는 평면 추정 네트워크; 및
상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함하고,
상기 평면 추정 네트워크는,
상기 쿼리 이미지에 기반하여 특징 맵을 생성하는 인코더; 및
상기 특징 맵을 언샘플링 하여 상기 평면 분할 맵을 생성하는 디코더를 포함하는
카메라 포즈 추정 방법.
제 1항에 있어서,
상기 복수의 훈련 이미지는,
상기 원본 이미지로부터 구조물의 형태가 유지되는
카메라 포즈 추정 방법.
제 1항에 있어서,
상기 복수의 훈련 이미지는,
스타일 트랜스퍼 이미지인
카메라 포즈 추정 방법.
제 1항에 있어서,
상기 복수의 훈련 이미지는,
상기 원본 이미지에 재난 상황의 이미지가 합성된 이미지인
카메라 포즈 추정 방법.
제 1항에 있어서,
상기 복수의 훈련 이미지는,
상기 원본 이미지에, 상기 원본 이미지와 시간, 날짜, 날씨 및 계절 중 적어도 하나가 상이한 이미지가 합성된 이미지인
카메라 포즈 추정 방법.
삭제
삭제
삭제
삭제
원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 시각적 측위 네트워크를 트레이닝하는 단계;
쿼리 이미지를 획득하는 단계; 및
상기 쿼리 이미지를 상기 시각적 측위 네트워크에 제공하여 카메라의 포즈를 추정하는 단계를 포함하고,
상기 시각적 측위 네트워크는,
상기 쿼리 이미지로부터 평면 분할 맵 및 평면 파라미터가 포함된 평면 정보를 추정하는 평면 추정 네트워크; 및
상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함하고,
상기 평면 추정 네트워크는,
상기 쿼리 이미지에 기반하여 특징 맵을 생성하는 인코더에 연결되어, 상기 특징 맵을 이용하여 상기 평면 파라미터를 추정하는 파라미터 추정 브랜치를 포함하는
카메라 포즈 추정 방법.
원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 시각적 측위 네트워크를 트레이닝하는 단계;
쿼리 이미지를 획득하는 단계; 및
상기 쿼리 이미지를 상기 시각적 측위 네트워크에 제공하여 카메라의 포즈를 추정하는 단계를 포함하고,
상기 시각적 측위 네트워크는,
상기 쿼리 이미지로부터 평면 분할 맵 및 평면 파라미터가 포함된 평면 정보를 추정하는 평면 추정 네트워크; 및
상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함하고,
상기 포즈 추정 네트워크는,
상기 쿼리 이미지 및 상기 평면 분할 맵에 기반하여 특징 벡터를 추출하는 제2 인코더 및 상기 평면 파라미터가 임베딩된 상기 특징 벡터를 이용하여 상기 카메라의 포즈를 추정하는 포즈 추정기를 포함하는
카메라 포즈 추정 방법.
쿼리 이미지를 획득하는 영상 수신부; 및
상기 쿼리 이미지를 시각적 측위 네트워크에 입력하여 카메라의 포즈를 추정하는 프로세서를 포함하고,
상기 시각적 측위 네트워크는,
원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 트레이닝 되고,
상기 시각적 측위 네트워크는,
상기 쿼리 이미지로부터 평면 분할 맵 및 평면 파라미터가 포함된 평면 정보를 추정하는 평면 추정 네트워크; 및
상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함하고,
상기 평면 추정 네트워크는,
상기 쿼리 이미지에 기반하여 특징 맵을 생성하는 인코더; 및
상기 특징 맵을 언샘플링 하여 상기 평면 분할 맵을 생성하는 디코더를 포함하는
카메라 포즈 추정 장치.
삭제
삭제
삭제
쿼리 이미지를 획득하는 영상 수신부; 및
상기 쿼리 이미지를 시각적 측위 네트워크에 입력하여 카메라의 포즈를 추정하는 프로세서를 포함하고,
상기 시각적 측위 네트워크는,
원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 트레이닝 되고,
상기 시각적 측위 네트워크는,
상기 쿼리 이미지로부터 평면 분할 맵 및 평면 파라미터가 포함된 평면 정보를 추정하는 평면 추정 네트워크; 및
상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함하고,
상기 평면 추정 네트워크는,
상기 쿼리 이미지에 기반하여 특징 맵을 생성하는 인코더에 연결되어, 상기 특징 맵을 이용하여 상기 평면 파라미터를 추정하는 파라미터 추정 브랜치를 포함하는
카메라 포즈 추정 장치.
쿼리 이미지를 획득하는 영상 수신부; 및
상기 쿼리 이미지를 시각적 측위 네트워크에 입력하여 카메라의 포즈를 추정하는 프로세서를 포함하고,
상기 시각적 측위 네트워크는,
원본 이미지로부터 텍스쳐를 다양하게 변경한 복수의 훈련 이미지를 이용하여 트레이닝 되고,
상기 시각적 측위 네트워크는,
상기 쿼리 이미지로부터 평면 분할 맵 및 평면 파라미터가 포함된 평면 정보를 추정하는 평면 추정 네트워크; 및
상기 평면 정보에 기반하여 상기 카메라의 포즈를 추정하는 포즈 추정 네트워크를 포함하고,
상기 포즈 추정 네트워크는,
상기 쿼리 이미지 및 상기 평면 분할 맵에 기반하여 특징 벡터를 추출하는 제2 인코더 및 상기 평면 파라미터가 임베딩된 상기 특징 벡터를 이용하여 상기 카메라의 포즈를 추정하는 포즈 추정기를 포함하는
카메라 포즈 추정 장치.