KR20210074205A

KR20210074205A - 분류 기반 영상 측위 장치 및 방법

Info

Publication number: KR20210074205A
Application number: KR1020200170716A
Authority: KR
Inventors: 손진희; 블라고
Original assignee: 한국전자통신연구원
Priority date: 2019-12-11
Filing date: 2020-12-08
Publication date: 2021-06-21
Also published as: KR102579003B1

Abstract

분류 기반 영상 측위 장치 및 그 방법이 제공된다. 영상 데이터에서 카메라 포즈를 예측하는 영상 측위를 위해, 측위 장치가, 영상 데이터를 미리 학습된 가중치를 기반으로 처리하는 분류 네트워크로부터 상기 영상 데이터가 측위를 위한 공간을 구성하는 셀들 중에서 어느 셀에 속하는지를 나타내는 예측 결과를 획득한다. 측위 장치는 예측 결과를 기반으로 선택되는 셀 인덱스를 이용하여, 측위를 위한 공간에 대한 지도 정보를 획득하며, 지도 정보는 셀 인덱스별로 셀을 구성하는 좌표의 최소값과 최대값 그리고 셀 크기를 포함한다. 이러한 지도 정보를 기반으로 영상 데이터에 대한 위치를 계산하여 대응하는 카메라 포즈를 출력한다.

Description

분류 기반 영상 측위 장치 및 방법{System and method for image classification based positioning}

본 개시는 영상 측위에 관한 것으로, 더욱 상세하게 말하자면, 분류 기반 영상 측위 장치 및 방법에 관한 것이다.

최근 신경망을 이용한 영상 측위 기술은 대부분 PoseNet에 기반하며, PoseNet에서는 영상을 입력 받아 카메라 포즈의 위치와 방향을 나타내는 복수의 파라미터를 회귀를 통해 추정하는 방법을 사용한다.

또한, 최근에 제안된 MapNet에서는, 카메라의 절대 위치와 방향뿐만 아니라 두 프레임 사이의 상대적 위치와 방향에 대해서도 손실 함수를 정의하여 학습하여, 측위 성능을 향상시킨다.

또한, 다른 영상 측위 기술로는 분류와 회귀를 고려해 위치 정보를 찾는 방법이 있다. 이 방법은 앵커(anchor)를 통한 분류와 앵커까지의 상대 위치값을 기반으로 회귀를 통해 X 좌표와 Y 좌표를 찾고, 회귀를 사용하여 Z 좌표와 방향을 찾는다.

연속적으로 획득된 학습데이터가 아닌 불연속적(이산적) 획득 데이터에서, 분류만 사용하여 측위를 할 경우에는 불연속적인 데이터 사이의 위치값을 보 정해줄 수 없는 문제가 있다.

또한, 회귀를 사용한 측위의 경우, 비슷한 형태의 공간이 있는 경우 그 중간값을 반환함에 따라 정확한 측위가 이루어지지 않는 문제가 있다.

본 개시가 해결하고자 하는 과제는, 하드 분류와 소프트 분류를 통해 보다 정확하게 측위를 수행할 수 있는 장치 및 방법을 제공하는 것이다.

일 실시 예에 따르면, 영상 데이터에서 카메라 포즈를 예측하는 영상 측위를 위한 방법이 제공된다. 상기 방법은, 측위 장치가, 상기 영상 데이터를 미리 학습된 가중치를 기반으로 처리하는 분류 네트워크로부터 상기 영상 데이터가 측위를 위한 공간을 구성하는 셀들 중에서 어느 셀에 속하는지를 나타내는 예측 결과를 획득하는 단계; 상기 측위 장치가, 상기 예측 결과를 기반으로 선택되는 셀 인덱스를 이용하여, 상기 측위를 위한 공간에 대한 지도 정보 - 상기 지도 정보는 셀 인덱스별로 셀을 구성하는 좌표의 최소값과 최대값 그리고 셀 크기를 포함함 - 를 획득하는 단계; 및 상기 측위 장치가, 상기 지도 정보를 기반으로 상기 영상 데이터에 대한 위치를 계산하여 대응하는 카메라 포즈를 출력하는 단계를 포함한다.

일 구현 예에서, 상기 카메라 포즈를 출력하는 단계는 상기 측위를 위한 공간에서 상기 선택된 셀 인덱스의 주변 이웃 셀들의 가중치들의 합을 기반으로 상기 영상 데이터에 대한 위치를 계산할 수 있다.

일 구현 예에서, 상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며, 상기 예측 결과는 클래스별 신뢰도를 포함할 수 있다. 이 경우, 상기 카메라 포즈를 출력하는 단계는 상기 카메라 포즈와 이에 대응하는 신뢰도를 출력할 수 있다.

일 구현 예에서, 상기 지도 정보를 획득하는 단계는, 상기 클래스별 신뢰도 중에서 가장 큰 값의 신뢰도를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 단계; 및 상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 단계를 포함할 수 있다.

일 구현 예에서, 상기 분류 네트워크는 하드 분류 기반 학습을 통해 학습되고, 상기 하드 분류 기반 학습은, 훈련 데이터를 카메라 포즈 분류를 적용하기 위한 인덱스로 변환하고, 각 인덱스에 대해 학습을 위한 하드 레이블링을 수행하는 것을 통해 수행되며, 상기 하드 레이블링은 카메라 포즈에 대응되는 하나의 인덱스의 셀만 1로 하고, 나머지는 0이 되도록 할 수 있다.

일 구현 예에서, 상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며, 상기 예측 결과는 클래스별 스코어를 포함하고, 상기 스코어는 손실 함수를 기반으로 계산된 평가 점수일 수 있다. 이 경우, 상기 지도 정보를 획득하는 단계는, 상기 클래스별 스코어 중에서 가장 큰 값의 스코어를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 단계; 및 상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 단계를 포함할 수 있다.

일 구현 예에서, 상기 분류 네트워크는 소프트 분류 기반 학습을 통해 학습되고, 상기 소프트 분류 기반 학습은, 훈련 데이터를 카메라 포즈 분류를 적용하기 위한 인덱스로 변환하고, 각 인덱스에 대해 학습을 위한 소프트 레이블링을 수행하는 것을 통해 수행되며, 상기 소프트 레이블링은 선형 보간법을 기반으로 할 수 있다.

일 구현 예에서, 상기 소프트 레이블링은 절대 위치를 기준으로 상기 절대 위치에 인접한 이웃 셀과의 거리와 면적을 기반으로 소프트 레이블을 결정할 수 있다.

다른 실시 예에 따르면, 영상 데이터에서 카메라 포즈를 예측하는 영상 측위를 위한 장치가 제공된다. 상기 장치는, 영상 측위를 위한 영상 데이터를 입력받도록 구성된 인터페이스 장치; 측위를 위한 공간을 구성하는 셀들에 대한 지도 정보 - 상기 지도 정보는 셀 인덱스별로 셀을 구성하는 좌표의 최소값과 최대값 그리고 셀 크기를 포함함 - 가 저장된 메모리; 및 상기 영상 데이터를 기반으로 상기 카메라 포즈를 예측하도록 구성된 프로세서를 포함하며, 상기 프로세서는, 상기 인터페이스 장치를 통해, 상기 영상 데이터를 하드 분류 기반으로 학습된 분류 네트워크로부터 상기 영상 데이터가 측위를 위한 공간을 구성하는 셀들 중에서 어느 셀에 속하는지를 나타내는 예측 결과를 획득하는 동작; 상기 예측 결과를 기반으로 선택되는 셀 인덱스를 이용하여, 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 동작; 및 상기 지도 정보를 기반으로 상기 영상 데이터에 대한 위치를 계산하여 대응하는 카메라 포즈를 출력하는 동작을 수행하도록 구성된다.

일 구현 예에서, 상기 프로세서는 상기 카메라 포즈를 출력하는 동작 수행시, 상기 측위를 위한 공간에서 상기 선택된 셀 인덱스의 주변 이웃 셀들의 가중치들의 합을 기반으로 상기 영상 데이터에 대한 위치를 계산하도록 구성될 수 있다.

일 구현 예에서, 상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며, 상기 예측 결과는 클래스별 신뢰도를 포함할 수 있다. 상기 프로세서는 상기 카메라 포즈를 출력하는 동작 수행시, 상기 카메라 포즈와 이에 대응하는 신뢰도를 출력하도록 구성될 수 있다.

일 구현 예에서, 상기 프로세서는 상기 지도 정보를 획득하는 동작 수행시, 상기 클래스별 신뢰도 중에서 가장 큰 값의 신뢰도를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 동작; 및 상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 동작을 수행하도록 구성될 수 있다.

일 구현 예에서, 상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며, 상기 예측 결과는 클래스별 스코어를 포함하고, 상기 스코어는 손실 함수를 기반으로 계산된 평가 점수일 수 있다. 상기 프로세서는 상기 지도 정보를 획득하는 동작 수행시, 상기 클래스별 스코어 중에서 가장 큰 값의 스코어를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 동작; 및 상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 동작을 수행하도록 구성될 수 있다.

일 구현 예에서, 상기 프로세서는 하드 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈와 신뢰도를 포함하는 하드 분류 예측 결과를 출력하도록 구성된 하드 분류 레이어부; 소프트 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 소프트 분류 예측 결과를 출력하도록 구성된 소프트 분류 레이어부; 및 상기 하드 분류 예측 결과와 상기 소프트 분류 예측 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부를 포함하도록 구성될 수 있다.

일 구현 예에서, 상기 프로세서는, 하드 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈와 신뢰도를 포함하는 하드 분류 예측 결과를 출력하도록 구성된 하드 분류 레이어부; 회귀 추정을 통해 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 회귀 추정 결과를 출력하도록 구성된 소프트 분류 레이어부; 및 상기 하드 분류 예측 결과와 상기 회귀 추정 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부를 포함하도록 구성될 수 있다.

일 구현 예에서, 상기 프로세서는, 소프트 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 소프트 분류 예측 결과를 출력하도록 구성된 소프트 분류 레이어부; 회귀 추정을 통해 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 회귀 추정 결과를 출력하도록 구성된 회귀 레이어부; 및 상기 소프트 분류 예측 결과와 상기 회귀 추정 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부를 포함하도록 구성될 수 있다.

일 구현 예에서, 상기 프로세서는, 하드 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈와 신뢰도를 포함하는 하드 분류 예측 결과를 출력하도록 구성된 하드 분류 레이어부; 소프트 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 소프트 분류 예측 결과를 출력하도록 구성된 소프트 분류 레이어부; 회귀 추정을 통해 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 회귀 추정 결과를 출력하도록 구성된 회귀 레이어부; 및 상기 하드 분류 예측 결과와 상기 소프트 분류 예측 결과 그리고 상기 회귀 추정 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부를 포함하도록 구성될 수 있다.

실시 예들에 따르면, 하드 분류 및 소프트 분류를 이용하여 측위를 수행한다. 따라서, 소프트 분류를 이용하여 회귀와 분류의 장점을 동시에 취득할 수 있으며, 특히, 회귀만을 사용할 때 여러 모드의 중간값을 잘못 출력하는 문제를 해결할 수 있다. 또한, 하드 분류를 사용하여 예측된 위치값에 대한 신뢰도를 구할 수 있으며, 이에 따라 융합 엔진에서 다른 정보들과의 융합을 용이하게 할 수 있다.

또한, 연속적으로 획득된 학습데이터가 아닌 불연속적(이산적) 획득 데이터에 대해서는 분류를 이용하여 보다 효율적으로 측위를 수행할 수 있다.

또한 불연속적인 데이터에 대해서는 선형 보간법을 이용한 소프트 분류를 수행하여, 보다 정확한 측위가 이루어진다.

또한, 기존과 같이 훈련 데이터 셋의 각 앵커(anchor)에 대한 절대 위치를 따로 메모리에 저장해 두지 않아도 되며, 단지 셀의 절대 위치를 계산하기 위해 최대값, 최소값, 셀 크기에 대한 파라미터만 저장하면 된다.

또한, 하드 분류 기반 영상 측위는 기존의 회귀만을 이용하여 카메라 포즈를 찾아내던 방법들에 비해 결과값의 신뢰도를 제공하기 때문에, 다른 측위 방법들의 결과와의 융합에 용이하다. 또한 기존의 회귀만을 이용하여 카메라 포즈를 찾아내던 방법들에 비해, 회귀의 부정확성을 어느 정도 극복할 수 있다.

또한, 선형 보간법 기반의 소프트 분류를 이용한 영상 측위는, 회귀와 분류 둘의 장점을 동시에 취할 수 있기 때문에 응용 범위가 넓어질 수 있다.

도 1은 영상 기반 딥러닝을 이용한 측위의 개념을 나타낸 도이다.
도 2는 본 개시의 실시 예에 따른 측위를 위한 공간을 나타낸 예시도이다.
도 3은 본 개시의 실시 예에 따른 하드 분류 기반 영상 측위 장치의 학습을 위한 구조를 나타낸 도이다.
도 4는 본 개시의 실시 예에 따른 하드 분류 기반의 영상 측위를 위한 학습 방법의 흐름도이다.
도 5는 본 개시의 실시 예에 따른 하드 분류 기반의 영상 측위 장치의 예측을 위한 구조를 나타낸 도이다.
도 6은 본 개시의 실시 예에 따른 하드 분류 기반의 예측 방법의 흐름도이다.
도 7은 본 개시의 다른 실시 예에 따른 측위를 위한 공간을 나타낸 예시도이다.
도 8은 본 개시의 실시 예에 따른 소프트 분류 기반 영상 측위 장치의 학습을 위한 구조를 나타낸 도이다.
도 9는 본 개시의 실시 예에 따른 소프트 분류 기반의 영상 측위를 위한 학습 방법의 흐름도이다.
도 10은 본 개시의 실시 예에 따른 소프트 분류 기반의 영상 측위 장치의 예측을 위한 구조를 나타낸 도이다.
도 11은 본 개시의 실시 예에 따른 하드 분류 기반의 예측 방법의 흐름도이다.
도 12는 본 개시의 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.
도 13은 본 개시의 다른 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.
도 14는 본 개시의 또 다른 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.
도 15는 본 개시의 또 다른 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.
도 16은 본 개시의 실시 예에 따른 영상 측위를 위한 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 구조도이다.

아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에서 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.

또한, 본 개시의 실시 예에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

이하, 도면을 참조하여 본 개시의 실시 예에 따른 분류 기반 영상 측위 장치 및 그 방법에 대하여 설명한다.

도 1은 영상 기반 딥러닝을 이용한 측위의 개념을 나타낸 도이다.

기존에는 도 1에서와 같이, 영상이 입력되면, 회귀 기반 카메라 포즈 예측 시스템에서 6개의 파라미터(예를 들어, 6 DoF(Degree of Freedom), x, y, z, qx, qy, qz)를 회귀를 통해 추정한다. x, y, z는 3차원 위치를 나타내며, qx, qy, qz는 로그(log) 단위 쿼터니언(quaternion)을 나타낸다.

그러나 6개의 파라미터를 회귀로만 추정하는 방식으로 수행하는 딥러닝 기반 영상 측위를 위한 방법들은 효율적이지 않고 정확하지 않으며, 특히, 연속적으로 획득된 학습 데이터가 아닌 불연속적(이산적) 획득 데이터에 대해서는 분류를 이용하는 것이 더 효율적이다. 그러나 분류만 사용하였을 때에는 불연속적인 데이터 사이의 위치값을 보정해줄 수 없는 문제가 있다.

본 개시의 실시 예에서는 하드 분류와 소프트 분류를 통해 영상 측위를 수행한다.

먼저, 본 개시의 실시 예에 따른 하드 분류를 통한 영상 측위에 대해 설명한다.

카메라 포즈를 분류를 통해 예측하기 위해, 먼저 측위를 위한 공간을 일정 영역들로 나누어야 한다.

도 2는 본 개시의 실시 예에 따른 측위를 위한 공간을 나타낸 예시도이다.

측위를 위한 공간 예를 들어 지도를 도 2에 예시된 바와 같이 일정 크기의 셀로 균일하게 나누고, 방향 역시 양자화(quantization)를 통해 몇 개의 영역으로 나눈다. 각각의 위치와 방향은 하나의 클래스 아이디에 매핑된다. 도 2에서와 같이, 2차원을 가정할 때, (x, y)는 실제 절대 위치값이며, (i, j)는 절대 위치값을 양자화한 셀의 인덱스이고, 셀 인덱스는 하나의 클래스에 매핑된다. 이때, 양자화를 위한 파라미터는 최소값, 최대값 그리고 그리드(grid) 크기를 포함한다. 여기서, 최소값 및 최대값은 측위하고자 하는 공간의 (x, y) 좌표의 최소값과 최대값을 나타내며, 그리드 크기는 셀 하나의 크기를 나타낸다. 이들 파라미터는 지도 정보로서 메모리에 저장된다.

도 3은 본 개시의 실시 예에 따른 하드 분류 기반 영상 측위 장치의 학습을 위한 구조를 나타낸 도이다.

본 개시의 실시 예에 따른 하드 분류 기반 영상 측위 장치(1)는 학습을 위해, 도 3에서와 같이, 신경망(convolutional neural network, CNN)부(11), 포즈 분류 레이어부(12), 하드 레이블링부(13), 훈련 손실부(14), 및 저장부(15)를 포함한다.

신경망부(11)와 포즈 분류 레이어부(12)는 카메라 포즈 분류 네트워크(Camera Pose Classification Network)를 구성하며, 입력되는 데이터를 기반으로 학습을 수행한다.

저장부(15)는 측위를 위한 공간에 대한 정보를 저장한다. 즉, 도 2에서와 같이 각 셀별로 셀 인덱스에 대응하여, 최소값, 최대값, 그리고 그리드 크기(셀 크기)를 포함하는 지도 정보가 저장부(15)에 저장된다.

하드 레이블링(labeling)부(13)는 입력되는 데이터에 대한 레이블링을 수행한다. 구체적으로, 입력되는 훈련 데이터를 저장부(15)에 저장된 지도 정보를 기반으로 카메라 포즈(6 DoF(Degree of Freedom)) 분류를 적용하기 위한 인덱스로 변환하고, 인덱스에 대해 레이블링을 수행한다. 특히, 카메라 포즈에 대응되는 하나의 인덱스의 셀만 “1”로 하고, 나머지는 “0”이 되도록 원-핫(one-hot) 레이블링을 수행한다.

훈련 손실부(14)는 분류 손실 함수와 하드 레이블링부(13)으로부터 제공되는 레이블링된 데이터 즉, 훈련을 위해 입력되는 데이터에 대해 예측되어야 하는 결과값인 레이블링된 데이터(레이블이라고도 명명됨)를 카메라 포즈 분류 네트워크로 제공한다. 훈련 데이터(예: 영상)와 이러한 훈련 데이터에 대응하는 레이블(예: 카메라 포즈)은 하나의 훈련 데이터 셋을 구성할 수 있다.

신경망부(11)와 포즈 분류 레이어부(12)를 포함하는 카메라 포즈 분류 네트워크는 분류 손실 함수를 통해 학습된다.

도 4는 본 개시의 실시 예에 따른 하드 분류 기반의 영상 측위를 위한 학습 방법의 흐름도이다.

첨부한 도 4에서와 같이, 훈련 데이터 셋의 카메라 포즈에 대한 파라미터 즉, 최소값, 최대값, 그리고 셀 크기를 포함하는 지도 정보가 셀 인덱스별로 저장부(15)에 저장된다(S100).

훈련 데이터 셋의 데이터 즉, 영상 데이터가 영상 측위 장치(1)로 입력된다(S110). 영상 데이터가 카메라 포즈 분류 네트워크와 하드 레이블링부(13)에 입력된다

영상 데이터를 카메라 포즈(6 DoF) 분류를 적용하기 위한 인덱스로 변환한다(S120). 그리고, 각 인덱스에 대해, 분류 레이어 학습을 위한 하드 레이블링을 수행한다(S130). 즉, 인덱스들에 대해 카메라 포즈에 대응되는 하나의 인덱스의 셀만 “1”로 하고, 나머지는 “0”이 되도록 원-핫 레이블링을 수행한다.

다음에, 카메라 포즈 분류 네트워크를 통한 학습이 수행되며(S140), 학습 결과에 따라 신경망부(11)의 가중치가 조절된다. 즉, 카메라 포즈 분류 네트워크에서 신경망부(11)는 입력되는 영상 데이터를 학습하여 각 위치에 해당하는 클래스의 예측 결과를 출력하며, 예측 결과는 클래스별 예측값에 대한 신뢰도를 포함한다. 포즈 분류 레이어부(12)는 학습이 완료되면 훈련 손실부(14)로부터 제공되는 분류 손실 함수와 레이블링된 데이터를 기반으로, 예측된 클래스를 분류 손실 함수에 적용하여 산출되는 손실 함수 값을 기반으로 그래디언트를 역전파하여 신경망 학습을 반복적으로 수행한다.

이와 같이 학습된 카메라 포즈 분류 네트워크를 기반으로 입력되는 영상 데이터에서 카메라 포즈를 예측할 수 있다.

도 5는 본 개시의 실시 예에 따른 하드 분류 기반의 영상 측위 장치의 예측을 위한 구조를 나타낸 도이다.

본 개시의 실시 예에 따른 영상 측위 장치(1)에서, 예측을 위해, 도 5에서와 같이, 카메라 포즈 분류 네트워크를 구성하는 신경망부(11)와 포즈 분류 레이어부(12), 저장부(14), 그리고 클래스-포즈 변환부(16)를 포함한다.

카메라 포즈 분류 네트워크는 학습된 네트워크로, 입력 데이터에 대한 카메라 포즈 예측 결과를 출력하며, 예측 결과는 입력 데이터에 대한 클래스별 신뢰도를 포함한다.

클래스-포즈 변환부(16)는 카메라 포즈 분류 네트워크의 예측 결과와 저장부(14)에 저장된 지도 정보를 이용하여, 최종 절대 위치 즉, 카메라 포즈를 출력한다. 최종 절대 위치는 가장 신뢰도 값이 높은 클래스에 매핑된 셀 인덱스에 대응되는 절대 위치를 지도 정보를 이용하여 계산하는 것을 통해 획득된다. 또는 주변 이웃 셀들과의 가중치 합을 기반으로 최종 절대 위치를 계산할 수 있다.

도 6은 본 개시의 실시 예에 따른 하드 분류 기반의 예측 방법의 흐름도이다.

위에 기술된 바와 같이 학습된 카메라 포즈 분류 네트워크에 영상 데이터가 입력된다(S300).

학습된 카메라 포즈 분류 네트워크는 학습된 가중치를 적용하여 입력된 영상 데이터에 대한 예측 결과를 출력한다(S310). 예측 결과는 클래스별 신뢰도를 포함하며, 가장 큰 신뢰도 값을 가지는 클래스를 선택한다(S320).

그리고, 클래스-포즈 변환부(16)는 선택된 클래스에 대응하는 셀 인덱스를 이용하여 저장부(15)로부터 대응하는 지도 정보를 획득하고(S330), 획득된 지도 정보와 셀 인덱스를 기반으로 입력된 영상 데이터에 대해 예측된 카메라 포즈와 이에 대한 신뢰도를 출력한다(S340). 구체적으로, 그리고, 훈련 데이터 셋의 카메라 포즈에 대한 파라미터가 저장된 저장부(15)로부터 지도 정보 즉, 최소값, 최대값, 그리고 셀 크기를 획득한다. 그리고 최소값, 최대값, 그리고 셀 크기를 기반으로 선택된 클래스의 셀 인덱스에 매핑된 최종 절대 위치를 계산한다. 또는 선택된 셀 인덱스의 주변 이웃 셀들과의 가중치 합을 기반으로 최종 절대 위치를 계산할 수 있다. 예를 들어 최종 선택된 클래스의 셀 인덱스가 (2, 3)이고, 최소값은 (0m, 0m), 최대값은 (10m, 10m), 셀 크기가 2일 때 절대 위치는 (5m, 7m)가 된다. 즉, 각 셀 인덱스는 대응하는 절대 위치 좌표를 가진다. 셀 인덱스가 (0, 0)이면 절대 위치 좌표가 (1m, 1m)이고, 셀 인덱스가 (4, 4)이면 절대 위치 좌표가 (9m, 9m)이며, 셀 인덱스가 (3, 3)이면 절대 위치 좌표가 (7m, 7m) 등이다. 이러한 절대 위치 좌표가 최종 절대 위치로 사용된다. 한편, 주변 가중치를 주변 이웃 셀들과의 가중치 합을 기반으로 절대 위치를 계산하는 방법은 선택된 셀 인덱스의 주변 이웃 셀에 대응하는 각 인덱스에 매핑되는 절대 위치 좌표에 예측된 클래스 신뢰도를 곱한 다음, 그 값들을 모두 더하여 이를 최종 절대 위치로 출력한다. 이후, 최종 절대 위치 즉, 지도 정보를 이용하여 변화된 카메라 포즈(6DoF)와 이에 대한 신뢰도(최종 절대 위치에 대응하는 클래스의 신뢰도)가 출력한다.

다음에는 본 개시의 실시 예에 따른 소프트 분류 기반 영상 측위에 대해 설명한다.

소프트 분류를 이용한 영상 기반 측위를 위한 신경망의 입력은 단일 이미지이며, 최종 출력은 절대 위치와 방향에 해당하는 셀의 인덱스와 해당 인덱스의 인접 셀들에 대한 가중치값으로 이루어진다.

소프트 분류를 통해 카메라 포즈를 예측하기 위해, 위의 하드 분류 기반 영상 측위와 유사하게, 측위를 위한 공간을 일정 영역들로 나눈다.

도 7은 본 개시의 다른 실시 예에 따른 측위를 위한 공간을 나타낸 예시도이다.

측위를 위한 공간 예를 들어 지도를 도 7에 예시된 바와 같이 일정 크기의 셀로 균일하게 나누어 하나의 셀이 하나의 클래스를 나타내도록 한다. 즉, 각각의 위치와 방향은 하나의 클래스 아이디에 매핑된다. 도 7에서와 같이, 2차원을 가정할 때, (x, y)는 실제 절대 위치값이다. 절대 위치값 (x, y)는 선형 보간법을 이용하여 표현될 수 있다. (i, j)는 절대 위치값을 양자화한 셀의 인덱스이고, 셀 인덱스는 하나의 클래스에 매핑된다. 이때, 양자화를 위한 파라미터는 최소값, 최대값 그리고 그리드 크기(셀 크기)를 포함한다.

도 8은 본 개시의 실시 예에 따른 소프트 분류 기반 영상 측위 장치의 학습을 위한 구조를 나타낸 도이다.

본 개시의 실시 예에 따른 소프트 분류 기반 영상 측위 장치(2)는 학습을 위해, 도 8에서와 같이, 신경망부(21), 포즈 분류 레이어부(22), 소프트 레이블링부(23), 훈련 손실부(24), 및 저장부(25)를 포함한다.

신경망부(21)와 포즈 분류 레이어부(22)는 카메라 포즈 분류 네트워크(Camera Pose Classification Network)를 구성하며, 입력되는 데이터를 기반으로 학습을 수행한다.

저장부(25)는 측위를 위한 공간에 대한 정보를 저장한다. 즉, 도 7에서와 같이 각 셀별로 셀 인덱스에 대응하여, 최소값, 최대값, 그리고 그리드 크기(셀 크기)를 포함하는 지도 정보가 저장부(25)에 저장된다.

소프트 레이블링부(23)는 입력되는 데이터에 대한 레이블링을 수행한다. 입력되는 훈련 데이터를 저장부(55)에 저장된 지도 정보를 기반으로 카메라 포즈(6 DoF) 분류를 적용하기 위한 인덱스로 변환하고, 인덱스에 대해 레이블링을 수행한다. 여기서는 선형 보간법을 이용하여 소프트 레이블을 계산하며, 소프트 레이블은 인접한 이웃 셀과의 거리와 면적을 계산하여 결정된다. 예를 들어, 도 7에서, (x, y)는 실제 절대 위치값이며, 인접한 4개의 셀의 소프트 레이블을 이 절대 위치값을 기준으로 계산한다. 함수 z는 절대 위치를 입력받아 셀의 인덱스를 리턴하는 함수이다. 인접 4개의 셀의 절대 위치를 각각 (x1, y1), (x1, y2), (x2, y1), (x2, y2)이라고 하면, 절대 위치값 (x, y)은 선형 보간법을 이용하여 표현될 수 있다. 이를 통해 인접 셀의 소프트 레이블을 구한다. 예를 들어, (x1, y1), (x1, y2), (x2, y1), (x2, y2)에 대해 각각 0.7, 0.15, 0.1, 0.05의 소프트 레이블이 획득된다.

훈련 손실부(24)는 분류 손실 함수와 소프트 레이블링부(23)으로부터 제공되는 레이블링된 데이터를 카메라 포즈 분류 네트워크로 제공한다. 훈련 데이터(예: 영상)와 이러한 훈련 데이터에 대응하는 레이블(예: 카메라 포즈)은 하나의 훈련 데이터 셋을 구성할 수 있다.

신경망부(21)와 포즈 분류 레이어부(22)를 포함하는 카메라 포즈 분류 네트워크는 분류 손실 함수를 통해 학습된다. 예를 들어, Kullback-Leibler divergence를 이용한 손실 함수를 이용하여 학습된다.

도 9는 본 개시의 실시 예에 따른 소프트 분류 기반의 영상 측위를 위한 학습 방법의 흐름도이다.

첨부한 도 9에서와 같이, 카메라 포즈에 대한 파라미터 즉, 각 셀 인덱스에 대응하여, 최소값, 최대값, 그리고 그리드 크기(셀 크기)를 포함하는 지도 정보가 저장부(25)에 저장된다(S500).

훈련 데이터 셋의 데이터 즉, 영상 데이터가 영상 측위 장치(2)로 입력된다(S310). 영상 데이터가 카메라 포즈 분류 네트워크와 소프트 레이블링부(23)에 입력된다

영상 데이터를 카메라 포즈(6 DoF) 분류를 적용하기 위한 인덱스로 변환한다(S320). 그리고, 각 인덱스에 대해, 분류 레이어 학습을 위한 소프트 레이블링을 수행한다(S330). 즉, 입력되는 인덱스들에 대해 위에 기술된 바와 같이, 절대 위치값을 기준으로 선형 보간법을 이용하여 각 인덱스에 대한 소프트 레이블을 계산한다.

다음에, 카메라 포즈 분류 네트워크를 통한 학습이 수행되며(S340), 학습 결과에 따라 신경망부(21)의 가중치가 조절된다. 즉, 카메라 포즈 분류 네트워크에서 신경망부(21)는 입력되는 훈련 데이터를 학습하여 예측 결과를 출력하며, 예측 결과는 클래스별 예측값에 대한 신뢰도를 포함한다. 포즈 분류 레이어부(22)는 학습이 완료되면 훈련 손실부(24)로부터 제공되는 분류 손실 함수와 레이블링된 데이터(소프트 레이블)를 기반으로, 클래스별 예측값을 분류 손실 함수에 적용하여 산출되는 손실 함수 값을 기반으로 신경망을 반복적으로 업데이트한다. 소프트 분류 레이블의 경우 하드 분류와는 달리 쿨백-라이블러 발산 손실 함수를 이용하여 신경망을 학습한다.

도 10은 본 개시의 실시 예에 따른 소프트 분류 기반의 영상 측위 장치의 예측을 위한 구조를 나타낸 도이다.

본 개시의 실시 예에 따른 영상 측위 장치(2)에서, 예측을 위해, 도 10에서와 같이, 카메라 포즈 분류 네트워크를 구성하는 신경망부(21)와 포즈 분류 레이어부(22), 저장부(24), 그리고 클래스-포즈 변환부(26)를 포함한다.

카메라 포즈 분류 네트워크는 학습된 네트워크로, 입력 데이터에 대한 카메라 포즈 예측 결과를 출력하며, 예측 결과는 입력 데이터를 분류한 클래스별 스코어를 포함한다. 여기서 스코어는 손실 함수 기반으로 획득된 평가 점수를 나타낸다.

클래스-포즈 변환부(26)는 카메라 포즈 분류 네트워크의 예측 결과와 저장부(24)에 저장된 지도 정보를 이용하여, 최종 절대 위치 즉, 카메라 포즈를 출력한다.

최종 절대 위치는 가장 가중치가 높을 셀을 중심으로 인접 셀의 절대 위치값에 대한 가중치들의 합으로 구한다. 예를 들어, w(c)를 인덱스 c의 스코어라고 할 경우, 최종 절대 위치값은 가장 스코어가 높은 인덱스의 인접 셀들의 스코어들을 이용한 위치의 가중치 합으로 구할 수 있다. 예를 들어 최종 선택된 클래스의 셀 인덱스가 (2, 3)이고, 최소값은 (0m, 0m), 최대값은 (10m, 10m), 셀 크기가 2일 때, 각 셀 인덱스는 대응하는 절대 위치 좌표를 가진다. 즉, 셀 인덱스가 (0, 0)이면 절대 위치 좌표가 (0m, 0m)이고, 셀 인덱스가 (5, 5)이면 절대 위치 좌표가 (10m, 10m)이며, 셀 인덱스가 (3, 3)이면 절대 위치 좌표가 (6m, 6m) 등이다. 주변 가중치를 인접 이웃 셀들과의 가중치 합을 기반으로 절대 위치를 계산하는 방법은, 인접 이웃 셀들의 각 인덱스에 매핑되는 좌표에 예측된 클래스 신뢰도를 곱한 다음, 그 값들을 모두 더하여 이를 최종 절대 위치값으로 출력한다. 예를 들어 최종 선택된 셀 인덱스가 (2, 3)이고, 대응되는 절대 위치 좌표가 (5m, 7m)이며, 스코어가 0.5인 경우, 이를 기준으로 인접 셀인 좌측 셀의 셀 인덱스가 (2,2)이고, 우측 셀의 셀 인덱스가 (2,4)이며, 상측 셀의 셀 인덱스가 (1,3)이고, 하측 셀의 셀 인덱스가 (3,3)이고, 이들 각 인접 셀에 대해 절대 위치 좌표가 각각 (5m,5m), (5m,9m), (3m,7m), (7m,7m)이며, 이들에 각각 해당하는 스코어가 0.1, 0.1. 0.2, 0.1이라고 가정한다. 이때, 최종 절대 위치값은 “0.5×(5,7)+0.1×(5,5)+0.1× (5,9)+0.2×(3,7)+0.1×(7,7)”에 따라 계산되어, (4.8m, 7m)가 된다.

이때, 각 셀의 절대 위치값은 학습시 각 파라미터의 최소값, 최대값을 저장해 두고 셀 크기를 하이퍼파라미터로 하여 구하며, 절대 위치값(x,y)을 셀 인덱스(k)로 바꾸는 함수를 k = z(x,y), 셀 인덱스로부터 절대 위치값으로 변환하는 함수를 (x,y) = z^-1(k)로 표현한다. 이를 수식으로 나타내면 다음과 같다.

여기서,

이며, w는 셀 인덱스에 해당하는 예측된 가중치 값이고, N(x,y)는 (x,y) 위치의 주변 이웃(예를 들어 4-neighbors) 인덱스 셋의 좌표를 의미한다

도 11은 본 개시의 실시 예에 따른 하드 분류 기반의 예측 방법의 흐름도이다.

위에 기술된 바와 같이 학습된 카메라 포즈 분류 네트워크에 영상 데이터가 입력된다(S700).

학습된 카메라 포즈 분류 네트워크는 학습된 가중치를 적용하여 입력된 영상 데이터에 대한 예측 결과를 출력한다(S710). 예측 결과는 클래스별 스코어를 포함하며, 가장 값이 큰 스코어를 가지는 클래스를 선택한다(S720).

그리고, 클래스-포즈 변환부(26)는 선택된 클래스에 대응하는 셀 인덱스를 이용하여 저장부(15)로부터 대응하는 지도 정보를 획득하고(S730), 획득된 지도 정보와 셀 인덱스를 기반으로 입력된 영상 데이터에 대한 카메라 포즈를 출력한다(S740). 구체적으로, 그리고, 훈련 데이터 셋의 카메라 포즈에 대한 파라미터가 저장된 저장부(15)로부터 선택된 클래스에 대응하는 셀 인덱스에 매핑된 지도 정보 즉, 최소값, 최대값, 그리고 그리드 크기(셀 크기)를 획득한다. 그리고 최소값, 최대값, 그리고 그리드 크기를 기반으로 최종 절대 위치를 계산한다. 즉, 선택된 셀 인덱스 즉, 가장 가중치가 높을 셀을 중심으로 인접 셀의 절대 위치값에 대한 가중치들의 합을 구하고 이를 최종 절대 위치로 사용한다. 그리고 최종 절대 위치 즉, 지도 정보를 이용하여 변화된 카메라 포즈(6DoF)가 출력된다.

위에 기술된 바와 같은, 하드 분류 기반의 영상 측위 장치와 소프트 분류 기반의 영상 측위 장치를 이용하여 본 개시의 실시 예에서는 다양한 형태의 분류 기반의 영상 측위 장치를 제공할 수 있다.

도 12는 본 개시의 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.

본 개시의 실시 예에 따른 분류 기반 영상 측위 장치(분류 기반 카메라 포즈 예측 시스템이라고도 명명됨)(100)는 도 12에서와 같이, 신경망부(110), 소프트 분류 레이어부(120), 하드 분류 레이어부(130), 융합 처리부(140)를 포함한다.

여기서 소프트 분류 레이어부(120)는 위에 기술된 소프트 분류 기반 영상 측위 장치(2)에 대응하며, 하드 분류 레이어부(130)는 위에 기술된 하드 분류 기반 영상 측위 장치(1)에 대응한다. 즉, 소프트 분류 레이어부(120)는 입력되는 영상 데이터에 대한 신경망부(110)의 예측된 결과를 기반으로 소프트 분류를 수행하여 카메라 포즈에 대응하는 최종 절대 위치값을 출력하며, 하드 분류 레이어부(130)는 입력되는 영상 데이터에 대한 신경망부(110)의 예측된 결과를 기반으로 하드 분류를 수행하여 카메라 포즈에 대응하는 최종 절대 위치값과 신뢰도를 출력한다.

융합 처리부(140)는 소프트 분류 레이어부(120)의 최종 절대 위치값과 하드 분류 레이어부(120)의 최종 절대 위치값을 기반으로, 영상 데이터에 대한 최종 결과인 카메라 포즈를 출력한다. 그리고 추가적으로 하드 분류 레이어부(120) 로부터의 신뢰도를 출력한다. 바로 이전 예측 위치값 주변 셀 또는 하드 분류 결과 주변 셀들의 가중치만 남기고 멀리 있는 셀들의 가중치를 0으로 두고, 정규화를 통해 합이 1이 되도록 한 다음 최종 절대 위치값을 결정할 수 있다. 또한 하드 분류의 신뢰도 값이 매우 낮을 경우 소프트 분류 결과를 선택하는 방식으로도 융합이 가능하다.

도 13은 본 개시의 다른 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.

본 개시의 다른 실시 예에 따른 분류 기반 영상 측위 장치(분류 기반 카메라 포즈 예측 시스템이라고도 명명됨)(200)는 도 13에서와 같이, 신경망부(210), 하드 분류 레이어부(220), 회귀 레이어부(230), 융합 처리부(240)를 포함한다.

여기서 하드 분류 레이어부(220)는 위에 기술된 하드 분류 기반 영상 측위 장치(1)에 대응한다. 하드 분류 레이어부(220)는 입력되는 영상 데이터에 대한 신경망부(2`10)의 예측된 결과를 기반으로 하드 분류를 수행하여 카메라 포즈에 대응하는 최종 절대 위치값과 신뢰도를 출력한다.

회귀 레이어부(220)는 입력되는 영상 데이터에 대한 신경망부(2`10)의 예측된 결과를 기반으로 회귀를 기반으로 카메라 포즈를 추정하여 추정 결과에 대응하는 최종 절대 위치값을 출력한다.

융합 처리부(240)는 하드 분류 레이어부(220)의 최종 절대 위치값과 회귀 레이어부(220)의 최종 절대 위치값을 기반으로, 영상 데이터에 대한 최종 결과인 카메라 포즈를 출력한다. 하드 분류의 신뢰도 값이 매우 낮을 경우 회귀 결과를 선택하는 방식으로도 융합이 가능하다. 그리고 추가적으로 하드 분류 레이어부(220) 로부터의 신뢰도를 출력한다.

도 14는 본 개시의 또 다른 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.

본 개시의 또 다른 실시 예에 따른 분류 기반 영상 측위 장치(분류 기반 카메라 포즈 예측 시스템이라고도 명명됨)(300)는 도 14에서와 같이, 신경망부(310), 소프트 분류 레이어부(320), 회귀 레이어부(330), 융합 처리부(340)를 포함한다.

여기서 소프트 분류 레이어부(320)는 위에 기술된 소프트 분류 기반 영상 측위 장치(2)에 대응한다. 소프트 분류 레이어부(320)는 입력되는 영상 데이터에 대한 신경망부(310)의 예측된 결과를 기반으로 소프트 분류를 수행하여 카메라 포즈에 대응하는 최종 절대 위치값을 출력한다.

회귀 레이어부(330)는 입력되는 영상 데이터에 대한 신경망부(310)의 예측된 결과를 기반으로 회귀를 기반으로 카메라 포즈를 추정하여 추정 결과에 대응하는 최종 절대 위치값을 출력한다.

융합 처리부(340)는 소프트 분류 레이어부(320)의 최종 절대 위치값과 회귀 레이어부(330)의 최종 절대 위치값을 기반으로, 영상 데이터에 대한 최종 결과인 카메라 포즈를 출력한다.

도 15는 본 개시의 또 다른 실시 예에 따른 분류 기반 영상 측위 장치의 구조를 나타낸 도이다.

본 개시의 또 다른 실시 예에 따른 분류 기반 영상 측위 장치(분류 기반 카메라 포즈 예측 시스템이라고도 명명됨)(400)는 도 15에서와 같이, 신경망부(410), 하드 분류 레이어부(420), 소프트 분류 레이어부(430), 회귀 레이어부(440), 융합 처리부(450)를 포함한다.

여기서 하드 분류 레이어부(420)는 위에 기술된 하드 분류 기반 영상 측위 장치(1)에 대응한다. 하드 분류 레이어부(420)는 입력되는 영상 데이터에 대한 신경망부(410)의 예측된 결과를 기반으로 하드 분류를 수행하여 카메라 포즈에 대응하는 최종 절대 위치값과 신뢰도를 출력한다.

소프트 분류 레이어부(430)는 위에 기술된 소프트 분류 기반 영상 측위 장치(2)에 대응한다. 소프트 분류 레이어부(430)는 입력되는 영상 데이터에 대한 신경망부(410)의 예측된 결과를 기반으로 소프트 분류를 수행하여 카메라 포즈에 대응하는 최종 절대 위치값을 출력한다.

회귀 레이어부(440)는 입력되는 영상 데이터에 대한 신경망부(410)의 예측된 결과를 기반으로 회귀를 기반으로 카메라 포즈를 추정하여 추정 결과에 대응하는 최종 절대 위치값을 출력한다.

융합 처리부(440)는 하드 분류 레이어부(420)의 최종 절대 위치값과 소프트 분류 레이어부(430)의 최종 절대 위치값과 그리고 회귀 레이어부(440)의 최종 절대 위치값을 기반으로, 영상 데이터에 대한 최종 결과인 카메라 포즈를 출력한다. 바로 이전 예측 위치값 주변 셀 또는 하드 분류 결과 주변 셀들의 가중치만 남기고 멀리 있는 셀들의 가중치를 0으로 두고, 정규화를 통해 합이 1이 되도록 한 다음 최종 절대 위치값을 결정할 수 있다. 또한 하드 분류의 신뢰도 값이 매우 낮을 경우 소프트 분류 또는 회귀 결과를 선택하는 방식으로도 융합이 가능하다.

이러한 실시 예들에 따르면, 본 개시의 실시 예에 따른 하드 분류 기반의 레이어와 소프트 분류 기반의 레이어는 어떠한 CNN에도 적용될 수 있으며, 단일 사용은 물론 다른 기존의 회귀 레이어와 함께 사용 가능하다. 따른 하드 분류 기반의 레이어와 소프트 분류 기반의 레이어를 다른 측위 레이어들과 결합한 예는 위에 기술된 것에 한정되지 않는다.

도 16은 본 개시의 실시 예에 따른 영상 측위를 위한 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 구조도이다.

첨부한 도 16에 도시되어 있듯이, 본 개시의 일 실시 예에 따른 영상 측위를 위한 방법은 컴퓨팅 장치(1000)를 이용하여 구현될 수 있다.

컴퓨팅 장치(1000)는 프로세서(1100), 메모리(1200), 입력 인터페이스 장치(1300), 출력 인터페이스 장치(1400), 저장 장치(1500) 및 네트워크 인터페이스 장치(1600) 중 적어도 하나를 포함할 수 있다. 각각의 구성 요소들은 버스(bus)(1700)에 의해 연결되어 서로 통신을 수행할 수 있다. 또한, 각각의 구성 요소들은 공통 버스(1700)가 아니라, 프로세서(1100)를 중심으로 개별 인터페이스 또는 개별 버스를 통하여 연결될 수도 있다.

프로세서(1100)는 AP(Application Processor), CPU(Central Processing Unit), GPU(Graphic　Processing　Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(1200) 또는 저장 장치(1500)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(1100)는 메모리(1200) 및 저장 장치(1500) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 이러한 프로세서(1100)는 위의 도 2 내지 도 15를 토대로 설명한 기능 및 방법들을 구현하도록 구성될 수 있다. 예를 들어, 프로세서(1100)는 하드 분류 레이어부, 소프트 분류 레이어부, 회귀 레이어부, 융합 처리부 중 적어도 하나를 포함하거나 그들의 기능을 수행하도록 구성될 수 있다.

메모리(1200) 및 저장 장치(1500)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(1210) 및 RAM(random access memory)(1220)를 포함할 수 있다. 본 개시의 실시 예에서 메모리(1200)는 프로세서(1100)의 내부 또는 외부에 위치할 수 있고, 메모리(1200)는 이미 알려진 다양한 수단을 통해 프로세서(1100)와 연결될 수 있다. 메모리(1200) 또는 저장 장치(1500)는 측위를 위한 공간을 구성하는 셀들에 대한 지도 정보를 저장할 수 있다.

입력 인터페이스 장치(1300)는 데이터(예: 영상 데이터)를 프로세서(1100)로 제공하도록 구성되며, 출력 인터페이스 장치(1400)는 프로세서(1100)로부터의 데이터를 출력하도록 구성된다.

네트워크 인터페이스 장치(1600)는 유선 네트워크 또는 무선 네트워크를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.

이러한 구조로 이루어지는 컴퓨팅 장치(1000)는 영상 측위 장치나 분류 기반 카메라 포즈 예측 시스템으로 명명되어, 본 개시의 일 실시 예에 따른 영상 측위를 위한 방법을 구현할 수 있다.

또한, 본 개시의 일 실시 예에 따른 영상 측위를 위한 방법 중 적어도 일부는 컴퓨팅 장치(100)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.

또한, 본 개시의 일 실시 예에 따른 영상 측위를 위한 방법 중 적어도 일부는 컴퓨팅 장치(100)와 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.

본 개시의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 개시의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 개시가 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 개시의 실시 예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속하는 것이다.

Claims

영상 데이터에서 카메라 포즈를 예측하는 영상 측위를 위한 방법으로서,
측위 장치가, 상기 영상 데이터를 미리 학습된 가중치를 기반으로 처리하는 분류 네트워크로부터 상기 영상 데이터가 측위를 위한 공간을 구성하는 셀들 중에서 어느 셀에 속하는지를 나타내는 예측 결과를 획득하는 단계;
상기 측위 장치가, 상기 예측 결과를 기반으로 선택되는 셀 인덱스를 이용하여, 상기 측위를 위한 공간에 대한 지도 정보 - 상기 지도 정보는 셀 인덱스별로 셀을 구성하는 좌표의 최소값과 최대값 그리고 셀 크기를 포함함 - 를 획득하는 단계; 및
상기 측위 장치가, 상기 지도 정보를 기반으로 상기 영상 데이터에 대한 위치를 계산하여 대응하는 카메라 포즈를 출력하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 카메라 포즈를 출력하는 단계는
상기 측위를 위한 공간에서 상기 선택된 셀 인덱스의 주변 이웃 셀들의 가중치들의 합을 기반으로 상기 영상 데이터에 대한 위치를 계산하는, 방법.
제1항에 있어서,
상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며,
상기 예측 결과는 클래스별 신뢰도를 포함하고,
상기 카메라 포즈를 출력하는 단계는 상기 카메라 포즈와 이에 대응하는 신뢰도를 출력하는, 방법.
제3항에 있어서,
상기 지도 정보를 획득하는 단계는
상기 클래스별 신뢰도 중에서 가장 큰 값의 신뢰도를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 단계; 및
상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 분류 네트워크는 하드 분류 기반 학습을 통해 학습되고,
상기 하드 분류 기반 학습은, 훈련 데이터를 카메라 포즈 분류를 적용하기 위한 인덱스로 변환하고, 각 인덱스에 대해 학습을 위한 하드 레이블링을 수행하는 것을 통해 수행되며, 상기 하드 레이블링은 카메라 포즈에 대응되는 하나의 인덱스의 셀만 1로 하고, 나머지는 0이 되도록 하는, 방법.
제1항에 있어서,
상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며,
상기 예측 결과는 클래스별 스코어를 포함하고, 상기 스코어는 손실 함수를 기반으로 계산된 평가 점수이며,
상기 지도 정보를 획득하는 단계는
상기 클래스별 스코어 중에서 가장 큰 값의 스코어를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 단계; 및
상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 분류 네트워크는 소프트 분류 기반 학습을 통해 학습되고,
상기 소프트 분류 기반 학습은, 훈련 데이터를 카메라 포즈 분류를 적용하기 위한 인덱스로 변환하고, 각 인덱스에 대해 학습을 위한 소프트 레이블링을 수행하는 것을 통해 수행되며, 상기 소프트 레이블링은 선형 보간법을 기반으로 하는, 방법.
제7항에 있어서,
상기 소프트 레이블링은 절대 위치를 기준으로 상기 절대 위치에 인접한 이웃 셀과의 거리와 면적을 기반으로 소프트 레이블을 결정하는, 방법.
영상 데이터에서 카메라 포즈를 예측하는 영상 측위를 위한 장치로서,
영상 측위를 위한 영상 데이터를 입력받도록 구성된 인터페이스 장치;
측위를 위한 공간을 구성하는 셀들에 대한 지도 정보 - 상기 지도 정보는 셀 인덱스별로 셀을 구성하는 좌표의 최소값과 최대값 그리고 셀 크기를 포함함 - 가 저장된 메모리; 및
상기 영상 데이터를 기반으로 상기 카메라 포즈를 예측하도록 구성된 프로세서
를 포함하며,
상기 프로세서는,
상기 인터페이스 장치를 통해, 하드 분류 기반으로 학습된 분류 네트워크로부터 상기 영상 데이터가 측위를 위한 공간을 구성하는 셀들 중에서 어느 셀에 속하는지를 나타내는 예측 결과를 획득하는 동작;
상기 예측 결과를 기반으로 선택되는 셀 인덱스를 이용하여, 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 동작; 및
상기 지도 정보를 기반으로 상기 영상 데이터에 대한 위치를 계산하여 대응하는 카메라 포즈를 출력하는 동작
을 수행하도록 구성된, 장치.
제9항에 있어서,
상기 프로세서는 상기 카메라 포즈를 출력하는 동작 수행시,
상기 측위를 위한 공간에서 상기 선택된 셀 인덱스의 주변 이웃 셀들의 가중치들의 합을 기반으로 상기 영상 데이터에 대한 위치를 계산하도록 구성되는, 장치.
제9항에 있어서,
상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며,
상기 예측 결과는 클래스별 신뢰도를 포함하고,
상기 프로세서는 상기 카메라 포즈를 출력하는 동작 수행시, 상기 카메라 포즈와 이에 대응하는 신뢰도를 출력하도록 구성되는, 장치.
제11항에 있어서,
상기 프로세서는 상기 지도 정보를 획득하는 동작 수행시,
상기 클래스별 신뢰도 중에서 가장 큰 값의 신뢰도를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 동작; 및
상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 동작
을 수행하도록 구성되는, 장치.
제9항에 있어서,
상기 분류 네트워크는 하드 분류 기반 학습을 통해 학습되고,
상기 하드 분류 기반 학습은, 훈련 데이터를 카메라 포즈 분류를 적용하기 위한 인덱스로 변환하고, 각 인덱스에 대해 학습을 위한 하드 레이블링을 수행하는 것을 통해 수행되며, 상기 하드 레이블링은 카메라 포즈에 대응되는 하나의 인덱스의 셀만 1로 하고, 나머지는 0이 되도록 하는, 장치.
제9항에 있어서,
상기 측위를 위한 공간을 구성하는 셀은 하나의 클래스에 매핑되며,
상기 예측 결과는 클래스별 스코어를 포함하고, 상기 스코어는 손실 함수를 기반으로 계산된 평가 점수이며,
상기 프로세서는 상기 지도 정보를 획득하는 동작 수행시,
상기 클래스별 스코어 중에서 가장 큰 값의 스코어를 가지는 클래스를 선택하고, 상기 선택된 클래스에 매핑된 셀 인덱스를 획득하는 동작; 및
상기 획득된 셀 인덱스를 이용하여 상기 측위를 위한 공간에 대한 지도 정보를 획득하는 동작
을 수행하도록 구성되는, 장치.
제9항에 있어서,
상기 분류 네트워크는 소프트 분류 기반 학습을 통해 학습되고,
상기 소프트 분류 기반 학습은, 훈련 데이터를 카메라 포즈 분류를 적용하기 위한 인덱스로 변환하고, 각 인덱스에 대해 학습을 위한 소프트 레이블링을 수행하는 것을 통해 수행되며, 상기 소프트 레이블링은 선형 보간법을 기반으로 하는, 장치.
제9항에 있어서,
상기 프로세서는
하드 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈와 신뢰도를 포함하는 하드 분류 예측 결과를 출력하도록 구성된 하드 분류 레이어부;
소프트 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 소프트 분류 예측 결과를 출력하도록 구성된 소프트 분류 레이어부; 및
상기 하드 분류 예측 결과와 상기 소프트 분류 예측 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부
를 포함하는, 장치.
제9항에 있어서,
상기 프로세서는
하드 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈와 신뢰도를 포함하는 하드 분류 예측 결과를 출력하도록 구성된 하드 분류 레이어부;
회귀 추정을 통해 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 회귀 추정 결과를 출력하도록 구성된 회귀 레이어부; 및
상기 하드 분류 예측 결과와 상기 회귀 추정 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부
를 포함하도록 구성되는, 장치.
제9항에 있어서,
상기 프로세서는
소프트 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 소프트 분류 예측 결과를 출력하도록 구성된 소프트 분류 레이어부;
회귀 추정을 통해 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 회귀 추정 결과를 출력하도록 구성된 회귀 레이어부; 및
상기 소프트 분류 예측 결과와 상기 회귀 추정 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부
를 포함하도록 구성되는, 장치.
제9항에 있어서,
상기 프로세서는
하드 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈와 신뢰도를 포함하는 하드 분류 예측 결과를 출력하도록 구성된 하드 분류 레이어부;
소프트 분류 기반 학습을 통해 학습된 분류 네트워크를 이용하여 상기 예측 결과를 획득하는 동작, 상기 지도 정보를 획득하는 동작 및 상기 카메라 포즈를 출력하는 동작을 수행하여, 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 소프트 분류 예측 결과를 출력하도록 구성된 소프트 분류 레이어부;
회귀 추정을 통해 상기 영상 데이터에 대해 예측된 카메라 포즈를 포함하는 회귀 추정 결과를 출력하도록 구성된 회귀 레이어부; 및
상기 하드 분류 예측 결과와 상기 소프트 분류 예측 결과 그리고 상기 회귀 추정 결과를 융합하여 상기 영상 데이터에 대한 최종 카메라 포즈를 출력하도록 구성된 융합 처리부
를 포함하도록 구성되는, 장치.