KR20200109799A

KR20200109799A - 영상내 객체의 깊이정보를 추정하는 장치 및 방법

Info

Publication number: KR20200109799A
Application number: KR1020190029462A
Authority: KR
Inventors: 이유; 이주철; 김경빈; 이주용
Original assignee: 주식회사 케이티
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-09-23

Abstract

영상내 객체의 깊이정보를 추정하는 장치 및 방법이 개시된다. 본 발명의 장치는, 카메라에 의해 촬영된 적어도 셋의 프레임에서 이동하는 객체영상을 검출하고, 해당 객체영상을 추출하는 추출부, 상기 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점을 연결하여 특징점을 매칭하는 매칭부, 상기 적어도 셋의 프레임 각각에서의 상기 카메라의 내부변수와 위치를 포함하는 카메라 정보를 결정하는 제1결정부, 상기 카메라 정보로부터 상기 적어도 셋의 프레임 각각에서의 상기 특징점의 3차원 공간상 좌표를 결정하는 제2결정부, 및 상기 적어도 셋의 프레임간 객체의 3차원 위치를 결정하여, 이로부터 객체의 깊이정보를 결정하는 제3결정부를 포함한다.

Description

영상내 객체의 깊이정보를 추정하는 장치 및 방법{APPARATUS FOR ESTIMATING DEPTH OF OBJECT IN IMAGE}

본 발명은 영상내 객체의 깊이정보를 추정하는 장치 및 방법에 대한 것이다.

일반적으로, 3차원(3D) 입체영상 표시기술은 2D 영상에 깊이(depth) 느낌을 제공하여 입체감을 표시하는 것으로, 좌안및 우안으로부터 객체를 보았을 때의 시각적 변위 또는 객체의 시각방향의 차이인 양안시차(binocular parallax)를 이용하여 물체의 입체감을 표현한다. 즉 사람은 좌안 영상과 우안 영상의 사이에 존재하는 물체의 깊이(depth)를 인식함으로써 입체감을 느끼게 된다.

이와 같은 입체영상을 획득하기 위해, 두대 이상의 카메라를 시용하여 촬영된 영상으로부터 깊이정보를 알아내는 연구, 또는 적외선 센서를 이용하여 깊이정보를 획득하는 연구 등이 진행되어 있다.

그러나, 전자의 경우 두대 이상의 카메라가 필요하므로 시스템 비용이 크게 소요되는 문제점이 있으며, 후자의 경우 역시 적외선 센서가 요구되므로 양자 모두 비용과 관련한 범용성이 제한되는 문제점이 있었다.

한편, 고정된 단일 카메라로부터 깊이정보를 추정하는 방법으로써, 딥러닝(deep learning)을 이용한 기법에 대한 연구도 활발하게 이루어지고 있다. 그러나 딥러닝을 이용한 방법은 알고리즘이 복잡하기 때문에 상용화가 어려운 문제점이 있다.

본 발명이 해결하고자 하는 기술적 과제는, 단일 카메라를 이용하여 연속된 영상입력으로부터 영상내 객체의 깊이정보를 추정하는, 영상내 객체의 깊이정보를 추정하는 장치 및 방법을 제공하는 것이다.

상기와 같은 기술적 과제를 해결하기 위해, 본 발명의 일실시예의 깊이정보 추정장치는, 카메라에 의해 촬영된 적어도 셋의 프레임에서 이동하는 객체영상을 검출하고, 해당 객체영상을 추출하는 추출부; 상기 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점을 연결하여 특징점을 매칭하는 매칭부; 상기 적어도 셋의 프레임 각각에서의 상기 카메라의 내부변수와 위치를 포함하는 카메라 정보를 결정하는 제1결정부; 상기 카메라 정보로부터 상기 적어도 셋의 프레임 각각에서의 상기 특징점의 3차원 공간상 좌표를 결정하는 제2결정부; 및 상기 적어도 셋의 프레임간 객체의 3차원 위치를 결정하여, 이로부터 객체의 깊이정보를 결정하는 제3결정부를 포함할 수 있다.

본 발명의 일실시예에서, 상기 추출부는, 상기 적어도 셋의 프레임 각각에서 색상의 차이를 이용하여 전경과 배경을 분리하여 상기 객체영상을 추출할 수 있다.

본 발명의 일실시예에서, 상기 매칭부는, 상기 기준 프레임의 객체영상으로부터 특징점을 추출하고, 나머지 적어도 둘의 프레임의 객체영상을 추적하여, 상기 적어도 셋의 프레임 중 기준 프레임의 객체영상에 대응하는 객체영상의 대응점을 추출할 수 있다.

본 발명의 일실시예에서, 상기 제1결정부는, 매칭된 상기 특징점을 이용하여 특징점의 속성을 결정하고, 이를 통해 상기 카메라 정보를 결정할 수 있다.

본 발명의 일실시예에서, 상기 제3결정부는, 상기 적어도 셋의 프레임 중 기준 프레임의 카메라의 위치를 기준으로 객체의 상대적인 위치를 결정하고, 상기 적어도 셋의 프레임의 카메라간 상대적인 위치관계로부터 객체의 3차원 위치를 결정하여, 이로부터 객체의 깊이정보를 결정할 수 있다.

또한, 상기와 같은 기술적 과제를 해결하기 위해, 본 발명의 일실시예의 깊이정보 결정방법은, 카메라에 의해 촬영된 이동하는 객체영상에 대한 복수의 프레임을 수신하는 단계; 상기 복수의 프레임 중 적어도 셋의 프레임에서 이동하는 객체영상을 추출하는 단계; 상기 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점을 연결하여 특징점을 매칭하는 단계; 상기 적어도 셋의 프레임 각각에서의 상기 카메라의 내부변수와 위치를 포함하는 카메라 정보를 결정하는 단계; 상기 카메라 정보로부터 상기 적어도 셋의 프레임 각각에서의 상기 특징점의 3차원 공간상 좌표를 결정하는 단계; 및 상기 적어도 셋의 프레임 중 기준 프레임의 카메라의 위치를 기준으로 객체의 상대적인 위치를 결정하는 단계; 상기 적어도 셋의 프레임의 카메라간 상대적인 위치관계로부터 객체의 3차원 위치를 결정하는 단계; 및 상기 상기 적어도 셋의 프레임간 객체의 3차원 위치로부터 객체의 깊이정보를 결정하는 단계를 포함할 수 있다.

상기와 같은 본 발명은, 단일 카메라를 이용하여 이동하는 객체의 3차원 위치좌표를 기반으로 객체의 깊이정보를 결정할 수 있으므로, 깊이정보를 구하기 위한 센서 또는 스테레오 카메라의 의존도를 낮출 수 있고, 일반 카메라의 이용이 가능하므로 범용성을 확보하게 하는 효과가 있다.

또한, 본 발명의 일실시예에 의하면, 사용자를 증강현실 환경에 증강시킬 때, 깊이센서를 이용하지 않으면서 3차원 거리를 고려하여 사용자 및 관심 물체를 위치시킴으로써 현실감 있는 증강현실 서비스를 구축하게 하는 효과가 있다.

또한, 본 발명의 일실시예에 의하면, 고정되어 사용되는 보안카메라의 영상분석에 깊이정보를 추가하여, 보다 정확한 이벤트 분석 및 인식이 가능하게 하는 효과가 있다.

도 1은 본 발명의 일실시예의 깊이정보 추정장치가 구현되는 시스템을 설명하기 위한 일예시도이다.
도 2 및 도 3은 본 발명의 일실시예의 추정장치의 원리를 설명하기 위한 일예시도이다.
도 4는 본 발명의 일실시예의 추정장치의 세부구성을 설명하기 위한 구성도이다.
도 5a 내지 도 5d는 본 발명의 일실시예의 추정장치의 동작을 설명하기 위한 일예시도이다.
도 6은 본 발명의 일실시예의 깊이정보 추정방법을 설명하기 위한 흐름도이다.

본 발명의 구성 및 효과를 충분히 이해하기 위하여, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라, 여러가지 형태로 구현될 수 있고 다양한 변경을 가할 수 있다. 단지, 본 실시예에 대한 설명은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위하여 제공되는 것이다. 첨부된 도면에서 구성요소는 설명의 편의를 위하여 그 크기를 실제보다 확대하여 도시한 것이며, 각 구성요소의 비율은 과장되거나 축소될 수 있다.

'제1', '제2' 등의 용어는 다양한 구성요소를 설명하는데 사용될 수 있지만, 상기 구성요소는 위 용어에 의해 한정되어서는 안 된다. 위 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 '제1구성요소'는 '제2구성요소'로 명명될 수 있고, 유사하게 '제2구성요소'도 '제1구성요소'로 명명될 수 있다. 또한, 단수의 표현은 문맥상 명백하게 다르게 표현하지 않는 한, 복수의 표현을 포함한다. 본 발명의 실시예에서 사용되는 용어는 다르게 정의되지 않는 한, 해당 기술분야에서 통상의 지식을 가진 자에게 통상적으로 알려진 의미로 해석될 수 있다.

이하에서는, 도 1 내지 도 6을 참조하여 본 발명의 일실시예의 영상내 객체의 깊이정보 추정장치 및 방법을 상세히 설명하기로 한다.

도 1은 본 발명의 일실시예의 깊이정보 추정장치가 구현되는 시스템을 설명하기 위한 일예시도이다.

도면에 도시된 바와 같이, 사용자는 고정된 카메라(1)를 사용하여 이동하는 오브젝트(2)를 촬영할 수 있으며, 본 발명의 추정장치(3)는 고정된 카메라(1)로부터 오브젝트(2)가 포함된 복수의 프레임을 수신하여, 해당 복수의 프레임 중 적어도 두개의 프레임으로부터 오브젝트(2)의 깊이정보를 추정할 수 있다.

이를 위해, 본 발명의 일실시예의 추정장치(3)는 카메라(1)와 유선 또는 무선의 네트워크를 통해 연결되어 복수의 영상 프레임을 수신할 수도 있고, 또는 카메라(1)의 내부에 제공될 수도 있을 것이다. 본 발명의 일실시예에서, 카메라(1)는, 고정단말(PC 등)(4)에 고정되어 있는 웹캠 형태의 카메라일 수도 있고, 또는 이동단말의 일영역에 제공되는 카메라모듈 형태의 카메라일 수도 있을 것이다. 다만, 이는 예시적인 것이므로, 본 발명에서 제한적인 것이 아니다.

본 발명의 일실시예에서, 추정장치(3)는, 연속된 영상의 입력으로부터 영상내 물체의 움직임을 카메라의 움직임의 역으로 가정하여 3차원 정보를 계산할 수 있다. 이에 대해 설명하기로 한다.

원점을 중심으로 움직이는 카메라로부터 촬영된 영상과 배경이 움직이고 카메라가 고정된 환경에서 촬영된 영상은 동일하다.

도 2 및 도 3은 본 발명의 일실시예의 추정장치의 원리를 설명하기 위한 일예시도이다.

도 2의 (a)에 도시된 바와 같이, 카메라(1)가 A 위치에서 회전거리 R, 시간 T 만큼 이동하여, B 위치로 이동한 경우를 가정한다. 이때 카메라(1)는 각각 영상을 촬영할 수 있다.

이를 바꾸어 말하면, (b)와 같이, 카메라(1)가 A 위치에서 고정인 상태에서, 배경을 반대로 이동(회전거리 R-1, 시간 -T)하면 동일한 영상을 촬영할 수 있다는 것을 의미한다.

도 3을 참조로 더욱 구체적으로 설명하기로 한다.

도 3의 (a)는 가상의 3차원 공간에 객체인 집을 위치시키고 카메라(1)를 이용하여 촬영한 영상이고, (b)는 카메라(1)를 y축 방향으로 10° 회전시키고 x축 방향으로 5°만큼 회전하여 렌더링한 영상이다. 한편, (c)는 카메라(1)를 고정하고, (a)의 영상을 y축 방향으로 -10°회전하고, x축 방향으로 -5°회전하여 이동시킨 영상이다.

도면에 도시된 바와 같이, (b)와 (c)는 동일한 영상임을 알 수 있다.

이와 같이, 본 발명의 일실시예의 추정장치는, 카메라의 움직임과 배경의 움직임이 같은 영상을 촬영할 수 있다는 것을 이용한 것으로서, 실제 배경 자체가 움직이는 환경은 존재하지 않으므로, 촬영된 영상의 일부분(이동부분)을 이용하여 3차원 거리정보를 추정하는 것이다.

본 발명의 일실시예에서, 추정장치(3)는 카메라(1)와 별도로 구성되는 것으로 도시되어 있지만, 이는 예시적인 것으로서, 본 발명이 이에 한정되는 것은 아니다. 즉, 예를 들어, 카메라(1)가 개인용 컴퓨터(PC)에 배치되는 카메라인 경우, 추정장치(3)는 해당 PC의 내부에 제공될 수도 있을 것이고, 또는, 카메라(1)가 스마트폰과 같은 이동단말의 카메라모듈 형식인 경우, 추정장치(3)는 해당 이동단말의 내부에 제공될 수도 있을 것이다.

도 4는 본 발명의 일실시예의 추정장치의 세부구성을 설명하기 위한 구성도이고, 도 5a 내지 도 5d는 본 발명의 일실시예의 추정장치의 동작을 설명하기 위한 일예시도이다.

도면에 도시된 바와 같이, 본 발명의 일실시예의 추정장치(3)는, 객체영상 추출부(31), 특징점 매칭부(32), 카메라 정보 결정부(33), 3차원 좌표 결정부(34) 및 깊이정보 결정부(35)를 포함할 수 있다.

본 발명의 일실시예에서, 카메라(1)는 움직이는 객체가 포함되는 복수의 프레임의 영상을 획득하여 추정장치(3)에 제공할 수 있다. 본 발명의 일실시예에서, 카메라(1)가 추정장치(3)에 제공하는 프레임의 수는, 적어도 2개 이상일 수 있다. 도 5a는 카메라(1)로부터 추정장치(3)가 수신하는 복수의 프레임의 영상을 예를 들어 나타낸 것이다.

도시되지 않았으나, 카메라(1)로부터 복수의 프레임의 영상을 수신하여, 연속한 프레임의 집합에서 일정 시간간격(또는 일정 거리간격)으로 프레임을 선택하는 프레임 선택부(도시되지 않음)가 더 포함되어, 추정장치(3)의 객체영상 추출부(31)로 선택된 프레임을 제공할 수 있을 것이다.

만약, 프레임 선택부가 영상처리에 적합한 프레임을 선택하지 못한 경우, 본 발명의 일실시예에서, 프레임 선택부는 촬영된 영상으로부터 3차원 깊이정보를 얻어낼 수 없음을 고정단말 또는 이동단말의 디스플레이부(도시되지 않음)에 디스플레이할 수도 있을 것이다.

객체영상 추출부(31)는, 적어도 셋의 프레임에서 움직이는 객체를 검출하고, 색상의 차이를 이용하여 전경(foreground)과 배경(background)을 분리하여 객체영상을 추출할 수 있다. 전경과 배경을 분리하는 기술은, 클러스터링(clustering), 쓰레쉬홀드(threshold), 영역확장(region growing), 엣지 검출(edge detection) 등 다양한 방법이 이용될 수 있다. 각각의 내용에 대해서는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명하다 할 것이므로, 그 상세한 설명은 생략하기로 하겠다.

도 5b는 객체영상 추출부(31)가 움직이는 객체를 검출한 것을 설명하기 위한 것이고, 도 5c는 객체영상 추출부(31)가 전경과 배경을 분리하여 객체영상을 추출한 것을 나타낸 것이다. 다만, 도 5a 및 도 5b에서는 각 한 프레임의 영상에 대해 나타내고 있으나, 이는 설명의 편의를 위한 것으로서, 객체영상 추출부(31)는 적어도 셋의 프레임으로부터 객체영상을 추출할 수 있을 것이다.

특징점 매칭부(32)는 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점들을 찾아 연결하여 특징점을 매칭할 수 있다. 도 5d는 인접하는 2프레임의 객체영상의 특징점을 매칭한 예를 나타낸 것이다.

이때, 특징점 매칭부(32)는 적어도 셋의 프레임 중 기준 프레임의 객체영상으로부터 특징점을 추출할 수 있으며, 해리스 코너(Harris corner)를 이용하여 특징점을 추출할 수 있으나, 본 발명이 이에 한정되는 것은 아니며, 다양한 방식에 의해 특징점을 추출할 수 있다.

다음으로, 특징점 매칭부(32)는 나머지 적어도 둘의 프레임의 객체영상을 추적하여 기준 프레임의 객체영상에 대응하는 각 프레임의 객체영상의 대응점을 추출할 수 있다. 이때의 특징점 매칭부(32)는 Kanade-Lucas-Tomashi(KLT) 추적기(tracker)를 이용하여 나머지 적어도 둘의 프레임의 객체영상을 추적할 수 있지만 본 발명이 이에 한정되는 것은 아니며, 다양한 방식에 의해 나머지 적어도 둘의 프레임의 객체영상을 추적할 수 있을 것이다.

본 발명의 일실시예에서, 객체영상에서 추출되는 특징점을 정확하게 연결하여, 프레임에서 관찰되는 2차원 특징과 복원하고자 하는 3차원 구조와의 초기관계를 결정할 수 있는 것이다.

카메라 정보 결정부(33)는 매칭된 특징점을 이용하여 특징점의 속성(특징점의 움직이는 방향, 움직인 거리, 속도 등)을 결정하고, 이를 통해서 카메라 정보를 결정할 수 있다. 즉, 카메라 정보 결정부(33)는 3차원의 물체가 2차원의 이미지에 투영되는 방식을 결정하는 카메라(1)의 내부변수(intrinsic parameter) 및 카메라의 상대적인 위치를 포함하는 카메라 정보를 결정하는 것으로서, 카메라 내부변수는 초점거리, 주점, 비대칭계수 및 왜곡변수를 포함할 수 있다.

이는 투영 기하정보를 유클리드 기하정보로 변환하기 위해 필요한 것으로서, 2차원 영상정보의 기하학적인 특성을 이용하여 투영기하에서 유클리드 기하로 3차원 구조를 변환하는 동시에 실세계에서의 카메라(1)의 내부변수와 카메라간 상대적인 위치를 계산하는 것이다.

3차원 좌표 결정부(34)는 카메라 정보 결정부(33)가 결정한 카메라 정보를 기반으로, 특징점에 삼각측량 기법 등을 이용하여 특징점의 3차원 공간상에서의 좌표를 결정할 수 있다. 특징점의 3차원 공간상 좌표를 결정하는 방식은 삼각측량 기법에 한정되는 것은 아니고, 더욱 다양한 방식으로 결정될 수 있을 것이다.

특징점 매칭부(32), 카메라 정보 결정부(33) 및 3차원 좌표 결정부(34)의 동작은 SFM(Structure from Motion)으로 알려진 알고리즘으로, 동영상 또는 연속된 영상의 입력으로부터 3차원 정보를 추정하는 기술에 해당할 수 있다. 즉, 이러한 SFM 방식은 추출된 특징점의 궤도를 이용하여 카메라의 움직임 및 객체의 3차원 위치정보를 결정하는 것이다.

본 발명의 일실시예는, 이러한 SFM 방식을 이용하는 것으로서, SFM 방식에 의하면, 카메라 정보와 각 영상 프레임의 카메라간 상대적인 위치를 계산하고, 이를 이용하여 영상 프레임의 대략적인 3차원 구조를 계산하는 것이다. 본 발명은 이를 이용하는 것으로서, 고정된 단일 카메라(1)로부터 이동하는 객체 또는 환경의 깊이정보를 추정하기 위한 것이다.

즉, 본 발명의 일실시예의 깊이정보 결정부(35)는, 적어도 셋의 프레임 중에서 기준 프레임의 카메라의 위치를 기준으로, 객체의 상대적인 위치를 카메라 위치의 관계로부터 결정할 수 있다. 즉, 각각의 프레임의 카메라간 상대적인 위치가 동영상 프레임간 객체의 3차원 위치의 관계일 수 있으므로, 이로부터 프레임간 객체의 깊이정보를 결정할 수 있다.

깊이정보는, 각 프레임의 초점거리 및 객체의 이동변위에 기반하여, 픽셀 블록별 초점거리를 연산하고, 픽셀 블록별 초점거리에 대응하는 객체 영상의 깊이정보를 획득하는 방식으로 결정할 수도 있고, 또는 3차원 영상을 이용하여 깊이정보를 구할 수 있는 다양한 방식에 의해 결정할 수 있을 것이다.

도 5e를 참조로 하면, 결정된 3차원 특징점의 좌표(5A)에 대응하는 카메라의 위치(5B)를 결정할 수 있으므로, 깊이정보 결정부(35)는 기준 프레임의 카메라의 위치를 기준으로 객체의 상대적인 위치를 결정하고, 카메라간 상대적인 위치의 관계로부터 프레임간 객체의 3차원 위치를 결정하여, 이로부터 객체의 깊이정보를 결정할 수 있을 것이다.

본 발명의 일실시예에 의하면, 단일 카메라(1)를 이용하여 이동하는 객체의 3차원 위치좌표를 기반으로 객체의 깊이정보를 결정할 수 있으므로, 깊이정보를 구하기 위한 센서 또는 스테레오 카메라의 의존도를 낮출 수 있고, 일반 카메라의 이용이 가능하므로 범용성을 확보할 수 있다.

또한, 본 발명의 일실시예에 의하면, 사용자를 증강현실 환경에 증강시킬 때, 깊이센서를 이용하지 않으면서 3차원 거리를 고려하여 사용자 및 관심 물체를 위치시킴으로써 현실감 있는 증강현실 서비스를 구축할 수 있다.

또한, 본 발명의 일실시예에 의하면, 고정되어 사용되는 보안카메라의 영상분석에 깊이정보를 추가하여, 보다 정확한 이벤트 분석 및 인식이 가능하게 된다.

도 6은 본 발명의 일실시예의 깊이정보 추정방법을 설명하기 위한 흐름도이다.

도면에 도시된 바와 같이, 본 발명의 일실시예의 깊이정보 추정방법은, 카메라(1)를 통해 입력되는 복수의 영상 프레임을 수신하여(S61), 연속하는 프레임의 집합에서 일정 시간간격의, 또는 객체영상의 추출이 가능한(영상처리에 적합한) 적어도 셋의 프레임을 선택할 수 있다. 이때 복수의 영상 프레임은, 이동하는 객체를 촬영한 것이다.

만약, 영상처리에 적합한 프레임이 선택되지 않은 경우, 카메라(1)에 다시 영상을 보내줄 것을 요청할 수도 있고, 또는 사용자가 다시 영상을 촬영하도록 본 발명의 추정장치(3)가 제공되는 고정단말 또는 이동단말의 디스플레이부를 통해 사용자에게 요청할 수도 있을 것이다.

이후, 객체영상 추출부(31)는, 선택된 적어도 셋의 프레임에서 이동하는 객체를 검출하고, 전경과 배경을 분리하여 객체영상을 추출할 수 있다(S62). 본 발명의 일실시예에서, 객체는 이동하고 있으므로, 전경과 배경을 분리하는 방식으로 객체영상의 추출이 가능하다.

전경과 배경의 분리는, 이미 설명한 바와 같이, 클러스터링, 쓰레쉬홀드, 영역확장, 엣지 검출 등 다양한 방식에 의해 수행될 수 있을 것이다.

이후 특징점 매칭부(32)는 추출된 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점들을 찾아 연결하여 특징점을 매칭할 수 있다.

이때 특징점 매칭부(32)는 적어도 셋의 프레임 중 기준 프레임의 객체영상으로부터 특징점을 추출하고, 나머지 적어도 둘의 프레임의 객체영상을 추적하여 기준 프레임의 객체영상에 대응하는 각 프레임의 객체영상의 대응점을 추출할 수 있다.

이후, 카메라 정보 결정부(33)는 매칭된 특징점을 이용하여 특징점의 속성(특징점의 움직이는 방향, 움직인 거리, 속도 등)을 결정하고, 이를 통해서 카메라 정보를 결정할 수 있다(S64). 이때 카메라 정보는 카메라의 내부변수 및 카메라의 상대적인 위치를 포함하고, 카메라 내부변수는 초점거리, 주점, 비대칭계수 및 왜곡변수를 포함할 수 있다.

3차원 좌표 결정부(34)는 카메라 정보를 기반으로, 특징점에 삼각측량 기법등을 이용하여 3차원 공간상에서의 좌표를 결정할 수 있다(S65).

마지막으로, 깊이정보 결정부(35)는 기준 프레임의 카메라의 위치를 기준으로, 객체의 상대적인 위치를 카메라 위치의 관계로부터 결정하고, 이로부터 객체의 깊이정보를 결정할 수 있다(S66). 즉, 카메라간 상대적인 위치가 동영상 프레임간 객체의 3차원 위치이므로, 각 동영상 프레임간 객체의 3차원 위치로부터 객체의 깊이정보를 결정할 수 있을 것이다. 깊이정보는, 각 프레임의 초점거리 및 객체의 이동변위에 기반하여, 픽셀 블록별 초점거리를 연산하고, 픽셀 블록별 초점거리에 대응하는 객체 영상의 깊이정보를 획득하는 방식으로 결정할 수 있지만, 본 발명이 이에 한정되는 것은 아니다.

본 발명의 일실시예에 의하면, 단일 카메라에 의해 3차원 깊이정보를 결정할 수 있으므로, 증강현실(AR) 및 보안 시스템에서 효율적이면서도 범용적으로 이용될 수 있다.

이상에서 본 발명에 따른 실시예들이 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 다음의 청구범위에 의해서 정해져야 할 것이다.

1: 카메라 3: 추정장치
31: 객체영상 추출부 32: 특징점 매칭부
33: 카메라 정보 결정부 34: 3차원 좌표 결정부
35: 깊이정보 결정부

Claims

카메라에 의해 촬영된 적어도 셋의 프레임에서 이동하는 객체영상을 검출하고, 해당 객체영상을 추출하는 추출부;
상기 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점을 연결하여 특징점을 매칭하는 매칭부;
상기 적어도 셋의 프레임 각각에서의 상기 카메라의 내부변수와 위치를 포함하는 카메라 정보를 결정하는 제1결정부;
상기 카메라 정보로부터 상기 적어도 셋의 프레임 각각에서의 상기 특징점의 3차원 공간상 좌표를 결정하는 제2결정부; 및
상기 적어도 셋의 프레임간 객체의 3차원 위치를 결정하여, 이로부터 객체의 깊이정보를 결정하는 제3결정부를 포함하는 깊이정보 추정장치.
제1항에 있어서, 상기 추출부는,
상기 적어도 셋의 프레임 각각에서 색상의 차이를 이용하여 전경과 배경을 분리하여 상기 객체영상을 추출하는 깊이정보 추정장치.
제1항에 있어서, 상기 매칭부는,
상기 기준 프레임의 객체영상으로부터 특징점을 추출하고, 나머지 적어도 둘의 프레임의 객체영상을 추적하여, 상기 적어도 셋의 프레임 중 기준 프레임의 객체영상에 대응하는 객체영상의 대응점을 추출하는 깊이정보 추정장치.
제1항에 있어서, 상기 제1결정부는,
매칭된 상기 특징점을 이용하여 특징점의 속성을 결정하고, 이를 통해 상기 카메라 정보를 결정하는 깊이정보 추정장치.
제1항에 있어서, 상기 제3결정부는,
상기 적어도 셋의 프레임 중 기준 프레임의 카메라의 위치를 기준으로 객체의 상대적인 위치를 결정하고, 상기 적어도 셋의 프레임의 카메라간 상대적인 위치관계로부터 객체의 3차원 위치를 결정하여, 이로부터 객체의 깊이정보를 결정하는 깊이정보 추정장치.
카메라에 의해 촬영된 이동하는 객체영상에 대한 복수의 프레임을 수신하는 단계;
상기 복수의 프레임 중 적어도 셋의 프레임에서 이동하는 객체영상을 추출하는 단계;
상기 적어도 셋의 프레임의 객체영상으로부터 특징점을 추출하고, 각 객체영상에서 각각 매칭되는 특징점을 연결하여 특징점을 매칭하는 단계;
상기 적어도 셋의 프레임 각각에서의 상기 카메라의 내부변수와 위치를 포함하는 카메라 정보를 결정하는 단계;
상기 카메라 정보로부터 상기 적어도 셋의 프레임 각각에서의 상기 특징점의 3차원 공간상 좌표를 결정하는 단계; 및
상기 적어도 셋의 프레임 중 기준 프레임의 카메라의 위치를 기준으로 객체의 상대적인 위치를 결정하는 단계;
상기 적어도 셋의 프레임의 카메라간 상대적인 위치관계로부터 객체의 3차원 위치를 결정하는 단계; 및
상기 상기 적어도 셋의 프레임간 객체의 3차원 위치로부터 객체의 깊이정보를 결정하는 단계를 포함하는 깊이정보 추정방법.