KR101170490B1

KR101170490B1 - 마커리스 환경에서 증강 현실 오브젝트 인식 장치 및 방법

Info

Publication number: KR101170490B1
Application number: KR1020110056918A
Authority: KR
Inventors: 박재완; 김승균; 권기석
Original assignee: 주식회사 맥스트
Priority date: 2011-06-13
Filing date: 2011-06-13
Publication date: 2012-08-01

Abstract

마커리스 환경에서 증강 현실 오브젝트 인식 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 방법은, N개의 프레임을 포함하는 입력 영상에 포함된 이미지가 기 저장된 M 개의 학습 이미지들 중 하나와 일치하는 지 여부를 판단하기 위한 방법으로서, 상기 입력 영상의 i(1≤i≤N)번째 프레임으로부터 이미지를 추출하는 제1단계; 추출된 상기 이미지를 복수 개의 서브 영역으로 분할하는 제2단계; 분할된 각 서브 영역 별로 복수 개의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산하는 제3단계; 계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산하는 제4단계; 계산된 상기 이미지의 시그니처와 j(1≤j≤M)번째 학습 이미지로부터 계산된 시그니처와의 일치 여부를 판단하는 제5단계; 상기 제5단계의 판단 결과 일치하지 않는 경우, 상기 입력 영상의 i+1번째 프레임 및 j+1번째 학습 이미지에 대하여 상기 제1단계 내지 제5단계를 반복 수행하며, 일치하는 경우 상기 j번째 학습 이미지를 상기 입력 영상에 포함된 이미지와 동일한 이미지로 판단하는 제6단계를 포함한다.

Description

마커리스 환경에서 증강 현실 오브젝트 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING AUGMENTED REALITY IMAGE IN MARKERLESS AUGMENTED REALITY}

본 발명은 마커리스(markerless) 환경에서의 증강 현실 구현 기술과 관련된다.

최근 들어, 스마트폰 등의 대중화와 더불어 증강 현실(Augmented Reality) 기술이 다양한 분야에서 활용되고 있다. 이러한 증강 현실의 일례로는 카메라로부터 촬영되는 영상으로부터 증강 현실 마커를 감지하고 감지된 마커에 따른 3차원 가상 물체를 상기 영상에 합성하여 출력하는 기술을 들 수 있다. 이와 같은 기술을 사용함으로써 현실에는 존재하지 않는 가상 캐릭터 등이 화면상으로는 실제로 존재하는 것처럼 할 수 있다.

또한, 초기의 증강 현실은 화면 내에서 기 설정된 형태의 마커를 기준으로 증강 현실을 구현하는 방식이었으나, 최근에는 별도의 마커를 사용하지 않는 마커리스 기술이 연구되고 있다. 그러나 이러한 마커리스 기술의 경우 마커를 대신할 이미지를 화면 상에서 원활하게 인식하는 데 한계가 있었다.

본 발명은 증강 현실을 구현하는 데 있어, 사용자가 선택한 이미지를 마커로 등록하고, 촬영된 영상으로부터 등록된 이미지를 용이하게 인식하는 수단을 제공하는 데 그 목적이 있다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 방법은, N개의 프레임을 포함하는 입력 영상에 포함된 이미지가 기 저장된 M 개의 학습 이미지들 중 하나와 일치하는 지 여부를 판단하기 위한 방법으로서, 상기 입력 영상의 i(1≤i≤N)번째 프레임으로부터 이미지를 추출하는 제1단계; 추출된 상기 이미지를 복수 개의 서브 영역으로 분할하는 제2단계; 분할된 각 서브 영역 별로 복수 개의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산하는 제3단계; 계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산하는 제4단계; 계산된 상기 이미지의 시그니처와 j(1≤j≤M)번째 학습 이미지로부터 계산된 시그니처와의 일치 여부를 판단하는 제5단계; 상기 제5단계의 판단 결과 일치하지 않는 경우, 상기 입력 영상의 i+1번째 프레임 및 j+1번째 학습 이미지에 대하여 상기 제1단계 내지 제5단계를 반복 수행하며, 일치하는 경우 상기 j번째 학습 이미지를 상기 입력 영상에 포함된 이미지와 동일한 이미지로 판단하는 제6단계를 포함한다.

한편, 상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 장치는, 복수 개의 학습 이미지들과 상기 각각의 학습 이미지로부터 계산된 시그니처들이 저장되는 데이터베이스; 입력 영상의 각 프레임으로부터 이미지를 추출하는 이미지 추출부; 추출된 상기 이미지를 복수 개의 서브 영역으로 분할하는 이미지 분할부; 분할된 각 서브 영역 별로 복수 개의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산하는 특징점 추출부; 계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산하는 시그니처 계산부; 및 상기 시그니처 계산부에서 계산된 이미지의 시그니처와 상기 데이터베이스에 저장된 상기 학습 이미지의 시그니처들을 비교하여 일치하는 시그니처가 존재하는지 여부를 판단하되, 상기 입력 영상의 각 프레임별로 하나의 학습 이미지가 대응되도록 상기 시그니처 계산부에서 계산된 이미지의 시그니처와 상기 데이터베이스에 저장된 시그니처들을 비교하는 판단부를 포함한다.

본 발명에 따를 경우, 학습 이미지의 특징점을 영역별로 분산하여 저장함으로써 마커 인식의 정확도를 높일 수 있으며, 이미지의 일부가 가려진 경우에도 인식도를 높일 수 있다.

또한 본 발명의 경우 입력된 영상의 프레임 별로 등록된 학습 이미지와의 비교 횟수를 줄임으로써 컴퓨팅 파워가 제한된 모바일 환경에서도 원활하게 이미지를 인식할 수 있는 장점이 있다.

도 1은 본 발명에 따른 마커리스 환경에서의 증강 현실 콘텐츠 저작 시스템의 전체 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 장치(200)의 구성을 나타낸 블록도이다.
도 3은 이미지 분할부(206)에서의 이미지 분할을 예시하기 위한 도면이다.
도 4는 본 발명에 따른 특징점 추출 알고리즘을 설명하기 위한 도면이다.
도 5는 본 발명에 따른 특징점에서의 특징 벡터 계산을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 단어 트리의 구성을 예시하기 위한 도면이다.
도 7 및 도 8은 본 발명에 따른 시그니처 생성 및 시그니처 비교를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 방법(900)을 설명하기 위한 도면이다.

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.

도 1은 본 발명에 따른 마커리스 환경에서의 증강 현실 콘텐츠 저작 시스템의 전체 구성을 설명하기 위한 도면이다. 도시된 바와 같이, 본 발명에 따른 마커리스 환경에서의 증강 현실 콘텐츠 저작 시스템은 등록 단계, 인식 단계, 트래킹 단계의 3단계로 구분된다.

먼저, 등록 단계는 사용자가 증강 현실 마커 및 상기 증강 현실 마커에 대응되는 증강 현실 오브젝트를 등록(학습)하는 단계이다. 본 발명의 시스템은 마커리스(Markerless) 기반으로 동작하므로, 상기 증강 현실 마커는 특정한 규칙 및 형태를 가진 마커가 아니라 예를 들어 책 표지 또는 포스터 등 일상 생활에서 흔히 볼 수 있는 이미지 등이 될 수 있다. 즉, 본 명세서에서 별도의 언급이 없더라도, '마커'는 일반적인 마커 기반 증강 현실 시스템에서 일컬어지는 정해진 형태의 마커가 아니라, 사용자가 증강 현실 오브젝트를 호출하기 위한 매개체로 사용하기 위하여 등록한 이미지를 의미함을 유의한다. 사용자는 이와 같이 증강 현실 오브젝트를 불러오기 위한 매개체인 증강 현실 마커로 사용될 이미지를 선택하여 이를 촬영한다. 그러면 상기 증강 현실 콘텐츠 저작 시스템은 촬영된 이미지로부터 키포인트(Keypoint)를 추출하고 상기 키포인트 및 기 구축된 단어 트리(Vocabulary tree)를 이용하여 상기 이미지의 시그니처를 계산한다. 이와 같은 키포인트 추출, 단어 트리 및 시그니처 계산과 관련된 사항은 이하에서 상세히 설명하기로 한다. 시그니처 계산이 완료되면, 증강 현실 콘텐츠 저작 시스템은 상기 이미지에 대응되는 증강 현실 오브젝트를 사용자로부터 등록받고, 등록된 상기 오브젝트 및 계산된 상기 이미지의 시그니처를 저장한 뒤 고유한 아이디를 할당한다. 상기 증강 현실 오브젝트는 화면상에서 상기 증강 현실 마커 이미지가 인식된 경우에 호출되는 콘텐츠로서, 예를 들어 화면상에 출력된 텍스트 메시지, 이미지, 동영상 또는 3차원 가상 물체 등이 될 수 있다.

다음으로, 인식 단계는 촬영되는 화면 상에 사용자가 기 등록한 증강 현실 마커(이미지)가 존재하는지의 여부를 실시간으로 판단하는 단계이다. 이와 같은 인식 단계는 촬영되는 화면의 각 프레임마다 수행될 수도 있고, 또는 기 설정된 소정 간격(예를 들어, 0.1초, 0.5초, 1초 등)마다 수행될 수도 있다. 먼저, 사용자는 카메라 및 디스플레이를 포함하는 단말을 이용하여 증강 현실 마커로 등록한 이미지를 포함하는 영상을 촬영한다. 상기 단말은 예를 들어 스마트폰, 디지털 카메라, 노트북 컴퓨터, 타블렛 PC 등 카메라와 디스플레이를 포함하는 모든 종류의 휴대 가능한 디지털 기기들을 포함할 수 있다. 영상이 입력되면 상기 영상의 특정 프레임으로부터 이미지를 추출하고, 추출된 이미지의 키포인트를 결정하며(키포인트 추출), 상기 키포인트 및 단어 트리를 이용하여 추출된 이미지의 시그니처를 계산한다. 상기 키포인트 추출 및 시그니처 계산 알고리즘은 상기 이미지 등록 시와 동일한 것을 사용하며, 단어 트리 또한 동일한 트리를 사용하여야 한다. 이후, 계산된 상기 이미지의 시그니처를 사용자에 의해 기 저장된 이미지(학습 이미지)의 시그니처와 비교하여 추출된 이미지에 대응되는 학습 이미지가 존재하는지를 판단한다. 만약, 이때 추출된 이미지의 시그니처와 학습 이미지의 시그니처 중 하나가 일치하는 경우, 시스템은 상기 이미지에서 잘못 매칭된 키포인트를 제거하고(오류 정정), 이미지를 분석하여 증강 현실 오브젝트의 최초 자세값을 산출하고, 상기 일치된 학습 이미지의 아이디 및 최초 자세값(Rt, Tt)을 이용하여 트래킹 단계로 진입한다. 그러나, 이와 달리 만약 상기 추출된 이미지와 일치하는 학습 이미지가 없는 경우에는 등록 단계로 진입하여 촬영된 이미지를 새로 등록할 것인지를 결정하게 된다.

트래킹 단계는 화면 상에서 증강 현실 마커가 인식되는 경우, 인식된 마커에 대응되는 증강 현실 오브젝트를 화면 상에 출력하는 단계이다. 먼저, 증강 현실 콘텐츠 저작 시스템은 상기 인식 단계에서 알아낸 아이디를 이용하여 데이터베이스로부터 그에 대응되는 증강 현실 오브젝트를 호출하고, 계산된 최초 자세값으로부터 매칭 알고리즘을 이용하여 오브젝트의 자세를 예측하며, 예측된 자세에 맞게 해당 오브젝트를 화면 상에 출력한다. 이때 상기 오브젝트의 자세는 오브젝트의 위치, 크기, 3차원 회전값을 의미하며, 이는 화면 상에서 인식된 마커의 위치, 크리, 3차원 회전 정도에 따라 달라진다. 이후, 만약 화면 상에서 마커가 사라지는 등으로 트래킹이 원활하지 않으면 다시 인식 단계로 돌아가 화면 상에서 마커를 재인식하게 되며, 트래킹이 원활한 경우에는 단말 내부에 포함된 자이로스코프 등을 이용하여 단말의 자세를 추출하고 이를 이용하여 증강 현실 오브젝트의 자세를 업데이트한다. 예를 들어, 사용자가 증강 현실 마커를 촬영하고 있는 단말을 이동하거나 한 경우 그에 맞추어 화면 상의 오브젝트의 자세를 변화시킬 수 있다.

도 2는 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 장치(200)의 구성을 나타낸 블록도이다. 증강 현실 오브젝트 인식 장치(200)는 본 발명에 따른 마커리스 환경에서의 증강 현실 콘텐츠 저작 시스템에서, 영상으로부터 이미지를 새로 등록받거나 또는 입력 영상에 포함된 이미지가 기 저장된 이미지와 동일한지의 여부를 판단하기 위하여 사용되는 장치이다. 이와 같은 증강 현실 오브젝트 인식 장치(200)는 상기 증강 현실 콘텐츠 저작 시스템의 하나의 구성요소로서 포함될 수도 있으며, 별도의 장치로 구성되어 증강 현실 오브젝트 인식 장치(200) 내의 다른 구성요소들과 필요한 데이터를 주고받도록 구성될 수도 있다.

도시된 바와 같이, 본 발명의 일 실시예에 따른 증강 현실 오브젝트 인식 장치(200)는 데이터베이스(202), 이미지 추출부(204), 이미지 분할부(206), 특징점 추출부(208), 시그니처 계산부(210) 및 판단부(212)를 포함한다.

데이터베이스(202)는 복수 개의 학습 이미지들 및 상기 각각의 학습 이미지로부터 계산된 시그니처들이 저장되는 공간이다. 상기 학습 이미지들은 상기 등록 단계에서 상용자가 증강 현실 마커로 사용하기 위하여 등록된 이미지들로서, 각각 증강 현실 오브젝트와 연결되어 저장되며 고유의 아이디를 가진다.

이미지 추출부(204)는 입력 영상의 각 프레임으로부터 이미지를 추출한다. 전술한 바와 같이, 사용자는 카메라 및 디스플레이가 포함된 단말을 이용하여 마커가 포함된영상을 촬영할 수 있으며, 이미지 추출부(204)는 입력되는 영상의 매 프레임마다, 또는 정해진 일정 주기마다 정지 화상, 즉 이미지를 추출하도록 구성될 수 있다.

이미지 분할부(206)는 이미지 추출부(204)에 추출된 이미지를 복수 개의 서브 영역으로 분할한다. 이때 상기 서브 영역의 개수는 이미지의 복잡도 또는 이미지의 사이즈, 계산 효율 등을 고려하여 적절히 정할 수 있다.

도 3은 이미지 분할부(206)에서의 이미지 분할을 예시하기 위한 도면이다. 도시된 실시예에서는 이미지를 6x8=48개의 서브 영역으로 분할한 실시예를 나타내었다. 이와 같이 이미지를 복수 개의 서브 영역으로 분할하는 이유는 후술할 특징점 추출부(208)에서의 특징점 추출을 서브 영역별로 분산하기 위한 것이다. 즉, 본 발명에서 특징점(Keypoint)은 주변 픽셀과의 밝기 차가 큰 영역, 즉 이미지의 에지(edge) 영역에서 집중적으로 추출되므로, 만약 이와 같이 이미지를 분할하지 않을 경우에는 특징점이 한 곳에 집중적으로 몰려 추출될 가능성이 있다. 그러나 특징점이 이미지의 특정 지점에 몰리게 되면, 만약 해당 영역이 인식 과정에서 다른 물체 등으로 인해 가려지게 되거나 할 경우에는 이미지의 인식률이 급격히 나빠지게 된다. 따라서 본 발명에서는 이미지를 복수 개의 서브 영역으로 분할하고, 분할된 서브 영역에서 정해진 개수만큼 특징점을 추출함으로써 특징점이 이미지 전체로 분산될 수 있도록 구성하였다. 이와 같이 특징점이 이미지 전체로 분산되면, 이후 인식 과정에서 이미지의 일부가 화면상에서 보이지 않게 되더라도 다른 부분의 특징점을 이용하여 이미지를 인식할 수 있는 가능성이 높아지게 되므로 이미지의 인식률을 높일 수 있다.

특징점 추출부(208)는 이미지 분할부(206)에서 분할된 각 서브 영역 별로 복수 개의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산한다. 특징점 추출부(208)는 각 서브 영역을 구성하는 각각의 픽셀에 대하여, 해당 픽셀을 중심 픽셀로 하여 상기 중심 픽셀로부터 기 설정된 거리 만큼 이격된 이웃 픽셀들의 밝기 값을 계산하고, 계산된 각각의 밝기와 상기 중심 픽셀의 밝기와의 차이가 특정 값 이상인 이웃 픽셀의 개수가 기 설정된 값 이상일 경우, 해당 중심 픽셀을 특징점으로 추출하고, 추출된 각 특징점의 특징 벡터를 계산한다.

도 4는 본 발명에 따른 특징점 추출 알고리즘을 설명하기 위한 도면이다. 먼저, 특징점인지의 여부를 판단하기 위한 픽셀(p)을 중심으로 하고 이로부터 거리가 3만큼 이격된 16개의 이웃 픽셀을 선정한다. 도 4에서는 선정된 16개의 이웃 픽셀을 도면의 오른쪽 그림에서 1 내지 16의 정수로 표현하였다. 다음으로, 상기 16개의 이웃 픽셀과 중심 픽셀의 밝기를 비교하여 소정 개수(예를 들어, 10개) 이상의 이웃 픽셀의 밝기가 중심 픽셀보다 소정값(예를 들어, 10) 이상 밝거나 어두운 경우 해당 중심 픽셀을 특징점으로 추출한다.

도 5는 본 발명에 따른 특징점에서의 특징 벡터 계산을 설명하기 위한 도면이다. 먼저, 특징점으로 선정된 픽셀을 사이에 두고 서로 마주보는 두 개의 이웃 픽셀들을 쌍으로 구성한다. 예를 들어, 도 5의 실시예에서, (1, 9), (2, 10), (3, 11), (4, 12), (5, 13), (6, 14), (7, 15), (8, 16)의 픽셀들이 각각 쌍을 이루게 된다.

다음으로, 상기 각각의 쌍으로 서브 특징 벡터를 구성한다. 이때 상기 서브 특징 벡터의 크기는 이웃 픽셀 쌍을 구성하는 두 이웃 픽셀의 밝기값 차이이고, 방향은 상기 두 이웃 픽셀 중 어두운 픽셀에서 밝은 픽셀로 향하는 방향이 된다. 예를 들어, 도 5의 실시예에서 1번 픽셀의 밝기가 50, 9번 픽셀의 밝기가 70일 경우, 상기 픽셀 쌍으로 생성되는 서브 특징 벡터의 크기는 70-20=20이 되고, 방향은 9번 픽셀에서 5번 픽셀 방향과 일치하게 된다. 본 발명에서는 16개의 이웃 픽셀들로 8개의 쌍을 구성할 수 있으므로, 이로부터 8개의 서브 특징 벡터들을 생성할 수 있다.

마지막으로, 생성된 각각의 서브 특징 벡터들을 모두 더하면(벡터합) 해당 특징점에서의 특징 벡터들이 생성된다. 도 5의 오른쪽 그림은 이와 같은 서브 특징 벡터들의 벡터합을 구하는 과정을 도시한 것이다.

한편, 본 발명에서 특징점 추출부(208)는 이미지 분할부(206)에서 분할된 각 서브 영역 별로 기 설정된 개수(기준값) 만큼 특징점을 추출한다. 예를 들어, 특징점 추출부(208)는 각 서브 영역 별로 10개씩의 특징점을 추출하도록 구성될 수 있다. 각 서브 영역 별 추출되는 특징점의 개수는 서브 영역의 개수, 이미지의 크기 및 복잡도 등에 따라 달라질 수 있다.

만약 특정 서브 영역에서 특징점 후보가 기 설정된 서브 영역 별 기준값을 초과하는 경우에는 상기 특징점 후보들 중에서 특징점으로 사용할 픽셀들을 선택하여야 한다. 이 경우에는, 추출된 특징점의 특징 벡터의 크기를 비교하고, 특징 벡터의 크기가 큰 순서로 기준값만큼 특징점을 선택할 수 있다.

또한, 추출된 특징점의 개수가 상기 기준값에 미달하는 서브 영역이 존재하는 경우에는, 해당 서브 영역에서 미추출된 개수만큼을 특징점의 개수가 상기 기 설정된 개수를 초과하는 서브 영역에서 추출할 수 있다. 예를 들어, 기준값이 10개이고 추출된 특징점이 5개에 불과한 영역이 존재할 경우, 나머지 5개는 특징점의 개수가 기준값을 초과하는 서브 영역에 할당할 수 있다. 이 경우 상기 5개를 기준값을 초과하는 서브 영역들에 골고루 분할하여 할당할 수도 있고, 특징점의 개수가 가장 많은 서브 영역에 전부 할당할 수도 있으며, 특징점의 개수에 비례하여 할당할 수도 있는 등, 할당 방법은 다양하게 설정될 수 있다.

또한, 특징점 추출부(208)는 원본 이미지에서만 특징점을 추출하는 것이 아니라, 추출된 상기 이미지로부터 해상도가 상기 이미지의 1/2인 제1서브 이미지 및 해상도가 상기 1/4인 제2서브 이미지를 생성하고 상기 제1서브 이미지 및 제2서브 이미지로부터도 특징점을 추출할 수 있다. 예를 들어, 상기 제1서브 이미지 및 상기 제2서브 이미지를 원본 이미지와 동일한 서브 영역을 가지도록 분할하고, 상기 제1서브 이미지 및 상기 제2서브 이미지의 분할된 각각의 서브 영역으로부터 원본과 동일한 알고리즘을 이용하여 복수 개의 특징점을 추출하고, 추출된 각 특징점의 특징 벡터를 계산할 수 있다. 이와 같이 원본 이미지 뿐만 아니라, 이보다 해상도가 낮은 이미지로부터 특징점을 추출할 경우, 원본만으로 특징점을 추출할 때보다 후술할 인식 과정에서 이미지의 인식률을 높일 수 있다. 예를 들어, 촬영된 이미지 내의 물체가 카메라와 멀리 떨어져 있을 경우에는 촬영된 이미지 자체의 해상도가 낮을 수 있으며, 이 경우에는 제1서브 이미지 또는 제2서브 이미지의 특징 벡터를 이용하여 이미지를 인식하는 것이 더 효과적일 수 있다.

다음으로, 시그니처 계산부(210)는 계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산한다.

이를 간단히 설명하면, 도 6에 도시된 바와 같이 복수 개(예를 들어, 5개)의 대표 이미지를 선정하고, 상기 대표 이미지 각각으로부터 복수 개(예를 들어 100개)의 피처(feature)를 디시전 트리(decision tree) 방식으로 추출하여 단어 트리(vocabulary tree)를 구성한다. 이때, 필요한 경우 주성분 분석(PCA, Principle Component Analysis) 등의 방식을 적용하여 상기 트리의 차원축을 축소할 수 있으며, 본 발명의 실시예에서는 5개의 대표 이미지로부터 추출된 500개의 피처를 176개로 축소하였다.

이후, 도 7에 도시된 바와 같이 상기 이미지로부터 추출한 특징 벡터를 상기 단어 트리의 최상단 노드에 떨어뜨려 나온 결과를 이용하여 상기 이미지의 시그니처를 계산한다. 즉, 본 발명에서 시그니처란 이미지로부터 추출된 각각의 특징점들의 단어 트리 내에서의 확률 분포를 나타낸다. 도 7에서는 176개의 자식 노드로 구성된 단어 트리에 250개의 특징점을 입력한 결과를 예시한 것으로서, 각각의 그래프의 값은 해당 특징점과 상기 디시전 트리에 포함된 피처와의 동일성(확률분포)를 나타낸다. 데이터베이스(202)에 저장된 각각의 학습이미지들도 이와 동일한 방식으로 시그니처를 계산하여 저장하게 된다.

본 발명에서 단어 트리 및 시그니처와 관련된 사항은 David Nister and Henrik Stewenius, "Scalable Recognition with a Vocabulary Tree" 및 Michael Calonder, Vincent Lepetit, Pascal Fua, "Compact Signatures for High-speed Interest Point Description and Matching"의 두 개의 논문에 기초하여 구성하였다.

판단부(212)는 시그니처 계산부(210)에서 계산된 이미지의 시그니처와 데이터베이스(202)에 저장된 상기 학습 이미지의 시그니처들을 비교하여 일치하는 시그니처가 존재하는지 여부를 판단한다.

본 발명의 실시예에서, 추출된 이미지가 데이터베이스에 저장된 학습 이미지와 일치하는 지의 여부를 판단하기 위해서는 각 프레임 별로 추출된 시그니처를 데이터베이스(202)에 저장된 학습 이미지의 시그니처 모두와 비교하여야 한다. 그러나, 이 경우 만약 입력 영상이 1초에 30프레임으로 구성되고, 데이터베이스(202)에 기 저장된 학습 이미지가 20개인 경우, 1초에 30x20=600번의 비교 과정을 거쳐야 하므로, 계산 능력이 제한된 모바일 기기 등에서는 이의 원활한 처리가 어려울 수 있다. 따라서 본 발명에서는 각각의 프레임 별로 모든 비교 과정을 수행하는 것이 아니라, 한 프레임 당 하나의 학습 이미지와의 비교만을 수행한다.

이를 좀 더 상세히 설명하면 다음과 같이, 먼저 도 8에 도시된 바와 같이, 입력 영상의 특정 프레임으로부터 시그니처가 생성되면, 상기 시그니처와 학습이미지 1을 서로 비교한다. 만약 이 때 상기 생성된 시그니처가 상기 학습이미지 1의 시그니처와 일치하는 경우에는 인식 과정은 종료되며, 입력 영상의 이미지는 학습이미지 1과 동일한 것으로 판단하게 된다. 그러나 만약 생성된 시그니처와 학습이미지 1의 시그니처가 일치하지 않는 경우에는, 다음으로 입력 영상의 다음 프레임으로부터 시그니처를 생성하고, 생성된 시그니처를 학습이미지 2의 시그니처와 서로 비교한다. 이와 같은 프레임별 비교 과정은 일치하는 학습 이미지를 발견하거나, 또는 모든 학습 이미지와 비교를 완료할 때 까지 수행된다.

이와 같이 각 프레임별로 하나씩의 학습 이미지와 매칭시켜 비교를 수행할 경우, 프레임별 1번의 비교 과정만 수행하면 되므로, 상기 예의 경우 초당 30번의 계산만을 수행하면 된다. 따라서 계산량은 종래에 비해 약 1/20으로 감소하게 된다. 또한, 학습 이미지가 20개일 경우 최악의 상황을 가정하더라도 약 2/3초 내에 일치하는 학습 이미지를 찾아낼 수 있게 되므로, 사용자 입장에서는 시간 딜레이를 거의 느끼지 못하면서 실시간으로 동작하는 것과 같은 느낌을 받을 수 있다. 만약 학습 이미지의 수가 증가할 경우에는 각 프레임별로 비교를 수행할 학습 이미지의 개수를 1개에서 적절히 증가시킬 수 있다.

도 9는 본 발명의 일 실시예에 다른 증강 현실 오브젝트 인식 방법(900)을 나타낸 순서도이다.

먼저, 입력 영상의 i(1≤i≤N, N은 영상의 프레임 개수)번째 프레임으로부터 이미지를 추출하고(902), 추출된 상기 이미지를 복수 개의 서브 영역으로 분할한다(904).

이후, 분할된 각 서브 영역 별로 복수 개의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산한다(906). 상기 영역 분할 및 특징점 추출, 특징 벡터 계산에 관해서는 전술하였다.

다음으로, 계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산한다(908). 시그니처가 계산되면, 계산된 상기 이미지의 시그니처와 j(1≤j≤M)번째 학습 이미지로부터 계산된 시그니처와의 일치 여부를 판단한다(910). 즉, 본 발명에서는 전술한 바와 같이 한 프레임당 하나의 학습 이미지와의 비교만을 수행하도록 구성되며, 일치하지 않을 경우 다음 프레임에서 다음 학습 이미지와 비교를 수행한다.

만약, 상기 910 단계의 판단 결과 일치하지 않는 경우, 상기 입력 영상의 i+1번째 프레임 및 j+1번째 학습 이미지에 대하여 상기 902 단계 내지 910 단계를 반복 수행한다(914). 그러나 만약 상기 910단계의 판단 결과 일치하는 경우, 상기 j번째 학습 이미지를 상기 입력 영상에 포함된 이미지와 동일한 이미지로 판단하고, 해당 학습 이미지의 아이디를 추출하게 된다(916).

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.

그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

200: 증강 현실 오브젝트 인식 장치
202: 데이터베이스
204: 이미지 추출부
206: 이미지 분할부
208: 특징점 추출부
210: 시그니처 계산부
212: 판단부

Claims

N개의 프레임을 포함하는 입력 영상에 포함된 이미지가 기 저장된 M 개의 학습 이미지들 중 하나와 일치하는 지 여부를 판단하기 위한 방법으로서,
상기 입력 영상의 i(1≤i≤N)번째 프레임으로부터 이미지를 추출하는 제1단계;
추출된 상기 이미지를 복수 개의 서브 영역으로 분할하는 제2단계;
분할된 각 서브 영역 별로 기 설정된 개수 만큼의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산하는 제3단계;
계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산하는 제4단계;
계산된 상기 이미지의 시그니처와 j(1≤j≤M)번째 학습 이미지로부터 계산된 시그니처와의 일치 여부를 판단하는 제5단계;
상기 제5단계의 판단 결과 일치하지 않는 경우, 상기 입력 영상의 i+1번째 프레임 및 j+1번째 학습 이미지에 대하여 상기 제1단계 내지 제5단계를 반복 수행하며, 일치하는 경우 상기 j번째 학습 이미지를 상기 입력 영상에 포함된 이미지와 동일한 이미지로 판단하는 제6단계를 포함하는 증강 현실 오브젝트 인식 방법.
제1항에 있어서,
상기 제3단계는,
상기 각 서브 영역을 구성하는 각각의 픽셀에 대하여, 해당 픽셀을 중심 픽셀로 하여 상기 중심 픽셀로부터 기 설정된 거리 만큼 이격된 이웃 픽셀들의 밝기 값을 계산하고, 계산된 각각의 밝기와 상기 중심 픽셀의 밝기와의 차이가 특정 값 이상인 이웃 픽셀의 개수가 기 설정된 값 이상일 경우, 해당 중심 픽셀을 특징점으로 추출하고 추출된 각 특징점의 특징 벡터를 계산하는, 증강 현실 오브젝트 인식 방법.
제2항에 있어서,
상기 제3단계는, 추출된 특징점의 개수가 상기 기 설정된 개수를 초과하는 서브 영역이 존재하는 경우에는 추출된 특징점 중 특징 벡터의 크기가 큰 순서로 상기 기 설정된 개수 만큼 특징점을 선택하는, 증강 현실 오브젝트 인식 방법.
제3항에 있어서,
추출된 특징점의 개수가 상기 기 설정된 개수에 미달하는 서브 영역이 존재하는 경우, 해당 서브 영역에서 미추출된 개수만큼을 특징점의 개수가 상기 기 설정된 개수를 초과하는 서브 영역에서 추출하는, 증강 현실 오브젝트 인식 방법.
제2항에 있어서,
상기 제3단계는,
추출된 상기 이미지로부터 해상도가 상기 이미지의 1/2인 제1서브 이미지 및 해상도가 상기 이미지의 1/4인 제2서브 이미지를 생성하는 단계;
상기 제1서브 이미지 및 상기 제2서브 이미지를 상기 이미지와 동일한 서브 영역을 가지도록 분할하는 단계; 및
상기 제1서브 이미지 및 상기 제2서브 이미지의 분할된 각각의 서브 영역으로부터 복수 개의 특징점을 추출하고, 추출된 각 특징점의 특징 벡터를 계산하는 단계를 더 포함하는, 증강 현실 오브젝트 인식 방법.
제2항에 있어서,
상기 특징 벡터는, 상기 특징점에서 상기 중심 픽셀을 사이에 두고 마주보는 두 개의 이웃 픽셀들을 쌍으로 구성할 경우, 각각의 이웃 픽셀 쌍으로부터 형성되는 서브 특징 벡터들의 벡터합인, 증강 현실 오브젝트 인식 방법.
제6항에 있어서,
상기 서브 특징 벡터의 크기는 이웃 픽셀 쌍을 구성하는 두 이웃 픽셀의 밝기값 차이이고, 방향은 상기 두 이웃 픽셀 중 어두운 픽셀에서 밝은 픽셀로 향하는 방향인, 증강 현실 오브젝트 인식 방법.
제1항에 있어서,
상기 제6단계에서, j = M 인 경우, 상기 입력 영상에 포함된 이미지와 일치하는 학습 이미지가 없는 것으로 판단하는, 증강 현실 오브젝트 인식 방법.
제1항 내지 제8항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
복수 개의 학습 이미지들과 상기 각각의 학습 이미지로부터 계산된 시그니처들이 저장되는 데이터베이스;
입력 영상의 각 프레임으로부터 이미지를 추출하는 이미지 추출부;
추출된 상기 이미지를 복수 개의 서브 영역으로 분할하는 이미지 분할부;
분할된 각 서브 영역 별로 기 설정된 개수 만큼의 특징점을 추출하고, 추출된 각 특징점들의 특징 벡터를 계산하는 특징점 추출부;
계산된 상기 특징 벡터를 기 설정된 단어 트리(vocabulary tree)에 적용하여, 추출된 상기 이미지의 시그니처를 계산하는 시그니처 계산부; 및
상기 시그니처 계산부에서 계산된 이미지의 시그니처와 상기 데이터베이스에 저장된 상기 학습 이미지의 시그니처들을 비교하여 일치하는 시그니처가 존재하는지 여부를 판단하되, 상기 입력 영상의 각 프레임별로 하나의 학습 이미지가 대응되도록 상기 시그니처 계산부에서 계산된 이미지의 시그니처와 상기 데이터베이스에 저장된 시그니처들을 비교하는 판단부를 포함하는 증강 현실 오브젝트 인식 장치.
제10항에 있어서,
상기 특징점 추출부는, 상기 각 서브 영역을 구성하는 각각의 픽셀에 대하여, 해당 픽셀을 중심 픽셀로 하여 상기 중심 픽셀로부터 기 설정된 거리 만큼 이격된 이웃 픽셀들의 밝기 값을 계산하고, 계산된 각각의 밝기와 상기 중심 픽셀의 밝기와의 차이가 특정 값 이상인 이웃 픽셀의 개수가 기 설정된 값 이상일 경우, 해당 중심 픽셀을 특징점으로 추출하고, 추출된 각 특징점의 특징 벡터를 계산하는, 증강 현실 오브젝트 인식 장치.
제11항에 있어서,
상기 특징점 추출부는, 추출된 특징점의 개수가 상기 기 설정된 개수를 초과하는 서브 영역이 존재하는 경우에는 추출된 특징점 중 특징 벡터의 크기가 큰 순서로 상기 기 설정된 개수 만큼 특징점을 선택하는, 증강 현실 오브젝트 인식 장치.
제11항에 있어서,
추출된 특징점의 개수가 상기 기 설정된 개수에 미달하는 서브 영역이 존재하는 경우, 해당 서브 영역에서 미추출된 개수만큼을 특징점의 개수가 상기 기 설정된 개수를 초과하는 서브 영역에서 추출하는, 증강 현실 오브젝트 인식 장치.
제11항에 있어서,
상기 특징점 추출부는, 추출된 상기 이미지로부터 해상도가 상기 이미지의 1/2인 제1서브 이미지 및 해상도가 상기 이미지의 1/4인 제2서브 이미지를 생성하고, 상기 제1서브 이미지 및 상기 제2서브 이미지를 상기 이미지와 동일한 서브 영역을 가지도록 분할하며, 상기 제1서브 이미지 및 상기 제2서브 이미지의 분할된 각각의 서브 영역으로부터 복수 개의 특징점을 추출하고, 추출된 각 특징점의 특징 벡터를 계산하는, 증강 현실 오브젝트 인식 장치.
제11항에 있어서,
상기 특징 벡터는, 상기 특징점에서 상기 중심 픽셀을 사이에 두고 마주보는 두 개의 이웃 픽셀들을 쌍으로 구성할 경우, 각각의 이웃 픽셀 쌍으로부터 형성되는 서브 특징 벡터들의 벡터합인, 증강 현실 오브젝트 인식 장치.
제15항에 있어서,
상기 서브 특징 벡터의 크기는 이웃 픽셀 쌍을 구성하는 두 이웃 픽셀의 밝기값 차이이고, 방향은 상기 두 이웃 픽셀 중 어두운 픽셀에서 밝은 픽셀로 향하는 방향인, 증강 현실 오브젝트 인식 장치.