KR101033366B1

KR101033366B1 - 효과적인 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법

Info

Publication number: KR101033366B1
Application number: KR1020090088099A
Authority: KR
Inventors: 황인준; 탁윤식
Original assignee: 고려대학교 산학협력단
Priority date: 2009-09-17
Filing date: 2009-09-17
Publication date: 2011-05-09
Also published as: KR20110030114A

Abstract

본 발명은 효과적인 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법에 관한 것으로, 본 발명의 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법은, (a) 데이터베이스에 저장된 3차원 객체들로부터 카메라 이동에 따라 얻을 수 있는 영상을 추출하고 거리 곡선을 계산하는 단계; (b) 객체의 수평 및 수직 대칭성에 따라 외형 패턴을 분석하여 반복되는 외형들을 제거하고 유효한 영상 추출 구간을 계산하는 단계; (c) 상기 영상 추출 구간에 포함된 영상들과 상기 영상 추출 구간의 반대편에 위치한 거울상 영상들을 결합시키는 단계; (d) 상기 (b) 단계 및 (c) 단계를 통해 선별된 영상들을 사용하여 수평 및 수직 카메라 영상에 대한 정적 인덱스와 회전 영상에 대한 동적 인덱스를 구축하는 단계; 및 (e) 상기 (d) 단계에서 구축된 인덱스 구조를 통해 유사 객체를 검색하는 단계를 포함한다.

Description

효과적인 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법{A SHAPE-BASED INDEX CONSTRUCTION AND MATCHING METHOD FOR THE EFFICIENT 3D OBJECT RECOGNITION}

본 발명은 3차원 객체 인식 기술에 관한 것으로, 좀 더 구체적으로 효과적인 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법에 관한 것이다.

산업 자동화, 3차원 의료 영상 분석 및 장소 인식 등의 다양한 영역에서 3차원 객체 인식을 위한 연구가 활발히 진행되고 있다. 이러한 연구는 크게 다수의 카메라를 통해 얻은 영상을 이용한 방법, 3차원 레이저 스캐너 등의 특수한 장비를 사용한 방법 및 단일 영상을 통한 인식 방법으로 나눌 수 있다.

이러한 방법들 중 다수의 카메라 및 특수 장비를 활용한 방법들은 특수한 장비를 사용해야 할뿐만 아니라 장소가 한정되는 등의 문제로 인하여 일반적으로 활용되기에는 한계가 있다. 따라서 누구나 원하는 장소에서 사용하기 위해서는 단일 영상 분석을 통한 효과적인 3차원 객체 인식 기술이 필요하다.

이와 같은 단일 영상 분석을 통한 3차원 객체 인식을 위해서는 카메라가 위치할 수 있는 가능한 모든 영역으로부터 추출한 객체의 영상 정보가 필요하다. 하 지만 현재 이러한 단일 영상을 통한 3차원 객체 인식에 널리 사용되는 SIFT(Scale Invariant Feature Transform)의 경우, 하나의 영상 비교에도 많은 시간이 걸리기 때문에 많은 카메라 영역으로부터 추출한 영상들 간의 비교에는 적절하지 않다.

따라서 종래의 많은 연구들에서는 가능한 카메라 영역들 중에서 특수한 카메라의 지점을 미리 정해놓고(예컨대, 8방위 또는 4방위) 해당 위치에서의 영상들만을 사용한 객체 인식 방법을 제안하였다. 하지만, 이와 같이 정해진 카메라의 위치에서 추출한 영상들만을 사용하더라도 SIFT 자체의 특징 정보 추출 및 유사도 비교에 많은 시간이 걸리기 때문에 실시간 검색이 어렵다는 문제점이 있다.

한편, 보다 빠른 검색을 위해 인식된 점들의 수를 기반으로 한 이진 트리 등의 다양한 방법들이 제안되었지만, 인덱스 구조를 사용함으로써 오히려 검색의 정확도가 떨어질 수도 있는 문제가 있다. 이와 같이 일반화된 SIFT의 인덱스 구조의 부재로 인해 상당수의 관련 연구에서는 질의 영상과 3차원 데이터 간의 유사도 비교가 순차적으로 이루어지고 있다.

따라서 미리 선정된 위치만을 고려하지 않고 가능한 모든 카메라의 영역을 고려한 실시간 3차원 객체 인식을 위해서는 효과적인 특징 정보를 사용한 인덱스 구축 및 검색 방법에 대한 요구가 절실한 실정이다.

본 발명은 유사한 외형 특징을 가지는 여분의 카메라 영상을 제거함으로써 효과적인 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법을 제공하기 위한 것이다.

상기 목적을 달성하기 위한 본 발명의 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법은, (a) 데이터베이스에 저장된 3차원 객체들로부터 카메라 이동에 따라 얻을 수 있는 영상을 추출하고 거리 곡선을 계산하는 단계; (b) 객체의 수평 및 수직 대칭성에 따라 외형 패턴을 분석하여 반복되는 외형들을 제거하고 유효한 영상 추출 구간을 계산하는 단계; (c) 상기 영상 추출 구간에 포함된 영상들과 상기 영상 추출 구간의 반대편에 위치한 거울상 영상들을 결합시키는 단계; (d) 상기 (b) 단계 및 (c) 단계를 통해 선별된 영상들을 사용하여 수평 및 수직 카메라 영상에 대한 정적 인덱스와 회전 영상에 대한 동적 인덱스를 구축하는 단계; 및 (e) 상기 (d) 단계에서 구축된 인덱스 구조를 통해 유사 객체를 검색하는 단계를 포함한다.

이상의 구성을 통한 본 발명에 따른 인덱스 구축 및 검색 방법에 따르면, 임의의 질의 영상이 주어지더라도 정확한 실시간 객체 인식이 가능하다.

본 발명은 카메라 영상 불변(Camera View-Invariant)을 보장하면서도 빠른 객체 검색을 지원하는 외형 특징에 기반한 새로운 3차원 영상 인덱스 방법과 검색 방법을 제안한다. 특히 본 발명은 객체의 대칭적 특성에 따라 중복 외형 패턴을 제거하고 거울상 외형을 결합함으로써 유사한 외형 특징을 가지는 여분의 카메라 영상을 제거하기 때문에 검색 성능을 희생하지 않고도 데이터의 크기와 인덱스의 크기를 효과적으로 줄일 수 있다.

앞의 일반적인 설명 및 다음의 상세한 설명 모두 예시적이라는 것이 이해되어야 하며, 청구된 발명의 부가적인 설명이 제공되는 것으로 여겨져야 한다. 참조 부호들이 본 발명의 바람직한 실시예들에 상세히 표시되어 있으며, 그것의 예들이 참조 도면들에 표시되어 있다. 가능한 어떤 경우에도, 동일한 참조 번호들이 동일한 또는 유사한 부분을 참조하기 위해서 설명 및 도면들에 사용된다. 이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있도록 본 발명의 실시예를 첨부된 도면을 참조하여 설명한다.

도 1은 본 발명에 따른 인덱스 구축 및 검색 방법을 예시적으로 보여주는 흐름도이다. 도 1을 참조하면, 먼저 데이터베이스에 저장된 3차원 객체들로부터 카메라의 이동에 따라 얻을 수 있는 영상을 추출하고 전처리 과정을 통해 거리 곡선을 계산한다(S101). 도 2는 전처리 과정을 통해 거리 곡선을 계산하는 세부 절차를 순차적으로 보여준다.

도 2를 참조하면, 먼저 canny edge detection 알고리즘과 같은 검출 알고리즘을 사용하여 카메라의 이동에 따라 얻을 수 있는 영상(a)의 외형 윤곽을 (b)와 같이 검출한다. 다음에, (c)에 나타낸 것처럼 중심점과 윤곽선 점들간의 거리를 계산한다. 마지막으로 (d)와 같이 X축을 따라 거리를 나열함으로써 해당 영상의 거리 곡선을 얻을 수 있다. 이때 모든 거리 곡선들이 동일한 최대 크기를 가지도록 정규화함으로써 객체의 상대적 크기를 무시하고 객체의 외형만을 고려하게 된다.

다시 도 1을 참조하면, 이후 단계 S103에서 객체의 수평 및 수직 대칭성에 따라 16개의 클래스를 구성하고, 클래스에 따라 해당 객체를 분류한 후, 중복되는 외형 패턴을 분석하여 중복 외형들을 제거함으로써 유효한 영상 추출 구간을 계산한다. 다음에, 단계 S103을 통해 영상 추출 구간에 포함된 영상들과 해당 구간의 반대편에 위치한 거울상 영상들을 하나의 특징 정보로 접근하기 위해 해당 영상들을 결합시킨다(S105). 단계 S103의 중복 외형 패턴 제거와 단계 S105의 거울상 외형 결합을 상세히 설명하면 다음과 같다.

도 3은 다양한 카메라 영상들 사이의 일반적 관계를 보여주는데, 도 3에 도시된 것처럼 객체의 전 범위의 영상은 4분원으로 나눌 수 있다. 예컨대, 도 3에서 GoS_0-90은 반시계 방향으로 첫 번째 4분원에 있는 영상들에 대한 외형 그룹(Group of Shapes)을 나타낸다. GoS_0-90에 속하는 영상을 정면 영상이라고 하면, 정면 영상에 대하여 3개의 관련 영상들-배면 또는 반대 영상, 거울상 영상 및 반사 영상-을 정의할 수 있다. 예컨대, 도 3에서 정면 영상 a_f에 대하여 a_o, a_m 및 a_r은 각각 반대 영상, 거울상 영상 및 반사 영상을 나타낸다.

도 3으로부터 객체의 종류와 영상에 따라 다음과 같은 특성이 있음을 알 수 있다. (1) 축대칭 객체의 거울상 영상은 거울상 외형을 가진다; (2) 객체의 종류에 관계 없이 반대 영상은 정면 영상의 거울상 외형을 가진다. 본 발명은 이러한 특성에 기반하여 객체의 대칭성에 따라 중복 외형 패턴 제거와 거울상 외형 결합을 통해 여분의 영상을 제거함으로써 인덱스되어야 할 영상의 수를 최소화한다.

대부분의 3차원 객체는 대칭성을 가지고 있다. 3차원 객체의 가능한 모든 영상은 수평 및 수직 카메라 움직임의 조합을 통해 생성될 수 있으므로, 수평과 수직 두 개의 평면에서 객체의 대칭이 고려될 수 있다. 객체의 대칭에 따라 각 평면에 대하여 4개의 다른 클래스가 정의될 수 있다. 먼저, 정면과 측면에서의 외형의 대칭에 따라 서로 다른 4개의 수평 클래스 H1 내지 H4가 다음과 같이 정의된다.

H1 : 이 클래스는 가능한 모든 수평 카메라 영상이 동일한 객체를 포함한다. 즉, 모든 영상 이미지는 동일 거리 곡선을 가진다. 이 경우 모든 수평 방향 영상에 대하여 단지 하나의 영상만이 필요하다. 이 클래스에 속하는 객체의 전형적인 예는 구이다.

H2 : 이 클래스는 정면 영상이 대칭인 모든 객체를 포함한다. 이 클래스에 속하는 객체들의 경우, 인덱스 구축을 위해 도 3의 첫 번째 사분원(반시계 방향으로 0 ~ 90도)의 모든 카메라 영상의 외형을 나타내는 GoS_0-90만 고려하면 된다. 360 ~ 270도 범위의 영상들(GoS_360-270)은 GoS_0-90의 거울상 영상들이고, 따라서 그들의 거리 곡선은 GoS_0-90와 반대이다. 또한 GoS_180-270은 GoS_0-90의 반대 영상이다. 어느 각도에서나 정면과 반대 영상은 거울상 외형을 가지기 때문에, GoS_0-90와 GoS_180-270은 서로에 대하여 반대되는 거리 곡선을 가진다. 마지막으로, GoS_0-90와 GoS_180-90은 서로에 대하여 반사 영상들의 외형을 나타낸다. 이 경우에, 그들의 외형은 동일하다.

H3 : 이 클래스는 정면 영상이 대칭이고, 정면 및 측면 외형이 동일한 객체를 포함한다. 따라서 측면 외형 역시 대칭적이다. 이 클래스에 속하는 예는 정육면체이다. 정육면체의 기본적인 외형 패턴은 H2 클래스의 외형 패턴과 유사하므로 GoS_180-270과 결합된 GoS_0-90에서 영상들을 인덱스할 수 있다. 그러나 H2 클래스에 속하는 객체들과 달리 객체 주위의 측면의 수에 따라 수평 카메라 영상을 좀 더 줄일 수 있다. 예를 들면, 4개의 정사각형 측면을 가지는 정육면체의 경우 인덱스 구축을 위한 카메라 영상의 수를 반으로 줄일 수 있다. 이는 GoS_0-45에 속하는 외형들은 GoS_45-90에 속하는 외형들과 반대되는 거리 곡선을 가진다는 것을 의미한다. 결과적으로 정육면체의 경우 다른 거울상 외형들과 결합된 GoS_0-45의 영상들에 대해서만 인덱스를 구축하면 된다. 일반적으로, 이 클래스에 속하는 객체들이 n개의 측면을 가질 때, 거울상 외형과 결합된 GoS_0-180/n에서 첫 번째 외형 패턴을 사용하여 객체를 인덱스할 수 있다.

H4 : 이 클래스는 전체 수평 카메라 영상에 대하여 비대칭적인 객체들을 포함한다. 이 클래스에 속하는 객체들은 대칭적인 외형을 가지지 않기 때문에 반복되는 외형 패턴이 존재하지 않는다. 그러나 이 클래스에 속하는 객체들의 경우에도 GoS_0-180의 영상들과 GoS_180-360의 반대 영상들에 대하여 후술하는 거울상 외형 결합을 사용할 수 있다.

수평 방향 객체 영상에 기반한 분류와 유사하게 수직 방향 카메라 영상들도 분류될 수 있다. 수직 외형 패턴에 따라 객체들은 4개의 클래스(V1 내지 V4)로 나누어질 수 있고, 그들의 특성은 수평 클래스와 정확하게 동일하다. 따라서 모든 객체들은 외형 패턴에 따라 자신의 수평 및 수직 클래스를 가진다. 유일한 차이점은 수직 평면에서 분류하는 경우 정면과 평면 영상을 사용한다는 점이다.

이와 같이 본 발명은 객체의 수평 및 수직 대칭성에 따라 4개의 수평 클래스와 4개의 수직 클래스를 분류하고, 이를 조합하여 16개의 클래스를 구성하여 클래스에 따라 해당 객체를 분류한다. 이후 중복되는 외형 패턴을 분석하여 중복 외형들을 제거함으로써 검색의 정확성을 희생하지 않고도 인덱스 공간과 검색 시간을 줄일 수 있다.

상술한 바와 같이 3차원 객체로부터 전 범위의 외형 데이터를 추출하기 위해서는 모든 가능한 카메라 위치를 고려하여야 한다. 그러나 객체의 종류에 관계 없이 해당 객체의 정면 영상과 반대 영상은 동일일 거울상 외형을 가진다. 즉, 정면과 반대 영상의 외형은 서로 축대칭이고 따라서 그들의 거리 곡선은 서로에 대해 반대이다.

한편, 이산 푸리에 변환(discrete Fourier transform; DFT)은 객체의 외형 특징을 인덱스하는데 효과적이다. 특히 거울상 외형들의 경우 그들의 거리 곡선은 서로에 대하여 반대이고, 이산 푸리에 변환 알고리즘은 동일한 값을 반환한다. 따라서 거울상 외형의 거리 곡선은 저장할 필요가 없고, 필요하다면 원래 외형으로부 터 생성할 수 있다. 즉, 정면 외형과 거울상 외형은 하나의 쌍으로 볼 수 있고, 따라서 거리 곡선을 이산 푸리에 변환한 후, 하나의 특징값 세트를 사용하여 인덱스할 수 있다. 결과적으로 인덱스를 구축함에 있어 반대 영상을 고려할 필요가 없다.

다시 도 1을 참조하면, 단계 S103에서의 중복 외형 패턴 제거와 단계 S105에서의 거울상 외형 결합 과정을 거친 후 남은 영상들의 거리 곡선을 이용하여 인덱스를 구축한다(S107). 본 발명에 따른 인덱스 구축은 수평 및 수직 카메라 영상에 대한 정적 인덱스를 구축하는 단계와 회전 영상에 대한 동적 인덱스를 구축하는 단계를 포함한다.

먼저, 본 발명에 따른 정적 인덱스 구축 방법을 상세히 설명하면 다음과 같다. 객체의 거리 곡선에 대하여 인덱스를 구축하는 경우 고차원으로 인하여 "차원의 저주"라고 알려진 문제를 야기한다. 따라서 본 발명은 차원의 저주를 피하기 위해, 먼저 거리 곡선을 저차원의 특징 값으로 변환하고, 이를 인덱스 특징 값으로 사용한다.

영상의 거리 곡선을 저차원의 특징 값으로 변환하는 알고리즘으로는 이산 푸리에 변환(discrete Fourier Transform; DFT), 이산 웨이블릿 변환(discrete Wavelet Transform; DWT) 및 부분 집계 근사법(Piecewise Aggregate Approximation; PAA) 등이 사용될 수 있으나, 본 발명은 영상의 회전 불변을 보장하기 위해 DFT로부터 얻어진 푸리에 계수(Fourier coefficient)를 특징점(feature point; FP)으로하여 인덱스를 구축한다.

일반적인 트리 기반 인덱스 구조에서 영상들은 최소 경계 사각형(minimum bounding rectangle; MBR)을 사용하여 최소 및 최고 특징점을 정의하는 단말 노드(leaf node)들로 분류된다. 이와 같은 MBR들을 반복하여 분류함으로써 모든 영상들은 트리 구조로 인덱스된다.

반면에 본 발명에 따른 인덱스 방법은 객체의 영상들이 거울상 영상들과 결합된 거리 곡선의 푸리에 계수에 기반한 R-트리에서 MBR들로 분류된다. 이러한 MBR들은 객체의 MBR에 포함될 때까지 반복하여 분류되고, 전체 객체 MBR들은 루트 MBR이라고 불리는 MBR에 포함될 때까지 더 큰 MBR로 분류된다. 도 4는 본 발명에 따른 정적 인덱스 구조를 예시적으로 보여준다.

한편, 본 발명에 따른 회전 영상에 대한 동적 인덱스는 동적 시간 정합(Dynamic Time Warping; DTW)에 기반하여 다음과 같이 구축된다. 먼저, 후보 시퀀스의 수를 줄이기 위하여 가지치기 알고리즘을 적용한다. 다음에, 가지치기 알고리즘을 적용하고 남은 시퀀스에 대해 인덱스를 구축한다. 마지막으로 질의 시퀀스와의 최소 거리를 찾는다. 이를 자세히 설명하면 다음과 같다.

첫 번째 단계에서, 두 함수 UB_Dist()와 LB_Dist()를 사용하여 질의 시퀀스와 가장 비유사한 시퀀스를 제거한다. UB_Dist()는 언제나 사용된 매칭 방법의 거리보다 크거나 같은 거리를 반환한다. 마찬가지로, LB_Dist()는 언제나 사용된 매칭 방법의 거리보다 작거나 같은 거리를 반환한다. 이와 같은 관계는 다음과 같이 표현될 수 있다.

UB_Dist() ≥ Matching method() ≥ LB_Dist()

본 발명은 매칭 방법으로 DTW을 사용하기 때문에 LB_Dist() 함수로 LB_Keogh 거리가 사용될 수 있고, UB_Dist() 함수로 유클리디안 거리가 사용될 수 있다. 가지치기 절차에서 해야 할 첫 번째 일은 모든 시퀀스에 대해 UB_Dist() 값들 중에서 가장 작은 거리를 찾는 것이다. 그런 다음, LB_Dist() 값이 가장 작은 UB_Dist() 값보다 큰 모든 시퀀스를 제거한다.

도 5는 본 발명에 따른 가지치기를 예시적으로 보여준다. 도 5에서 UB_D와 LB_D는 각각 시퀀스들(A, B, C, D 및 E)의 UB_Dist()와 LB_Dist() 값을 나타낸다. 도 5를 참조하면, A가 가장 작은 UB_D를 가지고 있기 때문에, 이 값이 가지치기를 위한 기본 값이 된다. 도 5에서 C,D 및 E의 LB_D 값들은 A의 UB_D보다 크다. A의 UB_D가 언제나 사용된 매칭 방법(예컨대, DTW)의 거리보다 크거나 같기 때문에, C,D 및 E에 대한 매칭 방법의 거리는 언제나 A의 거리보다 크다. 따라서 그들은 모두 제거될 수 있다. 그러나 B의 LB_D는 A의 UB_D보다 크지 않다. 이는 B에 대한 매칭 방법의 거리가 A의 거리보다 낮다는 것을 의미한다. 따라서 B는 제거되지 않고, A와 B 모두 검색 후보가 된다.

후보 시퀀스를 제거한 후, 다음 단계는 매칭 방법을 통해 최소 거리를 가지는 시퀀스를 찾는 것이다. 대부분의 트리 기반 인덱스 구조에서 내부 노드(non-leaf node)들은 차일드 노드(child node)들의 경계들을 병합함으로써 낮은 레벨 특징(인덱스 특징)의 경계를 가지는 것으로 정의된다. 그러나 본 발명의 동적 인덱스 구조에서, 남아 있는 시퀀스들의 특징 레벨 거리는 가지치기 단계에서 이미 계산되었다. 따라서 경계들을 축적하는 대신, 내부 노드(non-leaf node)는 차일드 노드(child node)들 중에서 최소 특징 레벨 거리를 가지는 시퀀스를 가리킬 수 있다.

도 6은 본 발명에 따른 동적 인덱스 구조를 예시적으로 보여준다. 도 6을 참조하면, 8개의 시퀀스들(A - H)은 단말 노드(leaf node)에서 그들의 특징 레벨 거리를 가지고 가지치기로부터 살아 남았다. 그 후, 이 단말 노드(leaf node)들은 내부 노드(non-leaf node)로 분류되고, 내부 노드(non-leaf node)들은 차일드 노드(child node)들 중에서 최소 특징 레벨 거리를 가지는 단말 노드(leaf node)를 가리킨다.

동적 인덱스를 구축한 후, 후보 시퀀스들 중에서 최소 매칭 방법 거리를 가지는 시퀀스가 검색된다. 종래의 트리 기반 매칭 방법에서는 차일드 노드(child node)들을 확장함으로써 내부 노드(non-leaf node)와 질의 시퀀스의 거리를 점진적으로 계산한다. 그러나 본 발명에 따른 트리 기반 동적 인덱스에서는 내부 노드(non-leaf node)와 질의 시퀀스의 거리를 계산하는 대신에 내부 노드(non-leaf node)에 의해 지시된 최소 거리 단말 노드(leaf node)를 직접 방문한다. 즉, 본 발명은 최소 거리 시퀀스를 찾기 위해 내부 노드(non-leaf node)에 대한 계산을 할 필요가 없다.

도 7은 도 6에 도시된 인덱스 트리의 루트 노드(root node)를 확장한 예를 보여준다. 도 7을 참조하면, 루트 노드(root node)와 루트 노드(root node)의 오른쪽 차일드 노드(child node)는 다른 단말 노드(leaf node)를 가리키고 있기 때문에, 오른쪽 차일드 노드(child node)가 매칭에 사용된다. 그러나 루트 노드(root node)와 루트 노드(root node)의 왼쪽 차일드 노드(child node)가 동일한 단말 노드(leaf node)를 가리키고 있기 때문에 왼쪽 노드 자체는 매칭에 사용될 수 없고 확장된다. 이러한 노드 확장은 루트 노드(root node)에 의해 지시된 단말 노드(leaf node)를 가리키는 자손 노드(descendant node)들이 더 이상 존재하지 않을 때까지 반복된다. 이러한 방식으로 단말 노드(leaf node)에 접근하여 질의와 최소 거리를 가지는 시퀀스를 찾을 수 있다.

이상의 본 발명의 인덱스 구조에 따르면 객체 별로 영상들을 인덱스함으로써, 객체의 입력, 삭제에 따른 해당 객체 영상들의 빠른 입력과 삭제가 가능하며, 질의 영상과 객체의 최근접 영상을 효과적으로 검색할 수 있다.

다시 도 1을 참조하면, 단계 S107에서 구축된 인덱스 구조를 통해 유사 객체를 검색한다(S109). 본 발명에 따른 유사 객체 검색은 빠른 시간 내에 정확한 k개의 유사 객체를 검색하기 위한 k-최근접(k-Nearest Neighbor; k-NN) 검색 방법과 질의 영상과의 차이가 미리 설정된 범위 안에 있는 모든 객체를 검색하는 범위 검색(Range Search) 방법에 의해 수행될 수 있다.

본 발명의 실시예에 따른 유사 객체 검색 방법인 k-최근접 검색 방법은 다음과 같은 절차로 진행된다. 먼저, 객체가 결과에 있는 영상을 top이 하나 이상 포함하고 있으면, top을 무시한다. 만약 top이 단말 노드(leaf node)라면, 각 푸리에 특징점에 대하여 질의와의 푸리에 거리를 계산하고, 푸리에 특징점과 거리를 큐에 삽입한다.

만약 top이 푸리에 특징점이라면, 데이터베이스에서 전 시퀀스 C를 검색하고, 질의와의 LB_Keogh 거리를 계산하여 시퀀스와 거리를 큐에 삽입한다. 한편, 본 발명에 따른 인덱스 구조에서, 각 푸리에 특징점은 거리 곡선 및 결합된 거울상 거 리 곡선을 포함하고 있기 때문에, 검색에서 거울상 거리 곡선이 고려되어야 한다. 따라서 시퀀스 C와 반대(reverse)인 시퀀스 C'을 생성하고, 질의와의 LB_Keogh 거리를 계산하여 해당 시퀀스와 거리를 큐에 삽입한다.

만약 top이 LB_Keogh 거리를 가진 시퀀스라면, 질의와의 DTW 거리를 계산하여 해당 시퀀스와 거리를 큐에 삽입한다.

만약 그렇지 않으면, 현재 노드의 모든 차일드 노드(child node)에 대하여 질의와의 MINDIST 거리를 계산하여 큐에 삽입한다.

이상에서 설명한 본 발명의 실시예에 따른 k-최근접 검색 알고리즘은 다음과 같다.

한편, 본 발명의 다른 실시예에 따른 유사 객체 검색 방법인 범위 검색 방법은 다음과 같은 절차로 진행된다. 먼저, 동일한 객체로부터 영상이 결과에 있으면, 전체 노드를 건너뛴다.

만약, top이 내부 노드(non-leaf node)라면, 각 차일드 노드(child node)에 대하여 질의와의 MINDIST 거리를 계산한다. 계산된 거리가 미리 설정된 허용 범위 e보다 작거나 같으면, 범위 검색 알고리즘을 호출한다.

만약 그렇지 않다면, 노드의 각 푸리에 특징점에 대해서 푸리에 거리가 미리 설정된 허용 오차 e보다 작거나 같으면 데이터베이스에서 전 시퀀스 C를 검색한다. 만약 시퀀스 C와 질의와의 LB_Keogh 거리와 DTW 거리 모두 미리 설정된 허용 범위 e보다 작거나 같으면, 해당 시퀀스를 결과에 더한다.

만약 적어도 하나의 LB_Keogh 거리와 DTW 거리가 미리 설정된 허용 범위 e보다 크다면, 시퀀스 C에 결합된 거울상 거리 곡선을 고려하여야 한다. 따라서 시퀀스 C로부터 반대인 시퀀스 C'을 생성하고, 만약 시퀀스 C'과 질의와의 LB_Keogh 거리 및 DTW 거리 모두 미리 설정된 허용 범위 e보다 작거나 같으면 해당 시퀀스를 결과에 더한다.

이상에서 설명한 본 발명의 실시예에 따른 범위 검색 알고리즘은 다음과 같다.

이와 같이 본 발명의 실시예에 따른 유사 객체 검색 방법은 보다 빠른 검색을 지원하기 위해 상대적으로 비교 시간이 빠른 하한(Low Bound) 함수들을 계층적으로 적용하고, 최근접 영상을 찾았을 경우 나머지 영상들을 검색에서 제외시킴으 로써 종래의 검색 방법들에 비해 보다 더 효율적으로 유사 객체를 검색할 수 있다.

이상의 본 발명의 3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법에 따르면, 임의의 질의 영상이 주어지더라도 정확한 실시간 객체 인식이 가능하다.

한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지로 변형할 수 있다. 그러므로 본 발명의 범위는 상술한 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구범위뿐만 아니라 이 발명의 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명에 따른 인덱스 구축 및 검색 방법을 예시적으로 보여주는 흐름도

도 2는 전처리 과정을 통해 거리 곡선을 계산하는 세부 절차를 순차적으로 보여주는 예시도

도 3은 다양한 카메라 영상들 사이의 일반적 관계를 보여주는 예시도

도 4는 본 발명의 실시예에 따른 정적 인덱스 구조를 보여주는 예시도

도 5는 동적 인덱스 구축을 위한 가지치기를 보여주는 예시도

도 6은 본 발명의 실시예에 따른 동적 인덱스 구조를 보여주는 예시도

도 7은 도 6에 도시된 인덱스 트리에서 루트 노드(root node)를 확장한 예를 보여주는 예시도

Claims

3차원 객체 인식을 위한 외형 기반 인덱스 구축 및 검색 방법에 있어서,

(a) 데이터베이스에 저장된 3차원 객체들로부터 카메라 이동에 따라 얻을 수 있는 영상을 추출하고 거리 곡선을 계산하는 단계;

(b) 객체의 수평 또는 수직 대칭성에 따라 해당 객체의 수평방향 또는 수직방향 영상 구간의 외형 패턴을 분석하여 반복되는 외형들을 제거함으로써 유효한 영상 추출 구간을 계산하는 단계;

(c) 상기 영상 추출 구간에 포함된 영상들과 상기 영상 추출 구간의 반대편에 위치한 거울상 영상들을 결합시키는 단계;

(d) 상기 (b) 단계 및 (c) 단계를 통해 선별된 영상들을 사용하여 수평방향 및 수직방향 카메라 영상에 대한 정적 인덱스와 회전된 영상에 대한 동적 인덱스를 구축하는 단계; 및

(e) 상기 (d) 단계에서 구축된 인덱스 구조를 통해 유사 객체를 검색하는 단계를 포함하는 인덱스 구축 및 검색 방법.
삭제
제1항에 있어서, 상기 (b) 단계는,

객체의 대칭성에 따라 16개의 클래스를 구성하고, 해당 객체를 상기 16개의 클래스 중 어느 하나로 분류하는 단계; 및

상기 분류된 클래스에 따라 외형 패턴의 반복 주기를 결정하고 중복되는 외형 패턴을 제거하여 유효한 영상 추출 구간을 계산하는 단계를 포함하는 인덱스 구축 및 검색 방법.
제3항에 있어서, 상기 16개의 클래스는 객체의 수평 대칭성에 따라 정의되는 서로 다른 4개의 수평 클래스와 객체의 수직 대칭성에 따라 정의되는 서로 다른 4개의 수직 클래스의 조합으로 이루어지는 것을 특징으로 하는 인덱스 구축 및 검색 방법.
제1항에 있어서, 상기 (d) 단계의 정적 인덱스를 구축하는 단계는,

상기 영상의 거리 곡선을 이산 푸리에 변환을 통해 저차원의 푸리에 계수로 변환하는 단계;

상기 영상이 R-트리 상에서 상기 영상의 거울상 영상과 결합된 거리 곡선의 푸리에 계수에 기반한 MBR(minimum bounding rectangle; 최소 경계 사각형)로 분류되는 단계;

상기 푸리에 계수에 기반한 MBR들이 객체 MBR에 포함될 때까지 반복하여 분류되는 단계; 및

상기 객체 MBR들이 루트 MBR에 포함될 때까지 반복하여 분류되는 단계를 포함하는 인덱스 구축 및 검색 방법.
제1항에 있어서, 상기 (d) 단계의 동적 인덱스를 구축하는 단계는,

(d-1) 질의 시퀀스와 가장 비유사한 시퀀스를 제거하는 단계;

(d-2) 상기 질의 시퀀스와 가장 비유사한 시퀀스를 제거하고 남은 시퀀스에 대해 동적 인덱스를 구축하는 단계; 및

(d-3) 상기 질의 시퀀스와의 최소 거리를 가지는 시퀀스를 찾는 단계를 포함하는 인덱스 구축 및 검색 방법.
제6항에 있어서, 상기 (d-1) 단계는,

모든 시퀀스에 대해 UB_Dist() 값들 중에서 가장 작은 거리를 찾는 단계; 및

LB_Dist() 값이 상기 가장 작은 UB_Dist() 값보다 큰 모든 시퀀스를 제거하 는 단계를 포함하는 인덱스 구축 및 검색 방법.

여기서, UB_Dist()는 언제나 사용된 매칭 방법의 거리보다 크거나 같은 거리를 반환하는 함수이고, LB_Dist()는 언제나 사용된 매칭 방법의 거리보다 작거나 같은 거리를 반환하는 함수이다.
삭제
제6항에 있어서, 상기 (d-2) 단계에서 구축된 인덱스에서 단말 노드(leaf node)들은 내부 노드(non-leaf node)로 분류되고, 상기 내부 노드(non-leaf node)들은 차일드 노드(child node)들 중에서 최소 특징 레벨 거리를 가지는 단말 노드(leaf node)를 지시하는 것을 특징으로 하는 인덱스 구축 및 검색 방법.
제6항에 있어서, 상기 (d-3) 단계는 내부 노드(non-leaf node)에 의해 지시된 최소 거리를 가지는 단말 노드(leaf node)를 직접 방문하는 것을 특징으로 하는 인덱스 구축 및 검색 방법.
제10항에 있어서, 상기 내부 노드(non-leaf node)는 루트 노드(root node)에 의해 지시된 단말 노드(leaf node)를 가리키는 자손 노드(descendant node)가 더 이상 존재하지 않을 때까지 확장되는 것을 특징으로 하는 인덱스 구축 및 검색 방법.
제1항에 있어서, 상기 (e) 단계는 k개의 유사 객체를 검색하기 위한 k-최근접(k-Nearest Neighbor) 검색 방법 또는 질의 영상과의 차이가 미리 설정된 범위 안에 있는 모든 객체를 검색하는 범위 검색 방법 중에서 선택된 어느 하나를 통해 수행되는 것을 특징으로 하는 인덱스 구축 및 검색 방법.
제12항에 있어서, 상기 k-최근접(k-Nearest Neighbor) 검색 방법 또는 범위 검색 방법은 하한(low bound) 함수들을 계층적으로 적용하고, 최근접 영상을 찾았을 때 나머지 영상들을 검색에서 제외하는 것을 특징으로 하는 인덱스 구축 및 검색 방법.