KR20100135872A

KR20100135872A - 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램

Info

Publication number: KR20100135872A
Application number: KR1020107024566A
Authority: KR
Inventors: 가즈토 노구치; 고우이치 기세; 마사카즈 이와무라
Original assignee: 고리츠다이가쿠호징 오사카후리츠다이가쿠
Priority date: 2008-04-28
Filing date: 2009-04-27
Publication date: 2010-12-27
Also published as: JPWO2009133856A1; WO2009133856A1; CN102016918A; EP2284796A1; US8340451B2; US20110164826A1; CN102016918B; JP5294342B2; KR101247891B1; EP2284796A4

Abstract

화상 데이터베이스에 등록해야 할 물체의 화상으로부터 국소 기술자를 추출하는 특징 추출 공정과; 각 국소 기술자의 각 차원을 나타내는 수치를 소정의 비트 자리수로 양자화하는 스칼라 양자화 공정과; 양자화 후의 각 국소 기술자를 최근방 탐색 가능하게 체계화하고 또한 그것이 추출된 화상의 식별자를 부여하여 화상 데이터베이스에 등록하는 등록 공정을 구비하고, 상기 등록 공정은 검색 질문이 주어졌을 때 그것으로부터 국소 기술자를 추출하여 각 차원을 스칼라 양자화하고, 각 국소 기술자에 대해 최근방의 국소 기술자를 상기 화상 데이터베이스 중에서 결정하고, 결정된 어느 국소 기술자를 포함하는 화상 중에서 다수결 처리에 의해 하나의 화상을 특정할 수 있도록 등록을 행하고, 상기 스칼라 양자화 공정은 각 국소 기술자의 각 차원을 8 비트 이하로 양자화하는 물체 인식용 화상 데이터베이스의 작성 방법, 그 방법의 처리용 프로그램 및 당해 처리를 행하는 처리 장치.

Description

물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램{METHOD FOR CREATING IMAGE DATABASE FOR OBJECT RECOGNITION, PROCESSING DEVICE, AND PROCESSING PROGRAM}

본 발명은 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램에 관한 것이다. 보다 상세하게는, 화상에 관한 데이터베이스 중에서, 검색 질문(쿼리(query))으로서의 화상에 나타낸 대상물과 일치하는 대상물을 나타내는 화상을 검색할 수 있는 화상 데이터베이스의 작성 방법, 처리 장치 및 처리 프로그램에 관한 것이다.

SIFT(Scale-Invariant Feature Transform) 등의 국소(局所) 기술자(記述子)를 사용하면, 숨겨(occlusion)지거나 조명 조건의 변동에 비교적 강건(robust)한 물체 인식이 실현 가능하기 때문에, 현재, 주목을 끌고 있다(예를 들어, 비특허 문헌 1, 2 참조). 인식의 기본은 "Bag of Words" 또는 "Bag of Features"로 불리는 모델이며, 국소 기술자의 배치나 공기(co-occurrence)를 고려하지 않고, 그 빈도만을 단서로 하여 물체를 인식하는 것이다.

여기서, 국소 기술자는 화상의 국소적인 특징을 표현한 것이며, 화상의 변동(기하학적 변환이나 조명 조건, 해상도의 차이)에 대해 강건한 특성을 가지도록, 소정의 순서로 추출된다. 또, 국소 기술자는 화상의 국소적인 영역으로부터 결정되므로, 숨겨짐에 대해서도 강건하다. 이 명세서에 있어서 국소 기술자는 특징 벡터라고도 한다. 벡터량으로 표현되기 때문이다.

일반적으로, 화상으로부터 추출되는 국소 기술자의 수는 수백 내지 수천, 경우에 따라서는 수만이 되기 때문에, 국소 기술자의 대조에 필요한 처리 시간이나, 기억에 필요한 메모리 용량은 방대하게 된다. 따라서, 인식 정밀도를 일정 레벨에 유지한 채, 얼마나 처리 시간이나 메모리 용량을 삭감할지가 중요한 연구 과제로 되고 있다.

예를 들어, 대표적인 국소 기술자의 SIFT에서, 각 국소 기술자는 128 차원의 벡터로서 나타낸다. 또, SIFT에 주성분 분석을 실시하는 것에 의해 차원수를 삭감한 PCA-SIFT가 알려져 있다. 그런데도 실용적인 PCA-SIFT의 차원수는 일례로 36 차원이다. 그리고 각 차원의 수치를 나타내는 데이터형으로서는 일반적인 수치 표현에 적용되는 32 비트의 부동(float)형 또는 정수(intger)형이 일반적이다. 보다 높은 정밀도가 필요한 경우는 64 비트의 더블(double)형이 사용된다. 한편, 수치의 범위가 한정되는 경우 또는 정밀도를 희생해서라도 메모리 용량을 삭감하고 싶은 경우는 특별히 16 비트의 단 정수(short int)형이 사용되기도 한다. 데이터 용량의 삭감을 우선하여 특별히 단 정수(short int)형을 사용한 36 차원의 PCA-SIFT의 경우에도, 각 국소 기술자는 16 비트×36 차원=512 비트(64 바이트)의 메모리를 필요로 한다.

최근방(最近傍) 검색에서는 벡터의 거리 계산을 행하고 최근방의 국소 기술자를 결정하는 것이 일반적이다. 각 차원의 데이터의 정밀도를 떨어뜨리면 정확한 최근방 탐색을 할 수 없게 되고, 따라서 화상 인식의 정밀도(인식율)가 저하한다고 생각하는 것이 상식이었다.

그래서 종래의 많은 수법에서는 모델 작성용의 화상으로부터 얻은 국소 기술자를 벡터 양자화(유사(類似)한 국소 기술자를 모아 소정수의 그룹으로 분류하는 것에 의해, 동일 그룹의 각 국소 기술자를 그 그룹의 대표값으로 치환하여 표현하는 수법, 클러스터링(clustering))하여 수천 내지 수십만 정도의 비주얼 워드(visual word; 상기 대표값에 상당하는 것)를 정하고, 그것을 사용하여 화상을 기술하는 접근 방식(approach)을 채용하고 있다(예를 들어, 비특허 문헌 3 참조). 미지의 화상을 인식할 때, 그 화상으로부터 얻은 국소 기술자를 비주얼 워드로 변환하여 빈도 등을 계측하게 된다. 이와 같은 접근 방식에서는 비주얼 워드의 수가 충분히 적으면 고속 처리를 기대할 수 있다. 그러나 한편, 비주얼 워드의 수가 많지 않으면, 충분한 인식율을 달성할 수 없다는 것이 지적되고 있다(예를 들어, 비특허 문헌 4 참조). 비주얼 워드의 수가 증가하면 그 만큼, 벡터 양자화에 필요한 계산 시간을 무시할 수 없으며, 또한 비주얼 워드 자체의 기록에도 메모리 용량의 면에서 문제가 발생한다.

이상의 이점ㆍ문제점은 극단적인 경우, 즉 모델 작성용의 화상으로부터 얻은 개별의 국소 기술자를 그대로 비주얼 워드로 하는 경우에 가장 현저하게 된다. 예를 들어, VGA 사이즈의 일반적인 화상으로부터는 2천 정도의 국소 기술자가 추출된다. 따라서, VGA 사이즈의 10만 화상을 모델 작성에 사용하는 경우, 비주얼 워드의 수는 2억이 되어, 대조 및 기억에 방대한 계산 자원이 필요하다. 한편, 대량의 국소 기술자를 모델에 사용하는 것에 의해, 고정밀의 인식을 실현하는 것이 가능하게 된다.

처리 시간의 문제에 대한 하나의 해결책은 국소 기술자의 대조에 「근사 최근방 탐색」을 도입하는 것이다(예를 들어, 비특허 문헌 5 및 특허 문헌 1 참조). 이로 인해, 예를 들어 상기 규모의 인식 태스크의 경우, 단순한 전체 수 대조의 경우에 비해, 인식율을 거의 저하시키는 일 없이, 처리 속도를 10^-6 미만으로 할 수 있다는 것이 알려져 있다. 한편, 메모리 용량의 문제에 대해서는 벡터 양자화를 거칠게(roughly) 하는 것이 해결책의 하나이지만, 이것은 인식율의 저하를 의미하기 때문에, 반드시 유리한 해결책은 아니다.

선행 기술 문헌

특허 문헌

특허 문헌 1 : 국제 공개 제2008/026414호 팜플렛

비특허 문헌

비특허 문헌 1 : D.Lowe, "Distinctive image features from scale-invariant keypoints", International Journal of Computer Vision, vol.60, no.2, pp.91-110, 2004

비특허 문헌 2 : J.Ponce,M.Hebert, C.Schmid and A.Zisserman Eds., Toward Category-Level Object Recognition, Springer, 2006

비특허 문헌 3 : J.Sivic and A.Zisserman, Video google: A text retrieval approach to object matching in videos, Proc. ICCV2003, Vol.2, pp.1470-1477, 2003

비특허 문헌 4 : D.Nister and H.Stewenius, Scalable recognition with a vocabulary tree, Proc. CVPR2006, pp.775-781, 2006

비특허 문헌 5 : 노구치 카즈토, 키노세 코이치, 이와무라 마사카즈, "근사 최근방 탐색의 다단계화에 의한 물체의 고속 인식", 화상의 인식ㆍ이해 심포지엄(MIRU2007) 논문집, pp.111-118, July, 2007

이상과 같은 사정 하에서, 본 발명은 종래와 다른 시점으로부터 해결책을 제공하는 것이다. 즉, 국소 기술자를 사용한 물체 인식에 있어서, 인식 정밀도를 일정 레벨로 유지한 채, 얼마나 처리 시간이나 메모리 용량을 삭감하는가 하는 시점에서 해결책을 제공하는 것이다.

구체적으로, 발명자 등은 인식율로의 영향을 무시할 수 있는 범위 내에서 국소 기술자의 각 차원을 나타내는 수치의 정밀도를 극한까지 축소할 가능성에 대해 검토했다. 이것은 상기 특허 문헌 1과 같이 다수의 국소 기술자로부터 최근방의 국소 기술자를 단시간에 탐색할 수 있는 수법이 제공되고 있고, 메모리 용량의 삭감에 어느 정도의 목표가 서면 비주얼 워드를 사용하지 않는 직접적인 검색에 의해 고정밀도의 물체 인식이 가능하게 된다고 생각했기 때문이다.

특히, 물체의 클래스(class) 인식뿐만 아니라, 물체의 인스턴스(instance) 인식을 목적으로 하는 용도에서는 고정밀도, 고속이고 메모리 효율이 좋은 수법이 바람직하고 있다. 비주얼 워드는 본질적으로 그룹화(grouping)를 수반하기 때문에, 클래스 레벨의 인식에는 유효해도 인스턴스 레벨의 인식과는 양립하지 않는 측면이 있다. 본 발명의 수법은 특히 인스턴스 레벨의 인식에 유효하다라고 생각된다. 단, 클래스 레벨의 인식, 및 비주얼 워드를 사용한 수법으로의 적용을 제외하는 것은 아니다.

여기서, 클래스의 인식은 인식 대상(검색 질문)이 주어지면 예를 들어 의자, 자동차 등의 물체의 클래스를 결과로서 돌려주는(인식하는) 것이다. 이것에 대해, 인스턴스의 인식은 예를 들어 자동차라는 클래스 중 특정 모델 등 물체의 인스턴스를 인식하는 것이다.

발명자들은 주의 깊게 검토를 행한 결과, 전술한 기술 상식에 반해 의외로, 실수형 또는 정수형 데이터보다 적은 구성 비트수로 국소 기술자의 각 차원을 표현해도, 2 비트까지는 인식율이 거의 저하하지 않는다는 것을 찾아냈다. 특징 벡터의 각 차원은 실수형 또는 정수형 데이터, 구체적으로는 32 비트의 데이터를 사용하여 표현하는 것이 이 기술 분야의 상식이다. 그런데 그것보다 적은 구성 비트수, 예를 들어, 8 비트 이하의 정밀도로 국소 기술자의 각 차원을 표현해도, 2 비트까지는 인식율이 거의 저하하지 않는다는 것을 찾아냈다. 또, 1 비트이어도, 0 비트, 즉 벡터의 거리 계산을 행하지 않는 수법에 비하면 2 비트의 인식율에 가까운 양호한 결과를 얻을 수 있는다는 것을 찾아냈다. 또한, 이 결과에 다수결 처리의 기여가 크다는 것도 찾아냈다. 그리고 이러한 지견에 기초하여 이 출원에 이르렀다.

즉, 전술한 과제를 해결하는 수단으로서, 본 발명은 벡터 양자화에 의해 얻을 수 있는 비주얼 워드를 좁힌다(narrow down)고 하는 접근 방식이 아니라, 개별의 국소 기술자의 기록에 필요한 메모리량을 삭감하는 접근 방식을 취한다. 구체적으로, 국소 기술자를 표현하는 벡터에 대해, 기록에 필요한 각 차원의 비트수를, 실수형 또는 정수형 데이터(32 비트)보다 적은 구성 비트수로 삭감한다. 이것은 국소 기술자에 스칼라(scalar) 양자화(量子化)를 적용하는 것으로 볼 수 있다.

본 발명은, 화상 데이터베이스에 등록되어야 할 화상이며 물체를 나타내는 화상으로부터, 그 화상의 각 소(所)의 국소적인 특징을 각각 표현하는 벡터를 복수의 국소 기술자로서 추출하는 특징 추출 공정과; 상기 벡터의 차원마다 스칼라 양자화를 행하는 스칼라 양자화 공정과; 상기 화상과 그에 대응하는 복수의 벡터를 상기 화상 데이터베이스에 등록하는 공정으로서, 상기 스칼라 공정에서 양자화된 각 벡터를, 근사 최근방 탐색을 실행할 수 있도록, 또한 각 벡터가 추출된 화상을 특정하는 화상 식별자가 각각 부가되도록 체계화하여 등록하는 등록 공정을 구비하고, 각 공정을 컴퓨터가 실행하고, 상기 등록 공정은 복수의 화상이 상기 화상 데이터베이스에 등록되고, 문제로 하는 물체를 나타내는 하나의 화상이 쿼리로서 주어졌을 때, 컴퓨터가 상기 추출 공정과 동일한 공정으로 상기 쿼리로부터 복수의 쿼리 국소 기술자를 추출하고, 상기 스칼라 양자화 공정과 동일한 공정으로 각 쿼리 국소 기술자를 양자화하고, 상기 화상 데이터베이스에 등록된 벡터 중에서 각 쿼리 국소 기술자의 근방 벡터로서의 벡터를 상기 근사 최근방 탐색의 알고리즘을 사용하여 검색하고, 상기 근방 벡터에 부가된 화상 식별자를 취득하고, 취득된 화상 식별자에 기초하여 문제로 하는 물체를 나타내는 적어도 하나의 화상을 결정할 수 있도록 각 벡터의 등록을 행하고, 상기 스칼라 양자화 공정은 각 벡터의 차원을 소정 비트수의 스칼라값으로 양자화하는 물체 인식용 화상 데이터베이스의 작성 방법을 제공한다.

또, 다른 관점으로부터 본 발명은, 화상 데이터베이스에 등록되어야 할 화상이며 물체를 나타내는 화상으로부터, 그 화상의 각 소의 국소적인 특징을 각각 표현하는 벡터를 복수의 국소 기술자로서 추출하는 특징 추출부와; 상기 벡터의 차원마다 스칼라 양자화를 행하는 스칼라 양자화부와; 상기 화상과 그에 대응하는 복수의 벡터를 상기 화상 데이터베이스에 등록하는 공정으로서, 상기 스칼라 공정에서 양자화된 각 벡터를, 근사 최근방 탐색을 실행할 수 있도록, 또한 각 벡터가 추출된 화상을 특정하는 화상 식별자가 각각 부가되도록 체계화하여 등록하는 등록부와; 복수의 화상이 상기 화상 데이터베이스에 등록되고, 문제로 하는 물체를 나타내는 하나의 화상이 쿼리로서 주어졌을 때, 상기 추출부가 등록되어야 할 화상과 동일하게 상기 쿼리로부터 복수의 쿼리 국소 기술자를 추출하고, 상기 스칼라 양자화부가 등록되어야 할 화상과 동일하게 각 쿼리 국소 기술자를 양자화한 후, 상기 화상 데이터베이스에 등록된 벡터 중에서 각 쿼리 국소 기술자의 근방 벡터로서의 벡터를 상기 근사 최근방 탐색의 알고리즘을 사용하여 검색하고, 상기 근방 벡터에 부가된 화상 식별자를 취득하고, 취득된 화상 식별자에 기초하여 문제로 하는 물체를 나타내는 적어도 하나의 화상을 결정하는 검색부를 구비하고, 상기 스칼라 양자화 공정은 각 벡터의 차원을 소정 비트수의 스칼라값으로 양자화하는 물체 인식용 화상 데이터베이스의 처리 장치를 제공한다.

또한, 다른 관점으로부터 본 발명은, 화상 데이터베이스에 등록되어야 할 화상이며 물체를 나타내는 화상으로부터, 그 화상의 각 소의 국소적인 특징을 각각 표현하는 벡터를 복수의 국소 기술자로서 추출하는 특징 추출부와; 상기 벡터의 차원마다 스칼라 양자화를 행하는 스칼라 양자화부와; 상기 화상과 그에 대응하는 복수의 벡터를 상기 화상 데이터베이스에 등록하는 공정으로서, 상기 스칼라 공정에서 양자화된 각 벡터를, 근사 최근방 탐색을 실행할 수 있도록, 또한 각 벡터가 추출된 화상을 특정하는 화상 식별자가 각각 부가되도록 체계화하여 등록하는 등록부와; 복수의 화상이 상기 화상 데이터베이스에 등록되고, 문제로 하는 물체를 나타내는 하나의 화상이 쿼리로서 주어졌을 때, 상기 추출부가 등록되어야 할 화상과 동일하게 상기 쿼리로부터 복수의 쿼리 국소 기술자를 추출하고, 상기 스칼라 양자화부가 등록되어야 할 화상과 동일하게 각 쿼리 국소 기술자를 양자화한 후, 상기 화상 데이터베이스에 등록된 벡터 중에서 각 쿼리 국소 기술자의 근방 벡터로서의 벡터를 상기 근사 최근방 탐색의 알고리즘을 사용하여 검색하고, 상기 근방 벡터에 부가된 화상 식별자를 취득하고, 취득된 화상 식별자에 기초하여 문제로 하는 물체를 나타내는 적어도 하나의 화상을 결정하는 검색부로서 컴퓨터를 기능시키고, 상기 스칼라 양자화 공정은 각 벡터의 차원을 소정 비트수의 스칼라값으로 양자화하는 물체 인식용 화상 데이터베이스의 처리 프로그램을 제공한다.

본 발명에 의한 물체 인식용 화상 데이터베이스의 작성 방법에 있어서, 상기 스칼라 양자화 공정은 각 국소 기술자의 각 차원을 실수형 또는 정수형 데이터보다 적은 구성 비트수로 양자화하므로, 개별의 국소 기술자의 표현에 필요한 메모리 용량을 삭감할 수 있다. 따라서 다수의 국소 기술자(또는 비주얼 워드)를 기록하는 경우에도, 스칼라 양자화 공정을 거치지 않는 종래의 수법에 비해 작은 용량의 메모리로 화상 데이터베이스를 작성할 수 있다.

상식적으로는, 특징 벡터를 적은 비트수로 표현하면 인식율의 저하 등 악영향이 초래되는 것이 예측된다. 그러나 후술하는 실험 결과에서도 나타나는 바와 같이, 각 차원을 2 비트까지 삭감해도 양자화를 행하지 않는 경우의 인식율에 비해 거의 저하하지 않는다는 것을 찾아냈다. 각 차원이 1 비트의 경우에도, 0 비트, 즉 벡터의 거리 계산을 행하지 않는 수법에 비해 매우 높은 인식율을 얻을 수 있다.

본 발명에 있어서, 국소 기술자는 화상의 국소적인 특징을 벡터량으로 표현하는 것이다. 그 구체적인 양태는 예를 들어, SIFT이다. 후술하는 실시 형태에 대해서는 국소 기술자의 일례로서 PCA-SIFT를 적용하고 있다.

각 국소 기술자를 최근방 탐색 가능하게 체계화한다는 것은 화상 데이터베이스에 등록해야 할 화상으로부터 국소 기술자를 추출하고, 그러한 각 국소 기술자를 상기 화상과 대응지어 데이터베이스로서 등록하는 것을 말한다. 어느 국소 기술자가 주어졌을 때, 상기 데이터베이스에 등록된 국소 기술자 중에서 최근방의 국소 기술자를 결정하는 처리가 최근방 탐색이다. 최근방인지의 여부를 평가하는 수법의 일례는 2개 벡터의 거리를 계산하고, 최단 거리의 것을 최근방으로 하는 것이다.

이하, 본 발명의 바람직한 양태에 대해 설명한다.

바람직하게, 상기 스칼라 양자화 공정은 각 국소 기술자의 각 차원을 8 비트 이하로 양자화한다. 보다 바람직하게, 상기 스칼라 양자화 공정은 각 국소 기술자의 각 차원을 2 비트로 양자화한다. 후술하는 실험 결과에도 나타나도록, 예를 들어, 특징 벡터의 각 차원을 기록하는 비트수를 2 비트로 한 경우, 양자화를 행하지 않는 경우와 비교하여, 소요 메모리 용량을 삭감할 수 있다(후술하는 실험예에서는 1/3 정도). 이 때, 처리 시간은 비트 연산을 위해 약간 길어지지만(후술하는 실험예에서는 1.6배 정도), 인식율은 거의 저하하지 않는다. 또, 각 차원을 8 비트로 한 경우에도, 후술하는 실험예에서는 소요 메모리 용량을 2/3 정도로 삭감 가능하다.

또, 상기 등록 공정은 양자화 후의 각 국소 기술자에 소정의 해쉬(hash) 함수를 적용하여 해쉬표의 인덱스값을 산출하고, 산출된 인덱스값에 대응지어 양자화 후의 각 국소 기술자의 각 차원의 값, 등록해야 할 화상을 식별하는 식별자 및 상기 화상의 참조처를 등록하는 것이며, 또한 동일한 인덱스값에 대응지어 등록되는 국소 기술자의 수가 소정의 수를 넘은 경우, 그 인덱스값에 대해서는 어느 국소 기술자도 등록하지 않게 해도 좋다. 해쉬표를 사용하는 것에 의해 고속의 최근방 탐색 처리를 실현할 수 있다. 또한, 동일한 인덱스값에 대응지어 등록되는 국소 기술자의 수가 소정의 수를 넘은 경우, 그러한 국소 기술자도 등록하지 않게 함으로써, 식별력이 약한 국소 기술자를 최근방 탐색 처리의 대상으로부터 제외할 수 있다. 따라서, 탐색의 정밀도를 희생하는 일 없이 보다 단시간에 탐색을 행할 수 있다.

해쉬표에서 분류된 하나의 종류(인덱스)에 속하는 국소 기술자의 수가 많은 경우, 그러한 국소 기술자는 식별 능력이 낮다고 말할 수 있다. 즉, 입력 화상의 국소 기술자로부터 인덱스값을 산출하고 해쉬표를 참조한 경우, 그 종류에 속하는 후보가 다수 등록되어 있기 때문이다. 그러한 국소 기술자는 인식 대상의 엄선에 그다지 공헌하고 있지 않으며, 식별 능력이 낮다고 말할 수 있다. 식별 능력이 낮은 국소 기술자를 탐색 대상으로부터 제외하면, 식별 능력이 높은 국소 식별자만을 참조하여, 효율적인 인식이 행해진다.

또한, 상기 스칼라 양자화 공정은 검색 질문으로부터 추출된 국소 기술자를 양자화할 때, 양자화의 문턱값을 넘은 복수의 값에 대해 인덱스값을 산출하고, 어느 하나의 인덱스값에 대응지어 등록된 국소 기술자 중에서 최근방의 국소 기술자를 결정해도 좋다. 이와 같이 하면, 양자화에 수반하는 오차의 범위를 포함하여 해쉬의 인덱스값을 산출하므로, 양자화에 의한 인식율의 저하를 억제할 수 있다.

예를 들어, 화상 데이터베이스에 등록된 화상이, 검색 질문에 관한 물체를 다른 시점으로부터 본 것인 경우, 등록된 화상과 검색 질문 사이에 대응 관계에 있는 특징 벡터의 각 차원의 값이 다른 경우가 있다. 즉, 각 특징 벡터는 시점의 변화(기하적 변환)에 대해 강건한 특성을 가지지만, 완전한 불변량이라는 것은 아니며, 변동하는 경우가 있다. 해쉬표는 각 특징 벡터의 각 차원의 값으로부터 소정의 계산 순서(해쉬 함수의 계산)에 의해 이산값(離散値)인 인덱스값을 산출한다. 여기서, 대응하는 특징 벡터의 양자화 후의 값이 변동에 의해 다르면, 다른 인덱스값이 산출되어 버릴 가능성이 높다. 검색 대상의 특징 벡터와 검색 질문의 특징 벡터의 인덱스값이 다르면, 그 쌍의 특징 벡터에서는 올바른 탐색 결과를 얻을 수 없다. 그래서 변동에 의해 각 차원의 값이 양자화의 문턱값을 넘은 경우를 고려하여, 양자화된 각 차원의 값뿐만 아니라, 양자화의 문턱값에 걸친 값에 대해서도 인덱스값을 계산하고, 어느 하나의 인덱스값에 대응지어서 등록되어 있는 특징 벡터 중에서 최근방의 특징 벡터를 결정한다. 이와 같이 하면, 변동에 수반하는 인식율의 저하를 억제할 수 있다. 환언하면, 특징 벡터가 있는 차원의 값이 양자화의 문턱값에 가까운 경우에 문턱값에 걸칠 가능성도 고려하여 인덱스값을 계산함으로써, 인식율을 확보할 수 있다.

상기 특징 추출 공정은 각 차원이 32 비트로 나타내는 벡터값을 각 국소 기술자로서 추출해도 좋다.

또, 검색 질문의 각 국소 기술자에 대해 최근방의 국소 기술자를 결정하는 처리는 국소 기술자 사이의 거리 계산을 행하여 가장 가까운 거리의 것을 결정하는 처리이어도 좋다.

여기서 나타낸 여러 가지의 바람직한 형상은 그것들 복수를 조합할 수도 있다.

도 1은 본 발명에 관한 스칼라 양자화의 수법의 일례를 설명하는 설명도이다.
도 2는 본 실시 형태의 실험예에서 사용한 등록 화상의 예를 나타내는 도면이다.
도 3은 본 실시 형태에 관한 화상 데이터베이스에 있어서 특징 벡터의 각 차원의 분포 f(x)를 나타내는 그래프이다.
도 4는 본 실시 형태의 실험예에서 사용한 검색 질문의 예를 나타내는 도면이다.
도 5는 본 실시 형태의 실험예에 있어서, 특징 벡터의 용량과 인식율의 관계를 나타내는 그래프이다.
도 6은 본 실시 형태의 실험예에 있어서, 등록 화상수와 인식율, 처리 시간의 관계를 나타내는 그래프이다.
도 7은 본 실시 형태의 실험예에 있어서, 파라미터 c와 인식율, 처리 시간의 관계를 나타내는 그래프이다.
도 8은 본 실시 형태의 실험예에 있어서, 파라미터 b, e와 인식율, 처리 시간의 관계를 나타내는 그래프이다.
도 9는 본 실시 형태의 실험예와 종래 수법의 대표예인 ANN에 대해, 인식율과 처리 시간의 특성을 나타내는 그래프이다.
도 10은 본 실시 형태에 관한 물체 인식용 화상 데이터베이스로의 화상의 등록 순서를 나타내는 플로차트다.
도 11은 도 10의 순서로 화상이 등록되어 이루어지는 화상 데이터베이스를 대상으로, 인식(검색)을 행할 때의 순서를 나타내는 플로차트다.
도 12는 본 발명에 의한 물체 인식용 화상 데이터베이스의 처리 장치에 대해, 그 기능적 구성을 나타내는 블록도이다.

≪근사 최근방 탐색의 종래법≫

본 발명의 상세에 대해 말하기 전에, 근사 최근방 탐색의 종래법에 대해 설명한다. 여기서 채택하는 종래법은 후술하는 실험예에 사용한 것이다.

최근방 탐색에서 가장 시간이 걸리는 것은 거리 계산이다. 최근방 탐색의 고속화에는 개별의 거리 계산 자체를 고속으로 행하는 방법과, 거리 계산의 대상을 효율 좋게 좁히는 방법의 두가지가 있다. 근사 최근방 탐색에서는 주로 후자의 좁힘을 대담하게 행함으로써, 처리 시간을 삭감한다. 그런데 그 대가로서, 최근방이 거리 계산의 대상으로부터 벗어나 버려, 구해지지 않을 가능성이 있다. 어느 정도의 근사가 적절한지는 대상으로 하는 태스크에 의존하기 때문에, 근사 최근방 탐색의 수법에서는 근사의 정도를 조절하기 위한 파라미터를 마련하고 있다. 이하에서는 근사 최근방 탐색의 대표적인 수법으로서 ANN에 대해 설명한다.

ANN(Approximate Nearest Neighbor의 약자. 상세는 S.Arya, D.M. Mount, R.Silverman and A.Y. Wu, "An optimal algorithm for approximate nearest neighbor searching", Journal of the ACM, vol.45, no.6, pp.891-923, 1998 참조)는 2진 트리(binary tree)를 사용하여 근사 최근방 탐색을 고속으로 행하는 수법이다. 트리의 노드는 특징 공간을 분할한 초월평면(hyperrectangle)에 대응하고 있고, 잎노드에는 단일의 특징 벡터가 대응지어져 있다. ANN에서는 트리 구조의 탐색에 의해 거리 계산의 대상이 되는 특징 벡터를 수집하고, 그 중에 거리가 최단인 것을 근사 최근방 탐색의 결과로서 출력한다. ANN에는 근사의 정도를 나타내는 파라미터로서 허용 오차 ε가 있다. ε이 크면, 보다 큰 폭의 근사를 행하여 대상이 되는 특징 벡터를 좁히기 때문에, 처리 시간을 단축할 수 있다.

≪실시 형태≫

이하, 도면을 사용하여 본 발명을 더욱 상술한다. 또한, 이하의 설명은 모든 점에서 예시로서 본 발명을 한정하는 것으로 해석되어서는 안된다.

1.1. 개념

국소 기술자를 사용하여 인식을 행하는 종래 수법의 문제점은 특징 벡터의 수가 많기 때문에, 대규모의 인식을 행하는 경우에 메모리 사용량과 처리 시간이 방대하게 되어 버린다고 하는 것이다.

처리 시간의 문제에 대해, 노구치 등은 근사 최근방 탐색에 의한 식별기를 다단계로 접속하는 것에 의해 처리 시간을 삭감하는 수법(비특허 문헌 5 및 특허 문헌 1 참조)을 제안하고 있다. 그러나 이 수법에서는 메모리 사용량의 문제가 고려되어 있지 않았다. 이 수법의 메모리 사용량의 내역을 보면, 약 8할이 특징 벡터를 저장하기 위해 사용되고 있다는 것을 알 수 있다. 그래서 본 실시 형태에서는 노구치 등의 수법을 기본으로 하여, 특징 벡터를 양자화하고 적은 비트수로 표현함으로써, 메모리 사용량을 삭감하는 것을 시도한다.

벡터를 양자화하는 방법에는 대표적인 것으로서 벡터 양자화와 스칼라 양자화가 있다. 벡터 양자화는 미리, 어느 개수의 대표 벡터를 구하여 입력 벡터를 최근방의 대표 벡터의 부호로 치환하는 것이다. 벡터 양자화는 국소 기술자를 사용한 인식 수법에서 많이 사용되고 있다(비특허 문헌 3 참조). 그러나 대규모의 데이터에 대해 양자화 오차가 적은 대표 벡터(전술한 비주얼 워드)를 효율 좋게 구하는 것은 어렵다. 또, 대표 벡터의 수가 많아지면, 입력 벡터의 최근방의 대표 벡터를 탐색하는 처리에 시간이 걸린다고 하는 문제점이 있다. 한편, 스칼라 양자화는 입력 벡터의 차원마다 양자화를 행하는 것이다. 동일한 부호수에서 비교한 경우는, 벡터 양자화에 비해 양자화 오차가 커진다. 그러나 양자화 시에 최근방 탐색이 필요없기 때문에 처리 시간은 적게 끝난다고 생각된다. 그래서 본 발명에서는 처리 시간을 중시하여 스칼라 양자화를 사용하는 것으로 한다.

양자화에는 메모리 사용량을 삭감할 수 있다고 하는 이점뿐만 아니라, 인식율이 저하할 가능성이 있다고 하는 문제점도 있다. 이것은 원래 다른 특징 벡터인 것이 양자화에 의해 동일한 특징 벡터로 되어 식별성이 저하하기 때문이다. 특징 벡터의 식별성의 저하가 인식율에 미치는 영향은, 본 발명의 인식 결과가 투표에 의해 결정되기 때문에, 간단하게는 알 수 없다. 이것은 정답의 득표수가 역전(逆轉)되지 않으면, 잘못된 표가 다른 화상에 들어가도 오인식은 생기지 않기 때문이다. 그래서 양자화의 비트수와 인식율의 관계에 대해서는 실험으로 검증한다.

1.2. 스칼라 양자화

우선, 본 발명에 관한 스칼라 양자화에 대해 설명한다. 스칼라 양자화에서는 차원마다 양자화를 행한다. 각 차원을 2 비트로 양자화하는 경우를 도 1에 나타낸다. f(x)는 특징 벡터가 있는 차원의 분포이다. t는 양자화의 문턱값이며, 예를 들어 ―∞로부터 t₁의 범위의 것은 0으로 부호하한다. 검색 시에 거리 계산을 행하는 경우에는, v의 값을 사용하여 검색 질문의 특징 벡터와의 거리를 계산한다. t와 v의 값에 대해서는 다음 식을 만족하도록 차원마다 정한다.

[식 1]

1.3. 해쉬 함수

노구치 등의 수법과 동일하게, 본 실시 형태에서도 해쉬 함수를 사용하여 데이터를 해쉬표에 등록하고 검색에 사용한다. 해쉬표에 데이터를 등록, 검색하는 경우에는, 해쉬 함수에 의해 처리를 행하는 인덱스를 알 필요가 있다. 여기에서는 본 실시 형태에서 사용하는 해쉬 함수에 대해 설명한다.

PCA-SIFT에 의해 얻어진 36 차원의 실수값 벡터 x는 주성분 분석의 결과이므로, 전방(前方)의 차원 쪽이 고유값이 크다고 하는 성질이 있다. 그래서 x의 제1 차원으로부터 제d차원까지를 취해,

[식 2]

로 한다. 다음에,

[식 3]

를 사용하여 차원마다 2값화를 행하고 비트 벡터

[식 4]

를 작성한다. 여기서 μ _j는 화상 데이터베이스 중 모든 x_j의 평균값이다. 그리고

[식 5]

에 의해 해쉬값을 구한다. 여기서 H_index는 해쉬표의 사이즈이다.

1.4. 데이터 등록

특징 벡터를 해쉬표에 등록하기 위해서는 전술한 해쉬 함수에 의해 해쉬값을 구할 필요가 있다. 해쉬표에는 화상 ID와 함께 양자화에 의해 데이터량을 삭감한 특징 벡터를 등록한다. 등록 시에 충돌이 생긴 경우는, 복수의 특징 벡터를 리스트로서 등록한다. 이 때, 리스트가 길어 지면, 검색 시에 거리 계산의 비용이 너무 든다고 하는 문제가 발생한다. 그래서 본 실시 형태에서는 리스트 길이 n에 대한 문턱값 c를 마련하고, n>c를 만족하면 리스트 전체를 해쉬표로부터 삭제한다. 동일한 해쉬값을 가지는 특징 벡터가 많다고 하는 것은 그 특징 벡터가 화상의 식별에 그다지 기여하지 않는다는 것을 의미한다. 따라서, 삭제해도 영향은 비교적 적다고 생각된다.

이상의 처리를, 데이터베이스에 등록하는 모든 특징 벡터에 대해 행함으로써, 데이터의 등록은 완료된다.

도 10은 본 실시 형태에 관한 물체 인식용 화상 데이터베이스로의 화상의 등록 순서를 나타내는 플로차트다. 도 10에 나타내는 바와 같이, 처리를 행하는 컴퓨터는 등록해야 할 화상이 입력되면, 우선 그 화상으로부터 국소 기술자를 추출한다(단계 S11). 계속하여, 각 국소 기술자를 전술한 순서로 스칼라 양자화하여, 각 차원을 8 비트 이하, 바람직하게, 2 비트로 삭감한다(단계 S13). 그리고 양자화된 각 국소 기술자에 해쉬 함수를 적용하여 인덱스값을 산출한다(단계 S15).

다음에, 상기 컴퓨터는 산출된 인덱스값에 대응지어 그 국소 기술자의 양자화된 벡터값에 화상 ID를 부여하여 해쉬표에 등록한다(단계 S17). 즉, 화상 데이터베이스에 등록한다. 여기서, 동일한 인덱스값에 소정수를 넘은 국소 기술자가 등록되었을 때, 그 인덱스값에 대응지어진 국소 기술자를 해쉬표로부터 삭제하여 등록하지 않게 한다. 이로 인해, 식별력이 낮은 국소 기술자를 데이터베이스에 등록하지 않게 한다. 다음에, 추출된 모든 국소 기술자가 해쉬표에 등록됐는지의 여부를 판단하고(단계 S19), 나머지의 국소 기술자가 존재하는 경우(단계 S19의 아니오)는, 나머지의 국소 기술자에 대해서도 단계 S13 ~ 17의 처리를 반복한다. 모든 국소 기술자의 등록이 종료되면(단계 S19의 예), 그 화상의 데이터베이스로의 등록은 종료된다.

1.5. 검색

다음에 검색에 대해 설명한다. 본 실시 형태에서는 검색 질문 Q로부터 얻은 각 특징 벡터 q에 대해, 해쉬 함수를 적용하여 해쉬표로부터 특징 벡터를 검색한다. 얻어진 특징 벡터의 집합을 X로 하면, 다음에 X 중에서 q의 최근방이 되는 특징 벡터 x_*를 구한다.

그리고 x_*에 대응하는 화상 ID에 투표한다. 만약, 최근방이 되는 특징 벡터가 다수 있는 경우에는, 그것들 모두에 대해 투표 처리를 실시한다. 검색 질문의 모든 특징 벡터에 대해 이 처리를 행하고, 최종적으로 가장 득표수가 많은 것을 답변으로 한다. 여기서, 「투표」는 정보 처리의 분야에서 부분적으로 증거를 집계하기 위해 사용하는 처리로서, 얻어진 증거에 기초하여 선택 사항 중 어느 것에 득점을 주고, 모든 증거를 집계한 결과 최고 득점을 얻은 선택 사항을 선택하는 처리를 말한다. 일반적으로 각 증거는 다른 점수의 표를 가진다.

이 처리에 있어서, 가장 중요한 단계는 얼마나 q에 대한 특징 벡터를 검색하는지에 있다. 가장 단순한 수법은 등록 시와 동일하게 q에 대해서도 비트 벡터를 구하고, 해쉬 함수에 의해 동일한 해쉬값을 가지는 특징 벡터를 구하는 것이다. 그런데 이와 같은 처리에서, 거리의 계산 회수는 충분히 삭감할 수 있지만, 다음의 이유에 의해 충분한 인식율을 얻을 수 없다. 그것은 특징 벡터의 각 차원의 값이 촬영 조건에 의해 변동하기 때문이다. 만약, 문턱값을 넘은 변동이 있으면, 비트 벡터가 다른 것이 되어, 이미 대응하는 특징 벡터를 얻을 수 없게 된다.

본 실시 형태에서는 값의 변동폭 e를 파라미터로 하여 변동에 대한 대처를 실시한다. 구체적으로,

[식 6]

로 할 때,

[식 7]

를 만족하는 차원 j에 대해서는 u_j 뿐만 아니라,

[식 8]

도 사용하여 특징 벡터를 검색한다. 단, 이와 같은 「양쪽 시험」이라고 하는 처리를 제한없이 도입하면, 방대한 계산 시간이 필요하게 되어 버린다. 이 처리에서는 처리의 대상이 되는 차원수를 b로 하면, 2b 패턴의 비트 벡터를 사용하여 해쉬표에 액세스하게 된다. 그래서 본 실시 형태에서는 b를 그다지 크지 않은 값으로 두는 것으로 한다.

[식 9]

를 만족하는 차원의 수가 b보다 클 때는 차원의 인덱스가 큰 것으로부터 b개를 채용한다.

도 11은 도 10의 순서로 화상이 등록되어 이루어지는 화상 데이터베이스를 대상으로, 인식(검색)을 행할 때의 순서를 나타내는 플로차트다. 도 11에 나타내는 바와 같이, 검색 질문의 화상이 입력되면, 처리를 행하는 컴퓨터는 우선, 그 화상으로부터 국소 기술자를 추출한다(단계 S21). 계속하여, 각 국소 기술자를 전술한 순서로 스칼라 양자화하여, 각 차원을 8 비트 이하, 바람직하게 2 비트로 삭감한다(단계 S23). 그리고 양자화된 각 국소 기술자에 해쉬 함수를 적용하여 인덱스값을 산출한다(단계 S25). 단계 S21, S23 및 S25의 처리는 도 10의 단계 S11, S13 및 S15의 처리에 각각 대응하고 있으며, 동일한 처리이다. 단, 단계 S25에서는 화상의 변동을 고려하여, 양자화의 문턱값에 걸친 복수의 값에 대해서도 인덱스값을 계산한다. 즉, 전술한 「양쪽 시험」처리를 추가로 행한다.

다음에, 상기 컴퓨터는 산출된 인덱스값에 대응지어서 해쉬표에 등록되어 있는 국소 기술자 중에서 최근방의 국소 기술자를 결정하고, 최근방의 국소 기술자가 포함되는 화상 ID에 한 표를 던진다. 다음에, 검색 질문으로부터 추출된 모든 국소 기술자에 대해 최근방 탐색과 그에 기초를 두는 투표가 이루어졌는지의 여부를 판단하고(단계 S29), 나머지의 국소 기술자가 존재하는 경우(단계 S29의 아니오)는, 나머지의 국소 기술자에 대해서도 단계 S23 ~ 27의 처리를 반복한다. 모든 국소 기술자에 대해 투표가 행해지고(단계 S29의 예), 최다 득표수를 얻은 화상을 인식 결과로서 출력한다(단계 S31). 그리고 인식 처리는 종료된다.

≪블록도≫

도 12는 본 발명에 의한 물체 인식용 화상 데이터베이스의 처리 장치에 대해, 그 기능적 구성을 나타내는 블록도이다. 도 12에서, 화상 데이터베이스(25)에 화상(21)을 등록할 때는 등록해야 할 화상(21)이 처리 장치(1)의 입력으로서 주어지고, 그 출력으로서 화상 데이터베이스(25)에 화상(21)에 관한 데이터가 등록된다. 한편, 화상 데이터베이스(25)에 등록된 화상을 검색할 때는 검색 질문(23)이 처리 장치(1)의 입력으로서 주어지고, 처리 장치(1)는 화상 데이터베이스(25)를 참조하여, 출력으로서 화상 데이터베이스(25)에 등록된 화상(27) 또는 그것을 특정하는 정보를 출력한다.

특징 추출부(11)는 입력으로서 주어진 화상(21 또는 23)으로부터 특징 벡터를 추출한다. 스칼라 양자화부(13)는 추출된 각 특징 벡터를 스칼라 양자화한다. 등록부(15)는 스칼라 양자화된 각 특징 벡터의 데이터에 그것이 추출된 화상을 식별하는 식별자를 부여하고, 화상 데이터베이스(25)에 등록한다. 검색부(17)는 스칼라 양자화된 각 특징 벡터에 대해, 화상 데이터베이스(25)에 등록된 국소 기술자 중에서 최근방의 것을 최근방 탐색 처리에 의해 결정한다. 그리고 결정된 국소 기술자를 포함하는 화상에 투표하고, 검색 질문의 각 국소 기술자에 관한 투표의 결과에 기초하여 화상 데이터베이스(25)에 등록된 화상 중에서 하나의 화상을 특정한다. 특정된 화상(27) 또는 그 식별 정보를 인식 결과로서 출력한다.

도 12의 특징 추출부(11), 스칼라 양자화부(13), 등록부(15), 검색부(17)의 기능을 실현하는 하드웨어는 주로 컴퓨터와 메모리이다. 즉, 컴퓨터가 소정의 물체 인식용 화상 데이터베이스의 처리 프로그램을 실행함으로써, 각 부의 기능이 실현된다.

≪실험예≫

2.1. 실험 조건

실험에서는 근사 최근방 탐색의 종래법인 ANN을 본 실시 형태와 비교했다. 여기서, ANN으로서는 인터넷 <URL:http://www.cs.umd.edu/mount/ANN/> 에서 제공되고 있는 소스 코드를 사용했다.

실험에는 이하에 말하는 화상 데이터베이스, 검색 질문 화상을 사용했다. 국소 기술자로서는 PCA-SIFT를 사용했다. PCA-SIFT는 인터넷 <URL:http://www.cs.cmu.edu/yke/pcasift/> 에서 제공되고 있다. PCA-SIFT에서는 36 차원의 특징 벡터가 얻어진다. 해쉬표의 사이즈는

[식 10]

로 했다. 이하에 나타내는 처리 시간은 검색 질문의 화상 1매당의 인식에 필요로 한 시간을 나타낸다.

단, 특징 벡터의 추출에 필요한 시간은 포함하지 않는다. 사용 계산기는 CPU가 AMD Opteron 2.8 GHz, 메모리 32 GB인 것이다.

2.1.1. 화상 데이터베이스

실험에 사용한 화상에 대해 설명한다. 우선, 수집 방법이 다른 A, B, C의 3 종류 데이터 세트를 준비했다. A는 구글(Google)의 이미지 검색을 사용하여 수집한 3,100매의 화상이다. 검색 키워드로서는 "포스터", "잡지", "표지" 등을 사용했다. 도 2(a)에 예를 나타낸다.

B는 PCA-SIFT의 사이트에서 공개되고 있는 화상이며, 화상수는 18,500매이다. 이 데이터는 주로 자연 사진이나 인물의 사진 등으로 구성되어 있다. 도 2(b)에 예를 나타낸다. C는 사진 공유 사이트의 플리커(flickr)에 있어서 "animal", "birthday", "food", "japan" 등의 태그에 의해 수집한 78,400매의 화상으로 이루어진다. 주로 도 2(c)에 나타내는 물체나 자연의 사진, 인물의 사진 등을 포함한다. 또한, 수집 시에는 600×600 pixel 이하의 사이즈인 화상은 제외하고, 화상의 장변이 640 pixel 이하로 되도록 축소했다. 또, 특징 벡터가 100개 이하의 화상도 제외했다. 화상의 한 변의 길이의 평균은 A, B, C 각각 498,612,554 pixel이다.

다음에, A, B, C의 화상을 사용하여, 표 1에 나타낸 화상수로 이루어진 4 종류의 데이터베이스를 작성하여 실험에 사용했다. 여기서, 큰 데이터베이스는 작은 데이터베이스를 그 일부로서 포함한다. 1만매의 화상 데이터베이스의 특징 벡터의 각 차원의 분포 f(x)를 도 3에 나타낸다. 도 3(a) ~ (d)에서, 횡축은 각 차원의 값이고, 종축은 빈도이다. 1 차원째는 쌍봉성(雙峰性)의 분포이며, 2 차원째 이후는 단봉성의 분포를 나타낸다. 또, 차원이 커지는 것에 따라 분산이 작아진다. 평균값은 모두 0 부근이다. 또, 특징 벡터의 개수는 화상 1매당 평균 2천개였다. 실험에서는 어느 매수의 데이터베이스를 사용하는 경우에도, 1만매의 화상 데이터베이스로부터 얻어진 f(x)를 양자화에 사용했다.

[표 1]

2.1.2. 검색 질문 화상

검색 질문으로서는 데이터 세트 A, B, C의 각각으로부터 100, 200, 200매의 합계 500매를 무작위로 선택했다. 다음에, 이들을 A4의 용지에 인쇄하고, 카메라를 사용하여 촬영했다. 얻어진 화상의 예를 도 4에 나타낸다. 도 4(a) ~ (c)에 나타내는 바와 같이, 지면 전체가 촬영되는 배치에서, 지면에 대한 카메라의 광축의 각도 θ를 90

, 75

, 60

로 변화시켰다. 또, 각도를 90

로 하여 지면의 일부분을 촬영했다(도 4(d)). 그 결과, 1매의 지면에 대해, 합계 4개의 화상을 얻었다. 또한, 촬영한 화상을 512×341 pixel로 축소하고, PCA-SIFT에 의해 특징 벡터를 구했다. 그 결과, 화상 1매당 평균 612개의 특징 벡터가 얻어진다.

2.2. 특징 벡터의 메모리 용량과 인식율

우선, 양자화에 의해 데이터량을 삭감하면, 어느 정도 인식율에 영향이 있는지 조사했다. 결과를 도 5에 나타낸다. 횡축은 특징 벡터의 각 차원의 양자화 비트수를 나타내고 있다. 예를 들어, 2 비트의 경우에는 PCA-SIFT의 특징 벡터가 36 차원이므로, 1 벡터당 2 비트×36=72 비트 필요로 한다. 여기서, 16 비트와 0 비트의 경우는 약간 특수한 경우이다. 16 비트의 경우에는 양자화를 행하지 않고 원래의 데이터를 그대로 사용했다(노구치 등의 수법). 즉, 이 실험에서는 메모리 용량 삭감을 우선하여, 각 차원을 16 비트 표현한 경우를 비교의 기준으로 하고 있다. 0 비트의 경우에는 거리 계산을 행하기 위한 특징 벡터가 존재하지 않기 때문에, 해쉬표로부터 얻어진 집합 X의 모두에 대해 투표를 행했다. 등록 화상수는 1000, 10000, 100000매이고, 파라미터는 16 비트인 경우에 좋은 결과가 얻어진 b=10, c=10, d=28, e=400에 대해 조사했다. 또, 메모리 사용량은 100000매의 데이터베이스에 대해서만 조사했다.

그래프로부터, 2 비트까지 삭감해도, 인식율에 큰 영향은 볼 수 없다는 것을 알 수 있다. 1 비트의 경우에는 등록 화상수가 많을수록 인식율의 저하가 현저하다는 것을 알 수 있다. 이것은 등록되어 있는 특징 벡터의 수가 증가할수록, 식별성의 부족이 문제로 되기 때문이라고 생각된다. 0 비트의 경우에는 인식율이 크게 저하한다는 것을 알 수 있다. 이것은 각 차원을 2 비트, 즉 특징 벡터 1개당 9 바이트로 표현할 수 있는 것을 의미한다. 각 차원을 16 비트로 표현한 경우에 비하면, 특징 벡터 단체(單體)에서 1/8의 용량이며, 실제의 메모리 사용량도 약 1/3로 큰 폭의 압축이 가능하다는 것을 알 수 있다. 이후의 실험에서는 각 차원을 2 비트로 양자화를 행한 경우의 상세한 성질에 대해 설명한다.

2.3. 스케일러빌리티(scalability)

다음에, 본 실시 형태의 2 비트와 16 비트의 경우에 대해 등록 화상수와 인식율과 처리 시간의 관계를 비교했다.

등록 화상수를 5000매로부터 10만매까지 변화시켜 실험을 행했다. 파라미터는 방금 전과 동일하게 b=10, c=10, d=28, e=400을 사용했다. 등록 화상수를 변화시킨 결과를 도 6에 나타낸다.

그래프로부터, 인식율은 거의 변함없지만, 처리 시간이 증가하고 있다는 것을 알 수 있다. 예를 들어 10만 화상을 등록한 경우의 처리 시간은 135.8 ms에서 210.9 ms로 1.6배가 되었다.

처리 시간의 증가분은 거리 계산에 의한 것이라고 생각된다. 그것은 해쉬 함수는 특징 벡터의 양자화와 무관하므로, 16 비트의 경우에도 2 비트의 경우에도 거리 계산의 대상이 되는 벡터는 변화하지 않기 때문이다. 거리 계산의 처리 시간이 증가한 이유는 두 가지가 생각된다. 하나는 양자화된 부호를 중앙값 v로 변환하는 처리이다. 다른 하나는 각 차원의 2 비트의 데이터 추출 시에 일어나는 비트 연산이 원인이라고 생각된다.

2.4. 본 실시 형태의 파라미터와 인식율ㆍ처리 시간

여기까지의 실험으로, 2 비트로 양자화하면 인식율을 떨어뜨리지 않고 데이터량을 삭감할 수 있다는 것을 알 수 있었다. 본 절에서는 2 비트로 양자화한 경우에 대해 본 실시 형태의 파라미터와 인식율 처리 시간의 관계에 큰 변화가 보이지 않는지를 확인한다. 본 실시 형태의 주된 파라미터인 b, c, d, e에 대해 실험을 행했다. 우선, 충돌의 문턱값 c와 해쉬 구축에 사용하는 차원수 d와 인식율, 처리 시간의 관계에 대해 설명한다. 이 때 화상 데이터베이스는 1만매, 해쉬표의 사이즈로서는 H_size=2로 했다. e=200, b=10, d=24, 26, 28으로 하고, c를 변화시킨 결과를 도 7에 나타낸다. c가 감소함에 따라, 처리 시간이 감소하고 있다는 것을 알 수 있다. 단, c를 너무 작게 하면, 인식율이 저하했다. 이것은 인식에 기여하고 있던 것도 삭제해 버렸기 때문이라고 생각된다. 한편, c를 증가시킨 경우에, 계산 시간은 증가하지만, 인식율이 감소하는 일은 거의 없었다. 이것은 최근방으로 될 수 없는 특징 벡터를 검색했다고 해도, 거리 계산에 의해 배제 가능하기 때문이라고 생각된다.

다음에, 양쪽 시험하는 차원수의 문턱값 b와 인식율, 처리 시간의 관계에 대해 설명한다. d=28로 한 다음, e=200, 400, 600, c=10으로 하고, b를 변화시킨 결과를 도 8에 나타낸다. b를 증가시키면, 처리 시간은 증가하지만, 인식율은 개선된다. 양쪽 시험하는 처리의 대상으로 하는 폭 e가 작을수록, b가 작은 경우에 인식율이 크게 상승한다는 것을 알 수 있다. 이것은 이하와 같이 설명할 수 있다. 검색 처리에서는 검색 질문의 특징 벡터의 뒤의 차원으로부터 ―e 내지 +e의 범위 내의 b개를 처리 대상으로 한다. 이 때, e가 크면, 처리가 필요한 부분에 도달하기 전에 b개의 문턱값에 걸리기 때문에 인식율이 저하한다. 또, 어느 정도 b를 증가시키면, b의 증가에 대해 인식율, 처리 시간이나 성장이 둔해진다. 이것은 각 차원의 값이 ―e 내지 +e의 범위에 있는 벡터가 그 이상 존재하지 않아, 처리의 대상으로 하는 인덱스가 증가하지 않기 때문이다.

이러한 것으로부터, e를 너무 큰 값으로 하지 않으면 좋은 결과를 얻을 수 있다는 것을 알 수 있다.

이상의 실험의 결과는 노구치 등의 수법으로 얻어진 것과 큰 차이는 볼 수 없었다. 여기서, 양자화가 파라미터에 주는 영향은 경미하다고 말할 수 있다.

2.5. ANN과의 비교

근사 최근방 탐색의 종래법인 ANN에 대해, 2 비트로 양자화를 행한 경우와 비교하기 위해, 1만매의 화상을 등록하여 파라미터를 여러가지로 바꾸고, 횡축에 인식율, 종축에 처리 시간을 그린 그래프를 도 9에 나타낸다.

ANN으로 허용 오차ε를 2에서 1000까지 변화시킨 것을 선으로 그려, 평가의 기준으로 했다. 오른쪽으로 부동되어 있을수록 인식율이 높고, 아래로 부동되어 있을수록 처리 시간이 짧다. 이 때문에, 오른쪽 아래로 부동되어 있을수록 우수하다고 말할 수 있다. 이 그래프로부터 알 수 있는 바와 같이, 본 실시 형태는 ANN을 사용한 경우보다 우수하다고 말할 수 있다.

[표 2]

다음에, 각종 파라미터의 대표적인 값을 사용한 인식율과 처리 시간을 표 2에 나타낸다. 우선, ANN에 대해 인식율 98.9%를 얻기 위해 필요한 처리 시간을 16 비트와 2 비트로 양자화한 경우에 대해 비교하면, 2 비트로 양자화한 경우에는 동일한 인식율을 얻기 위해 필요한 처리 시간이 큰 폭으로 증가하지만, 본 실시 형태에 대해 보면, ANN에 비해 처리 시간의 증가는 완만하다. 이상으로부터, 양자화를 실시하면, 동일한 인식율을 얻기 위해 필요한 처리 시간은 증가한다는 것을 알 수 있다. 그러나 양자화에 의해 메모리 사용량을 큰 폭으로 삭감할 수 있는 이점이 있다는 것을 알 수 있다.

이상의 실험예로부터, 각 차원을 2 비트로 양자화한 경우에, 양자화 없음의 경우와 비교하여 처리 시간을 희생하는 것에 의해, 메모리 사용량을 1/3로 할 수 있었다. 또, 메모리 사용량, 처리 시간, 인식율은 각각 트레이드 오프(trade-off)의 관계에 있다는 것을 알 수 있었다.

상술한 실시 형태 외에도, 본 발명에 대해 여러 가지의 변형예가 있다. 그러한 변형예는 본 발명의 범위에 속하지 않는다고 이해되는 것은 아니다. 본 발명에는 청구의 범위와 균등한 의미 및 상기 범위 내에서의 모든 변형이 포함되어야 하는 것이다.

1: 화상 데이터베이스 처리 장치
11: 특징 추출부
13: 스칼라 양자화부
15: 등록부
17: 검색부
21: 등록 화상
23: 검색 질문
25: 화상 데이터베이스
27: 인식 결과

Claims

화상 데이터베이스에 등록되어야 할 화상이며 물체를 나타내는 화상으로부터, 그 화상의 각 소(所)의 국소적(局所的)인 특징을 각각 표현하는 벡터를 복수의 국소 기술자(記述子)로서 추출하는 특징 추출 공정과,
상기 벡터의 차원마다 스칼라 양자화(量子化)를 행하는 스칼라 양자화 공정과,
상기 화상과 그에 대응하는 복수의 벡터를 상기 화상 데이터베이스에 등록하는 공정으로서, 상기 스칼라 공정에서 양자화된 각 벡터를, 근사 최근방(最近傍) 탐색을 실행할 수 있도록, 또한 각 벡터가 추출된 화상을 특정하는 화상 식별자가 각각 부가되도록 체계화하여 등록하는 등록 공정을 구비하고,
각 공정을 컴퓨터가 실행하고,
상기 등록 공정은 복수의 화상이 상기 화상 데이터베이스에 등록되고, 문제로 하는 물체를 나타내는 하나의 화상이 쿼리(query)로서 주어졌을 때, 컴퓨터가 상기 추출 공정과 동일한 공정으로 상기 쿼리로부터 복수의 쿼리 국소 기술자를 추출하고, 상기 스칼라 양자화 공정과 동일한 공정으로 각 쿼리 국소 기술자를 양자화하고, 상기 화상 데이터베이스에 등록된 벡터 중에서 각 쿼리 국소 기술자의 근방 벡터로서의 벡터를 상기 근사 최근방 탐색의 알고리즘을 사용하여 검색하고, 상기 근방 벡터에 부가된 화상 식별자를 취득하고, 취득된 화상 식별자에 기초하여 문제로 하는 물체를 나타내는 적어도 하나의 화상을 결정할 수 있도록 각 벡터의 등록을 행하고,
상기 스칼라 양자화 공정은 각 벡터의 차원을 소정 비트수의 스칼라값으로 양자화하는 물체 인식용 화상 데이터베이스의 작성 방법.
청구항 1에 있어서,
상기 스칼라 양자화 공정은 각 벡터의 차원을 2 비트 이하의 스칼라값으로 양자화하는 방법.
청구항 1 또는 청구항 2에 있어서,
상기 등록 공정은 (1) 양자화된 각 벡터에 소정의 해쉬(hash) 함수를 적용하여 해쉬표의 빈(bin) 참조용의 인덱스값을 산출하고, (2) 양자화된 벡터의 각 차원과 부가된 화상 식별자를, 산출된 인덱스값으로 참조되는 빈에 하나의 엔트리로서 등록하고, (3) 동일한 빈에 등록된 엔트리의 수가 문턱값을 넘은 경우, 그 빈에 등록된 모든 엔트리를 삭제하고 또한 그 빈에 그 후 엔트리가 등록되지 않게 처리하여 각 벡터를 등록하는 방법.
청구항 3에 있어서,
상기 등록 공정은 상기 컴퓨터가 상기 근방 벡터를 검색하여 상기 화상을 결정할 수 있도록 각 벡터를 등록하고,
상기 컴퓨터는 양자화된 벡터의 차원으로부터 상기 인덱스값을 산출하고, 추가로 1 이상의 양자화된 벡터의 차원의 값의 이웃 값으로부터 1 이상의 인덱스값을 산출하고, 그러한 산출된 인덱스값으로 참조되는 복수의 빈에 등록된 벡터 중에서 상기 근방 벡터를 검색하는 방법.
청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
상기 근사 최근방 탐색의 알고리즘은
각 쿼리 국소 기술자와, 산출된 인덱스값으로 참조되는 빈에 등록된 벡터의 거리를 계산하고, 소정의 거리 내에 있는 1 이상의 벡터 또는 최단 거리에 있는 벡터를 특정하는 처리를 포함하는 방법.
화상 데이터베이스에 등록되어야 할 화상이며 물체를 나타내는 화상으로부터, 그 화상의 각 소의 국소적인 특징을 각각 표현하는 벡터를 복수의 국소 기술자로서 추출하는 특징 추출부와,
상기 벡터의 차원마다 스칼라 양자화를 행하는 스칼라 양자화부와,
상기 화상과 그에 대응하는 복수의 벡터를 상기 화상 데이터베이스에 등록하는 공정으로서, 상기 스칼라 공정에서 양자화된 각 벡터를, 근사 최근방 탐색을 실행할 수 있도록, 또한 각 벡터가 추출된 화상을 특정하는 화상 식별자가 각각 부가되도록 체계화하여 등록하는 등록부와,
복수의 화상이 상기 화상 데이터베이스에 등록되고, 문제로 하는 물체를 나타내는 하나의 화상이 쿼리로서 주어졌을 때, 상기 추출부가 등록되어야 할 화상과 동일하게 상기 쿼리로부터 복수의 쿼리 국소 기술자를 추출하고, 상기 스칼라 양자화부가 등록되어야 할 화상과 동일하게 각 쿼리 국소 기술자를 양자화한 후, 상기 화상 데이터베이스에 등록된 벡터 중에서 각 쿼리 국소 기술자의 근방 벡터로서의 벡터를 상기 근사 최근방 탐색의 알고리즘을 사용하여 검색하고, 상기 근방 벡터에 부가된 화상 식별자를 취득하고, 취득된 화상 식별자에 기초하여 문제로 하는 물체를 나타내는 적어도 하나의 화상을 결정하는 검색부를 구비하고,
상기 스칼라 양자화 공정은 각 벡터의 차원을 소정 비트수의 스칼라값으로 양자화하는 물체 인식용 화상 데이터베이스의 처리 장치.
화상 데이터베이스에 등록되어야 할 화상이며 물체를 나타내는 화상으로부터, 그 화상의 각 소의 국소적인 특징을 각각 표현하는 벡터를 복수의 국소 기술자로서 추출하는 특징 추출부와,
상기 벡터의 차원마다 스칼라 양자화를 행하는 스칼라 양자화부와,
상기 화상과 그에 대응하는 복수의 벡터를 상기 화상 데이터베이스에 등록하는 공정으로서, 상기 스칼라 공정에서 양자화된 각 벡터를, 근사 최근방 탐색을 실행할 수 있도록, 또한 각 벡터가 추출된 화상을 특정하는 화상 식별자가 각각 부가되도록 체계화하여 등록하는 등록부와,
복수의 화상이 상기 화상 데이터베이스에 등록되고, 문제로 하는 물체를 나타내는 하나의 화상이 쿼리로서 주어졌을 때, 상기 추출부가 등록되어야 할 화상과 동일하게 상기 쿼리로부터 복수의 쿼리 국소 기술자를 추출하고, 상기 스칼라 양자화부가 등록되어야 할 화상과 동일하게 각 쿼리 국소 기술자를 양자화한 후, 상기 화상 데이터베이스에 등록된 벡터 중에서 각 쿼리 국소 기술자의 근방 벡터로서의 벡터를 상기 근사 최근방 탐색의 알고리즘을 사용하여 검색하고, 상기 근방 벡터에 부가된 화상 식별자를 취득하고, 취득된 화상 식별자에 기초하여 문제로 하는 물체를 나타내는 적어도 하나의 화상을 결정하는 검색부
의 각 부로서 컴퓨터를 기능시키고,
상기 스칼라 양자화 공정은 각 벡터의 차원을 소정 비트수의 스칼라값으로 양자화하는 물체 인식용 화상 데이터베이스의 처리 프로그램.