KR101244934B1 - 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체 - Google Patents
코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체 Download PDFInfo
- Publication number
- KR101244934B1 KR101244934B1 KR1020110129896A KR20110129896A KR101244934B1 KR 101244934 B1 KR101244934 B1 KR 101244934B1 KR 1020110129896 A KR1020110129896 A KR 1020110129896A KR 20110129896 A KR20110129896 A KR 20110129896A KR 101244934 B1 KR101244934 B1 KR 101244934B1
- Authority
- KR
- South Korea
- Prior art keywords
- vector
- area
- image
- average value
- feature descriptor
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
Abstract
코드북을 이용한 객체 인식 방법이 개시된다. 본 객체 인식 방법은, 어도 하나의 객체를 포함하는 이미지 영역에서 지역 특징 기술자를 검출하는 단계, 검출된 지역 특징 기술자를 코드북에 적용하여 코드 벡터를 생성하는 단계, 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 생성된 코드 벡터의 응답의 크기를 조절함으로써 생성된 코드 벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 단계, 생성된 단일 벡터를 이용하여 적어도 하나의 객체를 인식하는 단계를 포함한다.
Description
본 발명은 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체에 관한 것으로 보다 상세하게는 적어도 하나의 객체를 포함하는 이미지 영역에서 객체의 인식율을 향상시키는 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체에 관한 것이다.
주어진 이미지의 적합한 클래스(여기서 이미지는 식물 클래스, 동물 클래스 등과 같이 다양한 클래스일 수 있다.)를 찾는 이미지 분류(image classification)는 컴퓨터 비전 분야의 주요 문제이다. 이러한 이미지 분류 기술은 웹 콘텐츠 분석, 이미지 검색, 무인 감시 시스템과 같은 응용 분야에서 핵심적 기능을 담당한다.
이에 따라 종래에는 이미지 분류를 위해 다양한 접근 방법이 제안되었고, 그 중 코드북(codebook)에 기반한 분류 방법이 최근 여러 공용 객체 데이터베이스를 대상으로 한 실험에서 주목할 만한 성능을 보여왔다.
그러나, 기존의 코드북 기반 방법은 이미지상의 모든 지역 특징 기술자를 동일한 중요도로 처리하기 때문에, 인식 대상이 되는 객체가 뿐 아니라 배경으로부터 얻어진 코드 역시 동일한 특징으로 간주함으로써 객체 인식 성능을 낮추는 문제점이 있었다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 시각적 중요도에 따라 각 코드 벡터의 응답을 조절하는 돌출맵 정보를 이용함으로써, 배경과 같이 불필요한 부분에서 계산된 코드가 객체 인식에 미치는 영향을 줄임으로써 이미지 영역에서 객체의 인식율을 향상시키는 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체를 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 코드북을 이용한 객체 인식 방법은, 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출하는 단계, 상기 검출된 지역 특징 기술자를 상기 코드북에 적용하여 코드 벡터를 생성하는 단계, 상기 지역 특징 기술자를 검출한 상기 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 상기 생성된 코드 벡터의 응답의 크기를 조절함으로써 상기 생성된 코드 벡터를 상기 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 단계, 상기 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식하는 단계를 포함한다.
그리고, 상기 돌출맵은 상기 이미지의 각 영역 별 시각적 중요도를 맵의 형태로 나타낸 것일 수 있다.
또한, 상기 단일 벡터로 생성하는 단계는, 상기 코드 벡터와 상기 돌출맵 영역의 평균 값을 하기의 수식에 적용하여 상기 단일 벡터를 생성하며,
여기서 는 단일 벡터, 는 상기 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균 값, 는 코드 벡터, 는 상기 돌출맵 영역의 평균 값을 기 설정됨 범위 내로 조정하기 위한 함수, 상기 코드 벡터의 개수일 수 있다.
그리고, 상기 코드 벡터와 상기 돌출맵 영역의 평균 값을 하기의 수식에 적용하여 상기 단일 벡터를 생성하며,
여기서 는 단일 벡터, 는 상기 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균 값, 는 코드 벡터, 는 상기 돌출맵 영역의 평균 값을 기 설정됨 범위 내로 조정하기 위한 함수, 상기 코드 벡터의 개수일 수 있다.
그리고, 상기 지역 특징 기술자를 검출하는 단계는, HOG(Histograms of Oriented Gradients) 또는 SIFT(Scalar Invariant Feature Transform)를 이용하여 검출하고, 상기 코드 벡터를 생성하는 단계는, SC(Sparse Coding), LCC(Local Coordinate Coding) 또는 LLC(Locality-constrained Linear Coding)을 이용하여 생성하며, 상기 단일 벡터로 생성하는 단계는, 히스토그램화 또는 풀링(pooling)을 이용하여 생성할 수 있다.
한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 코드북을 이용한 객체 인식 장치는, 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출부, 상기 검출된 지역 특징 기술자를 상기 코드북에 적용하여 코드 벡터를 생성하고, 상기 지역 특징 기술자를 검출한 상기 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 상기 생성된 코드 벡터의 응답의 크기를 조절함으로써 상기 생성된 코드 벡터를 상기 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 생성부, 상기 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식하는 인식부를 포함한다.
그리고, 상기 돌출맵은 상기 이미지의 각 영역 별 시각적 중요도를 맵의 형태로 나타낸 것일 수 있다.
또한, 상기 생성부는 상기 코드 벡터와 상기 돌출맵 영역의 평균 값을 하기의 수식에 적용하여 상기 단일 벡터를 생성하며,
여기서 는 단일 벡터, 는 상기 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균 값, 는 코드 벡터, 는 상기 돌출맵 영역의 평균 값을 기 설정됨 범위 내로 조정하기 위한 함수, 상기 코드 벡터의 개수일 수 있다.
그리고, 상기 생성부는, 상기 코드 벡터와 상기 돌출맵 영역의 평균 값을 하기의 수식에 적용하여 상기 단일 벡터를 생성하며,
여기서 는 단일 벡터, 는 상기 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균 값, 는 코드 벡터, 는 상기 돌출맵 영역의 평균 값을 기 설정됨 범위 내로 조정하기 위한 함수, 상기 코드 벡터의 개수일 수 있다.
그리고, 상기 검출부는, HOG(Histograms of Oriented Gradients) 또는 SIFT(Scalar Invariant Feature Transform)를 이용하여 검출하고, 상기 생성부는, SC(Sparse Coding), LCC(Local Coordinate Coding) 또는 LLC(Locality-constrained Linear Coding)을 이용하여 생성하며, 상기 생성부는, 히스토그램화 또는 풀링(pooling)을 이용하여 생성할 수 있다.
한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 코드북을 이용한 객체 인식 방법을 수행하기 위한 프로그램 코드가 기록된 기록 매체에 있어서, 상기 객체 인식 방법은, 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출하는 단계, 상기 검출된 지역 특징 기술자를 상기 코드북에 적용하여 코드 벡터를 생성하는 단계, 상기 지역 특징 기술자를 검출한 상기 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 상기 생성된 코드 벡터의 응답의 크기를 조절함으로써 상기 생성된 코드 벡터를 상기 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 단계, 상기 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식하는 단계를 포함한다.
도 1은 본 발명의 일 실시 예에 따른 객체 인식 장치를 나타낸 블록도,
도 2는 돌출맵을 설명하기 위한 도면,
도 3은 본 발명의 일 실시 예에 따른 객체 인식 방법을 나타낸 흐름도,
도 4는 도 3을 구체적으로 설명하기 위한 흐름도이다.
도 2는 돌출맵을 설명하기 위한 도면,
도 3은 본 발명의 일 실시 예에 따른 객체 인식 방법을 나타낸 흐름도,
도 4는 도 3을 구체적으로 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 구체적으로 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 객체 인식 장치를 나타낸 블록도이다. 도 1을 참조하면 객체 인식 장치(100)는 검출부(110), 생성부(120), 인식부(130)를 포함한다. 본 발명의 일 실시 예에 따른 객체 인식 장치(100)는 코드북(codebook)을 이용하여 객체를 인식할 수 있다.
여기서 코드북은 지역 특징 기술자를 효과적으로 표현하기 위하여 구성된 지역 특징 기술자의 대표 집합을 의미한다. 상술한 코드북은 보통 많은 지역 특징 기술자에 대해 k-means 군집화(clustering)와 같은 군집화 과정을 수행함으로써 얻을 수 있다.
본 발명의 일 실시 예에 따른 객체 인식 장치(100)는 미리 많은 지역 특징 기술자에 대해 군집화 과정을 수행함으로써 코드북을 생성하고, 상기 생성된 코드북을 기 저장하고 있음을 전제로 설명하기로 한다.
검출부(110) 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출한다.
구체적으로 검출부(110)는 HOG(Histograms of Oriented Gradients) 또는 SIFT(Scalar Invariant Feature Transform)를 이용하여 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출할 수 있다. 여기서 HOG 및 SIFT 는 당해 기술분야에서 널리 알려진 기술로서 구체적인 설명은 생략하기로 한다.
지역 특징 기술자를 검출하기 위하여 SIFT(Scalar Invariant Feature Transform)를 이용한 경우를 예로 들어 설명하기로 한다.
SIFT는 이미지에서 특징들의 세트(set of image features)를 생성하기 위해 2가지 계산 단계를 거친다. 1 단계는 이미지 영역에서 중요 포인트를 어떻게 선택할 것인지를 결정한다. 여기서, 선택된 중요 픽셀을 '특징점(feature point)'라 한다. 2 단계는 이미지 영역에서 의미 있는 지역적 속성 들(local properties)을 나타낼 수 있도록 상기 선택된 특징점들에 대한 적절한 기술자(descriptor)를 정의한다. 여기서, 기술자는 '지역 특징 기술자'라 한다.
상기 지역 특징 기술자는 4개 값으로 구성된 특징점에 대한 128 차원 벡터인 지역 특징 기술자(128 dimensional vecter descriptor)로 대표될 수 있다. 여기서 4개 값으로 구성된 특징점에 대한 128차원 벡터인 지역 특징 기술자는 특징이 선택된 위치를 나타내는 로커스(locus), 스케일(scale)(σ), 방향 및 기울기일 수 있다.
즉 검출부(110)는 적어도 하나의 객체를 포함하는 이미지에서 상술한 지역 특징 기술자를 검출한다.
생성부(120)는 검출된 지역 특징 기술자를 코드북에 적용하여 코드 벡터를 생성하고, 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 생성된 코드 벡터의 응답의 크기를 조절함으로써 생성된 코드 벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성한다.
구체적으로 생성부(120)는 Hard vector-quantization, SC(Sparse Coding), LCC(Local Coordinate Coding) 또는 LLC(Locality-constrained Linear Coding)방식을 이용하여 검출된 지역 특징 기술자를 코드북에 적용하며, 그 결과로 코드 벡터를 생성할 수 있다.
즉 하나의 이미지에서 추출한 N개의 D차원 지역 특징 기술자 집합을 라 하고, M개의 D차원 코드워드(codeword)로 구성된 코드북 이 주어졌을 때, 하나의 이미지에 대한 코드북의 응답인 코드는 M 차원의 N개의 코드 벡터를 갖으며, 코드는 같이 표현된다. 여기서 생성된 코드 벡터는 코드북에 적용 방식, 즉 Hard vector-quantization, SC(Sparse Coding), LCC(Local Coordinate Coding) 또는 LLC(Locality-constrained Linear Coding)방식에 따라 상이한 특징을 가진다.
Hard vector-quantization은 검출된 지역 특징 기술자를 하기의 수학식 1을 이용하여 코드북에 적용하여 코드 벡터를 생성할 수 있다.
즉 hard vector-quantization 은 검출된 지역 특징 기술자에 대해 그것과 가장 가까운 단 하나의 코드워드로 해당 지역 특징 기술자를 표현한다.
SC(Sparse Coding)는 검출된 지역 특징 기술자를 하기의 수학식 2를 이용하여 코드북에 적용하여 코드 벡터를 생성할 수 있다.
즉 SC(Sparse Coding)에서는 hard vector-quantization의 오류를 줄이기 위해, 오직 하나의 코드워드 만이 1의 값을 가지는 제약사항, 즉 을 사용하는 대신 같은 희소 정규화 항(sparsity regularization term)으로 대체하여 희소한 코드 값을 구한다.
LCC(Local Coordinate Coding)는 검출된 지역 특징 기술자를 하기의 수학식 3를 이용하여 코드북에 적용하여 코드 벡터를 생성할 수 있다.
즉 LCC (Local Coordinate Coding)에서는 지역성이 희소성보다 중요함을 강조하며, 지역 특징 기술자와 코드워드 사이의 거리와 함께 희소성을 정규화 항으로 고려한다.
LLC(Locality-constrained Linear Coding)는 검출된 지역 특징 기술자를 하기의 수학식 4를 이용하여 코드북에 적용하여 코드 벡터를 생성할 수 있다.
즉 LLC (Locality-constrained Linear coding)는 LCC (Local Coordinate Coding)의 계산 비용 문제를 해결하기 위해 검출된 지역 특징 기술자와 코드워드 사이의 거리만을 고려한다.
또한 생성부(120)는 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 생성된 코드 벡터의 응답의 크기를 조절함으로써 생성된 코드벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성할 수 있다.
여기서 돌출맵은 이미지의 각 영역 별 시각적 중요도를 맵의 형태로 나타낸 것일 수 있다. 이에 대해서는 도 2를 참조하여 설명하기로 한다.
도 2는 돌출맵을 설명하기 위한 도면이다. 돌출맵은 이미지의 각 영역 별 시각적 중요도를 맵의 형태로 나타낸다. 인간 시각의 선택적 주의 집중 이론은 인간의 시각 체계를 통해 입력되는 수많은 영상 중 의미 있는 일부 특징만을 선택적으로 선별하여 주의를 특정 객체에 집중시킴으로써, 보다 빠르고 많은 처리를 수행하게 된다는 이론이다. 이러한 뇌의 선택적 주의 집중에 대한 연구는 생물학, 인지공학, 컴퓨터 비전 분야 등에서 활발히 진행되었다. 특히, 이를 바탕으로 하는 돌출맵(Saliency Map)은 영상에 대해 영상 각 영역에서의 시각적 중요도를 맵(map)의 형태로 낸다. 돌출맵에서의 시각적 중요도는 도 2에서와 같이 시각적인 중요성이 높은 전경(foreground)에서는 대체로 높은값을 가지며, 중요성이 낮은 배경(background)에서는 낮은값을 가지는 형태로 나타난다.
이러한 돌출맵을 생성하는 방법은 당해 기술분야에서 널리 알려진 기술로서 돌출맵은 입력된 이미지의 R(Red), G(Green), B(Ble) 값을 기초로 입력된 영상에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하고, 추출된 이미지 정보에 대한 중앙-주변 창(Center-surround Difference: CSD) 및 정규화 처리를 수행하여 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵을 생성하며, 그리고, 출력된 특징맵에 대한 독립 성분해석(Independent component analysis)을 수행하여 돌출맵(SM: Salient Map)을 생성할 수 있다.
여기서 생성부(120)는 코드 벡터와 돌출맵 영역의 평균값을 이용하여 히스토그램화 또는 풀링(pooling)과정을 통하여 생성된 코드 벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성할 수 있다.
즉 생성부(120)는 코드 벡터와 돌출맵 영역의 평균 값을 하기의 수학식 5에 적용하여 단일 벡터를 생성할 수 있다.
여기서 는 단일 벡터, 는 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균 값, 는 코드 벡터, 는 돌출맵 영역의 평균 값을 기 설정됨 범위 내로 조정하기 위한 함수, 코드 벡터의 개수를 의미한다. 여기서 돌출맵 영역의 평균 값을 기 설정된 범위 내로 조정하는 함수는, 생성된 단일 벡터의 지나친 정보 손실을 막기 위해 가 0 이상의 값을 가지도록 상수 값을 더해주는 함수를 사용할 수 있다.
즉 생성부(120)는 생성된 코드 벡터와 돌출맵 영역의 평균 값을 곱한 결과를 코드 벡터의 개수 만큼 합산하여 코드북과 동일한 차원을 갖는 이미지에 대한 단일 벡터를 생성할 수 있다.
또한 생성부(120)는 코드 벡터와 돌출맵 영역의 평균 값을 하기의 수학식 6에 적용하여 단일 벡터를 생성할 수 있다.
여기서 는 단일 벡터, 는 상기 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균 값, 는 코드 벡터, 는 상기 돌출맵 영역의 평균 값을 기 설정됨 범위 내로 조정하기 위한 함수, 코드 벡터의 개수를 의미한다. 또한 max 연산자는 생성된 코드 벡터와 돌출맵 영역의 평균 값을 곱한 결과의 최대값을 반환하는 연산자다. 즉 생성된 코드 벡터와 돌출맵 영역의 평균 값을 곱한 결과는 N개의 벡터를 갖는데, max 연산자는 각 벡터의 제1 원소들 중 가장 큰 값을 단일 벡터의 제1원소로, 각 벡터의 제2 원소들 중 가장 큰 값을 단일 벡터의 제2원소로 반환하고, 이를 각 벡터의 마지막 원소까지 반환하여 단일 벡터를 생성한다.
여기서 돌출맵 영역의 평균 값을 기 설정된 범위 내로 조정하는 함수는, 생성된 단일 벡터의 지나친 정보 손실을 막기 위해 가 0 이상의 값을 가지도록 상수 값을 더해주는 함수를 사용할 수 있다.
즉 생성부(120)는 생성된 코드 벡터와 돌출맵 영역의 평균 값을 곱한 결과 중 응답이 가장 큰 코드 벡터로서 이미지에 대한 단일 벡터를 생성할 수 있다.
구체적으로, 지역 특징 기술자에 대응되는 이미지 영역은 다음과 같다. 즉 이미지에서 계산한 지역 특징 기술자는 기술자가 추출된 이미지의 가로, 세로 좌표와 크기(scale)로 구성되는 특징점(feature point), 를 가진다. 여기서, 에 대응하는 이미지 영역 는 에 의해 정의되는 영역으로 지역 특징 기술자를 추출한 이미지 영역이다.
즉 기존의 코드북 기반 방법은 이미지상의 모든 지역 특징 기술자를 동일한 중요도로 처리하기 때문에, 인식 대상이 되는 객체가 뿐 아니라 배경으로부터 얻어진 코드 역시 동일한 특징으로 간주함으로써 객체 인식 성능을 낮추는 문제점이 있었다.
이에 따라 본 발명의 일 실시 예에 따른 객체 인식 장치는, 돌출맵을 통하여 계산한 시각적 중요도를 각 코드 벡터에 반영할 수 있다. 그 결과 시각적 중요도에 따라 각 코드 벡터의 응답을 조절하는 돌출맵 정보를 이용함으로써, 배경과 같이 불필요한 부분에서 계산된 코드가 객체 인식에 미치는 영향을 줄임으로써 이미지 영역에서 객체의 인식율을 향상시킬 수 있다.
인식부(130) 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식한다. 이렇게 인식된 객체는 SVM(Support Vector Machine) 또는 Boosting과 같은 분류기를 사용하여 학습하고 분류를 수행함으로써 이미지를 분류(classification)할 수 있다.
이하, 돌출맵을 통하여 계산한 시각적 중요도를 각 코드 벡터에 반영한 효과를 설명하기로 한다.
본원 발명의 일 실시 예에 따른 객체 인식 장치의 효과를 설명함에 있어서, Caltech101, Caltech256 데이터베이스를 이용하여 검증하였다. 본 실험에서 16x16 크기의 SIFT 기술자를 각 특징점에 대한 지역 특징 기술자로 사용하였으며, 각 특징점은 이미지에서 6 pixel 간격으로 조밀하게(dense) 선택하였다. 본 실험에서 코드 벡터를 생성하기 위하여 LLC 적용하였다. 또한 돌출맵을 사용하였으며, 이미지를 영역 크기에 따라 여러 단계로 나누어 표현하는 SPM(Spatial Pyramid Matching)을 함께 적용하였다. 마지막으로 풀링 과정을 거친 코드 벡터는 선형 SVM인 Liblinear SVM 통하여 분류하였다.
- Caltech 101
Caltech101 database는 101개의 클래스(추가로 하나의 background class)에 속한 총 9144개의 이미지로 구성되어 있다. 각 클래스는 꽃, 표범, 비행기와 같은 다양한 객체로 구성되며, 각 샘플 수는 31에서 800으로 변화가 심하기에 각 클래스의 인식률의 평균을 취한 평균 인식률(average precision)을 평가의 기준으로 삼았다. 본 실험에서는 K-mean 군집화를 통하여 얻은 1024개의 코드워드의 집합을 코드북으로 사용하였고 SPM은 1x1, 2x2, 4x4의 3단계로 구성하였다. 모든 이미지는 가로 세로의 최대 크기가 300 이하가 되도록 비율을 유지하는 형태로 크기를 조정하였다. 각 실험은 무작위로 선택한 5개에서 30개까지 이미지를 학습 데이터로, 나머지 이미지를 테스트 데이터로 사용하였다.
표 1은 Caltech 101 데이터베이스에 대해 LLC에 max pooling을 적용한 경우와 본 발명이 제안하는 방법 중 LLC에 수학식 6을 적용하는 경우를 비교한 표이다.
학습 이미지 수 | 5 | 10 | 15 | 20 | 25 | 30 |
LLC | 48.43 | 58.92 | 64.06 | 67.40 | 69.50 | 71.65 |
제안하는 방법 | 51.2 | 61.15 | 65.83 | 69.05 | 70.71 | 72.73 |
제안한 방법이 LLC에 max pooling을 적용한 경우에 비해 1~3% 정도 성능이 향상된 것을 볼 수 있으며, 학습 데이터가 줄어들수록 제안하는 방법에 의한 인식 성능이 올라간다. 이는 학습 데이터가 적을수록 시각적으로 중요도가 낮은 영역 (예를 들어 배경(background))의 코드 응답 값이 미치는 영향이 크고, 제안하는 방법은 이러한 중요도가 낮은 코드 응답 값의 영향을 효과적으로 줄여주었기 때문이다.
표 2는 Caltech 101 데이터베이스에 대해 LLC에 sum pooling을 적용한 경우와 본 발명이 제안하는 방법중 LLC에 수학식 5를 적용하는 경우를 비교한 표이다.
학습 이미지 수 | 5 | 10 | 15 | 20 | 25 | 30 |
LLC | 27.72 | 37.44 | 43.08 | 47.20 | 50.37 | 53.03 |
제안하는 방법 | 36.92 | 47.83 | 53.29 | 56.86 | 59.47 | 62.22 |
표 2를 참조하면, 제안하는 방법의 성능 향상 효과가 LLC에 sum pooling을 적용한 경우보다 훨씬 효과적인 것을 알 수 있다.
- Caltech 256
Caltech 256 데이터베이스는 256개의 클래스의 총 30,607개의 이미지로 구성된다. 이 데이터베이스는 기존의 Caltech 101 데이터 베이스에 비해 객체의 크기, 자세, 위치 면에서 더 큰 변화를 가진다. 이번 실험에서는 K-means 군집화를 통하여 얻은 4086개의 코드워드의 집합을 코드북으로 사용하였다. 각 실험은 무작위로 선택한 5개에서 60개까지 이미지를 학습 데이터로, 각 클래스의 나머지 25개의 이미지를 테스트 데이터로 사용하였다. 나머지 세부 사항은 Caltech 101과 동일하게 설정하였다.
표 3은 Caltech 256 데이터베이스에 대해 LLC에 max pooling을 적용한 경우와 본 발명이 제안하는 방법중 LLC에 수학식 6를 적용하는 경우를 비교한 표이다.
학습 이미지 수 | 5 | 15 | 30 | 45 | 60 |
LLC | 19.47 | 30.12 | 36.54 | 39.79 | 42.39 |
제안하는 방법 | 20.66 | 31.25 | 37.47 | 40.77 | 43.17 |
제안하는 방법이 LLC에 max pooling을 적용한 경우에 비해 1% 가량 성능이 향상된 것을 볼 수 있으며, Caltech 101에서와 유사하게 학습 이미지 수가 줄어 들수록 인식 성능이 올라가는 것을 볼 수 있다.
상술한 바와 같이, 본 발명의 일 실시 예에 따른 객체 인식 장치 시각적 중요도에 따라 각 코드 벡터의 응답을 조절하는 돌출맵 정보를 이용함으로써, 배경과 같이 불필요한 부분에서 계산된 코드가 객체 인식에 미치는 영향을 줄임으로써 이미지 영역에서 객체의 인식율을 향상시킬 수 있다.
도 3은 본 발명의 일 실시 예에 따른 객체 분류 방법을 나타낸 흐름도이다. 도 3을 참조하면, 먼저 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출한다(S301). 그리고 검출된 지역 특징 기술자를 코드북에 적용하여 코드 벡터를 생성한다(S302). 그리고 지역 특징 기술자를 검출한 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 생성된 코드 벡터의 응답의 크기를 조절함으로써 생성된 코드 벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성한다(S303). 생성된 단일 벡터를 이용하여 적어도 하나의 객체를 인식한다(S304).
도 4는 도 3을 구체적으로 설명하기 위한 흐름도이다. 도 4를 참조하면, 먼저 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출한다(S401). 여기서 지역 특징 기술자를 검출하기 위하여 HOG(Histograms of Oriented Gradients) 또는 SIFT(Scalar Invariant Feature Transform)를 이용하여 적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출할 수 있다.
그리고 검출된 지역 특징 기술자를 코드북에 적용하여 코드 벡터를 생성한다(S402). 여기서 코드 벡터를 생성하기 위하여, Hard vector-quantization, SC(Sparse Coding), LCC(Local Coordinate Coding) 또는 LLC(Locality-constrained Linear Coding)방식을 이용하여 검출된 지역 특징 기술자를 코드북에 적용하며, 그 결과로 코드 벡터를 생성할 수 있다.
그리고 지역 특징 기술자를 검출한 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 생성된 코드 벡터의 응답의 크기를 조절함으로써 생성된 코드 벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성한다(S403). 여기서 단일 벡터를 생성하기 위하여, 도 4와 같이 생성된 돌출맵을 이용할 수 있다. 즉 상술한 수학식 5, 6, 7을 이용하여 생성된 코드 벡터를 코드북과 동일한 차원을 갖는 단일 벡터로 생성할 수 있다.
생성된 단일 벡터를 이용하여 적어도 하나의 객체를 인식한다(S304). 이렇게 인식된 객체는 SVM(Support Vector Machine) 또는 Boosting과 같은 분류기를 사용하여 학습하고 분류를 수행함으로써 이미지를 분류(classification)할 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 객체 인식 방법은 프로그램 코드로 구현되어 다양한 유형의 기록 매체에 저장될 수 있다. 구체적으로는, RAM(Random Access Memory), 플레시메모리, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electronically Erasable and Programmable ROM), 레지스터, 하드디스크, 리무버블 디스크, 메모리 카드, USB 메모리, CD-ROM 등과 같이, 단말기에서 판독 가능한 다양한 유형의 기록 매체에 저장되어 있을 수 있다.
이에 따라, 이러한 기록 매체가 연결되거나 탑재되는 장치에서 객체 인식 방법이 실행될 수 있도록, 프로그램이 설치될 수 있다.
한편, 상술한 바와 같이 본 발명의 다양한 실시 예에 따르면 객체 인식 장치 시각적 중요도에 따라 각 코드 벡터의 응답을 조절하는 돌출맵 정보를 이용함으로써, 배경과 같이 불필요한 부분에서 계산된 코드가 객체 인식에 미치는 영향을 줄임으로써 이미지 영역에서 객체의 인식율을 향상시킬 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 객체 분류 장치 110 : 검출부
120 : 생성부 130 : 분류부
120 : 생성부 130 : 분류부
Claims (11)
- 코드북을 이용한 객체 인식 방법에 있어서,
적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출하는 단계;
상기 검출된 지역 특징 기술자를 상기 코드북에 적용하여 코드 벡터를 생성하는 단계;
상기 지역 특징 기술자를 검출한 상기 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 상기 생성된 코드 벡터의 응답의 크기를 조절함으로써 상기 생성된 코드 벡터를 상기 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 단계;
상기 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식하는 단계;를 포함하는 객체 인식 방법. - 제1항에 있어서,
상기 돌출맵은 상기 이미지의 각 영역 별 시각적 중요도를 맵의 형태로 나타낸 것을 특징으로 하는 객체 인식 방법. - 코드북을 이용한 객체 인식 장치에 있어서,
적어도 하나의 객체를 포함하는 이미지에서 지역 특징 기술자를 검출부;
상기 검출된 지역 특징 기술자를 상기 코드북에 적용하여 코드 벡터를 생성하고, 상기 지역 특징 기술자를 검출한 상기 이미지의 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 상기 생성된 코드 벡터의 응답의 크기를 조절함으로써 상기 생성된 코드 벡터를 상기 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 생성부;
상기 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식하는 인식부;를 포함하는 객체 인식 장치. - 제6항에 있어서,
상기 돌출맵은 상기 이미지의 각 영역 별 시각적 중요도를 맵의 형태로 나타낸 것을 특징으로 하는 객체 인식 장치. - 코드북을 이용한 객체 인식 방법을 수행하기 위한 프로그램 코드가 기록된 기록 매체에 있어서,
상기 객체 인식 방법은,
적어도 하나의 객체를 포함하는 이미지 영역에서 지역 특징 기술자를 검출하는 단계;
상기 검출된 지역 특징 기술자를 상기 코드북에 적용하여 코드 벡터를 생성하는 단계;
상기 지역 특징 기술자를 검출한 이미지 영역에 대응되는 돌출맵 영역의 평균값을 이용하여 상기 생성된 코드 벡터의 응답의 크기를 조절함으로써 상기 생성된 코드 벡터를 상기 코드북과 동일한 차원을 갖는 단일 벡터로 생성하는 단계;
상기 생성된 단일 벡터를 이용하여 상기 적어도 하나의 객체를 인식하는 단계;를 포함하는 것을 특징으로 하는 기록 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110129896A KR101244934B1 (ko) | 2011-12-06 | 2011-12-06 | 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110129896A KR101244934B1 (ko) | 2011-12-06 | 2011-12-06 | 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101244934B1 true KR101244934B1 (ko) | 2013-03-19 |
Family
ID=48182131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110129896A KR101244934B1 (ko) | 2011-12-06 | 2011-12-06 | 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101244934B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101442042B1 (ko) | 2013-06-21 | 2014-09-23 | 한국과학기술원 | 보완적 특징점 기반 기술자를 이용한 3차원 객체인식방법 및 장치 |
KR101477051B1 (ko) * | 2014-01-02 | 2014-12-30 | 연세대학교 산학협력단 | 객체 인식을 위한 이미지 코드화 방법 |
KR101533925B1 (ko) * | 2014-05-20 | 2015-07-03 | 한양대학교 에리카산학협력단 | 적외선 영상에서 소형 표적 검출 방법 및 그 장치 |
KR20190082593A (ko) * | 2018-01-02 | 2019-07-10 | 중앙대학교 산학협력단 | 영상 처리에 있어서의 객체 재인식을 위한 장치 및 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002304626A (ja) | 2001-02-02 | 2002-10-18 | Matsushita Electric Ind Co Ltd | データ分類装置および物体認識装置 |
KR20030078932A (ko) * | 1999-07-05 | 2003-10-08 | 미쓰비시덴키 가부시키가이샤 | 화상 중의 오브젝트를 검색하는 방법, 시스템, 기계판독가능한 매체 및 화상 검색 방법 |
KR100972849B1 (ko) | 2009-10-16 | 2010-07-28 | 주식회사 쓰리디누리 | 객체 인식 방법 |
KR20120089504A (ko) * | 2010-12-10 | 2012-08-13 | 경북대학교 산학협력단 | 객체 인식 장치 및 객체 인식 방법 |
-
2011
- 2011-12-06 KR KR1020110129896A patent/KR101244934B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030078932A (ko) * | 1999-07-05 | 2003-10-08 | 미쓰비시덴키 가부시키가이샤 | 화상 중의 오브젝트를 검색하는 방법, 시스템, 기계판독가능한 매체 및 화상 검색 방법 |
JP2002304626A (ja) | 2001-02-02 | 2002-10-18 | Matsushita Electric Ind Co Ltd | データ分類装置および物体認識装置 |
KR100972849B1 (ko) | 2009-10-16 | 2010-07-28 | 주식회사 쓰리디누리 | 객체 인식 방법 |
KR20120089504A (ko) * | 2010-12-10 | 2012-08-13 | 경북대학교 산학협력단 | 객체 인식 장치 및 객체 인식 방법 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101442042B1 (ko) | 2013-06-21 | 2014-09-23 | 한국과학기술원 | 보완적 특징점 기반 기술자를 이용한 3차원 객체인식방법 및 장치 |
KR101477051B1 (ko) * | 2014-01-02 | 2014-12-30 | 연세대학교 산학협력단 | 객체 인식을 위한 이미지 코드화 방법 |
KR101533925B1 (ko) * | 2014-05-20 | 2015-07-03 | 한양대학교 에리카산학협력단 | 적외선 영상에서 소형 표적 검출 방법 및 그 장치 |
KR20190082593A (ko) * | 2018-01-02 | 2019-07-10 | 중앙대학교 산학협력단 | 영상 처리에 있어서의 객체 재인식을 위한 장치 및 방법 |
KR102044914B1 (ko) | 2018-01-02 | 2019-11-14 | 중앙대학교 산학협력단 | 영상 처리에 있어서의 객체 재인식을 위한 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmad et al. | Object detection through modified YOLO neural network | |
Liu et al. | The treasure beneath convolutional layers: Cross-convolutional-layer pooling for image classification | |
Wu et al. | Blind image quality assessment based on multichannel feature fusion and label transfer | |
CN109918969B (zh) | 人脸检测方法及装置、计算机装置和计算机可读存储介质 | |
Uijlings et al. | Video classification with densely extracted hog/hof/mbh features: an evaluation of the accuracy/computational efficiency trade-off | |
Theriault et al. | Dynamic scene classification: Learning motion descriptors with slow features analysis | |
Sikka et al. | Exploring bag of words architectures in the facial expression domain | |
Wang et al. | Feature context for image classification and object detection | |
EP2701098B1 (en) | Region refocusing for data-driven object localization | |
Moorthy et al. | Statistics of natural image distortions | |
US10373014B2 (en) | Object detection method and image search system | |
US20120154580A1 (en) | Moving object detection method and image processing system for moving object detection | |
Moghaddasi et al. | Improving RLRN image splicing detection with the use of PCA and kernel PCA | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
Souly et al. | Visual saliency detection using group lasso regularization in videos of natural scenes | |
US8503768B2 (en) | Shape description and modeling for image subscene recognition | |
CN106022223B (zh) | 一种高维局部二值模式人脸识别方法及系统 | |
KR101244934B1 (ko) | 코드북을 이용한 객체 인식 장치, 객체 인식 방법 및 기록 매체 | |
Fraz et al. | Mid-level-representation based lexicon for vehicle make and model recognition | |
Zhu et al. | Traffic sign classification using two-layer image representation | |
KR101727833B1 (ko) | 얼굴인식을 위한 판별분석 기반의 복합 특징 벡터 생성 장치 및 방법 | |
CN112784722B (zh) | 基于YOLOv3和词袋模型的行为识别方法 | |
CN104732209B (zh) | 一种室内场景的识别方法及装置 | |
CN110287973B (zh) | 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法 | |
KR101847175B1 (ko) | 객체 인식방법 및 이를 이용한 객체 인식장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160225 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170203 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180306 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20190304 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20200302 Year of fee payment: 8 |