KR20120089504A

KR20120089504A - 객체 인식 장치 및 객체 인식 방법

Info

Publication number: KR20120089504A
Application number: KR1020100126281A
Authority: KR
Inventors: 박혜영; 김동현
Original assignee: 경북대학교 산학협력단
Priority date: 2010-12-10
Filing date: 2010-12-10
Publication date: 2012-08-13
Also published as: KR101174048B1

Abstract

객체 인식 장치 및 객체 인식 방법이 개시된다. 복수의 영상 중 테스트 영상을 인식하는 객체 인식 방법은 (a) 외부로부터 입력받은 복수의 영상 각각에 dense-SIFT(scale invariant feature transform) 알고리즘을 적용하여, 복수의 영상 각각에 대한 특징 기술자들을 산출하는 단계, (b) 복수의 영상에 대한 특징 기술자들을 연결하여, 복수의 영상 각각에 대응하는 벡터들을 생성하는 단계, (c) 벡터들을 행으로 하는 행렬을 구성하고, 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 산출하는 단계, (d) 상기 변환 행렬에 상기 벡터들 각각을 적용하여, 복수의 영상 각각에 대한 저차원 특징 벡터들을 결정하는 단계, (e) 테스트 영상에 (b) 및 (c) 단계를 수행하여 테스트 영상에 대한 벡터를 산출하고, 변환 행렬에 테스트 영상에 대한 벡터를 적용하여 테스트 영상에 대한 저차원 특징 벡터를 결정하는 단계 및 (g) 복수의 영상에 대응하는 저차원 특징 벡터와 테스트 영상에 대한 저차원 특징 벡터를 비교하여, 복수의 영상 중 테스트 영상에 대응하는 영상을 인식하는 단계를 포함한다.

Description

객체 인식 장치 및 객체 인식 방법{Apparatus for recognizing a subject and method using thereof}

본 발명은 객체 인식 장치 및 객체 인식 방법에 관한 것으로, 더욱 상세하게는 영상에 포함된 얼굴을 이용하여 객체를 인식하는 객체 인식 장치 및 객체 인식 방법에 관한 것이다.

전자 기술의 발달에 힘입어, 얼굴인식은 여러 분야에서 다양하게 응용이 가능하게 되었다. 일 예로, 데이터 집합의 통계적 특성을 분석하여 적절한 저차원의 특징을 추출하는 부분공간 분석 방법인 Eigenface 방법([1] M. Truk and A. Pentland, "Eigenface for recognition", Journal of cofnitive neuroscience, vol. 3, No. 1, pp. 71-86. 1991)과 Fisherface 방법([2] P. Belhumeur, J. Hespanha, and D. Kriegman, “Eigenfaces vs. fisherfaces: Recognition using class specific linear projection,” Computer Vision, ECCV'96, pp.43-58)은 잘 알려진 얼굴 인식을 위한 접근 방법들이다. 하지만 이러한 전역적 특징추출 방법이 얼굴 인식에 적용될 때에 있어서 큰 문제점은 얼굴은 가려짐과 조명의 변화에 영향을 받는 강체(rigid object)이기 때문에([3] H.K. Ekenel and R. Stiefelhagen, “Why Is Facial Occlusion a Challenging Problem?,” Proceedings of the Third International Conference on Advances in Biometrics, Alghero, Italy: Springer-Verlag, 2009, pp.299-308, [4] L. Wolf, T. Hassner, and Y. Taigman, “Descriptor based methods in the wild,” Faces in Real-Life Images Workshop in ECCV, Citeseer, 2008) 얼굴 전체의 정보를 이용하는 상술한 방법들은 이와 같은 변화에 많은 영향을 받는다는 것이다.

한편, 객체 인식 등의 분야에서 주로 사용되는 지역적 특징 추출 방법은, 특징점 주위의 픽셀들로부터 계산되는 다양한 정보를 가지는 특징기술자(descriptor)들을 영상으로부터 추출해 내고, 두 영상으로부터 얻어지는 특징기술자들을 서로 비교하여 그 유사도를 바탕으로 대응하는 쌍을 결정하는 특징점 매칭(match) 과정에 기반을 두어 인식을 수행한다. 이러한 접근 방법에 있어 가장 중요한 점은 특징기술자들이 영상의 주요 부분을 충분히 잘 표현할 수 있도록 하는 구별성(distinctness)이 보장되어야 하며, 동시에 환경 변화에 대해 강인해야 된다는 것이다. 이에 따라, 여러 가지 다양한 지역적 접근 방법이 제안되어 왔으며 얼굴인식 분야에 있어서도 지역적 특징을 이용한 얼굴 인식에서의 성능 비교가 진행된바 있다([5] R. Verschae, J. Ruiz-del-Solar, and M. Correa, “Face recognition in unconstrained environments: a comparative study,” Proc. of ECCV Workshop on Faces in Real-Life Images, 2008).

상술한 여러 지역적 접근의 일례로, Lowe가 제안한 지역 특징 추출법인 SIFT(Scale Invariant Feature transform)([6] D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” Int. J. Comput. Vision, vol. 60, No.2, pp. 91-110, 2004)는 객체 인식에서 여러 지역적 접근 방법 중 성공적인 성능을 보인바 있다([7] K. Mikolajczyk and C. Schmid, “A performance evaluation of local descriptors,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 27, No. 10, pp.1615-1630, 2005). 하지만, 이러한 방법은 얼굴 영상의 부족한 텍스쳐(texture) 정보와 나쁜 조명으로 인해 충분하지 못한 수의 특징이 추출되므로 얼굴 인식에서 안정적인 성능을 보여 주지 못하였다.

이러한 문제점을 개선하기 위하여 SIFT에 기반을 둔 여러 가지 변형방법들이 제안되었다. Bicego는 얼굴 영상을 일정한 격자(Grid)로 나누고 서로 같은 격자 영역의 특징만을 비교하는 SIFT-GRID 방법을 제안하였다([8] M. Bicego, A. Lagorio, E. Grosso, and M. Tistarelli, “On the Use of SIFT Features for Face Authentication,” Proceedings of the 2006 Conference on Computer Vision and Pattern Recognition Workshop, IEEE Computer Society, p. 35, 2006). 이러한 방법은 기본적인 방법과 달리 매칭(matching)과정에서 특징점들의 위치 정보를 고려함으로써, 기존의 SIFT 방법에 비해 얼굴인식 분야에서 보다 개선된 인식 성능을 보여주었다.

또한, Luo는 Bicego의 방법을 개선하여 K-평균 군집화를 통한 단순 GRID가 아닌 자동적인 영역 분할을 가능하게 하는 방법을 제안하였다([9] J. Luo, Y. Ma, E. Takikawa, S. Lao, M. Kawade, and B.L. Lu, “Person-specific SIFT features for face recognition,”Proc. of ICASP, 2007, 2007). 또한, Dreuw는 영상 전체에 균일하게 특징점이 분포되도록 그 위치를 미리 정하여 특징점을 추출하는 dense-SIFT 방법을 얼굴 인식에 적용하였다([10] P. Dreuw, P. Steingrube, H. Hanselmann, H. Ney, and G.Aachen, “SURF-Face: Face Recognition Under Viewpoint Consistency Constraints,” British Machine Vision Conference, London, UK, 2009). Dense-SIFT방법은 기존의 SIFT방법에 비해 보다 조밀한 특징점을 추출하여 사용함으로써 결과적으로 인식 성능 향상됨을 보였으나, 너무 많은 수의 특징점으로 인하여 계산 량이 증가하는 문제점도 안고 있다.

따라서 기존의 지역적 특징추출 방법의 환경 변화에 대한 강건성(robustness)을 보존하면서, 동시에 처리 속도를 개선한 새로운 객체 인식 방법의 필요성이 대두 되고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 영상 각각에 대응하는 저차원 특징 벡터에 의하여 객체를 인식하는 객체 인식 장치 및 객체 인식 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명에 따른, 복수의 영상 중 테스트 영상을 인식하는 객체 인식 방법은 (a) 외부로부터 입력받은 복수의 영상 각각에 dense-SIFT(scale invariant feature transform) 알고리즘을 적용하여, 상기 복수의 영상 각각에 대한 특징 기술자들을 산출하는 단계, (c) 상기 복수의 영상에 대한 상기 특징 기술자들을 연결하여, 상기 복수의 영상 각각에 대응하는 벡터들을 생성하는 단계, (d) 상기 벡터들을 행으로 하는 행렬을 구성하고, 상기 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 산출하는 단계, (e) 상기 변환 행렬에 상기 벡터들 각각을 적용하여, 상기 복수의 영상 각각에 대한 저차원 특징 벡터들을 결정하는 단계, (f) 상기 테스트 영상에 (b) 및 (c) 단계를 수행하여 상기 테스트 영상에 대한 벡터를 산출하고, 상기 변환 행렬에 테스트 영상에 대한 벡터를 적용하여 상기 테스트 영상에 대한 저차원 특징 벡터를 결정하는 단계 및 (g) 상기 복수의 영상에 대응하는 저차원 특징 벡터와 상기 테스트 영상에 대한 저차원 특징 벡터를 비교하여, 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식하는 단계를 포함한다.

여기서, 상기 특징 기술자들은, 상기 복수의 영상 각각에 2 픽셀 간격으로 설정된 특징점들 주변의 화소를 기초로 산출된 방향과 크기를 가지는 128차원의 벡터로 표현되며, 상기 복수의 영상 각각에 대응하는 벡터들을 생성하는 단계는, 상기 복수의 영상 각각에서 산출된 128차원의 특징 기술자들을 1차원 벡터로 재배열하여, 상기 복수의 영상 각각을 하나의 벡터로 표현할 수 있다.

여기서, 상기 벡터들을 행으로 하는 행렬의 크기는, 상기 복수의 영상 각각에 존재하는 특징 기술자들의 개수 및 상기 복수의 영상의 개수에 의해 결정되는 것이 바람직하다.

여기서, 상기 부분공간 분석법은, PCA(principal component analysis) 알고리즘 또는 LDA(linear discriminant analysis) 알고리즘이 바람직하다.

한편, 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식하는 단계는, 최근접 이웃 알고리즘(nearest neighbor method)을 사용함이 바람직하다.

한편, 본 발명의 다른 실시 예에 따른, 복수의 영상 중 테스트 영상을 인식하는 객체 인식 장치는 외부로부터 복수의 영상을 입력받는 통신 인터페이스부, 상기 복수의 영상 각각에 dense-SIFT(scale invariant feature transform) 알고리즘을 적용하여 상기 복수의 영상 각각에 대한 특징 기술자들을 산출하고, 상기 복수의 영상에 대한 상기 특징 기술자들을 연결하여 상기 복수의 영상 각각에 대응하는 벡터들을 생성하는 특징 기술자 산출부, 상기 벡터들을 행으로 하는 행렬을 구성하고, 상기 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 산출하는 행렬 생성부, 상기 변환 행렬에 상기 벡터들 각각을 적용하여, 상기 복수의 영상 각각에 대한 저차원 특징 벡터들을 결정하는 제어부 및 상기 복수의 영상 및 상기 복수의 영상 각각에 대한 저차원 특징 벡터들을 저장하는 저장부를 포함한다.

여기서, 상기 통신 인터페이스부는, 외부로부터 테스트 영상을 입력받으며, 상기 특징 기술자 산출부는, 상기 테스트 영상에 dense-SIFT 알고리즘을 적용하여 상기 테스트 영상에 대한 특징 기술자들을 산출하고, 상기 테스트 영상에 대한 상기 특징 기술자들을 연결하여 상기 테스트 영상에 대응하는 벡터들을 생성하며, 상기 제어부는, 상기 변환 행렬에 상기 테스트 영상에 대응하는 벡터를 적용하여 상기 테스트 영상에 대한 저차원 특징 벡터들을 결정하고, 상기 기 저장된 복수의 영상 각각에 대응하는 저차원 특징 벡터와 상기 테스트 영상에 대한 저차원 특징 벡터를 비교하여 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식할 수 있다.

여기서, 상기 특징 기술자들은, 상기 복수의 영상 각각에 2 픽셀 간격으로 설정된 특징점들 주변의 화소를 기초로 산출된 방향과 크기를 가지는 128차원의 벡터로 표현되며, 상기 특징 기술자 산출부는, 상기 복수의 영상 각각 및 상기 테스트 영상에서 산출된 128차원의 특징 기술자들을 1차원 벡터로 재배열하여, 상기 복수의 영상 각각 및 상기 테스트 영상을 하나의 벡터로 표현할 수 있다.

한편, 상기 벡터들을 행으로 하는 행렬의 크기는, 상기 복수의 영상 각각에 존재하는 특징 기술자들의 개수 및 상기 복수의 영상의 개수에 의해 결정될 수 있다.

한편, 상기 부분공간 분석법은, PCA(principal component analysis) 알고리즘 또는 LDA(linear discriminant analysis) 알고리즘임이 바람직하다.

한편, 상기 제어부는, 최근접 이웃 알고리즘(nearest neighbor method)을 사용하여 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식할 수 있다.

이와 같이, 본 발명의 다양한 실시 예에 따른 객체 인식 장치 및 객체 인식 방법은 영상의 저차원 특징 벡터를 비교하여 객체를 인식할 수 있다. 이에 따라, 기존의 지역적 특징 추출 방법이 가지는 강건성이 보존되면서, 동시에 부분 공간 분석 방법을 적용하므로 처리 속도를 개선될 수 있다.

도 1은 본 발명의 일 실시 예에 따른, 객체 인식 장치의 구성을 나타내는 블록도,
도 2는 본 발명의 일 실시 예에 따른, 객체 인식 방법을 설명하기 위한 흐름도 그리고
도 3 내지 도 4는 본 발명의 일 실시 예에 따른, 객체 인식 장치의 시뮬레이션에 사용된 도면을 나타낸다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른, 객체 인식 장치(100)의 구성을 나타내는 블록도이다. 본 발명의 일 실시 예에 따른 객체 인식 장치(100)는 기 저장된 복수의 학습 영상 중에서 테스트 영상에 대응하는 영상을 인식하는 기능을 수행할 수 있다. 여기서, 복수의 학습 영상이란, 테스트 영상 인식에 있어 데이터베이스가 되는 영상을 의미하며, 영상을 인식한다는 것은 영상에 포함된 사람의 얼굴이 동일한지 여부를 판단하는 것을 의미하므로, 각각의 영상에는 사람의 얼굴이 포함되는 것이 바람직하다.

이러한 기능을 수행하는 객체 인식 장치(100)는 도 1에 도시된 것처럼, 통신 인터페이스부(110), 특징 기술자 산출부(120), 행렬 생성부(130), 제어부(140) 및 저장부(150)를 포함할 수 있다.

통신 인터페이스부(110)는 외부와 연결되어, 외부로부터 영상을 수신하는 기능을 한다. 구체적으로, 통신 인터페이스부(110)는 외부의 촬영 장치 또는 메모리와 같이 영상이 저장된 저장 장치 등과 연결되어, 외부로부터 복수의 영상을 수신할 수 있다. 여기서, 통신 인터페이스부(110)는 근거리 통신망(LAN: Local Area Network), 인터넷망을 통해 외부 장치들과 접속되는 형태뿐만 아니라, USB(Universal Serial Bus) 포트를 통하여 접속되는 형태도 가능하다.

특징 기술자 산출부(120)는 외부로부터 수신된 복수 개의 영상에 dense-SIFT(scale invariant feature transform) 알고리즘을 각각 적용하여, 복수 개의 영상 각각에 대한 특징점 및 특징 기술자를 산출하는 역할을 한다.

여기서, 특징점 및 특징 기술자는 얼굴 영상에서 눈, 코, 입 등과 같은 중요한 부분을 의미한다. 다만, 본 발명의 일 실시 예에 따른 객체 인식 장치(100)는 dense-SIFT 알고리즘을 적용하여 특징점 및 특징 기술자를 산출하므로, 얼굴 영상 전체에 균일하게 특징점이 분포되도록 위치를 미리 정하여 특징점 및 그에 따른 특징 기술자를 산출한다.

구체적으로, 특징 기술자 산출부(120)는 입력받은 영상 전체 영역에서 2 픽셀 간격으로 균일하게 특징점을 결정하고, 결정된 특징점 각각에 대해 특징 기술자를 산출한다. 2 픽셀 간격으로 균일한 특징점에 크기와 방향벡터를 할당(orientation assignment)하여 회전 변환에도 강한 성질을 가질 수 있는 특징점의 방향과 크기를 결정하며, 특징점의 주변 상하좌우 화소를 이용하여 방향과 크기를 결정한다. 즉, 특징 기술자 산출부(120)는 특징점 부근의 4×4 격자 영역 내부의 픽셀의 기울기 값을 8방향 히스토그램으로 나타내어 특징 기술자를 표현하므로, 특징 기술자는 128 차원 벡터로 표현될 수 있으며([6]), 특징 기술자의 개수는 하나의 영상에서 결정된 특징점의 개수에 기초하여 결정된다. 특징점 L(x, y)의 크기 값에 대한 함수 m(x, y)와 방향 값에 대한 함수 θ(x,y)는 다음의 수학식 1과 수학식 2로 정의된다.

여기서, 기울기의 크기 m(x,y)와 방향 θ(x,y)은 입력받은 복수의 영상에 가우시안 평활화된(gaussian smoothed) 영상 L에서 계산된다.

영상의 회전이 있더라도 특징점 주변 화소값은 변하지 않으므로, 주변 화소값을 기초로 크기(m(x,y))와 방향(θ(x, y))이 결정되는 특징점은 영상의 회전에 대해서 일정한 방향성질을 유지할 수 있다. 영상이 회전한 만큼 특징점의 방향도 함께 회전하므로 특징점의 기준 방향은 영상의 회전에도 변하지 않는 특징점 기술자를 생성하는 경우에 중요한 기준이 된다.

이 후, 특징 기술자 산출부(120)는 상술한 식으로 계산된 기울기를 주 방향(principle direction)에 맞춰 정렬하여, 회전 변화에 강인한 128차원의 벡터로 나타난 특징 기술자를 산출할 수 있다.

또한, 특징 기술자 산출부(120)는 하나의 영상에 포함된 복수 개의 특징 기술자를 모두 포함하는 하나의 벡터를 산출한다. 구체적으로, 특징 기술자 산출부(120)는 하나의 영상에 존재하는 복수 개의 특징 기술자를 모두 연결하여, 하나의 영상에 대응하는 하나의 벡터를 생성할 수 있다. 즉, 특징 기술자 산출부(120)는 128차원의 특징 기술자들을 1차원 벡터로 차례대로 기록하여, 하나의 영상을 하나의 1차원 벡터로 표현하는 것을 의미한다.

일례로, 하나의 영상에 대하여 특징점이 100개이고, 특징 기술자가 128차원이라면, 특징 기술자 산출부(120)는 특징 기술자를 모두 연결하여, 128×100 크기를 가지는 하나의 1차원으로 벡터를 생성할 수 있다.

한편, 특징 기술자 산출부(120)는 통신 인터페이스부(110)로부터 복수의 영상을 전달받아 상술한 과정을 복수의 영상에 대해 반복적으로 수행하여, 복수의 영상 각각에 대응하는 벡터를 생성할 수 있다.

행렬 생성부(130)는 복수의 영상 각각에 대응하는 벡터들을 모두 포함하는 행렬을 생성한다. 구체적으로, 행렬 생성부(130)는 특징 기술자 산출부(120)에 의해 생성된 각 영상에 대한 벡터를 행으로 배열하여, 복수의 벡터들로 구성된 행렬을 생성할 수 있다.

일례로, 복수의 영상 중 제1 영상에 대한 벡터를 제1 행, 제2 영상에 대한 벡터를 제2 행 등으로 배열하는 방식으로 행렬을 생성할 있다. 이에 따라, 행렬의 사이즈는 각 영상의 특징 기술자의 개수 및 입력받은 영상의 개수에 의해 결정된다.

또한, 행렬 생성부(130)는 생성된 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 생성할 수 있다. 여기서, 부분공간 분석법이란, 학습 데이터 집합으로부터 통계적인 특성을 분석함으로써 통계적으로 의미 있는 저차원의 특징 벡터를 추출하는 방법으로, 이러한, 부분공간 분석법에는 PCA(principal component analysis) 알고리즘 및 LDA(linear discriminant analysis) 알고리즘이 포함될 수 있다([1]. [2]).

구체적으로, 행렬 생성부(130)는 복수의 영상 각각에 대응하는 벡터들로 이루어진 행렬에 PCA 알고리즘 또는 LDA 알고리즘을 적용하여 변환 행렬을 생성하고, 각각의 영상에 대응하는 벡터들을 변환 행렬에 적용하여, 각각의 영상을 저차원 특징 벡터들로 표현할 수 있다.

일례로, 하나의 영상이 128×100 크기의 1차원 벡터로 이루어진 경우, 이러한 고차원 벡터에 변환 행렬을 적용하면, 128×100 보다 크기가 작은 저차원 특징 벡터들을 생성할 수 있게 된다.

한편, PCA 알고리즘은 특징 벡터의 차원을 축소하는 기법 중 하나로, 얼굴 영상을 재구성하고 인식하는데 사용할 수 있는 고유벡터의 집합을 이용하여 영상 집합에 대해 통계적으로 중요한 정보들을 추출할 수 있다.

또한, LDA 알고리즘은 PCA 알고리즘과 같은 특징 벡터 차원 축소 기법 중의 하나로, FLD(Fisher Linear Discriminant)를 분류 알고리즘으로 사용하는 알고리즘이다. LDA 알고리즘은 학습을 통해 환경변화에 둔감한 특징이 있으며 온라인에서 실시간으로 적용 가능하다. LDA 알고리즘은 안경착용, 표정변화, 조명변화와 같은 한 클래스 내에서의 변화는 최소화하고 다른 클래스 간의 변화는 최대화하여 특징 벡터의 차원을 축소한다. 즉, LDA 알고리즘은 클래스 간 분산(between-class scatter)은 최대로 하고 클래스 내 분산(within-class scatter)은 최소로 하여 특징 벡터의 차원을 축소한다.

이러한 알고리즘에 의해, 복수의 영상으로부터 그 통계적인 특성을 분석함으로써 통계적으로 의미 있는 저차원의 특징 벡터를 효과적으로 추출할 수 있게 된다.

제어부(140)는 객체 인식 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 복수의 영상이 입력되도록 통신 인터페이스부(110)를 제어할 수 있으며, 영상 각각에 대한 벡터를 산출하며, 복수의 영상에 대한 벡터들로 구성된 행렬을 생성하고, 이를 이용해 변환 행렬을 생성하도록 객체 인식 장치(100)의 각 구성을 제어할 수 있다. 또한, 제어부(140)는 행렬 생성부(130)에 의해 생성된 변환 행렬에 복수의 영상에 대한 고차원 벡터를 적용하여, 복수의 영상 각각에 대한 저차원 특징 벡터들을 결정할 수 있다.

일례로, 복수 개의 영상 중 제1 영상에 대응하는 벡터를 변환 행렬에 적용하여, 제1 영상에 대한 저차원 특징을 검출하고, 제2 영상에 대응하는 벡터를 변환 행렬에 적용하여, 제2 영상에 대한 저차원 특징을 검출할 수 있으며, 이러한 과정을 복수의 영상에 대해 반복하여 복수의 영상 각각으로 이루어진 저차원 특징들의 집합을 얻을 수 있다.

또한, 제어부(140)는 복수의 영상에 대한 저차원 특징들이 저장되도록 저장부(150)를 제어할 수 있다.

그리고 제어부(140)는 기 저장된 복수 개의 영상에 대응하는 저차원 특징과 테스트 영상에 대한 저차원 특징을 비교하여, 복수 개의 영상 중 상기 테스트 영상에 대응하는 영상을 인식할 수 있다. 여기서, 테스트 영상이란, 통신 인터페이스부(110)에 의해 입력되어 객체 인식의 대상이 되는 영상을 의미하며, 사용자는 터치 스크린 등으로 구현된 인터페이스부(미도시)를 이용하여 테스트 영상을 지정할 수 있다.

구체적으로, 제어부(140)는 테스트 영상에 대해 특징 기술자 산출부(120)를 제어하여 테스트 영상을 하나의 벡터를 생성하고, 생성된 테스트 영상에 대한 벡터를 변환 행렬에 투영(projection)하여 테스트 영상에 대한 저차원 특징을 산출할 수 있다. 이 후, 제어부(140)는 저장부(150)에 기 저장된 복수의 영상에 대한 저차원 특징과 테스트 영상에 대한 저차원 특징을 비교하여, 기 저장된 복수의 영상 중 테스트 영상에 대응하는 영상을 인식할 수 있다. 여기서, 저차원 특징들을 비교하기 위해, 최 근접 이웃 알고리즘(nearest neighbor method)이 사용될 수 있다.

저장부(150)는 통신 인터페이스부(110)로부터 입력받은 복수의 영상 및 복수의 영상 각각에 대한 저차원 특징 벡터들을 저장할 수 있다.

도 2는 본 발명의 일 실시 예에 따른, 객체 인식 방법을 설명하기 위한 흐름도이다.

먼저, 외부로부터 복수의 영상을 입력받는다(S210).

입력받은 복수의 영상 각각에 dense-SIFT(scale invariant feature transform) 알고리즘을 적용하여, 상기 복수의 영상 각각에 대한 특징 기술자들을 산출한다(S220). 여기서, 특징 기술자들은, 복수의 영상 각각에 2 픽셀 간격으로 설정된 특징점들 주변의 화소를 기초로 산출된 방향과 크기를 가지는 128차원의 벡터로 표현될 수 있다.

그리고 복수의 영상에 대한 특징 기술자들을 연결하여, 복수의 영상 각각에 대응하는 벡터들을 생성한다(S230). 구체적으로, 하나의 영상에 존재하는 복수 개의 특징 기술자를 모두 연결하여, 하나의 영상에 대응하는 하나의 벡터를 생성한다.

그리고, 복수의 영상 각각에 대응하는 벡터들을 행으로 하는 행렬을 구성하고, 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 산출한다(S240).

이 후, 변환 행렬에 복수의 영상 각각에 대응하는 벡터들 각각을 적용하여, 복수의 영상 각각을 저차원 특징 벡터들로 나타낸다(S250). 이 경우, 복수의 영상 각각에 대한 저차원 특징 벡터들을 저장할 수 있다.

이 후, 테스트 영상을 입력받고, 테스트 영상에 대응하는 벡터를 산출하고, 산출된 테스트 영상에 대한 벡터를 변환 행렬에 적용하여 테스트 영상에 대한 저차원 특징 벡터를 결정한다(S260).

마지막으로, 복수의 영상에 대응하는 저차원 특징 벡터와 테스트 영상에 대한 저차원 특징 벡터를 비교하여, 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식한다(S270).

한편, 상술한 객체 인식 방법은 본 발명의 일 실시 예에 따른 객체 인식 장치에 의해 구현될 수 있으며, 반드시 객체 인식 장치의 모든 구성 요소를 모두 포함하여야 하는 것은 아니다.

이하에서는, SIFT 알고리즘에 대해 보다 상세히 설명한다.

얼굴 영상을 다양한 변형에 강인한 형태로 표현하기 위해 사용하는 SIFT는 특징기술자에 의해 설명된다. SIFT는 특징점을 추출하기 scale-space DoG (Difference of Gaussian) 함수를 사용한다. DoG 함수는 가우시안 평활화(Gaussian smoothing)와 부분 샘플링을 통하여 구한 각기 다른 스케일(scale)을 가지는 이미지 피라미드(image pyramid) 간의 차로서 구해지며, 다음과 같은 식으로 정의될 수 있다

위 식에서 k는 상수이고 I(x,y)는 영상의 (x,y) 픽셀에서의 명도 값, 그리고 G(x,y,σ)는 분산 σ를 가지는 2변량 가우시안 함수이다.

DoG에서의 지역 극대값과 극소값은 현재 이미지에서의 8방향 이웃 점과 이웃한 스케일에서의 같은 좌표 점과 그 점의 8방향 이웃 점, 총 26개 점 사이에서의 극대점 혹은 극소점을 의미한다. 이러한 극대, 극소점이 SIFT 특징 후보 점이 되며, 이후 과정을 통하여 특징점으로 확정한다.

특징 검출 기반의 지역 특징 추출 방법을 얼굴 영상에 적용한 경우에 발생하는 성능 저하의 원인은, 주로 얼굴의 부족한 텍스쳐 정보와 나쁜 조명에 의하여 충분하지 못한 수의 특징점이 선택되었기 때문이다. 그러므로 기존의 지역특징 기반 영상인식에서 사용하는 특징 검출기를 그대로 쓰는 대신 인위적인 기준으로 특징점을 추출하는 방식을 사용함으로써 얼굴인식에 있어서의 문제점을 해결하는 시도가 행해졌는데, SIFT를 사용한 경우에 있어서의 이와 같은 변형을 dense-SIFT라 부른다([11] A. Bosch, A. Zisserman, and X. Munoz, “Scene Classification via pLSA,” Proceedings of the European Conference on Computer Vision, 2006), [12] B. Fulkerson, A. Vedaldi, and S. Soatto, “Localizing Objects with Smart Dictionaries,” Proc. Of ECCV: Part I, Marseille, France: Springer-Verlag, pp. 179-192, 2008). 본 발명에서는 dense-SIFT 방법을 적용하여 모든 얼굴 영상으로부터 같은 수의 특징기술자(descriptor)를 얻어 이를 이용하여 얼굴 영상을 표현한다.

이하에서는, 본 발명의 다양한 실시 예에 따른, 객체 인식 장치(100)의 시뮬레이션 결과를 설명한다.

사용한 데이터는 벤치마크 데이터로 잘 알려진 AR-Face데이터베이스이다. AR-Face 데이터베이스의 다양한 변형 데이터에 대하여, 기본적인 부분공간 분석법인 PCA와 LDA만과, 기본적인 SIFT에 의한 방법, 그리고 dense-SIFT 방법과 성능을 비교하였다.

AR-Face 데이터베이스는 Martinez와 Benavente가 제작하였다([13] A.M. Martinez and R. Benavente, “The AR Face Database,”CVC Technical Report #24, Jun. 1998). 이 데이터베이스는 남자 70명, 여자 56명의 정면 영상으로 이루어져 있으며, 2주 간격을 두고 촬영된 각 13장의 이미지로 구성된다. 2개 세션에서의 각 13장의 이미지는, 표정 변화, 조명 변화, 부분적인 가려짐(partial occlusion)의 차이가 있다. 본 시뮬레이션에서는 남, 여 50명씩 총 100명을 대상으로 실험하였다. 도 3에 AR 데이터베이스로부터 주어지는 기본 영상의 예를 나타내었다.

본 발명의 일 실시 예에 따른, 객체 인식 장치(100)의 시뮬레이션에서는 수작업을 통해 눈 중심점으로 정렬을 맞춘 얼굴 이미지를 사용하였으며([14] A.M. Martinez and A.C. Kak, “PCA versus LDA,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 23, No. 2, pp.228-233, 2001), 귀, 목을 포함하는 부분을 제거하였고, 눈, 코 부분이 다른 이미지와 같은 선상에 있도록 모핑(morphing)하였다. 마지막으로 이미지 크기를 88×64로 동일하게 변환하였다.

dense-SIFT를 이용한 특징 추출에서는 이미지 가장 자리영역 4.5 픽셀을 비워두고 나머지 영역에 대해서 가로, 세로 모두 2 픽셀 단위의 간격으로 조밀한 (dense) 특징점을 추출하였다. 본 시뮬레이션에 사용된 88x64 크기의 단일 이미지로부터 1120개의 특징기술자를 얻을 수 있었다.

전역적 특징 추출법의 적용을 위해, 이미지 한 장에서 얻어진 dense-SIFT 특징을 1차원 벡터로 표현한다. 1개의 특징기술자는 128차원의 벡터이므로, 실험에 사용된 이미지 한 장은 1120x128 크기의 1차원 벡터로 표현 가능하다. SIFT와 dense-SIFT 함수는 Vedaldi와Fulkerson의 구현([15] A. Vedaldi and B. Fulkerson, VLFeat: An open and portable library of computer vision algorithms, 2008)을 사용하였으며, 실험에서의 SIFT와 DSIFT 얼굴인식은 각각 SIFT 특징점, dense-SIFT 특징점을 사용하였음을 의미한다. 학습과 테스트 얼굴 영상간의 유사도 측정은 Lowe[6]가 제안한 특징점 매칭(matching) 방법으로 판단하였다. PCA는 99%의 정보를 보존하도록 기저를 선택하였으며, 처음의 4개의 기저를 제외하였다. LDA는 PCA를 통하여 얻어진 새로운 특징 집합을 대상으로 수행하였으며, 가능한 모든 기저를 분류에 사용하였다. 본 발명의 일 실시 예에 따른, 객체 인식 방법(DSIFT PCA, DSIFT LDA)은 PCA와 LDA와 같은 방식으로 기저를 선택하였다.

실험 1에서는, 시간 변화에 따른 강인함을 알아보기 위하여, 남녀, 50명씩 총 100명에 대하여 가려짐이 없는 첫 세션의 7장의 이미지를 학습 데이터로 두고 2주 후의 두 번째 세션의 7장의 이미지를 테스트 데이터로 정하여 수행하였다. 결과는 표 1에 제시하였다.

방법	특징수	인식시간	인식+학습	오인식률(%)
PCA	229	1	1	23.00
LDA	99	0.9	1.01	15.86
SIFT	Avg 27.18	366.9	14.09	24.29
Dense SIFT(DSIFT)	1120×128	532914.6	19290.77	0.14
DSIFT PCA	568	148.2	14.32	2.14
DSIFT LDA	99	148.1	14.98	0.43

기존의 PCA와 LDA와 비교할 때 본 발명의 다양한 실시 예들에 의한 방법 (DSIFT PCA와 DSIFT LDA)이 인상적인 인식률의 향상을 보였으며, 기본적인 SIFT방법은 기본적인 PCA와 유사하게 저조한 성능을 보였다. 조밀한 특징점을 추출하는 DSIFT방법이, 인식성능 면에서 가장 우수하였는데, 이는 사용한 특징기술자의 변형에의 강건성을 보여준다고 할 수 있다. 그러나 표 1에서 확인할 수 있듯이 수행시간이 지나치게 오래 걸려서 실제 응용 시스템으로 구현되기는 어렵다는 한계를 가진다. 이에 반해 제안하는 방법의 경우에는 인식성능은 DSIFT에 비해 다소 떨어지나 수행시간에 있어서는 DSIFT에 비하여 3500배 이상 감소하였다. 이 실험을 통하여 제안하는 방법이 시간 변화에 따른 영상 변화에 강인하며, 효과적으로 dense-SIFT의 특징과 부분공간분석 방법의 특징을 결합한 것을 보여준다.

실험 2에서는 부분적인 가려짐에 의한 강인함을 실험하기 위해, 남녀, 50명씩 100명에 대해 첫 번째 세션의 가려짐이 없는 3장의 이미지를 학습 데이터로 나머지 10장의 그림을 테스트 데이터로 사용하였으며, 결과는 표 2와 같다.

방법	특징수	인식시간	인식+학습	오인식률(%)
PCA	133	1	1	57.10
LDA	99	1.07	1.14	56.80
SIFT	Avg 25.38	256.31	70.02	56.80
Dense SIFT(DSIFT)	1120×128	277496.4	67435.45	0.00
DSIFT PCA	252	223.31	77.24	5.00
DSIFT LDA	39	223.26	77.62	3.90

첫 번째 실험과 비교할 때 PCA, LDA는 가려짐에 대해 성능 저하가 뚜렷하게 나타났다. 이에 반해 제안하는 방법은 PCA와 LDA에 비하여 인식률의 현저한 향상을 가져왔다. 이번 실험에서도 첫 번째 실험에서와 같이 dense-SIFT를 이용한 경우가 가장 높은 인식률을 보여주었다. 하지만 제안하는 방법은 하나의 인식에서 dense-SIFT에 비해 1200배 이상의 처리 속도를 향상을 보여준다. 이러한 점에서 제안하는 방법이 인식률과 수행 시간을 동시에 볼 때 효율적인 방법이라 볼 수 있다.

이상에서는, 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 객체 인식 장치
110 : 통신 인터페이스부 120 : 특징 기술자 산출부
130 : 행렬 생성부 140 : 제어부
150 : 저장부

Claims

복수의 영상 중 테스트 영상을 인식하는 객체 인식 방법에 있어서,
(a) 외부로부터 입력받은 복수의 영상 각각에 dense-SIFT(scale invariant feature transform) 알고리즘을 적용하여, 상기 복수의 영상 각각에 대한 특징 기술자들(descriptors)을 산출하는 단계;
(c) 상기 복수의 영상에 대한 상기 특징 기술자들을 연결하여, 상기 복수의 영상 각각에 대응하는 벡터들을 생성하는 단계;
(d) 상기 벡터들을 행으로 하는 행렬을 구성하고, 상기 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 산출하는 단계;
(e) 상기 변환 행렬에 상기 벡터들 각각을 적용하여, 상기 복수의 영상 각각에 대한 저차원 특징 벡터들을 결정하는 단계;
(f) 상기 테스트 영상에 (b) 및 (c) 단계를 수행하여 상기 테스트 영상에 대한 벡터를 산출하고, 상기 변환 행렬에 테스트 영상에 대한 벡터를 적용하여 상기 테스트 영상에 대한 저차원 특징 벡터를 결정하는 단계; 및
(g) 상기 복수의 영상에 대응하는 저차원 특징 벡터와 상기 테스트 영상에 대한 저차원 특징 벡터를 비교하여, 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식하는 단계;를 포함하는 객체 인식 방법.
제1항에 있어서,
상기 특징 기술자들은, 상기 복수의 영상 각각에 2 픽셀 간격으로 설정된 특징점들 주변의 화소를 기초로 산출된 방향과 크기를 가지는 128차원의 벡터로 표현되며,
상기 복수의 영상 각각에 대응하는 벡터들을 생성하는 단계는,
상기 복수의 영상 각각에서 산출된 128차원의 특징 기술자들을 1차원 벡터로 재배열하여, 상기 복수의 영상 각각을 하나의 벡터로 표현하는 것을 특징으로 하는 객체 인식 방법.
제1항에 있어서,
상기 벡터들을 행으로 하는 행렬의 크기는,
상기 복수의 영상 각각에 존재하는 특징 기술자들의 개수 및 상기 복수의 영상의 개수에 의해 결정되는 것을 특징으로 하는 객체 인식 방법.
제1항에 있어서,
상기 부분공간 분석법은,
PCA(principal component analysis) 알고리즘 또는 LDA(linear discriminant analysis) 알고리즘을 포함하는 것을 특징으로 하는 객체 인식 방법.
제1항에 있어서,
상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식하는 단계는, 최근접 이웃 알고리즘(nearest neighbor method)을 사용하는 것을 특징으로 하는 객체 인식 방법.
복수의 영상 중 테스트 영상을 인식하는 객체 인식 장치에 있어서,
외부로부터 복수의 영상을 입력받는 통신 인터페이스부;
상기 복수의 영상 각각에 dense-SIFT(scale invariant feature transform) 알고리즘을 적용하여 상기 복수의 영상 각각에 대한 특징 기술자들을 산출하고, 상기 복수의 영상에 대한 상기 특징 기술자들을 연결하여 상기 복수의 영상 각각에 대응하는 벡터들을 생성하는 특징 기술자 산출부;
상기 벡터들을 행으로 하는 행렬을 구성하고, 상기 행렬에 부분공간 분석법을 적용하여 변환 행렬(transformation matrix)을 산출하는 행렬 생성부;
상기 변환 행렬에 상기 벡터들 각각을 적용하여, 상기 복수의 영상 각각에 대한 저차원 특징 벡터들을 결정하는 제어부; 및
상기 복수의 영상 및 상기 복수의 영상 각각에 대한 저차원 특징 벡터들을 저장하는 저장부;를 포함하는 객체 인식 장치.
제6항에 있어서,
상기 통신 인터페이스부는, 외부로부터 테스트 영상을 입력받으며,
상기 특징 기술자 산출부는,
상기 테스트 영상에 dense-SIFT 알고리즘을 적용하여 상기 테스트 영상에 대한 특징 기술자들을 산출하고, 상기 테스트 영상에 대한 상기 특징 기술자들을 연결하여 상기 테스트 영상에 대응하는 벡터들을 생성하며,
상기 제어부는,
상기 변환 행렬에 상기 테스트 영상에 대응하는 벡터를 적용하여 상기 테스트 영상에 대한 저차원 특징 벡터들을 결정하고, 상기 기 저장된 복수의 영상 각각에 대응하는 저차원 특징 벡터와 상기 테스트 영상에 대한 저차원 특징 벡터를 비교하여 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식하는 것을 특징으로 하는 객체 인식 장치.
제6항 또는 제7항에 있어서,
상기 특징 기술자들은, 상기 복수의 영상 각각에 2 픽셀 간격으로 설정된 특징점들 주변의 화소를 기초로 산출된 방향과 크기를 가지는 128차원의 벡터로 표현되며,
상기 특징 기술자 산출부는,
상기 복수의 영상 각각 및 상기 테스트 영상에서 산출된 128차원의 특징 기술자들을 1차원 벡터로 재배열하여, 상기 복수의 영상 각각 및 상기 테스트 영상을 하나의 벡터로 표현하는 것을 특징으로 하는 객체 인식 장치.
제6항에 있어서,
상기 벡터들을 행으로 하는 행렬의 크기는,
상기 복수의 영상 각각에 존재하는 특징 기술자들의 개수 및 상기 복수의 영상의 개수에 의해 결정되는 것을 특징으로 하는 객체 인식 장치.
제6항에 있어서,
상기 부분공간 분석법은,
PCA(principal component analysis) 알고리즘 또는 LDA(linear discriminant analysis) 알고리즘을 포함하는 것을 특징으로 하는 객체 인식 장치.
제7항에 있어서,
상기 제어부는,
최근접 이웃 알고리즘(nearest neighbor method)을 사용하여 상기 복수의 영상 중 상기 테스트 영상에 대응하는 영상을 인식하는 것을 특징으로 하는 객체 인식 장치.