KR20110088837A

KR20110088837A - 이미지 데이터베이스에서의 클러스터링 장치 및 방법

Info

Publication number: KR20110088837A
Application number: KR1020100008537A
Authority: KR
Inventors: 김상욱; 오현교; 윤석호
Original assignee: 한양대학교 산학협력단
Priority date: 2010-01-29
Filing date: 2010-01-29
Publication date: 2011-08-04
Also published as: KR101082675B1

Abstract

이미지 데이터베이스에서의 클러스터링 장치 및 방법이 개시된다. 복수의 이미지 데이터를 이진행렬로 변환하고, 이진행렬을 표현하는 정보량이 최소가 되도록 상기 이진행렬의 행과 열의 순서를 변경하는 크로스 연관(Cross-Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성할 수 있다.

Description

이미지 데이터베이스에서의 클러스터링 장치 및 방법{DEVICE AND METHOD FOR CLUSTERING IN IMAGE DATABASES}

본 발명은 이미지 데이터를 구조화하기 위한 클러스터링 분야의 기술이다. 본 발명은 유사한 객체들을 같은 그룹에 포함시키고, 유사하지 않은 객체들을 다른 그룹에 포함시키는 클러스터링 기술을 요구하는 분야와 관련이 있다.

최근 들어, 디지털 카메라, 인터넷 등 디지털 이미지를 생성하고나 이용할 수 있는 매체가 대중화 되면서 이미지 데이터가 기하급수적으로 증가하고 있다. 이미지 데이터가 증가하면서 사용자들이 원하는 이미지 데이터를 효율적으로 검색하기 위해 이미지 데이터들을 구조화 하는 연구가 진행되고 있다

이미지 데이터를 구조화하기 위해 주로 사용하는 방법으로는 클러스터링이 있다. 클러스터링은 유사한 객체들을 같은 그룹에 포함시키고, 유사하지 않은 객체들을 다른 그룹에 포함시키는 방법이며, 기존의 클러스터링 방법들은 사용자에 의해서 주어진 클러스터의 개수를 매개변수로 입력 받아서 클러스터링하였으나, 사용자가 적절한 클러스터의 개수를 클러스터링 전에 결정하는 것은 어려운 문제이다.

따라서, 클러스터의 개수를 매개변수로 입력받지 않고 데이터를 효과적으로 클러스터링하는 방법이 요구된다.

본 발명의 일실시예에 따른 클러스터링 장치는 복수의 이미지 데이터를 이진행렬로 변환하는 행렬 변환부 및 상기 이진행렬을 표현하는 정보량이 최소가 되도록 상기 이진행렬의 행과 열의 순서를 변경하는 크로스 연관(Cross-Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성하는 클러스터 생성부를 포함한다.

본 발명의 일측에 따르면, 상기 행렬 변환부는, 상기 복수의 이미지 데이터 간의 유사 여부를 이용하여 상기 복수의 이미지 데이터 간의 연관성을 나타내는 그래프를 생성하는 그래프 생성부 및 상기 생성된 그래프를 상기 이진행렬로 변환하는 이진행렬 변환부를 포함할 수 있다.

또한 본 발명의 일측에 따르면, 상기 그래프 생성부는, K 최근접 이웃 검색 기법을 수행한 후, 대칭 기법 및 비대칭 기법을 이용하여 상기 그래프를 생성할 수 있다.

또한 본 발명의 일측에 따르면, 상기 클러스터 생성부는, 생성되는 클러스터가 하위 클러스터를 포함하지 않는 말단 클러스터(leaf cluster)인지 판단하는 클러스터 판단부를 포함하고, 상기 생성되는 클러스터가 말단 클러스터가 아닌 경우, 생성되는 클러스터가 말단 클러스터일 때까지 상기 크로스 연관 기법을 재귀적으로 적용할 수 있다.

또한 본 발명의 일측에 따르면, 상기 클러스터 판단부는, 크로스 연관 기법 적용하여 생성되는 클러스터가 생성전의 클러스터와 비교하여 정보량이 감소하지 않는 경우, 상기 클러스터를 말단 클러스터로 판단할 수 있다.

또한 본 발명의 일측에 따르면, 상기 복수의 클러스터 각각에 대하여 아웃라이어 노드(outlier node)를 검출하는 아웃라이어 검출부를 더 포함할 수 있다.

또한 본 발명의 일측에 따르면, 상기 아웃라이어 검출부는, 각 클러스터에 포함되는 각 이미지 데이터에 대한 아웃라이어 등급을 결정하는 등급 결정부 및 상기 각 이미지 데이터의 순서에 기초하여 기설정된 수의 이미지 데이터를 아웃라이어 노드로 결정하는 아웃라이어 결정부를 포함할 수 있다.

또한 본 발명의 일측에 따르면, 상기 등급 결정부는, 이미지 데이터를 제거하기 전의 클러스터 정보량과 상기 이미지 데이터를 제거한 후의 클러스터 정보량의 차이를 산출하고, 상기 산출된 정보량이 클수록 상기 아웃라이어 등급을 높게 결정할 수 있다.

본 발명의 일실시예에 따른 클러스터링 방법은 복수의 이미지 데이터를 이진행렬로 변환하는 단계 및 상기 이진행렬을 표현하는 정보량이 최소가 되도록 상기 이진행렬의 행과 열의 순서를 변경하는 크로스 연관(Cross-Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성하는 단계를 포함한다.

또한 본 발명의 일측에 따르면, 상기 복수의 클러스터 각각에 대하여 아웃라이어 노드(outlier node)를 검출하는 단계를 더 포함할 수 있다.

본 발명의 일실시예에 따르면, 이미지 데이터를 크로스 연관 기법을 통해 클러스터링하고, 크로스 연관 기법을 클러스터링 관점으로 해석함으로써, 이미지 데이터를 매개변수 없이 클러스터링할 수 있는 클러스터링 장치 및 방법이 제공된다.

본 발명의 일실시예에 따르면, 클러스터의 각 이미지 데이터에 대해 해당 이미지 데이터를 제거하는 경우의 클러스터의 비용감소량을 결정하고, 상기 비용감소량에 따라 아웃라이어 등급을 결정하여 아웃라이어를 검출함으로써, 아웃라이어 검출의 정확도를 높일 수 있는 클러스터링 장치 및 방법이 제공된다.

도 1은 본 발명의 일실시예에 따른, 이미지 데이터베이스에서의 클러스터링 장치를 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따른, 비대칭 기법 및 대칭 기법을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른, 크로스 연관 기법 적용 결과를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 계층적 클러스터링을 수행하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 있어서, 아웃라이어 노드를 검출하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른, 이미지 데이터베이스에서의 클러스터링 방법을 설명하기 위한 도면이다.

이하에서, 본 발명에 따른 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른, 이미지 데이터베이스에서의 클러스터링 장치를 도시한 블록도이다.

도 1을 참고하면, 클러스터링 장치(100)는 행렬 변환부(110) 및 클러스터 생성부(120)를 포함할 수 있다. 또한, 클러스터링 장치(100)는 아웃라이어 검출부(130)를 더 포함할 수 있다.

행렬 변환부(110)는 복수의 이미지 데이터를 이진행렬로 변환할 수 있다. 이때, 이진행렬 변환을 위해서, 이미지 데이터 간의 유사 여부를 이용하여 그래프를 생성하고, 생성된 그래프를 이진행렬로 변환할 수 있다. 따라서, 행렬 변환부(110)는 그래프 생성부(111) 및 이진행렬 변환부(112)를 포함할 수 있다.

즉, 그래프 생성부(111)는 복수의 이미지 데이터 간의 유사 여부를 이용하여 상기 복수의 이미지 데이터 간의 연관성을 나타내는 그래프를 생성하고, 이진행렬 변환부(112)는 상기 생성된 그래프를 상기 이진행렬로 변환할 수 있다.

이때, 그래프 생성부(111)는 K 최근접 이웃 검색 기법을 수행한 후, 대칭 기법 및 비대칭 기법을 이용하여 상기 그래프를 생성할 수 있으다. 여기서, K 최근접 이웃 검색 기법은 모든 이미지 데이터들이 사용자가 정한 K값에 따라 자신과 가장 근접한 K개의 이웃 객체들을 검색하는 기법을 의미한다. 그 결과 모든 객체는 K개의 간선을 갖게 되고, 그래프로 표현될 수 있다. 한편, K 최근접 이웃 검색 기법 적용 후에는 대칭적 방법 또는 비 대칭적 방법을 그래프에 적용할 수 있다. 상기 대칭 기법은, 제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되고, 상기 제2 이미지 데이터의 관점에서 제1 이미지 데이터가 유사한 것으로 판단되면, 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성하고, 상기 비대칭 기법은, 제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되면 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성할 수 있다. 여기서, 비대칭 기법 및 대칭 기법은 도 2를 참고하여 이하에서 더욱 상세하게 설명한다.

도 2는 본 발명의 일실시예에 따른, 비대칭 기법 및 대칭 기법을 도시한 도면이다.

도 2에 도시된 화살표는 k-최근접 이웃 검색을 통해 선택된 유사한 객체들을 나타내고, 직선은 생성된 그래프의 간선을 나타낸다. 대칭적 방법(210)을 이용해서 그래프를 생성하는 경우는, 제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되고, 동시에 상기 제2 이미지 데이터의 관점에서 제1 이미지 데이터가 유사한 것으로 판단되면, 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성할 수 있다. 즉, 객체 A가 객체 B와 유사하고, 역으로 B도 A와 유사할 경우에만 간선을 생성한다.

비대칭적 방법(220)을 이용해서 그래프를 생성하는 경우, 제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되면 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성할 수 있다. 즉, 객체 A가 객체 B와 유사할 때, 역으로 B가 A와 유사하지 않아도 간선을 생성할 수 있다.

따라서, 비대칭적 방법(220)과 달리 대칭적 방법(210)은 객체 간에 서로 유사할 경우에만 간선을 설정할 수 있다. 즉, 대칭적 방법(210)은 두 객체 중 한쪽만 유사하다고 판단되는 경우를 노이즈로 간주하고 두 객체들 간에 연관이 없다고 판단한다.

다시 도 1을 참고하면, 클러스터 생성부(120)는 크로스 연관(CA, Cross-Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성할 수 있다. 여기서, 크로스 연관(Cross-Association) 기법은 객체들 간의 상호 연관관계를 이용하여 매개변수 없이 데이터의 감추어진 구조나 패턴을 찾아내는 기법으로서, MDL(Minimum Description Length) 원리를 적용해서 이진 행렬을 표현하는 정보량이 최소화되도록 이미지 데이터들 간의 상호 연관 관계가 표현된 이진 행렬의 행과 열의 순서를 변경할 수 있다. CA를 수행한 결과, 연관 관계 패턴이 유사한 객체들이 이진 행렬에서 서로 인접하게 배열될 수 있으며, 인접해 있는 객체들이 행렬에서 차지하고 있는 지역을 Cross-Associates로 나타낼 수 있다. 이는 이진 행렬의 숨겨진 구조를 나타내며, 상호 연관 관계에 있는 객체들이 그 지역 안에 모여 있음을 의미한다. 여기서, 크로스 연관 기법을 적용한 결과 그래프는 도 3을 참고하여 이하에서 더욱 상세하게 설명한다.

도 3은 본 발명의 일실시예에 따른, 크로스 연관 기법 적용 결과를 설명하기 위한 도면이다.

도 3을 참고하면, 결과 그래프(300)의 두 번째 행 그룹에는 두 개의 검은색 지역이 존재한다. 여기서, 검은색 지역은 객체간의 연관 관계가 있음을 나타낸다. 도 3에 도시된 바와 같이, 동일한 행 객체들이 서로 다른 두 개의 지역에 포함될 수 있으므로, 본 발명의 일실시예에서는, 이진 행렬의 한 축인 행들의 집합만을 고려할 수 있다. 즉, CA의 결과를 연관 관계 패턴이 유사한 행 객체들이 서로 인접하게 배열되는 것으로 해석하면, 행 집합들 간에는 같은 객체들이 포함하지 않는다. 따라서, 본 발명의 일실시예에서는 CA를 클러스터링 관점으로 해석하여 이미지 데이터를 클러스터링할 수 있다. 즉, CA 적용한 결과를 클러스터링 관점에서 해석하면 같은 객체들을 포함하지 않는 행 집합들을 발견할 수 있고, 이러한 행 집합들과 데이터 상의 존재하는 모든 열들과의 관계를 나타내는 각 지역을 하나의 클러스터로 간주할 수 있다.

한편, 클러스터링 결과로 도출된 각각의 클러스터에 대해서는 재귀적으로 CA를 적용하는 계층적 클러스터링을 수행할 수 있다. 계층적 클러스터링을 통해 클러스터 안의 숨겨진 클러스터 구조를 발견할 수 있다. 따라서, 클러스터 생성부(120)는 계층적 클러스터링을 수행하기 위하여, 생성되는 클러스터가 하위 클러스터를 포함하지 않는 말단 클러스터(leaf cluster)인지 판단하는 클러스터 판단부(121)를 포함할 수 있고, 상기 생성되는 클러스터가 말단 클러스터가 아닌 것으로 판단되는 경우, 클러스터 생성부(120)는 생성되는 클러스터가 말단 클러스터일 때까지 상기 크로스 연관 기법을 재귀적으로 적용할 수 있다. 이때, 클러스터 판단부(121)는 크로스 연관 기법 적용하여 생성되는 클러스터가 생성전의 클러스터와 비교하여 정보량이 감소하지 않는 경우, 상기 클러스터를 말단 클러스터로 판단할 수 있다. 여기서, 계층적 클러스터링을 수행하는 과정은 도 4를 참고하여 이하에서 더욱 상세하게 설명한다.

도 4는 본 발명의 일실시예에 있어서, 계층적 클러스터링을 수행하는 과정을 설명하기 위한 도면이다.

도 4를 참고하면, 주어진 이진행렬 데이터(400)는 첫 번째 레벨에서 제1 클러스터(410) 및 제2 클러스터(420)로 분해될 수 있다. 여기서, 제2 클러스터(420)는 CA를 적용해도 정보량이 더 이상 감소하지 않으므로, 말단 클러스터로 판단될 수 있다. 제1 클러스터(410)는 하위 레벨로의 분해가 가능하고 두 번째 레벨에서 제3 클러스터(411) 및 제4 클러스터(412)로 분해될 수 있다. 따라서, 주어진 이진행렬(400)은 총 3개의 말단 클러스터를 가질 수 있다.

본 발명의 일실시예에 따른 계층적 클러스터링은, 행렬상의 존재하는 모든 열 객체가 관계있는 행 객체의 클러스터링에 관여할 수 있다. 모든 열 객체들과의 연관 관계 패턴이 유사한 행 객체가 같은 클러스터로 모이게 되므로, 모든 행 객체는 중복되지 않은 상태로 각각의 클러스터에 포함될 수 있다.

다시 도 1을 참고하면, 아웃라이어 검출부(130)는 복수의 클러스터 각각에 대하여 아웃라이어 노드(outlier node)를 검출할 수 있다. 본 발명의 일실시예에서는, CA를 클러스터링 관점에서 해석하므로, 주어진 데이터의 모든 객체는 각기 다른 클러스터에 포함된다. 따라서, 각 클러스터에는 같은 클러스터로 분류하기에 부적합한 객체가 존재 할 수 있으므로, 상기 부적합한 객체를 검출하는 아웃라이어 노드 검출 알고리즘을 통해 아웃라이어 노드를 검출할 수 있다.

이때, 아웃라이어 검출부(130)는 등급 결정부(131) 및 아웃라이어 결정부(132)를 포함할 수 있다.

등급 결정부(131)는 각 클러스터에 포함되는 각 이미지 데이터에 대한 아웃라이어 등급 및 상기 등급에 따른 각 이미지 데이터의 순서를 결정할 수 있다.

즉, 아웃라이어 노드를 검출하기 위해서는 각 객체의 아웃라이어의 등급을 결정해야 하므로, 객체의 아웃라이어 등급을 산출하는 방법 및 관련 용어를 이하에서 제안한다.

[수학식 1]

CF = I(C_i ) - I(C_i - n_ij )

여기서, [수학식 1]에서 사용된 용어는 하기 [표 1]과 같다.

용어	정의
C_i	i번째 클러스터
n_ij	i번째 클러스터의 j번째 객체
I(C_i)	i번째 클러스터의 정보량
CF	비용감소량(CostFall)

상기 [수학식 1]은 객체의 비용감소량(CostFall)을 구하는 공식이다. 또한, [표 1]에서 C_i는 i번째 클러스터를 의미하고 n_ij는 i번째 클러스터에 존재하는 j번째 객체를 의미한다. 또한, I(C_i)는 i번째 클러스터의 정보량을 의미한다. 따라서, 클러스터 안에 객체를 순차적으로 제거하고, [수학식 1]을 통해 해당 객체의 비용감소량을 구하여, 해당 객체의 비용감소량에 따라 해당 객체의 아웃라이어 등급을 결정할 수 있다. 이때, 비용감소량이 크면 클수록 아웃라이어 등급이 높은 것으로 결정할 수 있다.

즉, 아웃라이어의 대상이 되는 객체를 제거하기 전 클러스터의 정보량과 제거한 후 클러스터의 정보량을 측정한 다음 정보량의 차이인 비용 감소량을 구하고, 비용감소량이 가장 큰 객체가 등급이 가장 높은 아웃라이어가 될 수 있다. 따라서, 사용자는 등급이 가장 높은 k(기설정된 수)개의 객체를 아웃라이어로 검출할 수 있다. 이는, 어떤 객체가 제거됨으로써 해당 클러스터의 정보량의 크게 감소한다면 해당 객체는 클러스터의 엔트로피를 높이는 존재, 즉, 정보량을 증가시키는 존재임을 나타내기 때문이다. 본 발명의 일실시예에서는, 클러스터안의 다른 객체들에 비해 비용 감소량이 큰 상위 k개(기설정된 개수)의 객체들을 아웃라이어 객체로 간주할 수 있다. 한편, 아웃라이어 검출 절차를 알고리즘으로 표현하면 아래와 같다.

<아웃라이어 검출 알고리즘>

1: for 같은 레벨의 모든 클러스터에 대해

2: for 해당 클러스터의 모든 객체에 대해

3: do 비용감소량(CostFall) 측정

4: 비용감소량이 큰 상위 k개를 아웃라이어로 검출

5: If 해당 클러스터가 하위 레벨의 클러스터들이 존재하는 경우

6: then 하위 레벨의 모든 클러스터에 대해 outlier detection 진행

상기와 같이, 등급 결정부(131)는 이미지 데이터를 제거하기 전의 클러스터 정보량과 상기 이미지 데이터를 제거한 후의 클러스터 정보량의 차이를 산출하여, 상기 산출된 정보량이 클수록 상기 아웃라이어 등급을 높게 결정할 수 있고, 아웃라이어 결정부(132)는 각 이미지 데이터의 순서에 기초하여 기설정된 수의 이미지 데이터를 아웃라이어 노드로 결정할 수 있다. 여기서, 아웃라이어 노드를 검출하는 과정은 도 5를 참고하여 이하에서 더욱 상세하게 설명한다.

도 5는 본 발명의 일실시예에 있어서, 아웃라이어 노드를 검출하는 과정을 설명하기 위한 도면이다.

도 5를 참고하면, 클러스터(500)내의 각 이미지 데이터에 대해, 이미지 데이터를 제거하기 전의 클러스터 정보량과 상기 이미지 데이터를 제거한 후의 클러스터 정보량의 차이를 산출하고, 상기 산출된 정보량의 크기에 따라 각 이미지 데이터의 아웃라이어 등급을 결정할 수 있다. 도 5의 경우, 상기 등급 결정에 따라, 클러스터(500) 내에서 가장 이질적인 k(기설정된 수)개의 이미지 데이터들(510, 520, 530, 540, 550)이 아웃라이어로 결정될 수 있다. 이때, 이질적인 이미지 데이터인지 여부는, 이미지의 색, 무늬, 질감 등이 클러스터 내의 다른 이미지 데이터와 비교하여 이질적인지 여부를 고려하여 결정될 수 있다.

도 6은 본 발명의 일실시예에 따른, 이미지 데이터베이스에서의 클러스터링 방법을 설명하기 위한 도면이다.

도 6을 참고하면, 단계(610)에서는 복수의 이미지 데이터를 이진행렬로 변환할 수 있다. 여기서, 단계(610)는, 상기 복수의 이미지 데이터 간의 유사 여부를 이용하여 상기 복수의 이미지 데이터 간의 연관성을 나타내는 그래프를 생성하는 단계 및 상기 생성된 그래프를 상기 이진행렬로 변환하는 단계를 포함할 수 있다.

이때, 상기 그래프를 생성하는 단계는, K 최근접 이웃 검색 기법과 대칭 기법 및 비대칭 기법을 이용하여 상기 그래프를 생성할 수 있다. 상기 언급되었듯이, 대칭 기법은, 제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되고, 상기 제2 이미지 데이터의 관점에서 제1 이미지 데이터가 유사한 것으로 판단되면, 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성하고, 비대칭 기법은, 제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되면 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성할 수 있다.

단계(620)에서는 이진행렬을 표현하는 정보량이 최소가 되도록 상기 이진행렬의 행과 열의 순서를 변경하는 크로스 연관(Cross-Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성할 수 있다. 또한, 단계(620)는 생성되는 클러스터가 하위 클러스터를 포함하지 않는 말단 클러스터(leaf cluster)인지 판단하는 단계를 포함하고, 상기 생성되는 클러스터가 말단 클러스터가 아닌 경우, 생성되는 클러스터가 말단 클러스터일 때까지 상기 크로스 연관 기법을 재귀적으로 적용할 수 있다. 이때, 말단 클러스터인지 판단하는 단계는, 크로스 연관 기법 적용하여 생성되는 클러스터가 생성전의 클러스터와 비교하여 정보량이 감소하지 않는 경우, 상기 클러스터를 말단 클러스터로 판단할 수 있다.

이미지 데이터베이스에서의 클러스터링 방법은, 단계(630)을 더 포함할 수 있고, 단계(630)에서는 복수의 클러스터 각각에 대하여 아웃라이어 노드(outlier node)를 검출할 수 있다. 이때, 단계(630)는 각 클러스터에 포함되는 각 이미지 데이터에 대한 아웃라이어 등급 및 상기 등급에 따른 각 이미지 데이터의 순서를 결정하는 단계 및 상기 각 이미지 데이터의 순서에 기초하여 기설정된 수의 이미지 데이터를 아웃라이어 노드로 결정하는 단계를 포함할 수 있다.

여기서, 상기 아웃라이어 등급 결정은 이미지 데이터를 제거하기 전의 클러스터 정보량과 상기 이미지 데이터를 제거한 후의 클러스터 정보량의 차이를 산출하고, 상기 산출된 정보량이 클수록 상기 아웃라이어 등급을 높게 결정할 수 있다.

한편, 도 6에서 설명되지 않은 부분은 도 1 내지 도 5의 설명을 참고할 수 있다.

상기와 같이, 이미지 데이터를 크로스 연관 기법을 통해 클러스터링하고, 크로스 연관 기법을 클러스터링 관점으로 해석함으로써, 이미지 데이터를 매개변수 없이 클러스터링할 수 있다.

또한, 각 이미지 데이터에 대해 해당 이미지 데이터를 제거하는 경우의 비용감소량을 결정하고, 상기 비용감소량에 따라 아웃라이어 등급을 결정하여 아웃라이어를 검출함으로써, 아웃라이어 검출의 정확도를 높일 수 있다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 클러스터링 장치
110: 행렬 변환부
111: 그래프 생성부
112: 이진행렬 변환부
120: 클러스터 생성부
121: 클러스터 판단부
130: 아웃라이어 검출부
131: 등급 결정부
132: 아웃라이어 결정부

Claims

복수의 이미지 데이터를 이진행렬로 변환하는 행렬 변환부; 및
상기 이진행렬을 표현하는 정보량이 최소가 되도록 상기 이진행렬의 행과 열의 순서를 변경하는 크로스 연관(Cross- Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성하는 클러스터 생성부
를 포함하는 것을 특징으로 하는 클러스터링 장치.
제1항에 있어서,
상기 행렬 변환부는,
상기 복수의 이미지 데이터 간의 유사 여부를 이용하여 상기 복수의 이미지 데이터 간의 연관성을 나타내는 그래프를 생성하는 그래프 생성부; 및
상기 생성된 그래프를 상기 이진행렬로 변환하는 이진행렬 변환부
를 포함하는 것을 특징으로 하는 클러스터링 장치.
제2항에 있어서,
상기 그래프 생성부는,
K 최근접 이웃 검색 기법을 수행한 후, 대칭 기법 및 비대칭 기법을 이용하여 상기 그래프를 생성하고,
상기 대칭 기법은,
제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되고, 상기 제2 이미지 데이터의 관점에서 제1 이미지 데이터가 유사한 것으로 판단되면, 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성하고,
상기 비대칭 기법은,
제1 이미지 데이터의 관점에서 제2 이미지 데이터가 유사한 것으로 판단되면 상기 제1 이미지 데이터와 상기 제2 이미지 데이터 사이에 간선을 생성하는 것을 특징으로 하는 클러스터링 장치.
제1항에 있어서,
상기 클러스터 생성부는,
생성되는 클러스터가 하위 클러스터를 포함하지 않는 말단 클러스터(leaf cluster)인지 판단하는 클러스터 판단부를 포함하고,
상기 생성되는 클러스터가 말단 클러스터가 아닌 경우, 생성되는 클러스터가 말단 클러스터일 때까지 상기 크로스 연관 기법을 재귀적으로 적용하는 것을 특징으로 하는 클러스터링 장치.
제4항에 있어서,
상기 클러스터 판단부는,
크로스 연관 기법 적용하여 생성되는 클러스터가 생성전의 클러스터와 비교하여 정보량이 감소하지 않는 경우, 상기 클러스터를 말단 클러스터로 판단하는 것을 특징으로 하는 클러스터링 장치.
제1항에 있어서,
상기 복수의 클러스터 각각에 대하여 아웃라이어 노드(outlier node)를 검출하는 아웃라이어 검출부
를 더 포함하는 것을 특징으로 하는 클러스터링 장치.
제6항에 있어서,
상기 아웃라이어 검출부는,
각 클러스터에 포함되는 각 이미지 데이터에 대한 아웃라이어 등급 및 상기 등급에 따른 각 이미지 데이터의 순서를 결정하는 등급 결정부; 및
상기 각 이미지 데이터의 순서에 기초하여 기설정된 수의 이미지 데이터를 아웃라이어 노드로 결정하는 아웃라이어 결정부
를 포함하는 것을 특징으로 하는 클러스터링 장치.
제7항에 있어서,
상기 등급 결정부는,
이미지 데이터를 제거하기 전의 클러스터 정보량과 상기 이미지 데이터를 제거한 후의 클러스터 정보량의 차이를 산출하고, 상기 산출된 정보량이 클수록 상기 아웃라이어 등급을 높게 결정하는 것을 특징으로 하는 클러스터링 장치.
복수의 이미지 데이터를 이진행렬로 변환하는 단계; 및
상기 이진행렬을 표현하는 정보량이 최소가 되도록 상기 이진행렬의 행과 열의 순서를 변경하는 크로스 연관(Cross-Association) 기법을 재귀적으로 적용하여 복수의 클러스터를 생성하는 단계
를 포함하는 것을 특징으로 하는 클러스터링 방법.
제9항에 있어서,
상기 이진행렬로 변환하는 단계는,
상기 복수의 이미지 데이터 간의 유사 여부를 이용하여 상기 복수의 이미지 데이터 간의 연관성을 나타내는 그래프를 생성하는 단계; 및
상기 생성된 그래프를 상기 이진행렬로 변환하는 단계
를 포함하는 것을 특징으로 하는 클러스터링 방법.