KR101617317B1

KR101617317B1 - 이진 자료를 군집화하는 방법 및 장치

Info

Publication number: KR101617317B1
Application number: KR1020140135083A
Authority: KR
Inventors: 권인소; 박채훈; 최유경
Original assignee: 한국과학기술원
Priority date: 2013-10-28
Filing date: 2014-10-07
Publication date: 2016-05-02
Also published as: KR20150048631A

Abstract

장치가 이진 자료를 군집화하는 방법으로서, 이진 자료들과 군집들의 거리를 기초로 이진 자료들 각각을 어느 하나의 군집에 할당하는 단계, 그리고 각 군집에 할당된 이진 자료들의 값을 이용하여 해당 군집의 대표값을 계산하는 단계를 포함하고, 상기 대표값을 계산하는 단계는 자료의 벡터 벡터 성분별로 제1 군집에 할당된 이진 자료들을 합산하여 합 벡터를 생성하고, 상기 합 벡터의 각 벡터 성분을 문턱값으로 이진화하여 상기 제1 군집의 대표 벡터를 계산한다.

Description

이진 자료를 군집화하는 방법 및 장치{BINARY DATA CLUSTERING METHOD AND APPARATUS}

본 발명은 이진 자료를 군집화하는 방법 및 장치에 관한 것이다.

군집화(clustering)는 유사한 속성의 자료를 묶는 방법으로서, N개의 d차원 자료를 K개의 군집으로 분류할 수 있다. 예를 들어, 도 1과 같이 주어진 자료를 3개의 군집(K=3)으로 군집화할 수 있다.

대표적인 군집화 알고리즘으로 케이민즈(kMeans) 군집화 방법이 있다. kMeans 군집화는 데이터 마이닝과 컴퓨터 비전 분야에서 광범위하게 사용되고 있다. kMeans 군집화는 데이터에서 K개를 군집(클러스터)으로 무작위로 선택하고, 군집 할당 단계(cluster assignment step)와 군집 갱신 단계(cluster update step)를 반복한다. 다만, kMeans 군집화는 높은 차원의 많은 양의 데이터를 군집화하기에 많은 연산을 해야 하는 단점이 있다.

최근 컴퓨터 비전 분야에서, 이진 기술자에 대한 연구가 주목받고 있다. 이진 기술자의 출현으로 더 적은 메모리로 많은 정보를 표현하면서 기술자 간의 계산을 빠르게 할 수 있는 가능성이 열렸다.

그러나, kMeans 군집화는 실수형 자료를 군집화하는데 이용되는 반면, 이진 자료를 군집화하기 어렵다. 왜냐하면, 이진 자료는 군집화 과정에서 군집을 갱신하기 위한 대표값을 재계산하기가 어렵기 때문이다. 따라서, 이진 자료로 이루어진 군집의 대표값을 계산할 수 있다면, 이진 자료를 kMeans 군집화할 수 있다.

본 발명이 해결하고자 하는 과제는 이진 자료를 군집화하는 방법 및 장치를 제공하는 것이다.

본 발명의 한 실시예에 따른 장치가 이진 자료를 군집화하는 방법으로서, 이진 자료들과 군집들의 거리를 기초로 이진 자료들 각각을 어느 하나의 군집에 할당하는 단계, 그리고 각 군집에 할당된 이진 자료들의 값을 이용하여 해당 군집의 대표값을 계산하는 단계를 포함하고, 상기 대표값을 계산하는 단계는 자료의 벡터 성분별로 제1 군집에 할당된 이진 자료들을 합산하여 합 벡터를 생성하고, 상기 합 벡터의 각 벡터 성분을 문턱값으로 이진화하여 상기 제1 군집의 대표 벡터를 계산한다.

상기 군집화 방법은 상기 합 벡터의 벡터 성분들 중에서 0으로 이진화되는 벡터 성분의 개수 또는 1로 이진화되는 벡터 성분의 개수를 설정하고, 설정한 개수에 해당하는 이진화 결과를 얻기 위한 실수값을 상기 문턱값으로 결정하는 단계를 더 포함할 수 있다.

상기 문턱값으로 결정하는 단계는 0으로 이진화되는 벡터 성분 수와 1로 이진화되는 벡터 성분 수가 같게 되는 실수값을 상기 문턱값으로 결정할 수 있다.

상기 대표값을 계산하는 단계는 벡터 성분 값을 기준으로 상기 합 벡터의 벡터 성분들을 순차적으로 정렬하고, 정렬한 벡터 성분들 중 특정 순서의 벡터 성분 값을 상기 문턱값으로 결정할 수 있다.

상기 특정 순서는 정렬한 벡터 성분들의 중간 순서일 수 있다.

본 발명의 다른 실시예에 따른 장치가 d차원의 이진 자료들을 군집화하는 방법으로서, 군집에 속한 이진 자료들을 합산하여 합 벡터를 획득하는 단계, 상기 합 벡터의 차원들을 차원값을 기준으로 순차적으로 정렬하는 단계, 정렬된 차원값 분포를 기초로 문턱값을 결정하는 단계, 그리고 상기 문턱값을 기초로 상기 합 벡터에 포함된 각 차원의 실수값을 이진화하여 상기 군집의 대표 벡터를 결정하는 단계를 포함하고, 상기 차원은 자료의 길이로서 벡터 성분에 대응하고, 상기 d는 자연수이다.

상기 군집화 방법은 상기 군집의 대표값을 상기 대표 벡터로 갱신하는 단계를 더 포함할 수 있다.

상기 문턱값을 결정하는 단계는 상기 대표 벡터의 d개의 차원들 중에서 값이 0인 차원의 개수 또는 값이 1인 차원의 개수를 설정하고, 설정한 개수에 해당하는 이진화 결과를 얻기 위한 실수값을 상기 문턱값으로 결정할 수 있다.

상기 문턱값으로 결정하는 단계는 차원값을 기준으로 순차적으로 정렬된 차원들 중에서 d/2번째의 차원값을 상기 문턱값으로 결정할 수 있다.

본 발명의 또 다른 실시예에 따른 이진 자료를 군집화하는 군집화 장치로서, 메모리 장치, 그리고 상기 메모리 장치와 연동하여 프로그램을 처리하는 프로세서를 포함하고, 상기 프로그램은 이진 자료들과 군집들의 거리를 기초로 이진 자료들 각각을 어느 하나의 군집에 할당하는 단계, 그리고 자료의 벡터 성분별로 각 군집에 할당된 이진 자료들을 합산하여 해당 군집의 합 벡터를 생성하고, 상기 합 벡터의 각 벡터 성분을 문턱값으로 이진화하여 해당 군집의 대표 벡터를 계산하는 단계를 수행하도록 구현된 소프트웨어이다.

상기 프로그램은 제1 군집에 속한 이진 자료들을 합산하여 상기 제1 군집의 합 벡터를 획득하는 단계, 상기 제1 군집의 합 벡터의 벡터 성분들을 벡터 성분 값을 기준으로 순차적으로 정렬하는 단계, 정렬된 벡터 성분 값 분포를 기초로 문턱값을 결정하는 단계, 그리고 상기 문턱값을 기초로 상기 제1 군집의 합 벡터에 포함된 각 벡터 성분의 실수값을 이진화하여 상기 제1 군집의 대표 벡터를 결정하는 단계를 수행하도록 구현된 소프트웨어일 수 있다.

본 발명의 실시예에 따르면 이진 자료로 이루어진 군집의 대표값을 계산할 수 있고, 이를 통해 이진 자료를 군집화할 수 있다.

도 1은 군집화를 설명하는 도면이다.
도 2는 본 발명의 한 실시예에 따른 군집화 방법의 흐름도이다.
도 3은 본 발명의 한 실시예에 따른 문턱값 결정 방법을 설명하는 도면이다.
도 4는 본 발명의 한 실시예에 따른 군집 대표값 획득 방법의 흐름도이다.
도 5는 본 발명의 한 실시예에 따른 군집 대표값 획득 방법을 설명하는 도면이다.
도 6은 본 발명의 한 실시예에 따른 군집화 장치의 블록도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 2는 본 발명의 한 실시예에 따른 군집화 방법의 흐름도이다.

도 2를 참고하면, 군집화 장치는 자료들의 유사성을 기초로 복수의 자료들을 복수의 군집으로 분류한다. 여기서, 군집화 장치가 이진 자료를 군집화는 것에 대해 설명한다.

군집화 장치는 K개의 자료를 군집으로 선택한다(S110). 즉, 초기화 단계로서, 무작위로 선택된 K개의 자료 각각이 군집을 대표하는 대표값으로 지정되고, 다음의 할당 및 갱신 단계들을 반복적으로 수행하여 군집을 갱신한다. 여기서, 군집 대표값(클러스터값)은 평균값, 중심값 등으로 불릴 수 있고, 군집 대표값 역시 이진 자료이므로 벡터로 표현될 수 있다.

군집화 장치는 입력 자료와 군집의 거리를 기초로 입력 자료를 어느 하나의 군집에 할당한다(S120). 즉, 군집화 장치는 자료와 군집 사이의 거리 계산을 통해 자료와 군집을 연결한다. 이때, 군집화 장치는 이진 자료를 군집화하므로, 자료값과 군집 대표값의 xor 연산을 통해 거리를 빠르게 계산할 수 있다.

군집화 장치는 각 군집에 할당된 자료들의 값을 이용하여 각 군집의 대표값을 갱신한다(S130). 즉, 군집화 장치는 군집에 연결된 자료들을 통해 군집 대표값을 재계산하는데, 자료가 실수형 자료가 아니라 이진 자료이므로, 실수값처럼 평균을 구하는 대신, 이진 자료들을 합산한 벡터(합 벡터)의 벡터 성분(차원) 각각의 값을 문턱값으로 이진화하여 군집 대표값을 계산한다.

군집화 장치는 군집 대표값이 수렴할 때까지 군집 할당 단계(S120)와 군집 갱신 단계(S130)를 반복하면서 입력 자료들을 군집화한다.

즉, 군집과 이진 자료 사이의 거리는 xor 연산으로 빠르게 계산되어 이진 자료를 빠르게 어느 군집에 할당할 수 있지만, 지금까지는 이진 자료들로 구성된 군집의 대표값을 계산하기가 쉽지 않았다. 하지만, 본원 발명은 군집 갱신 단계(S130)에서, 군집화 장치가 군집에 속한 이진 자료들의 합 벡터를 문턱값으로 이진화하여 정규화된 군집 대표값을 계산한다. 다음에서, 이진의 군집 대표값을 계산하여 이진 자료들을 군집화하는 방법에 대해 자세히 설명한다.

도 3은 본 발명의 한 실시예에 따른 문턱값 결정 방법을 설명하는 도면이다.

도 3을 참고하면, 이진 자료들이 속한 군집의 대표값을 계산하기 위해 이진 자료들의 합 벡터를 사용한다. 이진 자료는 d차원(자료의 길이가 d, d는 자연수)의 이진 벡터이므로, 합 벡터는 이진 벡터들의 벡터 합이다. 앞으로 설명을 위해, 이진 벡터와 합 벡터를 수학식 1과 같이 표현한다. 여기서, 벡터 성분인 E₁, E₂, E₃,..., E_d를 차원이라고도 부르고, 벡터 성분의 값을 차원값이라고도 부른다.

[수학식 1]

V=(E₁,E₂,E₃,...,E_d)

N개의 이진 자료가 군집에 할당된 경우, N개의 이진 자료를 더한 합 벡터는 벡터 성분에 해당하는 차원(E₁, E₂, E₃,..., E_d) 각각이 0에서 N 사이의 어느 정수 값을 가진 실수 벡터로 표현된다.

군집화 장치는 합 벡터의 차원값의 크기 순서로 차원을 정렬한다. 그리고, 군집화 장치는 임의 차원값을 문턱값으로 설정한다. 그리고, 군집화 장치는 합 벡터의 차원값 각각을 문턱값으로 이진화하여 군집 대표값을 결정한다. 여기서 군집 대표값은 수학식 1과 같은 이진 벡터이고, 군집 대표 벡터 또는 평균 벡터라고 부를 수 있다.

이때, 문턱값에 따라 군집 대표값이 수렴하지 않을 수 있고, 군집 대표값이 수렴하지 않으면 결국 군집화에 문제가 발생한다.

따라서, 본 발명은 이진 자료에 포함된 1의 개수가 특정 개수라는 가정을 하고, 군집을 대표하는 이진의 군집 대표 벡터 역시 1의 개수가 특정 개수가 되어야 한다는 조건을 이용하여 문턱값을 선택함으로써 이진 자료에 대한 군집화를 가능하게 한다.

문턱값을 통해 합 벡터를 이진화하였을 때, 군집 대표 벡터에 포함된 0의 개수가 특정 개수(n₀)가 되게 하기 위해서, 합 벡터의 차원값 중에서 n₀번째로 작은 값을 문턱값으로 설정한다. 그리고, 차원값이 문턱값보다 작은 값을 0으로 이진화한다. 정규화된 d차원의 이진 자료라면 합 벡터의 차원값 순서에 따라 차원을 정렬하고, 정렬된 순서에서 d/2번째 차원값을 문턱값으로 사용하여 합 벡터의 차원값 각각을 이진화하면 정규화된 이진 자료(이진 벡터)를 군집의 대표값으로 얻을 수 있다.

도 4는 본 발명의 한 실시예에 따른 군집 대표값 획득 방법의 흐름도이고, 도 5는 본 발명의 한 실시예에 따른 군집 대표값 획득 방법을 설명하는 도면이다.

도 4를 참고하면, 군집화 장치는 군집에 속한 이진 자료들을 합산한 합 벡터를 계산한다(S210). N개의 이진 자료가 군집에 할당된 경우, N개의 이진 자료를 더한 합 벡터는 차원값(벡터 성분 값) 각각이 0에서 N 사이의 어느 정수 값을 가진 실수 벡터이다. 예를 들어, 합 벡터는 도 5의 (a)와 같이, 차원 순서(1, 2, 3,..., d)(가로축)에 따라 해당 차원의 값(세로축)을 나타내는 그래프로 표시될 수 있다.

군집화 장치는 차원값을 기준으로 합 벡터의 차원들을 순차적으로 정렬한다(S220). 예를 들어, 도 5의 (b)와 같이 차원값에 따라 내림차순으로 정렬될 수 있다.

군집화 장치는 정렬된 차원값 분포를 기초로 문턱값을 결정한다(S230). 도 5의 (c)를 참고하면, 정렬된 차원값들 중에서 문턱값이 결정된다. 문턱값보다 큰 차원값은 1로 이진화되고, 문턱값보다 작은 차원값은 0으로 이진화된다. 문턱값은 다양한 방법으로 선택될 수 있다. 문턱값은 이진의 군집 대표 벡터(군집 대표값)에서 0 또는 1의 개수가 정해진 경우, 정해진 개수의 0 또는 1을 가지도록 선택될 수 있다. 군집화 장치는 0과 1의 개수가 같아지도록 문턱값을 결정하여 군집 대표 벡터를 정규화할 수 있다. 즉, 군집화 장치는 차원값을 기준으로 정렬된 그래프에서 d/2번째 차원값을 문턱값으로 결정할 수 있다.

군집화 장치는 문턱값을 기초로 합 벡터의 차원 각각의 실수값을 이진화하여 군집 대표 벡터를 출력한다(S240). 도 5의 (d)를 참고하면, 도 5의 (a)의 각 차원의 실수값이 문턱값을 기준으로 0 또는 1의 이진값으로 표현된다.

실수형 자료에 대한 kMeans 군집화 성능과 본원 발명을 비교하기 위해, 실수형 자료를 이진화한 후 본 발명의 이진 군집화를 수행하면, 실수형 자료에 대한 kMeans 군집화와 유사하게 수렴하는 결과를 보인다. 또한 정규화된 이진 기술자를 이용한 인식 실험에서 기존 방법과 비슷한 성능을 보인다.

도 6은 본 발명의 한 실시예에 따른 군집화 장치의 블록도이다.

도 6을 참고하면, 군집화 장치(100)는 프로세서(110), 메모리 장치(120), 저장 장치(130) 등을 포함하는 하드웨어로 구성되고, 하드웨어와 결합되어 실행되는 다양한 소프트웨어/프로그램이 지정된 장소에 저장된다. 하드웨어는 본 발명의 방법을 실행할 수 있는 구성과 성능을 가진다.

본 발명의 군집화 방법은 프로그래밍 언어로 프로그램되어 하드웨어에 탑재되고, 프로세서는 프로그램을 구동하여 본 발명의 군집화 방법을 수행한다. 군집화 장치(100)는 본 발명의 군집화 방법을 구동시키는 소프트웨어/프로그램을 실행할 수 있는 성능의 컴퓨터, 서버, 단말 등의 장치일 수 있다.

프로세서(110)는 메모리 장치 등의 하드웨어와 연동하여 프로그램을 처리한다. 프로그램은 이진 자료들과 군집들의 거리를 기초로 이진 자료들 각각을 어느 하나의 군집에 할당하는 단계, 그리고 자료의 벡터 성분별로 각 군집에 할당된 이진 자료들을 합산하여 해당 군집의 합 벡터를 생성하고, 상기 합 벡터의 각 벡터 성분을 문턱값으로 이진화하여 해당 군집의 대표 벡터를 계산하는 단계를 수행하도록 구현된 소프트웨어일 수 있다.

프로그램은 제1 군집에 속한 이진 자료들을 합산하여 상기 제1 군집의 합 벡터를 획득하는 단계, 상기 제1 군집의 합 벡터의 벡터 성분들을 벡터 성분 값을 기준으로 순차적으로 정렬하는 단계, 정렬된 벡터 성분 값 분포를 기초로 문턱값을 결정하는 단계, 그리고 상기 문턱값을 기초로 상기 제1 군집의 합 벡터에 포함된 각 벡터 성분의 실수값을 이진화하여 상기 제1 군집의 대표 벡터를 결정하는 단계를 수행하도록 구현된 소프트웨어일 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

장치가 이진 자료를 군집화하는 방법으로서,
이진 자료들과 군집들의 거리를 기초로 이진 자료들 각각을 어느 하나의 군집에 할당하는 단계, 그리고
각 군집에 할당된 이진 자료들의 값을 이용하여 해당 군집의 대표값을 계산하는 단계를 포함하고,
상기 대표값을 계산하는 단계는
자료의 벡터 성분별로 제1 군집에 할당된 이진 자료들을 합산하여 합 벡터를 생성하는 단계,
상기 합 벡터의 벡터 성분들 중에서 0으로 이진화되는 벡터 성분의 개수 또는 1로 이진화되는 벡터 성분의 개수를 설정하고, 설정한 개수에 해당하는 이진화 결과를 얻기 위한 실수값을 문턱값으로 결정하는 단계, 그리고,
상기 합 벡터의 각 벡터 성분을 상기 문턱값으로 이진화하여 상기 제1 군집의 대표값인 대표 벡터를 계산하는 단계
를 포함하는 군집화 방법.
삭제
제1항에서,
상기 문턱값으로 결정하는 단계는
0으로 이진화되는 벡터 성분 수와 1로 이진화되는 벡터 성분 수가 같게 되는 실수값을 상기 문턱값으로 결정하는 군집화 방법.
제1항에서,
상기 문턱값으로 결정하는 단계는
벡터 성분 값에 따라 상기 합 벡터의 벡터 성분들을 순차적으로 정렬하고, 정렬한 벡터 성분들 중 특정 순서의 벡터 성분 값을 상기 문턱값으로 결정하며,
상기 특정 순서는 상기 0으로 이진화되는 벡터 성분의 개수 또는 1로 이진화되는 벡터 성분의 개수에 의해 결정되는 군집화 방법.
제4항에서,
상기 특정 순서는 정렬한 벡터 성분들의 중간 순서인 군집화 방법.
장치가 d차원의 이진 자료들을 군집화하는 방법으로서,
군집에 속한 이진 자료들을 합산하여 합 벡터를 획득하는 단계,
상기 합 벡터의 차원들을 차원값을 기준으로 순차적으로 정렬하는 단계,
정렬된 차원값 분포를 기초로 문턱값을 결정하는 단계, 그리고
상기 문턱값을 기초로 상기 합 벡터에 포함된 각 차원의 실수값을 이진화하여 상기 군집의 대표 벡터를 결정하는 단계를 포함하고,
상기 차원은 자료의 길이로서 벡터 성분에 대응하고, 상기 d는 자연수인 군집화 방법.
제6항에서,
상기 군집의 대표값을 상기 대표 벡터로 갱신하는 단계
를 더 포함하는 군집화 방법.
제6항에서,
상기 문턱값을 결정하는 단계는
상기 대표 벡터의 d개의 차원들 중에서 값이 0인 차원의 개수 또는 값이 1인 차원의 개수를 설정하고, 설정한 개수에 해당하는 이진화 결과를 얻기 위한 실수값을 상기 문턱값으로 결정하는 군집화 방법.
제6항에서,
상기 문턱값으로 결정하는 단계는
차원값을 기준으로 순차적으로 정렬된 차원들 중에서 d/2번째의 차원값을 상기 문턱값으로 결정하는 군집화 방법.
이진 자료를 군집화하는 군집화 장치로서,
메모리 장치, 그리고 상기 메모리 장치와 연동하여 프로그램을 처리하는 프로세서를 포함하고,
상기 프로그램은
이진 자료들과 군집들의 거리를 기초로 이진 자료들 각각을 어느 하나의 군집에 할당하는 단계, 그리고 자료의 벡터 성분별로 각 군집에 할당된 이진 자료들을 합산하여 해당 군집의 합 벡터를 생성하고, 상기 합 벡터의 각 벡터 성분을 문턱값으로 이진화하여 해당 군집의 대표 벡터를 계산하는 단계
를 수행하도록 구현된 소프트웨어이고,
상기 프로그램은
상기 대표 벡터를 계산하는 단계를 수행하는 경우,
제1 군집에 속한 이진 자료들을 합산하여 상기 제1 군집의 합 벡터를 생성하고, 상기 제1 군집의 합 벡터의 벡터 성분들을 벡터 성분 값에 따라 순차적으로 정렬하며, 정렬된 벡터 성분 값 분포를 기초로 문턱값을 결정한 후, 상기 문턱값을 기초로 상기 제1 군집의 합 벡터에 포함된 각 벡터 성분의 실수값을 이진화하여 상기 제1 군집의 대표 벡터를 결정하도록 구현된 소프트웨어인, 군집화 장치.
삭제