KR102234013B1

KR102234013B1 - 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치

Info

Publication number: KR102234013B1
Application number: KR1020200004440A
Authority: KR
Inventors: 윤희용; 이병준; 김경태; 파디스 버잔디; 김민우; 이태호
Original assignee: 성균관대학교산학협력단
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2021-03-30
Also published as: US11604950B2; US20210216832A1

Abstract

본 발명은 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치에 관한 것으로, 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법은, 데이터 포인트를 복수 개의 클러스터로 클러스터링하는 단계, 상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하는 단계, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하는 단계, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하는 단계, 및 상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하는 단계를 포함한다.

Description

클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치{METHODS AND APPARATUSES FOR CLASSIFYING DATA POINT USING CONVEX HULL BASED ON CENTROID OF CLUSTER}

본 발명은 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치에 관한 것이다.

무선 센서 네트워크는 IoT(Internet of Things) 환경에서 효율적인 데이터 수집 및 전송을 가능하게 한다. 또한, 서포트 벡터 머신(SVM, Support Vector Machine)은 뛰어난 견고성으로 인해 다양한 분류 문제에 널리 적용되는 효율적인 기계 학습 기술이다.

하지만, 데이터양이 기하급수적으로 증가함에 따라 트레이닝(Training) 시간이 많이 증가한다. 결과적으로, 서포트 벡터 머신의 성능은 현저히 낮아지게 된다. 서포트 벡터 머신은 대규모 데이터 세트에 대한 문제를 해결하기에 적합하지 않다는 문제점이 있다.

본 발명의 실시예들은 대규모 데이터 세트를 효율적으로 분류하여 트레이닝 시간을 크게 단축시킬 수 있는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치를 제공하고자 한다.

본 발명의 실시예들은 서포트 벡터 클러스터(Support Vector Cluster)와 컨벡스 헐을 조합하여 서포트 벡터 머신의 트레이닝 시간을 2단계로 감소시킴으로써, 중복 트레이닝 데이터를 효과적으로 제거할 수 있는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법 및 장치를 제공하고자 한다.

다만, 본 발명의 해결하고자 하는 과제는 이에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위의 환경에서도 다양하게 확장될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 데이터 포인트 분류 장치에 의해 수행되는 데이터 포인트 분류 방법에 있어서, 데이터 포인트를 복수 개의 클러스터로 클러스터링하는 단계; 상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하는 단계; 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하는 단계; 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하는 단계; 및 상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하는 단계를 포함하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법이 제공될 수 있다.

상기 클러스터링하는 단계는, K-평균 클러스터링(K-mean Clustering) 알고리즘을 사용하여 상기 데이터 포인트를 복수 개의 클러스터로 분할할 수 있다.

상기 복수 개의 클러스터의 수는, 상기 데이터 포인트의 개수 및 상기 데이터 포인트로 이루어지는 데이터 세트의 구조에 기초하여 선택될 수 있다.

상기 클러스터링된 복수 개의 클러스터는, 적어도 하나의 단일 클래스 레이블을 가진 단일 클러스터와 적어도 하나의 복수 클래스 레이블을 가진 혼합 클러스터(Mix Cluster)를 포함할 수 있다.

상기 단일 클러스터를 제거하는 단계는, 상기 단일 클러스터의 중심 집합에 서포트 벡터 머신(Support Vector Machine)을 적용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 서포트 벡터(Support Vector)로 설정할 수 있다.

상기 컨벡스 헐을 생성하는 단계는, 퀵헐(Quickhull) 알고리즘을 사용하여 상기 단일 클러스터에 대한 컨벡스 헐을 생성할 수 있다.

상기 내부 데이터 포인트를 제거하는 단계는, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점을 선택하고, 상기 선택된 컨벡스 헐의 꼭짓점을 제외하고 상기 선택된 컨벡스 헐의 내부에 위치한 내부 데이터 포인트를 제거할 수 있다.

상기 내부 데이터 포인트를 제거하는 단계는, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터마다 상기 생성된 컨벡스 헐의 꼭짓점을 각각 선택할 수 있다.

상기 잔여 데이터 포인트 세트는, 상기 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점과, 상기 클러스터링된 복수 개의 클러스터 중에서 복수 클래스 레이블을 가진 혼합 클러스터의 데이터 포인트가 결합되어 구성될 수 있다.

상기 잔여 데이터 포인트 세트를 분류하는 단계는, 상기 잔여 데이터 포인트 세트에 대해 서포트 벡터 머신을 적용하여 상기 잔여 데이터 포인트를 분류할 수 있다.

한편, 본 발명의 다른 실시예에 따르면, 하나 이상의 프로그램을 저장하는 메모리; 및 상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 데이터 포인트를 복수 개의 클러스터로 클러스터링하고, 상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하고, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하고, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하고, 상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치가 제공될 수 있다.

상기 프로세서는, K-평균 클러스터링(K-mean Clustering) 알고리즘을 사용하여 상기 데이터 포인트를 복수 개의 클러스터로 분할할 수 있다.

상기 프로세서는, 상기 단일 클러스터의 중심 집합에 서포트 벡터 머신(Support Vector Machine)을 적용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 서포트 벡터(Support Vector)로 설정할 수 있다.

상기 프로세서는, 퀵헐(Quickhull) 알고리즘을 사용하여 상기 단일 클러스터에 대한 컨벡스 헐을 생성할 수 있다.

상기 프로세서는, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점을 선택하고, 상기 선택된 컨벡스 헐의 꼭짓점을 제외하고 상기 선택된 컨벡스 헐의 내부에 위치한 내부 데이터 포인트를 제거할 수 있다.

상기 프로세서는, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터마다 상기 생성된 컨벡스 헐의 꼭짓점을 각각 선택할 수 있다.

상기 프로세서는, 상기 잔여 데이터 포인트 세트에 대해 서포트 벡터 머신을 적용하여 상기 잔여 데이터 포인트를 분류할 수 있다.

한편, 본 발명의 다른 실시예에 따르면, 프로세서에 의해 실행 가능한 하나 이상의 프로그램을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 하나 이상의 프로그램은 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금: 데이터 포인트를 복수 개의 클러스터로 클러스터링하고, 상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하고, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하고, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하고, 상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하게 하는 명령어들을 포함하는, 비 일시적 컴퓨터 판독 가능한 저장 매체가 제공될 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 실시예들은 대규모 데이터 세트를 효율적으로 분류하여 트레이닝 시간을 크게 단축시킬 수 있다.

본 발명의 실시예들은 서포트 벡터 클러스터(Support Vector Cluster)와 컨벡스 헐을 조합하여 서포트 벡터 머신의 트레이닝 시간을 2단계로 감소시킴으로써, 중복 트레이닝 데이터를 효과적으로 제거할 수 있다.

본 발명의 실시예들은 종래에 연구된 기법들과 비교하여 높은 분류 정확도를 나타내면서 종래의 클러스터링을 기반으로 한 트레이닝 데이터 감소 기법들과의 차별화된 단축 효과를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치의 구성을 나타낸 구성도이다.
도 2는 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 사용된 트레이닝 데이터 포인트의 클러스터링 구성을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 초기 SVM이 클러스터 중심을 선택한 구성을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 나머지 단일 클러스터가 제거된 입력 데이터 포인트를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 컨벡스 헐의 꼭짓점 식별 단계를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 잔여 데이터 포인트 세트를 나타낸 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법을 나타낸 상세 흐름도이다.
도 10은 가우시안 분포에 의한 데이터 포인트 세트를 나타낸 도면이고, 도 11은 본 발명의 일 실시예가 도 10에 적용된 후의 잔여 데이터 포인트를 나타낸 도면이다.
도 12는 가우시안 분포 수치를 1.96으로 증가시킨 데이터 포인트 세트를 나타낸 도면이고, 도 13은 본 발명의 일 실시예가 도 11에 적용된 후의 잔여 데이터 포인트를 나타낸 도면이다.
도 14는 본 발명의 일 실시예가 적용된 후의 잔여 데이터 수에 대한 클러스터 수를 나타낸 도면이다.
도 15 및 도 16은 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 스킨 세그먼테이션 데이터 세트를 이용한 트레이닝 시간 비교 및 분류 정확도를 나타낸 도면이다.
도 17 및 도 18은 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 바나나 데이터 세트를 이용한 트레이닝 시간 비교 및 분류 정확도를 나타낸 도면이다.
도 19 내지 도 22는 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 인공 데이터 세트를 이용한 트레이닝 시간 비교를 나타낸 도면이다.
도 23 내지 도 26은 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 인공 데이터 세트를 이용한 분류 정확도 비교를 나타낸 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치의 구성을 나타낸 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다. 그러나 도시된 구성요소 모두가 필수 구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 데이터 포인트 분류 장치(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 데이터 포인트 분류 장치(100)가 구현될 수 있다.

본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치(100)는 전체 트레이닝 데이터 포인트를 K-평균(K-means) 클러스터링 알고리즘을 이용하여 클러스터링한 뒤, 각 클러스터의 중심에 서포트 벡터 머신(SVM)을 적용하여 서포트 벡터와 관련이 없는 단일 클래스 레이블을 갖는 중복적인 단일 클러스터를 제거한다.

서포트 벡터 머신(Support Vector Machine, SVM)은 두 클래스 사이에서 최대 거리를 가지는 초평면을 찾아 데이터 포인트를 분리한다. 이때의 초평면은 서포트 벡터(Support Vector, SV)로 구성된다. 따라서 서포트 벡터는 서포트 벡터 머신 알고리즘에서 필요한 유일한 트레이닝 데이터 포인트이다. 데이터 포인트 분류 장치(100)는 서포트 벡터를 이용하여 서포트 벡터 머신을 활용한 분류 정확도에 영향을 주지 않고 다른 데이터 포인트를 제거할 수 있다. 따라서 데이터 포인트 분류 장치(100)는 데이터 트레이닝 시간과 분류의 복잡성이 크게 감소시킬 수 있다. 특히, 대규모 데이터 세트에서의 경우, 본 발명의 일 실시예에 따른 데이터 포인트 분류 장치(100)는 나머지 중심이 포함된 단일 클러스터의 데이터 포인트를 제거하는 동안 서포트 벡터 머신의 트레이닝에 필요한 서포트 벡터를 효율적으로 식별할 수 있다.

데이터 포인트 분류 장치(100)는 중복적인 단일 클러스터가 제거된 뒤, 컨벡스 헐(Convex hull) 알고리즘을 잔여 단일 클러스터에 적용하여 컨벡스 헐의 꼭짓점만을 트레이닝 데이터 포인트로 선정한다. 그리고 데이터 포인트 분류 장치(100)는 컨벡스 헐의 꼭짓점을 제외한 잔여 단일 클러스터를 구성하고 있는 내부 데이터 포인트를 모두 제거한다. 이와 같이, 본 발명의 일 실시예는 중복적인 단일 클러스터의 제거 동작과 내부 데이터 포인트의 제거 동작을 수행함으로써, 대규모 데이터 세트를 효율적으로 분류하여 트레이닝 시간을 크게 단축시킬 수 있다.

이하, 도 1의 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치(100)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.

메모리(110)는 하나 이상의 프로그램을 저장한다. 또한, 메모리(110)는 SVM의 트레이닝을 위한 트레이닝 데이터 포인트를 저장한다.

프로세서(120)는 메모리(110)에 저장된 하나 이상의 프로그램을 실행한다.

프로세서(120)는 데이터 포인트를 복수 개의 클러스터로 클러스터링하고, 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하고, 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하고, 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하고, 클러스터링된 복수 개의 클러스터 중에서 그 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류한다.

실시예들에 따르면, 프로세서(120)는 K-평균 클러스터링(K-mean Clustering) 알고리즘을 사용하여 상기 데이터 포인트를 복수 개의 클러스터로 분할할 수 있다.

실시예들에 따르면, 복수 개의 클러스터의 수는 데이터 포인트의 개수 및 상기 데이터 포인트로 이루어지는 데이터 세트의 구조에 기초하여 선택될 수 있다.

실시예들에 따르면, 클러스터링된 복수 개의 클러스터는 적어도 하나의 단일 클래스 레이블을 가진 단일 클러스터와 적어도 하나의 복수 클래스 레이블을 가진 혼합 클러스터(Mix Cluster)를 포함할 수 있다.

실시예들에 따르면, 프로세서(120)는 단일 클러스터의 중심 집합에 서포트 벡터 머신(Support Vector Machine)을 적용하여 초평면을 구축하되, 초평면 구축에 사용된 중심을 서포트 벡터(Support Vector)로 설정할 수 있다.

실시예들에 따르면, 프로세서(120)는 퀵헐(Quickhull) 알고리즘을 사용하여 상기 단일 클러스터에 대한 컨벡스 헐을 생성할 수 있다.

실시예들에 따르면, 프로세서(120)는 초평면 구축에 사용된 중심이 포함된 단일 클러스터의 데이터 포인트 중에서 그 생성된 컨벡스 헐의 꼭짓점을 선택하고, 그 선택된 컨벡스 헐의 꼭짓점을 제외하고 그 선택된 컨벡스 헐의 내부에 위치한 내부 데이터 포인트를 제거할 수 있다.

실시예들에 따르면, 프로세서(120)는 초평면 구축에 사용된 중심이 포함된 단일 클러스터마다 그 생성된 컨벡스 헐의 꼭짓점을 각각 선택할 수 있다.

실시예들에 따르면, 잔여 데이터 포인트 세트는 단일 클러스터의 데이터 포인트 중에서 그 생성된 컨벡스 헐의 꼭짓점과, 그 클러스터링된 복수 개의 클러스터 중에서 복수 클래스 레이블을 가진 혼합 클러스터의 데이터 포인트가 결합되어 구성될 수 있다.

실시예들에 따르면, 프로세서(120)는 잔여 데이터 포인트 세트에 대해 서포트 벡터 머신을 적용하여 잔여 데이터 포인트를 분류할 수 있다.

도 2는 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법을 나타낸 흐름도이다.

단계 S101에서, 데이터 포인트 분류 장치(100)는 데이터 포인트를 클러스터링하여 클러스터를 생성한다.

단계 S102에서, 데이터 포인트 분류 장치(100)는 생성된 복수 개의 클러스터 중에서 단일 클러스터의 중심을 선택한다.

단계 S103에서, 데이터 포인트 분류 장치(100)는 선택된 단일 클러스터의 중심 집합을 사용하여 초평면을 구축한다.

단계 S104에서, 데이터 포인트 분류 장치(100)는 초평면 구축에 사용되지 않은 나머지 단일 클러스터를 제거한다.

단계 S105에서, 데이터 포인트 분류 장치(100)는 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성한다.

단계 S106에서, 데이터 포인트 분류 장치(100)는 생성된 컨벡스 헐의 내부에 위치한 내부 데이터 포인트를 제거한다.

단계 S107에서, 데이터 포인트 분류 장치(100)는 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트에 대해 SVM(Support Vector Machine)을 적용하여 데이터 포인트를 분류한다.

이하, 도 3 내지 도 6을 참조하여 데이터 포인트 분류 방법을 구체적으로 설명하기로 한다.

도 3은 본 발명의 일 실시예에 사용된 트레이닝 데이터 포인트의 클러스터링 구성을 나타낸 도면이다.

데이터 포인트 분류 장치(100)는 K-평균(K-means) 클러스터링을 이용하여 트레이닝 데이터를 k개의 클러스터로 클러스터링한다. 이때, k개의 클러스터는 단일 클러스터 Singular(S) 또는 혼합 클러스터 Mix(M)이라는 두 가지 유형으로 분류된다. 여기서 단일 클러스터 Cl(S)(210)는 클러스터의 모든 데이터 포인트에 대하여 단일 클래스 레이블을 나타낸다. 반면, 혼합 클러스터 Cl(M)(220)은 둘 이상의 클래스 레이블을 포함한다.

와

은 각각 클러스터 Cl(S)와 Cl(M)의 수를 나타내며,

라고 할 수 있다. 도 3은 두 가지 유형의 클러스터를 모두 포함하는 샘플 데이터 세트의 클러스터링을 보여준다. 이때 혼합 클러스터 Cl(M)(220)이 둘 이상의 클래스 레이블을 포함하기 때문에, 초평면에 가까운 두 개의 클래스 레이블 데이터 요소가 포함될 수 있다.

도 4는 본 발명의 일 실시예에 따른 초기 SVM이 클러스터 중심을 선택한 구성을 나타낸 도면이다.

서포트 벡터(SV, Support Vector)는 초평면(230)에 가깝기 때문에, 혼합 클러스터 Cl(M)(220)은 서포트 벡터(SV)를 가질 가능성이 더 크다. 때문에 서포트 벡터 머신이 서포트 벡터를 기반으로 데이터 포인트를 분류할 때, 본 발명의 일 실시예에 따른 데이터 포인트 분류 장치(100)는 혼합 클러스터 Cl(M)(220)에 속하는 원래의 데이터 포인트를 유지하면서, 컨벡스 헐(Convex Hull)을 사용하여 단일 클러스터 Cl(S)(210)의 데이터 포인트를 감소시킬 수 있다.

K-평균 클러스터링을 적용하였을 때, S-유형의 단일 클러스터의 중심(211)을 구하기 위해 아래의 [수학식 1]이 이용된다.

여기서,

는 클러스터-i의 데이터 포인트 수이다.

는 클러스터 S-유형의 중심 집합이고,

는 클러스터-i의 데이터 포인트 레이블이다.

데이터 포인트 분류 장치(100)는 클러스터의 중심(211)으로 초평면(230)이 구축될 수 있도록, 서포트 벡터 머신을 트레이닝 데이터 포인트 중심 집합

에 적용한다. 즉, 클러스터의 중심(211)으로 초평면(230)이 구축될 수 있도록, 트레이닝 데이터 포인트 중심 집합

이 사용된다. 서포트 벡터로 여겨지는 클러스터의 중심(212)은 Cent(SV)로 정의된다. 도 4는 서포트 벡터 머신을 샘플 데이터 세트에 적용한 결과를 보여준다. 여기서, 초평면(230)은 임시로 구축된 초평면으로서, 서포트 벡터 머신(SVM)을 위한 안전 마진(Safety margin)(231)을 가진다.

도 5는 본 발명의 일 실시예에 따른 나머지 단일 클러스터가 제거된 입력 데이터 포인트를 나타낸 도면이다.

초평면(230)의 구축에 사용되어 서포트 벡터로 간주된 중심 Cent(SV)(212)이 서포트 벡터 머신과 초평면 구축에 영향을 미친다. 데이터 포인트 분류 장치(100)는 서포트 벡터로 간주된 중심 Cent(SV)(212)이 포함된 단일 클러스터를 서포트 벡터 클러스터 Cl(SV)(213)로 정하고, 다음 데이터 포인트 분류 동작에 대한 입력으로 선택한다. 그리고 데이터 포인트 분류 장치(100)는 나머지 단일 클러스터를 모두 제거한다.

그리고 데이터 포인트 분류 장치(100)는 나머지 단일 클러스터 non-cl(SV)를 제거하여 트레이닝 데이터 수를 크게 줄일 수 있다. 도 5는 서포트 벡터로 간주된 중심이 포함된 서포트 벡터 클러스터 Cl(SV)(213)와 혼합 클러스터 Cl(M)(220)의 트레이닝 데이터 포인트를 나타낸다.

도 6은 본 발명의 일 실시예에 따른 컨벡스 헐의 꼭짓점 식별 단계를 나타낸 도면이다.

도 3 내지 도 5를 통해 많은 수의 데이터 포인트가 제거되었다 하더라도, 서포트 벡터 클러스터 Cl(SV)(213)와 혼합 클러스터 Cl(M)(220)에는 여전히 불필요한 데이터 포인트가 포함되어 있다. 데이터 포인트 분류 장치(100)는 컨벡스 헐(Convex Hull)(214)을 구성하여 적용함으로써, 서포트 벡터 클러스터 Cl(SV)(213)의 내부에 위치한 불필요한 데이터 포인트를 제거한다. 서포트 벡터(SV)가 초평면에 가까이 있기 때문에, 클러스터의 경계에 위치한 트레이닝 데이터 포인트는 서포트 벡터가 될 확률이 높고, 내부 트레이닝 데이터 포인트(216)는 낮은 확률을 가진다. 따라서 서포트 벡터로 간주된 중심이 포함된 서포트 벡터 클러스터 Cl(SV)(213)의 컨벡스 헐(214)의 꼭짓점(215)은 트레이닝 데이터 포인트로 선택된다. 반면에 내부 트레이닝 데이터 포인트(216)는 불필요한 중복 데이터 포인트로 여겨져 제거가 된다.

서포트 벡터로 간주된 중심이 포함된 서포트 벡터 클러스터 Cl(SV)의 컨벡스 헐은 퀵헐(Quickhull) 알고리즘을 적용하여 구성될 수 있다. 컨벡스 헐의 꼭짓점(215)

가 초평면 구축을 위한 트레이닝 데이터 포인트로 선택된다. 이때,

과

는 각각 클래스 레이블-1(Class-1)과 클래스 레이블-2(Class-2)의 컨벡스 헐의 꼭짓점 즉, 최고점이다. 도 6에는 트레이닝 데이터 세트에서 서포트 벡터로 간주된 중심이 포함된 서포트 벡터 클러스터 Cl(SV)의 꼭짓점(215)을 나타내고 있다.

도 7은 본 발명의 일 실시예에 따른 잔여 데이터 포인트 세트를 나타낸 도면이다.

데이터 포인트 분류 장치(100)는 서포트 벡터로 간주된 중심이 포함된 서포트 벡터 클러스터 Cl(SV)(213)에서 컨벡스 헐(214)의 꼭짓점(215)이 아닌 내부 트레이닝 데이터 포인트(216)를 제거한다.

이후, 잔여 트레이닝 데이터 포인트는 서포트 벡터로 간주된 중심이 포함된 서포트 벡터 클러스터 Cl(SV)의 컨벡스 헐(214)의 꼭짓점(215)과 혼합 클러스터 Cl(M)(220)에 포함된 혼합 데이터 포인트(221)이다. 도 7은 잔여 트레이닝 데이터 포인트를 나타낸다.

다음으로, 데이터 포인트 분류 장치(100)는 서포트 벡터 머신을 잔여 트레이닝 데이터 포인트에 적용한다. 본 발명의 일 실시예에 따른 데이터 포인트 분류 장치(100)는 원래의 트레이닝 데이터 세트보다 훨씬 적은 수의 데이터 포인트에 대해 데이터 분류를 수행하기 때문에, 최종적으로 초평면을 더욱 빠르게 구축할 수 있다. 일반적으로 SVM 알고리즘은 이진 분류 문제만을 해결하는데 있어서는 강력한 알고리즘이지만, 실제 데이터 세트를 이용한 많은 분류 문제는 다중 클래스 레이블로 구성된다. 따라서 본 발명의 일 실시예에 따른 데이터 포인트 분류 장치(100)는 다차원적 분류 문제 또한 해결하기 위해서 OAA(One-Against-All) 기법을 적용할 수 있다.

도 8 및 도 9는 본 발명의 일 실시예에 따른 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법을 나타낸 상세 흐름도이다.

도 8 및 도 9는 단계들이 A-A와 B-B로 연결되어 있다.

단계 S201에서, 데이터 포인트 분류 장치(100)는 데이터 포인트에 대해 K-평균 클러스터링을 수행한다.

단계 S202에서, 데이터 포인트 분류 장치(100)는 i=1 동작을 수행한다. i는 클래스 레이블 번호를 나타낸다.

단계 S203에서, 데이터 포인트 분류 장치(100)는 i ≤ 단일 클래스 레이블의 최대 개수인지를 확인한다.

단계 S204에서, 데이터 포인트 분류 장치(100)는 i ≤ 단일 클래스 레이블의 최대 개수이면, i=i+1 동작을 수행한다.

또한, 단계 S205에서, 데이터 포인트 분류 장치(100)는 i ≤ 단일 클래스 레이블의 최대 개수이면, 클러스터가 단일 클래스 레이블 데이터를 포함하는지를 확인한다.

단계 S206에서, 데이터 포인트 분류 장치(100)는 클러스터가 단일 클래스 레이블 데이터를 포함하지 않으면, 혼합 클러스터의 데이터를 유지한다.

반면, 단계 S207에서, 데이터 포인트 분류 장치(100)는 클러스터가 단일 클래스 레이블 데이터를 포함하면, 단일 클러스터 Cl(S)에 추가한다.

단계 S208에서, 데이터 포인트 분류 장치(100)는 트레이닝 데이터 포인트로서 단일 클러스터 Cl(S)에서 클러스터의 중심을 선택한다.

단계 S209에서, 데이터 포인트 분류 장치(100)는 단일 클러스터 Cl(S)의 중심 집합에 서포트 벡터 머신(SVM)을 적용한다. 서포트 벡터 머신이 적용되어 초평면이 구축된다. 여기서, 초평면은 초기 초평면으로 나머지 클러스터 Cl(S)를 제거하기 위해 임시로 구축한 것이다.

단계 S210에서, 데이터 포인트 분류 장치(100)는 서포트 벡터 머신(SVM)의 적용 후, 서포트 벡터로서 간주된 서포트 벡터 클러스터의 중심 Cent(SV)을 선택한다.

단계 S211에서, 데이터 포인트 분류 장치(100)는 서포트 벡터 클러스터의 중심 Cent(SV)이 포함된 단일 클러스터를 서포트 벡터 클러스터 Cl(SV)로 선택한다.

단계 S212에서, 데이터 포인트 분류 장치(100)는 서포트 벡터 클러스터 Cl(SV)가 아닌 잔여 단일 클러스터를 제거한다.

단계 S213에서, 데이터 포인트 분류 장치(100)는 j=1 동작을 수행한다. j는 클러스터 번호를 나타낸다.

단계 S214에서, 데이터 포인트 분류 장치(100)는 j ≤ 단일 클러스터의 최대 개수인지를 확인한다.

단계 S215에서, 데이터 포인트 분류 장치(100)는 j ≤ 단일 클러스터의 최대 개수이면 컨벡스 헐을 생성한다.

단계 S216에서, 데이터 포인트 분류 장치(100)는 컨벡스 헐의 꼭짓점을 선택한다.

단계 S218에서, 데이터 포인트 분류 장치(100)는 선택된 컨벡스 헐의 꼭짓점을 잔여 트레이닝 데이터 세트에 추가한다. 또한, 데이터 포인트 분류 장치(100)는 잔여 트레이닝 데이터 세트에 단계 S206에서 유지된 혼합 클러스터의 데이터 포인트도 추가한다.

또한, 단계 S218에서, 데이터 포인트 분류 장치(100)는 j = j+1 동작을 수행한다.

단계 S219에서, 데이터 포인트 분류 장치(100)는 나머지 데이터 세트에 SVM을 적용한다.

한편, 본 발명의 일 실시예는 결과를 검증하기 위해 컴퓨터 시뮬레이션에 의해 평가된다. 이는 매트랩 툴박스(Matlab toolbox)를 이용하여 본 발명의 일 실시예인 CBCH(Clustering-Based Convex Hull) 방식의 성능을 다양한 인공 데이터 세트와 두 개의 서로 다른 실제 데이터 세트를 사용하였다.

한편, 본 발명의 일 실시예는 결과를 검증하기 위해 컴퓨터 시뮬레이션에 의해 평가된다. 이는 매트랩 툴박스(Matlab toolbox)를 이용하여 본 발명의 일 실시예에 따른 SVC-CH(Support Vector Clusters-Convex Hull) 방식의 성능을 다양한 인공 데이터 세트와 두 개의 서로 다른 실제 데이터 세트를 사용하였다.

도 10은 가우시안 분포에 의한 데이터 포인트 세트를 나타낸 도면이고, 도 11은 본 발명의 일 실시예가 도 10에 적용된 후의 잔여 데이터 포인트를 나타낸 도면이다.

도 10에는 가우시안 분포에 의한 레이블-1(Label-1), 레이블-2(Label-2) 및 레이블-3(Label-3)을 갖는 데이터 포인터가 도시되어 있다. 본 발명의 일 실시예에 따른 SVC-CH 기법을 도 10에 도시된 데이터 포인트 세트에 적용한 후의 잔여 데이터 포인트가 도 11에 도시되어 있다.

도 12는 가우시안 분포 수치를 1.96으로 증가시킨 데이터 포인트 세트를 나타낸 도면이고, 도 13은 본 발명의 일 실시예가 도 11에 적용된 후의 잔여 데이터 포인트를 나타낸 도면이다.

도 12는 가우시안 분포 수치를 1.96으로 증가시킨 레이블-1(Label-1), 레이블-2(Label-2) 및 레이블-3(Label-3)을 갖는 데이터 포인터가 도시되어 있다. 본 발명의 일 실시예에 따른 SVC-CH 기법을 도 12에 도시된 데이터 포인트 세트에 적용한 후의 잔여 데이터 포인트가 도 13에 도시되어 있다.

도 14는 본 발명의 일 실시예가 적용된 후의 잔여 데이터 수에 대한 클러스터 수를 나타낸 도면이다.

데이터 세트-1 및 데이터 세트-2에 본 발명의 일 실시예가 적용된 후의 잔여 데이터 수에 대한 클러스터 수가 도 14에 도시되어 있다. 클러스터 수는 50, 100, 150 및 200으로 증가하는 경우에 대해 각각의 잔여 데이터 수가 나타나 있다.

한편, 바나나 데이터 세트와 스킨 세그먼테이션 데이터 세트는 KEEL 데이터 세트 리포지토리(KEEL Machine Learning Repository) 및 UCI 머신 러닝 데이터베이스 리포지토리(UCI Machine Learning Repository)에서 각각 실제 데이터 세트로 선택된다. 또한, 매우 큰 데이터 세트에서 본 발명의 일 실시예에 따른 SVC-CH의 성능을 평가하기 위해 다양한 인공 데이터 세트를 활용한다.

본 발명의 일 실시예에 따른 SVS-CH 기법의 효율성을 검증하기 위해, 종래의 SMO(Sequential Minimal Optimization) 알고리즘, 클러스터링 기반(Clustering-based) 알고리즘 및 FDR(FDR, Fisher's Discriminant Ratio) 기반 방식과 성능을 비교한다. SMO 알고리즘은 모든 데이터 포인트를 줄이지 않고 사용하므로 많은 트레이닝 시간을 사용하여 매우 높은 정확도를 보여줄 수 있다.

도 15 및 도 16은 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 스킨 세그먼테이션 데이터 세트를 이용한 트레이닝 시간 비교 및 분류 정확도를 나타낸 도면이다.

스킨 세그먼테이션 데이터 세트는 4D 공간에 245057 개의 샘플을 포함하는 실제 데이터 세트이다. 스킨 세그먼테이션 데이터 세트에 대한 본 발명의 일 실시예에 따른 SVC-CH 기법의 트레이닝 시간과 정확도는 클러스터 수가 50에서 200으로 증가하는 3가지의 다른 종래의 방법과 비교된다. 본 발명의 일 실시예에 따른 SVC-CH 기법은 시뮬레이션 결과 SMO 알고리즘 수준의 높은 정확도를 나타내면서 다른 방식보다 훨씬 빠르다.

도 17 및 도 18은 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 바나나 데이터 세트를 이용한 트레이닝 시간 비교 및 분류 정확도를 나타낸 도면이다.

바나나 데이터 세트는 5300 개의 이진 클래스 레이블 샘플로 구성된다. 본 발명의 일 실시예에 따른 SVC-CH 방식은 트레이닝 시간 측면에서 다른 두 방식보다 성능이 뛰어나고 매우 높은 정확도를 제공한다. 바나나 데이터 세트를 사용한 시뮬레이션 결과는 본 발명의 일 실시예에 따른 SVC-CH 방식이 비교적 소규모 데이터 세트에도 적합하다는 것을 나타낸다.

도 19 내지 도 22는 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 인공 데이터 세트를 이용한 트레이닝 시간 비교를 나타낸 도면이다.

도 19 내지 도 22는 각각 50000, 100000, 200000 및 400000 데이터 포인트의 멀티 클래스 데이터 세트를 활용한 트레이닝 시간 비교 결과를 나타낸다.

도 23 내지 도 26은 본 발명의 일 실시예와 종래의 분류 알고리즘에 대해 인공 데이터 세트를 이용한 분류 정확도 비교를 나타낸 도면이다.

도 23 내지 도 26은 각각 50000, 100000, 200000 및 400000 데이터 포인트의 멀티 클래스 데이터 세트를 활용한 분류 정확도 비교 결과를 나타낸다.

본 발명의 일 실시예에 따른 SVC-CH 기법의 성능을 평가하기 위해 50000, 100000, 200000 및 400000 데이터 포인트의 멀티 클래스 데이터 세트를 활용한다.

시뮬레이션 결과, 본 발명의 일 실시예에 따른 SVC-CH 기법이 종래의 기법에 비해 트레이닝 시간이 가장 낮다. 또한, 본 발명의 일 실시예에 따른 SVC-CH 기법은 클러스터링 기반 및 FDR 기반 알고리즘에 비해 높은 정확도를 제공함을 보여준다. 본 발명의 일 실시예에 따른 SVC-CH 기법의 정확도는 특히 많은 수의 클러스터에서 SMO 알고리즘의 정확도와 유사하다. 인공 데이터 세트를 사용한 테스트는 트레이닝 샘플 수가 많을수록, 본 발명의 일 실시예에 따른 SVC-CH 기법은 종래의 기법보다 더 효율적임을 나타낸다.

한편, 프로세서에 의해 실행 가능한 하나 이상의 프로그램을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 하나 이상의 프로그램은 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금: 데이터 포인트를 복수 개의 클러스터로 클러스터링하고, 상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하고, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하고, 상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하고, 상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하게 하는 명령어들을 포함하는, 비 일시적 컴퓨터 판독 가능한 저장 매체가 제공될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

한편, 상술한 다양한 실시예들에 따른 기기의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 기기에서의 처리 동작을 특정 기기가 수행하도록 한다. 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

또한, 상술한 다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 데이터 포인트 분류 장치
110: 메모리
120: 프로세서

Claims

데이터 포인트 분류 장치에 의해 수행되는 데이터 포인트 분류 방법에 있어서,
데이터 포인트를 복수 개의 클러스터로 클러스터링하는 단계;
상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하는 단계;
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하는 단계;
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하는 단계; 및
상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하는 단계를 포함하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 클러스터링하는 단계는,
K-평균 클러스터링(K-mean Clustering) 알고리즘을 사용하여 상기 데이터 포인트를 복수 개의 클러스터로 분할하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 복수 개의 클러스터의 수는,
상기 데이터 포인트의 개수 및 상기 데이터 포인트로 이루어지는 데이터 세트의 구조에 기초하여 선택되는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 클러스터링된 복수 개의 클러스터는,
적어도 하나의 단일 클래스 레이블을 가진 단일 클러스터와 적어도 하나의 복수 클래스 레이블을 가진 혼합 클러스터(Mix Cluster)를 포함하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 단일 클러스터를 제거하는 단계는,
상기 단일 클러스터의 중심 집합에 서포트 벡터 머신(Support Vector Machine)을 적용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 서포트 벡터(Support Vector)로 설정하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 컨벡스 헐을 생성하는 단계는,
퀵헐(Quickhull) 알고리즘을 사용하여 상기 단일 클러스터에 대한 컨벡스 헐을 생성하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 내부 데이터 포인트를 제거하는 단계는,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점을 선택하고, 상기 선택된 컨벡스 헐의 꼭짓점을 제외한 상기 선택된 컨벡스 헐의 내부에 위치한 내부 데이터 포인트를 제거하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 내부 데이터 포인트를 제거하는 단계는,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터마다 상기 생성된 컨벡스 헐의 꼭짓점을 각각 선택하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 잔여 데이터 포인트 세트는,
상기 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점과, 상기 클러스터링된 복수 개의 클러스터 중에서 복수 클래스 레이블을 가진 혼합 클러스터의 데이터 포인트가 결합되어 구성되는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
제1항에 있어서,
상기 잔여 데이터 포인트 세트를 분류하는 단계는,
상기 잔여 데이터 포인트 세트에 대해 서포트 벡터 머신을 적용하여 상기 잔여 데이터 포인트를 분류하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 방법.
하나 이상의 프로그램을 저장하는 메모리; 및
상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는,
데이터 포인트를 복수 개의 클러스터로 클러스터링하고,
상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하고,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하고,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하고,
상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 프로세서는,
K-평균 클러스터링(K-mean Clustering) 알고리즘을 사용하여 상기 데이터 포인트를 복수 개의 클러스터로 분할하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 복수 개의 클러스터의 수는,
상기 데이터 포인트의 개수 및 상기 데이터 포인트로 이루어지는 데이터 세트의 구조에 기초하여 선택되는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 클러스터링된 복수 개의 클러스터는,
적어도 하나의 단일 클래스 레이블을 가진 단일 클러스터와 적어도 하나의 복수 클래스 레이블을 가진 혼합 클러스터(Mix Cluster)를 포함하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 프로세서는,
상기 단일 클러스터의 중심 집합에 서포트 벡터 머신(Support Vector Machine)을 적용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 서포트 벡터(Support Vector)로 설정하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 프로세서는,
퀵헐(Quickhull) 알고리즘을 사용하여 상기 단일 클러스터에 대한 컨벡스 헐을 생성하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 프로세서는,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점을 선택하고, 상기 선택된 컨벡스 헐의 꼭짓점을 제외한 상기 선택된 컨벡스 헐의 내부에 위치한 내부 데이터 포인트를 제거하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 프로세서는,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터마다 상기 생성된 컨벡스 헐의 꼭짓점을 각각 선택하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 잔여 데이터 포인트 세트는,
상기 단일 클러스터의 데이터 포인트 중에서 상기 생성된 컨벡스 헐의 꼭짓점과, 상기 클러스터링된 복수 개의 클러스터 중에서 복수 클래스 레이블을 가진 혼합 클러스터의 데이터 포인트가 결합되어 구성되는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
제11항에 있어서,
상기 프로세서는,
상기 잔여 데이터 포인트 세트에 대해 서포트 벡터 머신을 적용하여 상기 잔여 데이터 포인트를 분류하는, 클러스터 중심 기반 컨벡스 헐을 사용한 데이터 포인트 분류 장치.
프로세서에 의해 실행 가능한 하나 이상의 프로그램을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 하나 이상의 프로그램은 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
데이터 포인트를 복수 개의 클러스터로 클러스터링하고,
상기 클러스터링된 복수 개의 클러스터 중에서 단일 클래스 레이블(Single Class Label)을 가진 단일 클러스터(Singular Cluster)의 중심 집합을 사용하여 초평면을 구축하되, 상기 초평면 구축에 사용된 중심을 제외한 나머지 중심이 포함된 단일 클러스터를 제거하고,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에 대한 컨벡스 헐(Convex Hull)을 생성하고,
상기 초평면 구축에 사용된 중심이 포함된 단일 클러스터에서 상기 생성된 컨벡스 헐의 꼭짓점을 제외한 내부 데이터 포인트를 제거하고,
상기 클러스터링된 복수 개의 클러스터 중에서 상기 제거된 내부 데이터 포인트를 제외한 잔여 데이터 포인트 세트를 분류하게 하는 명령어들을 포함하는, 비 일시적 컴퓨터 판독 가능한 저장 매체.