KR20180031142A

KR20180031142A - 데이터 분류 장치 및 방법

Info

Publication number: KR20180031142A
Application number: KR1020160119120A
Authority: KR
Inventors: 김성호; 김태훈
Original assignee: 영남대학교 산학협력단
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2018-03-28
Also published as: KR101864301B1

Abstract

데이터 분류 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 데이터 분류 장치는 복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 입력 모듈; 및 복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 분류 모듈을 포함한다.

Description

데이터 분류 장치 및 방법{APPARATUS AND METHOD FOR CLASSIFYING DATA}

본 발명의 실시예들은 입력된 데이터가 복수의 클래스 중 어느 클래스에 속하는지 판단하는 기술과 관련된다.

최근 인공지능(artificial intelligence)에 대한 관심이 높아짐에 따라 머신 러닝(machine learning) 기술의 중요성이 강조되고 있다. 머신 러닝은 컴퓨팅 장치가 입력된 데이터를 학습할 수 있도록 하고, 학습된 데이터를 기반으로 새롭게 입력된 데이터에 대한 분석을 수행하기도 한다. 이를 위해, 컴퓨팅 장치는 입력된 데이터가 어떤 데이터인지를 인식하고 그 특성에 따라 입력된 데이터를 그룹핑할 수 있다.

종래의 데이터 분류 기술에 따르면, 데이터가 포함될 수 있는 클래스 간의 경계를 설정하고, 새롭게 입력된 데이터가 경계의 어느 쪽에 위치하는지 만을 고려하여 데이터를 분류하였다. 그러나, 단순히 이러한 경계의 어느 쪽에 위치하는지에 관한 정보만으로는 데이터 분류의 정확성을 보장할 수 없었다. 특히, 클래스 간의 경계가 불분명한 경우에는 데이터 분류 결과의 정확도가 더욱 낮을 수 밖에 없었다.

이에 따라, 신뢰도 높은 데이터 분류 기술 개발의 필요성이 대두되었다.

한국공개특허공보 제10-2014-0134803호(2014.11.25)

본 발명의 실시예들은 데이터를 분류함에 있어서 그 정확성을 향상시키기 위한 것이다.

본 발명의 예시적인 실시예에 따르면, 복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 입력 모듈; 및 복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 분류 모듈을 포함하는, 데이터 분류 장치가 제공된다.

상기 분류 모듈은, 복수의 상기 클래스 중 어느 하나를 선정하고, 선정된 클래스와 나머지 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 클래스에 속하는지를 결정하기 위한 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류할 수 있다.

상기 분류 모듈은, 상기 초평면과 상기 분류 대상 데이터 사이의 상기 거리 및 상기 클래스 사이의 마진(margin)의 크기에 기초하여 상기 결정함수에 가중치를 부여하여 상기 출력값을 산출할 수 있다.

상기 분류 모듈은, 다음의 수학식

(y: 가중치가 부여된 결정함수의 출력값, x: 분류 대상 데이터, f: 특정 클래스에 대한 결정함수, m: 대응되는 클래스 사이의 마진의 크기)

에 따라 상기 출력값을 산출할 수 있다.

상기 분류 모듈은, 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률을 계산하고, 복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정할 수 있다.

상기 분류 모듈은, 상기 후보 클래스 중 어느 하나를 선정하고, 선정된 후보 클래스와 나머지 후보 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 후보 클래스에 속하는지를 결정하는 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류할 수 있다.

본 발명의 다른 예시적인 실시예에 따르면, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 단계; 및 복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 단계를 포함하는, 데이터 분류 방법이 제공된다.

상기 분류하는 단계는, 복수의 상기 클래스 중 어느 하나를 선정하는 단계; 선정된 클래스와 나머지 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 클래스에 속하는지를 결정하기 위한 결정함수의 출력값을 산출하는 단계; 및 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류하는 단계를 포함할 수 있다.

상기 출력값을 산출하는 단계는, 상기 초평면과 상기 분류 대상 데이터 사이의 상기 거리 및 상기 클래스 사이의 마진(margin)의 크기에 기초하여 상기 결정함수에 가중치를 부여하여 상기 출력값을 산출할 수 있다.

상기 출력값을 산출하는 단계는, 다음의 수학식

(y: 가중치가 부여된 결정함수의 출력값, x: 분류 대상 데이터, f: 특정 클래스에 대한 결정함수, m: 대응되는 클래스 사이의 마진의 크기)에 따라 상기 출력값을 산출할 수 있다.

상기 분류하는 단계는, 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률을 계산하는 단계; 및 복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정하는 단계를 포함할 수 있다.

상기 후보 클래스를 선정하는 단계의 수행 이후, 상기 후보 클래스 중 어느 하나를 선정하는 단계; 선정된 후보 클래스와 나머지 후보 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 후보 클래스에 속하는지를 결정하는 결정함수의 출력값을 산출하는 단계; 및 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류하는 단계를 포함할 수 있다.

본 발명의 다른 예시적인 실시예에 따르면, 하드웨어와 결합되어 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 단계; 및 복수의 상기 클래스 각각의 경계를 나타낸는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 단계를 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명의 실시예들에 따르면, 분류 대상 데이터와 초평면 사이의 거리 및 마진을 기초로 결정함수의 출력값에 가중치를 반영함으로써 분류 결과의 정확도를 향상시킬 수 있다.

또한, 본 발명의 실시예들에 따르면, 분류 대상 데이터가 속할 확률이 높은 순으로 선정된 후보 클래스만으로 데이터 분류를 다시 수행함으로써 데이터 분류의 정확성을 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 분류 장치의 상세 구성을 나타낸 블록도
도 2는 본 발명의 일 실시예에 따른 클래스, 초평면 및 마진을 설명하기 위한 예시도
도 3은 본 발명의 일 실시예에 따른 가중치가 반영된 결정함수를 설명하기 위한 예시도
도 4는 본 발명의 일 실시예에 따른 분류 대상 데이터와 초평면 사이의 거리를 고려하여 분류 대상 데이터를 분류한 결과를 나타낸 예시도
도 5는 본 발명의 일 실시예에 따른 후보 클래스를 선정하는 과정을 나타내는 예시도
도 6은 본 발명의 일 실시예에 따른 데이터 분류 장치에 의해 수행된 분류 결과를 나타낸 예시도
도 7은 본 발명의 일 실시예에 따른 데이터 분류 방법을 설명하기 위한 흐름도
도 8은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 본 발명의 일 실시예에 따른 데이터 분류 장치(100)의 상세 구성을 나타낸 블록도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 데이터 분류 장치(100)는 입력 모듈(102) 및 분류 모듈(104)을 포함한다.

입력 모듈(102)은 분류 대상 데이터를 입력 받을 수 있다. 분류 대상 데이터는 분류 대상이 되는 데이터로서, 예를 들어, 특정 물체의 형상을 포함하는 이미지, 영상, 음성 등의 데이터가 될 수 있다. 또한, 분류 대상 데이터는 (n ⅹ m)의 벡터로 나타낼 수 있으나, 분류 대상 데이터의 형태에는 특별한 제한이 없다. 후술할 바와 같이, 분류 모듈(104)은 분류 대상 데이터를 복수의 클래스 중 어느 하나로 분류할 수 있다. 한편, 클래스는 분류 대상 데이터의 특징에 따라 분류될 수 있는 카테고리로서 복수 개 존재할 수 있다. 예를 들어, 분류 대상 데이터는 숫자를 촬영한 이미지 데이터일 수 있고, 클래스는 각각의 숫자일 수 있다.

입력 모듈(102)은 데이터 분류 장치(100)의 인터페이스를 통해 사용자로부터 직접 분류 대상 데이터를 입력 받을 수 있으나, 이에 한정되지 않고, 이미지, 영상 등을 촬영한 광학 장치로부터 분류 대상 데이터를 전송 받을 수도 있다.

분류 모듈(104)은 분류 대상 데이터를 어느 하나의 클래스로 분류하기 위한 모듈이다. 일 실시예에 따른 분류 모듈(104)은 SVM(support vector machine)에 의해 학습된 모델을 기초로 분류 대상 데이터를 분류할 수 있다. 구체적으로, SVM은 기 입력된 데이터들을 기초로 분류 모델을 생성할 수 있다. 여기서, 기 입력된 데이터는 상술한 분류 대상 데이터와 동일한 형태의 데이터일 수 있으나, 단지 입력된 시기에 따라 분류된 것일 수 있다. 즉, 분류 모듈(104)은 기 입력된 데이터를 기초로 새롭게 입력된 분류 대상 데이터를 분류할 수 있다. 본 실시예들은 기 입력된 데이터를 기초로 분류 모델을 생성한 것을 전제로 하므로, 분류 모델을 생성하는 과정에 대해서는 구체적인 설명을 생략하기로 한다.

기 입력된 데이터를 기초로 생성된 분류 모델은 초평면(hyperplane)에 관한 정보를 포함할 수 있다. 초평면은 현재까지 입력된 데이터가 사상된 공간에서 클래스 각각을 구분하는 경계를 의미한다. 구체적으로, 기 입력된 데이터를 학습한 결과 A 클래스와 B 클래스를 구분하는 경계를 생성할 수 있는데, 이러한 경계를 초평면이라 한다. 또한, 초평면은 복수의 클래스 중 두 개의 클래스 사이의 경계를 의미하는 것으로서, 두 개의 클래스 사이에 하나의 초평면이 존재할 수 있다.

분류 모듈(104)은 복수의 상기 클래스 중 어느 하나를 선정하고, 선정된 클래스와 나머지 클래스 각각에 대해 상기 분류 대상 데이터가 선정된 상기 클래스에 속하는지를 결정하기 위한 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합에 따라 상기 분류 대상 데이터를 분류할 수 있다. 구체적으로, 분류 모듈(104)은 특정 클래스와 나머지 클래스 각각에 대해서 분류 대상 데이터가 상기 특정 클래스에 속하는지 여부를 판단할 수 있다. 예를 들어, 분류 모듈(104)은 특정 클래스와 다른 하나의 클래스 사이의 초평면을 기준으로 분류 대상 데이터를 분류할 수 있다. 즉, 분류 모듈(104)은 분류 대상 데이터가 특정 클래스에 포함되는지 아니면 다른 하나의 클래스에 포함되는지를 판단하는 바이너리(binary) 분류기일 수 있다. 이에 따라, 분류 모듈(104)은 특정 클래스에 대해 나머지 클래스 하나씩(OVO: one versus one) 분류 대상 데이터가 어느 클래스에 포함되는지를 판단할 수 있다. 다시 말해, 클래스가 N개 존재하는 경우 분류 대상 데이터가 특정 클래스에 포함되는지 여부를 판단하기 위해 (N-1)번의 분류 작업이 수행될 수 있다. 여기서, 결정함수는 두 개의 클래스마다 정의될 수 있는 함수로서, 분류 대상 데이터가 상기 두 개의 클래스 중 어느 클래스에 포함되는지를 결정하기 위한 것이다. 일 실시예에 따르면, 결정함수는 입력된 분류 대상 데이터가 초평면의 어느 방향으로, 얼마나 떨어져 있는지 계산하기 위한 함수일 수 있다. 구체적으로, 결정함수의 출력값은 분류 대상 데이터를 입력값으로 하여 결정함수에 의해 계산된 값으로서, 초평면에 대한 분류 대상 데이터의 위치에 따라 결정될 수 있다. 분류 모듈(104)은 특정 클래스와 나머지 클래스 각각에 대해 결정함수를 통해 획득된 출력값을 모두 더해 분류 대상 데이터가 특정 클래스에 속하는지를 최종적으로 판단할 수 있다. 일 예시에서, 분류 모듈(104)은 각각의 출력값의 합이 양수인 경우 상기 분류 대상 데이터가 제1 클래스에 속하는 것으로, 출력값의 합이 음수인 경우 제1 클래스에 속하지 않는 것으로 판단할 수 있다.

분류 모듈(104)은 초평면과 분류 대상 데이터 사이의 거리 및 복수의 클래스 별로 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 분류 대상 데이터를 분류할 수 있다. 먼저, 분류 모듈(104)이 초평면과 분류 대상 데이터 사이의 거리에 기초하여 분류 대상 데이터를 분류하는 과정에 대해 설명한다.

분류 모듈(104)은 초평면과 분류 대상 데이터 사이의 거리에 기초하여 분류 대상 데이터를 복수의 클래스 중 어느 하나로 분류할 수 있다. 즉, 분류 모듈(104)은 분류 대상 데이터를 분류함에 있어서, 초평면과의 거리에 기초하여 결정함수의 출력값에 가중치를 부여할 수 있다. 종래의 데이터 분류 기법에 따르면, 단순히 분류 대상 데이터가 초평면에 대해 일 공간에 존재하는지 또는 타 공간에 존재하는지 만을 고려하여 분류 대상 데이터를 분류할 뿐, 분류 대상 데이터가 초평면과 얼마나 떨어져 있는지 여부를 전혀 고려하지 않았다. 예를 들어, 초평면으로부터 일 방향으로 멀리 떨어진 분류 대상 데이터는 초평면의 타 방향에 존재하는 클래스에 포함될 가능성은 매우 낮다. 그러나, 분류 대상 데이터가 초평면에 매우 가까이 위치하는 경우, 분류 대상 데이터가 초평면이 존재하는 공간에 사상되는 과정에서 오류가 발생되었을 가능성을 배제할 수 없다. 분류 대상 데이터와 초평면의 거리가 가까운 경우에는 상기 공간 상에서 분류 대상 데이터의 위치가 조금만 잘못 계산되면 분류 결과가 바뀔 수 있기 때문이다. 본 발명의 일 실시예에 따르면, 분류 모듈(104)이 분류 대상 데이터와 초평면 사이의 거리에 기초하여 결정함수의 출력값에 가중치를 부여함으로써 데이터를 분류하는데 발생될 수 있는 오류를 최소화할 수 있고, 이에 따라 데이터 분류의 정확도를 향상시킬 수 있다. 수학식 1은 분류 대상 데이터와 초평면 사이의 거리를 고려하지 않는 종래의 데이터 분류 방법을 나타내는 수식이다. 수학식 1에서 볼 수 있듯이, i번째 클래스와 j번째 클래스에 대한 결정함수의 출력값의 부호(예를 들어, 출력값은 -1 또는 +1로 인식)만을 고려할 뿐 그 크기는 고려하지 않는다.

[수학식 1]

(f_ij: i번째 클래스와 j번째 클래스에 대한 결정함수, x: 분류 대상 데이터)

구체적으로, 분류 모듈(104)은 초평면과 상기 분류 대상 데이터 사이의 상기 거리 및 상기 클래스 사이의 마진(margin)의 크기에 기초하여 상기 결정함수에 가중치를 반영함으로써 상기 출력값을 산출할 수 있다. 마진은 두 개의 클래스 사이의 거리로서, 초평면의 분별력을 나타낼 수 있다. 즉, 마진은 초평면이 어떻게 정의되는지에 따라 결정될 수 있다. 예를 들어, 클래스 사이의 거리가 멀수록, 즉 마진이 클수록 양 클래스 사이의 경계가 명확하고 초평면의 분별력은 우수하다고 판단될 수 있다. 마진의 크기가 낮은 초평면을 기준으로 분류 대상 데이터를 분류한 경우, 그 분류 결과의 신뢰도는 비교적 낮기 때문에 이에 대한 보정이 필요하다. 따라서, 분류 모듈(104)은 분류 대상 데이터와 초평면 사이의 거리 및 마진을 기초로 결정함수의 출력값에 가중치를 반영함으로써 분류 결과의 정확도를 향상시킬 수 있는 보정을 수행할 수 있다.

일 실시예에 따르면, 분류 모듈(104)은 수학식 2에 따라 결정함수의 출력값에 가중치를 반영할 수 있다.

[수학식 2]

(y: 가중치가 반영된 결정함수의 출력값, x: 분류 대상 데이터, f: 특정 클래스에 대한 결정함수, m: 대응되는 클래스 사이의 마진의 크기)

이후, 분류 모듈(104)은 수학식 3과 같이 클래스 별로 가중치가 반영된 결정함수의 출력값의 합을 이용하여 분류 대상 데이터가 특정 클래스에 속하는지 여부를 판단할 수 있다.

[수학식 3]

(f_ij: i번째 클래스와 j번째 클래스에 대한 결정함수, x: 분류 대상 데이터, m_ij: i번째 클래스와 j번째 클래스 사이의 마진)

또한, 분류 모듈(104)은 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률을 계산하고, 복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정할 수 있다. 후보 클래스는 분류 대상 데이터가 속할 수 있는 클래스 중 일정한 기준(예를 들어, 분류 대상 데이터가 속할 확률이 높은 순으로 3개의 클래스)을 만족하는 일부의 클래스일 수 있다. 일 실시예에 따르면, 분류 모듈(104)은 일차적으로 모든 클래스에 대해 분류 대상 데이터에 대한 분류를 수행하여 일정한 기준을 만족하는 클래스만을 선정한 뒤, 선정된 클래스만으로 분류 대상 데이터에 대한 분류를 다시 수행할 수 있다.

먼저, 분류 모듈(104)은 분류 대상 데이터가 입력되면, 각 클래스 별로 분류 대상 데이터가 속할 확률을 계산할 수 있다. 여기서, 클래스 별로 분류 대상 데이터가 속할 확률은 공지의 분류 기술에 따라 계산될 수도 있고, 상술한 분류 대상 데이터와 초평면 사이의 거리를 고려한 데이터 분류 방법에 의해 수행될 수도 있다. 본 실시예에서 클래스 별로 분류 대상 데이터가 속할 확률은 수치로 환산되어 클래스 별로 비교할 수 있으면 충분하고, 특정한 분류 방법에 한정되는 것은 아니다.

다음으로, 분류 모듈(104)은 복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정할 수 있다. 나아가, 분류 모듈(104)은 상기 후보 클래스 중 어느 하나를 선정하고, 선정된 후보 클래스와 나머지 후보 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 후보 클래스에 속하는지를 결정하는 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합에 따라 상기 분류 대상 데이터를 분류할 수 있다. 구체적으로, 분류 모듈(104)은 선정된 후보 클래스에 대해 분류 대상 데이터에 대한 분류를 재차 수행하여 최종적으로 분류 대상 데이터에 대한 분류를 완료할 수 있다. 본 발명의 실시예들에 따르면, 분류 대상 데이터가 속할 확률이 높은 클래스만으로 데이터 분류를 다시 수행함으로써 데이터 분류의 정확성을 향상시킬 수 있다.

표 1은 본 발명의 일 실시예에 따른 데이터 분류 결과를 나타낸 것이다. 표 1에서 볼 수 있는 바와 같이, 분류 대상 데이터와 초평면의 거리에 기초하여 분류 대상 데이터를 분류하는 방법(proposed Ⅰ: weighted voting) 및 상기 방법과 분류 대상 데이터가 속할 확률이 낮은 클래스를 배제(drop)한 후보 클래스에 기초하여 분류 대상 데이터를 분류하는 방법(proposed Ⅱ: weighted voting + drop voting)의 경우 분류 대상 종래의 방법보다 데이터가 잘못 분류될 확률이 감소하는 것을 확인할 수 있다.

Methods (error(%))	Voting[2] (%)	ProposedⅠ:Weighted Voting(%)	ProposedⅡ: Weighted+ drop Voting(%)	Relative Improvement (%)
10k1Model	1.52	1.5	1.47	3.28
10k2Model	1.61	1.34	1.32	18
10k4Model	1.14	1.08	1.06	7
60k1Model	1.19	1.18	1.18	0.8

도 2는 본 발명의 일 실시예에 따른 클래스, 초평면 및 마진을 설명하기 위한 예시도이다.

도 2에 나타난 바와 같이, 데이터 분류 장치(100)는 두 개의 클래스 중 분류 대상 데이터가 어느 클래스에 속하는지를 판단할 수 있다. 구체적으로, 데이터 분류 장치(100)는 두 개의 클래스에 대한 결정함수(f(x))를 이용하여 분류 대상 데이터를 분류할 수 있다. 나아가, 데이터 분류 장치(100)는 나머지 클래스에 대해 분류 대상 데이터를 순차적으로 분류하여 분류 결과를 종합함으로써 최종적으로 분류 대상 데이터가 특정 클래스에 속하는지 여부를 판단할 수 있다. 여기서, 결정함수는 초평면에 관한 정보를 포함할 수 있다. 일 예시에서, 상기 두 개의 클래스는 양(positive)의 클래스와 음(negative)의 클래스로 구분할 수 있다. 상술한 예시에서, 데이터 분류 장치(100)는 분류 대상 데이터를 입력값으로 하는 결정함수를 통해 출력된 출력값에 기초하여 분류 대상 데이터를 분류할 수 있다. 이때, 데이테 분류 장치(100)는 결정함수의 출력값의 부호가 음인 경우 상기 분류 대상 데이터는 음의 클래스에 속하는 것으로 판단할 수 있다. 다만, 결정함수의 출력값이 0인 경우는 어느 클래스에도 속하지 않는 것을 의미할 수 있고, 이때의 출력값은 초평면(f(x)=0)을 나타낼 수 있다.

한편, 마진은 클래스 사이의 간격을 의미한다. 상술한 바와 같이, 마진의 크기가 클수록 양 클래스를 구분하는 초평면의 분별력이 우수함을 나타낼 수 있다. 본 발명의 일 실시예에 따른 데이터 분류 장치(100)는 마진의 크기를 고려하여 분류 대상 데이터를 분류함으로써 초평면의 분별력을 반영할 수 있다.

도 3은 본 발명의 일 실시예에 따른 가중치가 반영된 결정함수를 설명하기 위한 예시도이다.

도 3을 참조하면, 가중치가 반영되지 않는 결정함수(f(x))의 출력값은 -5에서 +5의 값을 가질 수 있다. 상술한 바와 같이 종래의 데이터 분류 방법에 따르면, 두 개의 클래스에 대한 결정함수의 출력값의 부호만을 고려하여 데이터를 분류하였다. 예를 들어 종래의 기술에 따르면, 특정 분류 대상 데이터에 대한 결정함수의 출력값이 -0.5인 경우과 -5인 경우 모두 -1이라는 값만을 추출(출력값이 음수라는 사실만을 추출)하여 데이터 분류에 사용하였다. 이때, 출력값은 분류 대상 데이터와 초평면 사이의 거리에 따라 결정될 수 있다. 예를 들어, 분류 대상 데이터와 초평면 사이의 거리가 멀수록 출력값의 절대값이 증가할 수 있다.

그러나, 본 발명의 실시예에 따른 데이터 분류 장치(100)는 분류 대상 데이터에 대한 결정함수의 출력값의 부호뿐만 아니라, 크기까지 고려하여 분류 대상 데이터를 분류할 수 있다. 여기서 출력값의 크기는 분류 대상 데이터와 초평면 사이의 거리를 의미할 수 있다. 구체적으로, 분류 대상 데이터는 초평면과의 거리가 멀수록 결정함수의 출력값의 크기가 증가할 수 있다. 이때, 데이터 분류 장치(100)는 추가적으로 출력값의 크기에 따라 가중치(voting value)를 부여할 수 있다. 즉, 데이터 분류 장치(100)는 결정함수의 출력값의 크기가 클수록 가중치를 더 많이 부여할 수 있다. 초평면과 분류 대상 데이터 사이의 거리가 증가할수록 초평면에 대해 분류 대상 데이터가 존재하는 방향의 클래스에 속할 가능성이 증가하기 때문이다. 이에 따라, 본 발명의 일 실시예에 따른 데이터 분류 장치(100)는 분류 대상 데이터를 분류하는데 있어 정확성을 향상시킬 수 있다.

도 4는 본 발명의 일 실시예에 따른 분류 대상 데이터와 초평면 사이의 거리를 고려하여 분류 대상 데이터를 분류한 결과를 나타낸 예시도이다.

도 4a는 종래 기술에 따라 데이터를 분류한 결과이며, 도 4b는 본 발명의 일 실시예에 따른 분류 대상 데이터와 초평면 사이의 거리를 고려하여 분류 대상 데이터를 분류한 결과이다. 도 4를 참조하면, 분류 대상 데이터와 초평면 사이의 거리를 고려하여 분류 대상 데이터를 분류한 결과 클래스 사이의 경계에 변화가 발생한다는 점을 알 수 있다. 이는 클래스 사이의 초평면에 가까이 위치한 분류 대상 데이터에 대한 분별력을 향상시켜주는 것을 의미한다.

도 5는 본 발명의 일 실시예에 따른 후보 클래스를 선정하는 과정을 나타내는 예시도이다.

도 5를 참조하면, 데이터가 사상된 공간 상에 복수의 클래스(502-1, 502-2, 502-3, 502-4)가 존재하는 것을 알 수 있다. 또한, 각각의 클래스 사이를 구분하는 초평면에 관한 정보를 포함하는 분류 모델이 존재할 수 있다. 예를 들어, 클래스(502-1)와 클래스(502-2)는 SVM에 의해 학습된 분류 모델(예를 들어, SVM3)에 의해 구분될 수 있다.

데이터 분류 장치(100)는 각 클래스 별로 분류 대상 데이터가 속할 확률을 계산할 수 있다. 이때, 분류 대상 데이터가 속할 확률은 널리 알려진 분류 기법에 의해 획득될 수 있고, 특정 분류 기법에 한정되지 않는다. 데이터 분류 장치(100)는 복수의 클래스 중 분류 대상 데이터가 속할 확률이 높은 순으로 3개의 후보 클래스(502-1, 502-3, 502-4)만을 선정할 수 있다. 이후, 데이터 분류 장치(100)는 후보 클래스만으로 분류 대상 데이터를 다시 분류할 수 있다.

도 6은 본 발명의 일 실시예에 따른 데이터 분류 장치(100)에 의해 수행된 분류 결과를 나타낸 예시도이다.

도 6을 참조하면, 데이터 분류 장치(100)가 후보 클래스만으로 분류 대상 데이터(602-1, 602-2, 602-3, 602-4)를 재분류한 결과를 확일 수 있다. 본 실시예에서는 일차적으로 분류 대상 데이터(602-1, 602-2, 602-3, 602-4)를 1 내지 9에 대한 클래스 전체에 대한 분류를 수행하였으며, 수행된 분류 결과에 따라 후보 클래스 3개를 선정하고 선정된 후보 클래스에 대한 재분류를 수행하였다.

먼저 분류 대상 데이터(602-1)에 대해 최초 분류시에는 분류 대상 데이터가 9일 확률이 가장 높았으나, 후보 클래스만으로 재분류한 결과 분류 대상 데이터가 3일 확률이 가장 높았다. 또한, 분류 대상 데이터(602-2)에 대해 최초 분류시에는 분류 대상 데이터가 4일 확률이 가장 높았으나, 후보 클래스만으로 재분류한 결과 분류 대상 데이터가 6일 확률이 가장 높았다. 또한, 분류 대상 데이터(602-3)에 대해 최초 분류시에는 분류 대상 데이터가 9일 확률이 가장 높았으나, 후보 클래스만으로 재분류한 결과 분류 대상 데이터가 8일 확률이 가장 높았다. 또한, 분류 대상 데이터(602-4)에 대해 최초 분류시에는 분류 대상 데이터가 3, 5 또는 9일 확률이 가장 높았으나, 후보 클래스만으로 재분류한 결과 분류 대상 데이터가 9일 확률이 가장 높았다.

이와 같이, 데이터 분류 장치(100)는 분류 대상 데이터가 속할 가능성이 존재하는 모든 클래스를 후보로 데이터를 분류하기보다, 일차적을 분류 대상 데이터가 속할 확률이 높은 클래스만을 선정하고, 선정된 클래스에 대해 재분류를 수행함으로써 데이터 분류의 정확도를 향상시킬 수 있다.

도 7은 본 발명의 일 실시예에 따른 데이터 분류 방법(700)을 설명하기 위한 흐름도이다. 도 7에 도시된 방법은 예를 들어, 전술한 데이터 분류 장치(100)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

입력 모듈(102)은 복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받을 수 있다(S702).

분류 모듈(104)은 복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류할 수 있다(S704).

일 실시예에 따르면, 분류 모듈(104)은 복수의 상기 클래스 중 어느 하나를 선정하고, 선정된 클래스와 나머지 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 클래스에 속하는지를 결정하기 위한 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류할 수 있다. 구체적으로, 분류 모듈(104)은 상기 초평면과 상기 분류 대상 데이터 사이의 상기 거리 및 상기 클래스 사이의 마진(margin)의 크기에 기초하여 상기 결정함수에 가중치를 부여하여 상기 출력값을 산출할 수 있다.

일 실시예에 따르면, 분류 모듈(104)은 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률을 계산하고, 복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정할 수 있다. 구체적으로, 분류 모듈(104)은 상기 후보 클래스 중 어느 하나를 선정하고, 선정된 후보 클래스와 나머지 후보 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 후보 클래스에 속하는지를 결정하는 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류할 수 있다.

도 8은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 데이터 분류 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(102)와 연결될 수도 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 데이터 분류 장치
102: 입력 모듈
104: 분류 모듈
502: 클래스
602: 분류 대상 데이터

Claims

복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 입력 모듈; 및
복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 분류 모듈을 포함하는, 데이터 분류 장치.
청구항 1에 있어서,
상기 분류 모듈은, 복수의 상기 클래스 중 어느 하나를 선정하고, 선정된 클래스와 나머지 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 클래스에 속하는지를 결정하기 위한 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류하는, 데이터 분류 장치.
청구항 2에 있어서,
상기 분류 모듈은, 상기 초평면과 상기 분류 대상 데이터 사이의 상기 거리 및 상기 클래스 사이의 마진(margin)의 크기에 기초하여 상기 결정함수에 가중치를 부여하여 상기 출력값을 산출하는, 데이터 분류 장치.
청구항 3에 있어서,
상기 분류 모듈은, 다음의 수학식

(y: 가중치가 부여된 결정함수의 출력값, x: 분류 대상 데이터, f: 특정 클래스에 대한 결정함수, m: 대응되는 클래스 사이의 마진의 크기)
에 따라 상기 출력값을 산출하는, 데이터 분류 장치.
청구항 1에 있어서,
상기 분류 모듈은, 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률을 계산하고, 복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정하는, 데이터 분류 장치.
청구항 5에 있어서,
상기 분류 모듈은, 상기 후보 클래스 중 어느 하나를 선정하고, 선정된 후보 클래스와 나머지 후보 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 후보 클래스에 속하는지를 결정하는 결정함수의 출력값을 산출하며, 상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류하는, 데이터 분류 장치.
하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 단계; 및
복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 단계를 포함하는, 데이터 분류 방법.
청구항 7에 있어서,
상기 분류하는 단계는,
복수의 상기 클래스 중 어느 하나를 선정하는 단계;
선정된 클래스와 나머지 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 클래스에 속하는지를 결정하기 위한 결정함수의 출력값을 산출하는 단계; 및
상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류하는 단계를 포함하는, 데이터 분류 방법.
청구항 8에 있어서,
상기 출력값을 산출하는 단계는, 상기 초평면과 상기 분류 대상 데이터 사이의 상기 거리 및 상기 클래스 사이의 마진(margin)의 크기에 기초하여 상기 결정함수에 가중치를 부여하여 상기 출력값을 산출하는, 데이터 분류 방법.
청구항 9에 있어서,
상기 출력값을 산출하는 단계는, 다음의 수학식

(y: 가중치가 부여된 결정함수의 출력값, x: 분류 대상 데이터, f: 특정 클래스에 대한 결정함수, m: 대응되는 클래스 사이의 마진의 크기)
에 따라 상기 출력값을 산출하는, 데이터 분류 방법.
청구항 7에 있어서,
상기 분류하는 단계는,
복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률을 계산하는 단계; 및
복수의 상기 클래스 중 상기 확률이 높은 순으로 설정된 개수만큼 상기 후보 클래스를 선정하는 단계를 포함하는, 데이터 분류 방법.
청구항 11에 있어서,
상기 후보 클래스를 선정하는 단계의 수행 이후,
상기 후보 클래스 중 어느 하나를 선정하는 단계;
선정된 후보 클래스와 나머지 후보 클래스 각각에 대한 초평면을 기준으로 상기 분류 대상 데이터가 선정된 상기 후보 클래스에 속하는지를 결정하는 결정함수의 출력값을 산출하는 단계; 및
상기 결정함수의 출력값의 합을 이용하여 상기 분류 대상 데이터를 분류하는 단계를 포함하는, 데이터 분류 방법.
하드웨어와 결합되어
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
복수의 클래스 중 어느 하나로 분류되는 분류 대상 데이터를 입력 받는 단계; 및
복수의 상기 클래스 각각의 경계를 나타내는 초평면(hyperplane)과 상기 분류 대상 데이터 사이의 거리 및 미리 계산된 복수의 상기 클래스 별로 상기 분류 대상 데이터가 속할 확률에 따라 선정된 후보 클래스 중 적어도 하나에 기초하여 상기 분류 대상 데이터를 복수의 상기 클래스 중 어느 하나로 분류하는 단계를 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.