KR100842080B1

KR100842080B1 - 문서의 그룹별 분류방법

Info

Publication number: KR100842080B1
Application number: KR1020060039860A
Authority: KR
Inventors: 신광철; 한상용
Original assignee: 중앙대학교 산학협력단
Priority date: 2006-05-03
Filing date: 2006-05-03
Publication date: 2008-06-30
Also published as: KR20070107407A

Abstract

본 발명은 텍스트를 포함한 문서를 텍스트를 기준으로 하여 문서들 간의 유사성 및 연관성에 따라 분류하고, 이렇게 분류된 문서들을 그룹화한 후 새로운 문서를 상기 그룹에 따라 분류하는 방법에 관한 것으로, 텍스트를 포함하는 문서에서 지정 단어의 출현횟수에 따라 다수의 상기 문서들을 그룹으로 나누어 분류하는 단계; 일 그룹으로 분류된 문서들의 위치를 확인하여, 그룹별로 상기 문서들의 위치에 대한 제1중점을 찾는 단계; 상기 제1중점을 중심으로 소정의 반경 내에 있는 문서만을 확인하는 단계; 상기 반경 내 문서들의 위치에 대한 제2중점을 찾는 단계; 및, 새로운 문서의 상기 지정 단어의 출현횟수에 따라 위치를 확인하여, 상기 제2중점과 근접한 그룹으로 포함시켜 분류하는 단계를 포함하는 것이다.

Description

문서의 그룹별 분류방법{Data Classificating method}

도 1은 분류되는 문서 내 텍스트를 처리하는 모습을 도시한 표이고,

도 2는 본 발명에 따른 분류방법을 순차 도시한 플로우차트이고,

도 3은 본 발명에 따른 분류방법의 실시모습을 도시한 그래프이고,

도 4는 본 발명에 따른 분류방법에서 제2중점을 결정하기 위해 인접도가 떨어지는 문서의 제외 기준인 반경을 구하고, 그 반경에 의해 분류된 문서의 적정성의 결과를 도시한 그래프이고,

도 5는 본 발명에 따른 분류방법의 결과를 도시한 그래프이다.

본 발명은 텍스트를 포함한 문서를 텍스트를 기준으로 하여 문서들 간의 유사성 및 연관성에 따라 분류하고, 이렇게 분류된 문서들을 그룹화한 후 새로운 문서를 상기 그룹에 따라 분류하는 방법에 관한 것이다.

인터넷의 기술적 발전은 수많은 정보의 발생을 초래하여, 정보의 양보다는 다수의 정보를 어떻게 분류하고 관리할지를 요구하게 되었다. 따라서, 수많은 정보 내에서 원하는 정보를 얻기 위한 신속한 검색과 검색결과에 대한 신뢰성을 높일 수 있는 다양한 방법들이 제안되고 있다.

이러한 종래 방법들에는 KNN(K Nearest Neighbor) Classfier와, Centroid Based Classification(Categorization) 등이 있다.

전자의 경우, 분류해야 하는 새로운 문서와, 미리 분류된 문서집합을 비교하여, K개의 가장 유사한 문서를 찾은 후, 찾아진 K개의 유사 문서를 가장 많이 소유한 그룹에 할당하는 방법이다.

후자의 경우, 미리 분류된 문서의 각 그룹 중점을 계산한 후, 분류해야 하는 새로운 문서와 각 그룹의 중점 간의 유사도를 비교하여 가장 유사한 그룹에 할당하는 방법이다.

그러나, 이상 설명한 문서의 종래 분류방법은 이미 그룹화된 문서들을 기준으로 새로운 문서의 분류를 진행하므로, 문서 내용의 변화에 융통성 있게 적응하지 못하고 문서의 분류가 획일적으로 진행되는 문제가 있었다.

이러한 획일적이고 정형적인 종래 분류방법은 검색자가 의도한 검색의 취지에 적절히 대응하지 못할 수 있으며, 관련 문서가 갖는 정보에 대한 변화를 따르지 못할 수 있었다.

이에 본 발명은 상기와 같은 문제를 해소하기 위해 안출된 것으로, 문서 분류를 정보의 변화에 따라 융통성 있게 수행하여 검색결과에 대한 신뢰성을 향상시킬 수 있도록 하는 문서의 그룹별 분류방법의 제공을 기술적 과제로 한다.

상기의 기술적 과제를 달성하기 위하여 본 발명은,

텍스트를 포함하는 문서에서 지정 단어의 출현횟수에 따라 다수의 상기 문서들을 그룹으로 나누어 분류하는 단계;

일 그룹으로 분류된 문서들의 위치를 확인하여, 그룹별로 상기 문서들의 위치에 대한 제1중점을 찾는 단계;

상기 제1중점을 중심으로 소정의 반경 내에 있는 문서만을 확인하는 단계;

상기 반경 내 문서들의 위치에 대한 제2중점을 찾는 단계; 및,

새로운 문서의 상기 지정 단어의 출현횟수에 따라 위치를 확인하여, 상기 제2중점과 근접한 그룹으로 포함시켜 분류하는 단계;

를 포함하는 문서의 그룹별 분류방법이다.

상기의 기술적 과제를 달성하기 위하여 본 발명은, 상기 그룹별 분류방법에 있어서,

상기 반경은

상기 각 그룹에 대해서 상기 제1중점을 중심으로 길이가 다른 다수의 반경 내 문서별로 제2중점들을 각각 찾은 후, 상기 제2중점들과 새로운 문서의 위치 간의 거리를 확인하여 반경에 따른 근접한 그룹에 포함하고, 해당 그룹에 대한 새로운 문서 분류의 적정성을 확인하여 최고의 적정성을 보인 반경으로 선택되는 것이다.

이하 본 발명을 첨부된 예시도면에 의거하여 상세히 설명한다.

도 1은 분류되는 문서 내 텍스트를 처리하는 모습을 도시한 표인 바, 이를 참조하여 설명한다.

문서를 분류하기 위해서는 문서의 내용을 알아야 한다. 그러나, 인터넷 통신을 매개하는 전기, 전자장비들은 문서의 내용을 자력으로 인지할 수 없는 기계이므로, 텍스트를 읽고 그 내용을 확인할 수 없다. 따라서, 문서의 분류는 텍스트 내에 기재된 단어의 동일성 여부를 기준으로 이루어진다.

텍스트에 포함된 단어는 그 격(주격, 소유격, 목적격 따위)에 따라 어미의 형태가 변하게 되며, 추가로 각종 대명사들이 포함된다. 여기서, 문서를 구분할 수 있는 기능을 갖지 않는 단어를 불용어라 한다. 도 1을 통해 예시한 바와 같이, 'They', 'are' 및 'who'는 대명사로서 불용어이고, 기타 문법상 수나 시제 등을 맞추기 위한 어간 또한 불용어로서 제거된다.

이렇게 제거되고 남은 단어는 문서별로 분리되며, 다른 문서와 당해 문서 간의 유사 정도를 수치적으로 확인할 수 있도록 하는 요소가 된다.

한편, 상기 단어들을 통해 유사한 주제라고 인정되는 문서끼리 하나의 그룹이 되도록 분류하며, 자동분류로서 새로운 문서를 그룹들 중 가장 유사한 것으로 보이는 그룹에 할당한다.

상기 자동분류(Classification)는 그룹의 개수가 알려져 있고, 각 그룹에 문서가 있는 경우에 사용되는 기법이다.

본 발명에 따른 문서의 그룹별 분류방법은 상술한 자동분류의 일종인 상기 Centroid Based Classification(Categorization)을 응용한 것으로, 이하에서 설명하는 방법에 따라 새로운 문서를 기존 그룹들 중 적정한 그룹으로 분류한다.

도 2는 본 발명에 따른 분류방법을 순차 도시한 플로우차트이고, 도 3은 본 발명에 따른 분류방법의 실시모습을 도시한 그래프인 바, 이를 참조하여 설명한다.

본 발명에 따른 분류방법을 도시한 플로우차트에 따라 순차 설명한다.

S10 ; 문서 내 특정 단어의 개수확인

상술한 바와 같이, 문서들 간의 유사여부 판단은 문서가 포함하는 특정 단어들의 존재와, 이 단어들의 사용빈도에 의한다. 물론, 이외에도 유의어의 존재와 어느 분야에서 자주 등장하는 단어들의 출현여부 등, 문서들 간의 유사여부를 판단하기 위한 다양한 방식들이 있으며, 이러한 방식들이 단어들의 사용빈도에 의한 유사여부 판단 방식과 더불어 문서들 간의 유사여부를 확인하기 위한 데이터로 활용될 수 있다.

본 발명에 따른 분류방법이 적용되는 일실시예에서는 도 3에 도시한 바와 같이 문서들을 2차원 평면에 특정 위치에 배치한다. 이때, 상기 문서들을 2차원 평면 상에 배치하는 근거는 특정한 두 단어의 사용횟수에 의한다.

일예로, 어느 문서 내에 사용된 'SCHOOL'과 'HOUSE'의 개수를 확인한다. 이렇게 확인된 상기 단어들의 사용빈도를 좌표값으로 하여 2차원 평면에 배치한다. 즉, 두 단어의 사용빈도가 높을수록 원점에서 멀어지고, 두 단어의 사용빈도가 낮을수록 원점에서 가까워지는 것이다.

S20 ; 단어수에 따른 문서의 공간적 위치지정

상술한 바와 같이, 특정 단어가 사용된 개수를 좌표값으로 하여 해당 좌표에 배치한다. 이때, 앞서 보인 예시는 2 단어에 한정하여 2차원 평면에 배치하는 것으로 하였지만, 이에 한정되는 것은 아니며, 3 단어 이상이 이용될 수도 있을 것이다. 따라서, 좌표계 또한 2차원이 아닌 3차원으로도 확장될 수 있고, 그 이상이 될 수도 있을 것이다.

S30 ; 그룹으로 분류

문서들을 분류한다. 이때, 문서들의 분류는 상술한 바와 같이 단어들의 사용빈도에 따라 좌표에 배치하는 방식만으로 한정되는 것은 아니므로, 이미 다수의 그룹으로 분류된 문서들을 상기 개수확인단계(S10) 및 위치지정단계(S20)의 방법에 따라 2차원 또는 그 이상의 좌표계에 해당 문서들을 배치할 수도 있을 것이다.

그러나, 본 발명에 따른 분류방법은 종래 문서분류 방법인 Centroid Based Classification(Categorization)를 응용하여 그 효과를 높이도록 한 것으로, 현실적으로는 문서들이 다수의 그룹으로 분류된 상태에서 본 발명이 적용될 것이다. 따라서, 상기 분류단계(S30)가 상기 개수확인단계(S10) 및 위치지정단계(S20)에 우선하는 것이 일반적이라 할 것이다.

하지만, 그 순서에 있어 상술한 바에 한정되는 것은 아니다.

S40 ; 분류된 그룹의 제1중점확인

2차원 평면 내 배치된 그룹화된 문서들의 위치를 기반으로, 해당 그룹의 제1중점(10a, 20a, 30a)을 확인한다.

[수학식 1]은 하나의 그룹으로 분류된 다수 문서들의 제1중점(10a, 20a, 30a)을 계산하기 위한 식이다.

: 제1중점

:주어진 문서

: 문서의 좌표

도 3은 세모 문서(11)들을 분류한 세모그룹(10)과, 네모 문서(21)들을 분류한 네모그룹(20) 및, 원 문서(31)들을 분류한 원그룹(30)을 도시하고 있으며, 각 그룹(10, 20, 30)들은 상술한 과정을 통해 제1중점(10a, 20a, 30a)이 결정된다.

S50 ; 반경 결정

[수학식 1]을 통해 확인된 제1중점(10a, 20a, 30a)에서 일정거리만큼을 반경(R1, R2, R3)으로 하는 원형의 범위를 확인한다.

이때, 상기 원형의 범위는 각 그룹(10, 20, 30)들에 포함된 문서들 중 상기 제1중점(10a, 20a, 30a)으로부터 지나치게 멀리 있는 문서를 제외하기 위한 기준으로, 상기 반경(R1, R2, R3)은 그 기준이 되는 범위를 결정하는 인자가 된다.

그런데, 상기 반경(R1, R2, R3)은 그 길이가 다양할 수 있으므로, 반경(R1, R2, R3)의 길이를 결정할 수 있는 방법이 요구된다. 이러한 상기 반경(R1, R2, R3)에 대한 결정방법을 아래에서 설명한다.

S60 ; 반경 외 문서 제외

상기 반경결정(S50)을 통해 결정된 반경(R1, R2, R3)을 이용하여 상기 제1중점(10a, 20a, 30a)을 중심으로 하는 원형의 범위를 확인한다. 즉, 도 3과 같이 다수의 문서들을 좌표계에 위치시킨 후, 상기 제1중점(10a, 20a, 30a)을 중심으로 결정된 상기 반경(R1, R2, R3)을 반지름으로 하는 원을 그리는 것이다. 이렇게 형성된 원형의 범위 외에 있는 문서(12, 22, 32)를 상기 그룹(10, 20, 30)의 문서에서 임시로 제외한다.

당해 단계는 [수학식 2]를 포함한 프로그램에 의해 컴퓨팅 될 것이며, 도 3에 도시한 바와 같은 좌표계를 도시하여 반경 외 문서(12, 22, 32)의 제외처리가 이루어지는 것은 아니다.

: 반경 외 문서

: 문서

S70 ; 그룹의 제2중점확인

해당 그룹(10,20,30)에서 제1중점(10a,20a,30a)을 중심으로 상기 반경 내에 존재하는 문서(11,21,31) 만으로 [수학식 1]을 이용하여 제2중점을 연산한다.

앞선 제1중점(10a, 20a, 30a)은 그룹(10, 20, 30)에 포함된 모든 문서(11, 12, 21, 22, 31, 32)에 대한 중점인 반면, 상기 제2중점은 해당 반경(R1, R2, R3) 내에 위치하는 문서(11, 21, 31) 만에 대한 중점인 것이다. 따라서, 상기 제1중점과 제2중점은 그 위치에 차이가 있을 수 있다.

S80 ; 새로운 문서 분류

도 3에 도시한 바와 같이, 새로 발생한 별 문서(40)와 각 그룹(10, 20, 30)의 제2중점 간의 거리를 확인하여 가장 근접한 그룹(10, 20, 30)으로 상기 별 문서(40)를 분류한다.

이상 설명한 바와 같이, 본 발명에 따른 문서의 그룹별 분류를 위한 분류방 법에서는, 종래 기술인 Centroid Based Classification(Categorization) 방법을 통해 새로운 문서(40)를 분류할 시, 그룹(10, 20, 30) 내 인접도가 작은 문서(12, 22, 32)들을 제외하여 그룹(10, 20, 30)의 제2중점을 새롭게 결정하고, 상기 제2중점을 통해 상기 새로운 문서(40)를 분류함으로서, 그 분류에 대한 신뢰도를 높인다.

한편, 이러한 효과를 보이는 본 발명에 따른 분류방법에서, 제2중점을 구하기 위해 인접도가 떨어지는 문서(12, 22, 32)를 선택할 수 있는 반경(R1, R2, R3)에 대한 길이 결정이 중요하다.

이는 다음과 같은 과정을 통해 이루어진다.

각 그룹(10, 20, 30)의 반경(R1, R2, R3)은 각 그룹(10, 20, 30)을 구성하는 문서(11, 21, 31)들의 위치에 절대적으로 의존하므로, 그룹(10, 20, 30)의 제1중점(10a, 20a, 30a)을 중심으로 하여 임의 반경이 0인 원형부터 시작하여 차례대로 늘려준다.

이렇게 늘어나는 각각의 반경에 따라 해당 원형 외에 위치하는 문서를 제외한 남은 문서만을 가지고 제2중점을 구한다.

이후, 새로운 문서(40)와 각 그룹(10, 20, 30)의 제2중점 간의 인접도를 확인하여서, 새로운 문서(40)가 분류될 그룹(10, 20, 30)을 선택한다.

분류가 완료되면, 그 분류의 적정성을 확인한다.

도 4는 본 발명에 따른 분류방법에서 제2중점을 결정하기 위해 인접도가 떨어지는 문서의 제외 기준인 반경을 구하고, 그 반경에 의해 분류된 문서의 적정성 의 결과를 도시한 그래프이다.

도 4를 통해 보인 바와 같이, 제1중점(10a, 20a, 30a)으로부터 반경을 조금씩 늘려가면서 제외되는 문서를 정리하여 제2중점의 위치를 재결정하고, 이렇게 재결정되는 제2중점을 통해 새로운 문서(40)를 해당 그룹으로 분류하여, 분류된 적정성을 확인한다.

당해 실험결과는 각각 1000개의 문서를 갖는 20개의 그룹(각 그룹은 이미 제1중점을 가지고 있다.) 환경에 새로운 문서를 삽입하여 이를 분류하기 위해, 각 그룹의 제1중점을 중심으로 한 반경에 변화를 주면서 분류되는 상기 새로운 문서의 분류 적정성을 보인 것이다. 당해 실험결과, 본 실험 환경에서 가장 바람직한 반경은 0.4인 것을 확인할 수 있다.

일반적으로, 상기 방법을 통해 결정된 반경은 문서의 내용적 변화에 큰 변화가 없는 한, 동일한 환경에서는 지속적으로 적용될 수 있다. 즉, 본 발명에 따른 분류방법을 적용하기 위해서는 최초에 상기 분류방법이 적용될 그룹 환경에서 최적의 반경값을 상술한 방법을 통해 우선적으로 구하고, 이렇게 구해진 반경을 동일한 그룹 환경 내에서 새로운 문서를 분류할 때마다 적용한다. 이로 인해 도 5(본 발명에 따른 분류방법의 결과를 도시한 그래프)에서 보이는 바와 같이 효율적인 문서분류를 달성할 수 있게 된다.

또한, 문서의 내용에 대한 변화에 순응하기 위해 상기 반경값을 재결정한 후 분류에 새롭게 적용할 수도 있어, 융통성 있는 문서 분류를 지향할 수 있다.

도 5를 통해 확인하면, 앞서 설명한 그룹 환경(각각 1000개의 문서를 갖는 20개의 그룹)에서 종래 분류 방법인 KNN(K Nearest Neighbor) Classfier와, Centroid Based Classification(Categorization)과, 본 발명에 따른 분류방법이 적용된 분류 방법의 분류 결과를 비교할 때, kNN 방법에 비해 32.11%의 향상된 성능을 보여주고 있고, Centroid Based Classification 방법에 비해 9.93%의 향상된 성능을 보여주고 있다.

이상 상기와 같은 본 발명에 따르면, 다수의 문서들이 유사한 문서끼리 분류되어 하나의 그룹을 이루는 환경에서, 새로운 문서가 발생할 경우, 상기 그룹들로 상기 새로운 문서를 분류하는 적정성을 높여 문서분류에 대한 신뢰도를 높일 수 있는 효과가 있다.

Claims

텍스트를 포함하는 문서에서 둘 이상의 지정 단어에 대한 각각의 출현횟수에 따라 다수의 상기 문서들을 그룹으로 나누어 분류하는 단계;

일 그룹으로 분류된 문서들의 위치를 상기 출현횟수를 좌표값으로 하여 확인하고, 이렇게 확인한 좌표값을 이용해서 그룹별로 해당 문서들의 위치에 대한 중심점인 제1중점을 찾는 단계;

상기 제1중점을 중심으로 정해진 반경 내에 있는 좌표값에 해당하는 문서를 확인하는 단계;

상기 반경 내 문서들만의 위치에 대한 중심점인 제2중점을 찾는 단계; 및

새로운 문서의 상기 지정 단어의 출현횟수에 따라 위치를 확인하여, 상기 제2중점과 근접한 그룹으로 포함시켜 분류하는 단계;

를 포함하는 것을 특징으로 하는 문서의 그룹별 분류방법.
제 1 항에 있어서, 상기 반경은

상기 각 그룹에 대해서 상기 제1중점을 중심으로 길이가 다른 다수의 반경 내 문서별로 제2중점들을 각각 찾은 후, 상기 제2중점들과 새로운 문서의 위치 간의 거리를 확인하여 반경에 따른 근접한 그룹에 포함하고, 해당 그룹에 대한 새로운 문서 분류의 적정성을 확인하여 최고의 적정성을 보인 반경으로 선택되는 것을 특징으로 하는 문서의 그룹별 분류방법.