KR20080053103A

KR20080053103A - 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치

Info

Publication number: KR20080053103A
Application number: KR1020060125077A
Authority: KR
Inventors: 윤용욱; 이근배
Original assignee: 포항공과대학교 산학협력단
Priority date: 2006-12-08
Filing date: 2006-12-08
Publication date: 2008-06-12
Also published as: KR100842216B1

Abstract

본 발명은 연관규칙을 이용한 문서분류 방법에 대한 것으로서, 다수의 범주 레이블과 다중 범주 레이블을 가진 문서집합에 대하여 범주별로 분류를 효율적으로 수행하는 방법에 대한 것이다. 이 문서분류 방법은 문서집합에 나온 단어를 기준으로 색인화하여 데이터베이스에 저장하고; 저장된 데이터베이스를 읽고 단어들과 문서의 레이블 사이의 연관규칙을 탐사하여 규칙의 집합형태로 저장하고; 이렇게 저장된 다수의 분류 규칙들로부터 우선순위 가지치기방법에 의한 양질의 소수 규칙만을 추출하고; 및 새로운 문서를 받아들여서 그 문서의 정답 범주를 추출된 다수의 규칙을 적용하여 판별한다. 본 발명은 범주 추정시 다중 레이블별로 판별 점수를 제공함으로써 사람에 의한 교정도 가능한 방법이다.

문서분류, 다중범주, 연관규칙탐사, 규칙가지치기, 연관분류규칙, 정보검색

Description

연관규칙 탐사 기법을 이용하여 추출한 다수의 연관 분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치{Automatic document classification method and apparatus for multiple category documents with plural associative classification rules extracted using association rule mining technique}

도 1은 본 발명에 따른 연관분류 규칙의 추출과 이를 이용하여 새로운 문서의 다중 범주를 추정하는 문서분류 방법의 흐름도이다.

도 2는 본 발명에 따른 분류규칙 우선순위에 의한 규칙 가지치기 흐름도이다.

도 3은 본 발명에 따른 규칙 가지치기 방법 알고리즘을 나타낸 순서도이다.

<도면의 주요부분에 대한 부호의 설명>

120...자질단어 추출 및 문서 색인화부

130...문서 DB

140...연관규칙 탐사 및 분류규칙 생성부

150...연관분류 규칙 DB

160...규칙정렬 및 가지치기부

170...가지치기된 분류규칙 DB

180...범주추정부

220...규칙정렬부

230...정렬된 분류규칙 DB

240...범주추정 및 규칙 선출부

본 발명은 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관 분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치에 관한 것으로, 특히 하나 이상의 정답 범주를 가진 문서들을 가지고 기계학습 방법을 통하여 학습모델을 구축한 후, 새로운 문서를 입력으로 받아서 그 문서의 범주를 추정하는 자동 문서분류 방법에 관한 것이다.

일반적으로 문서의 분류를 위하여 먼저 문서를 구성하는 단어들을 추출하여 기계학습 방법을 적용하기 알맞도록 문서의 색인화 과정을 거친다. 이 색인화 과정은 일반적인 정보 검색시스템 구축의 처음 단계로 문서분류에 공통적으로 사용된다. 웹사이트의 문서 검색시 사용되는 문서의 모델링 방법이나 검색 시스템의 평가시 사용되는 성능척도 등도 문서분류에서 공통적으로 사용된다.

본 발명에서는 문서의 자질(단어나 구)과 문서 범주사이의 관련성을 정의하기 위하여 문서에 자주 출현하는 단어나 구를 학습 문서집합으로부터 추출하는데, 이를 위하여 연관 규칙 탐사(Association Rule Mining) 기법을 사용한다. 이 기법은 상거래에 있어서 다량의 거래기록(transaction data)이 담긴 데이터베이스로부 터 상품(item)간 구매 연관성을 찾기 위해 개발된 방법이다. 이 방법이 일반화되어 여러 자질들로 이루어진 객체집합으로부터 유용한 정보를 찾아내려는 탐사기법(Data Mining)이 발전을 거듭하고 있다.

거래 데이터베이스에서 연관 규칙(Association Rule)을 탐사(Mining)하는 과정을 공식화하면 다음과 같다. 상품의 전체 집합을 I라 하고 개개의 상품(item)을i₁, i₂, i₃, ..., I_N라 하면 I={i₁, i₂, i₃, ..., I_N}이다. C를 범주 레이블의 집합이라고 하면 C={c₁, c₂, c₃, ... c_|C|}이다. 트랜잭션의 집합 T={t₁, t₂, t₃, ..., t_M}일때, t_i⊂I이며, T는 마이닝의 대상으로서 보통 데이터베이스로 되어 있다. A⊂I인 임의의 A를 상품 집합(itemset)이라 하며 T를 대상으로 탐사를 수행하여 일정수준 이상의 상관관계가 있는 두 상품 집합(itemset)인 A, B를 발견해내는 과정을 마이닝이라고 한다. 여기서 상품 집합(itemset) B는 크기가 1인 상품 집합(itemset)이며 A->B 의 형식으로 표현하고 이를 연관규칙(Association Rule)이라고 부른다. 여기서 상관관계가 있다는 것은 A와 B의 T에서의 출현빈도가 어느 일정기준(thresholds)을 초과했을 때를 말한다. 연관규칙임을 판별하는데 있어 출현빈도는 지지도(Support)로 나타낸다. 임의의 상품 집합(itemset)인 X의 지지도 Supp(X)는 X가 출현한 트랜잭션 t_i의 수로 정의된다. 연관규칙 A->B의 지지도 Supp(A->B)는 Supp(A∪B)로 정의된다. 지지도 외 상품 집합 A, B의 상관관계를 나타내는 또 하나의 기준은 신뢰도(Confidence)이다. 연관규칙 A->B의 신뢰도 Conf(A->B)는 Supp(A->B)/Supp(A)로 정의된다. 신뢰도는 A가 나타난 것을 가정했을 때 B가 나타 나는 조건부 확률을 가리키는 의미이다.

자동 문서분류를 위한 학습 모델 구축을 위하여 여러 가지 기계학습 기법이 사용되었다. 대표적인 것으로서 베이시안 네트워크(Bayesian Network) 분류기가 있다. 이것은 문서를 구성하는 단어들을 자질로 삼고 이 단어들의 출현빈도의 사건들로 이루어진 문서생성 확률분포를 정의함으로써 문서의 발현 확률분포를 모델링한다. 또한 문서의 범주들을 생성 파라미터로 삼고, 범주 조건부 확률분포를 가지고 문서의 범주를 추정하는 분류기법이다. 여기서, 특정 단어의 출현 빈도가 다른 단어의 출현빈도와 독립적이라는 가정을 한 것이 내이브 베이스(Naive Bayes) 분류기이다. 이렇게 함으로써 문서 생성 확률분포를 구하기가 용이해지고 작은 양의 학습예제를 가지고서도 좋은 성능의 분류기를 구현할 수 있으므로 현실적으로 가장 많이 사용되는 분류방법이다.

최근에 많이 사용되는 것으로 지지벡터기계(Support Vector Machine; SVM) 분류기가 있다. SVM은 기본적으로 이진(binary) 분류기로서 범주 경계의 여백을 최대로 하는 지지벡터들을 구하고, 새로운 문서가 들어오면 이 지지벡터들을 이용하여 범주를 판정하게 된다. K개의 다중 범주 분류에 적용하기 위해서는 K개의 분류기를 학습해서 순차적으로 적용하게 된다. 높은 분류성능을 보이지만 모델 학습시 시간이 많이 걸리고 시스템이 복잡한 단점이 있다. 이밖에 분류 방법으로는 의사결정나무(Decision Tree), k-Nearest Neighbor 신경망(Neural Network) 등의 방법이 있다.

본 발명이 이루고자 하는 기술적 과제는 상기 종래의 단점들을 해결하기 위하여, 본 발명은 다중 범주를 가진 문서의 분류작업에 있어 연관규칙 탐사를 통한 분류규칙을 사용함으로써 종전 하나의 단어 자질만을 채용한 기계학습 분류기와 달리 두 단어 이상으로 구성된 패턴(pattern)을 자질로 활용함으로써 보다 많은 정보를 이용하는 것이 가능하므로 문서분류의 정확도를 더욱 높일 수 있는, 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관 분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명이 이루고자 하는 다른 기술적 과제는, 연관규칙 탐사시 패턴(pattern)을 이루는 단어의 수를 제한함으로써 빈번히 출현하는 패턴의 탐사시간을 합리적으로 제한할 수 있으며 동시에 문서분류에 필요한 최적의 단어 수에 대해 탐사를 수행함으로써 분류 정확도의 저하를 최소화할 수 있는, 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관 분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치를 제공하는 것을 다른 목적으로 한다.

본 발명이 이루고자 하는 또 다른 기술적 과제는, 1회의 분류 작업수행을 통해 기본적으로 다중 범주에 대한 추정 점수를 모두 출력함으로써 빠른 시간 내에 다중 문서 분류가 가능할 뿐만 아니라, 분류결과에 대한 직관적인 이해가 가능하며, 나중에 인간 전문가에 의해 추정 결과를 교정할 수도 있으므로 범주 판정에 있어 융통성을 제공하는, 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관 분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치를 제공하는 것을 또 다른 목적으로 한다.

본 발명이 이루고자 하는 또 다른 기술적 과제는 상술한 문서 자동 분류 방법을 수행하는 프로그램을 저장한 저장매체를 제공함에 그 또 다른 목적이 있다.

본 발명은 상술한 기술적 과제를 달성하기 위하여, 연관규칙 탐사를 통한 분류규칙을 이용한 다중 범주문서의 자동 분류 방법에 있어서, (a) 연관규칙 탐사시 자질 단어를 선정하는 단계; (b) 탐사된 분류규칙을 데이터베이스에 특정 자료구조로 저장하는 단계; (c) 분류규칙의 우선순위에 의한 규칙 가지치기 단계; 및 (d) 다수의 분류규칙을 가지고 시험 문서의 범주를 추정하는 단계를 포함하는 문서 자동 분류 방법을 제공한다.

바람직하기로는 상기 (a) 단계는 (a1) 자질선정을 위한 단어 후보 선택시 자연어처리에서의 스톱워드(Stop-word)를 제외한 전체 단어를 포함시키는 단계; 및 (a2) 빈도 패턴 나무(Frequent Pattern Tree) 성장과정에서 패턴을 이루는 단어의 수를 어느 일정기준 이하로 제한하는 단계를 포함한다.

바람직하기로는 상기 (b) 단계는 (b1) 자질로 선정된 단어를 학습문서 집합에 나온 출현 횟수에 따라 순위를 매겨 테이블에 저장하는 단계; (b2) 분류규칙을 저장함에 있어 자주 나오는 단어순으로 접두 나무(Prefix Tree)형태로 규칙을 저장하는 단계; 및 (b3) 분류규칙에 나타난 서브 패턴(sub pattern)의 매칭을 용이하게 하기 위해 접두 나무(Prefix Tree)의 단어 노드를 (b1) 단계의 테이블의 노드를 포함하여 링크된 리스트(Linked List)형태로 연결하는 단계를 포함한다.

바람직하기로는 상기 (c) 단계는 (c1) (i) 신뢰도가 높은 규칙이 우선 순위 가 높고 (ii) 신뢰도가 같으면 지지도가 많은 규칙이 우선순위가 높고 (iii) 신뢰도, 지지도가 모두 같은 경우, 먼저 추출된 규칙이 우선순위가 높다는 분류규칙을 정렬하는 단계; (c2) 상기 (c1) 단계의 분류규칙의 기준대로 정렬된 규칙을 연관규칙 탐사에 사용된 학습문서 집합에 적용하여 범주를 추정하고 그 결과에 따라 불필요한 규칙을 제거하고 최종 분류규칙을 선출하는 단계; 및 (c3) 상기 (c2) 단계에서 추정대상 학습문서를 추정 정오 여부에 따라 데이터베이스에서 제거하는 단계를 포함한다.

바람직하기로는 상기 (d) 단계는 (d1) 새로운 시험 문서를 입력받은 후, 학습된 분류규칙을 이용하여 패턴 매칭에 의거한 범주별 추정 점수를 계산하는 단계; (d2) 매칭된 분류규칙의 점수를 범주별로 합산하는 단계; 및 (d3) 범주별 합산점수에 의하여 추정 범주의 우선순위를 매기는 단계를 포함한다.

본 발명은 다른 기술적 과제를 달성하기 위하여, 문서 자동 분류 장치에 있어서, 문서집합에 나온 단어를 기준으로 색인화하여 문서데이터베이스에 저장하는 자질 단어 추출 및 문서 색인화부; 문서 데이터베이스에 저장된 데이터를 읽고 단어들과 문서의 레이블 사이의 연관규칙을 탐사하여 규칙의 집합형태로 연관분류규칙 데이터베이스에 저장하는 연관규칙 탐사 및 분류규칙 생성부; 이렇게 저장된 다수의 분류 규칙들을 정렬하고 우선순위 가지치기방법에 의한 양질의 소수 규칙만을 추출하여 가지치기된 분류규칙 데이터베이스에 저장하는 규칙 정렬 및 가지치기부; 및 새로운 문서를 받아들여서 그 문서의 정답 범주를 상기 가지치기된 분류규칙 데이터베이스로부터 추출된 다수의 규칙을 적용하여 판별하는 범주추정부를 포함하는 문서 자동 분류 장치를 제공한다.

본 발명은 또 다른 기술적 과제를 달성하기 위하여, 문서 자동 분류 장치에 적용되어 연관규칙 탐사를 통한 분류규칙을 이용한 다중 범주문서의 자동 분류 방법을 수행하는 프로그램을 저장한 저장매체에 있어서, 문서집합에 나온 단어를 기준으로 색인화하여 문서데이터베이스에 저장하도록 하는 자질 단어 추출 및 문서 색인화를 수행하는 프로그램; 문서 데이터베이스에 저장된 데이터를 읽고 단어들과 문서의 레이블 사이의 연관규칙을 탐사하여 규칙의 집합형태로 연관분류규칙 데이터베이스에 저장하는 연관규칙 탐사 및 분류규칙 생성을 수행하는 프로그램; 이렇게 저장된 다수의 분류 규칙들을 정렬하고 우선순위 가지치기방법에 의한 양질의 소수 규칙만을 추출하여 가지치기된 분류규칙 데이터베이스에 저장하는 규칙 정렬 및 가지치기를 수행하는 프로그램; 및 새로운 문서를 받아들여서 그 문서의 정답 범주를 상기 가지치기된 분류규칙 데이터베이스로부터 추출된 다수의 규칙을 적용하여 판별하는 범주추정을 수행하는 프로그램을 포함하는 저장매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 구성 및 동작에 대하여 보다 상세하게 설명을 한다.

본 발명에서 사용하는 학습방법은 상기한 기존의 기계학습방법과는 많이 다르다. 본 방법에서는 학습을 통하여 분류를 위한 문서모델을 만드는 것이 아니라, 정답 예제 문서집합으로부터 범주를 분류하기 위한 규칙을 추출하여 그 규칙들을 가지고 새로운 문서의 범주를 추정한다. 일종의 규칙기반(Rule-based) 분류방법인데, 과거에는 기계적 학습방법을 사용하기 전에 특정분야 전문가들이 수작업에 의 해 분류규칙을 만들어서 그것들을 가지고 분류에 이용하였다. 그러나, 본 발명에서는 분류 규칙을 자동적으로 추출하기 위해서 데이터 마이닝 분야에서 널리 사용되는 연관규칙 탐사기법을 사용한다. 문서 집합에서 단어 자질들을 추출하여 문서를 색인화하고 모델링하는데는 베이시안 네트워크(Bayesian Network)에서 사용된 방법들을 차용하였다. 이렇듯 본 발명은 연관규칙 탐사기법과 전통적인 베이시안 네트워크(Bayesian Network) 기반 문서분류 방법을 결합하여 새로운 문서분류 방법을 제안한다.

연관 분류규칙(Associative Classification Rule)의 장점은, 내이브 베이스(Naive Bayes) 분류기에서 1개 단어만 자질로 사용했던 것에 비해, 2개 단어 이상으로 이루어진 자질을 선정할 수 있어서 보다 많은 정보를 원시 학습집합으로부터 추출함으로써 분류 정확도를 높일 수 있다. 연관규칙 탐사시 상품 집합(itemset)의 크기가 커짐에 따라 지수적으로 계산시간이 증가되는 것은 지금까지 개발된 연관규칙 탐사 알고리즘의 피할 수 없는 단점이다. 하지만 본 발명에서는 무한정 상품 집합(itemset)의 크기를 증가시키지 않고 상품 집합(itemset)의 크기를 한정시켜 계산시간을 줄이고 성능도 최적화시키는 효과를 얻고자 한다.

또한, 다중범주 문서의 분류를 위해 여러 개의 분류기를 만들어야 했던 SVM과 달리 하나의 분류기 구축과 한번의 분류과정 적용으로 다중범주 분류를 가능케 하여 분류기 학습시간을 단축하고 범주 추정과정도 매우 단순화시킬 수 있다.

도 1은 본 발명에 따른 연관 분류규칙을 이용한 다중범주 문서 분류의 전반적인 구조도이다. 도 1에서 입력되는 학습예제 문서집합(110)은 기계학습에 사용될 문서들로서 한 개 이상의 범주를 정답으로 가지고 있는 예제(example)문서이다. 문서는 일반적인 문장 또는 전자메일에서와 같이 단어 또는 구(phrase)로 구성되어 있으며, 기본적인 자질(feature)로는 단어(word)가 된다. 문서에 나타난 모든 단어가 자질이 되는 것은 아니며 문서 분류과정에 있어 정확도나 처리 효율에 도움이 되지 않는 단어들은 미리 걸러내는 자질단어 추출 및 문서색인화부(120)에서 자질단어 추출 및 문서색인화 과정을 거치게 된다. 이 과정에서 자질단어 추출(Feature Selection)되고, 자질후보 단어가 선정이 되면 그것들을 가지고 특정 자료구조로 문서를 재조직화하는데 이를 보통 색인화(Indexing) 과정이라 부른다. 색인화된 문서는 데이터베이스(database)(130)형태로 디스크에 저장된다.

이 색인화된 문서의 데이터베이스(130)로부터 연관규칙 탐사 및 분류규칙 생성부(140)는 탐사(mining)를 수행하여 분류에 필요한 연관 분류규칙을 추출하게 된다. 연관 분류규칙의 정형화된 형태는 다음과 같다. 자질로 선정된 단어의 집합을 W라 하면, W={w₁, w₂, w₃, ..., w_|W|}이다. 학습 문서집합이 가진 범주의 집합을 C라 하면, C={c₁, c₂, c₃, ..., c_|C|}이다. p_i⊂W인 임의의 단어의 집합을 패턴(pattern)이라 하자. 탐사과정에서는 문서집합 내에 어느 일정 횟수 이상 빈번히 출현하는 패턴(pattern) p_i를 찾는 것이 목적이다. 이런 기준이 되는 최소 출현 횟수를 최소 지지도(Minimum Support)라 한다. 탐사과정의 나머지 목적은 이런 빈번한 패턴(pattern)이 문서가 가진 특정 범주와 어느 정도의 연관성을 가지느냐를 측정하여 일정 기준 이상의 연관성을 가진 패턴만을 연관 분류규칙의 원소(element)로 선 정하는 것이다. 여기서 사용되는 기준을 그 패턴의 최소 신뢰도(Minimum Confidence)라 부른다. 연관 분류규칙은 다음의 형태를 갖는다.

p_i -> c_j

여기서 p_i⊂W, c_j∈C 이고, Support(p_i -> c_j)>minSupp, Confidence(p_i -> c_j)>minConf 이다..

도 1에서 연관규칙 탐사 및 분류규칙 생성부(140)의 동작 과정은 위의 조건을 만족시키는 연관 분류규칙을 모두 추출한다. 연관규칙의 추출에는 Jiawei Han 등이 고안한 빈도패턴나무(Frequent Pattern Tree)를 이용한 탐사기법을 사용하였다 (Han, J., Pei, J. & Yin, Y., 2000, Mining frequent patterns without candidate generation, Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pp. 1-12, New York: ACM Pres). 이 방법은 서브패턴(sub pattern)의 후보를 일일이 생성하지 않고 보다 효율적으로 탐사를 수행하는 방법이다. 생성된 규칙은 분류규칙나무(Classification Rule tree)라 불리우는 자료구조 형태를 가지고 연관규칙 데이터베이스(150)에 저장되는데, 분류규칙나무는 많은 규칙을 보다 작은 공간에 효율적으로 저장하기 위한 일종의 접두나무(Prefix Tree)형태를 지니고 있다. 또한 이 자료구조를 이용함으로써 규칙의 저장, 검색, 삭제 등 자료 조작에 필요한 시간을 획기적으로 단축시킬 수 있다.

이렇게 생성된 연관분류규칙 데이터베이스(150)내의 그 연관분류규칙의 수가 너무 많아서 이것을 그대로 새로운 문서의 범주 추정에 사용하기에는 정확도와 효 율성이 떨어지므로, 소수의 양질의 규칙들만을 추려내어서 사용하게 되는데, 이렇게 다수의 규칙들로부터 보다 소수의 규칙들만을 선출하는 것을 가지치기(Pruning)과정이라 부른다. 이 가지치기 과정은 규칙 정렬 및 가지치기부(160)에서 문서 데이터베이스(130)로부터 문서를 받아서 규칙 정렬 및 가지치기를 수행하는데. 가지치기를 하기 전에, 먼저 연관분류 규칙 데이터베이스(150)에서 생성된 분류규칙들을 일정 기준에 따라 정렬(Sorting)하는 과정이 필요한데, 여기서 정렬기준은 규칙의 신뢰도가 높은 것이 순위가 높게 된다. 만약 신뢰도가 같으면 지지도가 높은 것이 순위가 높고, 이마저 같은 경우는 먼저 생성된 규칙이 높은 순위를 갖는다.

규칙 정렬 및 가지치기부(160)에서의 규칙 정렬 및 가지치기의 과정을 세분하여 도 2에 표시하였다. 여기서 연관 분류규칙 데이터베이스는 도 1의 150과 동일하고, 문서데이터베이스는 도 1의 130과, 가지치기된 분류규칙데이터베이스는 도 1의 170과 각각 동일하다.

도 2에 의하면, 도 1의 규칙 정렬 및 가지치기부(160)는 규칙 정렬부(220), 정렬된 분류 규칙 데이터베이스(230), 및 범주 추정 및 규칙 선출부(240)를 포함하고 있다. 도 2에서, 규칙 정렬 및 가지치기부(160)는 규칙 정렬부(220)에서 연관분류 규칙 데이터베이스(150)에서 생성된 분류규칙들을 일정 기준에 따라 정렬(Sorting)하여 정렬된 분류 규칙을 데이터베이스(230)에 저장한다. 그런 다음, 범주 추정 및 규칙 선출부(240)에서는 문서데이터베이스(130)로부터 문서를 받고, 상기 정렬된 분류규칙 데이터베이스(230)로부터의 정렬된 분류규칙에 따라서 규칙을 선출하여 가지치기된 분류규칙데이터베이스(170)에 저장한다.

도 2의 범주 추정 및 규칙 선출부(240)의 동작 과정을 알고리즘으로 표현하여 도 3에 나타내었다. 도 3의 알고리즘에 대해 설명한다. 도 2의 정렬된 분류규칙 데이터베이스(230)에서 가장 우선수위가 높은 규칙부터 하나씩 읽어서 루프를 돈다(310-370). 그 규칙을 연관규칙 탐사에 사용된 학습문서 데이터베이스(130)에 적용하여 각 문서에 대하여 올바로 추정하였는지를 판정한다(330). 올바르게 추정한 문서가 하나라도 있으면 도 2의 범주 추정 및 규칙 선출부(240)를 거쳐 그 규칙은 최종 분류규칙 후보로 선출되어 도 2의 가지치기된 분류규칙 데이터베이스(170)에 출력된다(340). 추정이 올바로 된 학습 문서에 대해 그 문서의 적중횟수를 하나씩 증가시킨다(350). 문서의 적중횟수가 주어진 일정 기준이상이면(360) 그 문서를 학습문서 데이터베이스에서 삭제시킨다(370). 기준 이하이면 370을 실행하지 않고 다음 루프로 넘어간다. 이것으로서 하나의 루프를 마치고 다시 다음 규칙을 읽어오기 위해 규칙 데이터베이스를 접근한다(310). 규칙 데이터베이스에 읽어올 규칙이 더 이상 없거나 또는 학습문서 데이터베이스에 학습문서가 하나도 남아있지 않으면(320) 알고리즘을 종료한다.

다시 도 1의 전체 과정으로 넘어와서, 가지치기의 결과 가지치기된 분류규칙을 얻으면 가지치기된 분류규칙 데이터베이스(170)에 가지치기된 분류규칙을 저장하고 학습단계가 종료된다.

다음, 도 1의 범주추정부(180)에서 범주가 알려지지 않은 새로운 문서(190)를 입력받아 그 문서의 범주를 추정하는 단계에 대해 설명한다. 범주추정부(180)는 새로운 문서(190)를 받아 학습단계와 마찬가지로 단어 자질을 추출하고 가지치기된 분류규칙 데이터베이스(170)에서 추출된 분류 규칙의 패턴과 일치하는 패턴이 있는지 조사한다. 일치하는 패턴이 발견되면 그 패턴에 해당하는 범주로 추정하게 된다. 그런데, 분류 규칙중 하나 이상 아주 많은 수의 일치하는 패턴을 가진 규칙이 존재하게 되는데, 이렇게 되면 규칙 간 추정하는 범주가 다른 경우가 발생하게 되므로 범주 추정을 위한 판별 기준을 정할 필요가 생긴다. 이를 해결하기 위하여 본 발명에서는 다수결의 원칙(Majority Voting) 방법을 사용하였다. 즉, 규칙마다 판별점수를 지정하고 각 범주별로 해당하는 규칙들의 점수를 다 합산하여 가장 많은 점수를 획득한 범주를 그 문서의 범주로 추정하는 원칙이다. 이를 수식으로 표현하면, 먼저 각 범주 c_j마다 점수 S_j를 구한다.

이 S_j를 최대로 하는 c_j를 정답 범주로 추정한다.

다중 범주의 경우 추정 대상 시험 문서당 |C|개의 판정점수 S_j를 얻을 수 있고 추정하고자 하는 범주집합에 대한 순위(Ranking)정보를 자연스럽게 얻을 수 있다. 이 순위 정보는 필요하다면 전문가(Human Expert)에 의해 판정 결과 수정의 기회를 제공할 수 있으므로 사용자 적합(User Customized) 판별을 위한 도구로 사용될 수 있다.

상술한 바와 같이, 본 발명은 다중 범주를 가진 문서의 분류작업에 있어 연관규칙 탐사를 통한 분류규칙을 사용함으로써 종전 하나의 단어 자질만을 채용한 기계학습 분류기와 달리 두 단어 이상으로 구성된 패턴을 자질로 활용함으로써 보다 많은 정보를 이용하는 것이 가능하므로 문서분류의 정확도를 더욱 높일 수 있다.

본 발명은 연관규칙 탐사시 패턴을 이루는 단어의 수를 제한함으로써 빈번히 출현하는 패턴의 탐사시간을 합리적으로 제한할 수 있으며 동시에 문서분류에 필요한 최적의 단어 수에 대해 탐사를 수행함으로써 분류 정확도의 저하를 최소화할 수 있다.

또한, 1회의 분류 작업수행을 통해 기본적으로 다중 범주에 대한 추정 점수를 모두 출력함으로써 빠른 시간 내에 다중 문서 분류가 가능할 뿐만 아니라, 분류결과에 대한 직관적인 이해가 가능하며, 나중에 인간 전문가에 의해 추정 결과를 교정할 수도 있으므로 범주 판정에 있어 융통성을 제공한다.

Claims

연관규칙 탐사를 통한 분류규칙을 이용한 다중 범주문서의 자동 분류 방법에 있어서,

(a) 연관규칙 탐사시 자질 단어를 선정하는 단계;

(b) 탐사된 분류규칙을 데이터베이스에 특정 자료구조로 저장하는 단계;

(c) 분류규칙의 우선순위에 의한 규칙 가지치기 단계; 및

(d) 다수의 분류규칙을 가지고 시험 문서의 범주를 추정하는 단계를 포함하는 문서 자동 분류 방법.
제1항에 있어서, 상기 (a) 단계는

(a1) 자질선정을 위한 단어 후보 선택시 자연어처리에서의 스톱워드(Stop-word)를 제외한 전체 단어를 포함시키는 단계; 및

(a2) 빈도 패턴 나무(Frequent Pattern Tree) 성장과정에서 패턴을 이루는 단어의 수를 어느 일정기준 이하로 제한하는 단계를 포함하는 문서 자동 분류 방법.
제1항에 있어서, 상기 (b) 단계는

(b1) 자질로 선정된 단어를 학습문서 집합에 나온 출현 횟수에 따라 순위를 매겨 테이블에 저장하는 단계;

(b2) 분류규칙을 저장함에 있어 자주 나오는 단어순으로 접두 나무(Prefix Tree)형태로 규칙을 저장하는 단계; 및

(b3) 분류규칙에 나타난 서브 패턴(sub pattern)의 매칭을 용이하게 하기 위해 접두 나무(Prefix Tree)의 단어 노드를 (b1) 단계의 테이블의 노드를 포함하여 링크된 리스트(Linked List)형태로 연결하는 단계를 포함하는 문서 자동 분류 방법.
제1항에 있어서, 상기 (c) 단계는

(c1) (i) 신뢰도가 높은 규칙이 우선 순위가 높고 (ii) 신뢰도가 같으면 지지도가 많은 규칙이 우선순위가 높고 (iii) 신뢰도, 지지도가 모두 같은 경우, 먼저 추출된 규칙이 우선순위가 높다는 분류규칙을 정렬하는 단계;

(c2) 상기 (c1) 단계의 분류규칙의 기준대로 정렬된 규칙을 연관규칙 탐사에 사용된 학습문서 집합에 적용하여 범주를 추정하고 그 결과에 따라 불필요한 규칙을 제거하고 최종 분류규칙을 선출하는 단계; 및

(c3) 상기 (c2) 단계에서 추정대상 학습문서를 추정 정오 여부에 따라 데이터베이스에서 제거하는 단계를 포함하는 문서 자동 분류 방법.
제1항에 있어서, 상기 (d) 단계는

(d1) 새로운 시험 문서를 입력받은 후, 학습된 분류규칙을 이용하여 패턴 매칭에 의거한 범주별 추정 점수를 계산하는 단계;

(d2) 매칭된 분류규칙의 점수를 범주별로 합산하는 단계; 및

(d3) 범주별 합산점수에 의하여 추정 범주의 우선순위를 매기는 단계를 포함하는 문서 자동 분류 방법.
문서 자동 분류 장치에 있어서,

문서집합에 나온 단어를 기준으로 색인화하여 문서데이터베이스에 저장하는 자질 단어 추출 및 문서 색인화부;

문서 데이터베이스에 저장된 데이터를 읽고 단어들과 문서의 레이블 사이의 연관규칙을 탐사하여 규칙의 집합형태로 연관분류규칙 데이터베이스에 저장하는 연관규칙 탐사 및 분류규칙 생성부;

이렇게 저장된 다수의 분류 규칙들을 정렬하고 우선순위 가지치기방법에 의한 양질의 소수 규칙만을 추출하여 가지치기된 분류규칙 데이터베이스에 저장하는 규칙 정렬 및 가지치기부; 및

새로운 문서를 받아들여서 그 문서의 정답 범주를 상기 가지치기된 분류규칙 데이터베이스로부터 추출된 다수의 규칙을 적용하여 판별하는 범주추정부를 포함하는 문서 자동 분류 장치.
문서 자동 분류 장치에 적용되어 연관규칙 탐사를 통한 분류규칙을 이용한 다중 범주문서의 자동 분류 방법을 수행하는 프로그램을 저장한 저장매체에 있어서,

문서집합에 나온 단어를 기준으로 색인화하여 문서데이터베이스에 저장하도록 하는 자질 단어 추출 및 문서 색인화를 수행하는 프로그램;

문서 데이터베이스에 저장된 데이터를 읽고 단어들과 문서의 레이블 사이의 연관규칙을 탐사하여 규칙의 집합형태로 연관분류규칙 데이터베이스에 저장하는 연관규칙 탐사 및 분류규칙 생성을 수행하는 프로그램;

이렇게 저장된 다수의 분류 규칙들을 정렬하고 우선순위 가지치기방법에 의한 양질의 소수 규칙만을 추출하여 가지치기된 분류규칙 데이터베이스에 저장하는 규칙 정렬 및 가지치기를 수행하는 프로그램; 및

새로운 문서를 받아들여서 그 문서의 정답 범주를 상기 가지치기된 분류규칙 데이터베이스로부터 추출된 다수의 규칙을 적용하여 판별하는 범주추정을 수행하는 프로그램을 포함하는 저장매체.