KR100321793B1 - 문서자동분류시스템에서의다중범주할당방법 - Google Patents

문서자동분류시스템에서의다중범주할당방법 Download PDF

Info

Publication number
KR100321793B1
KR100321793B1 KR1019980060157A KR19980060157A KR100321793B1 KR 100321793 B1 KR100321793 B1 KR 100321793B1 KR 1019980060157 A KR1019980060157 A KR 1019980060157A KR 19980060157 A KR19980060157 A KR 19980060157A KR 100321793 B1 KR100321793 B1 KR 100321793B1
Authority
KR
South Korea
Prior art keywords
category
document
documents
learning
classified
Prior art date
Application number
KR1019980060157A
Other languages
English (en)
Other versions
KR20000043740A (ko
Inventor
이종혁
권오욱
Original Assignee
이계철
한국전기통신공사
정명식
학교법인 포항공과대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사, 정명식, 학교법인 포항공과대학교 filed Critical 이계철
Priority to KR1019980060157A priority Critical patent/KR100321793B1/ko
Publication of KR20000043740A publication Critical patent/KR20000043740A/ko
Application granted granted Critical
Publication of KR100321793B1 publication Critical patent/KR100321793B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 문서 자동 분류 시스템에서의 다중 범주 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
본 발명은, 문서 자동 분류 시스템에서 우선 각 문서에 적당한 범주를 할당한 후, 단계적으로 그 문서의 내용에 맞는 범주들만을 할당하기 위한 다중 범주 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하고자 함.
3. 발명의 해결 방법의 요지
본 발명은, 문서 자동 분류 시스템에서의 다중 범주 할당 방법에 있어서, 범주를 예측할 수 있는 단어들을 선택하고, 범주/단어 쌍의 리스트를 구성하는 제 1 단계; 상기 범주/단어 쌍의 리스트를 참조하여, 학습 문서들을 이에 해당하는 단어들 및 그 단어들의 중요도로 표현하며, 역색인 파일로 저장하는 제 2 단계; 상기 학습 문서들중 새로이 분류할 문서와 가장 유사한 예제 문서들을 학습문서 집합에서 선택하는 제 3 단계; 및 상기 새로이 분류할 문서에 대하여, 분류될 범주의 가능성에 대해서 계산하고, 하나씩 가장 높은 가능성을 가진 범주만을 각 단계에서 선택하여, 각 단계에서 가장 높은 분류 가능성을 가진 범주를 새로운 문서에 할당하는 제 4 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 문서의 자동 분류 등에 이용됨.

Description

문서 자동 분류 시스템에서의 다중 범주 할당 방법{Method for multi-phase category assignment on text categorization system}
본 발명은, 문서를 주어진 범주 체계로 분류하는 기술분야에 관한 것으로서, 특히 문서 자동 분류 시스템에서의 다중 범주 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
종래의 문서 범주화 방법으로는 대표적으로 규칙에 기반한 방법, 베이지언 확률식을 이용한 방법, 최근린법을 이용한 방법 등이 있었다. 이러한, 방법들은 현재까지 비슷한 성능을 보이고 있다.
이러한 모든 방법들은 주어진 문서가 임의의 범주로 분류될 가능성을 계산한다. 최종적으로 어느 범주를 주어진 문서에 할당할 것인가에 대한 범주 할당 전략은 다음과 같이 크게 3가지 전략 방법이 있어 왔다. 이러한 전략은 위에서 언급한 문서 범주화 방법에 상관없이 동일하게 사용되어 왔다.
첫째, 문서당 n개 범주 할당 전략으로서, 모든 문서를 분류 가능성이 가장 높은 n개의 범주들로 분류한다. 이 때 n은 사용자가 지정하여 준다.
둘째, 임계치에 의한 범주 할당 전략으로서, 주어진 문서들을 분류 가능성이 사용자가 정의한 임계치를 넘는 범주들로 분류하는 범주 할당 전략이다.
셋째, 비례 범주 할당 전략으로서, 기존의 문서 집합에서 각 범주에 대해서 문서 집합 중에서 몇 %의 문서들이 속해 있는가를 파악한 후, 새로운 문서 집합에서도 이에 유사한 비율로 문서를 분류하는 범주 할당 전략이다.
비례 범주 할당 전략은 하나 하나씩 들어오는 문서에 대해서는 처리할 수 없는 방법이어서 실제 시스템에서 사용될 수 없는 방법이다.
그리고, 문서당 n개 범주 할당 전략은 내용에 상관없이 모든 문서들을 동일시하여 범주를 할당하는 전략이어서 오류를 불러일으킬 소지가 크다.
또한, 임계치에 의한 범주 할당 전략은 문서가 범주로 분류될 가능성이 문서에 따라 상당한 차이가 있어서 아무리 좋은 임계치를 설정하더라도 오류가 생기거나 어떤 문서에는 너무 많은 범주가 할당되고 어떤 문서에는 전혀 범주가 할당되지 않을 가능성이 있어 문제가 된다. 따라서, 어떤 문서가 주어졌을 때, 그 문서의 내용에 맞게 범주들을 할당할 방법이 필요하다.
즉, 문서를 주어진 범주 체계로 분류하기 위해서, 일반적인 문서 범주화 시스템은 주어진 문서가 임의의 범주로 분류될 가능성을 계산한다. 이 계산에 의하여 모든 범주에 대해서 그 문서가 구분될 가능성은 판단할 수 있지만, 문서가 몇 개의 범주들로 분류되어야 할 지에 대한 판단 기준을 제시하지 못한다.
그래서, 일반적으로 문서는 n개의 범주로 분류된다는 문서당 n 범주 할당 전략이나 어떠한 임계치를 넘는 분류 가능성을 가진 범주들로 분류하는 임계치에 의한 할당 전략을 선택하여 왔다.
하지만, 어떤 문서에는 한 개의 범주만으로 분류되어야 하지만, 문서범주화 시스템에서 3개의 범주로 분류한다면 오류의 가능성이 증가하게 된다. 또한, 주어진 문서에 대해서 모든 범주의 분류가능성이 임계치보다 적다던지 혹은 너무 많은 범주들이 임계치보다 크다면 임계치에 의한 할당 전략에서도 상당한 오류를 가지게된다. 이러한 범주 할당 전략들은 모든 문서들에 적합하게 사용할 수 없다.
각 문서는 자신이 가지는 내용에 의해서 몇 개의 범주로 분류가 된다. 이러한 성격을 제대로 이용한 범주 할당 전략이 제시된다면 문서 범주화 시스템의 성능을 향상시킬 수 있다.
즉, 상기한 바와 같은 종래의 문서 범주화 방법들은, 주어진 문서를 범주로 분류할 가능성을 계산한 후, 문서 내용이나 범주들간의 관계를 상관없이 분류 가능성이 높은 상위 n 개의 범주들을 모두 문서들에 동일하게 할당하거나 사용자가 정의한 임계치를 넘는 분류 가능성을 가진 범주들만을 문서에 할당함으로써, 각각의문서가 가지는 내용의 차이나, 어떠한 범주들끼리는 자주 같이 분류되는 정보를 사용하지 않아서, 문서 범주화에 오류를 발생시키는 문제점이 있었다.
본 발명은, 상기 종래의 문제점을 해결하기 위하여 제안된 것으로, 문서 자동 분류 시스템에서 우선 각 문서에 적당한 범주를 할당한 후, 단계적으로 그 문서의 내용에 맞는 범주들만을 할당하기 위한 다중 범주 할당 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 문서 자동 분류 시스템의 일실시예 구성도.
도 2 는 본 발명에 따른 다중 범주 할당 방법에 대한 일실시예 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
110 : 입출력장치 111 : 문서자동분류장치
상기 목적을 달성하기 위한 본 발명은, 문서 자동 분류 시스템에서의 다중 범주 할당 방법에 있어서, 범주를 예측할 수 있는 단어들을 선택하고, 범주/단어 쌍의 리스트를 구성하는 제 1 단계; 상기 범주/단어 쌍의 리스트를 참조하여, 학습 문서들을 이에 해당하는 단어들 및 그 단어들의 중요도로 표현하며, 역색인 파일로 저장하는 제 2 단계; 상기 학습 문서들중 새로이 분류할 문서와 가장 유사한 예제 문서들을 학습문서 집합에서 선택하는 제 3 단계; 및 상기 새로이 분류할 문서에 대하여, 분류될 범주의 가능성에 대해서 계산하고, 하나씩 가장 높은 가능성을 가진 범주만을 각 단계에서 선택하여, 각 단계에서 가장 높은 분류 가능성을 가진 범주를 새로운 문서에 할당하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 다중 범주 할당을 위하여, 프로세서를 구비한 문서 자동 분류 시스템에, 범주를 예측할 수 있는 단어들을 선택하고, 범주/단어 쌍의 리스트를 구성하는 제 1 기능; 상기 범주/단어 쌍의 리스트를 참조하여, 학습 문서들을 이에 해당하는 단어들 및 그 단어들의 중요도로 표현하며, 역색인 파일로 저장하는 제 2 기능; 상기 학습 문서들중 새로이 분류할 문서와 가장 유사한 예제 문서들을 학습문서 집합에서 선택하는 제 3 기능; 및 상기 새로이 분류할 문서에 대하여, 분류될 범주의 가능성에 대해서 계산하고, 하나씩 가장 높은 가능성을 가진 범주만을 각 단계에서 선택하여, 각 단계에서 가장 높은 분류 가능성을 가진 범주를 새로운 문서에 할당하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
본 발명은 문서 범주화 방법으로 잘 알려진 최근린법을 이용하여 먼저 가장 높은 분류 가능성을 가진 범주를 할당한 후, 단계적으로 이미 앞 단계의 범주들이 주어진 문서에 할당되어 있을 경우에 그 다음으로 분류 가능성이 있는 계산식을 적용하여 그 단계에서 가장 적합한 범주를 선택하여 할당하는, 문서 자동 분류 시스템에서의 다중 범주 할당을 위한 최근린 방법을 제공하고자 한다.
즉, 현재까지 알려진 문서 범주화 시스템들의 방법론들은 문서를 하나의 범주만으로 분류할 때에 적합한 방법들을 사용함으로써, 하나의 범주를 문서에 할당할 가능성을 계산하고 있다. 하지만, 문서 범주화에서는 문서 내용에 따라서 하나 이상의 범주로 분류될 수 있다. 실제 문서와 문제를 풀기 위한 방법의 차이에서 오는 오류를 최소한으로 줄이기 위해서, 본 발명에서는 우선 기존의 방법 중에서 문서를 하나만 할당할 경우 좋은 성능을 보이는 최근린법을 이용하여 주어진 문서에 가장 적합한 범주를 할당한 후, 그 다음으로 할당할 범주의 가능성을 계산하여 가장 좋은 범주를 할당한다. 이와 같이 범주 할당과 가능성 계산에 있어서 기존과 달리 다단계로 이루어진 방법을 이용하여 성능의 향상을 가져오고자 한다.
또한, 다단계로 분류 가능성을 계산하는데서 오는 계산 속도 문제를 극복하기 위해서, 본 발명은 중복되는 계산을 피하는 방법을 이용하여 계산 속도 또한 기존 방법과 거의 같도록 하는 방법을 제시하고자 한다.
정리해 보면, 기존의 문서 범주화 방법들은 주어진 문서를 범주로 분류할 가능성을 계산한 후, 문서 내용이나 범주들간의 관계에 상관없이 분류 가능성이 높은 상위 n개의 범주들을 모든 문서들에 동일하게 할당하거나 사용자가 정의한 임계치를 넘는 분류 가능성을 가진 범주들만을 문서에 할당하였다. 이러한 방법들은 각각의 문서가 가지는 내용의 차이나 어떠한 범주들끼리는 자주 같이 분류되는 정보를 사용하지 않아서 각각의 문서가 가지는 내용의 차이나 어떠한 범주들끼리는 자주 같이 분류되는 정보를 사용하지 않아서 문서 범주화에 오류를 발생하였다.
즉, 문서 범주화 시스템들은 주어진 문서를 하나 이상의 범주(주제어나 분류) 체계에 따라 자동적으로 분류한다. 하나 이상의 범주들로 분류하기 위해서, 기존의 시스템들은 문서가 임의 범주로 분류될 가능성을 계산한다. 이 분류 가능성에 따라 이미 문서가 하나의 범주로 분류되었을 경우, 문서가 다른 범주들로 분류될 가능성이 달라져야 한다. 하지만, 기존의 문서 범주화 시스템들은 동일한 조건에서 계산된 분류 가능성을 이용하여 문서를 몇 개의 범주들로 분류하여, 문서내용의 다양성과 범주들간의 상호 관련성을 고려하지 않아 성능저하를 가져왔다.
따라서, 본 발명은 이러한 오류를 극복하기 위해서, 문서 범주화 방법으로 잘 알려진 최근린법을 이용하여 먼저 가장 높은 분류 가능성을 가진 범주를 할당한 후, 단계적으로 이미 앞 단계의 범주들이 주어진 문서에 할당되어 있을 경우에 그 다음으로 분류 가능성이 있는 계산식을 적용하여 그 단계에서 가장 적합한 범주를 선택하여 할당한다. 이러한 다단계 범주 할당은 문서에 따라서 할당할 범주의 수를 조절할 수 있으며, 계산 시간은 기존의 방법과 거의 유사하다.
즉, 본 발명에서는 문서 범주화시에 범주 할당을 보다 효과적으로 수행하기 위해서, 주어진 문서를 가장 적합한 범주로 분류하고 그 다음 범주로 분류될 가능성을 현재까지 문서가 분류된 범주와의 상호정보와 문서와의 관계를 고려하여 계산하는 다단계 범주 할당 방법을 제시한다. 이러한 다단계 범주 할당 방법은 문서내용의 다양성에 따라 분류될 범주의 수를 보다 정확하게 제시할 수 있으며, 또한 분류된 범주들의 정확성도 향상시킬 수 있다.
본 발명으로 인하여, 문서 범주화에서 각 문서에 따라 다르게 할당할 범주의 수와 종류를 자동으로 조절하여 문서 범주화의 성능을 향상시킬 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 문서 자동 분류 시스템의 일실시예 구성도이며, 도 2 는 본 발명에 따른 다중 범주 할당 방법에 대한 일실시예 흐름도이다.
분류를 위한 최근린법을 간단히 설명하면, 미리 범주들이 사람에 의하여 정확하게 할당된 예제들의 집합인 학습문서 집합에서 새로이 분류할 문서와 유사한 K 개의 예제들을 찾아내고 K개의 예제들에 이미 할당된 범주들을 이용해서 새로운 문서에 적합한 범주들을 찾는 방법이다.
이를 위하여 입출력장치(110)에서는 분류하고자하는 문서에 대한 정보를 입력하거나, 분류된 문서에 대한 정보를 보고받는다. 분류하고자하는 문서는 문서자동분류장치(111)내에서 분류과정을 거쳐, 출력장치로(110)로 그 결과를 출력하게 된다.
기존의 최근린법을 개선하여 보다 정확하게 범주를 할당할 수 있는 다단계 범주 할당을 위한 최근린법의 구성 및 작용은 다음과 같다.
본 발명을 위한 최근린법은 도 1에 도시된 바와 같이, 크게 자질 추출(101), 학습문서 집합의 예제 문서 표현(인덱싱)(102), 주어진 문서와 유사한 K 개의 예제 문서를 찾는 모듈(103)과 마지막으로 다단계 범주 할당(104)으로 구성되어 있다.
다음은 각 단계의 기능 및 특징을 설명한 것이다.
자질 추출 단계(101)에서는 범주를 예측할 수 있는 단어들을 선택하는 작업을 수행한다(201). 일반적으로 문서는 단어들을 이용해서 문서가 가지는 내용을 표현할 수 있다.
본 발명에서는 문서 표현 방법을 위해서 널리 사용되고 있는 용어 벡터 공간 모델을 적용한다. 용어 벡터 공간 모델은 문서를 문서에 나타나는 단어와 그 단어가 그 문서에서 가지는 중요도로 표현한다.
단어의 중요도는 일반적으로 그 문서에서 그 단어가 얼마나 자주 사용되었는가에 대한 용어 빈도(Term Frequency : TF)와 다른 문서와의 차이를 알려 줄 수 있는 역 문서 빈도(Inverse Document Frequency : IDF)를 이용하여 계산한다.
이때 예제에 이미 할당된 범주와 상관없는 단어들로 문서를 표현하게 되면, 후에 범주를 할당할 새로운 문서와 유사한 K 개 예제 문서를 찾을 때에 나쁜 영향을 줄 수 있다. 그러므로, 이러한 에러를 유발할 수 있는 노이즈 단어들을 제거하기 위해서 범주와 상관있는 단어들로만 문서를 표현해야 한다.
본 발명을 위한 최근린법 문서 범주화 시스템에서는 범주를 단어가 얼마나 잘 예측할 수 있는가를 학습 문서 집합(105)에서 기대 상호 정보 측정(Expected Mutual Information Measure)과 상호 정보 측정(Mutual Information Measure)으로 구한다.
이 두가지 측정에 의해서 한 단어가 어떤 범주를 얼마나 예측할 수 있는가에 대한 값들이 나오게 되는데, 우리는 이 예측 정도가 낮은 단어들을 제거하고, 예측 가능한 단어들만을 이용하여 <범주, 단어> 쌍의 리스트(106)를 구성하여 후에 문서를 표현할 시에 그 문서에 이미 할당된 범주와 상관 있는 단어들만으로 문서를 표현한다.
문서 표현 단계(102)에서는 학습 문서들을 자질 추출 단계에서 추출한 <범주, 단어> 쌍의 리스트(106)를 참조하여 이에 해당하는 단어들과 그 단어들의 중요도로 표현한다(202). 이때, 각 문서는 일반적인 정보 검색 시스템에서 널리 사용하는 역색인 파일(Inverted Index File)(107) 형태로 저장한다.
학습 문서들은 이미 그 문서들이 어떠한 범주들로 분류할 것인가를 일 수 있으므로, 이미 알려진 범주들과 문서에 나타나는 단어들 각각의 쌍이 <범주, 단어> 쌍 리스트에 나타나는 단어들만으로 학습 문서들을 표현한다.
유사한 K 개 예제를 찾는 단계(103)에서는 새로이 분류할 문서와 가장 유사한 K 개의 예제 문서들을 학습문서 집합(105)에서 선택을 수행한다(203).
먼저, 새로운 문서를 문서에서 나타나고 <범주, 단어> 쌍 리스트(106)에 존재하는 단어들과 그 단어들을 중요도로 표현한 후, 역색인 파일을 이용해서 학습 문서에 있는 각 문서들과 유사한 정도를 코사인 계수 유사도 계산 방법으로 계산한다.
이 계산으로 알게된 유사도들을 내림차순으로 정렬하여 상위 K개 예제 문서(108)들을 선택한다. 다음의 (수학식 1)은 문서-문서 유사도 계산에 사용된 코사인 계수 유사도 계산식이다.
이와 같은 수식으로 학습 문서 집합에 있는 각 문서와의 유사도 계산으로 구해진 K 개의 가장 가까운 예제 문서들은 각기 어떠한 범주들로 분류될 것인가가 미리 정해져 있다.
최근린법에서는 이러한 범주들이 새로운 문서를 분류할 범주들이 될 가능성이 높다는 것을 이용하여 어떠한 범주로 분류될 가능성을 구한다.
본 발명에서는 문서 범주화 시스템의 마지막 단계인 다단계 범주 할당 단계(104)로서, 어떠한 범주로 분류될 가능성에 대해서 계산을 하고 하나씩 가장 높은 가능성을 가진 범주만을 각 단계에서 할당한다(204).
분류할 새로운 문서에 가장 먼저 어떠한 범주를 할당한 것인가에 대한 분류 가능성을 구하는 식은 하기의 (수학식 2)와 같다. 이 (수학식 2)는 기존의 최근린법을 이용하는 거의 모든 시스템에서 사용하는 식과 같다. (수학식 2)는 새로운 문서 Dx가 임의 범주 Ck로 분류될 가능성인 베이지언 확률인 P(Ck|Dx)를 최근린법으로 나타낸 수식이다.
새로운 문서가 분류될 가능성을 모든 범주에 대하여 계산한 후, 내림차순으로 정렬한다. 기존의 방법들은 앞에서 설명한 범주 전략에 의해서 문서당 n개 범주 할당 전략이나 임계치에 의한 범주 할당 전략으로 새로운 문서에 범주들을 할당하여 그 문서를 그 범주들에 따라 분류한다.
하지만, 본 발명에서는 상기 (수학식 2)에 의해서 첫 번째로 새로운 문서가 분류될 범주를 선택한다. 즉, 가장 높은 분류 가능성을 가진 범주를 선택하여 이 범주만을 새로운 문서에 할당한다. 이것은 다단계 범주 할당에서의 첫 번째 단계이다.
다단계 범주 할당에서 다음 단계부터의 범주 할당 방법은 상기 (수학식 2)로 하지 않는다. 그 이유는 이미 첫 번째 단계에서 분류 가능성이 가장 높은 범주를 이미 할당하였기 때문이다. 그러므로, 새로운 문서 Dx에 가장 적합한 범주 Ck를 이미 할당하였을 경우, 다른 범주 Cp를 할당할 가능성인 P(Cp|Dx,Ck)를 구해야 한다.
이때, 베이지언 확률식 P(Cp|Dx,Ck)는 다음의 (수학식 3)과 같이 역 베이지언 확률 정의에 의해서 고쳐 사용할 수 있다.
상기 (수학식 3)에서 계산 식은 간단히 하기 위해서, 범주 Cp가 주어졌을 때문서 Dx와 범주 Ck가 독립이라고 가정하면 상기 (수학식 3)을 다음의 (수학식 4)로 고쳐 쓸 수 있다.
상기 (수학식 4)의 P(Dx|Cp)를 다시 한 번 더 역 베이지언 정리에 따라서 정리를 하면, 다음의 (수학식 5)와 같이 전개가 이루어진다.
상기 (수학식 5)에서 볼 수 있듯이, P(Cp|Dx)는 이미 첫 번째 단계에서 구한값과 같다. 그러므로, 파일 구조를 참조하여 계산을 하여 가장 계산 시간을 요구하는 문서-문서간의 유사도 계산은 중복하여 계산할 필요가 없다.
상기 (수학식 5)에 의해서 이미 범주 Ck가 새로운 문서에 할당되어 있는 경우에 다음으로 할당될 범주를 찾을 수 있다. 그러면, t번째 범주를 할당하기 위한 계산식은 상기 (수학식 5)를 일반적으로 확장하여 다음의 (수학식 6)과 같이 된다.
상기 (수학식 6)에서, 범주 C1는 첫 번째 할당한 범주이고, 범주 C2는 두 번째, 범주 Ct-1는 t-1 번째 이미 할당된 범주를 의미한다.
본 발명에서의 다단계 할당은 주어진 문서에 대한 분류 가능성이 0이 되는 단계에서 더 이상 수행하지 않는다. 그러므로, 만약 t 번째 단계에서 상기 (수학식 6)의 값이 0이 되면, 새로운 문서에 t-1개의 범주를 할당하게 된다.
이상에서 언급한 바와 같이 다단계 범주 할당 방법은 각 단계에서 가장 높은 분류 가능성을 가진 범주를 새로운 문서에 할당한다. 이러한 범주 할당은 분류 가능성이 0가 될 때, 그만 두어서 그 문서에 속할 범주의 수를 설정할 수 있다.
상기 (수학식 6)에서 보듯이 각 단계는 P(Ct|Dx)로 문서와 범주와 관계를 계산하고 나머지 수식에서 이미 할당된 범주와 현재 분류 후보 범주와의 관계를 고려하므로, 모든 경우에 동일하게 계산하는 기존의 방법보다는 보다 정확한 범주들을 선택할 수 있고 또한 주어진 문서에 몇 개의 범주를 할당할 것인가를 해결한다.
이와 같이 기존의 방법과 다르게 많은 계산을 요구하지만, 각 단계에서 가장 많은 시간을 요구하는 문서를 분류할 가능성은 한 번의 계산으로 끝나기 때문에, 실제로 요구되어지는 시간은 기존의 방법과 거의 차이가 없다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명에 따르면, 문서 범주화에서 같은 시간에 보다 정확한 범주들을 단계별로 새로운 문서에 할당함으로써, 문서를 자동 분류하는 성능을 향상시킬 수 있으며, 기존 방법들의 가장 큰 문제점인 각 문서에 어떠한 몇 개의 범주들을 할당할 것인가에 대한 것을 해결할 수 있는 우수한 효과가 있다.

Claims (4)

  1. 문서 자동 분류 시스템에서의 다중 범주 할당 방법에 있어서,
    범주를 예측할 수 있는 단어들을 선택하고, 범주/단어 쌍의 리스트를 구성하는 제 1 단계;
    상기 범주/단어 쌍의 리스트를 참조하여, 학습 문서들을 이에 해당하는 단어들 및 그 단어들의 중요도로 표현하며, 역색인 파일로 저장하는 제 2 단계;
    상기 학습 문서들중 새로이 분류할 문서와 가장 유사한 예제 문서들을 학습문서 집합에서 선택하는 제 3 단계; 및
    상기 새로이 분류할 문서에 대하여, 분류될 범주의 가능성에 대해서 계산하고, 하나씩 가장 높은 가능성을 가진 범주만을 각 단계에서 선택하여, 각 단계에서 가장 높은 분류 가능성을 가진 범주를 새로운 문서에 할당하는 제 4 단계
    를 포함하는 문서 자동 분류 시스템에서의 다중 범주 할당 방법.
  2. 제 1 항에 있어서,
    상기 제 1 단계의 상기 범주를 예측할 수 있는 단어의 선택은,
    실질적으로, 학습 문서 집합에서 기대 상호 정보 측정과 상호 정보 측정을 이용하여 선택하는 것을 특징으로 하는 문서 자동 분류 시스템에서의 다중 범주 할당 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 3 단계는,
    새로이 분류할 문서를 나타내고, 상기 범주/단어 쌍 리스트에 존재하는 단어들과 그 단어들을 중요도로 표현한 후, 상기 역색인 파일을 이용해서 학습 문서에 있는 각 문서들과 유사한 정도를 코사인 계수 유사도 계산 방법으로 계산하는 제 5 단계; 및
    상기 코사인 계수 유사도 계산 방법으로 알게된 유사도들을 내림차순으로 정렬하여 예제 문서들을 선택하는 제 6 단계
    를 포함하는 문서 자동 분류 시스템에서의 다중 범주 할당 방법.
  4. 다중 범주 할당을 위하여, 프로세서를 구비한 문서 자동 분류 시스템에,
    범주를 예측할 수 있는 단어들을 선택하고, 범주/단어 쌍의 리스트를 구성하는 제 1 기능;
    상기 범주/단어 쌍의 리스트를 참조하여, 학습 문서들을 이에 해당하는 단어들 및 그 단어들의 중요도로 표현하며, 역색인 파일로 저장하는 제 2 기능;
    상기 학습 문서들중 새로이 분류할 문서와 가장 유사한 예제 문서들을 학습문서 집합에서 선택하는 제 3 기능; 및
    상기 새로이 분류할 문서에 대하여, 분류될 범주의 가능성에 대해서 계산하고, 하나씩 가장 높은 가능성을 가진 범주만을 각 단계에서 선택하여, 각 단계에서 가장 높은 분류 가능성을 가진 범주를 새로운 문서에 할당하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1019980060157A 1998-12-29 1998-12-29 문서자동분류시스템에서의다중범주할당방법 KR100321793B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980060157A KR100321793B1 (ko) 1998-12-29 1998-12-29 문서자동분류시스템에서의다중범주할당방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980060157A KR100321793B1 (ko) 1998-12-29 1998-12-29 문서자동분류시스템에서의다중범주할당방법

Publications (2)

Publication Number Publication Date
KR20000043740A KR20000043740A (ko) 2000-07-15
KR100321793B1 true KR100321793B1 (ko) 2002-03-08

Family

ID=19566996

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980060157A KR100321793B1 (ko) 1998-12-29 1998-12-29 문서자동분류시스템에서의다중범주할당방법

Country Status (1)

Country Link
KR (1) KR100321793B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100736768B1 (ko) 2005-11-07 2007-07-09 (주)윕스 데이터 분류체계 관리 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
CN106202035B (zh) * 2016-06-30 2019-07-05 昆明理工大学 基于组合方法的越南语兼类词消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
1997년 10월에 발행된 한글 및 한국 어 정보처리 학술대회 논문집" 최근린방법을 이용한 문서 범주화에서 범주 자질의 평가" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100736768B1 (ko) 2005-11-07 2007-07-09 (주)윕스 데이터 분류체계 관리 방법

Also Published As

Publication number Publication date
KR20000043740A (ko) 2000-07-15

Similar Documents

Publication Publication Date Title
JP6941123B2 (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
KR101914853B1 (ko) 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
US20200293924A1 (en) Gbdt model feature interpretation method and apparatus
Jenssen et al. Clustering using Renyi's entropy
US6397200B1 (en) Data reduction system for improving classifier performance
US10824951B2 (en) System and method for rule generation using data processed by a binary classifier
US8655818B2 (en) Discrimination apparatus and method using a decision tree
CN106919957B (zh) 处理数据的方法及装置
US20160012351A1 (en) Information processing device, information processing method, and program
JP7332949B2 (ja) 評価方法、評価プログラム、および情報処理装置
CN111310829A (zh) 基于混淆矩阵的分类结果检测方法、装置及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN114707644A (zh) 图神经网络的训练方法及装置
CN110716857B (zh) 测试用例管理方法、装置、计算机设备和存储介质
KR101432697B1 (ko) 대용량 다중 클래스 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
CN104992050A (zh) 基于统计信号处理的时间序列特性评价的预测模型选择方法
CN112364012B (zh) 数据特征确定方法、装置及电子设备
KR100321793B1 (ko) 문서자동분류시스템에서의다중범주할당방법
Wang et al. A study on the document zone content classification problem
Lunt Prediction of ordinal outcomes when the association between predictors and outcome differs between outcome levels
CN115292303A (zh) 数据处理方法及装置
Cools et al. CUBPACK: Progress report
KR102676284B1 (ko) 단일 단계 객체탐지 모델의 라벨 할당 장치 및 방법
KR101784209B1 (ko) 빅 데이터에서 효율적인 종속 변수 예측을 위한 베이지안 기법 기반의 연관 분류 기법 및 이를 기록한 기록매체
JP2020119201A (ja) 判定装置、判定方法及び判定プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100105

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee