KR20030094966A

KR20030094966A - 통제학습 기반의 문서 자동분류시스템 및 그 방법

Info

Publication number: KR20030094966A
Application number: KR1020020032451A
Authority: KR
Inventors: 문성일
Original assignee: 주식회사 코스모정보통신
Priority date: 2002-06-11
Filing date: 2002-06-11
Publication date: 2003-12-18

Abstract

본 발명은 각종 문헌이나 문서 등의 정보를 수집하고, 수집된 정보를 자동분류시스템에 의해 데이터를 분류한 후 관리자의 키워드 질의 및 분류별 질의에 의해 사전 정의된 각종 문헌이나 문서의 가중치와 유사도를 계산하여 유지 관리하고, 이를 제공함으로 사용자별 정보를 개인화 할 수 있도록 하는 통제학습 기반의 문서 자동분류시스템에 관한 것이다.

본 발명의 수단으로는, 데이터 통신이 가능한 사용자 단말기(500)와; 인터넷 및 인트라넷 기반에서 제공되는 문헌이나 문서들의 문장이나 문맥에서 형태소를 분석하여 추출된 단어들의 가중치 및 유사도를 산출하고, 상기 자동 분석된 데이터에서 인덱스를 추출하여 저장하며 상기 사용자 단말기(500)에서 입력되는 키워드에 해당되는 데이터들을 전송하는 문서분류서버(200)와; 상기 문서분류서버(200)의 인덱스 자료들을 주제별로 분류하며 상기 데이터를 유지 관리하는 관리자서버(300)를 포함하는 것을 특징으로 한다.

Description

통제학습 기반의 문서 자동분류시스템 및 그 방법{Rule based document auto taxonomy system and method}

본 발명은 통제학습 기반의 문서 자동분류시스템에 관한 것으로, 더욱 상세하게는 각종 문헌이나 문서 등의 정보를 수집하고, 수집된 정보를 자동분류시스템에 의해 데이터를 분류한 후 사용자의 키워드 질의 및 분류별 질의에 의해 사전 정의된 각종 문헌이나 문서의 가중치와 유사도를 계산하여 이를 제공함으로 개인 사용자별 정보를 개인화 할 수 있도록 하는 통제학습 기반의 문서 자동분류시스템에 관한 것이다.

최근 유무선 통신의 기술의 발달로 인하여, 인터넷 등과 같은 정보의 바다에서 정보를 검색하기 제공되는 검색서비스는 크게 2가지 접근 방식이 이루고 있다. 자연어 처리 기법을 기반으로 문서의 언어적인 의미를 이용하는 방법과, 단순히 문서의 표층적인 현상(예, 빈도수)을 통계 및 확률을 이용하여 모델링하는 방법으로 나누어진다.

상기와 같은 2가지 접근 방법은 모두 인공지능, 정보검색, 계산 언어 처리 등의 다양한 분야에서 연구가 CMU Text Learning Group, IBM, Microsoft Research Lab 등의 많은 대학 및 기업 연구소에서 연구가 진행되고 있다.

이러한, 문서 자동분류 기술을 기반으로 실제 상품화 한 제품으로는 문서분류 엔진의 단독 제품보다는 EDMS, KMS, 검색엔진 등에 컴포넌트 형태로 개발된 제품들이 많으며, 대표적인 것으로는 IBM의 Lotus Notes, Autonomy의 KMS 제품군, Inktomi의 Directory Engine 등이 있다.

상기와 같이, 인터넷 기반에서 문서 자동분류는 주어진 문서가 어떤 카테고리에 속하는 지를 판단하기 위해 사전 정의된 카테고리를 통해 특정 정보(혹은 카테고리)를 찾아내는 것이다. 즉, 기존의 학습방법은 사용자가 카테고리에 대한 학습문서를 자동분류시스템에 제공하면 상기 자동분류시스템은 제공된 카테고리간의기존 문헌이나 문서를 비교하되 각 카테고리의 특정 정보를 추출하고, 추출된 문서를 분류하는 것이다.

그러나, 이와 같은 방법은 사용자가 직접 입력한 카테고리의 특정 정보가 카테고리간의 문서들을 비교하여 추출되어지기 때문에 모든 카테고리의 학습문서가 일괄적으로 제공하게 되어 초기 카테고리 구축과 카테고리 추가 등의 데이터를 관리하기 어려운 문제점을 갖게 되었다.

상기와 같은 문제를 해소하기 위한 것으로, 본 발명은 통제학습방식에 의해 문서를 자동 분류하여 인덱스를 생성하고, 상기 자동 분류된 인덱스 데이터를 상용검색엔진과 연계되도록 하여 관리자로부터 입력되는 키워드 및 분류별 질의를 통해 자동 분류된 데이터를 효율적으로 검색할 수 있도록 하는데 그 목적이 있다.

도 1은 본 발명에 따른 통제학습 기반의 문서 자동분류시스템의 개략적인 구성을 보인 블록도.

도 2는 본 발명에 따른 본 발명에 따른 통제학습 기반의 문서 자동분류방법의 제어 흐름도.

*도면의 주요부분에 대한 부호의 설명*

100,110 : 문헌 및 문서200 : 문서분류서버

210 : 파일변환수단220 : 형태소 분석기

230 : 자동분류 프로그램240 : 데이터서버

300 : 관리자단말기400 : 인터넷/인트라넷

500 : 개인단말기

본 발명을 이루기 위한 수단으로, 데이터 통신이 가능한 사용자 단말기와; 인터넷 및 인트라넷 기반에서 제공되는 문헌이나 문서들의 문장이나 문맥에서 형태소를 분석하여 추출된 단어들의 가중치 및 유사도를 산출하고, 상기 자동 분석된 데이터에서 인덱스를 추출하여 저장하며 상기 사용자 단말기에서 입력되는 키워드에 해당되는 데이터들을 전송하는 문서분류서버와; 상기 문서분류서버의 인덱스 자료들을 주제별로 분류하며 상기 데이터를 유지 관리하는 관리자서버로 이루어진 것을 특징으로 하고, 바람직하게는 상기 문서분류서버는 문헌이나 문서들을 데이터로 변환하는 파일변환수단과; 상기 파일변환수단에 의해 변환된 데이터의 문장이나 문맥에서 사전적 의미를 갖는 단어를 추출하는 형태소 분석기와; 상기 형태소 분석기에 의해 추출된 단어들의 출현 빈도 및 역문헌 빈도를 각각 산출하여 부가된 가중치 값이 1과 0사이에서 최대 값으로 하고, 상기 가중치에 의해 부여된 단어간의 의미관계를 사전에 학습된 학습문서와 사용자가 신규로 등록하는 문서들에 의해 주제별 데이터를 생성하는 자동분류 프로그램과; 상기 자동분류 프로그램에 의해 생성된 데이터에서 인덱스만을 추출하여 저장하는 데이터서버를 더 포함한 것을 특징으로 한다.

그 방법으로는, 인터넷/인트라넷 기반에서 신문기사 및 각종 학술논문 초록 등의 문헌이나 문서들을 사전 정의된 정보로 분류하고, 상기 분류된 문서들을 데이터로 변환하는 제 1단계; 상기 변환된 데이터들은 각 문장이나 문맥 용어들의 형태소 분석하여 각 용어들의 사전적인 의미를 갖는 단어들을 추출하는 제 2단계; 상기 문헌이나 문서들의 내용에서 단어들의 가중치 및 유사도를 산출하는 제 3단계; 상기 단어들의 가중치 및 유사도가 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성하고, 생성된 데이터에서 인덱스를 추출하여 저장하는 제 4단계; 상기 인덱스 자료들을 학습문서로 분류하기 위해 관리자로부터 입력되는 키워드 및 분류별 질의를 통해 분류대상 문서와 코사인 유사계수를 이용하여 가장 유사한 복수개의 학습문서를 검색하는 제 5단계; 상기 검색된 학습문서가 분류된 각 범주에 대해 입력문서의 적합성을 산출하여 그 적합성 값이 사전 설정된 기준치 1과 0사이에 값인 경우 해당되는 각 범주로 분류하거나 또는 가장 큰 하나의 범주로 분류하는 제 6단계 및; 개인사용자 단말기로부터 입력되는 키워드에 적합한 해당 분류데이터를 전송하는 제 7단계로 이루어진 것을 특징으로 하며, 바람직하게는 상기 제 3단계에서 단어의 가중치 및 유사도를 검출하는 방법은 사전 정의되어 분류된 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 분류하고, 각 문헌이나 문서에서 각 단어의 빈도와 역문헌 빈도를 각각 산출하여 각 도출된 값의 최대 값으로 가중치를 계산하고, 상기 문헌이나 문서에 부여된 가중치를 통하여 단어간의 의미관계를 생성하기 위한 단어간의 유사 도를 산출하는 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 상세하게 살펴보면 다음과 같다.

도 1은 본 발명에 따른 통제학습 기반의 자동 문서분류시스템의 개략적인 구성을 보인 블록도 이다.

도 1에 도시된 바와 같이, 본 발명의 통제학습 기반의 자동 문서분류시스템은 인터넷 및/또는 인트라넷(400) 기반에서 데이터 통신이 가능하도록 네트워크 망으로 구성되며, 상기 본 발명에서 제 1·제 2 검색엔진(310,242)은 상용검색엔진으로서 독립적으로 작동된다.

상기 본 발명의 자동 문서분류시스템은 인터넷/인트라넷(400) 기반에서의 각종 문헌이나 문서(100,110)들과, 문서분류서버(200), 관리자단말기(300) 및 개인단말기(500)로 구성되고, 상기 문서분류서버(200)에는 파일변환수단(210), 형태소 분석기(220), 자동분류 프로그램(230), 데이터서버(240)를 포함한다. 또한, 상기 데이터서버(240)에는 자동 분류된 데이터(241), 제 2검색엔진(242), 데이터베이스(243)로 구성된다.

상기 문헌이나 문서들은 신문기사나 각종 학술논문 초록 등으로서, 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 사전 정의된 분류에 의해 분류된 자료들이다.

상기 문헌이나 문서(100,110)들의 각종 자료들은 문서분류서버(200)에서 입력되며, 상기 문서분류서버(200)의 파일변환수단(210)에서는 각종 자료들을 데이터 또는 파일로 변환되어 형태소 분석기(220)로 출력되고, 상기 형태소 분석기(220)는 데이터 또는 파일로 변환된 문헌이나 문서에서 각 문장단위에서 단어를 꾸며주는 조사들을 뺀 사전적 의미를 갖는 단어들만을 추출하여 자동분류 프로그램(230)으로 출력한다.

상기 자동분류 프로그램(230)은 추출된 단어(용어)들에서 가중치와 유사도 중에서 단어의 가중치를 먼저 산출하고, 유사도를 나중에 산출한다.

먼저, 단어의 가중치에는 단어빈도와 역문헌 빈도를 각각 산출하되 상기 단어빈도는 문헌 내 출연여부만을 반영하는 이진 값이나 출현빈도 자체를 가중치로 사용하는 것이 바람직하며, 상기 단어빈도는 출현빈도를 가지고 가중치를 산출한다. 즉, 각 문헌에서 사전 정의된 단어(정치·경제·환경 등)의 반복 횟수를 산출한다.

한편, 상기 역문헌 빈도는 전체문헌에서 단어의 반복된 횟수 분에 특정 단어의 반복횟수로 각 단어의 가중치를 산출하며, 상기 단어의 가중치는 1과 0사이에서 최대 값을 사용한다. 이어서, 유사도는 상기 단어의 가중치에 의해 부여된 용어간의 의미관계를 생성하기 위해 용어간의 유사도를 산출한다. 상기 유사도는 코사인계수를 사용하며, 코사인 계수는 사전에 학습된 학습문서와 사용자가 신규로 등록하는 문서들간의 적합(유사) 관계를 수치화 한 것이다.

이어서, 자동분류 프로그램(230)은 각종 문헌이나 문서들의 가중치 및 유사도가 각각 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성하기 위한 데이터들을 데이터 서버(240)로 출력한다.

상기 데이터서버(240)는 각 문헌이나 문서에 자동 분류정보가 추가된 데이터(241)에서 인덱스만을 추출하는 제 2검색엔진(242)에 의해 인덱스만을 추출하고, 추출된 인덱스들은 데이터베이스(243)에 저장한다.

관리자는 단말기(300)의 제 1검색엔진(310)을 통해 임의의 키워드 및 분류별 질의를 통해 상기 데이터베이스(243)에 저장된 인덱스 자료들을 분류하게 된다.

즉, 관리자가 자신의 단말기(300)를 통해 제 1검색엔진(310)에 접속하고, 키워드 및 분류별 질의를 입력하게 되면, 상기 제 1검색엔진(310)은 데이터베이스(243)에 저장된 인덱스에서 코사인 유사계수를 사용하여 일차적으로 유사한 인덱스 자료들을 검색하고, 검색된 인덱스 자료들에서 각 범주에 적합한지를 산출하여 산출된 값이 1과 0사이에 있는 경우 복수 개로 데이터를 분류하거나 가장 큰 하나의 범주에 속하도록 인덱스자료들을 자동 분류하게 되는 것이다.

따라서, 상기 문서분류서버(200)는 관리자단말기(300)의 제 1검색엔진(310)에 의해 인터넷이나 인트라넷 기반에서 대량의 문헌이나 문서들의 빠르고 정확하게 분석/분류하게 된다.

즉, 개인 사용자는 자신의 단말기(500)를 통해 데이터 검색을 위한 키워드(단어)를 입력하면 문서분류서버(200)는 데이터서버(240)에 각 주제별로 저장된 데이터에서 해당 데이터를 개인단말기(500)에 제공하게 되므로 정보 검색이 용이하게 되고, 상기 정보들을 개인화 할 수 있게 되는 것이다.

도 2는 본 발명에 따른 통제학습 기반의 자동 문서분류방법의 제어 흐름도 이다.

도 2에 도시된 바와 같이, 문서 자동 분류서버(200)는 인터넷이나 인트라넷 기반에서 신문기사나 각종 학술논문 초록 등의 문헌이나 문서들을 사전 정의된 정보로 분류(S502)하고, 상기 분류된 문서들은 파일변환수단(201)에 의해 데이터로 변환(S504)된다.

상기 변환된 데이터들은 각 문장이나 문맥 용어들의 형태소 분석하는 분석기(220)에 의해 각 용어들의 사전적인 의미를 갖는 단어들을 추출(S506)하고, 이어서 자동분류 프로그램(230)에 의해서 각 문헌이나 문서의 내용에서 단어들의 가중치 및 유사도를 계산(S508)한다. 즉, 자동분류 프로그램(230)에서의 가중치 및 유사도 산출방법으로는 가장 바람직하게는 전국언론사 기사자료 표준 분류 표에 의해 분류된 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 분류하고, 각 문헌이나 문서에서 각 단어의 빈도와 역문헌 빈도를 각각 산출하여 산출된 값의 최대 값으로 가중치를 계산하고, 상기 문헌이나 문서에 부여된 가중치를 통하여 단어간의 의미관계를 생성하도록 단어간의 유사도를 산출한다.

상기 단어들의 가중치 및 유사도가 각각 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성(S510)하고, 생성된 데이터에서 인덱스를 추출하여데이터서버(S512)에 저장한다.

이렇게 저장된 데이터들은 관리자가 자신의 단말기(300)를 통해 자동 문서분류서버(200)에 접속한 다음, 제 1검색엔진(310)을 통해 키워드 및 분류별 질의를 입력하게 되면 상기 제 1검색엔진(310)은 데이터서버(240)에 분류정보가 추가된 색인자료를 검색하여 분류대상 문서와 코사인 유사계수를 이용하여 가장 유사한 복수개의 학습문서를 검색(S514)하고, 상기 학습문서가 분류된 각 범주에 대해 입력문서의 적합성을 산출(S516)하여 그 적합성 값이 1과 0사이 값인 경우 해당되는 각 범주로 분류하거나 또는 가장 큰 하나의 범주로 분류(S518)하는 것이다.

따라서, 개인 사용자들은 자동 문서분류서버에 의해 분류된 정보들을 통해 정보들을 검색하고, 검색된 정도를 개인화 할 수 있게 되는 것이다.

한편, 전술된 본 발명은 바람직한 실시 예에 대하여 도시하여 설명하였으나, 상기 본 발명은 상기한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다.

이상에서 살펴본 바와 같이, 본 발명은 인터넷이나 인트라넷 기반에서의 신문기사 및 각종 문헌이나 문서들의 분류를 정의하고, 분류체계별로 통제학습이 가능하도록 문헌이나 문서에서 단어의 가중치 및 유사도에 의해 주제별로 데이터를 추출하여 저장/관리하게 되므로, 개인 사용자들은 주제별 학습 정보를 용이하게 검색할 수 있는 동시에 다양한 정보를 제공받을 수 있는 장점을 갖게 된다.

또한, 분류체계를 기준으로 하여 사용자별 맞춤정보를 제공할 수 있는 효과를 갖는다.

Claims

데이터 통신이 가능한 사용자 단말기(500)와;

인터넷 및 인트라넷 기반에서 제공되는 문헌이나 문서(100,110)들의 문장이나 문맥에서 형태소를 분석하여 추출된 단어들의 가중치 및 유사도를 산출하고, 상기 자동 분석된 데이터에서 인덱스를 추출하여 저장하며 상기 사용자 단말기(500)에서 입력되는 키워드에 해당되는 데이터들을 전송하는 문서분류서버(200)와;

상기 문서분류서버(200)의 인덱스 데이터들을 주제별로 분류하며 상기 데이터를 유지 관리하는 관리자서버(300)로 이루어진 것을 특징으로 하는 학습통제 기반의 자동 문서분류시스템.
제 1항에 있어서, 상기 문서분류서버(200)는 문헌이나 문서들을 데이터로 변환하는 파일변환수단(210)과;

상기 파일변환수단(210)에 의해 변환된 데이터의 문장이나 문맥에서 사전적 의미를 갖는 단어를 추출하는 형태소 분석기(220)와;

상기 형태소 분석기(220)에 의해 추출된 단어들의 출현 빈도 및 역문헌 빈도를 각각 산출하여 부가된 가중치 값이 1과 0사이에서 최대 값으로 하고, 상기 가중치에 의해 부여된 단어간의 의미관계를 사전에 학습된 학습문서와 사용자가 신규로 등록하는 문서들에 의해 주제별 데이터를 생성하는 자동분류 프로그램(230)과;

상기 자동분류 프로그램(230)에 의해 생성된 데이터에서 인덱스만을 추출하여 저장하는 데이터서버(240)를 더 포함한 것을 특징으로 하는 통제학습 기반의 자동 문서분류시스템.
인터넷/인트라넷 기반에서 신문기사 및 각종 학술논문 초록들의 문헌이나 문서들을 사전 정의된 정보로 분류하고, 상기 분류된 문서들을 데이터로 변환하는 제 1단계;

상기 변환된 데이터들은 각 문장이나 문맥 용어들의 형태소 분석하여 각 용어들의 사전적인 의미를 갖는 단어들을 추출하는 제 2단계;

상기 문헌이나 문서들의 내용에서 단어들의 가중치 및 유사도를 산출하는 제 3단계;

상기 단어들의 가중치 및 유사도가 산출되면 각 문헌이나 문서에 분류 정보를 추가하여 데이터를 생성하고, 생성된 데이터에서 인덱스를 추출하여 저장하는 제 4단계;

상기 인덱스 자료들을 학습문서로 분류하기 위해 관리자로부터 입력되는 키워드 및 분류별 질의를 통해 분류대상 문서와 코사인 유사계수를 이용하여 가장 유사한 복수개의 학습문서를 검색하는 제 5단계;

상기 검색된 학습문서가 분류된 각 범주에 대해 입력문서의 적합성을 산출하여 그 적합성 값이 사전 설정된 기준치 1과 0사이에 값인 경우 해당되는 각 범주로 분류하거나 또는 가장 큰 하나의 범주로 분류하는 제 6단계 및;

개인사용자 단말기로부터 입력되는 키워드에 적합한 해당 분류데이터를 전송하는 제 7단계로 이루어진 것을 특징으로 하는 통제학습 기반의 자동 문서분류방법.
제 3항에 있어서, 상기 제 3단계에서 단어의 가중치 및 유사도를 검출하는 방법은 사전 정의되어 분류된 정치·경제·산업·사회·사건·문화·과학 및 스포츠 등으로 분류하고, 각 문헌이나 문서에서 각 단어의 빈도와 역문헌 빈도를 각각 산출하여 각 도출된 값의 최대 값으로 가중치를 계산하고, 상기 문헌이나 문서에 부여된 가중치를 통하여 단어간의 의미관계를 생성하기 위한 단어간의 유사도를 산출하는 것을 특징으로 하는 통제학습 기반의 자동 문서분류방법.