KR20020089677A

KR20020089677A - 문서 자동 분류 방법 및 이를 수행하기 위한 시스템

Info

Publication number: KR20020089677A
Application number: KR1020010028712A
Authority: KR
Inventors: 김익용; 이규완; 김정민
Original assignee: 주식회사 네오프레스
Priority date: 2001-05-24
Filing date: 2001-05-24
Publication date: 2002-11-30

Abstract

본 발명은 문서 자동 분류 방법 및 이를 수행하기 위한 시스템이다.

본 발명에 따르면, 원본 문서 저장부는 사용자에 의해 작성되며, 키워드, 타이틀 및 컨텐트를 포함하는 원본 문서를 저장하고, 데이터 가공부는 원본 문서 저장부에 저장된 원본 문서에서 키워드, 타이틀, 컨텐트 데이터를 각각 추출하여 형태소 분석 및 불용어 처리를 행한 후 대분류, 중분류, 소분류 데이터를 각각 생성한다. 또한 카테고리 저장부는 생성된 대분류, 중분류, 소분류 데이터 각각을 저장하고, 종합 데이터 처리부는 원본 문서 저장부에 저장된 원본 문서와 카테고리 저장부에 저장된 대분류, 중분류, 소분류 데이터를 종합 처리하여, 자동 분류 문서를 생성한다.

그 결과, 문서 작성자에 의해 생성되는 지식자료 디렉토리를 자동으로 구축하고, 상위 디렉토리와 하위 디렉토리를 자동으로 생성하여 불필요한 검색결과를 감소시켜 정확한 검색 결과를 얻을 수 있다.

Description

문서 자동 분류 방법 및 이를 수행하기 위한 시스템{Method for classifying a document automatically and system for the performing the same}

본 발명은 문서 자동 분류 방법 및 이를 수행하기 위한 시스템에 관한 것으로, 보다 상세하게는 컨텐트의 분류 디렉토리를 시의 적절하게 자동으로 분류 생성시키는 방법으로써, 분류 항목과 분류 항목 사이의 상호 연관성을 기반으로 상위 분류와 하위 분류를 자동으로 생성시켜 주기 위한 문서 자동 분류 방법 및 이를 수행하기 위한 시스템에 관한 것이다.

디지털 시대의 도래와 함께 온라인으로 획득 및 처리 가능한 자료량이 폭증함에 따라 필요한 정보를 얼마나 빠르게 어떠한 품질로 확보하는 가는 국가, 기업 및 개인의 경쟁력을 결정하는 핵심 요인으로 작용하고 있다. 특히, 정보 획득 기술의 초점은 대용량의 정보를 어떻게 획득할 것인가로부터 획득한 정보를 어떻게 사용자의 요구에 맞추어 제공할 것인가에 맞추어지고 있다.

한편, 일반적인 종래의 문서 분류 시스템은 미리 정의된 하나 또는 그 이상의 범주 혹은 분류에 새로이 생성되는 컨텐트를 위치화시키는 시스템이다. 즉, 문서 분류 시스템을 설계하기 위해 기존의 구축 모델은 초기 문서 집합을 구성하기 전에 범주들을 생성한 뒤, 입력 문서들에 대한 자연어 처리를 수행하여 이 결과를 문서-주제어 행렬로 표현하고, 또한 분류된 문서들을 그 분류에 기준하여 사용자의 기호에 부합하는 문서들의 검색 결과의 순서화와 검색 정확도를 기하는 방식을 사용하였다.

따라서 미리 정해놓은 분류에 따라 HTML 파일들을 링크해 놓고 파일을 검색하거나 각 게시판별로 단어 위주의 검색 방법에 그쳐왔다.

다른 한편으로, 종래에는 개인이 컴퓨터내의 저장 공간에 임의의 작업 폴더를 생성한 후 폴더의 이름은 개개인 나름대로의 기준으로 작성하고, 그 안에 관련 파일을 보관하는 방식을 취하고 있다. 그러나, 이러한 방식은 파일이 많아질수록 점점 더 복잡해지고 결국에는 파일과 보관 폴더의 명칭간에 연관성을 찾기 어렵다는 문제점이 있다.

특히, 기업이나 단체의 경우는 생성된 자료들의 보관을 위해 다양한 솔루션을 도입하여 적용하고 있으나, 빠르게 변화하는 기업 및 IT(정보 기술)의 발전으로 도입한 솔루션에 사용자가 미처 적응하기도 전에 새로운 솔루션이 등장하여 보관된 자료를 활용하기보다는 단순 보관에 급급하고 있는 실정이다.

이에 본 발명의 기술과 과제는 이러한 종래의 점에 착안한 것으로, 본 발명의 목적은 문서 작성에 따라 생성되는 지식 자료 디렉토리 또는 인터넷 상에서 생성되는 지식 자료 디렉토리를 자동으로 구축하고, 상.하위 디렉토리를 자동으로 생성하여 불필요한 검색 결과를 감소시켜 정확한 검색 결과를 제공하기 위한 문서 자동 분류 방법을 제공하는 것이다.

또한 본 발명의 다른 목적은 상기한 문서 자동 분류 방법을 수행하기에 적합한 문서 자동 분류 시스템을 제공하는 것이다.

도 1은 본 발명의 실시예에 따른 문서 자동 분류 시스템을 설명하기 위한 도면이다.

도 2는 본 발명의 일 실시예에 따른 온라인을 이용한 문서 자동 분류 시스템을 설명하기 위한 도면이다.

도 3a 내지 도 3b는 본 발명에 따른 문서 자동 분류 방법을 설명하기 위한 흐름도이다.

도 4a는 자동 분류 생성 시뮬레이션을 위해 선택한 홈 페이지의 일례이고, 도 4b는 상기한 홈 페이지의 웹 페이지이다.

도 5는 본 발명에 따른 자동 분류 생성을 위한 단계중의 하나로 대상이 될 기사의 DB화와 자동 분류 생성을 위한 테이블들을 알고리즘과 함께 표현한 도면이다.

도 6은 자동 분류 생성될 기사들의 리스트를 디스플레이하는 웹 페이지이다.

도 7은 자동 분류 대상이 되는 기사 중 하나의 예를 디스플레이하는 웹 페이지이다.

도 8은 DB에 저장된 컨텐트로 자동 분류가 생성되는 과정을 설명하기 위한도면이다.

<도면의 주요부분에 대한 부호의 설명>

110 : 원본 문서 저장부120 : 데이터 가공부

122 : 다큐멘트 구성 요소 분배기124 : 형태소 분석기

126 : 불용어 처리기128 : 판단기

130 : 사전부140 : 카테고리 저장부

150 : 종합 데이터 처리부160 : 출력부

상기한 본 발명의 목적을 실현하기 위한 하나의 특징에 따른 문서 자동 분류 방법은,

(a) 키워드, 타이틀 및 컨텐트가 포함된 원본 문서를 저장 또는 선택받는 단계;

(b) 상기 단계(a)에서 원본 문서가 저장 또는 선택됨에 따라 다큐멘트 구성 요소 분배기를 통해 상기 원본 문서로부터 키워드를 추출하여 형태소 분석과 불용어 처리를 행한 후 키워드를 대분류 데이터로 저장하는 단계;

(c) 상기 다큐멘트 구성 요소 분배기를 통해 상기 원본 문서로부터 타이틀을 추출하여 형태소 분석과 불용어 처리를 행한 후 상기 단계(b)에서 저장된 키워드와 상기 타이틀과의 연관 분석을 행하여 키워드-타이틀을 중분류 데이터로 저장하는 단계;

(d) 상기 다큐멘트 구성 요소 분배기를 통해 상기 원본 문서로부터 컨텐트를 추출하여 형태소 분석과 불용어 처리를 행한 후 상기 단계(c)에서 저장된 키워드-타이틀과 상기 컨텐트와의 연관 분석을 행하여 키워드-타이틀-컨텐트를 소분류 데이터로 저장하는 단계; 및

(e) 상기 단계(a) 내지 단계(d)에서 각각 저장된 원본 문서, 대분류, 중분류, 소분류 데이터를 종합 데이터 처리하여 자동 분류 문서를 생성하는 단계를 포함하여 이루어진다.

여기서, 상기 단계(b) 내지 단계(d)는, 불용어 처리를 행한 후 갱신 저장인지, 삽입 저장인지의 여부를 체크하는 단계; 상기 체크 단계에서 갱신 저장이라 체크되는 경우에는 기저장된 데이터를 상기 불용어 처리를 행한 데이터로 대체하여 저장하는 단계; 및 상기 체크 단계에서 삽입 저장이라 체크되는 경우에는 상기 불용어 처리를 행한 데이터를 신규로 삽입 저장하는 단계를 포함하는 것이 바람직하다.

또한 상기한 본 발명의 다른 목적을 실현하기 위한 하나의 특징에 따른 문서 자동 분류 시스템은,

사용자에 의해 작성되며, 키워드, 타이틀 및 컨텐트를 포함하는 원본 문서를 저장하는 원본 문서 저장부;

상기 원본 문서 저장부에 저장된 원본 문서에서 키워드, 타이틀 및 컨텐트 데이터를 각각 추출하여 형태소 분석 및 불용어 처리를 행한 후 대분류, 중분류, 소분류 데이터를 각각 생성하는 데이터 가공부;

상기 생성된 대분류, 중분류, 소분류 데이터 각각을 저장하는 카테고리 저장부; 및

상기 원본 문서 저장부에 저장된 원본 문서와 상기 카테고리 저장부에 저장된 대분류, 중분류, 소분류 데이터를 종합 처리하여, 자동 분류 문서를 생성하는 종합 데이터 처리부를 포함하여 이루어진다.

여기서, 상기 데이터 가공부는, 상기 원본 문서로부터 키워드, 타이틀, 컨텐트를 각각 분류하는 다큐멘트 구성 요소 분배기; 상기 다큐멘트 구성 요소 분배기에 의해 분류된 키워드, 타이틀, 컨텐트 각각의 형태소를 분석하여 출력하는 형태소 분석기; 상기 형태소 분석된 키워드, 타이틀, 컨텐트 각각의 불용어를 처리하는 불용어처리기; 및 상기 형태소 및 불용어 처리된 키워드, 타이틀, 컨텐트 각각으로부터 키워드 데이터로 이루어진 대분류 데이터, 키워드-타이틀로 이루어진 중분류 데이터, 키워드-타이틀-컨텐트로 이루어진 소분류 데이터를 생성하는 판단부를 포함하는 것이 바람직하다.

이러한 문서 자동 분류 방법 및 이를 수행하기 위한 시스템에 의하면, 문서 작성자에 의해 생성되는 지식자료 디렉토리를 자동으로 구축하고, 상위 디렉토리와 하위 디렉토리를 자동으로 생성하여 불필요한 검색결과를 감소시켜 정확한 검색 결과를 얻을 수 있다.

또한, 문서 자동 분류 방법 및 이를 수행하기 위한 시스템에 의하면, 인터넷 웹 사이트의 초기 화면에 사이트내 컨텐츠의 분류 디렉토리를 시의 적절하게 자동으로 분류 생성시킴으로써, 분류 항목간의 상호 연관성을 기반으로 상하위 분류를 자동으로 생성시킬 수 있다.

그러면, 통상의 지식을 지닌 자가 본 발명을 용이하게 실시할 수 있도록 실시예에 관해 설명하기로 한다.

도 1을 참조하면, 본 발명의 실시예에 따른 문서 자동 분류 시스템은 원본 문서 저장부(110), 데이터 가공부(120), 사전부(130), 카테고리 저장부(140), 종합 데이터 처리부(150) 및 출력부(160)를 포함한다.

원본 문서 저장부(110)는 문서 작성자인 사용자에 의해 작성되며, 키워드(Keyword), 타이틀(Title) 및 컨텐트(Content) 데이터를 포함하는 원본 문서를 저장한다. 여기서, 사용자가 문서를 작성할 때, 타이틀을 포함하는 문서 정보를 작성하는 것이 바람직하고, 이때 작성되는 문서 정보에는 키워드가 함께 포함되어 작성되어짐이 바람직할 것이다.

데이터 가공부(120)는 다큐멘트 구성 요소 분배기(122), 형태소 분석기(124), 불용어 처리기(126) 및 판단기(128)를 포함하고, 원본 문서 저장부(110)에 저장된 원본 문서에서 키워드, 타이틀 및 컨텐트 데이터를 각각 추출하여 사전부(130)와 연계하여, 형태소 분석 및 불용어 처리를 행한 후 대분류, 중분류 및 소분류 데이터를 생성하여 카테고리 저장부(140)에 제공한다.

보다 상세히는, 다큐멘트 구성 요소 분배기(122)는 원본 문서로부터 키워드, 타이틀, 컨텐트 데이터를 각각 분류하고, 분류된 키워드, 타이틀, 컨텐트 데이터를 형태소 분석기(124)에 제공한다.

형태소 분석기(124)는 다큐멘트 구성 요소 분배기(122)에 의해 분류된 키워드, 타이틀, 컨텐트 각각의 형태소를 제공받아 사전부(130)와의 비교 동작을 통해 분석하여 불용어 처리기(126)에 제공한다. 일반적으로 형태소란 일정 문장에서 의미를 가진 최소 단위로서, 명사인 것이 바람직하다.

불용어처리기(126)는 형태소 분석된 키워드, 타이틀, 컨텐트 각각에 대해서 사전부(130)와의 비교 동작을 통해 불용어를 처리하여 판단부(128)에 제공한다. 여기서, 불용어란 일반적으로 사용하지 않은 언어인 사어나, 공개하기에 바람직하지 않은 욕설 등이다. 이상에서는 문서를 분류할 때, 형태소를 먼저 분석한 후 불용어 처리 동작을 수행하는 것을 그 일례로 설명하였으나, 불용어 처리를 먼저 행한 후 형태소를 나중에 분석할 수도 있다.

판단기(128)는 형태소 및 불용어 처리된 키워드, 타이틀, 컨텐트 각각으로부터 키워드 데이터로 이루어진 대분류 데이터, 키워드-타이틀로 이루어진 중분류 데이터, 키워드-타이틀-컨텐트로 이루어진 소분류 데이터를 생성하여 카테고리 저장부(140)에 제공한다. 여기서, 중분류 데이터는 키워드와 타이틀과의 연관 관계나 출연 빈도수 등을 근거로 작성되는 데이터이고, 소분류 데이터는 키워드와 타이틀, 컨텐트와의 연관 관계나 출연 빈도수를 근거로 작성되는 데이터이다.

상기한 본 발명의 실시예에서는 원본 문서로부터 대/중/소분류 3종의 데이터를 추출하는 것을 그 일례로 설명하였으나, 3종 미만 또는 3종 이상의 데이터로 분류 추출할 수도 있다.

카테고리 저장부(140)는 키워드 저장부(142), 타이틀 저장부(144) 및 컨텐트 저장부(146)로 이루어져, 데이터 가공부(120)로부터 제공되는 대분류, 중분류, 소분류 데이터를 각각 저장한다. 이때 각각의 데이터는 하나의 데이터베이스에 저장할 수도 있고, 별도로 구비된 데이터베이스에 저장할 수도 있다.

종합 데이터 처리부(150)는 원본 문서 저장부(110)에 저장된 원본 문서 데이터와 카테고리 저장부(140)에 저장된 대분류, 중분류 및 소분류 데이터를 종합 데이터 처리하여 자동 분류 문서를 생성한다. 여기서, 각각의 데이터를 종합 처리하는 의미는 문서의 키워드에 해당하는 데이터가 포함되는 타이틀이나 컨텐트가 있을 것이고, 타이틀에 해당하는 데이터가 포함되는 컨텐트 등이 있을 것이므로, 서로간의 연관 관계나 출연 빈도 수 등을 반영하여 데이터끼리 링크하는 개념이다.

출력부(160)는 종합 데이터 처리부(150)에 의해 처리된 데이터를 출력하는데, 문서의 카테고리나 문서의 리스트 등을 출력한다.

이상에서는 원본 문서의 분류를 키워드, 타이틀 및 컨텐트로 분류하는 것을 그 일례로 설명하였으나, 상기한 키워드, 타이틀 및 컨텐트 중 적어도 어느 하나를 통해 이루어질 수도 있고, 제4의 다른 분류 요소가 있는 경우에는 이를 포함시킬 수도 있다.

또한, 본 발명에 따른 문서 자동 분류 시스템은 하나의 프로그램이나 솔루션등으로 이루어질 수 있으며, 상기한 원본 문서 저장부나, 데이터 가공부 등으로 분리한 것은 본 발명의 설명의 편의를 위해 분리한 것이지, 하드웨어적으로 분리한 것은 아니며, 각각의 분리 구성 요소들은 각각의 프로그램 모듈로 대체할 수도 있을 것이다.

이상에서 설명한 바와 같이, 본 발명에 따르면 문서를 작성하는 일반 사용자측에서는 키워드 혹은 전문 컨텐트와 함께 문서를 찾는데 용이하게 이용될 수 있는 주제어 상관 관계 분석 방법을 제공할 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 온라인을 이용한 문서 자동 분류 시스템은 복수의 하위 시스템(100)과 상기 하위 시스템과 네트워크 또는 인터넷 연결된 범용 카테고리 저장 시스템(200)으로 이루어진다.

하위 시스템(100)은 상기한 도 1에서 설명한 원본 문서 저장부(110), 데이터 가공부(120), 카테고리 저장부(130), 종합 데이터 처리부(140) 및 출력부(150)를 포함하여 이루어지며, 정기적으로 자기 시스템(Self system)의 카테고리를 범용 카테고리 저장 시스템(200)측에 요청하여(①), 해당 카테고리를 포함하는 시스템 정보를 제공받는다(②).

또한 하위 시스템(100)은 다른 하위 시스템과의 접속 및 정보를 요청하고(③), 다른 하위 시스템으로부터 제공되는 정보에 응답한다(④).

범용 카테고리 저장 시스템(200)은 키워드 저장부(212), 타이틀 저장부(214), 컨텐트 저장부(216) 및 하위 시스템 정보 분석기(218)를 구비하는 범용 카테고리 저장부(210)를 포함하여, 하위 시스템(100)으로부터 제공되는 각종 컨텐트 정보를 저장하고, 하위 시스템(100)으로부터 분석된 카테고리 요청에 응답하여 시스템 정보를 제공한다.

이상에서 설명한 바와 같이, 본 발명에 따르면 기존의 인터넷 비즈니스의 지배 구조였던 '클라이언트-서버(Client-Server)' 구조 중심의 비즈니스 모델뿐만 아니라, '클라이언트-클라이언트(Client-Client)' 구조를 나타내는 피어(Peer) 간의 공유를 전제로 하여 인터넷의 정보를 검색 엔진을 거쳐 찾아야 하는 기존 방식과 달리 인터넷에 연결된 모든 개인 컴퓨터로부터 직접 정보를 제공받아 카테고리 저장부에 저장된 파일 혹은 문서를 공유할 수 있다.

이는 웹 사이트에 한정되어 있던 정보 추출 경로를 개인이나 회사가 운영하는 데이터베이스까지 확대할 수 있다. 즉, 자신의 정보를 전국적, 혹은 세계적으로 관리, 운영하며 상호간에 다양한 정보 공유뿐만 아니라 동일한 정보를 공유하고자 하는 회원간의 커뮤니티 형성이 가능하며 그룹웨어로서 역할을 통해 그 영역을 확장시킬 수 있다.

또한 본 발명에 따르면, 웹 사이트내의 디렉토리를 시의 적절하다 공시성을 띤 분류를 자동으로 생성함으로써 기존의 관리자가 인위적으로 분류를 나누어야 하는 제약을 극복하고, 또한 낱말들간의 상호 연관성을 수치 계량화하여 상하위 종속개념이 아닌 대등 연관성을 가진 분류 디렉토리를 제공함으로써 웹 사이트내의 컨텐트를 구축 및 검색하는 방법을 제공할 수 있다.

도 3a 내지 도 3b를 참조하면, 먼저 문서 작성자인 사용자가 데이터를 입력함에 따라(단계 S110), 원본 문서 저장부에 저장하고(단계 S120), 다큐멘트 구성 요소 분배기(DSED; Document Structure Element Distributor)를 통해 저장된 원본문서로부터 키워드, 타이틀, 컨텐트를 추출한다(단계 S130). 여기서, 다큐멘트 구성 요소 분배기(DSED)는 지식 관리 업무 흐름을 결정 및 지원해주는 도구로서, 형성된 문서의 형태소 분석 및 저장 여부를 결정하고, 상하위 레벨의 연관성을 순차적 또는 병렬적인 업무 처리로 미리 정의한 원칙과 순서에 따라 상호 연관을 분석한다.

또한 다큐멘트 구성 요소 분배기(DSED)는 지식(Knowledge)을 생성하고 분석, 분류 및 저장하는 사용자가 자신의 정보를 사전에 분류 저장을 결정함으로 인해 발생하는 지체와 전달 오류를 방지하고 효율성을 높일 수 있다. 이러한 다큐멘트 구성 요소 분배기는 방만한 데이터의 자동 배분, 유연한 규칙 입력 등 다양한 업무 처리 순서를 정의하고 관리할 수 있는 형태로 제공된다.

상기한 다큐멘트 구성 요소 분배기의 핵심은 형상화된 데이터의 재배열 결정에 중요한 역할을 담당하는 관리 엔진에 있다. 이 엔진은 조건에 따라 데이터를 적합한 순서로 적합한 저장소에 전달하는 기능을 수행할 뿐 아니라, 저장된 데이터를 역으로 검색할 수 있다.

한편, 단계 S130에서 키워드를 추출한 경우에는 키워드의 형태소 분석을 통해 1차 필터링하고(단계 S200), 불용어 처리를 통해 불필요한 또는 부적절한 용어를 제거하는 2차 필터링을 행한 후(단계 S210), 얻어진 키워드 데이터를 갱신하여 저장인지 아니면 키워드 데이터를 신규로 삽입 저장할 지의 여부를 체크한다(단계 S220).

단계 S220에서 키워드 데이터의 갱신 저장이라 체크되는 기저장된 키워드 데이터에 상기 단계 S210까지에서 처리한 키워드 데이터를 갱신 저장하고(단계 S230), 키워드 데이터의 삽입 저장이라 체크되는 경우에는 새로이 키워드 데이터를 삽입 저장한 후(단계 S240), 대분류 데이터로 저장한다(단계 S250).

한편, 단계 S130에서 타이틀 데이터를 추출한 경우에는 해당 타이틀 데이터의 형태소를 분석하고(단계 S300), 불용어 처리를 행한 후(단계 S310), 단계 S230 및 S240에서 저장된 키워드와 상기 단계 S310에서 처리한 타이틀 데이터와의 연관성을 분석하여 키워드-타이틀 연관성 데이터를 얻는다(단계 S320). 이어 키워드-타이틀 연관성 데이터의 갱신 저장인지 아니면 키워드-타이틀 연관성 데이터의 삽입 저장의 여부를 체크한다(단계 S330).

단계 S330에서 키워드-타이틀 연관성 데이터의 갱신 저장이라 체크되는 경우에는 기저장된 키워드-타이틀 연관성 데이터에 상기 단계 S320에서 처리한 키워드-타이틀 연관성 데이터를 갱신 저장하고(단계 S340), 키워드-타이틀 연관성 데이터의 삽입 저장이라 체크되는 경우에는 새로이 키워드-타이틀 연관성 데이터를 삽입 저장한 후(단계 S350), 중분류 데이터로 저장한다(단계 S360).

한편, 단계 S130에서 컨텐트를 추출한 경우에는 컨텐트의 형태소를 분석하고(단계 S400), 불용어 처리를 행한 후(단계 S410), 단계 S340, S350에서 저장된 키워드-타이틀 연관성 데이터와 상기 단계 S410까지에서 처리한 컨텐트와의 연관을 분석하여 키워드-타이틀-컨텐트 연관성 데이터를 얻는다(단계 S420). 이어 키워드-타이틀-컨텐트 연관성 데이터의 갱신 저장인지 아니면 키워드-타이틀-컨텐트 연관성 데이터의 삽입 저장인지의 여부를 체크한다(단계 S430).

단계 S430에서 키워드-타이틀-컨텐트 연관성 데이터의 갱신 저장이라 체크되는 기저장된 키워드-타이틀-컨텐트 연관성 데이터에 상기 단계 S410까지에서 처리한 키워드-타이틀-컨텐트 연관성 데이터를 갱신 저장하고(단계 S440), 키워드-타이틀-컨텐트 연관성 데이터의 삽입 저장이라 체크되는 경우에는 새로이 키워드-타이틀-컨텐트 연관성 데이터를 삽입 저장한 후(단계 S450), 소분류 데이터로 저장한다(단계 S460).

이어 단계 S120에서 저장된 원본 문서 데이터와, 단계 S250에서 저장된 대분류 데이터와, 단계 S360에서 저장된 중분류 데이터와, 단계 S460에서 저장된 소분류 데이터를 종합 처리하여 자동 분류 문서를 생성한다(단계 S500).

이어 자동 분류 문서에 따른 결과 페이지를 작성하고(단계 S600), 작성된 결과 페이지를 전송한다(단계 S700). 이때 결과 페이지의 전송은 온 라인 연결된 경우에는 도 2에서 도시한 바와 같이, 메인 범용 카테고리 저장 시스템에서 하위 시스템으로 전송될 수도 있고, 그 역일 수도 있다.

이상에서는 본 발명에 따른 문서 자동 분류 방법 및 이를 수행하기 위한 시스템에 대해서 설명하였다.

그러면, 바람직한 실시예를 통해서 본 발명을 보다 상세히 설명한다.

도 4a는 자동 분류 생성 시뮬레이션을 위해 선택한 홈 페이지의 일례이고, 도 4b는 상기한 홈 페이지의 웹 페이지이다. 특히, 도 4a는 조선일보 메인 페이지이고, 도 4b는 스포츠면의 메인 페이지이다.

도 5는 본 발명에 따른 자동 분류 생성을 위한 단계중의 하나로 대상이 될기사의 DB화와 자동 분류 생성을 위한 테이블들을 알고리즘과 함께 표현한 도면이다.

도 5를 참조하면, 제목, 키워드, 컨텐트를 갖는 원본 문서, 또는 본 발명의 실시예에서 개시하는 자동 분류 생성될 기사가 선택됨에 따라 기사가 저장되는 DB에는 ID, 제목, 키워드, 컨텐트 등의 각 필드별로 DB화되어 저장된다. 여기서, 기사는 웹 상에 존재하는 각종 신문 기사가 될 수 있고, 다양한 인터넷 사이트에서 제공하는 웹 문서나 웹 컨텐츠가 될 수도 있다.

이어 각 필드별로 기사가 DB화되어 저장됨에 따라 자동 분류 생성을 위한 DB에는 키워드 테이블, 타이틀-키워드 테이블, 타이틀-핵심어 테이블이 저장된다.

보다 상세히는, 키워드 테이블은 기사 저장시에 기사에 입력된 키워드들과 리스트의 반복 횟수 등을 저장하는 테이블이다.

또한, 타이틀-키워드 테이블은 키워드에 의한 상위 분류에 대한 그 하위 분류가 될 제목들을 이 키워드와 연결하고, 기사들의 리스트에서 그 빈도를 저장하는 테이블이다.

또한, 타이틀-핵심어 테이블은 제목에 의한 분류의 하위 분류를 생성하기 위해 기사의 컨텐트에서 출연 빈도가 높은 단어를 그 기사의 핵심어로 판별하고, 핵심어를 빈도에 의한 순서로 정렬한 테이블이다. 이때 기사 컨텐트에서 빈도수가 많은 핵심어를 높은 가중치로 설정한다.

도 6은 본 발명에 따라 자동 분류 생성될 기사들의 리스트를 디스플레이하는 웹 페이지이다.

도 6을 참조하면, 2월 10일자 기준으로 각 기사에서 종목별로 키워드를 부여한 것으로 가정하고, 해당 기사에서 키워드별 출연 빈도수를 계산하여 하기하는 표 1과 같은 키워드 테이블을 제작한다.

표 1은 자동 분류의 대분류가 될 키워드 테이블이다.

_ID	_항목	_{출연빈도수}
₁	_야구	₅
₂	_골프	₃
₃	_축구	₂
₄	_배구	₁
₅	_농구	₁

최근 24시간 내에 올라온 데이터의 제목이나 컨텐트 중 출연빈도수가 높은 단어를 추출해서 상위 개념의 하위 카테고리로 제시하는데, 하기하는 표 2는 야구를 기준으로 했을 때, 기사 제목에서 출연빈도수를 계산한 것이다. 즉, 기사가 입력될 때 테이블에 제목이 있을 경우는 빈도수를 '1'만큼 증가시키고, 없으면 새로운 레코드를 생성한다.

도 7은 자동 분류 대상이 되는 기사 중 하나의 예를 디스플레이하는 웹 페이지이고, 표 2는 자동 분류의 중분류가 될 타이틀-키워드 테이블이다.

_제목	_키워드	_출연빈도
_심정수	_야구	₃
_심재학	_야구	₂
_트레이드	_야구	₂

이어, 타이틀-핵심어 테이블은 기사의 제목과 핵심어를 저장한다. 여기서, 핵심어는 컨텐트 중에서 출연 빈도가 높은 단어로서, 단어들의 출연 빈도에 순위를매긴 후 빈도가 높은 단어부터 소정수, 예를 들어 5개를 추출해서 핵심어로 정한다.

표 3은 가중치 계산에 의해 소분류를 생성하는 타이틀-핵심어 테이블이다.

_ID	_제목	_핵심어5	_핵심어4	_핵심어3	_핵심어2	_핵심어1
₁	_{심정수, 심재학 맞교환}	_심정수	_심재학	_트레이드	_두산	_현대
₂	_{SK 마운드 업데이트}	_SK	_현대	_조웅천	_조규제	_트레이드
₃	_{현대 트레이드 심정수 일문일답}	_현대	_트레이드	_두산	_연봉	_협상
₄	_{양준혁 불안하다}	_양준혁	_트레이드	_심정수	_마해영	_두산
₅	_{프로야구 심정수-심재학 맞교환}	_심정수	_심재학	_두산	_프로야구	_현대

이상에서 설명한 과정은 기사가 자동 분류 생성되기 위해 DB에 저장되는 과정을 설명하였다.

도 8은 본 발명에 따른 DB에 저장된 컨텐트로부터 자동 분류가 생성되는 과정을 설명하기 위한 도면이다.

도 8을 참조하면, 자동 분류 생성을 위한 테이블이 저장된 DB는 키워드 테이블, 타이틀-키워드 테이블 및 타이틀-핵심어 테이블을 포함한다.

자동 분류 생성에서 대분류, 중분류는 각각 키워드 테이블과 타이틀-키워드 테이블을 이용하여 생성한다. 예를 들어, 하기하는 표 4에 도시한 바와 같이, 미리 정렬된 키워드 테이블에서 상위 5위까지를 추출하여 대분류를 생성하고, 타이틀-키워드 테이블에서도 정렬 후 상위 5위까지를 추출해서 중분류를 생성하는 1차 분류 동작을 수행한다.

표 4는 본 발명에 따라 키워드 테이블에 의한 대분류 및 타이틀-키워드 테이블에 의한 중분류이다.

_야구	_-	_{심정수, 심재학, 트레이드}
_골프	_-
_축구	_-
_배구	_-
_농구	_-

한편, 상기한 중분류로부터 소분류를 출력할 때에는 기사 테이블에서 카테고리의 가중치를 계산해서 생성한다. 즉, 키워드의 빈도가 높을수록 가중치를 높게 주어 연산하고, 키워드의 빈도가 적을수록 가중치를 낮게 주어서 연산한다.

표 5는 상기한 표 4에서 도시한 중분류에서 심재학을 선택한 경우에 해당하는 경우로서, 특히 '심재학'이 제목으로 있는 기사들을 먼저 선택한 예이다.

_ID	_제목	_핵심어5	_핵심어4	_핵심어3	_핵심어2	_핵심어1
₁	_{심정수, 심재학 맞교환}	_심정수	_심재학	_트레이드	_두산	_현대
₃	_{현대 트레이드 심정수 일문일답}	_현대	_트레이드	_두산	_연봉	_협상
₅	_{프로야구 심정수-심재학 맞교환}	_심정수	_심재학	_두산	_프로야구	_현대

여기서, 출연 빈도가 가장 높은 것은 5점, 다음 4점 순으로 해서 핵심어의 가중치를 계산하면 하기하는 표 6과 같은 가상적인 테이블이 나온다.

표 6은 핵심어 가중치를 합산한 가상 테이블이다.

_ID	_항목	_{가중치 합계}
₁	_심정수	₁₀
₂	_두산	₈
₃	_심재학	₈
₄	_트레이드	₇
₅	_현대	₇
₆	_연봉	₂
₇	_프로야구	₂
₈	_협상	₁

상기한 표 6의 가상 테이블은 사용자가 요청시에 테이블에서 계산 후 생성되는 가상 테이블이다. 상기 테이블을 정렬후 하기하는 표 7에 도시한 바와 같이, 상위 5위까지로 분류를 생성해준다. 여기에서 기사 보기를 선택해주면 위의 기사 3개에서 기사를 출력해준다.

_심재학

_-

_{심정수, 두산, 심재학, 트레이드, 현대}

2차 분류에서 다시 단계를 선택하게 되면 아래와 같은 선택이 생기고 동일 과정을 반복해 표 8에 도시한 바와 같은 3차 분류가 생성된다.

표 8은 트레이드로 기사를 선택한 테이블이다.

_ID	_{제 목}	_핵심어5	_핵심어4	_핵심어3	_핵심어2	_핵심어1
₁	_{심정수, 심재학 맞교환}	_심정수	_심재학	_트레이드	_두산	_현대
₃	_{현대 트레이드 심정수 일문일답}	_현대	_트레이드	_두산	_연봉	_협상

여기에서 출연빈도가 가장 높은 것은 5점, 다음 4점 순으로 해서 키워드를 계산하면 하기하는 표 9와 같은 가상 테이블이 나온다.

표 9는 키워드 가중치를 합계한 가상 테이블이다.

_ID	_항목	_{가중치 합계}
₁	_심재학	₈
₂	_트레이드	₇
₃	_현대	₆
₄	_심정수	₅
₅	_두산	₅
₆	_연봉	₂
₇	_협상	₁

상기한 표 9의 가상 테이블은 사용자가 요청시에 테이블에서 계산 후 생성되는 가상 테이블이다. 상기 테이블을 정렬후 하기하는 표 10에 도시한 바와 같이, 상위 5위까지로 분류를 생성해준다. 여기에서 기사 보기를 선택해주면 위의 기사 3개에서 기사를 출력해준다.

_심재학

_-

_{심재학, 트레이드, 현대, 심정수, 두산}

이상의 본 발명의 실시예에서는 웹 상에 존재하는 신문 기사를 사용자가 선택하여 문서를 자동 분류 생성하는 것을 그 일례로 설명하였으나, 로컬 컴퓨터나 네트워크 연결된 컴퓨터상에서 사용자가 새로운 문서를 작성하여 저장함에 따라 해당 문서가 저장될 디렉토리를 자동으로 검색하여 위치시키거나 신규의 디렉토리를 자동으로 생성하여 위치시킬 수도 있을 것이다.

이상에서 설명한 바와 같이, 본 발명에 따르면 기업내의 인트라넷이나 혹은 인터넷 사이트내의 분류항목을 시의 적절하게 공시성을 띤 분류를 자동으로 생성하기 위한 분류 자동 생성 처리기는 기존의 관리자가 인위적으로 분류를 나누어야 하는 제약을 극복하고, 또한 낱말과 낱말(주제어 등) 사이의 상호 연관성을 수치 계량화하여 상하위 종속개념이 아닌 대등 연관성을 가진 분류항목을 제공함으로써 웹사이트내의 컨텐츠를 구축 및 검색할 수 있다.

즉, 인터넷 웹 사이트의 초기화면에 사이트내 컨텐트의 분류 디렉토리를 시의 적절하게 자동으로 분류 생성시키므로써, 분류 항목과 분류 항목 사이의 상호 연관성을 기반으로 상위 분류와 하위 분류를 자동으로 생성시킬 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

이상 설명한 바와 같이, 본 발명에 따르면, 문서 작성자가 문서 작성 후 문서가 저장될 디렉토리 등의 장소 등을 지정하지 않더라도 상기 작성된 문서를 근거로 문서의 카테고리를 분류하여 자동으로 문서를 분류 저장할 수 있다. 이러한 문서 작성 및 분류 저장은 온라인상의 웹이나 네트워크를 통해서도 행해질 수 있고, 오프 라인상의 로컬 컴퓨터상에서도 행해질 수 있다. 물론 오프 라인상에서 작성된 문서는 추후에 온라인으로 연결되어 해당 문서를 자동 분류 저장할 수 있음은 자명한 일이다.

Claims

(a) 키워드, 타이틀 및 컨텐트가 포함된 원본 문서를 저장 또는 선택받는 단계;

(b) 상기 단계(a)에서 원본 문서가 저장 또는 선택됨에 따라 다큐멘트 구성 요소 분배기를 통해 상기 원본 문서로부터 키워드를 추출하여 형태소 분석과 불용어 처리를 행한 후 키워드를 대분류 데이터로 저장하는 단계;

(c) 상기 다큐멘트 구성 요소 분배기를 통해 상기 원본 문서로부터 타이틀을 추출하여 형태소 분석과 불용어 처리를 행한 후 상기 단계(b)에서 저장된 키워드와 상기 타이틀과의 연관 분석을 행하여 키워드-타이틀을 중분류 데이터로 저장하는 단계;

(d) 상기 다큐멘트 구성 요소 분배기를 통해 상기 원본 문서로부터 컨텐트를 추출하여 형태소 분석과 불용어 처리를 행한 후 상기 단계(c)에서 저장된 키워드-타이틀과 상기 컨텐트와의 연관 분석을 행하여 키워드-타이틀-컨텐트를 소분류 데이터로 저장하는 단계; 및

(e) 상기 단계(a) 내지 단계(d)에서 각각 저장된 원본 문서, 대분류, 중분류, 소분류 데이터를 종합 데이터 처리하여 자동 분류 문서를 생성하는 단계

를 포함하는 문서 자동 분류 방법.
제1항에 있어서, 상기 문서 자동 분류 방법은,

(f) 상기 자동 분류 문서에 따른 결과 페이지를 작성하는 단계를 더 포함하는 것을 특징으로 하는 문서 자동 분류 방법.
제1항에 있어서, 상기 문서 자동 분류 방법은,

(g) 상기 자동 분류 문서에 따른 결과 페이지를 전송하는 단계를 더 포함하는 것을 특징으로 하는 문서 자동 분류 방법.
제1항에 있어서, 상기 단계(b) 내지 단계(d)는,

불용어 처리를 행한 후 갱신 저장인지, 삽입 저장인지의 여부를 체크하는 단계;

상기 체크 단계에서 갱신 저장이라 체크되는 경우에는 기저장된 데이터를 상기 불용어 처리를 행한 데이터로 대체하여 저장하는 단계; 및

상기 체크 단계에서 삽입 저장이라 체크되는 경우에는 상기 불용어 처리를 행한 데이터를 신규로 삽입 저장하는 단계로 이루어지는 것을 특징으로 하는 문서 자동 분류 방법.
사용자에 의해 작성되며, 키워드, 타이틀 및 컨텐트를 포함하는 원본 문서를 저장하는 원본 문서 저장부;

상기 원본 문서 저장부에 저장된 원본 문서에서 키워드, 타이틀 및 컨텐트 데이터를 각각 추출하여 형태소 분석 및 불용어 처리를 행한 후 대분류, 중분류,소분류 데이터를 각각 생성하는 데이터 가공부;

상기 생성된 대분류, 중분류, 소분류 데이터 각각을 저장하는 카테고리 저장부; 및

상기 원본 문서 저장부에 저장된 원본 문서와 상기 카테고리 저장부에 저장된 대분류, 중분류, 소분류 데이터를 종합 처리하여, 자동 분류 문서를 생성하는 종합 데이터 처리부

를 포함하는 문서 자동 분류 시스템.
제5항에 있어서, 상기 원본 문서는 사용자의 선택에 따라 선택되는 웹 페이지를 더 포함하는 것을 특징으로 하는 문서 자동 분류 시스템.
제5항 또는 제6항에 있어서, 상기 문서 자동 분류 시스템은,

상기 자동 분류 문서의 카테고리와 리스트를 출력하는 출력부를 더 포함하는 문서 자동 분류 시스템.
제5항 또는 제6항에 있어서, 상기 데이터 가공부는,

상기 원본 문서로부터 키워드, 타이틀, 컨텐트를 각각 분류하는 다큐멘트 구성 요소 분배기;

상기 다큐멘트 구성 요소 분배기에 의해 분류된 키워드, 타이틀, 컨텐트 각각의 형태소를 분석하여 출력하는 형태소 분석기;

상기 형태소 분석된 키워드, 타이틀, 컨텐트 각각의 불용어를 처리하는 불용어처리기; 및

상기 형태소 및 불용어 처리된 키워드, 타이틀, 컨텐트 각각으로부터 키워드 데이터로 이루어진 대분류 데이터, 키워드-타이틀로 이루어진 중분류 데이터, 키워드-타이틀-컨텐트로 이루어진 소분류 데이터를 생성하는 판단부를 포함하는 것을 특징으로 하는 문서 자동 분류 시스템.