KR20020049164A

KR20020049164A - 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법

Info

Publication number: KR20020049164A
Application number: KR1020000078266A
Authority: KR
Inventors: 송종철; 문병주; 정현수; 홍기채; 손소현; 이성용
Original assignee: 오길록; 한국전자통신연구원
Priority date: 2000-12-19
Filing date: 2000-12-19
Publication date: 2002-06-26
Also published as: US20020078044A1

Abstract

본 발명은 유전자 알고리즘을 이용하여 학습을 수행하는 유전자 학습 분류기에 분야별 카테고리를 학습시키고, 유전자 학습 분류기에 문서의 핵심어에 대한 단어 클러스터(Term Clustering)를 입력하여 문서를 분야별 카테고리로 분류하는 문서 자동 분류 시스템과 사용자가 검색에 사용한 검색어를 사용자 프로파일(Profile)에 저장하고, 이것을 유전자 학습 분류기에 입력하여 사용자 관심 분야를 판단하는 시스템이다. 본 발명은 웹 검색 시스템에서 이용되는 디렉토리 서비스에서 문서의 자동 분류에 활용될 수 있으며, 사용자가 검색 결과에 대해 재검색을 수행하는 경우, 사용자 관심 분야를 활용하여 검색 효율을 높일 수 있는 시스템을 고안하였다. 본 발명에서 카테고리를 학습하므로 새로운 분야 발생시에만 재학습을 수행하므로 즉시적인 서비스를 수행할 수 있으며, 분야별 카테고리를 이용하여 사용자가 찾으려는 검색어에 대한 분야별 카테고리를 제공할 수 있어 동음 이의어에 대한 모호한 검색을 방지할 수 있어 정확성이 높은 검색 결과를 제공할 수 있다.

Description

유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템 및 그 방법 {The System and Method for Auto - Document - classification by Learning Category using Genetic algorithm and Term cluster}

본 발명은 문서 자동 분류 시스템 및 그 방법에 관한 것으로서, 보다 상세하게 설명하면 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템 및 그 방법에 관한 것이다.

인터넷을 통한 정보 교류가 보편화되면서 정보의 급격한 증가를 가져왔으나,상대적으로 사용자가 원하는 가장 적절한 정보 검색은 점점 더 어려워지고 있다. 이러한 문제를 해결하기 위해 문서를 카테고리 별로 분류하여 사용자가 원하는 문서를 보다 편리하고 정확하게 검색할 수 있는 연구가 진행 중이다. 그 중에서 정해진 분류 체계 하에서 분류하고자 하는 문서들을 가장 적합한 카테고리에 배정함으로써, 문서를 집단화하는 연구가 진행되고 있다.

이러한 문서의 자동 분류에 대한 연구에서 문서 그룹화 방법으로 문서 검색(Retrieval), 범주화(Categorization), 라우팅(Routing), 필터링(Filtering), 클러스터링(Clustering) 등의 기법이 사용되고 있다. 현재 자동 문서 분류에 대한연구가 많은 곳에서 진행되고 있지만 아직 완전하게 문서를 자동으로 분류할 수 있는 시스템은 거의 없는 실정이다. 또한, 문서 클러스터링을 학습하여 문서를 자동 분류하는 시스템은 새로운 문서에 대해 재학습을 수행하여야 하므로 학습 시간이 많이 소모되어 즉시적인 서비스에 많은 어려움을 준다.

이러한 종래 기술 중에서도 가장 대표적인 방법은 전체 문서에 대하여 문서 클러스터를 수행하고, 그 결과에 인공 지능적인 기법을 적용하여 문서의 자동 분류를 수행하는 방법이다. 이러한 문서 클러스터에 의한 문서 분류는 문서간 분리도가 높은 단어에 대하여 가중치를 적용함으로써, 문서 검색에는 효율적이나 카테고리간의 분리도가 중요한 문서 분류에는 부적합한 문제점을 가지고 있다.

특히, 문서 클러스터를 수행하는 시스템은 웹 로봇이 수집한 모든 문서에 대하여 문서 클러스터와 인공 지능을 이용한 학습을 수행하기 때문에 처리 시간이 상당히 필요하다. 또한, 추가로 수집되는 모든 문서에 대하여 다시 문서 클러스터와 학습을 수행하여야 하므로, 현재와 같은 인터넷 환경에서는 즉시적인 서비스가 어렵다는 많은 문제점들을 가지고 있다.

이러한 종래 기술 및 본 발명에서 이용하고 있는 종래 기술들을 상세히 살펴 보면, 다음과 같은 것들이 있다.

먼저, 저자가 '조광제, 김준태'이고, '한국정보과학회 학술발표논문집 V.24, no.1'에 게재된 논문 '역 카테고리 빈도에 의한 계층적 분류 체계에서의 문서의 자동 분류'를 살펴 보면 다음과 같다.

본 선행 논문에서는 문서의 자동 분류를 위한 색인어 가중치 계산 방법으로 색인어의 카테고리 분리도를 반영하는 역 카테고리 빈도(ICF : Inverted Category Frequency)를 정의하고 있다. 즉, 이를 이용한 계층적 분류 체계에서의 문서 분류 방법을 제시하고 있다. ICF는 각각의 카테고리 간의 분리도가 높은 단어에 대하여 높은 가중치를 주는 방법으로서, 문서 분류의 경우 역 문헌 빈도(IDF : Inverted Document Frequency, 총문서의 개수 / 임의의 단어가 들어 있는 문서 개수)보다 의미있는 가중치 계산 방법이다. 본 논문에서는 조선 일보 경제 기사와 KTSET(한국어 정보검색 연구를 위한 시험용 데이터 모음, 즉, 정보검색 시스템의 성능 테스트를 위한 데이터 모음)을 대상으로 문서의 자동 분류 실험을 수행하였으며, 실험 결과 ICF를 가중치로 사용한 경우가 IDF를 사용한 경우에 비하여 보다 높은 정확도를 나타낸다는 것을 입증하였다.

또한, 본 논문에서 제안한 ICF가 평면적인 분류 체계와 계층적인 분류 체계 모두 더 정확한 분류 성능을 보였으나, 특히, 계층적 분류 체계에서 더욱 효과적임이 입증되었다.

또한, 권리권자가 '주식회사 엔아이비소프트'이고, 특허 명칭이 '문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서 분류 검색 시스템'(등록 번호 : 10-2000-0029370)인 선행 특허를 설명하면 다음과 같다.

본 선행 특허에서는 자동 요약을 이용하여 주제어 데이터베이스와 주제 문장 데이터베이스를 구축한 후, 키 문서를 입력받아 키 문서의 내용과 유사한 내용을갖는 문서를 검색한다. 즉, 문서 자체를 검색 키로 하여 이와 유사한 내용을 갖는 문서를 검색할 수 있으므로, 한번의 검색으로 원하는 정보를 쉽고 빠르게 찾을 수 있으며, 문서에 대한 검색 결과를 문서의 주제와 관련된 요약 정보로 표시하여 주기 때문에 검색 결과를 다시 확인해야 하는 불편함이 없이 빠르게 원하는 정보를 찾을 수 있다.

이러한 문서 분류 방법은 검색 키 문서의 주제어 정보 생성 단계, 검색 대상 문서에 주제어별 가중치를 부여하는 단계, 검색 대상 문서에 주제 문장별 가중치를 부여하는 단계, 주제어별 가중치와 주제 문장별 가중치를 합한 전체 가중치를 높은 순위부터 검색 대상 문서로 분류하는 단계로 이루어진다.

또한, 저자가 '양수연, 이근배'이고, '한국정보과학회 학술발표논문집 V.19, No.2'에 게재된 논문 '기계 학습에 의한 문서 분류에 있어서 ID3와 Backpropagation의 성능 비교'(ID3(Induction of Decision Tree) : 결정 트리의 하나로서 귀납(induction) 작업을 수행하며 분류규칙이 트리로서 표현되는 시스템, 에러 역전파 알고리즘(Back Propagation) : 신경망 학습 알고리즘의 하나로서 입력층과 중간층 그리고 출력층으로 구성된 신경 회로망이며 필요한 정보를 저장하도록 학습시킬 수 있는 학습 알고리즘)를 살펴 보면 다음과 같다.

자연어 문서를 미리 정의된 범주로 분류하는 작업은 정보 검색과 자연어 처리 시스템에 있어서 상당히 중요하나, 종래에는 자동 문서 분류체에 관한 연구들은 기계 학습 내지 지식 공학적인 방법(Knowledge Engineering Method)으로 수행되어왔다. 본 선행 논문에서는 기계 학습에 의한 문서 분류 시스템을 설계, 구현하기 위한 첫 단계로 현재 가장 활발히 연구되고 있는 귀납적 학습 알고리즘(Inductive Leaning Algorithm)과 에러 역전파(Back Propagation) 알고리즘의 자동 문서 분류 방법을 비교 분석하였다.

이러한 비교 분석을 통하여 학습 자료의 크기와 특성 집합의 크기 변화에 따른 성능 변화의 관찰을 수행함으로써, 최적의 효율성을 기대할 수 있는 변수값을 제시하고 있다.

또한, 저자가 '안종일'이고, '정보처리논문지 Vol.7, No.6'에 게재된 논문 '시간표 문제의 유전자 알고리즘을 이용한 해결에 관한 연구'를 살펴 보면 다음과 같다.

본 선행 논문은 인공 지능의 한 연구 분야인 다중 제약을 갖는 대학의 시간표 작성 문제를 해결하는 알고리즘을 제시하고 있다. 이를 위하여 두 강좌간의 시간 충돌 제약과 요일 충돌 제약을 동시에 표현 가능하도록 2-유형 에지(Edge) 그래프를 정의하였다. 또한, 이를 유전자 알고리즘으로 해결하는 방법을 제안하고, 무작위 탐색의 효율을 높이기 위하여 국부 탐색을 수행하는 방법을 소개하고 있다. 본 선행 논문에서는 제안된 방법을 실험 결과가 무작위 탐색과 비교하여 탐색 비용을 10000번의 반복 횟수에서 평균 약 71% 감소시킨 것으로 나타났다.

즉, 유전자 알고리즘의 적용 분야를 소개한 논문이다.

또한, 저자가 '신진섭, 이창훈'이고, '정보처리논문지 Vol.6, No.9'에 게재된 논문 '단어의 연관성을 이용한 문서의 자동 분류'를 살펴보면 다음과 같다.

본 선행 논문은 단어들 사이의 연관 관계 특성을 이용하여 사용자의 관심 분야 범위 내에서 문서의 자동 분류 알고리즘을 제시한다. 자동 분류 알고리즘은 크게 다음과 같이 구성된다.

첫째, 대표 단어를 찾아 내기 위하여 TF*IDF 알고리즘을 이용한다. 둘째, 단어간의 연관 관계를 계산하기 위하여 본 선행 연구에서 제안한 연관성 계산 확률 모델을 이용한다. 셋째, 연관성이 가장 높은 두 단어를 중심으로 각각의 단어들에 밀접한 단어들을 하나의 집합으로 구성하고 프로파일을 생성한다. 넷째, 임계값보다 낮은 값이 나올 때까지 연관성이 다음으로 높은 두 단어를 중심으로 상기 세 번째의 과정을 반복한다.

본 선행 논문에서는 생성된 각각의 프로파일이 각각의 문서들에 어느 정도의 영향력을 가지는지 평가하고, 기존의 문서 분류 알고리즘과 비교하여 본 선행 논문에서 제시한 알고리즘의 타당성을 입증하고 있다.

따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 유전자 알고리즘을 이용하여 학습을 수행하는 유전자 학습 분류기에 분야별 카테고리를 학습시키고, 유전자 학습 분류기에 문서의 핵심어에 대한 단어 클러스터를 입력받아 문서를 분야별 카테고리로 분류하는 문서 자동 분류 시스템 및 그 방법과 사용자가 검색에 사용한 검색어를 사용자 프로파일에 저장하고 이것을 유전자 학습 분류기에 입력하여 사용자 관심 분야를 판단하는 시스템을 제공하기 위한 것이다.

도 1은 본 발명의 일 실시예에 따른 문서 자동 분류 시스템의 전체적인 구성도이고,

도 2a 및 도 2b는 본 발명의 일 실시예에 다른 단어 클러스터의 생성 및 변경 알고리즘을 나타낸 흐름도로서, 도 2a는 단어 클러스터의 생성 알고리즘을 나타낸 흐름도이고, 도 2b는 단어 클러스터의 변경 알고리즘을 나타낸 흐름도이다.

도 3은 본 발명의 일 실시예에 따라 유전자 알고리즘을 이용하여 카테고리를 학습하고 이를 이용하여 카테고리에 포함되지 않는 단어 클러스터를 카테고리 별로 분류하는 시스템을 나타낸 구성도이고,

도 4는 본 발명의 일 실시예에 따라 사용자 프로파일을 이용하여 사용자 관심 분야를 추출하는 시스템의 구성도이고,

도 5는 본 발명의 일 실시예에 따라 사용자가 찾을 검색어 대해 검색어와 관련된 카테고리 분야를 제공하는 시스템의 구성도이다.

※ 도면의 주요부분에 대한 부호의 설명 ※

101 : 단어 클러스터 생성기

102 : 유전자 학습 분류기

103 : 형태소 분석기

상기한 목적을 달성하기 위한 본 발명에 따르면, 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 형태소 분석기; 상기 형태소 분석기에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 단어 클러스터 생성기; 및 상기 단어 클러스터 생성기에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 관련 분야 카테고리를 추론하는 유전자 학습 분류기를 포함하고, 상기 유전자 학습 분류기는 유전자 알고리즘을 이용하여 분야별 카테고리를 학습하는 것을 특징으로 하는 문서 자동 분류 시스템이 제공된다.

또한, 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법에 있어서, 수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계; 상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및 상기 제 3 단계에서 생성된 단어 클러스터가 신규단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 단계; 를 포함하여 이루어진 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법이 제공된다.

또한, 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및 상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법이 제공된다.

또한, 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계; 상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및 상기 제 3 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는제 4 단계;를 포함하여 이루어진 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.

또한, 수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계; 상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및 상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;를 포함하고, 상기 제 3 단계는, 수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 서브 단계; 상기 제 1 서브 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 서브 단계; 상기 제 2 서브 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 서브 단계; 및 상기 제 3 서브 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 서브 단계;를 포함하여 이루어진 것을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.

이하, 첨부된 도면을 참조하면서 본 발명의 일 실시예에 따른 유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템 및 그방법을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 문서 자동 분류 시스템의 전체적인 구성도로서, 이를 상세히 설명하면 다음과 같다.

먼저, 웹문서 수집 부분인 웹 로봇(Web Robot)과 문서 전처리 단계인 형태소분석기(103)가 있으며, 단어 클러스터 생성기(101)와 분야별 카테고리를 학습하는 유전자 학습 분류기(102)가 있다.

상기 웹 로봇을 이용하여 인터넷에서 문서를 수집하며, 상기 웹 로봇이 문서를 수집할 때 웹문서를 연결하는 링크의 제목도 함께 수집한다. 한편, 상기 웹 로봇에 의하여 수집된 정보는 문서 또는 메타 데이터베이스 형태를 갖는다.

이어서, 수집된 문서와 링크 제목은 상기 형태소 분석기(103)에 전달되어 관련 용어들을 추출한다. 이때, 추출 과정에서 상기 형태소 분석기(103)는 미리 구축되어 있는 관련 분야 용어 사전 또는 명사 사전들을 참조할 수 있다.

추출된 용어는 상기 단어 클러스터 생성기(101)에 입력되어 문서별 핵심어를 추출하고, 또한, 단어 클러스터를 구성한다.

분야별 카테고리를 학습한 상기 유전자 학습 분류기(102)는 문서의 핵심어를 입력받아 핵심어에 대한 단어 클러스터를 클러스터 인덱스에서 추출하고, 추출된 단어 클러스터에 대해 상기 유전자 학습 분류기(102)가 추론한 관련 분야 카테고리를 출력한다.(104) 또한, 학습 시스템은 사용자 프로파일에 관심 단어를 입력받아 앞의 과정을 통해 사용자 관심 분야를 판단한다.(105)

특히, 본 시스템에서는 분야별 카테고리만을 학습하여 문서의 자동 분류를수행하므로 상기 유전자 학습 분류기(102)는 분야별 카테고리가 변화하지 않으면 재학습을 수행할 필요가 없어 즉시적인 서비스를 수행할 수 있는 장점을 가진다.

또한, 상기 형태소 분석기(103)는 명사 사전과 관련 분야 용어 사전을 이용하여 링크 제목과 문서에서 명사를 추출한다.

또한, 상기 단어 클러스터 생성기(101)에서는 문서의 총명사의 개수, 각각의 명사의 출현 횟수, 동일 단락에서 출현한 명사와 문서의 핵심어를 출력한다. 추출된 명사는 명사 리스트로 구성되며, 각 문서의 핵심어는 문서별 핵심어 리스트에 포함시킨다.

한편, 핵심어 추출에는 아래의 [수학식 1]을 사용한다.

핵심어 = (문서내 단어 출현 횟수)/(단어의 평균 출현 횟수) * 가중치

여기서 가중치는 링크 제목의 단어에 대한 가중치와 문서 내 단어에 대한 가중치로 구성되며, 링크 제목의 단어에 대한 가중치를 문서 내 단어에 대한 가중치 보다 높게 설정한다.

이때, 상기 [수학식 1]에서 구한 핵심어가 미리 지정한 임계값 α를 넘는 경우에 핵심어 리스트에 추가한다.

도 2a 및 도 2b는 본 발명의 일 실시예에 다른 단어 클러스터의 생성 및 변경 알고리즘으로서, 이를 상세히 설명하면 다음과 같다.

먼저, 스텝 S201에서, 문서에서 처음으로 나오는 단어 중 첫 번째 단어에 대한 단어 클러스터 생성이 시작되면, 스텝 S202에서, 형태소 분석이 수행되어 상기 형태소 분석기(103)가 가지고 있는 단어 리스트의 첫 번째 비교 단어가 선정되고, 스텝 S203에서, 이에 대한 집중도를 계산한다.

이어서, 스텝 S204에서, 가중치를 계산하고, 상기 스텝 S203 내지 스텝 S204에서 구한 집중도와 가중치를 곱함으로써, 단어 클러스터 계수를 계산한다. 이때, 단어 1과 단어 2간의 클러스터 계수의 계산식은 아래의 [수학식 2]와 같다.

가중치 = (단어 1의 출현 횟수 / 전체 단어의 출현 횟수) * (단어 2의 출현 횟수 / 전체 단어의 출현 횟수)

집중도 = sqrt(단어 1과 단어 2가 같은 문장에 출현한 횟수)

클러스터 계수 = 가중치 * 집중도

이어서, 스텝 S206에서, 상기 형태소 분석기(103)가 가지고 있는 단어 리스트의 끝인지 여부를 판단하여, 끝이 아니면, 스텝 S207에서, 다음 비교 단어에 대하여 동일한 과정을 수행하기 위하여, 상기 스텝 S203으로 복귀하고, 끝이면, 스텝 S208에서, 해당 단어의 클러스터를 생성한다.

그 후, 스텝 S209에서, 클러스터를 생성하고자 하는 문서의 단어가 마지막 단어인지 여부를 판단하여, 마지막 단어가 아니면, 스텝 S210에서, 다음 단어에 대하여 동일한 과정을 수행하기 위하여, 상기 스텝 S202로 복귀하고, 마지막 단어이면, 단어 클러스터 생성 알고리즘은 종료하고, 다음 과정인 단어 클러스터 변경 알고리즘으로 진입한다.

상기 단어 클러스터 변경 알고리즘은 도 2b에 도시되어 있는데, 이를 상세히 설명하면 다음과 같다.

먼저, 스텝 S211에서, 상기 단어 클러스터 생성 알고리즘에 의하여 생성된 클러스터가 신규 클러스터인지 여부를 판단하여, 신규 클러스터가 아니면, 스텝 S212에서, 기존 클러스터 계수를 갱신한다. 이때, 갱신하는 방법은 아래의 [수학식 3]에 의하여 계산한다.

갱신 클러스터 계수 = 〔기존의 관계도 * 변경 횟수 + 신규 계수〕 / (변경 횟수 + 1)

이어서, 스텝 S213에서, 상기 스텝 S212에서 계산한 갱신 클러스터 계수를 포함한 클러스터 인덱스를 갱신하고, 스텝 S215에서, 클러스터 변경을 종료시킬 것인지 여부를 판단하여, 종료시킬 것이면, 종료하고, 그러하지 아니하면, 상기 스텝 S211로 복귀한다.

또한, 상기 스텝 S211에서의 판단 결과, 신규 클러스터이면, 기존의 클러스터 계수를 갱신하는 과정을 밟지 않고, 바로 상기 스텝 S213으로 진행한다.

도 3은 본 발명의 일 실시예에 따라 유전자 알고리즘을 이용하여 카테고리를 학습하고 이를 이용하여 카테고리에 포함되지 않는 단어 클러스터를 카테고리 별로분류하는 시스템을 나타낸 구성도로서, 이를 상세히 설명하면 다음과 같다.

분류하려는 문서의 핵심어에 대해 단어 클러스터 인덱스에서 단어 클러스터를 생성한다. 생성된 단어 클러스터는 유전자 학습 분류기(이하 유전자 학습기로 칭함.)에 입력되고, 상기 유전자 학습기는 입력된 단어 클러스터에 대해 관련된 카테고리를 출력한다. 카테고리 분야별 문서 인덱스에는 출력된 카테고리 분야에 문서를 등록한다.

상기 유전자 학습기에는 유전자 알고리즘을 사용한다. 유전자 알고리즘에 사용될 초기 염색체는 카테고리의 계층 구조가 이진 트리 형식으로 표현되므로, 트리의 각 노드들(N)을 사용한다. 노드는 카테고리의 한 분야를 나타내며, 단어 클러스터와 카테고리의 각 노드의 유사도를 측정하기 위해 유전자의 진화를 수행한다. 유전자의 진화 여부는 적합도(Fitness) 값에 의해 결정된다. 적합도 값은 카테고리의 분야와 단어 클러스터의 유사도로서, 아래의 [수학식 4]와 같이 표현된다.

Fitness( CT?? ) = EF( N?? )

여기서, Fitness는 적합도 값이고, CT?? 는 N??에서 분류된 카테고리에 포함되는 단어이며, EF 함수는 카테고리 사이의 관계를 평가하는 함수이고, Ni는 유전자 알고리즘의 각 노드들이다.

다음 세대의 염색체는 임계치 이상의 유사도 값을 가지는 유전자 n/2와 다른카테고리 분야의 염색체 중 유사도 값이 임계치 이상인 유전자를 변이 연산하여 얻게 되는 n/2로 구성하여 균일 교배를 수행한다. 이 과정은 미리 정하여진 최대값 α회를 반복 수행한다. 세대 진화가 종결되면, 세대 별 유사도 값 중 우수한 세대, 즉, 카테고리 분야를 제시한다.

도 4는 본 발명의 일 실시예에 따라 사용자 프로파일을 이용하여 사용자 관심 분야를 추출하는 시스템의 구성도로서, 사용자 프로파일에 저장된 사용자 검색어 리스트에서 조회 날짜, 조회 횟수를 따라 최근에 가장 많이 사용한 검색어를 찾고, 찾은 검색어를 상기 유전자 학습 분류기(102)에 입력하여 사용자가 관심있다고 판단되는 카테고리 분야를 제공한다.

도 5는 본 발명의 일 실시예에 따라 사용자가 찾을 검색어 대해 검색어와 관련된 카테고리 분야를 제공하는 시스템의 구성도로서, 본 시스템은 검색어에 대해 단어 클러스터를 생성하고, 생성된 단어 클러스터를 유전자 학습기에 입력하여 검색어와 관련된 카테고리 분야를 출력한다.

이상, 위에서 상술한 본 발명의 특징을 요약하면 다음과 같다.

첫째, 유전자 알고리즘을 이용한 분야별 카테고리 학습과 단어 클러스터를 사용하여 문서를 자동 분류한다.

둘째, 형태소 분석기에서 문서의 특징을 추출한다.

셋째, 카테고리를 학습하여 학습 시스템의 재학습을 최소화시켰다.

넷째, 학습된 카테고리를 이용하여 사용자의 관심 분야를 판단한다.

다섯째, 학습된 카테고리를 이용하여 사용자가 찾을 검색어에 대한 카테고리별로 구분된 검색 정보를 제공한다.

위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술 사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호 범위는 첨부된 청구 범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

이상과 같이 본 발명은 데이터마이닝의 한 분야로서, 유전자 알고리즘을 이용하여 분야별 카테고리를 학습시키고, 단어 클러스터(Term Clustering)와 연계하여 문서를 자동 분류하고, 사용자 관심 분야를 판단하는 시스템이다.

따라서, 학습 시스템을 이용한 즉시적인 문서 자동 분류 서비스가 가능하며, 사용자는 웹 검색에서 찾고자 하는 정보를 카테고리별로 구별된 문서에 정확한 검색 결과를 얻을 수 있으며, 사용자가 관심을 가지고 있는 분야에 대한 정보를 시스템이 검색하여 제공하므로 정보 획득이 편리한 장점이 있다.

따라서, 기술적인 면에서 인공 지능을 이용한 문서 분류 시스템의 학습에 소비되는 많은 시간을 절약하여, 즉시적인 서비스를 수행할 수 있는 방법을 제시함으로써, 인터넷 정보 검색 시스템의 기반 기술 축적에 기여하는 효과가 있다.

Claims

수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 형태소 분석기;

상기 형태소 분석기에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 단어 클러스터 생성기; 및

상기 단어 클러스터 생성기에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 관련 분야 카테고리를 추론하는 유전자 학습 분류기를 포함하고,

상기 유전자 학습 분류기는 유전자 알고리즘을 이용하여 분야별 카테고리를 학습하는 것을 특징으로 하는 문서 자동 분류 시스템.
제 1 항에 있어서,

인터넷에서 문서를 수집하고, 수집된 문서에 연결된 링크의 제목도 함께 수집하는 웹 로봇(Web Robot)을 더 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 시스템.
제 1 항에 있어서,

상기 형태소 분석기는,

미리 구축된 명사 사전과 관련 분야 용어 사전을 이용하여 상기 웹 로봇이 수집한 문서 및 링크 제목에서 명사를 추출하는 것을 특징으로 하는 문서 자동 분류 시스템.
제 1 항에 있어서,

상기 단어 클러스터 생성기는,

입력된 문서의 총 명사수, 각각의 명사의 출현 횟수 및 동일 단락에서 출현한 명사와 문서의 핵심어를 추출하고, 이를 명사 리스트로 작성하며, 각각의 문서의 핵심어는 문서별 핵심어 리스트에 포함시키는 것을 특징으로 하는 문서 자동 분류 시스템.
제 4 항에 있어서,

각각의 문서의 단어는 문서내 단어 출현 횟수를 단어의 평균 출현 횟수와 나눈 후, 미리 지정된 가중치를 곱하고, 이 값이 미리 지정한 임계값보다 크면, 핵심어로 결정하는 것을 특징으로 하는 문서 자동 분류 시스템.
제 1 항에 있어서,

상기 유전자 학습 분류기는,

미리 구축된 사용자 프로파일(Profile)에 저장된 사용자 검색어 리스트에서 조회 날짜 및 조회 횟수를 따라 일정한 기간동안 가장 많이 사용된 검색어를 찾음으로써, 사용자의 관심 카테고리 분야를 제공하는 것을 특징으로 하는 문서 자동 분류 시스템.
제 1 항 또는 제 6 항에 있어서,

상기 유전자 학습 분류기는,

사용자가 입력한 검색어와 관련된 카테고리 분야를 출력하는 것을 특징으로 하는 문서 자동 분류 시스템.
유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법에 있어서,

수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계;

상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계;

상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및

상기 제 3 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 단계;

를 포함하여 이루어진 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.
제 8 항에 있어서,

상기 제 2 단계는,

아래의 [식 1]에 따라, 단어 클러스터 계수를 계산하는 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.

[식 1]

클러스터 계수 = 집중도 * 가중치

집중도 = sqrt(단어 1과 단어 2가 같은 문장에 출현한 횟수)

가중치 = (단어 1의 출현 횟수/전체 단어의 출현 횟수) * (단어 2의 출현 횟수/전체 단어의 출현 횟수)
제 8 항에 있어서,

상기 제 4 단계는,

아래의 [식 2]에 따라 기존 단어 클러스터 계수를 갱신하는 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.

[식 2]

갱신 클러스터 계수 = (기존의 관계도 * 변경 횟수 + 신규 계수) / (변경 횟수 + 1)
수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계;

상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및

상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;

를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
제 11 항에 있어서,

상기 제 1 단계는,

미리 구축된 명사 사전과 관련 분야 용어 사전을 이용하여 상기 제 1 단계에서 수집한 문서 및 링크 제목에서 명사를 추출하는 것을 특징으로 하는 문서 자동 분류 방법.
제 11 항에 있어서,

상기 제 2 단계는,

입력된 문서의 총 명사수, 각각의 명사의 출현 횟수 및 동일 단락에서 출현한 명사와 문서의 핵심어를 추출하고, 이를 명사 리스트로 작성하며, 각각의 문서의 핵심어는 문서별 핵심어 리스트에 포함시키는 것을 특징으로 하는 문서 자동 분류 방법.
제 13 항에 있어서,

각각의 문서의 단어는 문서내 단어 출현 횟수를 단어의 평균 출현 횟수와 나눈 후, 미리 지정된 가중치를 곱하고, 이 값이 미리 지정한 임계값보다 크면, 핵심어로 결정하는 것을 특징으로 하는 문서 자동 분류 방법.
제 11 항에 있어서,

상기 제 3 단계는,

미리 구축된 사용자 프로파일(Profile)에 저장된 사용자 검색어 리스트에서 조회 날짜 및 조회 횟수를 따라 일정한 기간동안 가장 많이 사용된 검색어를 찾음으로써, 사용자의 관심 카테고리 분야를 제공하는 서브 단계를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
제 11 항 또는 제 15 항에 있어서,

상기 제 3 단계는,

사용자가 입력한 검색어와 관련된 카테고리 분야를 출력하는 서브 단계를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
제 11 항에 있어서,

상기 제 2 단계는,

수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 서브 단계;

상기 제 1 서브 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를계산하는 제 2 서브 단계;

상기 제 2 서브 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 서브 단계; 및

상기 제 3 서브 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 서브 단계;

를 포함하여 이루어진 것을 특징으로 하는 문서 자동 분류 방법.
제 17 항에 있어서,

상기 제 2 서브 단계는,

아래의 [식 3]에 따라, 단어 클러스터 계수를 계산하는 것을 특징으로 하는 문서 자동 분류 방법.

[식 3]

클러스터 계수 = 집중도 * 가중치

집중도 = sqrt(단어 1과 단어 2가 같은 문장에 출현한 횟수)

가중치 = (단어 1의 출현 횟수/전체 단어의 출현 횟수) * (단어 2의 출현 횟수/전체 단어의 출현 횟수)
제 17 항에 있어서,

상기 제 4 서브 단계는,

아래의 [식 4]에 따라 기존 단어 클러스터 계수를 갱신하는 것을 특징으로 하는 단어 클러스터 생성 및 변경 방법.

[식 4]

갱신 클러스터 계수 = (기존의 관계도 * 변경 횟수 + 신규 계수) / (변경 횟수 + 1)
유전자 알고리즘을 이용한 카테고리 학습과 단어 클러스터에 의한 문서 자동 분류 시스템의 단어 클러스터 생성 및 변경 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서,

수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 단계;

상기 제 1 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 단계;

상기 제 2 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 단계; 및

상기 제 3 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 단계;

를 포함하여 이루어진 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.
수집된 문서와 링크 제목을 입력받아 관련 용어들을 추출하는 제 1 단계;

상기 제 1 단계에서 추출한 용어들을 입력받아 문서별 핵심어를 추출하여 문서별 핵심어 리스트를 생성하고, 단어 클러스터(Term Cluster)를 생성하는 제 2 단계; 및

상기 제 2 단계에서 생성한 문서별 핵심어 리스트 및 단어 클러스터를 입력받아 핵심어에 대한 단어 클러스터를 추출하고, 추출된 단어 클러스터에 대하여 유전자 알고리즘을 이용하여 관련 분야 카테고리를 추론하는 제 3 단계;를 포함하고,

상기 제 3 단계는,

수집된 문서의 단어와 미리 구축된 비교 단어 리스트에 포함되어 있는 단어를 추출하는 제 1 서브 단계;

상기 제 1 서브 단계에서 추출한 결과값을 이용하여 단어 클러스터 계수를 계산하는 제 2 서브 단계;

상기 제 2 서브 단계에서 계산한 단어 클러스터 계수를 이용하여 단어 클러스터를 생성하는 제 3 서브 단계; 및

상기 제 3 서브 단계에서 생성된 단어 클러스터가 신규 단어 클러스터이면, 이에 따라 단어 클러스터 인덱스를 추가하고, 신규 단어 클러스터가 아니면, 기존 단어 클러스터 계수를 갱신한 후, 단어 클러스터 인덱스에 추가하는 제 4 서브 단계;를 포함하여 이루어진 것을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.