KR20090108530A

KR20090108530A - 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법

Info

Publication number: KR20090108530A
Application number: KR1020090023569A
Authority: KR
Inventors: 오효정; 이창기; 이충희; 임수종; 김현기; 허정; 윤여찬; 최미란; 장명길
Original assignee: 한국전자통신연구원
Priority date: 2008-04-11
Filing date: 2009-03-19
Publication date: 2009-10-15
Also published as: KR101112989B1

Abstract

본 발명은 지능형 정보 서비스를 위한 계층적 문서 분류 기술에 관한 것으로, 대상문서를 정제하고 언어분석을 수행하여, 대상 문서의 주제를 계층적 분류 체계로 할당하고, 주제 의미 단위로 문서를 분할, 재구성한 후, 문서 내용을 대표할 수 있는 키워드를 선정하는 것을 특징으로 한다. 본 발명에 따르면, 대상 문서의 주제를 계층적 분류 체계에 의해 정확히 분류 할 수 있으며, 주제 의미 단위로 문서를 분할하여 재구성함으로써 대량의 문서 집합을 체계화 시켜 관리할 수 있으며, 더불어 문서 내용을 대표할 수 있는 키워드를 선정하여 관리함으로써 향후 새로운 분류 체계를 정의하거나 검색 성능 향상의 자질로 활용되어 지능화된 정보서비스를 제공할 수 있다. 또한 상향적(bottom-up) 방식과 자동 클러스터링(clustering) 방법을 병합한 계층 분류 기법을 통해 보다 정확하고 확장이 용이한 분류기 생성을 가능하게 할 수 있다.

문서 분류, 계층적 분류, 문서 분할, 문서 의미 분석

Description

지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법{APPARATUS AND METHOD OF HIERARCHICAL DOCUMENT TAXONOMY FOR INTELLIGENT INFORMATION SERVICE}

본 발명은 지능형 정보 서비스를 위한 계층적 분류를 수행하는 기술에 관한 것으로서, 특히 다양한 문체와 형식으로 기술되어 있는 문서의 주제를 계층적 분류 체계(hierarchical taxonomy)에 의해 분류하고, 주제 의미 단위로 분할(segmentation) 및 재구성함으로써, 대량의 문서 집합을 체계화 시켜 관리할 수 있고, 문서 내용을 대표할 수 있는 키워드를 선정하여 관리함으로써 향후 새로운 분류 체계를 정의하거나 검색 성능 향상의 자질로 활용되어 지능화된 정보서비스를 제공할 수 있으며, 상향적 방식과 자동 클러스터링 방법을 병합한 계층적 분류 기법을 통해 정확하고 확장이 용이한 분류기를 생성하는데 적합한 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법에 관한 것이다.

본 발명은 지식 경제부 및 정보통신연구진흥원의 IT 성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호:2008-S-020-01, 과제명: 웹 QA 기술개발].

최근 들어 지능형 정보 서비스를 위해 문서를 체계적으로 분류하기 위한 많 은 연구가 수행되고 있다.

한 예로서, 웹 콘텐츠의 계층적 분류(Hierarchical Classification of Web Content)방식은 다양한 종류와 대규모의 웹 콘텐츠에 대해서 주제 분류를 수행할 때에, 주제의 계층(hierarchy) 구조를 이용하고 있다. 주제의 계층은 두 레벨로 분리되며, 상위 레벨의 분류기는 전체 학습데이터를 사용하며, 하위 레벨의 주제 분류기는 상위 레벨에서 결정된 주제에 관한 학습문서를 대상으로 학습을 하게 된다. 계층이 없는 주제 분류에서는 하위 레벨 분류기가 전체 학습데이터를 대상으로 학습하게 된다는 점이 다르다.

이러한 방식에서는 상위 레벨과 하위 레벨의 분류기를 이용한 두 가지의 점수 부여 함수(scoring function)를 정의하고 있다 (Boolean decision rule, multiplicative decision rule). 이 중에서 Boolean decision rule의 성능이 더 좋게 나오고 있다. 각 주제 분류기의 기계학습 모델로는SVM(Support Vector Machine)을 이용하고 있다. 이와 같이 주제의 계층이 상,하위 레벨로 분류된 주제 분류 방식은 하향적(top-down) 방식이라 할 수 있는데, 이는 위 레벨 분류기의 분류 결과가 다음 레벨의 분류기에 영향을 끼치도록 설계가 되어 있기 때문이다.

다른 예로서, SVM과 베이스가 결합된 계층적 분류(Hierarchical Classification: Combining Bayes with SVM) 방식은 기존의 하향적(top-down) 방식의 계층 주제 분류 방식과 다르게, 상향적(bottom-up) 방식의 계층 주제 분류 방식을 사용하고 있다. 하향적(Top-down) 방식의 계층 주제 분류 방식이 상위 레벨의 분류기 결과가 하위 레벨의 분류기에 영향을 미치는 반면, 상향적(bottom-up) 방식 의 주제 분류는 하위 레벨의 분류기 결과가 상위 레벨의 분류기 결과에 영향을 미치게 된다. 즉 하위 레벨의 분류기 결과들의 정보와 현재 레벨의 분류기 정보를 합하여 현재 레벨의 분류기 결과를 업데이트 하게 된다. 실험 결과, 기존의 하향적(top-down) 방식의 계층 분류보다 상향적(bottom-up) 방식의 계층분류가 성능이 더 좋게 나오고 있다.

또 다른 예로서, 계층적 멀티레이블 분류 모델의 커널 기반 학습(Kernel-Based Learning of Hierarchical Multilabel Classification Models) 방식은 계층적 분류를 위해 커널(kernel)기반의 최대 마진 마르코프 망(Maximum Margin Markov Network) 모델을 사용하고 있다. 계층 정보를 이러한 모델에 반영하기 위해서 계층적 주제(classification hierarchy)를 마르코프 트리(markov tree)로 표현하여 커널에서 사용한다. 기존의 하향적(top-down) 및 상향적(bottom-up) 방식의 계층적 주제 분류와 비교했을 때, 계층적 주제 정보를 커널에서 이용한다는 점이 다르다. 실험 결과, 비계층 분류 및 하향적(top-down) 방식의 계층적 분류 보다 성능이 좋게 나오고 있으나, 상향적(bottom-up) 방식과의 성능 비교는 나와있지 않다.

또 다른 예로서, 자동 분류 생성 방법은 문서의 계층적 분류(hierarchical taxonomy)를 자동으로 생성하기 위한 것으로서, 문서의 계층적 분류를 자동으로 생성하는 방법은 다음과 같다. 문서의 계층적 분류에 있어서, 정보의 카테고리는 서치(search)와 관련된 정보를 포함하는 바이너리 트리(binary tree)의 노드를 갖는 바이너리 트리로서 구성될 수 있으며, 바이너리 트리는 문서의 트레이닝 세트(training set)를 시험하고 이러한 문서들을 2개의 자식 노드(child nodes)로 분 리함으로써 트레이닝 되거나 형성될 수 있다. 문서의 이러한 세트들 각각은 2개의 노드로 더 분할되어 바이너리 트리 데이터 구조를 생성할 수 있으며, 노드는 모든 트레이닝 문서가 2개의 자식 노드 중 어느 하나 또는 양쪽에 있을 가능성(likelihood)을 최대화하기 위하여 생성될 수 있다.

또 다른 예로서, 지능형 문서 관리 방법은 운영자가 정의한 카테고리들간 계층 구조에 의거하여, 외부로부터 유입되는 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써, 적은 수의 인력으로 대용량 문서 집합을 효율적으로 관리하도록 하는 것이다. 이는 정의된 계층 분류 트리를 이용하여 임의의 문서들을 계층 분류 트리에 자동으로 분류하고, 계층 분류 트리를 재구성하여야 하는 경우, 계층 분류 트리의 영역 중 재구성해야 하는 영역에 포함된 문서들을 운영자의 의도에 의해 클러스터링하고, 그 결과 생성된 클러스터들을 새로운 카테고리로 정의하고, 그 카테고리들을 노드로 하는 부분 계층 트리를 형성하고 있다.

또 다른 예로서, 계층적 및 개념적 클러스터링에 의한 정보검색 방법은 계층적(hierarchical) 개념화(conceptual) 클러스터링 기법에 의한 정보검색 시스템에 관한 것으로, 인터넷에 연결된 서비스 이용자의 컴퓨터 단말기를 통해 검색 요청을 수신 받아 검색 요청 정보를 클러스터링 하고, 클러스터 정보에 의해서 인터넷상의 다수 웹 페이지를 유사 문서별 카테고리 별로 검색하고, 그룹화된 검색 정보에 대해서 중복된 문서를 제거하고 순차적으로 정렬하고, 정렬된 해당 카테고리에 적절한 주석명을 생성시켜 부여하고 있다.

상기한 바와 같이 동작하는 종래 기술에 의한 계층 분류 방식에 있어서는, 이진 트리(binary tree)로 표현하고 있거나, 혹은 문서 전체만을 분석하는 방법을 사용하기 때문에, 계층 분류 체계가 이진 형식으로 표현 되어 일반적인 사용자에게 생소하다는 단점이 있고, 또한 문서 전체를 대상으로 분석을 수행하기 때문에 한 문서에 여러 의미들이 섞여있는 경우 분석에 오류가 생성되기 쉬운 약점이 있었다. 계층적 분류 관련 기술 역시 하향적(top-down) 혹은 상향적(bottom-up) 방식 중 하나만을 택하여 분류하기 때문에 분류 성능이 낮고, 확장이 용이하지 않다는 단점이 있다. 또한 클러스터링 기법을 활용하여 계층 구조의 재구성이 용이하게 하는 방법도 시도 되었으나, 자동 분류 과정에서는 적용되지 않는다는 문제점이 있었다.

이에 본 발명은, 기존 시스템이 문서 전체를 대상으로 주제를 분류하거나 이진 트리 구조 등 단순 분류 체계를 기반으로 하고, 계층 구조를 재구성하는 과정에만 자동 클러스터링 기법을 활용한 것과는 달리, 다양한 문체와 오류가 포함되어 있는 문서를 정제하고 고차원 언어분석을 수행하여 문서의 주제를 계층적 분류 체계에 의해 분류하고, 이를 의미적 주제단위로 분할하여 재구성하고, 문서 내용을 대표할 수 있는 키워드를 선정하는 방법과 자동 분류 과정에서 계층 구조를 재구성하고 이를 반영하여 재 분류를 수행함으로써 정확한 분류 결과를 제시할 수 있는 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법을 제공한다.

또한 본 발명은, 다양한 문체와 형식으로 기술되어 있는 문서의 주제를 계층적 분류 체계에 의해 분류하고, 주제 의미 단위로 분할 및 재구성함으로써, 대량 의 문서 집합을 체계화 시켜 관리할 수 있고, 문서 내용을 대표할 수 있는 키워드를 선정하여 관리함으로써 향후 새로운 분류 체계를 정의하거나 검색 성능 향상의 자질로 활용되어 지능화된 정보서비스를 제공할 수 있으며, 상향적 방식과 자동 클러스터링 방법을 병합한 계층 분류 기법을 통해 정확하고 확장이 용이한 분류기를 생성할 수 있는 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법을 제공한다.

본 발명의 일 실시예 장치는, 대상 문서를 언어 분석이 가능한 형태로 정제 및 보정하는 문서 전처리부와, 상기 정제 및 보정된 대상 문서에 대한 단어별, 구문별 언어 분석을 수행하는 언어분석부와, 상기 언어분석된 대상 문서의 주제를 계층적 분류 체계로 할당하는 문서 분류부와, 상기 할당된 계층적 분류 체계 상에서 주제 의미 단위로 문서를 분할 및 재구성하는 문서 분할부와, 상기 분할 및 재구성된 문서의 내용을 대표할 수 있는 키워드를 선정하는 대표어 선정부를 포함한다.

본 발명의 일 실시예 방법은, 대상 문서를 정제하고 언어분석을 수행하는 과정과, 상기 언어분석된 대상 문서의 주제를 계층적 분류 체계로 할당하는 과정과, 상기 할당된 계층적 분류 체계 상에서 주제 의미 단위로 문서를 분할 및 재구성하는 과정과, 상기 분할 및 재구성된 문서의 내용을 대표할 수 있는 키워드를 선정하는 과정을 포함한다.

본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.

본 발명은, 종래에서 계층 분류 체계를 이진 트리(binary tree)로 표현하고 있거나, 혹은 문서 전체만을 분석하는 방법을 사용하기 때문에, 계층 분류 체계가 이진 형식으로 표현되어 일반적인 사용자에게 생소하다는 단점이 있고, 또한 문서 전체를 대상으로 분석 하기 때문에 한 문서에 여러 의미들이 섞여있는 경우에는 분석에 오류가 생성되기 쉽다는 단점과, 계층적 분류 관련 기술 역시 하향적(top-down) 혹은 상향적(bottom-up) 방식 중 하나만을 택하여 분류하기 때문에 분류 성능이 낮고, 확장이 용이하지 않다는 단점을 보완하여, 다양한 문체와 형식으로 기술되어 있는 문서의 주제를 계층적 분류 체계에 의해 분류하고, 주제 의미 단위로 분할 및 재구성함으로써, 대량의 문서 집합을 체계화 시켜 관리할 수 있고, 문서 내용을 대표할 수 있는 키워드를 선정하여 관리함으로써 향후 새로운 분류 체계를 정의하거나 검색 성능 향상의 자질로 활용되어 지능화된 정보서비스를 제공할 수 있으며, 상향적 방식과 자동 클러스터링 방법을 병합한 계층 분류 기법을 통해 정확하고 확장이 용이한 분류기를 생성할 수 있는 효과가 있다.

이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명은 기존 시스템이 문서 전체를 대상으로 주제를 분류하거나 이진 트리 구조 등 단순 분류 체계를 기반으로 하고, 계층 구조를 재구성하는 과정에만 자동 클러스터링 기법을 활용한 것과는 달리, 다양한 문체와 오류가 포함되어 있는 문서를 정제하고 고차원 언어분석을 수행하여 문서의 주제를 계층적 분류 체계에 의해 분류하고, 이를 의미적 주제단위로 분할하여 재구성하며, 문서의 내용을 대표할 수 있는 키워드를 선정하는 방법과 자동 분류 과정에서 계층 구조를 재구성하고 이를 반영하여 재분류를 수행함으로써 정확한 분류 결과를 제시하는 것이다.

하기 실시예를 통하여 지능형 정보 서비스를 위한 계층적 분류 기법에 대해 상세히 설명하도록 한다.

도 1은 본 발명의 실시예에 따른 계층적 분류 기법을 활용한 문서 의미 분석 시스템의 구조를 도시한 블록도이다.

도 1을 참조하면, 계층적 문서 분류를 통해 대상문서에 대한 대표어를 선정하는 문서 의미 분석 시스템(100)은 문서 전처리부(110), 언어분석부(120), 문서 분류부(130), 문서 분할부(140), 대표어 선정부(150) 등을 포함한다.

구체적으로 문서 전처리부(110)에서는 신문기사와 불로그 등과 같은 미디어 매체에 다양한 문체와 오류가 포함되어 있는 대상 문서인 미디어 데이터(102)를 입력받아 이를 정제하고 보정한 후, 언어 분석이 가능한 형태로의 전처리 또는 변환을 수행한다. 이에 전처리된 미디어 데이터는 언어분석부(120)로 전달된다.

여기서, 미디어 데이터(102)에 대한 정제 및 보정 방식은, 주로 맞춤법 오류, 통신 용어 등과 같은 문법 오류에 대한 정제와, 웹 문서내의 태그(tag)를 보정하는 경우로서, 예를 들면 다음과 같다.

예1) "짱깨머꼬 집에왔다" → "자장면 먹고 집에 왔다"

2)"_script> 관객과 영화 감독간의 소통이 중요하다. <?ㅌ?>"

→ 관객과 영화 감독간의 소통이 중요하다.

언어 분석부(120)는, 예컨대 형태소 분석 모듈(122), 개체명 인식 모듈(124), 청킹 및 구문 분석 모듈(126) 등을 포함하는 것으로서, 형태소 분석 모듈(122)에서 전처리된 미디어 데이터에 대한 형태소 분석을 수행하고, 개체명 인식 모듈(124)을 통해 개체명을 인식한 후, 청킹(chunking) 및 구문 분석 모듈(126)을 통해 미디어 문장 별 청킹과 구문에 대한 분석을 수행하게 된다.

이와 같이 언어 분석부(120)의 각 모듈들(122, 124, 126)을 토대로 언어 분석을 수행하고, 필요에 따라 언어자원 DB(128)를 참조하여 고정밀 언어분석을 수행한다.

문서 분류부(130)는, 예컨대 자질 추출 모듈(132), 상향식 계층 분류 모듈(134), 클러스터링 모듈(136) 등을 포함하는 것으로서, 자질 추출 모듈(132)에서 언어 분석부(120)의 언어분석 결과를 바탕으로 다양한 분류 자질(feature)을 추출 하고, 상향식 계층 분류 모듈(134)에서는 상향식 계층 분류 알고리즘을 활용해서 계층적 분류 체계(138)와 연동하여 대상 문서의 주제를 계층적 분류 체계(138)에 할당한다.

이와 같이 계층적 분류 체계(138)는 코드 형식 혹은 데이터 형식으로 존재하는 것으로서, 계층적 주제 분류를 수행하는 어플리케이션에 약속된 형식(format)으로 정의된다. 이에 대한 예로서, 도 3에 도시된 계층적 분류 체계(138)와 같은 형식이 될 수 있다.

게임>e스포츠

게임>게임기종

e스포츠>PC

e스포츠>콘솔

게임기종>모바일

게임기종>콘솔...

또한, 상향식 계층 분류 알고리즘은 상향식 계층 분류 방식으로서, 말단 범주(leaf node)에 주제 할당을 시도하여, 상위 주제로 분류를 확장시키는 방식이다. 예를 들어, 도 3의 주제 단위 문서 조각 P3와 같이 '리니지'라고 분류된 경우, 그 문서는 다시 'RPG' 범주에 해당하고, 이후 'PC' 분류에 해당할지 '콘솔' 분야에 해당할지를 결정하여, 최종적으로 '게임' 분류 노드까지의 범주체계 경로(path)를 결정할 수 있도록 한다.

한편, 문서 분류부(130)에서의 판단결과, 계층간의 변별력이 낮거나 특정 분류 노드에 다량의 문서가 할당된 경우에는, 클러스터링 모듈(136)에서 각 문서의 문장을 번역단위인 클러스터로 나누는 자동 클러스터링을 통해 새로운 범주를 정의하여 계층 분류 체계에 추가하고, 그 정보를 다시 상향식 계층 분류 모듈(134)에 반영하여 재할당하는 과정을 반복함으로써, 최적의 범주를 선택한다. 이에 대해서는 도 3을 통해 상세히 설명하도록 한다.

문서 분할부(140)는, 예컨대 주제 기반 문서 분할 모듈(142), 주제 의미 단위 문서 재구성 모듈(144) 등을 포함하는 것으로서, 주제 기반 문서 분할 모듈(142)에서는 대상 문서에 나타난 주제 의미 단위에 따라 문서를 분할하고, 주제 의미 단위 문서 재구성 모듈(144)에서는 의미적 주제단위로 문서를 재구성하여 주제별 문서 조각(146)을 계층적 주제 분류 체계의 하위 인스턴스(instance)로 저장하여 관리한다.

최종적으로, 대표어 선정부(150)는, 예컨대 키워드 추출 모듈(152), 연관 키워드 확장 모듈(154) 등을 포함하는 것으로서, 키워드 추출 모듈(152)은 대상 문서 내에서 각 주제별로 대표할 수 있는 키워드를 선정하여 추출하고, 연관 키워드 확장 모듈(154)에서는 의미를 확장하여 추출된 키워드와 연관된 다른 키워드를 포함하는 주제별 문서 대표어(156)를 선정하여 출력하게 된다.

이와 같이 문서 의미 분석 시스템(100)은 효율적인 지능형 정보 서비스를 위해 대량의 문서 집합을 계층적 분류 체계(138)하에 주제별 의미 단위로 분할된 주제별 문서 조각(146)과 해당 문서의 주제별 문서 대표어(156)를 통합하여 체계적으로 관리하고 활용하게 된다.

도 2는 본 발명의 실시예에 따른 계층적 분류 기법을 활용한 문서 의미 분석 시스템의 동작 절차를 도시한 흐름도이다.

도 2를 참조하면, 200단계에서 계층적 분류 기법을 활용한 문서 의미 분석 시스템(100)의 문서 전처리부(110)에서는 입력된 미디어 데이터(102)를 정제하고 보정한 후, 언어분석부(120)에서 정제된 미디어 데이터에 대한 형태소 분석, 개체명 인식, 청킹 및 구문 분석을 수행하게 된다.

202단계에서 문서 분류부(130)는 언어 분석부(120)의 언어분석 결과를 바탕으로 자질을 추출하고, 상향식 계층 분류 알고리즘을 활용하여 계층적 분류 체계(138)에 할당한다.

이에 문서 분할부(140)에서는 204단계에서 대상문서, 즉 미디어 데이터에 나타난 주제의미 단위에 따라 문서를 분할 및 재구성하고, 206단계에서 대표어 선정부(150)는 분할 및 재구성된 문서의 내용을 대표할 수 있는 키워드를 선정하여 이를 출력하게 된다.

도 3은 본 발명의 실시예에 따른 계층적 분류 기법을 활용한 지능형 정보 관리 방식을 도시한 도면이다.

도 3을 참조하면, 미디어 데이터(102)로서 대상 문서는 게임 분야의 최근 소식을 다룬 신문기사의 예를 나타낸 것으로, 다양한 주제가 섞여서 기술되어 있다.

이러한 대상 문서를 문서 의미 분석 시스템(100)에 입력하면, 문서 의미 분석 시스템(100) 내의 문서 전처리부(110), 언어 분석부(120) 및 문서 분류부(130) 를 통하여 문서의 주제를 계층적 분류 체계(138)에 의해 분류하고, 문서 분할부(140)를 통하여 주제에 의해 대상 문서의 원문을 분할하여, 최종 4개(P1~P4)의 주제 단위 문서 조각으로 분할하였다.

이에 각각의 주제 단위 문서 조각은 "스타크래프트"라는 게임에 대한 내용과 "리니지"라는 게임에 대한 내용으로 구별되었으며, 주제별 의미 단위로 재구성하는 과정을 통해 문서 조각 P1, P2, P4가 "스타크래프트" 주제 문서(subD1)(302)로 구성되고, 마찬가지로 문서 조각 P3는 "리니지" 주제 문서(subD2)(304)로 분석되어 계층적 분류 체계(138)에 각각 할당된다.

이후 대표어 선정부(150)를 통해 각 문서 조각에서 추출된 대표어들 역시 주제별로 관리됨으로써, 향후에 신규 계층 분류 체계를 정의하거나 연관 키워드를 확장하여 검색 성능을 향상하는 후보 자질로 활용될 수 있다.

도 4는 본 발명의 실시예에 따른 상향적 방식과 자동 클러스터링 방식을 병합한 계층적 분류 기법을 도시한 도면이다.

도 4를 참조하면, (a) 단계에서 대상 문서의 주체를 계층적 분류 체계로 할당하고, (b) 단계에서는 상향식 계층 분류 알고리즘을 토대로 초기 상향적 방식의 계층 분류를 수행한 결과, 대상문서는 6,8,9번 노드에 할당하게 되며, 이에 (c) 단계에서는 8,9번 분류 정보를 통합해 부모(parent) 노드인 5번 노드의 분류 정보를 갱신한다.

(d) 단계에서 분류 후보 노드가 트리(tree) 구조를 이루고, 노드 간 (예컨 대, 5,8,9,10번) 변별력이 낮은 경우와, 해당 노드로 분류되는 인스턴스가 임계치보다 많게 할당되는 경우, 트리 내의 문서를 클러스터링한다. (e) 클러스터링 결과를 통해 새로운 노드 new1(400)과 new2(402)를 생성하게 되고, 계층분류 체계가 (a)에서 (e)로 변경된다. 이후 (f) 단계에서의 최종 분류 결과, 대상문서는 new1(400)을 주제로 분석된다.

이상 설명한 바와 같이, 본 발명은 기존 시스템이 문서 전체를 대상으로 주제를 분류하거나 이진 트리 구조 등 단순 분류 체계를 기반으로 하고, 계층 구조를 재구성하는 과정에만 자동 클러스터링 기법을 활용한 것과는 달리, 다양한 문체와 오류가 포함되어 있는 문서를 정제하고 고차원 언어분석을 수행하여 문서의 주제를 계층적 분류 체계에 의해 분류하고, 이를 의미적 주제단위로 분할하여 재구성하고, 문서 내용을 대표할 수 있는 키워드를 선정하는 방법과 자동 분류 과정에서 계층 구조를 재구성하고 이를 반영하여 재분류를 수행하여 정확한 분류 결과를 제시한다.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1 은 본 발명의 실시예에 따른 계층적 분류 기법을 활용한 문서 의미 분석 시스템의 구조를 도시한 블록도,

도 2는 본 발명의 실시예에 따른 문서 의미 분석 시스템의 동작 절차를 도시한 흐름도,

도 3은 본 발명의 실시예에 따른 계층적 분류 기법을 활용한 지능형 정보 관리 방식을 도시한 도면,

도 4는 본 발명의 실시예에 따른 상향적 방식과 자동 클러스터링 방식을 병합한 계층적 분류 방식을 도시한 도면.

<　도면의 주요 부분에 대한 부호 설명 >

100 : 계층적 문서 분류 시스템 110 : 문서 전처리부

120 : 언어 분석부 130 : 문서 분류부

140 : 문서 분할부 150 : 대표어 선정부

Claims

대상 문서를 언어 분석이 가능한 형태로 정제 및 보정하는 문서 전처리부와,

상기 정제 및 보정된 대상 문서에 대한 단어별, 구문별 언어 분석을 수행하는 언어 분석부와,

상기 언어분석된 대상 문서의 주제를 계층적 분류 체계로 할당하는 문서 분류부와,

상기 할당된 계층적 분류 체계 상에서 주제 의미 단위로 문서를 분할 및 재구성하는 문서 분할부와,

상기 분할 및 재구성된 문서의 내용을 대표할 수 있는 키워드를 선정하는 대표어 선정부

를 포함하는 지능형 정보 서비스를 위한 계층적 문서 분류 장치.
제1항에 있어서,

상기 언어 분석부는,

상기 정제 및 보정된 대상 문서에 대한 형태소 분석과, 개체명 인식, 청킹 및 구문 분석을 수행하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 장치.
제1항에 있어서,

상기 문서 분류부는,

상기 언어분석의 결과를 바탕으로 분류 자질을 추출하고,

상기 계층적 분류 체계에 상향식 계층 분류 알고리즘을 활용하여 대상 문서의 주제를 할당하고,

특정 계층간의 변별력이 낮거나 특정 분류 노드에 다량의 문서가 할당된 경우, 클러스터링을 수행하고,

상기 클러스터링 이후 새로운 범주의 정의가 필요한 경우, 이를 상기 계층적 분류 체계에 추가하고, 해당 정보를 다시 상기 상향식 계층 분류 알고리즘을 이용하여 재할당하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 장치.
제1항에 있어서,

상기 문서 분할부는,

상기 대상문서에 나타난 주제 의미 단위에 따라 문서를 분할하고, 주제별로 재구성하여 형성된 문서 조각을 상기 계층적 분류 체계의 하위 인스턴스로 저장하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 장치.
제 1항에 있어서,

상기 대표어 선정부는,

의미 확장을 통하여 연관된 키워드를 포함하는 주제별 최종 대표어를 상기 키워드로 선정하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 장치.
대상 문서를 정제하고 언어분석을 수행하는 과정과,

상기 언어분석된 대상 문서의 주제를 계층적 분류 체계로 할당하는 과정과,

상기 할당된 계층적 분류 체계 상에서 주제 의미 단위로 문서를 분할 및 재구성하는 과정과,

상기 분할 및 재구성된 문서의 내용을 대표할 수 있는 키워드를 선정하는 과정

을 포함하는 지능형 정보 서비스를 위한 계층적 문서 분류 방법.
제 6항에 있어서,

상기 언어 분석을 수행하는 과정은,

다양한 문체와 오류가 포함되어 있는 상기 대상 문서를 입력 받아 정제하고 보정하는 과정과,

상기 정제하고 보정된 대상 문서에 대한 형태소 분석과, 개체명 인식, 청킹 및 구문 분석을 수행하는 과정

을 포함하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 방법.
제 6항에 있어서,

상기 계층적 분류 체계로 할당하는 과정은,

상기 언어분석의 결과를 바탕으로 분류 자질을 추출하는 과정과,

상기 계층적 분류 체계에 상향식 계층 분류 알고리즘을 활용하여 대상 문서의 주제를 할당하는 과정과,

특정 계층간의 변별력이 낮거나 특정 분류 노드에 다량의 문서가 할당된 경우, 클러스터링을 수행하는 과정과,

상기 클러스터링 이후 새로운 범주의 정의가 필요한 경우, 이를 상기 계층적 분류 체계에 추가하고, 해당 정보를 다시 상기 상향식 계층 분류 알고리즘을 이용하여 재할당하는 과정

을 포함하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 방법.
제 6항에 있어서,

상기 문서를 분할 및 재구성하는 과정은,

상기 대상문서에 나타난 주제 의미 단위에 따라 문서를 분할하고, 주제별로 재구성하여 형성된 문서 조각을 상기 계층적 분류 체계의 하위 인스턴스로 저장하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 방법.
제 6항에 있어서,

상기 키워드를 선정하는 과정은,

의미 확장을 통하여 연관된 키워드를 포함하는 주제별 최종 대표어를 상기 키워드로 선정하는 것을 특징으로 하는 지능형 정보 서비스를 위한 계층적 문서 분류 방법.