KR20010064269A

KR20010064269A - 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법

Info

Publication number: KR20010064269A
Application number: KR1019990062419A
Authority: KR
Inventors: 문병주; 정현수; 홍기채; 송종철; 이성용; 손소현
Original assignee: 오길록; 한국전자통신연구원
Priority date: 1999-12-27
Filing date: 1999-12-27
Publication date: 2001-07-09
Also published as: KR100341396B1

Abstract

본 발명은 기존의 유사도를 기반으로 한 클러스터링(Clustering) 기법에 계층 단어(Hierarchy Terms) 개념을 접목하여 단어나 문서의 수평적 연계뿐만 아니라 수직적 연계, 즉 디렉토리 기반의 단어 및 문서 분류까지 가능하도록 하는 3차원 클러스터링 생성 시스템 및 그 방법을 제공하는데 그 목적이 있다.

본 발명에 따르면, HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 단어 추출기; 입력된 문서의 단어들 중 상기 단어 추출기에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 클러스터 생성기; 및 이용자의 질의어가 입력되면, 상기 클러스터 생성기에 의하여 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 단어 추출기에서 생성한 색인 파일을 이용하여 문서값을 출력하는 3-D 클러스터 처리기를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템이 제공된다.

Description

계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그 방법 {3-D clustering representation system and method using hierarchical terms}

본 발명은 3차원 클러스터링 생성 시스템 및 그 방법에 관한 것이며, 특히, 기존의 유사도를 기반으로 한 클러스터링 기법에 계층 단어(Hierarchy Terms) 개념을 접목하여 단어나 문서의 수평적 연계뿐만 아니라 수직적 연계, 즉 디렉토리 기반의 단어 및 문서 분류까지 가능하도록 하는 3차원 클러스터링 생성 시스템 및 그 방법에 관한 것이다.

종래 3차원 클러스터링 표현 방법으로는 클러스터를 생성한 후, 클러스터 중심어(Centroid)가 이용자 질의에 가장 잘 매칭되는 문서를 검색 결과로 보여주게 되는 계층적 클러스터링(Hierarchical Clustering)방식이 있다. 이 방식은 이용자 질의를 탑 다운(Top-down)이나 바틈(Bottom-up) 방식으로 각 클러스터에 비교하여 결과값을 출력한다. 예를 들어, Croft와 같이, 검색 엔진 및 랭킹 기법을 이용하여 질의와 가장 근접한 문서를 출력하게 된다.

클러스터링은 정보 검색에서 유사한 객체, 즉 문서(Documents)나 단어(Terms)를 그루핑(Grouping)하는데 이용되는 알고리즘이다. 클러스터링 알고리즘은 크게 3가지 유형으로 나누어진다.

첫째는 특성(단어 및 기능)과 클래스(클러스터)간 관계에 대한 알고리즘으로서, 모노테틱(Monothetic) 알고리즘과 폴리테틱(Polythetic) 알고리즘으로 분류된다.

두번째는 객체와 클래스간의 관계를 정의하는 알고리즘이며, 익스클루시브(Exclusive) 알고리즘과 오버래핑(Overlapping) 알고리즘으로 분류된다.

마지막으로 클래스와 클래스간 관계를 정의하는 알고리즘이 있으며, 오더(Ordered, Hierarchic) 알고리즘과 언오더(Unordered, 혹은 Simple Partition) 알고리즘으로 나누어진다.

클러스터링 기법으로는 문서를 구성하는 색인어들을 이용하는 문서 클러스터링과 인접 단어의 특성을 이용하는 단어 클러스터링이 있다. 상기 두 방식은 우선 클러스터링 단위(단어, 문서)가 다르므로, 클러스터링에 이용되는 특성 벡터 계산과정이 다르다는 차이점은 있으나, 같은 클러스터링 문제이므로, 일단 특성 벡터가 구하여지면, 유사한 클러스터링 알고리즘을 적용하게 된다.

문서 클러스터링은 문서를 구성하는 색인어들로 문서에 대한 특성 벡터를 추출하여, 모든 문서쌍에 대하여 특성 벡터를 이용하여 유사도를 측정함으로써, 가장 유사도가 높은 문서쌍을 클러스터링하는 기법으로 클러스터링된 결과를 문서 사이의 유사도 계산에 반영하게 된다. 문서 클러스터링 기법으로는 Graph Theoretic Methods, Fast Partition Methods, Nearest Neighbor Clusters 등이 이용되고 있다.

상기 Graph Theoretic Methods는 어떤 한계치(Threshold) 이상의 유사도를 지니는 객체를 그래프 형식으로 표현하는 방법이다. 여기에는 서브 그래프간에 하나의 링크만을 지니는 싱글 링크 클러스터(Single link cluster 또는 Connected component)와 서브 그래프간에 복합적인 링크를 지니는 컴플리트 링크 클러스터(Complete link cluster 또는 Maximal complete subgraph)가 있다.

Fast Partition Methods는 문서간 클러스터링의 속도를 높이기 위한 방법으로서, Single Pass methods 및 K-means methods가 있다. Single Pass Methods는 동일한 클러스터(C₁)내의 특정 문서(D₁)를 대표 문서화함으로써, 각각의 클러스터간에 대표 문서(D_i)를 비교하여 유사도 S_i를 계산하는 방식이다. 이 때 S_i가 어떤 한계치 S_t보다 큰 경우, 해당 문서를 대응하는 클러스터에 추가하고, 클러스터의 대표문서를 다시 계산하게 된다. 이러한 작업은 문서가 모두 클러스터링될 때까지 계속 이루어지게 된다. K-means 또는 Reallocation methods는 특정 클러스터의 대표문서를 추출하고, 클러스터링하고자 하는 문서를 가장 유사한 대표 문서가 있는 클러스터에 포함시키게 된다.

Nearest Neighbor Clusters는 가장 근접한 문서들을 클러스터링하는 방법이다. 이때 K라는 근접도를 주게 되며, 클러스터간에 오버래핑(중복 부분)이 발생하는 특징이 있다. Nearest Neighbor Clusters로는 Sparck Jones의 Star cluster가 계층적 클러스터(Hierarchic cluster)를 생성하는데 이용되고 있다.

단어 클러스터링은 인접한 단어 정보로부터 각 단어에 대한 특성 벡터를 추출하여 모든 단어쌍에 대하여 특성 벡터를 이용하여 유사도를 계산함으로써, 가장 유사도가 높은 단어들을 클러스터링하는 기법이다. 특히, 클러스터링된 결과를 단어사이의 유사도 계산에 반영하게 된다.

초창기의 단어 클러스터링은 시소러스 사전을 이용하여 단어들을 클러스터링하는 기법이 이용되었다. 특히, Van Rijsbergen의 확률 검색 모델(Probabilistic retrieval model) 등이 단어 클러스터링을 기반으로 하고 있다. 더불어 LSI(Latent Semantic Indexing) 등은 단어 클러스터를 생성하는 문서 클러스터를 이용하고 있다. 최근의 정보 검색에서 이용되고 있는 질의 확장 기술은 문맥을 기반으로 한 단어 클러스터링을 이용하고 있으며, 최근의 클러스터링에 관한 연구는 단어 클러스터링을 확장하는 방향으로 이루어지고 있다.

상술한 바와 같이, 이용자 질의에 대한 검색 결과를 개선하기 위하여 다양한 클러스터링 방법이 확장, 연구되어 왔다. 종래 연구의 대부분은 클러스터를 생성한 후, 클러스터 중심어(Centroid)가 이용자 질의에 가장 잘 매칭되는 문서를 검색 결과로 보여주게 된다. 일반적으로 계층적 클러스터링이 널리 이용되는데, 이용자 질의를 Top-down이나 Bottom-up 방식으로 각각의 클러스터에 비교하여 결과값을 출력한다.

그러나, 질의어에 대한 결과값, 즉, 찾고자 하는 문서량이 많은 경우, 이용자는 지금까지 재검색 기능이나 클러스터링의 연계 단어만을 이용해 이차원적으로 원하는 정보에 접근할 수 있게 된다. 이 경우 이용자는 방대한 문서량에 의하여 방향 상실(Disorientation)이나 인식 부담(Cognitive Overhead)를 가지게 되는 문제점이 발생한다.

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로서, 기존의 유사도를 기반으로 한 클러스터링 기법에 계층 단어(Hierarchy Terms) 개념을 접목하여 단어나 문서의 수평적 연계뿐만 아니라 수직적 연계, 즉 디렉토리 기반의 단어 및 문서 분류까지 가능하도록 하는 3차원 클러스터링 생성 시스템 및 그 방법을 제공하는데 그 목적이 있다.

도 1은 본 발명의 일 실시예에 따른 3-D 클러스터 생성 시스템의 구성도이고,

도 2는 도 1에 도시된 단어 추출기의 구성도이고,

도 3은 HTML 4.0 표준에서 정의하고 있는 <BODY>와 </BODY>사이에 실제적으로 내용을 담고 있는 태그들을 정리한 도면이고,

도 4는 도 3에서 추출된 내용으로부터 불용어를 처리하는 과정을 나타낸 도면이고,

도 5는 색인과 가중치를 갖는 문서의 색인 구조를 도시한 도면이고,

도 6은 도 1에 도시된 클러스터 생성기의 구성도이고,

도 7은 문서 D₂의 4가지 단어에 대한 클러스터를 매트릭스 구조로 표현한 도면이고,

도 8은 클러스터 색인 파일의 구조를 나타낸 도면이고,

도 9는 도 1에 도시된 3-D 클러스터 처리기의 작동 과정을 나타낸 흐름도이고,

도 10은 정보 통신 분야를 대상으로 하여 구축한 분류 사전의 예를 나타낸 예시도이고,

도 11은 분류 사전을 통하여 1차적으로 구현한 디렉토리 서비스 및 3-D 표현 결과를 나타낸 도면이다.

앞서 설명한 바와 같은 목적을 달성하기 위한 본 발명에 따르면, HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 단어 추출기; 입력된 문서의 단어들 중 상기 단어 추출기에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 클러스터 생성기; 및 이용자의 질의어가 입력되면, 상기 클러스터 생성기에 의하여 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 단어 추출기에서 생성한 색인 파일을 이용하여 문서값을 출력하는 3-D 클러스터 처리기를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템이 제공된다.

또한, HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 제 1 단계; 입력된 문서의 단어들 중 상기 제 1 단계에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및 이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법이 제공된다.

또한, 컴퓨터에, HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 제 1 단계; 입력된 문서의 단어들 중 상기 제 1 단계에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및 이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계를 포함하여 이루어진 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.

아래에서, 본 발명에 따른 양호한 일 실시예를 첨부한 도면을 참조로 하여 상세히 설명하겠다.

본 발명은 이용자의 질의어와 관련된 단어들을 이용자에게 다시 보여줌으로써, 이용자가 자신의 질의어에 대한 정확한 위치 감지는 물론이고 정확한 질의값을 탐색할 수 있도록 하는 인터넷 기반의 정보 검색 시스템으로서, 문서 내 단어의 가중치를 이용하여 단어별 클러스터를 생성하고, 기생성된 해당 단어의 클러스터와 비교하여 새로운 클러스터를 생성해, 이를 분류 사전을 통하여 질의어를 중심으로 한 상하 관계 단어 및 유사 단어를 이용자에게 3차원적으로 표현해 주는 기술이다.

1. 시스템 총괄도

도 1은 본 발명의 일 실시예에 따른 3-D 클러스터 생성 시스템의 구성도로서, 상기 3-D 클러스터 생성 시스템은 단어 추출기(101), 클러스터 생성기(102) 및 3-D 클러스터 처리기(103) 등의 프로세서로 구분되며, 소스 문서로서, HTML 문서와 TEXT 문서가 있다.

상기 단어 추출기(101)는 HTML DTD(Document Type Definition)을 이용하여 HTML 문서의 실제 내용을 추출하고, 불용어를 처리하는 HTML 필터와 명사 사전(104)을 이용해 필터링된 내용에서 실제 단어를 추출하고, 해당 문서에 존재하는 단어들에 대한 단어별 가중치를 부여하여 색인 파일(107)을 생성하는 색인 처리부로 구성된다.

상기 클러스터 생성기(102)는 해당 문서의 단어들 중 임계 가중치 이상인 단어를 추출하고, 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여 이를 해당 단어를 중심어로 하는 기존의 단어군(클러스터 사전 : 105)과 비교하여 해당단어를 중심으로 하는 새로운 단어군(클러스터 사전 : 105)을 생성한다.

상기 3-D 클러스터 처리기(103)는 이용자의 질의어가 분류 사전(106)에 존재하는지를 우선적으로 검사하고, 상기 분류 사전(106)에 없는 경우, 상기 클러스터 사전(105)에서 질의어에 해당하는 클러스터와 상기 색인 파일(107)을 이용해 문서값을 출력한다. 상기 분류 사전(106)에 있는 경우는 상기 분류 사전(106)에서의 상하위 연계 단어와 이를 기반으로 상기 클러스터 사전(105)에서 질의어와 상하위 연계 단어에 대한 클러스터를 찾고, 상기 색인 파일(107)을 이용해 문서값을 출력한다.

1. 단어 추출기

도 2는 도 1에 도시된 단어 추출기(101)의 구성도로서, 상기 단어 추출기(101)는 HTML 필터 및 색인 처리부로 구성된다. 상기 HTML 필터는 HTML 문서 정의(DTD)에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그와 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 4.0 표준에 맞추어 정의한다. 상기 <TITLE> 태그에서 추출된 내용은 문서의 제목으로써 색인 파일에 저장된다. 그리고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 4.0 표준에 맞추어 <P>, <PRE>, <DT>, <DD>, <LI>, <TH> 및 <TD> 등으로 정의하였다. 그리고, 이러한 태그들이 담고 있는 텍스트를 내용으로 추출한다.

도 3은 HTML 4.0 표준에서 정의하고 있는 <BODY>와 </BODY>사이에 실제적으로 내용을 담고 있는 태그들을 정리한 도면으로서, 본 발명에서의 HTML 문서 변환은 이 태그들 내에 있는 내용들을 추출한다.

도 4는 도 3에서 추출된 내용으로부터 불용어를 처리하는 과정을 나타낸 도면으로서, HTML 문서 변환 과정에 의하여 변환된 텍스트 기반의 문서에 대해 불용어를 추출하고, 불용어 처리 결과 문서를 색인 처리부로 전달하게 된다.

불용어 사전은 의존 형태소만을 고려하며, 본 발명의 일 실시예에서는 아래의 [표 1]과 같은 84개의 의존 형태소를 불용어 사전으로 가지고 있다.

변환된 텍스트 문서에서 불용어 추출이 시작되면, 불용어 추출은 문장에 따라 순차적으로 이루어지게 된다. 즉, 문장의 처음에서 불용어가 나오는 시점까지 하나의 형태소군이 추출되며, 다음 불용어가 나오는 시점까지 또 하나의 형태소군이 추출된다. 예를 들어, '품목별 정보제공에 대한 전반적 평가, 의견 및 수요 제기 등을 맡아주실 전문 그룹을 등록받아 폐쇄그룹으로 운영합니다.'라는 문장에서 불용어를 이용하여 형태소군을 추출하면, '품목별 정보제공', '대한 전반적 평가', '의견', '수요 제기', '맡아주실 전문 그룹', '등록 받', '폐쇄그룹', '운영합니다' 등 8개가 된다.

그리고, 단어를 분리하여 순서적 조합을 만들어 불용어 처리 결과 문서를 생성하게 되며, 이 경우 형태소군이 복합 명사인 경우는 붙여 쓰는 경우와 띄워 쓰는 경우를 다 고려하게 된다. 즉, 앞 문장의 불용어 처리 결과 문서는 '품목별 정보제공, 품목별 정보 제공, 대한 전반적 평가, 대한전반적 평가, 대한 전반적평가, 대한전반적평가, 의견, 수요 제기, 수요제기, 맡아주실 전문 그룹, 맡아주실전문그룹, 맡아주실 전문그룹, 맡아주실전문그룹, 등록 받, 등록받, 폐쇄그룹, 운영합니다'와 같이 이루어지게 된다. 물론 형태소군간 구분자는 ',', ':', ';' 등을 이용한다.

색인 처리부는 불용어 처리 결과 문서에서 명사 사전을 이용해 단어를 추출하고, 전체 단어 수에서 각 단어가 차지하는 가중치를 계산한 후, 색인 파일과 단어별 클러스터를 생성하는 과정이다. 단어 추출은 불용어 처리 결과 문서를 명사 사전과 비교하여 사전에 존재하는 단어를 추출하게 된다. 이 경우 복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출한다. 즉, 불용어 처리 결과 문서가 '품목별 정보제공'이라는 복합 명사가 있는 경우, 우선적으로 '품'이라는 단어가 명사 사전에 있는지를 검사하고, 다음으로 '품목', '품목별', '품목별 정', '품목별 정보', ...의 순서로 비교가 이루어지게 된다.

단어 추출이 완료되면, 단어에 대한 가중치(Weight) 계산이 이루어진다. 가중치 W는 문서 내에서의 해당 단어의 비율을 기본으로 하게 된다. 본 발명에서는 문서 D_j에서 특정 단어 T_i에 대한 가중치 W_i를 W_i= |α(N(T_i)/ΣN(T_i))|로 정의하여 계산하였다. 여기서 α는 가중치 계산을 위한 계수이고, N(T_i)는 문서 내에서의 특정 단어 T_i의 개수를 뜻하며, ΣN(T_i)는 문서 D_j내에서 나타나는 모든 단어들의 합을 의미한다. 따라서, 문서 D_i에 대한 색인 파일은 단어와 가중치 W_i를 포함하는 구조를 지니게 된다.

도 5는 색인과 가중치를 갖는 문서의 색인 구조를 도시한 도면으로서, 숫자는 문서 번호, 알파벳은 단어를 의미하며, 수치는 해당 단어의 문서내 가중치 W를 뜻한다. 해당 문서가 D₂인 경우 가중치가 계산된 최종결과는 {H(200), A(101), K(43), J(40), L(32), ... }이라는 집합을 가지는 텍스트 파일을 생성한다.

3. 클러스터 생성기

도 6은 도 1에 도시된 클러스터 생성기(102)의 구성도로서, 상기 클러스터 생성기(102)는 상기 단어 추출기(101)의 최종 결과 문서인 가중치 결과 문서를 바탕으로 임계 가중치 이상인 단어를 추출하고, 추출된 단어 각각을 중심어로 하는 임시 클러스터를 생성하여 이를 해당 단어를 중심어로 하는 기존의 클러스터와 비교해 새로운 클러스터를 생성하는 과정이다.

상기 단어 추출기(101)의 최종 결과 문서인 가중치 결과 문서를 바탕으로 클러스터링을 위한 단어 추출이 이루어진다. 즉, 하나의 문서에 대하여 한계 가중치(Threshold Weight, W_t)를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 이루게 된다. 즉, 한계 가중치 W_t를 40으로 한 경우 상기 도 5의 문서 D₂는 H, A, K, J라는 단어만이 클러스터링을 위한 단어군으로 추출된다.

특히, 본 발명에서의 클러스터링 구조는 단어 클러스터링으로 단어군에서 단어별 연관 관계를 추출하게 된다. 특정 단어 T_i에 대한 클러스터링연관도(Relativity) R_i는 아래의 [수학식 1]에 의하여 구할 수 있다.

R_i= |β(W_i* W_j)|

여기서 β는 클러스터링 계수(Clustering Coefficient)이며, W_j는 단어 T_j에 대한 가중치를 의미한다. 상기 도 5의 문서 D₂에서 단어별 클러스터링 연관도는 매트릭스 구조로 표현된다.

도 7은 문서 D₂의 4가지 단어에 대한 클러스터를 매트릭스 구조로 표현한 도면으로서, 문서 D₂에서의 단어 H에 대한 새로운 클러스터 NC_H는 {A(20200), K(8600), J(8000)}과 같이 나타난다. 특히, 단어 클러스터링 과정에서도 클러스터링을 위한 한계 연관도(R_t)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키게 된다. 단어 H에 대한 새로운 클러스터 NC_H는 단어 H에 대한 기존의 클러스터인 HC_H와의 비교를 통하여 단어 H에 대한 변경된 새로운 클러스터 C_H를 생성하게 된다. 새로운 클러스터와 기존 클러스터간 병합을 위한 계산은 평균값을 산출하는 방식으로 구현하고자 한다. 즉, 단어 H에 대한 새로운 단어별 연관도 R_Hi는 아래의 [수학식 2]에 의하여 계산할 수 있다.

R_Hi= (HR_Hi* (N-1) + NR_Hi)/N

여기서 N은 단어 클러스터를 생성하는데 이용된 문서의 개수를 의미하며, HR_Hi는 기존 클러스터의 단어 H에 대한 대상 단어의 연관도 평균값을 뜻하고, NR_Hi는 새로운 클러스터의 단어 H에 대한 대상 단어의 연관도를 나타낸다.

특히, 본 발명에서는 동음 이의어에 대한 부분을 고려해 기존 클러스터와 비교할 클러스터(신규 클러스터)간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여, 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음 이의어로 간주한다. Jaccard 계산식은 Ψ(S₁, S₂) = a/(b+c)이다. 여기서, S₁은 기존 클러스터 중심어의 의미, S₂는 비교할 클러스터 중심어의 의미를 나타내며, a는 두 클러스터간 공통 단어의 수, b는 기존 클러스터의 단어 수, c는 비교할 클러스터의 단어 수를 나타낸다.

단어별 연관도 R_Hi를 기반으로 한 단어 H에 대한 클러스터 C_Hi는 {A(R_HA, N_HA), K(R_HK, N_HK), J(R_HJ, N_HJ), ...}의 집합으로 표현할 수 있다. 여기서 N은 H와 해당 단어를 클러스터링하는데 이용된 문서 개수를 의미한다.

도 8은 클러스터 색인 파일의 구조를 나타낸 도면으로서, C_Hi에 대한 색인 파일의 구조이다.

이용자가 질의어를 입력한 경우, 도 8에 도시되어 있듯이, 클러스터 색인 파일과 단어 추출의 결과로 파생된 색인 파일을 비교하여 일차 결과값을 도출하게 된다. 이 경우 질의어에 대하여 Tightly-relative Terms와 Loosely-relative Terms를 구분한다. Tightly-relative Terms은 연관도가 특정 한계치(Threshold Relativity, RHT) 이상인 단어를 의미하며, Loosely-relative Terms는 특정 한계치 이하인 단어를 의미한다.

4. 3-D 클러스터 처리기

도 9는 도 1에 도시된 3-D 클러스터 처리기의 작동 과정을 나타낸 흐름도로서, 이는 이용자의 질의어에 대해 분류 사전을 일차 참조하고, 그 결과에 따라 클러스터 사전과 색인 파일을 이용하여 결과값을 이용자에게 다시 보여주는 과정이다.

일차 결과값은 해당 질의어에 대한 클러스터내 단어들을 새로운 값으로 하여 해당 단어들에 대한 클러스터를 보여 주는 Multi-cluster View도 생성할 수 있게 된다. 즉, 해당 질의어에 대한 클러스터가 {A(R_HA, N_HA), K(R_HK, N_HK), J(R_HJ, N_HJ), ...}로 도출된 경우, 특정 연관도 이상인 단어만을 추출하여 해당단어에 대한 클러스터를 새로운 결과값으로 보여줄 수 있게 된다.

먼서, 스텝 S901에서, 이용자 질의가 있으면, 스텝 S902에서, 질의 관리를 수행한 후, 스텝 S903에서, 질의어가 분류 사전에 있는지 여부를 판단한다.

상기 스텝 S903에서의 판단 결과, 질의어가 분류 사전에 있으면, 스텝 S904에서, 분류 사전을 처리하고, 스텝 S905에서, 클러스터 사전을 이용하여 클러스터 처리를 수행하며, 스텝 S906에서, 색인 파일을 이용하여 질의 처리를 수행한 후, 스텝 S907에서, 결과물을 디스플레이에 표현하게 된다.

도 10은 정보 통신 분야를 대상으로 하여 구축한 분류 사전의 예를 나타낸 예시도로서, 분류 사전은 계층적 구조를 정의하기 위한 값, 계층 단어 및 각 계층단어별 클러스터를 이용하여 일차 결과값(단어)을 도출한 후, 이 결과값과 분류 사전에서 정의된 단어와의 관계를 비교하여 이용자에게 질의어에 대한 상하 관계 단어와 연관 관계 단어를 보여주게 된다.

위에서 상술한 바와 같이 3차원 클러스터링 방법은 단어의 상하 관계를 정의하는 도 10과 같이 정의된 정보 통신 관련 분류 사전을 데이터베이스화하여 응용함으로써, 디스플레이 처리를 통하여 디렉토리 서비스 및 질의어에 대한 상하 관계와 연관 관계를 동시에 보여주는 3차원 표현이 가능하게 된다.

도 11은 분류 사전을 통하여 1차적으로 구현한 디렉토리 서비스 및 3-D 표현 결과를 나타낸 도면으로서, 도 11에 도시되어 있듯이, 디렉토리 체계는 이용자가 하위 디렉토리의 단어를 인지하지 못하는 경우, 모든 항목들을 하나씩 클릭하여야 하는 문제점이 있다.

그러나, 클러스터 및 분류 사전을 이용하는 경우, 이용자는 광범위한 질의어를 입력하여도 하위에 대한 구조를 볼 수 있으면, 특히, 연관 관계를 지니는 단어도 동시에 볼 수 있어 유용하고 명확한 질의를 할 수 있게 된다.

상기와 같은 본 발명은 컴퓨터로 읽을 수 있는 기록 매체로 기록되고, 컴퓨터에 의해 처리될 수 있다.

앞서 상세히 설명한 바와 같이 본 발명은 정보 검색시 이용자 질의어를 중심으로 하여 유사 단어 및 계층 단어를 3차원적으로 표현하여 이용자들이 보다 정확한 질의어 및 결과값을 찾을 수 있도록 기존의 문서 클러스터링 방법에 계층 단어를 접목한 3차원 클러스터링 구조로서, 정보 검색시 이용자의 편의성을 극대화시키는 효과가 있다.

또한, 계층 단어를 이용하여 디렉토리 서비스까지 활용할 수 있게 하는 효과가 있다.

이상에서 본 발명에 대한 기술 사상을 첨부 도면과 함께 서술하였지만 이는 본 발명의 가장 양호한 일 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술 분야의 통상의 지식을 가진 자이면 누구나 본 발명의 기술 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.

Claims

HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 단어 추출기;

입력된 문서의 단어들 중 상기 단어 추출기에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 클러스터 생성기; 및

이용자의 질의어가 입력되면, 상기 클러스터 생성기에 의하여 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 단어 추출기에서 생성한 색인 파일을 이용하여 문서값을 출력하는 3-D 클러스터 처리기를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 1 항에 있어서,

상기 단어 추출기는,

입력된 HTML 문서 정의(DTD : Document Type Definition)에서 정의하는 태그에 따라 텍스트 기반의 문서로 변환한 후, 불용어를 처리하는 HTML 필터; 및

상기 HTML 필터에서 불용어가 처리된 문서에서 단어를 추출하고, 전체 단어 수에서 각각의 단어가 차지하는 가중치를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 색인 처리부를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 2 항에 있어서,

상기 HTML 필터는,

HTML 문서 정의에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그 및 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 표준에 맞추어 정의하고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 표준에 맞추어 정의한 후, 상기 태그들이 담고 있는 텍스트로 변환하는 HTML 문서 변환 장치; 및

상기 HTML 문서 변환 장치로부터 변환된 텍스트로부터 불용어를 추출하여 상기 색인 처리부로 전송하는 불용어 처리 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 2 항에 있어서,

상기 색인 처리부는,

상기 HTML 필터에서 불용어가 처리된 문서에서 미리 저장하여 둔 명사 사전과 비교하여 상기 명사 사전에 존재하는 단어를 추출하는 단어 추출 장치; 및

문서 내에서의 해당 단어의 비율을 기본으로 각각의 단어에 대한 가중치를 계산하는 가중치 계산 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 4 항에 있어서,

상기 단어 추출 장치는,

복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 4 항에 있어서,

상기 가중치 계산 장치는,

문서 D_j에서 특정 단어 T_i에 대한 가중치 W_i를 아래의 [식 1]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.

[식 1]

W_i= ??α{N(T_i)/??N(T_i)} ??

여기서, α는 가중치 계산을 위한 미리 정하여진 계수이고, N(T_i)는 문서 내에서의 특정 단어 T_i의 개수이며, ??N(T_i)는 문서 D_j내에서 나타나는 모든 단어들의 합을 나타낸다.
제 1 항에 있어서,

상기 클러스터 생성기는,

상기 단어 추출기로부터 가중치 결과 문서를 입력받아 입력된 문서에 대하여 한계 가중치를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 위한 단어군으로 지정하는 한계 가중치 적용 장치;

상기 한계 가중치 적용 장치에서 지정된 단어군 및 미리 저장하여 둔 클러스터 사전의 단어군의 단어별 연관 관계를 추출하는 단어별 연관도 계산 장치;

상기 단어별 연관도 계산 장치에 의하여 계산된 단어별 연관 관계를 이용하여 클러스터를 비교하는 클러스터 비교 장치; 및

상기 클러스터 비교 장치의 결과물을 이용하여 미리 저장하여 둔 클러스터 사전의 내용을 변경하는 클러스터 사전 변경 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 7 항에 있어서,

상기 단어별 연관도 계산 장치는,

특정 단어 T_i에 대한 클러스터링 연관도(Relativity) R_i는 아래의 [식 2]에 의하여 계산되는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.

[식 2]

R_i= ??β(W_i* W_j)??

여기서, β는 미리 정하여진 클러스터링 계수(Clustering Coefficient)이고, W_j는 단어 T_j에 대한 가중치를 의미한다.
제 7 항 또는 제 8 항에 있어서,

상기 단어별 연관도 계산 장치는,

클러스터링을 위한 한계 연관도(R_t)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 9 항에 있어서,

상기 단어별 연관도 계산 장치는,

새로운 클러스터와 기존의 클러스터간의 병합을 위한 계산을 수행할 때, 평균값을 산출하는 방법에 의하여 구현하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
제 10 항에 있어서,

상기 단어별 연관도 계산 장치는,

특정 단어 H에 대한 새로운 단어별 연관도 R_Hi를 아래의 [식 3]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.

[식 3]

R_Hi= {HR_Hi* (N-1) + NR_Hi} / N

여기서, N은 단어 클러스터를 생성하는데 이용된 문서의 개수를 의미하고, HR_Hi는 기존 클러스터의 단어 H에 대한 대상 단어의 연관도 평균값을 의미하며, NR_Hi는 새로운 클러스터의 단어 H에 대한 대상 단어의 연관도를 나타낸다.
제 7 항에 있어서,

상기 클러스터 비교 장치는 기존 클러스터와 비교할 클러스터간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음이의어로 간주하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템.
HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 제 1 단계;

입력된 문서의 단어들 중 상기 제 1 단계에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및

이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 13 항에 있어서,

상기 제 1 단계는,

입력된 HTML 문서 정의(DTD : Document Type Definition)에서 정의하는 태그에 따라 텍스트 기반의 문서로 변환한 후, 불용어를 처리하는 제 1 서브 단계; 및

상기 제 1 서브 단계에서 불용어가 처리된 문서에서 단어를 추출하고, 전체 단어 수에서 각각의 단어가 차지하는 가중치를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 2 서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 14 항에 있어서,

상기 제 1 서브 단계는,

HTML 문서 정의에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그 및 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 표준에 맞추어 정의하고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 표준에 맞추어 정의한 후, 상기 태그들이 담고 있는 텍스트로 변환하는 제 1 서브-서브 단계; 및

상기 제 1 서브-서브 단계에서 변환된 텍스트로부터 불용어를 추출하여 상기 색인 처리부로 전송하는 제 2 서브-서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 14 항에 있어서,

상기 제 2 서브 단계는,

상기 제 1 서브 단계에서 불용어가 처리된 문서에서 미리 저장하여 둔 명사 사전과 비교하여 상기 명사 사전에 존재하는 단어를 추출하는 제 3 서브-서브 단계; 및

문서 내에서의 해당 단어의 비율을 기본으로 각각의 단어에 대한 가중치를 계산하는 제 4 서브-서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 16 항에 있어서,

상기 제 3 서브-서브 단계는,

복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출하는 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 16 항에 있어서,

상기 제 4 서브-서브 단계는,

문서 D_j에서 특정 단어 T_i에 대한 가중치 W_i를 아래의 [식 4]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 방법.

[식 4]

W_i= ??α{N(T_i)/??N(T_i)} ??

여기서, α는 가중치 계산을 위한 미리 정하여진 계수이고, N(T_i)는 문서 내에서의 특정 단어 T_i의 개수이며, ??N(T_i)는 문서 D_j내에서 나타나는 모든 단어들의 합을 나타낸다.
제 13 항에 있어서,

상기 제 2 단계는,

상기 제 1 단계의 가중치 결과 문서를 입력받아 입력된 문서에 대하여 한계 가중치를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 위한 단어군으로 지정하는 제 3 서브 단계;

상기 제 3 서브 단계에서 지정된 단어군 및 미리 저장하여 둔 클러스터 사전의 단어군의 단어별 연관 관계를 추출하는 제 4 서브 단계;

상기 제 4 서브 단계에서 계산된 단어별 연관 관계를 이용하여 클러스터를 비교하는 제 5 서브 단계; 및

상기 제 5 서브 단계의 결과물을 이용하여 미리 저장하여 둔 클러스터 사전의 내용을 변경하는 제 6 서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 19 항에 있어서,

상기 제 4 서브 단계는,

특정 단어 T_i에 대한 클러스터링 연관도(Relativity) R_i는 아래의 [식 5]에 의하여 계산되는 것을 특징으로 하는 3차원 클러스터링 생성 방법.

[식 5]

R_i= ??β(W_i* W_j)??

여기서, β는 미리 정하여진 클러스터링 계수(Clustering Coefficient)이고, W_j는 단어 T_j에 대한 가중치를 의미한다.
제 19 항 또는 제 20 항에 있어서,

상기 제 4 서브 단계는,

클러스터링을 위한 한계 연관도(R_t)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키는 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 21 항에 있어서,

상기 제 4 서브 단계는,

새로운 클러스터와 기존의 클러스터간의 병합을 위한 계산을 수행할 때, 평균값을 산출하는 방법에 의하여 구현하는 것을 특징으로 하는 3차원 클러스터링 생성 방법.
제 22 항에 있어서,

상기 제 4 서브 단계는,

특정 단어 H에 대한 새로운 단어별 연관도 R_Hi를 아래의 [식 6]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 방법.

[식 6]

R_Hi= {HR_Hi* (N-1) + NR_Hi} / N

여기서, N은 단어 클러스터를 생성하는데 이용된 문서의 개수를 의미하고, HR_Hi는 기존 클러스터의 단어 H에 대한 대상 단어의 연관도 평균값을 의미하며, NR_Hi는 새로운 클러스터의 단어 H에 대한 대상 단어의 연관도를 나타낸다.
제 19 항에 있어서,

상기 제 5 서브 단계는,

기존 클러스터와 비교할 클러스터간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음이의어로 간주하는 것을 특징으로 하는 3차원 클러스터링 생성 방법.
컴퓨터에,

HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는제 1 단계;

입력된 문서의 단어들 중 상기 제 1 단계에서 부여된 가중치가 한계 가중치(Threshold Weight, W_t)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및

이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계를 포함하여 이루어진 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.