KR20040078896A

KR20040078896A - 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터

Info

Publication number: KR20040078896A
Application number: KR1020040014809A
Authority: KR
Inventors: 가와타니다카히코
Original assignee: 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피
Priority date: 2003-03-05
Filing date: 2004-03-05
Publication date: 2004-09-13
Also published as: EP1455285A3; EP1455285A2; US7499923B2; US20040230577A1; JP2004288168A; CN1530857A; KR101086510B1; JP4828091B2; CN1530857B

Abstract

문서(또는 패턴) 클러스터링에 있어서, 정확한 수의 클러스터와, 정확한 클러스터에 대한 각 문서(또는 패턴)의 정밀한 할당이 달성된다. 동일한 토픽(또는 객체)을 기술하는 문서(또는 패턴)가 그룹화되고, 그에 따라 동일 클러스터에 소속된 문서(또는 패턴) 그룹이 얼마간의 공통성을 갖는다. 각 토픽(또는 객체)은 구별되는 용어(또는 객체 특징) 또는 용어(또는 객체 특징) 쌍을 갖는다. 주어진 클러스터에 대한 각 문서(또는 패턴)의 근사성이 획득되면, 주어진 클러스터에 대한 공통 정보가 추출되고 이용되며, 주어진 클러스터에 대해 구별되지 않는 용어(또는 객체 특징) 또는 용어(또는 객체 특징) 쌍의 영향은 배제된다.

Description

문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치, 컴퓨터{DOCUMENT AND PATTERN CLUSTERING METHOD AND APPARATUS}

본 발명은 문서 및 패턴 클러스터링(document or pattern clustering)을 포함하는 처리에 관한 것이다.

문서 및 패턴 클러스터링은 입력된 문서 또는 패턴 세트를 문서 또는 패턴의 내용 또는 토픽에 따라 몇몇 그룹으로 분할하기 위한 기법이다. 클러스터링 기법은 오랫동안 연구되어 왔고, 지금까지 고안된 방법은 C. D. Manning과 H. Schutze가 발표한 "Foundations of Statistical Natural Language Processing" (The MIT Press, 1999)에 체계적으로 개시되어 있다. 소프트 클러스터링이라 일컫는 클러스터링은 각 문서 또는 패턴이 각 클러스터에 속할 확률을 얻는다. 하드 클러스터링이라 일컫는 클러스터링은 각 문서 또는 패턴이 각 클러스터에 소속되는지 여부를 결정한다. 하드 클러스터링은 계층 및 비계층적 방안으로 더 나뉜다. 계층적 방안은 상향식(bottom-up) 및 하향식(top-down) 방안으로 더 나뉜다. 계층적 방안의 초기 상태에서, 각 문서 또는 패턴은 클러스터의 시드(seed)가 되고, 최근사 클러스터를 합병(merging)하는 처리를 반복한다. 최근사 클러스터를 합병하기 위해, 문서 또는 패턴 세트를 트리 구조(tree structure)로 표현한다. 클러스터들간에 가까운 정도(즉, 유사성(similarity))를 측정하는 방법으로서 단일 연결법(single link method), 완전 연결법(complete link method) 및 그룹 평균법(group average method)이 알려져 있다. 이들 측정법의 각각에서, 계산은 두 문서 또는 패턴간의 유사성에 근거하여 수행된다. 하향식 방안에서, 모든 문서 또는 패턴이 하나의 클러스터내에 있는 초기 상태로부터 처리를 반복한다. 예를 들어, 하나의 클러스터내에서 모든 문서 또는 패턴 쌍의 최저 유사성(lowest similarity)이 임계값보다 작으면, 클러스터는 분할된다.

비계층적 방법에서, 미리 정해진 수의 클러스터가 소정의 기준을 만족시키도록 정해진다. 비계층적 방법에서의 전형적인 처리 단계들은 다음으로서, 단계 1: 특정 수의 클러스터링 문서 또는 패턴을 임의로 선택하여 그들을 각 클러스터의 중심으로 만들고,

단계 2: 각 문서 또는 패턴과 각 클러스터 중심과의 거리를 계산하여 각 문서 또는 패턴을 그것에 가장 가까운 클러스터에 귀속시키고,

단계 3: 각 클러스터에 소속되는 문서 또는 패턴 벡터를 평균(averaging)함으로써 각 클러스터의 중심을 결정하고,

단계 4: 각 문서 또는 패턴이 소속되는 클러스터가 변경되지 않았으면, 단계 2의 처리를 수행하고 프로시저를 종료하고, 변경되었으면, 단계 3을 수행한다.

통상적인 문서 및 패턴 클러스터링 기법은 세 가지 심각한 문제를 갖고 있다. 한 가지 문제는 획득할 클러스터 수에 관한 것이다. 문서 또는 패턴 클러스터링에서, 획득할 클러스터의 수는 입력된 문서 또는 패턴 세트의 문서 또는 패턴에 나타난 토픽 수와 같아야 한다. 위에 설명한 바와 같이, 상향식 계층적 클러스터링 처리에서, 각 클러스터는 하나의 문서 또는 패턴을 포함하는 상태로부터 시작하여, 모든 문서 또는 패턴이 최종적으로 하나의 클러스터내에 있을 때까지 최근사 클러스터를 합병하는 것을 반복한다. 따라서, 클러스터들의 수가 토픽의 수와 같은 클러스터를 얻기 위해서는, 클러스터 합병을 중지할 필요가 있다. 이는,유사성이 임계값보다 작은 클러스터 쌍들을 합병하지 않음으로써 실현될 수 있다. 그러나, 임계값을 결정하기가 어렵다. 임계값이 부적절하면, 정확한 수의 클러스터가 획득될 수 없다. 이와 유사하게, 하향식 클러스터링 처리에서는, 하나의 클러스터내에서 모든 문서 또는 패턴 쌍의 최저 유사성이 임계값보다 높으면 클러스터가 분할되지 않아, 원리적으로 토픽 수와 동일한 수의 클러스터가 획득되어야 한다.

이러한 경우에도 임계값을 결정하기가 어렵다. 또한, 비계층적 클러스터링에서, 주어진 문서 세트가 분할될 클러스터의 수를 사용자가 (미리) 입력할 것을 요구한다. 그러나, 입력 문서 또는 패턴 세트에 대한 사전지식 없이 클러스터 수에 관한 정보를 정확히 입력하는 것은 불가능하다. 위에 언급한 바와 같이, 입력 문서 또는 패턴 세트로부터 정확한 수의 클러스터를 얻는 것은 어려운 문제이다. 비계층적 클러스터링으로 클러스터 수를 정확히 추론하려한 Liu 등에 의해 성능이 향상되었으나, 완벽하지는 않다(X. Liu, Y. Gong, W. Xu and S. Zhu, Document Clustering with Cluster Refinement and Model Selectin Capabilities; Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191-198. Tampere, Finland, August, 2002).

제 2의 문제는 클러스터링 정확성이다. 이는, 동일한 클러스터에 소속되는 문서 또는 패턴이 동일한 토픽 또는 객체를 기술하는지의 여부에 관한 것이다. 일반적으로, 클러스터링 처리에서, 문서는 벡터로 표현된다. 각 벡터 구성 요소는 문서내에서 각 용어의 존재나 그 용어 발생 빈도에 의존한다. 두 개의 클러스터간의 유사성은, (1) 상이한 클러스터에 소속되는 문서들의 두 개의 벡터간의 코사인 유사성(cosine similarity) 및 (2) 특정 문서와 클러스터간의 거리에 기초하여 결정된다. 문서 또는 패턴과 클러스터간의 거리는 문서 또는 패턴의 벡터와 클러스터내의 문서 또는 패턴의 평균 벡터간의 거리(가령, 유클리디언 거리(Euclidean distance)에 의해 결정된다. 통상의 클러스터링 처리에서는, 코사인 유사성 또는 유클리디언 거리가 획득되면, 보통 각 문서 또는 패턴에 대해 획득된 벡터는 클러스터에 어떤 용어가 중요한 지에 대한 확인 없이 사용된다. 그래서, 각 클러스터에 필수적이지 않은 용어나 객체 특징 또는 용어나 객체 특징 쌍의 존재는 클러스터링 정확성에 영향을 미칠 수 있다.

제 3의 문제는 토픽이나 객체의 계층을 추출하는 방법에 관한 것이다. 보통, 토픽 또는 객체에는 계층이 존재한다. 예를 들어, 토픽 "이라크 전쟁"을 고려해 보자. 관련된 뉴스 기사에서의 서브토픽(subtopic)은 "이라크 전쟁", "사담 후세인(Saddam Hussein)", "미국에 의한 대량 사살 무기 조사", "부시 대통령의 의견", "프랑스, 독일 및 러시아의 대항" 중 임의의 하나일 수 있다. 이러한 뉴스 기사의 클러스터링 결과를 고려해 보자. "이라크 전쟁"에 대해 알고자 하는 사용자는 서브클러스터링(sub-clustering)에 의해 획득된 각 서브토픽에 대응되는 문서 그룹이 나타나기를 원할 것이다. 사용자는 보통 본래의 클러스터링 결과가 나타나지 않기를 원할 것이다. 위에서 언급한 바와 같이, 개별 토픽에 대응되는 클러스터를 정확하게 결정하여 각 문서를 정확한 클러스터에 할당하는 것이 어렵기 때문에, 서브클러스터링은 어려운 문제로 남아있다.

토픽(또는 객체) 계층이 획득되지 않은 플랫 클러스터링(flat clustering)의 경우를 고려해보자. 문서(또는 패턴) 클러스터링은, 각 문서(또는 패턴)에 기술된 토픽(또는 객체)에 따라 문서(또는 패턴)를 그룹으로 나누기 때문에, 하나의 클러스터에 소속되는 문서(또는 패턴)(클러스터 문서(또는 패턴) 세트라 일컫어짐)는 동일한 토픽(또는 객체)을 기술해야 한다. 따라서, 클러스터 문서 세트는 몇 가지 공통성을 가져야 한다. 또한, 각각의 토픽(또는 객체)은, 그 토픽(또는 객체)과 구별되고 그 토픽(또는 객체)에서는 자주 발견되지만 다른 토픽(또는 객체)에서는 거의 발견되지 않는 용어나 용어 쌍을 가져야 한다. 따라서, 클러스터들간에 용어나 용어 쌍(또는 객체나 객체 쌍)의 발생 경향에는 차이가 있어야 한다.

위의 관점에서, 본 발명의 일 측면에 따라, 클러스터링의 정확성을 향상시키기 위해, 클러스터링 처리에 다음이 도입된다. A) 주어진 클러스터 문서(또는 패턴) 세트의 공통 정보가 추출되고, 공통 정보를 이용하여 주어진 클러스터로의 각 문서(또는 패턴)의 근사성(closeness)(문서(또는 패턴) 공통성)이 획득된다. B) 주어진 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체 특징이나 객체 특징 쌍)이 검출되고, 구별되지 않는 그 쌍들의 영향은 문서 공통성의 계산에서 제외된다.

통상의 계층적 처리에서, 클러스터의 합병 또는 분할을 수회 반복한다. 통상인 비계층적 처리에서, 클러스터들의 멤버는 여러 차례 상호교환된다. 그러므로, 종래의 기술로, 제각각의 클러스터들의 공통 정보, 또는 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체 특징이나 객체 특징 쌍)을 검출하기가 어렵다.

본 발명의 일 측면은 다음과 같은 여러 단계들을 포함하는 방법을 사용한다.

단계 1: 클러스터 시드의 후보는 제 1 반복시 모든 문서(또는 패턴)로부터 검출된다. 제 2 또는 후속 반복시, 클러스터 시드 후보는 임의의 현재 클러스터에의 문서(또는 패턴) 공통성이 임계값보다 작은 문서(또는 패턴)로부터 검출된다.

단계 2: 각 후보에 관해서, 모든 문서(또는 패턴)에의 유사성이 검출된다. 유사성이 임계값보다 높은 문서(또는 패턴)는 인접(neighbor) 문서(또는 패턴)로서 추출된다. 최다수의 인접 문서(또는 패턴)를 갖는 후보 문서(또는 패턴)가 클러스터의 시드로서 선택된다. 클러스터는 시드의 인접 문서(또는 패턴)의 세트로 구성된다.

단계 3: 각각의 문서(또는 패턴)의 현재 클러스터와의 문서(또는 패턴) 공통성이 검출된다. 임계값보다 높은 문서(또는 패턴) 공통성을 갖는 문서(또는 패턴)는 임시적으로 그 클러스터에 속하게 되어서 그 클러스터는 성장하게 된다. 그 클러스터에 임시적으로 소속되는 문서(또는 패턴)의 수가 일정하면, 프로시저는 단계 4로 진행된다. 그렇지 않으면, 각 문서(또는 패턴)의 현재 클러스터와의 문서(또는 패턴) 공통성이 재검출된다. 종료 조건이 만족되면, 처리는 다음 단계로 진행된다. 종료 조건이 만족되지 않으면, 처리는 단계 1로 돌아가 계속된다.

단계 5: 다음 단계에서, (각각의 문서(또는 패턴)에 관해) 각각의 클러스터에의 문서(또는 패턴) 공통성이 검출되고, 각 문서(또는 패턴)는, 문서(또는 패턴) 공통성이 임계값보다 높은 클러스터에 소속되는 것으로 판정된다.

다음으로, 두 개 이상의 클러스터가 중첩되고 하나의 토픽(또는 객체)에 대응되는지 여부를 결정한다. 이러한 클러스터는 중복 클러스터(redundant cluster)로서 판단되어, 고려되는 각각의 문서(또는 패턴)가 소속되는 클러스터를 재획득한다.

위의 클러스터링 프로시저에서, 공통 정보를 사용하는 문서(또는 패턴) 공통성의 계산 및 주어진 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체나 객체 쌍)의 검출이 단계 3 및 5에서 수행된다. 전자에 있어서, 주어진 클러스터에 임시적으로 소속되는 문서(또는 패턴)로부터 공통 정보가 추출된다. 공통 정보의 추출 및 사용에 있어서는, 일본 특허 출원 제 2002-326157 호에 개시된 방법을 채택할 수 있다.

주어진 클러스터가 R개의 문서로 구성되고, R개의 문장으로 구성된 문장 그룹은 각 문서로부터 하나의 문장을 추출함으로써 형성된다고 가정하면 기본 개념을 이해할 수 있다. 문장 그룹은 문장의 가능한 모든 조합에 대해 구성된다. 이러한 문장 그룹의 전체 수는 제각각의 문서의 문장 수의 곱과 같게 된다. 주어진 문장 그룹에서, R개의 문장 중에서 A개보다 많은 문장에서 발견되는 용어는 공통 용어(common term)로서 정의되고, 공통 용어로 구성된 문장은 공통 문장이라 일컫어진다. A개보다 많은 문서에서 발견되는 용어는 몇몇 문장 그룹에서 공통 용어가 된다. 또한, 공통 문장은 모든 문장 그룹에 대해 구성되어, 공통 문장의 세트가 구성된다고 가정하자. 위에서 언급한 바와 같이, 공통 문장의 세트는 주어진 클러스터의 공통 토픽 내용을 나타낸다고 간주될 수 있다. 따라서, 각각의 문서와 공통 문장 세트간의 유사성이 문서 공통성으로서 획득될 수 있으면, 그것은 각각의 문서가, 주어진 클러스터의 공통 토픽에 근사하다는 것을 나타낼 것이다.

문서(또는 패턴)와 공통 문장의 세트(또는 객체의 그룹)간의 유사성은, 문서(또는 패턴)가 A개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)를 포함할 때만 0이 아닌 값(non-zero value)을 갖는다. 두 개의 값, A₁및 A₂(A₁>A₂)를 A의 값으로서 고려해보자. A₁개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)의 수는 A₂개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)의 수보다 작기 때문에, A=A₁이면 공통 문장(또는 객체 그룹)의 토픽은 A=A₂일 때보다 한정적이다. 그러므로, 공통 문장(또는 객체 그룹) 세트와의 유사성이 임계값보다 큰 문서(또는 패턴)의 토픽 범위(spread)는 A=A₂일 때보다 A=A₁일 때 작다. 더욱이, A₁개보다 많은 문서(또는 패턴)에서 발견되는 용어를 포함하는 문서(또는 패턴)의 수는 A=A₂일 때의 수보다 작다. 문서(또는 패턴)와 공통 문장의 세트(또는 객체의 그룹)와의 유사성이 단계 3 및 5에서 문서(또는 패턴) 공통성으로서 채택되면, A가 작은 값으로 설정될 때, 클러스터는 토픽이 광범위한 문서(또는 패턴)로 구성되고, 그 역도 마찬가지다. 그래서, A의 값은 클러스터의 토픽(또는 객체)범위를 제어한다.

주어진 클러스터와 구별되지 않는 용어 및 용어 쌍(또는 객체 및 객체 쌍)은, 그 시드 문서(또는 패턴)의 토픽(또는 객체)이 i인 주어진 클러스터의 성장 처리를 고려함으로써 검출된다. 이 개념을 이해하기 위해, (1) 전체 문서 세트 중 토픽 i를 기술하는 문서의 수가 c_o개이고, (2) c는 주어진 클러스터의 문서 세트가고, (3) 용어 m을 포함하는 문서의 수는 전체 입력 문서 세트 중 U^o _mm개이고, (4) U_mm은 주어진 클러스터의 문서 세트가고, (5) 용어 m은 토픽 i에 대해 구별된다고 가정해 보자. 용어 m을 갖는 대부분의 문서는 토픽이 i이기 때문에, 다음 관계식이 만족되어야 한다. U^o _mm/U_{mm =}c_o/c.

토픽이 i가 아닌 문서에서 자주 발견되는 용어 m은 관계식 U^o _mm/U_{mm =}c_o/c을 충족시키지 않고, 다음 관계식:

를 충족시켜야 한다.

따라서, c_o/c가 정확하게 결정될 수 있다면, 용어 m이 토픽(또는 객체) i에 대해 구별되는지의 여부에 관한 결정이 수행될 수 있다. U^O _mm/U_mm은 용어(또는 객체 특징) m의 문서(또는 패턴) 빈도율이라고 불린다. 주어진 클러스터의 문서(또는 패턴) 세트에서 가장 높은 빈도를 갖는 특정 수의 용어(또는 객체 특징) 중에서, (1) 작은 문서(또는 패턴) 빈도율을 갖는 특정 수의 용어(또는 객체 특징)는 토픽(또는 객체) i에 대해 구별되는 것으로 가정되며, (2) 이들 용어(또는 객체 특징)의 문서(또는 패턴) 빈도율의 평균 c'은 c_o/c의 예측된 값으로서 간주된다. 결국, 상수 계수 α를 이용함으로써, 이하의 수학식을 만족하는 용어(또는 객체 특징) m은 토픽(또는 객체) i에 대해 구별되지 않는다는 결정이 수행될 수 있다.

마찬가지로, 용어(또는 객체 특징) m, n을 포함하는 문서(또는 패턴)의 수는 전체 입력 문서(또는 패턴) 세트에서 U⁰ _mn이며, U_mn은 주어진 클러스터의 문서(또는 패턴) 세트라고 가정한다. 이들 가정을 이용함으로써, 이하의 수학식을 만족하는 용어(또는 객체 특징) m, n은 토픽(또는 객체) i에 대해 구별되지 않는다는 결정이 수행될 수 있다.

문서 공통성에 대하여, 주어진 클러스터에 대해 필수적이지 않은 용어(또는 객체 특징) 및 용어(또는 객체 특징) 쌍의 영향을 감소시키기 위해, 토픽(또는 객체) i에 대해 구별되지 않는 것으로 판정된 용어(또는 객체 특징) 및 용어(또는 객체 특징) 쌍은 주어진 클러스터의 각 문서(또는 패턴)과 문서(또는 패턴) 세트 사이의 문서(또는 패턴) 공통성의 계산을 위해 이용되지 않는다. 이와 달리,

은 문서(또는 패턴) 공통성 계산시에 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n에 대한 가중치로서 각각 이용될 수 있다. 이러한 방안을 이용함으로써, 문서 공통성은 토픽(또는 객체) i를 기술하는 문서(또는 패턴)에 대해 큰 값을 갖는다. 그 결과, 클러스터링 정확성의 개선을 기대할 수 있다.

전체 클러스터링 프로시저에서, 처리가 반복 수행되어, 처음에 하나의 문서(또는 패턴)가 클러스터의 시드로서 추출되고, 그 다음 이러한 시드와 동일한 토픽(또는 객체)을 기술하는 문서(또는 패턴)을 검출 및 합병함으로써 시드가 성장하게 된다. 따라서, 시드 문서(또는 패턴)의 수가 입력 문서내의 토픽(또는 객체)의 수와 동일하다면, 정확한 수의 클러스터가 획득될 수 있다. 단계 1의 결과로서 2개의 시드 문서(또는 패턴)가 동일 토픽(또는 객체)에 대해 검출되었지만, 단계 6에서 중복 클러스터가 검출 및 제거되므로, 정확한 수의 클러스터가 획득될 수 있다. 단계 1의 결과로서 시드 문서(또는 패턴)가 어떤 토픽(또는 객체)에 대해 검출되지 않는다면, 클러스터의 수는 작아진다. 그러한 상황은 검출될 토픽(또는 객체)을 갖는 문서(또는 패턴)가 다른 토픽(또는 객체)의 현존 클러스터에 대해 높은 문서(또는 패턴) 유사성을 갖고, 클러스터로 합병될 때 발생된다. 그러나, A) 및 B)을 채택함으로써 클러스터링의 정확성이 증가하므로, 상이한 토픽(또는 객체)을 갖는 문서(또는 객체)가 혼합될 가능성은 낮으며, 획득된 클러스터의 수가 작아지는 상황은 거의 발생하지 않는다.

A의 값이 변하거나, 또는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이 선택적으로 이용되는 것으로서 전술된 클러스터링 프로시저를 반복적으로적용함으로써 계층적 클러스터링이 수행될 수 있다. 다음과 같이 가정한다. 즉, (1) 입력 문서(또는 패턴) 세트는 제 0 층상에 있고, (2) 클러스터링을 입력 문서(또는 패턴)에 적용함으로써 획득된 클러스터는 제 1 층상에 있고, (3) 서브클러스터링을 제 1 층상의 각 클러스터에 적용함으로써 획득된 서브클러스터는 제 2 층상에 있고, (4) 그 다음 후속하는 층상의 각 클러스터에 대해 서브클러스터링을 수행한다.

계층적 클러스터링은 다음과 같이 수행될 수 있다. 첫째, 제 1 층상의 클러스터는 A를 적절한 값으로 설정함으로써 전술한 클러스터링 처리를 적용하는 것에 의해 획득된다. 각 클러스터내의 문서(또는 패턴)는 각 토픽(또는 객체)를 갖는다. 제 2 층상의 서브클러스터가 획득될 때, A는 제 1 층상의 클러스터가 획득될 때의 값보다 큰 값으로 설정된다. 제 1 층상의 클러스터는 좁은 범위를 갖는 서브토픽(또는 서브 객체)을 갖는 서브클러스터로 분할된다.

대안적인 계층적 클러스터링 방법은 다음과 같다. 제 2 층상의 서브클러스터내의 구별되는 용어(또는 객체 특징) 또는 용어 쌍(객체 특징 쌍)은 제 1 층상의 부모(parent) 클러스터에서 낮은 문서 빈도를 갖는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이어야 한다. 따라서, 유효 서브클러스터는 임계값보다 높은 문서 빈도(또는 패턴)를 갖는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이 제거된 후에 클러스터링 처리를 적용함으로써 획득된다. 마찬가지로, 제 3 층 또는 보다 높은 층상의 서브클러스터가 획득될 것이다.

도 1은 본 발명과 관련된 일반적인 컴퓨터 동작의 블럭도,

도 2a 및 2b는 도 1의 문서 입력 및 전처리 블럭과 관련된 동작의 흐름도로서, 문서 세트가 입력되는 단계로부터 각 문서가 소속되는 결정 클러스터의 단계까지의 절차를 결정하는 도면,

도 3은 도 1의 문서 정보 처리 블럭과 관련된 동작이 클러스터가 성장하게 하는 방법 및 초기 클러스터로부터의 성장 절차를 도시하는 흐름도,

도 4a 및 4b는 중복 클러스터를 삭제하는 방법을 설명하기 위한 도면.

도면의 주요 부분에 대한 부호의 설명

110 : 문서 입력 블럭 120 : 문서 전처리 블럭

130 : 문서 정보 처리 블럭 140 : 출력 블럭

도 1은 클러스터링된 문서를 자연 언어 처리하는 방법에 대한 컴퓨터 시스템의 블럭도이다. 설명된 원리는 패턴 처리에도 또한 적용할 수 있지만, 단지 문서 처리와 관련하여서만 특정 실시예를 설명한다. 시스템은 문서 입력 블럭(110), 문서 전처리 블럭(120), 문서 정보 처리 블럭(130) 및 출력 블럭(140)을 포함한다. 처리될 문서 세트가 문서 입력 블럭(110)에 입력된다. 문서 전처리 블럭(120)은 입력된 문서에 대해, 용어 검출, 형태 분석 및 문서 세그먼트 분할을 수행한다.

문서의 문서 세그먼트 기본 단위는 문장이다. 대부분의 유럽 언어의 문장의 시작 및 끝은 쉽게 검출되는데, 그 이유는 각 문장의 끝은 마침표를 가지며, 인쇄되는 경우 더블 스페이스가 따르게 되기 때문이다. 복잡한 문장과 관련된 다른 문서 구분 방법으로서, 문장은 주절 및 종속절로 구분(즉, 분할)된다. 다른 방법에서, 복수의 문장이 문서 세그먼트로 수집되어, 각 문장에서의 용어의 수가 대략 동일하게 되도록 한다. 다른 방법에서는, 문서내의 문장에 관계없이, 문서의 시작으로부터, 문서를 동일한 수의 용어를 갖는 세그먼트로 분할한다.

블럭(130)은 입력된 문서의 정보 처리 및 입력된 문서에서의 클러스터링과 직접 관련된 처리를 수행한다. 블럭(130)은 (1) 시드 문서 검출, (2) 모든 입력 문서와 주어진 클러스터 사이의 문서 세트 공통성 계산, (3) 특정 클러스터에 대해 구별되지 않는 용어 및 용어 쌍 검출과 같은 동작을 수행한다. 블럭(130)은 이하에 상세히 기술된다. 출력 블럭(140)은 디스플레이와 같은 출력 장치에, 문서 정보 처리 블럭(130)에 의해 획득된 결과를 출력한다.

도 2a 및 2b는 블럭(110, 120, 130)이 소정의 문서 세트에 대해 수행하는 클러스터링 및 다른 동작의 흐름도를 구성한다. 도 2a, 2b, 3의 동작은 범용 컴퓨터상에서 프로그램을 실행함으로써 수행될 수 있다.

단계(21) 동안, 입력 블럭(110)에 의해 문서 세트가 컴퓨터에 공급된다. 공급된 문서는 단계(22) 동안, 전처리 블럭(120)에서 모두 전처리된다. 단계(23) 동안, 블럭(130)은 문서 세트내의 모든 문서로부터 정보를 추출한다. 단계(24) 동안, 블럭(130)은 클러스터의 시드 문서를 추출하여, 초기 클러스터를 구성한다. 블럭(130)은, 단계(25) 동안, 문서를 처리하여 클러스터를 성장시킨다. 단계(26) 동안, 블럭(130)은 세트내의 나머지 문서를 추출한다. 블럭(130)은, 단계(27) 동안, 조건 검사를 종료한다. 단계(28) 동안, 블럭(130)은 문서 세트를 처리하여, 나머지 문서로부터 정보를 추출한다. 블럭(130)은, 단계(29, 30) 동안 각각, 클러스터 멤버에 무엇이 있는지를 결정하고, 그 후 중복 클러스터를 추출 및 제거한다. 영어 문서 처리의 실시예를 기술한다.

첫째, 단계(21) 동안, 문서 세트가 객체로서 컴퓨터에 입력된다. 계층적 클러스터링에서 제 n 층상의 서브클러스터가 획득될 때, 입력 문서 세트는 제 (n-1) 층상의 (서브)클러스터내의 문서로 구성된다. 문서 전처리 단계(22)에서, 각 입력 문서에 대해 (용어 검출, 형태 분석, 문서 세그먼트 분할, 문서 세그먼트 벡터 구성과 같은) 문서 전처리가 수행된다. 용어 검출은 각 입력 문서에 대한 단어, 수치 표현, 심볼 시리즈 등의 검출을 포함한다. 그러므로, 단어, 수치 표현, 심볼 시리즈 등은 일반적으로 용어라고 지칭된다. 영어 기록 표기 방법은 간격을두고 분리된 용어들을 갖기 때문에, 용어 검출은 용이하게 수행된다.

다음, 각 입력 문서에 대해 (용어에 대한 스피치 태깅(speech tagging)의 일부와 같은) 형태 분석이 수행된다.

각 입력 문서에 대해 문서 구분(또는 분할)이 수행된다. 문서 세그먼트 벡터 구성에서, 구성될 벡터의 차원 및 각 구성 요소와 각 용어 사이의 대응 관계는 전체 문서에서 발생되는 용어로부터 처음에 결정된다. 벡터의 구성 요소가 문서에서 발생되는 모든 용어에 대응하도록 만들 필요는 없다. 스피치 태깅의 일루로부터의 결과를 이용하는 것에 의해, 벡터는, 예를 들면, 단지 명사 및 동사라고 판정될 용어만을 이용함으로써 구성될 수 있다. 다음, 문서 세그먼트 벡터는 각 문서 세그먼트에서 발생되는 용어에 대응하는 구성 요소만이 1이고, 다른 것은 0이 되도록 구성된다.

모든 문서에 대한 문서 세트 정보 추출 단계(23)에서, 클러스터링 처리 단계에서 이용된 데이터는 각 문서 및 전체 입력 문서 세트로부터 획득된다. 획득될 데이터는 각 문서의 동시 발생 매트릭스(co-occurrence matrix), 문서 세트의 동시 발생 매트릭스(공통 동시 발생 매트릭스) 및 전체 입력 문서 세트의 문서 빈도 매트릭스이다. 각 문서의 동시 발생 매트릭스는 용어의 발생 빈도 및 용어 쌍의 동시 발생 빈도를 반영하는 매트릭스이다.

문서 세그먼트인 문장의 경우에 대해 설명을 계속하며, 여기서, M은 발생되는 용어의 종류 수를 나타내고, D_r은 R개의 문서로 구성되는 문서 세트 D내의 r번째문서를 나타내고, Y_r은 문서 D_r내의 문장의 수를 나타내고, d_ry= (d_ry1, ..., d_ryM)^T는 y번째 문장 벡터를 나타낸다. 문장 벡터 d_ry는 이진 벡터이므로, d_rym은 m번째 용어의 존재 또는 부재를 나타낸다. 문서 D_r의 동시 발생 매트릭스 S^r은 다음의 수학식과 같이 주어진다.

여기서, T는 벡터 전치(transpose)를 나타낸다.

수학식 (1)로부터, S^r의 mn 구성 요소는 다음과 같이 주어진다.

따라서, S^r _mm은 용어 m이 발생되는 문장의 수를 나타내고, S^r _mn은 용어 m 및 n이 동시에 발생되는 문장의 동시 발생 카운트를 나타낸다. 각 문장내에서 각 용어가 2회 이상 발생되지 않는다면, S^r _mm은 문서 D_r내에서의 용어 m의 발생 빈도를 나타낸다. 다음, 시스템은 매트릭스 T를 획득하며, 그것의 mn 구성 요소는 다음과 같이 정의된다.

더욱이, 각 용어의 문서 빈도 및 입력 문서 세트내의 각 용어를 저장하는 문서 빈도 매트릭스 U⁰이 획득된다. 매트릭스 U⁰ _mm및 U⁰ _mn은 용어 m이 발생되는 문서의 수 및 용어 m 및 n이 동시 발생되는 문서의 수를 각각 나타낸다. 전술한 바와 같은 매트릭스 T 및 U⁰을 이용함으로써, 공통 동시 발생 매트릭스 T^A가 획득된다. 공통 동시 발생 매트릭스 T^A의 mn 구성 요소는 다음과 같이 결정된다.

"A"는 실험적으로 결정된 임계값을 나타낸다.

이하에 주어진 바와 같은 mn 구성 요소를 갖는 매트릭스 Q^A가 정의되어, 공통 동시 발생 매트릭스로서 이용된다.

계층적 클러스터링이 수행되는 경우, U⁰ _mn의 값이 임계값을 초과할 때 U⁰ _mn은 0으로 설정된다.

단계(24)에서, 프로세서(130)는 이전에 기술된 단계 1 및 2를 수행함으로써, 클러스터의 시드 문서를 추출하여, 초기 클러스터를 구성한다. 임의의 현재 클러스터에 대한 문서 공통성이 임계값보다 작은 문서는 나머지 문서 세트라고 가정한다. 나머지 문서 세트는 임의의 현재 클러스터에 속하지 않을 가능성이 높은 문서의 세트이다. 공통 동시 발생 매트릭스 T^A, Q^A, 및 문서 빈도 매트릭스 U는 (1)제 1 반복시의 입력 문서 세트 및 (2) 제 2 및 후속 반복시의 나머지 문서 세트에 기초하여 계산된다.

클러스터의 시드 문서는 문서가 기술하는 토픽에서의 현저한 문서인 것이 바람직하다. 나머지 문서 세트내의 가장 현저한 토픽의 문서 그룹에서의 현저한 문서는 나머지 문서 세트에 대해 높은 문서 공통성을 갖는 것으로 가정되기 때문에, 단계(24)는 (1) 나머지 문서 세트내의 각 문서와 나머지 문서 세트 사이의 문서 공통성을 결정하고, (2) 높은 문서 공통성을 갖는 문서를 클러스터의 시드의 후보로서 선택한다. S^P를 임의의 문서 P에 대한 공통 동시 발생 매트릭스라고 한다. 단계(24) 동안, 문서 P와 나머지 문서 세트 사이의 문서 공통성은 다음과 같이 획득된다.

수학식 (2)에서, 매트릭스 T^A는 또한 매트릭스 Q^A대신에 이용될 수 있다. 복수의 토픽에 공통인 용어의 영향을 감소시키기 위해, 동시 발생 매트릭스 및 공통 동시 발생 매트릭스의 대각선 구성 요소는 수학식 (2)에서 이용될 수 없는데, 그 이유는, 각각의 용어는 용어 쌍보다 용이하게 복수의 토픽에서 공유되는 경향이 있기 때문이다.

클러스터의 시드 문서의 후보는 수학식 (2)를 이용하여 나머지 문서 세트내의 모든 문서에 대한 문서 공통성을 계산하고, 높은 문서 공통성을 갖는 특정 수의 문서를 선택함으로써 획득된다.

다음, 클러스터 시드 문서 추출을 다루는 단계(24)의 일부에 대해 기술된다. 각각의 후보 문서에 대해, 나머지 문서 세트 D내의 모든 문서의 유사성이 처음에 획득된다. 잘 알려진 코사인 유사성이 유사성 기준으로서 채택될 수 있다. 다음, 각각의 후보 문서에 대해, 사전설정된 임계값보다 큰 유사성을 갖는 문서가, 각각의 후보 문서의 인접 문서로서 획득된다. 가장 큰 수의 인접 문서를 갖는 문서가, 후보 문서로부터 클러스터 시드 문서로서 선택된다. 초기의 클러스터는 시드 문서의 인접 문서에 의해 주어진다.

블럭(130)이 수행하는 클러스터 성장 단계(25)에서, 높은 공통성을 갖는 문서를 클러스터와 합병함으로써 클러스터가 성장한다. 도 3은 클러스터 성장 단계(25)의 상세한 흐름도이다. 처음에 블럭(130)은, 단계(31) 동안, 문서 빈도 매트릭스를 구성한다. 블럭(130)은, 단계(32) 동안, 공통 동시 발생 매트릭스를 구성하고, 이어서 각 용어 및 용어 쌍에 대한 변별성 계산이 수행되는 단계(33)이 뒤따른다. 그 다음, 단계(34) 동안, 블럭(130)은 문서 공통성을 계산하고, 이어서 클러스터 멤버 결정이 수행되는 단계(35)가 뒤따른다. 블럭(130)은 종료 조건 검사 단계(36)로 진행한다.

문서 빈도 매트릭스의 구성을 포함하는 단계(31) 및 공통 동시 발생 매트릭스의 구성을 포함하는 단계(32) 동안, 블럭(130)은 현재 처리된 문서의 세트에 대해 단계(31, 32) 동안 처리를 수행한다. 이들 단계(31, 32)의 처리는 도 2의 단계(23) 동안의 문서 빈도 매트릭스 구성 처리 및 공통 동시 발생 매트릭스 구성 처리와 동등하다.

U를 단계(31) 동안에 획득한 문서 빈도 매트릭스라고 하자. T^A및 Q^A를 각각 단계(32) 동안에 획득한 공통 동시 발생 매트릭스 및 그의 수정된 매트릭스라 하자. 단계(33) 동안에, 블럭(130)은 각 용어에 대한 변별성 및 가중치를 결정한다. 문서 빈도가 0인 용어 및 용어 쌍에 대한 가중치는 0으로 설정된다. 상술한 방식에 있어서, 우선, 용어 m에 대한 문서 빈도율로서 U⁰ _mm/U_mm을 획득한다. 또한, 높은 문서 빈도를 갖는 특정 수의 용어 및 작은 문서 빈도율을 갖는 특정 수의 용어가 선택된다. 선택된 용어는 주어진 클러스터의 구별되는 용어인 것으로 간주된다. 다음, 이들 용어의 문서 빈도율을 평균한다. c'을 평균 문서 빈도율이라 하자. 용어 m의 변별성 v_mm및 용어 쌍 m, n의 변별성 v_mn은 아래의 수학식에 의해 결정된다.

대안적으로, 평균 문서 빈도율은 구별되는 용어 쌍 및 구별되는 용어 둘다를 이용하여 획득할 수 있다. 이 경우 있어서, m이 n과 다르면, U⁰ _mn/U_mn은 용어 쌍 m,n의 문서 빈도율로서 획득되고, m이 n과 동일하면, U⁰ _mn/U_mn은 용어 m의 문서 빈도율로서 획득된다. 가장 높은 문서 빈도를 갖는 특정 수의 용어 및 용어 쌍들 중에서, 낮은 빈도율을 갖는 특정 수의 용어 또는 용어 쌍을 선택한다. 선택된 용어 또는 용어 쌍은 주어진 클러스터의 구별되는 용어 또는 용어 쌍으로서 간주된다. 다음, 이들 용어 및 용어 쌍의 문서 빈도율을 평균한다. c'를 평균이라 하자.

z_mm및 z_mn을 각각 용어 m 및 용어 쌍 m,n의 가중치라 하자. 이들 가중치는 다음과 같은 가중치 결정 함수 f(x)를 이용하여 결정된다.

f(x)에 대해 여러 함수들이 고려될 수 있다. 예를 들어, 다음과 같은 함수들이 이용될 수 있다.

f(x) = x

또는

f(x) = x²

또는

x가 임계값보다 큰 경우, f(x) = 1,

그렇지 않은 경우, f(x) = 0.

문서 공통성 계산 단계(34)에 있어서, 블럭(130)에서는 모든 입력 문서들에 대하여 주어진 클러스터에 대한 문서 공통성을 계산한다. S^p를 문서 P의 동시 발생 매트릭스라 하자. 문서 세트 D에 대한 문서 P의 문서 공통성은 다음의 수학식에 의해 획득될 수 있다.

또는

여기에서, D는 주어진 클러스터의 문서 세트를 나타낸다. 상술한 수학식에 있어서, 매트릭스 Q^A대신에 매트릭스 T^A가 이용될 수 있다.

단계(35)에 있어서, 블럭(130)에서는 특정의 값보다 높은 문서 공통성을 갖는 문서들을 선택함으로써 주어진 클러스터의 클러스터 멤버를 결정한다.

종료 조건 검사 단계(36)에 있어서, 블럭(130)에서는 주어진 클러스터의 성장 처리가 완료되었는지의 여부를 결정한다. 단계(36)의 제 1 반복시에는, 처리가 무조건적으로 단계(31)로 복귀하며, 단계(31)의 처리를 반복한다. 단계(36)의 제 2 또는 후속 반복시에는, 단계(35) 동안에 획득한 주어진 클러스터내의 문서 수를 카운트한다. 문서 수가 이전 반복시의 문서 수와 다르면, 단계(31)로 복귀하여 단계(31)의 처리를 반복한다. 단계(36) 동안의 문서 수가 이전 반복시의 문서 수와 동일하다고 결정되면, 모든 입력 문서들에 대한 주어진 클러스터의 문서 공통성을 유지하고, 주어진 클러스터의 성장 처리를 종료한다.

도 2에 대해 계속 설명한다.

단계(26) 동안에, 블럭(13)에서는 모든 현재 클러스터들에 대한 각 문서의 문서 공통성에 기초하여 나머지 문서들을 추출한다. 임의의 클러스터에 대한 문서 공통성이 임계값 미만인 문서들을 나머지 문서로서 추출한다.

종료 조건 검사 단계(27) 동안에, 블럭(110)에서는 시드 추출에서부터 성장까지의 일련의 처리가 나머지 문서들의 수에 기초하여 완료되었는지의 여부를 결정한다. 나머지 문서들의 수가 임계값 미만이고 이전 반복시의 나머지 문서 수와 동일하면, 프로시저는 단계(29)로 진행한다. 그러한 조건이 만족되지 않으면, 처리는 단계(28)로 진행하여 나머지 문서 세트에 대해 단계(23)와 동일한 처리를 수행한다.

클러스터 멤버 결정 단계(29)에서는, 각 문서가 소속되는 클러스터를 결정한다. 이것은 도 3에서 각 문서에 대하여 획득한 각각의 클러스터에 대한 문서 공통성에 대한 정보를 사용하고, 또한 그 문서 공통성이 실험에 의해 결정된 임계값보다 높은 클러스터에 각 문서를 소속시킴으로써 실행된다.

중복 클러스터의 검출 및 제거를 포함하는 단계(30) 동안에, 블럭(130)에서는 중복 클러스터가 존재하는지의 여부를 결정한다. 중복 클러스터가 존재하면 제거한다. 하나의 토픽에 대해 둘 이상의 클러스터가 획득되는 경우에 중복 클러스터가 발생한다. 그 경우에는, 토픽을 기술하는 문서가 둘 이상의 클러스터에 대해 큰 공통성을 가지며, 둘 이상의 클러스터가 서로 중첩된다. 중복 클러스터를 검출하기 위해서, 모든 문서에 대하여 모든 획득한 클러스터에 대한 문서 공통성을 우선적으로 획득한다.

다음, 주어진 클러스터에 대한 문서 공통성은 임계값보다 크지만, 임의의 다른 클러스터에 대한 문서 공통성은 임계값보다 작은 문서들의 수를 획득한다. 주어진 클러스터가 임의의 다른 클러스터와 중첩되지 않으면, 그러한 문서들의 수는 주어진 클러스터에 대한 문서 공통성이 임계값보다 높은 문서들의 수와 동일하게된다. 한편, 주어진 클러스터가 다른 클러스터와 중첩되면, 클러스터내의 문서들의 수는, 클러스터와 중첩되지 않은 문서들의 수, 즉 주어진 클러스터내에만 있는 문서의 수와 동일하게 된다.

상술한 문서들의 수는 각 클러스터의 중요도로서 정의될 수 있다. 예를 들어, 도 4a의 경우, 클러스터 1의 중요도는 클러스터 1내의 문서들의 수이다. 이것은 클러스터 2에 대해서도 마찬가지이다. 주어진 클러스터가 다른 클러스터와 부분적으로 중첩되면, 그 중요도는 다른 클러스터와 중첩되지 않은 문서들의 수가 된다. 즉, 클러스터 1에 대한 중요도는 도 4b에서 "c"로 나타낸 부분에 포함된 문서들의 수로 표시된다. 클러스터 2에 대한 중요도는 도 4b에서 "d"로 나타낸 부분에 포함된 문서 수로 표시된다.

하나의 클러스터에 대한 중요도가 특정값보다 작으면, 그 클러스터에 소속되는 문서의 수가 많을지라도, 보다 작은 중요도를 갖는 클러스터가 중복 클러스터로 간주되어 제거된다. 그러한 작은 중요도의 클러스터가 복수개 존재하면, 가장 낮은 클러스터 중요도를 갖는 클러스터가 우선적으로 제거된다. 그 다음, 나머지 클러스터에 대해 클러스터 중요도 계산이 다시 실행되고, 클러스터 중요도가 가장 낮은 클러스터가 제거된다. 중복 클러스터가 모두 없어질 때까지 이러한 방식의 처리가 반복된다. 중복 클러스터 제거가 실행되면, 각 클러스터 멤버의 결정이 다시 수행된다. 이 경우에, 클러스터 멤버 결정을 위한 다른 방법으로서, 문서 공통성이 가장 높은 클러스터에 각 문서를 할당할 수 있다.

상술한 작용에 대한 효과를 설명하기 위해, 도 2 및 도 3의 실시예에 기초한실험적 결과를 설명한다. 자료로서 TDT2가 이용된다. 자료 TDT2는, 1998년 1월부터 6월까지의 100개의 이벤트에 관련된 뉴스 스토리 세트(a set of news stories)로서 6개의 뉴스 소스로부터 수집된 것이다. Liu 등이 TDT2를 이용하여 실행한 비계층적 클러스터링의 결과들을 비교하였다(X. Liu, Y. Gong, W. Xu and S. Zhu, Document Clustering with Cluster Refinement and Model Selectin Capabilities. In Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191-198. Tampere, Finland, August, 2002). 그 구성은 Liu 등의 실험치와 동일한 데이터를 이용한 실험 결과에 기초한 것이다.

그 데이터는 ABC, CNN 및 VOA에 의해 수집된 15개의 이벤트에 관련된 뉴스 스토리 세트이다. 표 1은 이 데이터들의 세부 사항을 포함한다.

표 2는 실험에 이용된 15개의 데이터 세트와, 본 명세서에 개시된 방법 및 Liu 등에 의한 방법의 클러스터링 정확도를 포함한다. Liu 등에 의한 방법의 결과는 Liu 등의 의한 논문에 기초한 것이다. 임의의 문서가 소속되는 이벤트가 클러스터의 시드 문서의 이벤트와 부합하면, 클러스터링의 결과는 정확한 것으로 간주된다. 모든 클러스터에 대한 문서 공통성이 0인 문서는 에러가 있는 것으로 간주된다. 정확도는 정확하게 클러스터링된 문서 수와 모든 문서 수간의 비율로부터 획득된다. Liu 등의 방법에서는, 비계층적 클러스터링을 가우시안 혼합 모델에 기초하여 실행한 후에, 각 클럭스터의 구별되는 용어를 획득하며, 그 결과는 구별되는 용어를 보우팅(voating)함에 의해 정정된다. 표 2에 있어서, 테스트 데이터 ABC-01-02-15는 ABC로부터 수집되고 표 1에서 01, 02 및 15의 이벤트 ID를 갖는 문서들을 의미한다. 표 2에 있어서, 본 명세서에서 개시한 방법의 고 정확도를 갖는 데이터 세트의 수는 Liu 등의 방법에서의 데이터 세트의 수보다 더 많다.

Liu 등의 논문에 나열된 12 데이터 세트와 관련하여, 본 명세서에서 개시된 방법에서는 추출된 클러스터의 수가 정확하였다. 한편, Liu 등의 방법에서는, 12 데이터 세트들 중 3 데이터 세트에 대해 추출된 클러스터의 수가 부정확하였다.표 3은 Liu 등에 의한 방법과 본 명세서에 개시된 방법의 결과를 포함한다.

상술한 바와 같이, 본 명세서에 개시된 방법에 따르면, 정확한 수의 클러스터가 입력 문서 세트로부터 추출될 수 있으며, 각 문서는 높은 정확도로 클러스터에 할당될 수 있다. 그러므로, 사용자에 의한 정보 획득의 효율이 크게 개선될 수 있다.

상술한 실시예는 문서 세트를 예시적으로 인용하여 설명한 것이다. 또한, 개시한 실시예는 본 명세서에서 설명한 문서 세트와 유사하게 나타낼 수 있거나, 또는 그 문서 세트와 동일한 특징을 갖는 패턴 세트에 적용될 수 있다. 문서를 패턴으로 대체하는 것은, (1) 문서의 용어를 패턴의 구성 요소로 대체하고, (2) 문서 세그먼트를 패턴 세그먼트로 대체하고, (3) 문서 빈도 매트릭스를 패턴 빈도 매트릭스로 대체하고, (4) 각 문서에 대한 동시 발생 매트릭스를 각 패턴에 대한 동시 발생 매트릭스로 대체하고, (5) 문서 공통성을 패턴 공통성으로 대체하는 것 등을 포함한다. 결과적으로, 본 발명의 원리는 문서 세트 뿐만 아니라, 패턴 세트에도 적용될 수 있다. 특허 청구 범위에 있어서, 용어, (또는 패턴)과 (또는 객체 특징)은 문서가 아닌 패턴과 관련한 동작을 나타내는데 이용된다.

본 발명에 의하면, 정확한 수의 클러스터가 입력 문서 세트로부터 추출될 수 있으며, 각 문서는 높은 정확도로 클러스터에 할당될 수 있다. 그러므로, 사용자에 의한 정보 획득의 효율이 크게 개선될 수 있는 효과가 있다.

Claims

문서(또는 패턴)들을 그들간의 관계에 기초하여 클러스터링하기 위한 것으로, 상기 문서 각각은 입력 문서(또는 패턴) 세트내에 하나 이상의 문서(또는 패턴) 세그먼트를 갖는, 문서 클러스터링 방법에 있어서,

(a) 각 문서(또는 패턴)에 나타난 용어의 발생 빈도에 기초하여, 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스를 획득하는 단계와,

(b) 시드(seed) 문서(또는 패턴)를 선택하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)들로부터 상기 시드 문서(또는 패턴)를 선택하고, 상기 시드 문서(또는 패턴)를 이용하여 초기 상태의 현재 클러스터를 구성하는 단계와,

(c) 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 상기 현재 클러스터내의 문서(또는 패턴)들에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 및 상기 현재 클러스터의 공통 동시 발생 매트릭스에 기초한 정보를 이용하여 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하고, 상기 문서 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)를 형성하는 단계와,

(d) 상기 현재 클러스터에 임시로 소속된 문서(또는 패턴)들의 수가 이전 반복시의 문서들의 수와 동일하게 될 때까지 상기 (c) 단계를 반복하는 단계와,

(e) 주어진 수렴 조건이 만족될 때까지 상기 (b) 단계 내지 (d) 단계를 반복하는 단계와,

(f) 상기 각 클러스터에 대한 각 문서(또는 패턴)의 문서(또는 패턴) 공통성에 기초하여, 상기 각 문서(또는 패턴)가 소속되는 클러스터를 결정하는 단계를 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 (a) 단계는,

(a-1) 상기 각 문서(또는 패턴) 세그먼트에 나타난 용어의 발생 빈도에 기초하여, 상기 각 문서(또는 패턴) 세그먼트들 각각에 대한 문서(또는 패턴) 세그먼트 벡터를 생성하는 단계와,

(a-2) 상기 문서(또는 패턴) 세그먼트 벡터로부터 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대한 동시 발생 매트릭스를 획득하는 단계와,

(a-3) 상기 각 문서에 대한 상기 동시 발생 매트릭스로부터 문서(또는 패턴) 빈도 매트릭스를 획득하는 단계를 더 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 (b) 단계는,

(b-1) 공통 동시 발생 매트릭스를 구성하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)들의 상기 공통 동시 발생 매트릭스를 구성하는 단계와,

(b-2) 상기 나머지 문서(또는 패턴)들의 상기 공통 동시 발생 매트릭스를 이용하여, 상기 나머지 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 나머지 문서(또는 패턴) 세트에 대한 문서 공통성을 획득하고, 가장 높은 문서(또는 패턴) 공통성을 갖는 문서(또는 패턴)를 추출하며, 상기 시드 문서(또는 패턴) 및, 상기 시드 문서(또는 패턴)와 유사한 인접 문서(또는 패턴)를 포함하는 문서(또는 패턴) 세트를 형성하여, 상기 초기 상태의 현재 클러스터를 구성하는 단계를 더 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 (c) 단계는,

(c-1) 상기 현재 클러스터의 공통 동시 발생 매트릭스 및 상기 현재 클러스터의 문서(또는 패턴) 빈도 매트릭스를 구성하는 단계와,

(c-2) 상기 입력 문서(또는 패턴) 세트의 상기 문서(또는 패턴) 빈도 매트릭스와 상기 현재 클러스터의 상기 문서(또는 패턴) 빈도 매트릭스를 비교하여, 상기 현재 클러스터에 대한 각 용어 및 각 용어 쌍의 변별성을 획득하는 단계와,

(c-3) 상기 현재 클러스터의 상기 공통 동시 발생 매트릭스와, 상기 각 용어 및 각 용어 쌍의 변별성으로부터 획득한 상기 각 용어 및 용어 쌍의 가중치를 이용하여, 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하고, 상기 문서(또는 패턴) 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)를 형성하는 단계를 더 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

임의의 현재 클러스터에 대한 문서(또는 패턴) 공통성이 임계값 미만인 문서(또는 패턴)들의 수가 0이 되거나, 또는 상기 수가 임계값 미만이고, 상기 이전 반복시의 문서 수와 동일하게 될 때까지 상기 (e) 단계를 반복하는 단계를 더 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 (f) 단계는,

중복 클러스터의 존재 여부를 검사하여, 상기 중복 클러스터가 존재하면 이를 제거하고, 각 문서가 소속된 클러스터를 다시 결정하는 단계를 더 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 문서(또는 패턴) D_r의 동시 발생 매트릭스 S^r은 아래의 수학식에 의해 결정되고,

M은 발생 용어의 종류 수이고, D_r은 R개의 문서(또는 패턴)로 구성되는 문서(또는 패턴) 세트 D내의 r번째 문서(또는 패턴)이고, Y_r은 문서(또는 패턴) D_r내의 문서(또는 패턴) 세그먼트들의 수이고, d_ry= (d_ry1, ..., d_ryM)^T는 문서(또는 패턴) D_r의 y번째 문서(또는 패턴) 세그먼트 벡터이고, T는 벡터의 전치를 나타내는

문서 클러스터링 방법.
제 1 항에 있어서,

문서(또는 패턴) 세트 D의 상기 문서(또는 패턴) 빈도 매트릭스의 각 구성 요소는, 상기 문서(또는 패턴) 세트 D내의 각 문서(또는 패턴)의 동시 발생 매트릭스의 대응하는 구성 요소가 0의 값을 취하지 않은 문서(또는 패턴)들의 수인

문서 클러스터링 방법.
제 1 항에 있어서,

아래의 수학식에 의해 결정되는 mn 구성 요소를 갖는 매트릭스 T^A에 의해 mn 구성 요소가 결정되는 매트릭스 T에 기초하여 매트릭스 T^A로부터 문서(또는 패턴) 세트 D의 공통 동시 발생 매트릭스를 결정하는 단계를 더 포함하되,

U_mn은 상기 문서(또는 패턴) 세트 D의 상기 문서(또는 패턴) 빈도 매트릭스의 mn 구성 요소를 나타내는

문서 클러스터링 방법.
제 1 항에 있어서,

mn 구성 요소가 아래의 수학식에 의해 결정되는 매트릭스 T에 기초하여 매트릭스 Q^A로부터 문서(또는 패턴) 세트 D의 공통 동시 발생 매트릭스를 결정하는 단계를 더 포함하되,

mn 구성 요소를 갖는 상기 매트릭스 Q^A는 다음의 수학식에 의해 결정되는

문서 클러스터링 방법.
제 10 항에 있어서,

z_mm및 z_mn은 각각 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n의 가중치이고, 상기 문서(또는 패턴) 세트 D에 대하여 동시 발생 매트릭스 S^P를 갖는 문서(또는 패턴) P의 문서(또는 패턴) 공통성은 아래의 수학식에 의해 주어지는

또는

문서 클러스터링 방법.
제 9 항에 있어서,

z_mm및 z_mn은 각각 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n의 가중치이고, 상기 문서(또는 패턴) 세트 D에 대하여 동시 발생 매트릭스 S^P를 갖는 문서(또는 패턴) P의 문서(또는 패턴) 공통성은 아래의 수학식에 의해 주어지는

또는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 현재 클러스터의 시드 문서(또는 패턴)의 추출과, 상기 초기 상태의 상기 현재 클러스터의 구성은,

(a) 상기 나머지 문서(또는 패턴)의 상기 공통 동시 발생 매트릭스를 이용하여, 상기 나머지 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여, 상기 나머지 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 공통성을 획득하는 단계와,

(b) 상기 현재 클러스터의 상기 시드 문서의 후보로서, 상기 (a) 단계에서 획득한 문서(또는 패턴) 공통성이 큰 특정 수의 문서(또는 패턴)를 추출하는 단계와,

(c) 상기 입력 문서(또는 패턴) 세트 또는 상기 나머지 문서(또는 패턴) 세트내의 모든 문서(또는 패턴)에 대하여 상기 클러스터의 상기 시드 문서의 각 후보들의 유사성을 획득하고, 임계값보다 큰 유사성을 갖는 문서(또는 패턴)들을 상기 후보의 인접 문서(또는 패턴)들로서 획득하는 단계와,

(d) 상기 인접 문서(또는 패턴)들의 수가 상기 후보들 중에서 가장 큰 후보를 상기 현재 클러스터의 상기 시드 문서로 선택하고, 그의 인접 문서(또는 패턴)들을 상기 초기 상태의 상기 현재 클러스터로 하는 단계를 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

상기 현재 클러스터에 대하여 각 용어(또는 객체 특징) 및 각 용어 쌍의 변별성을 검출하고, 그들의 가중치를 검출하는 단계를 더 포함하되,

상기 변별성 및 가중치 검출 단계는,

(a) 상기 입력 문서(또는 패턴) 세트로부터 획득한 문서(또는 패턴) 빈도 매트릭스의 각 구성 요소와, 상기 현재 클러스터로부터 획득한 문서(또는 패턴) 빈도 매트릭스의 대응하는 구성 요소간의 비율을, 각 용어(또는 특징) 또는 각 용어(또는 특징) 쌍의 문서(또는 패턴) 빈도율로서 획득하는 단계와,

(b) 가장 높은 문서(또는 패턴) 빈도를 갖는 특정 수의 용어(또는 특징) 또는 용어(또는 특징) 쌍들 중에서, 가장 작은 문서(또는 패턴) 빈도율을 갖는 특정 수의 용어(또는 특징) 또는 용어(또는 특징) 쌍을 선택하고, 상기 선택된 용어(또는 특징) 또는 용어(또는 특징) 쌍의 문서(또는 패턴) 빈도율의 평균을, 평균 문서(또는 패턴) 빈도율로서 획득하는 단계와,

(c) 상기 각 용어(또는 특징) 또는 용어(또는 특징) 쌍의 변별성 측정치로서, 상기 평균 문서(또는 패턴) 빈도율을 상기 각 용어(또는 특징) 또는 각 용어(또는 특징) 쌍의 상기 문서(또는 패턴) 빈도율로 제산하는 단계와,

(d) 상기 변별성 측정치를 변수로 갖는 함수로부터 각 용어(또는 특징) 및 각 용어(또는 특징) 쌍의 가중치를 결정하는 단계를 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

임계값보다 더 높은 문서(또는 패턴) 빈도를 갖는 용어(또는 특징) 또는 용어(또는 특징) 쌍을 제거하는 단계를 더 포함하는

문서 클러스터링 방법.
제 1 항에 있어서,

클러스터에 포함된 문서(또는 패턴) 세트가 상기 입력 문서(또는 패턴) 세트로 되게 함으로써 클러스터링을 반복적으로(recursively) 수행하는

문서 클러스터링 방법.
컴퓨터가 상기 청구항 1의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
컴퓨터가 상기 청구항 2의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
컴퓨터가 상기 청구항 3의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
컴퓨터가 상기 청구항 4의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
컴퓨터가 상기 청구항 5의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
컴퓨터가 상기 청구항 6의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
상기 청구항 1의 방법을 수행하도록 구성된 컴퓨터.
상기 청구항 2의 방법을 수행하도록 구성된 컴퓨터.
상기 청구항 3의 방법을 수행하도록 구성된 컴퓨터.
상기 청구항 4의 방법을 수행하도록 구성된 컴퓨터.
상기 청구항 5의 방법을 수행하도록 구성된 컴퓨터.
상기 청구항 6의 방법을 수행하도록 구성된 컴퓨터.
문서(또는 패턴)들을 그들간의 관계에 기초하여 클러스터링하기 위한 것으로, 상기 문서 각각은 입력 문서(또는 패턴) 세트내에 하나 이상의 문서(또는 패턴) 세그먼트를 갖는, 문서 클러스터링 장치에 있어서,

(a) 각 문서(또는 패턴)에 나타난 용어의 발생 빈도에 기초하여, 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스를 획득하는 수단과,

(b) 시드 문서(또는 패턴)를 선택하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)로부터 상기 시드 문서(또는 패턴)를 선택하고, 상기 시드 문서(또는 패턴)를 이용하여 초기 상태의 현재 클러스터를 구성하는 수단과,

(c) 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 상기 현재 클러스터내의 문서(또는 패턴)들에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 및 상기 현재 클러스터의 공통 동시 발생 매트릭스에 기초한 정보를 이용하여 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하기 위한 수단 및, 상기 문서 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)들을 형성하는 수단과,

(d) 상기 현재 클러스터에 임시로 소속된 문서(또는 패턴)들의 수가 이전 반복시의 문서들의 수와 동일하게 될 때까지 상기 (c) 수단의 동작을 반복시키는 수단과,

(e) 주어진 수렴 조건이 만족될 때까지 상기 (b) 수단 내지 (d) 수단의 동작을 반복시키는 수단과,

(f) 상기 각 클러스터에 대한 각 문서(또는 패턴)의 문서(또는 패턴) 공통성에 기초하여, 상기 각 문서(또는 패턴)가 소속되는 클러스터를 결정하는 수단을 포함하는

문서 클러스터링 장치.