KR20040078896A - 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터 - Google Patents

문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터 Download PDF

Info

Publication number
KR20040078896A
KR20040078896A KR1020040014809A KR20040014809A KR20040078896A KR 20040078896 A KR20040078896 A KR 20040078896A KR 1020040014809 A KR1020040014809 A KR 1020040014809A KR 20040014809 A KR20040014809 A KR 20040014809A KR 20040078896 A KR20040078896 A KR 20040078896A
Authority
KR
South Korea
Prior art keywords
document
pattern
cluster
documents
term
Prior art date
Application number
KR1020040014809A
Other languages
English (en)
Other versions
KR101086510B1 (ko
Inventor
가와타니다카히코
Original Assignee
휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피 filed Critical 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피
Publication of KR20040078896A publication Critical patent/KR20040078896A/ko
Application granted granted Critical
Publication of KR101086510B1 publication Critical patent/KR101086510B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Abstract

문서(또는 패턴) 클러스터링에 있어서, 정확한 수의 클러스터와, 정확한 클러스터에 대한 각 문서(또는 패턴)의 정밀한 할당이 달성된다. 동일한 토픽(또는 객체)을 기술하는 문서(또는 패턴)가 그룹화되고, 그에 따라 동일 클러스터에 소속된 문서(또는 패턴) 그룹이 얼마간의 공통성을 갖는다. 각 토픽(또는 객체)은 구별되는 용어(또는 객체 특징) 또는 용어(또는 객체 특징) 쌍을 갖는다. 주어진 클러스터에 대한 각 문서(또는 패턴)의 근사성이 획득되면, 주어진 클러스터에 대한 공통 정보가 추출되고 이용되며, 주어진 클러스터에 대해 구별되지 않는 용어(또는 객체 특징) 또는 용어(또는 객체 특징) 쌍의 영향은 배제된다.

Description

문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치, 컴퓨터{DOCUMENT AND PATTERN CLUSTERING METHOD AND APPARATUS}
본 발명은 문서 및 패턴 클러스터링(document or pattern clustering)을 포함하는 처리에 관한 것이다.
문서 및 패턴 클러스터링은 입력된 문서 또는 패턴 세트를 문서 또는 패턴의 내용 또는 토픽에 따라 몇몇 그룹으로 분할하기 위한 기법이다. 클러스터링 기법은 오랫동안 연구되어 왔고, 지금까지 고안된 방법은 C. D. Manning과 H. Schutze가 발표한 "Foundations of Statistical Natural Language Processing" (The MIT Press, 1999)에 체계적으로 개시되어 있다. 소프트 클러스터링이라 일컫는 클러스터링은 각 문서 또는 패턴이 각 클러스터에 속할 확률을 얻는다. 하드 클러스터링이라 일컫는 클러스터링은 각 문서 또는 패턴이 각 클러스터에 소속되는지 여부를 결정한다. 하드 클러스터링은 계층 및 비계층적 방안으로 더 나뉜다. 계층적 방안은 상향식(bottom-up) 및 하향식(top-down) 방안으로 더 나뉜다. 계층적 방안의 초기 상태에서, 각 문서 또는 패턴은 클러스터의 시드(seed)가 되고, 최근사 클러스터를 합병(merging)하는 처리를 반복한다. 최근사 클러스터를 합병하기 위해, 문서 또는 패턴 세트를 트리 구조(tree structure)로 표현한다. 클러스터들간에 가까운 정도(즉, 유사성(similarity))를 측정하는 방법으로서 단일 연결법(single link method), 완전 연결법(complete link method) 및 그룹 평균법(group average method)이 알려져 있다. 이들 측정법의 각각에서, 계산은 두 문서 또는 패턴간의 유사성에 근거하여 수행된다. 하향식 방안에서, 모든 문서 또는 패턴이 하나의 클러스터내에 있는 초기 상태로부터 처리를 반복한다. 예를 들어, 하나의 클러스터내에서 모든 문서 또는 패턴 쌍의 최저 유사성(lowest similarity)이 임계값보다 작으면, 클러스터는 분할된다.
비계층적 방법에서, 미리 정해진 수의 클러스터가 소정의 기준을 만족시키도록 정해진다. 비계층적 방법에서의 전형적인 처리 단계들은 다음으로서, 단계 1: 특정 수의 클러스터링 문서 또는 패턴을 임의로 선택하여 그들을 각 클러스터의 중심으로 만들고,
단계 2: 각 문서 또는 패턴과 각 클러스터 중심과의 거리를 계산하여 각 문서 또는 패턴을 그것에 가장 가까운 클러스터에 귀속시키고,
단계 3: 각 클러스터에 소속되는 문서 또는 패턴 벡터를 평균(averaging)함으로써 각 클러스터의 중심을 결정하고,
단계 4: 각 문서 또는 패턴이 소속되는 클러스터가 변경되지 않았으면, 단계 2의 처리를 수행하고 프로시저를 종료하고, 변경되었으면, 단계 3을 수행한다.
통상적인 문서 및 패턴 클러스터링 기법은 세 가지 심각한 문제를 갖고 있다. 한 가지 문제는 획득할 클러스터 수에 관한 것이다. 문서 또는 패턴 클러스터링에서, 획득할 클러스터의 수는 입력된 문서 또는 패턴 세트의 문서 또는 패턴에 나타난 토픽 수와 같아야 한다. 위에 설명한 바와 같이, 상향식 계층적 클러스터링 처리에서, 각 클러스터는 하나의 문서 또는 패턴을 포함하는 상태로부터 시작하여, 모든 문서 또는 패턴이 최종적으로 하나의 클러스터내에 있을 때까지 최근사 클러스터를 합병하는 것을 반복한다. 따라서, 클러스터들의 수가 토픽의 수와 같은 클러스터를 얻기 위해서는, 클러스터 합병을 중지할 필요가 있다. 이는,유사성이 임계값보다 작은 클러스터 쌍들을 합병하지 않음으로써 실현될 수 있다. 그러나, 임계값을 결정하기가 어렵다. 임계값이 부적절하면, 정확한 수의 클러스터가 획득될 수 없다. 이와 유사하게, 하향식 클러스터링 처리에서는, 하나의 클러스터내에서 모든 문서 또는 패턴 쌍의 최저 유사성이 임계값보다 높으면 클러스터가 분할되지 않아, 원리적으로 토픽 수와 동일한 수의 클러스터가 획득되어야 한다.
이러한 경우에도 임계값을 결정하기가 어렵다. 또한, 비계층적 클러스터링에서, 주어진 문서 세트가 분할될 클러스터의 수를 사용자가 (미리) 입력할 것을 요구한다. 그러나, 입력 문서 또는 패턴 세트에 대한 사전지식 없이 클러스터 수에 관한 정보를 정확히 입력하는 것은 불가능하다. 위에 언급한 바와 같이, 입력 문서 또는 패턴 세트로부터 정확한 수의 클러스터를 얻는 것은 어려운 문제이다. 비계층적 클러스터링으로 클러스터 수를 정확히 추론하려한 Liu 등에 의해 성능이 향상되었으나, 완벽하지는 않다(X. Liu, Y. Gong, W. Xu and S. Zhu, Document Clustering with Cluster Refinement and Model Selectin Capabilities; Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191-198. Tampere, Finland, August, 2002).
제 2의 문제는 클러스터링 정확성이다. 이는, 동일한 클러스터에 소속되는 문서 또는 패턴이 동일한 토픽 또는 객체를 기술하는지의 여부에 관한 것이다. 일반적으로, 클러스터링 처리에서, 문서는 벡터로 표현된다. 각 벡터 구성 요소는 문서내에서 각 용어의 존재나 그 용어 발생 빈도에 의존한다. 두 개의 클러스터간의 유사성은, (1) 상이한 클러스터에 소속되는 문서들의 두 개의 벡터간의 코사인 유사성(cosine similarity) 및 (2) 특정 문서와 클러스터간의 거리에 기초하여 결정된다. 문서 또는 패턴과 클러스터간의 거리는 문서 또는 패턴의 벡터와 클러스터내의 문서 또는 패턴의 평균 벡터간의 거리(가령, 유클리디언 거리(Euclidean distance)에 의해 결정된다. 통상의 클러스터링 처리에서는, 코사인 유사성 또는 유클리디언 거리가 획득되면, 보통 각 문서 또는 패턴에 대해 획득된 벡터는 클러스터에 어떤 용어가 중요한 지에 대한 확인 없이 사용된다. 그래서, 각 클러스터에 필수적이지 않은 용어나 객체 특징 또는 용어나 객체 특징 쌍의 존재는 클러스터링 정확성에 영향을 미칠 수 있다.
제 3의 문제는 토픽이나 객체의 계층을 추출하는 방법에 관한 것이다. 보통, 토픽 또는 객체에는 계층이 존재한다. 예를 들어, 토픽 "이라크 전쟁"을 고려해 보자. 관련된 뉴스 기사에서의 서브토픽(subtopic)은 "이라크 전쟁", "사담 후세인(Saddam Hussein)", "미국에 의한 대량 사살 무기 조사", "부시 대통령의 의견", "프랑스, 독일 및 러시아의 대항" 중 임의의 하나일 수 있다. 이러한 뉴스 기사의 클러스터링 결과를 고려해 보자. "이라크 전쟁"에 대해 알고자 하는 사용자는 서브클러스터링(sub-clustering)에 의해 획득된 각 서브토픽에 대응되는 문서 그룹이 나타나기를 원할 것이다. 사용자는 보통 본래의 클러스터링 결과가 나타나지 않기를 원할 것이다. 위에서 언급한 바와 같이, 개별 토픽에 대응되는 클러스터를 정확하게 결정하여 각 문서를 정확한 클러스터에 할당하는 것이 어렵기 때문에, 서브클러스터링은 어려운 문제로 남아있다.
토픽(또는 객체) 계층이 획득되지 않은 플랫 클러스터링(flat clustering)의 경우를 고려해보자. 문서(또는 패턴) 클러스터링은, 각 문서(또는 패턴)에 기술된 토픽(또는 객체)에 따라 문서(또는 패턴)를 그룹으로 나누기 때문에, 하나의 클러스터에 소속되는 문서(또는 패턴)(클러스터 문서(또는 패턴) 세트라 일컫어짐)는 동일한 토픽(또는 객체)을 기술해야 한다. 따라서, 클러스터 문서 세트는 몇 가지 공통성을 가져야 한다. 또한, 각각의 토픽(또는 객체)은, 그 토픽(또는 객체)과 구별되고 그 토픽(또는 객체)에서는 자주 발견되지만 다른 토픽(또는 객체)에서는 거의 발견되지 않는 용어나 용어 쌍을 가져야 한다. 따라서, 클러스터들간에 용어나 용어 쌍(또는 객체나 객체 쌍)의 발생 경향에는 차이가 있어야 한다.
위의 관점에서, 본 발명의 일 측면에 따라, 클러스터링의 정확성을 향상시키기 위해, 클러스터링 처리에 다음이 도입된다. A) 주어진 클러스터 문서(또는 패턴) 세트의 공통 정보가 추출되고, 공통 정보를 이용하여 주어진 클러스터로의 각 문서(또는 패턴)의 근사성(closeness)(문서(또는 패턴) 공통성)이 획득된다. B) 주어진 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체 특징이나 객체 특징 쌍)이 검출되고, 구별되지 않는 그 쌍들의 영향은 문서 공통성의 계산에서 제외된다.
통상의 계층적 처리에서, 클러스터의 합병 또는 분할을 수회 반복한다. 통상인 비계층적 처리에서, 클러스터들의 멤버는 여러 차례 상호교환된다. 그러므로, 종래의 기술로, 제각각의 클러스터들의 공통 정보, 또는 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체 특징이나 객체 특징 쌍)을 검출하기가 어렵다.
본 발명의 일 측면은 다음과 같은 여러 단계들을 포함하는 방법을 사용한다.
단계 1: 클러스터 시드의 후보는 제 1 반복시 모든 문서(또는 패턴)로부터 검출된다. 제 2 또는 후속 반복시, 클러스터 시드 후보는 임의의 현재 클러스터에의 문서(또는 패턴) 공통성이 임계값보다 작은 문서(또는 패턴)로부터 검출된다.
단계 2: 각 후보에 관해서, 모든 문서(또는 패턴)에의 유사성이 검출된다. 유사성이 임계값보다 높은 문서(또는 패턴)는 인접(neighbor) 문서(또는 패턴)로서 추출된다. 최다수의 인접 문서(또는 패턴)를 갖는 후보 문서(또는 패턴)가 클러스터의 시드로서 선택된다. 클러스터는 시드의 인접 문서(또는 패턴)의 세트로 구성된다.
단계 3: 각각의 문서(또는 패턴)의 현재 클러스터와의 문서(또는 패턴) 공통성이 검출된다. 임계값보다 높은 문서(또는 패턴) 공통성을 갖는 문서(또는 패턴)는 임시적으로 그 클러스터에 속하게 되어서 그 클러스터는 성장하게 된다. 그 클러스터에 임시적으로 소속되는 문서(또는 패턴)의 수가 일정하면, 프로시저는 단계 4로 진행된다. 그렇지 않으면, 각 문서(또는 패턴)의 현재 클러스터와의 문서(또는 패턴) 공통성이 재검출된다. 종료 조건이 만족되면, 처리는 다음 단계로 진행된다. 종료 조건이 만족되지 않으면, 처리는 단계 1로 돌아가 계속된다.
단계 5: 다음 단계에서, (각각의 문서(또는 패턴)에 관해) 각각의 클러스터에의 문서(또는 패턴) 공통성이 검출되고, 각 문서(또는 패턴)는, 문서(또는 패턴) 공통성이 임계값보다 높은 클러스터에 소속되는 것으로 판정된다.
다음으로, 두 개 이상의 클러스터가 중첩되고 하나의 토픽(또는 객체)에 대응되는지 여부를 결정한다. 이러한 클러스터는 중복 클러스터(redundant cluster)로서 판단되어, 고려되는 각각의 문서(또는 패턴)가 소속되는 클러스터를 재획득한다.
위의 클러스터링 프로시저에서, 공통 정보를 사용하는 문서(또는 패턴) 공통성의 계산 및 주어진 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체나 객체 쌍)의 검출이 단계 3 및 5에서 수행된다. 전자에 있어서, 주어진 클러스터에 임시적으로 소속되는 문서(또는 패턴)로부터 공통 정보가 추출된다. 공통 정보의 추출 및 사용에 있어서는, 일본 특허 출원 제 2002-326157 호에 개시된 방법을 채택할 수 있다.
주어진 클러스터가 R개의 문서로 구성되고, R개의 문장으로 구성된 문장 그룹은 각 문서로부터 하나의 문장을 추출함으로써 형성된다고 가정하면 기본 개념을 이해할 수 있다. 문장 그룹은 문장의 가능한 모든 조합에 대해 구성된다. 이러한 문장 그룹의 전체 수는 제각각의 문서의 문장 수의 곱과 같게 된다. 주어진 문장 그룹에서, R개의 문장 중에서 A개보다 많은 문장에서 발견되는 용어는 공통 용어(common term)로서 정의되고, 공통 용어로 구성된 문장은 공통 문장이라 일컫어진다. A개보다 많은 문서에서 발견되는 용어는 몇몇 문장 그룹에서 공통 용어가 된다. 또한, 공통 문장은 모든 문장 그룹에 대해 구성되어, 공통 문장의 세트가 구성된다고 가정하자. 위에서 언급한 바와 같이, 공통 문장의 세트는 주어진 클러스터의 공통 토픽 내용을 나타낸다고 간주될 수 있다. 따라서, 각각의 문서와 공통 문장 세트간의 유사성이 문서 공통성으로서 획득될 수 있으면, 그것은 각각의 문서가, 주어진 클러스터의 공통 토픽에 근사하다는 것을 나타낼 것이다.
문서(또는 패턴)와 공통 문장의 세트(또는 객체의 그룹)간의 유사성은, 문서(또는 패턴)가 A개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)를 포함할 때만 0이 아닌 값(non-zero value)을 갖는다. 두 개의 값, A1및 A2(A1>A2)를 A의 값으로서 고려해보자. A1개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)의 수는 A2개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)의 수보다 작기 때문에, A=A1이면 공통 문장(또는 객체 그룹)의 토픽은 A=A2일 때보다 한정적이다. 그러므로, 공통 문장(또는 객체 그룹) 세트와의 유사성이 임계값보다 큰 문서(또는 패턴)의 토픽 범위(spread)는 A=A2일 때보다 A=A1일 때 작다. 더욱이, A1개보다 많은 문서(또는 패턴)에서 발견되는 용어를 포함하는 문서(또는 패턴)의 수는 A=A2일 때의 수보다 작다. 문서(또는 패턴)와 공통 문장의 세트(또는 객체의 그룹)와의 유사성이 단계 3 및 5에서 문서(또는 패턴) 공통성으로서 채택되면, A가 작은 값으로 설정될 때, 클러스터는 토픽이 광범위한 문서(또는 패턴)로 구성되고, 그 역도 마찬가지다. 그래서, A의 값은 클러스터의 토픽(또는 객체)범위를 제어한다.
주어진 클러스터와 구별되지 않는 용어 및 용어 쌍(또는 객체 및 객체 쌍)은, 그 시드 문서(또는 패턴)의 토픽(또는 객체)이 i인 주어진 클러스터의 성장 처리를 고려함으로써 검출된다. 이 개념을 이해하기 위해, (1) 전체 문서 세트 중 토픽 i를 기술하는 문서의 수가 co개이고, (2) c는 주어진 클러스터의 문서 세트가고, (3) 용어 m을 포함하는 문서의 수는 전체 입력 문서 세트 중 Uo mm개이고, (4) Umm은 주어진 클러스터의 문서 세트가고, (5) 용어 m은 토픽 i에 대해 구별된다고 가정해 보자. 용어 m을 갖는 대부분의 문서는 토픽이 i이기 때문에, 다음 관계식이 만족되어야 한다. Uo mm/Umm =co/c.
토픽이 i가 아닌 문서에서 자주 발견되는 용어 m은 관계식 Uo mm/Umm =co/c을 충족시키지 않고, 다음 관계식:
를 충족시켜야 한다.
따라서, co/c가 정확하게 결정될 수 있다면, 용어 m이 토픽(또는 객체) i에 대해 구별되는지의 여부에 관한 결정이 수행될 수 있다. UO mm/Umm은 용어(또는 객체 특징) m의 문서(또는 패턴) 빈도율이라고 불린다. 주어진 클러스터의 문서(또는 패턴) 세트에서 가장 높은 빈도를 갖는 특정 수의 용어(또는 객체 특징) 중에서, (1) 작은 문서(또는 패턴) 빈도율을 갖는 특정 수의 용어(또는 객체 특징)는 토픽(또는 객체) i에 대해 구별되는 것으로 가정되며, (2) 이들 용어(또는 객체 특징)의 문서(또는 패턴) 빈도율의 평균 c'은 co/c의 예측된 값으로서 간주된다. 결국, 상수 계수 α를 이용함으로써, 이하의 수학식을 만족하는 용어(또는 객체 특징) m은 토픽(또는 객체) i에 대해 구별되지 않는다는 결정이 수행될 수 있다.
마찬가지로, 용어(또는 객체 특징) m, n을 포함하는 문서(또는 패턴)의 수는 전체 입력 문서(또는 패턴) 세트에서 U0 mn이며, Umn은 주어진 클러스터의 문서(또는 패턴) 세트라고 가정한다. 이들 가정을 이용함으로써, 이하의 수학식을 만족하는 용어(또는 객체 특징) m, n은 토픽(또는 객체) i에 대해 구별되지 않는다는 결정이 수행될 수 있다.
문서 공통성에 대하여, 주어진 클러스터에 대해 필수적이지 않은 용어(또는 객체 특징) 및 용어(또는 객체 특징) 쌍의 영향을 감소시키기 위해, 토픽(또는 객체) i에 대해 구별되지 않는 것으로 판정된 용어(또는 객체 특징) 및 용어(또는 객체 특징) 쌍은 주어진 클러스터의 각 문서(또는 패턴)과 문서(또는 패턴) 세트 사이의 문서(또는 패턴) 공통성의 계산을 위해 이용되지 않는다. 이와 달리,
은 문서(또는 패턴) 공통성 계산시에 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n에 대한 가중치로서 각각 이용될 수 있다. 이러한 방안을 이용함으로써, 문서 공통성은 토픽(또는 객체) i를 기술하는 문서(또는 패턴)에 대해 큰 값을 갖는다. 그 결과, 클러스터링 정확성의 개선을 기대할 수 있다.
전체 클러스터링 프로시저에서, 처리가 반복 수행되어, 처음에 하나의 문서(또는 패턴)가 클러스터의 시드로서 추출되고, 그 다음 이러한 시드와 동일한 토픽(또는 객체)을 기술하는 문서(또는 패턴)을 검출 및 합병함으로써 시드가 성장하게 된다. 따라서, 시드 문서(또는 패턴)의 수가 입력 문서내의 토픽(또는 객체)의 수와 동일하다면, 정확한 수의 클러스터가 획득될 수 있다. 단계 1의 결과로서 2개의 시드 문서(또는 패턴)가 동일 토픽(또는 객체)에 대해 검출되었지만, 단계 6에서 중복 클러스터가 검출 및 제거되므로, 정확한 수의 클러스터가 획득될 수 있다. 단계 1의 결과로서 시드 문서(또는 패턴)가 어떤 토픽(또는 객체)에 대해 검출되지 않는다면, 클러스터의 수는 작아진다. 그러한 상황은 검출될 토픽(또는 객체)을 갖는 문서(또는 패턴)가 다른 토픽(또는 객체)의 현존 클러스터에 대해 높은 문서(또는 패턴) 유사성을 갖고, 클러스터로 합병될 때 발생된다. 그러나, A) 및 B)을 채택함으로써 클러스터링의 정확성이 증가하므로, 상이한 토픽(또는 객체)을 갖는 문서(또는 객체)가 혼합될 가능성은 낮으며, 획득된 클러스터의 수가 작아지는 상황은 거의 발생하지 않는다.
A의 값이 변하거나, 또는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이 선택적으로 이용되는 것으로서 전술된 클러스터링 프로시저를 반복적으로적용함으로써 계층적 클러스터링이 수행될 수 있다. 다음과 같이 가정한다. 즉, (1) 입력 문서(또는 패턴) 세트는 제 0 층상에 있고, (2) 클러스터링을 입력 문서(또는 패턴)에 적용함으로써 획득된 클러스터는 제 1 층상에 있고, (3) 서브클러스터링을 제 1 층상의 각 클러스터에 적용함으로써 획득된 서브클러스터는 제 2 층상에 있고, (4) 그 다음 후속하는 층상의 각 클러스터에 대해 서브클러스터링을 수행한다.
계층적 클러스터링은 다음과 같이 수행될 수 있다. 첫째, 제 1 층상의 클러스터는 A를 적절한 값으로 설정함으로써 전술한 클러스터링 처리를 적용하는 것에 의해 획득된다. 각 클러스터내의 문서(또는 패턴)는 각 토픽(또는 객체)를 갖는다. 제 2 층상의 서브클러스터가 획득될 때, A는 제 1 층상의 클러스터가 획득될 때의 값보다 큰 값으로 설정된다. 제 1 층상의 클러스터는 좁은 범위를 갖는 서브토픽(또는 서브 객체)을 갖는 서브클러스터로 분할된다.
대안적인 계층적 클러스터링 방법은 다음과 같다. 제 2 층상의 서브클러스터내의 구별되는 용어(또는 객체 특징) 또는 용어 쌍(객체 특징 쌍)은 제 1 층상의 부모(parent) 클러스터에서 낮은 문서 빈도를 갖는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이어야 한다. 따라서, 유효 서브클러스터는 임계값보다 높은 문서 빈도(또는 패턴)를 갖는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이 제거된 후에 클러스터링 처리를 적용함으로써 획득된다. 마찬가지로, 제 3 층 또는 보다 높은 층상의 서브클러스터가 획득될 것이다.
도 1은 본 발명과 관련된 일반적인 컴퓨터 동작의 블럭도,
도 2a 및 2b는 도 1의 문서 입력 및 전처리 블럭과 관련된 동작의 흐름도로서, 문서 세트가 입력되는 단계로부터 각 문서가 소속되는 결정 클러스터의 단계까지의 절차를 결정하는 도면,
도 3은 도 1의 문서 정보 처리 블럭과 관련된 동작이 클러스터가 성장하게 하는 방법 및 초기 클러스터로부터의 성장 절차를 도시하는 흐름도,
도 4a 및 4b는 중복 클러스터를 삭제하는 방법을 설명하기 위한 도면.
도면의 주요 부분에 대한 부호의 설명
110 : 문서 입력 블럭 120 : 문서 전처리 블럭
130 : 문서 정보 처리 블럭 140 : 출력 블럭
도 1은 클러스터링된 문서를 자연 언어 처리하는 방법에 대한 컴퓨터 시스템의 블럭도이다. 설명된 원리는 패턴 처리에도 또한 적용할 수 있지만, 단지 문서 처리와 관련하여서만 특정 실시예를 설명한다. 시스템은 문서 입력 블럭(110), 문서 전처리 블럭(120), 문서 정보 처리 블럭(130) 및 출력 블럭(140)을 포함한다. 처리될 문서 세트가 문서 입력 블럭(110)에 입력된다. 문서 전처리 블럭(120)은 입력된 문서에 대해, 용어 검출, 형태 분석 및 문서 세그먼트 분할을 수행한다.
문서의 문서 세그먼트 기본 단위는 문장이다. 대부분의 유럽 언어의 문장의 시작 및 끝은 쉽게 검출되는데, 그 이유는 각 문장의 끝은 마침표를 가지며, 인쇄되는 경우 더블 스페이스가 따르게 되기 때문이다. 복잡한 문장과 관련된 다른 문서 구분 방법으로서, 문장은 주절 및 종속절로 구분(즉, 분할)된다. 다른 방법에서, 복수의 문장이 문서 세그먼트로 수집되어, 각 문장에서의 용어의 수가 대략 동일하게 되도록 한다. 다른 방법에서는, 문서내의 문장에 관계없이, 문서의 시작으로부터, 문서를 동일한 수의 용어를 갖는 세그먼트로 분할한다.
블럭(130)은 입력된 문서의 정보 처리 및 입력된 문서에서의 클러스터링과 직접 관련된 처리를 수행한다. 블럭(130)은 (1) 시드 문서 검출, (2) 모든 입력 문서와 주어진 클러스터 사이의 문서 세트 공통성 계산, (3) 특정 클러스터에 대해 구별되지 않는 용어 및 용어 쌍 검출과 같은 동작을 수행한다. 블럭(130)은 이하에 상세히 기술된다. 출력 블럭(140)은 디스플레이와 같은 출력 장치에, 문서 정보 처리 블럭(130)에 의해 획득된 결과를 출력한다.
도 2a 및 2b는 블럭(110, 120, 130)이 소정의 문서 세트에 대해 수행하는 클러스터링 및 다른 동작의 흐름도를 구성한다. 도 2a, 2b, 3의 동작은 범용 컴퓨터상에서 프로그램을 실행함으로써 수행될 수 있다.
단계(21) 동안, 입력 블럭(110)에 의해 문서 세트가 컴퓨터에 공급된다. 공급된 문서는 단계(22) 동안, 전처리 블럭(120)에서 모두 전처리된다. 단계(23) 동안, 블럭(130)은 문서 세트내의 모든 문서로부터 정보를 추출한다. 단계(24) 동안, 블럭(130)은 클러스터의 시드 문서를 추출하여, 초기 클러스터를 구성한다. 블럭(130)은, 단계(25) 동안, 문서를 처리하여 클러스터를 성장시킨다. 단계(26) 동안, 블럭(130)은 세트내의 나머지 문서를 추출한다. 블럭(130)은, 단계(27) 동안, 조건 검사를 종료한다. 단계(28) 동안, 블럭(130)은 문서 세트를 처리하여, 나머지 문서로부터 정보를 추출한다. 블럭(130)은, 단계(29, 30) 동안 각각, 클러스터 멤버에 무엇이 있는지를 결정하고, 그 후 중복 클러스터를 추출 및 제거한다. 영어 문서 처리의 실시예를 기술한다.
첫째, 단계(21) 동안, 문서 세트가 객체로서 컴퓨터에 입력된다. 계층적 클러스터링에서 제 n 층상의 서브클러스터가 획득될 때, 입력 문서 세트는 제 (n-1) 층상의 (서브)클러스터내의 문서로 구성된다. 문서 전처리 단계(22)에서, 각 입력 문서에 대해 (용어 검출, 형태 분석, 문서 세그먼트 분할, 문서 세그먼트 벡터 구성과 같은) 문서 전처리가 수행된다. 용어 검출은 각 입력 문서에 대한 단어, 수치 표현, 심볼 시리즈 등의 검출을 포함한다. 그러므로, 단어, 수치 표현, 심볼 시리즈 등은 일반적으로 용어라고 지칭된다. 영어 기록 표기 방법은 간격을두고 분리된 용어들을 갖기 때문에, 용어 검출은 용이하게 수행된다.
다음, 각 입력 문서에 대해 (용어에 대한 스피치 태깅(speech tagging)의 일부와 같은) 형태 분석이 수행된다.
각 입력 문서에 대해 문서 구분(또는 분할)이 수행된다. 문서 세그먼트 벡터 구성에서, 구성될 벡터의 차원 및 각 구성 요소와 각 용어 사이의 대응 관계는 전체 문서에서 발생되는 용어로부터 처음에 결정된다. 벡터의 구성 요소가 문서에서 발생되는 모든 용어에 대응하도록 만들 필요는 없다. 스피치 태깅의 일루로부터의 결과를 이용하는 것에 의해, 벡터는, 예를 들면, 단지 명사 및 동사라고 판정될 용어만을 이용함으로써 구성될 수 있다. 다음, 문서 세그먼트 벡터는 각 문서 세그먼트에서 발생되는 용어에 대응하는 구성 요소만이 1이고, 다른 것은 0이 되도록 구성된다.
모든 문서에 대한 문서 세트 정보 추출 단계(23)에서, 클러스터링 처리 단계에서 이용된 데이터는 각 문서 및 전체 입력 문서 세트로부터 획득된다. 획득될 데이터는 각 문서의 동시 발생 매트릭스(co-occurrence matrix), 문서 세트의 동시 발생 매트릭스(공통 동시 발생 매트릭스) 및 전체 입력 문서 세트의 문서 빈도 매트릭스이다. 각 문서의 동시 발생 매트릭스는 용어의 발생 빈도 및 용어 쌍의 동시 발생 빈도를 반영하는 매트릭스이다.
문서 세그먼트인 문장의 경우에 대해 설명을 계속하며, 여기서, M은 발생되는 용어의 종류 수를 나타내고, Dr은 R개의 문서로 구성되는 문서 세트 D내의 r번째문서를 나타내고, Yr은 문서 Dr내의 문장의 수를 나타내고, dry= (dry1, ..., dryM)T는 y번째 문장 벡터를 나타낸다. 문장 벡터 dry는 이진 벡터이므로, drym은 m번째 용어의 존재 또는 부재를 나타낸다. 문서 Dr의 동시 발생 매트릭스 Sr은 다음의 수학식과 같이 주어진다.
여기서, T는 벡터 전치(transpose)를 나타낸다.
수학식 (1)로부터, Sr의 mn 구성 요소는 다음과 같이 주어진다.
따라서, Sr mm은 용어 m이 발생되는 문장의 수를 나타내고, Sr mn은 용어 m 및 n이 동시에 발생되는 문장의 동시 발생 카운트를 나타낸다. 각 문장내에서 각 용어가 2회 이상 발생되지 않는다면, Sr mm은 문서 Dr내에서의 용어 m의 발생 빈도를 나타낸다. 다음, 시스템은 매트릭스 T를 획득하며, 그것의 mn 구성 요소는 다음과 같이 정의된다.
더욱이, 각 용어의 문서 빈도 및 입력 문서 세트내의 각 용어를 저장하는 문서 빈도 매트릭스 U0이 획득된다. 매트릭스 U0 mm및 U0 mn은 용어 m이 발생되는 문서의 수 및 용어 m 및 n이 동시 발생되는 문서의 수를 각각 나타낸다. 전술한 바와 같은 매트릭스 T 및 U0을 이용함으로써, 공통 동시 발생 매트릭스 TA가 획득된다. 공통 동시 발생 매트릭스 TA의 mn 구성 요소는 다음과 같이 결정된다.
"A"는 실험적으로 결정된 임계값을 나타낸다.
이하에 주어진 바와 같은 mn 구성 요소를 갖는 매트릭스 QA가 정의되어, 공통 동시 발생 매트릭스로서 이용된다.
계층적 클러스터링이 수행되는 경우, U0 mn의 값이 임계값을 초과할 때 U0 mn은 0으로 설정된다.
단계(24)에서, 프로세서(130)는 이전에 기술된 단계 1 및 2를 수행함으로써, 클러스터의 시드 문서를 추출하여, 초기 클러스터를 구성한다. 임의의 현재 클러스터에 대한 문서 공통성이 임계값보다 작은 문서는 나머지 문서 세트라고 가정한다. 나머지 문서 세트는 임의의 현재 클러스터에 속하지 않을 가능성이 높은 문서의 세트이다. 공통 동시 발생 매트릭스 TA, QA, 및 문서 빈도 매트릭스 U는 (1)제 1 반복시의 입력 문서 세트 및 (2) 제 2 및 후속 반복시의 나머지 문서 세트에 기초하여 계산된다.
클러스터의 시드 문서는 문서가 기술하는 토픽에서의 현저한 문서인 것이 바람직하다. 나머지 문서 세트내의 가장 현저한 토픽의 문서 그룹에서의 현저한 문서는 나머지 문서 세트에 대해 높은 문서 공통성을 갖는 것으로 가정되기 때문에, 단계(24)는 (1) 나머지 문서 세트내의 각 문서와 나머지 문서 세트 사이의 문서 공통성을 결정하고, (2) 높은 문서 공통성을 갖는 문서를 클러스터의 시드의 후보로서 선택한다. SP를 임의의 문서 P에 대한 공통 동시 발생 매트릭스라고 한다. 단계(24) 동안, 문서 P와 나머지 문서 세트 사이의 문서 공통성은 다음과 같이 획득된다.
수학식 (2)에서, 매트릭스 TA는 또한 매트릭스 QA대신에 이용될 수 있다. 복수의 토픽에 공통인 용어의 영향을 감소시키기 위해, 동시 발생 매트릭스 및 공통 동시 발생 매트릭스의 대각선 구성 요소는 수학식 (2)에서 이용될 수 없는데, 그 이유는, 각각의 용어는 용어 쌍보다 용이하게 복수의 토픽에서 공유되는 경향이 있기 때문이다.
클러스터의 시드 문서의 후보는 수학식 (2)를 이용하여 나머지 문서 세트내의 모든 문서에 대한 문서 공통성을 계산하고, 높은 문서 공통성을 갖는 특정 수의 문서를 선택함으로써 획득된다.
다음, 클러스터 시드 문서 추출을 다루는 단계(24)의 일부에 대해 기술된다. 각각의 후보 문서에 대해, 나머지 문서 세트 D내의 모든 문서의 유사성이 처음에 획득된다. 잘 알려진 코사인 유사성이 유사성 기준으로서 채택될 수 있다. 다음, 각각의 후보 문서에 대해, 사전설정된 임계값보다 큰 유사성을 갖는 문서가, 각각의 후보 문서의 인접 문서로서 획득된다. 가장 큰 수의 인접 문서를 갖는 문서가, 후보 문서로부터 클러스터 시드 문서로서 선택된다. 초기의 클러스터는 시드 문서의 인접 문서에 의해 주어진다.
블럭(130)이 수행하는 클러스터 성장 단계(25)에서, 높은 공통성을 갖는 문서를 클러스터와 합병함으로써 클러스터가 성장한다. 도 3은 클러스터 성장 단계(25)의 상세한 흐름도이다. 처음에 블럭(130)은, 단계(31) 동안, 문서 빈도 매트릭스를 구성한다. 블럭(130)은, 단계(32) 동안, 공통 동시 발생 매트릭스를 구성하고, 이어서 각 용어 및 용어 쌍에 대한 변별성 계산이 수행되는 단계(33)이 뒤따른다. 그 다음, 단계(34) 동안, 블럭(130)은 문서 공통성을 계산하고, 이어서 클러스터 멤버 결정이 수행되는 단계(35)가 뒤따른다. 블럭(130)은 종료 조건 검사 단계(36)로 진행한다.
문서 빈도 매트릭스의 구성을 포함하는 단계(31) 및 공통 동시 발생 매트릭스의 구성을 포함하는 단계(32) 동안, 블럭(130)은 현재 처리된 문서의 세트에 대해 단계(31, 32) 동안 처리를 수행한다. 이들 단계(31, 32)의 처리는 도 2의 단계(23) 동안의 문서 빈도 매트릭스 구성 처리 및 공통 동시 발생 매트릭스 구성 처리와 동등하다.
U를 단계(31) 동안에 획득한 문서 빈도 매트릭스라고 하자. TA및 QA를 각각 단계(32) 동안에 획득한 공통 동시 발생 매트릭스 및 그의 수정된 매트릭스라 하자. 단계(33) 동안에, 블럭(130)은 각 용어에 대한 변별성 및 가중치를 결정한다. 문서 빈도가 0인 용어 및 용어 쌍에 대한 가중치는 0으로 설정된다. 상술한 방식에 있어서, 우선, 용어 m에 대한 문서 빈도율로서 U0 mm/Umm을 획득한다. 또한, 높은 문서 빈도를 갖는 특정 수의 용어 및 작은 문서 빈도율을 갖는 특정 수의 용어가 선택된다. 선택된 용어는 주어진 클러스터의 구별되는 용어인 것으로 간주된다. 다음, 이들 용어의 문서 빈도율을 평균한다. c'을 평균 문서 빈도율이라 하자. 용어 m의 변별성 vmm및 용어 쌍 m, n의 변별성 vmn은 아래의 수학식에 의해 결정된다.
대안적으로, 평균 문서 빈도율은 구별되는 용어 쌍 및 구별되는 용어 둘다를 이용하여 획득할 수 있다. 이 경우 있어서, m이 n과 다르면, U0 mn/Umn은 용어 쌍 m,n의 문서 빈도율로서 획득되고, m이 n과 동일하면, U0 mn/Umn은 용어 m의 문서 빈도율로서 획득된다. 가장 높은 문서 빈도를 갖는 특정 수의 용어 및 용어 쌍들 중에서, 낮은 빈도율을 갖는 특정 수의 용어 또는 용어 쌍을 선택한다. 선택된 용어 또는 용어 쌍은 주어진 클러스터의 구별되는 용어 또는 용어 쌍으로서 간주된다. 다음, 이들 용어 및 용어 쌍의 문서 빈도율을 평균한다. c'를 평균이라 하자.
zmm및 zmn을 각각 용어 m 및 용어 쌍 m,n의 가중치라 하자. 이들 가중치는 다음과 같은 가중치 결정 함수 f(x)를 이용하여 결정된다.
f(x)에 대해 여러 함수들이 고려될 수 있다. 예를 들어, 다음과 같은 함수들이 이용될 수 있다.
f(x) = x
또는
f(x) = x2
또는
x가 임계값보다 큰 경우, f(x) = 1,
그렇지 않은 경우, f(x) = 0.
문서 공통성 계산 단계(34)에 있어서, 블럭(130)에서는 모든 입력 문서들에 대하여 주어진 클러스터에 대한 문서 공통성을 계산한다. Sp를 문서 P의 동시 발생 매트릭스라 하자. 문서 세트 D에 대한 문서 P의 문서 공통성은 다음의 수학식에 의해 획득될 수 있다.
또는
여기에서, D는 주어진 클러스터의 문서 세트를 나타낸다. 상술한 수학식에 있어서, 매트릭스 QA대신에 매트릭스 TA가 이용될 수 있다.
단계(35)에 있어서, 블럭(130)에서는 특정의 값보다 높은 문서 공통성을 갖는 문서들을 선택함으로써 주어진 클러스터의 클러스터 멤버를 결정한다.
종료 조건 검사 단계(36)에 있어서, 블럭(130)에서는 주어진 클러스터의 성장 처리가 완료되었는지의 여부를 결정한다. 단계(36)의 제 1 반복시에는, 처리가 무조건적으로 단계(31)로 복귀하며, 단계(31)의 처리를 반복한다. 단계(36)의 제 2 또는 후속 반복시에는, 단계(35) 동안에 획득한 주어진 클러스터내의 문서 수를 카운트한다. 문서 수가 이전 반복시의 문서 수와 다르면, 단계(31)로 복귀하여 단계(31)의 처리를 반복한다. 단계(36) 동안의 문서 수가 이전 반복시의 문서 수와 동일하다고 결정되면, 모든 입력 문서들에 대한 주어진 클러스터의 문서 공통성을 유지하고, 주어진 클러스터의 성장 처리를 종료한다.
도 2에 대해 계속 설명한다.
단계(26) 동안에, 블럭(13)에서는 모든 현재 클러스터들에 대한 각 문서의 문서 공통성에 기초하여 나머지 문서들을 추출한다. 임의의 클러스터에 대한 문서 공통성이 임계값 미만인 문서들을 나머지 문서로서 추출한다.
종료 조건 검사 단계(27) 동안에, 블럭(110)에서는 시드 추출에서부터 성장까지의 일련의 처리가 나머지 문서들의 수에 기초하여 완료되었는지의 여부를 결정한다. 나머지 문서들의 수가 임계값 미만이고 이전 반복시의 나머지 문서 수와 동일하면, 프로시저는 단계(29)로 진행한다. 그러한 조건이 만족되지 않으면, 처리는 단계(28)로 진행하여 나머지 문서 세트에 대해 단계(23)와 동일한 처리를 수행한다.
클러스터 멤버 결정 단계(29)에서는, 각 문서가 소속되는 클러스터를 결정한다. 이것은 도 3에서 각 문서에 대하여 획득한 각각의 클러스터에 대한 문서 공통성에 대한 정보를 사용하고, 또한 그 문서 공통성이 실험에 의해 결정된 임계값보다 높은 클러스터에 각 문서를 소속시킴으로써 실행된다.
중복 클러스터의 검출 및 제거를 포함하는 단계(30) 동안에, 블럭(130)에서는 중복 클러스터가 존재하는지의 여부를 결정한다. 중복 클러스터가 존재하면 제거한다. 하나의 토픽에 대해 둘 이상의 클러스터가 획득되는 경우에 중복 클러스터가 발생한다. 그 경우에는, 토픽을 기술하는 문서가 둘 이상의 클러스터에 대해 큰 공통성을 가지며, 둘 이상의 클러스터가 서로 중첩된다. 중복 클러스터를 검출하기 위해서, 모든 문서에 대하여 모든 획득한 클러스터에 대한 문서 공통성을 우선적으로 획득한다.
다음, 주어진 클러스터에 대한 문서 공통성은 임계값보다 크지만, 임의의 다른 클러스터에 대한 문서 공통성은 임계값보다 작은 문서들의 수를 획득한다. 주어진 클러스터가 임의의 다른 클러스터와 중첩되지 않으면, 그러한 문서들의 수는 주어진 클러스터에 대한 문서 공통성이 임계값보다 높은 문서들의 수와 동일하게된다. 한편, 주어진 클러스터가 다른 클러스터와 중첩되면, 클러스터내의 문서들의 수는, 클러스터와 중첩되지 않은 문서들의 수, 즉 주어진 클러스터내에만 있는 문서의 수와 동일하게 된다.
상술한 문서들의 수는 각 클러스터의 중요도로서 정의될 수 있다. 예를 들어, 도 4a의 경우, 클러스터 1의 중요도는 클러스터 1내의 문서들의 수이다. 이것은 클러스터 2에 대해서도 마찬가지이다. 주어진 클러스터가 다른 클러스터와 부분적으로 중첩되면, 그 중요도는 다른 클러스터와 중첩되지 않은 문서들의 수가 된다. 즉, 클러스터 1에 대한 중요도는 도 4b에서 "c"로 나타낸 부분에 포함된 문서들의 수로 표시된다. 클러스터 2에 대한 중요도는 도 4b에서 "d"로 나타낸 부분에 포함된 문서 수로 표시된다.
하나의 클러스터에 대한 중요도가 특정값보다 작으면, 그 클러스터에 소속되는 문서의 수가 많을지라도, 보다 작은 중요도를 갖는 클러스터가 중복 클러스터로 간주되어 제거된다. 그러한 작은 중요도의 클러스터가 복수개 존재하면, 가장 낮은 클러스터 중요도를 갖는 클러스터가 우선적으로 제거된다. 그 다음, 나머지 클러스터에 대해 클러스터 중요도 계산이 다시 실행되고, 클러스터 중요도가 가장 낮은 클러스터가 제거된다. 중복 클러스터가 모두 없어질 때까지 이러한 방식의 처리가 반복된다. 중복 클러스터 제거가 실행되면, 각 클러스터 멤버의 결정이 다시 수행된다. 이 경우에, 클러스터 멤버 결정을 위한 다른 방법으로서, 문서 공통성이 가장 높은 클러스터에 각 문서를 할당할 수 있다.
상술한 작용에 대한 효과를 설명하기 위해, 도 2 및 도 3의 실시예에 기초한실험적 결과를 설명한다. 자료로서 TDT2가 이용된다. 자료 TDT2는, 1998년 1월부터 6월까지의 100개의 이벤트에 관련된 뉴스 스토리 세트(a set of news stories)로서 6개의 뉴스 소스로부터 수집된 것이다. Liu 등이 TDT2를 이용하여 실행한 비계층적 클러스터링의 결과들을 비교하였다(X. Liu, Y. Gong, W. Xu and S. Zhu, Document Clustering with Cluster Refinement and Model Selectin Capabilities. In Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191-198. Tampere, Finland, August, 2002). 그 구성은 Liu 등의 실험치와 동일한 데이터를 이용한 실험 결과에 기초한 것이다.
그 데이터는 ABC, CNN 및 VOA에 의해 수집된 15개의 이벤트에 관련된 뉴스 스토리 세트이다. 표 1은 이 데이터들의 세부 사항을 포함한다.
표 2는 실험에 이용된 15개의 데이터 세트와, 본 명세서에 개시된 방법 및 Liu 등에 의한 방법의 클러스터링 정확도를 포함한다. Liu 등에 의한 방법의 결과는 Liu 등의 의한 논문에 기초한 것이다. 임의의 문서가 소속되는 이벤트가 클러스터의 시드 문서의 이벤트와 부합하면, 클러스터링의 결과는 정확한 것으로 간주된다. 모든 클러스터에 대한 문서 공통성이 0인 문서는 에러가 있는 것으로 간주된다. 정확도는 정확하게 클러스터링된 문서 수와 모든 문서 수간의 비율로부터 획득된다. Liu 등의 방법에서는, 비계층적 클러스터링을 가우시안 혼합 모델에 기초하여 실행한 후에, 각 클럭스터의 구별되는 용어를 획득하며, 그 결과는 구별되는 용어를 보우팅(voating)함에 의해 정정된다. 표 2에 있어서, 테스트 데이터 ABC-01-02-15는 ABC로부터 수집되고 표 1에서 01, 02 및 15의 이벤트 ID를 갖는 문서들을 의미한다. 표 2에 있어서, 본 명세서에서 개시한 방법의 고 정확도를 갖는 데이터 세트의 수는 Liu 등의 방법에서의 데이터 세트의 수보다 더 많다.
Liu 등의 논문에 나열된 12 데이터 세트와 관련하여, 본 명세서에서 개시된 방법에서는 추출된 클러스터의 수가 정확하였다. 한편, Liu 등의 방법에서는, 12 데이터 세트들 중 3 데이터 세트에 대해 추출된 클러스터의 수가 부정확하였다.표 3은 Liu 등에 의한 방법과 본 명세서에 개시된 방법의 결과를 포함한다.
상술한 바와 같이, 본 명세서에 개시된 방법에 따르면, 정확한 수의 클러스터가 입력 문서 세트로부터 추출될 수 있으며, 각 문서는 높은 정확도로 클러스터에 할당될 수 있다. 그러므로, 사용자에 의한 정보 획득의 효율이 크게 개선될 수 있다.
상술한 실시예는 문서 세트를 예시적으로 인용하여 설명한 것이다. 또한, 개시한 실시예는 본 명세서에서 설명한 문서 세트와 유사하게 나타낼 수 있거나, 또는 그 문서 세트와 동일한 특징을 갖는 패턴 세트에 적용될 수 있다. 문서를 패턴으로 대체하는 것은, (1) 문서의 용어를 패턴의 구성 요소로 대체하고, (2) 문서 세그먼트를 패턴 세그먼트로 대체하고, (3) 문서 빈도 매트릭스를 패턴 빈도 매트릭스로 대체하고, (4) 각 문서에 대한 동시 발생 매트릭스를 각 패턴에 대한 동시 발생 매트릭스로 대체하고, (5) 문서 공통성을 패턴 공통성으로 대체하는 것 등을 포함한다. 결과적으로, 본 발명의 원리는 문서 세트 뿐만 아니라, 패턴 세트에도 적용될 수 있다. 특허 청구 범위에 있어서, 용어, (또는 패턴)과 (또는 객체 특징)은 문서가 아닌 패턴과 관련한 동작을 나타내는데 이용된다.
본 발명에 의하면, 정확한 수의 클러스터가 입력 문서 세트로부터 추출될 수 있으며, 각 문서는 높은 정확도로 클러스터에 할당될 수 있다. 그러므로, 사용자에 의한 정보 획득의 효율이 크게 개선될 수 있는 효과가 있다.

Claims (29)

  1. 문서(또는 패턴)들을 그들간의 관계에 기초하여 클러스터링하기 위한 것으로, 상기 문서 각각은 입력 문서(또는 패턴) 세트내에 하나 이상의 문서(또는 패턴) 세그먼트를 갖는, 문서 클러스터링 방법에 있어서,
    (a) 각 문서(또는 패턴)에 나타난 용어의 발생 빈도에 기초하여, 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스를 획득하는 단계와,
    (b) 시드(seed) 문서(또는 패턴)를 선택하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)들로부터 상기 시드 문서(또는 패턴)를 선택하고, 상기 시드 문서(또는 패턴)를 이용하여 초기 상태의 현재 클러스터를 구성하는 단계와,
    (c) 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 상기 현재 클러스터내의 문서(또는 패턴)들에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 및 상기 현재 클러스터의 공통 동시 발생 매트릭스에 기초한 정보를 이용하여 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하고, 상기 문서 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)를 형성하는 단계와,
    (d) 상기 현재 클러스터에 임시로 소속된 문서(또는 패턴)들의 수가 이전 반복시의 문서들의 수와 동일하게 될 때까지 상기 (c) 단계를 반복하는 단계와,
    (e) 주어진 수렴 조건이 만족될 때까지 상기 (b) 단계 내지 (d) 단계를 반복하는 단계와,
    (f) 상기 각 클러스터에 대한 각 문서(또는 패턴)의 문서(또는 패턴) 공통성에 기초하여, 상기 각 문서(또는 패턴)가 소속되는 클러스터를 결정하는 단계를 포함하는
    문서 클러스터링 방법.
  2. 제 1 항에 있어서,
    상기 (a) 단계는,
    (a-1) 상기 각 문서(또는 패턴) 세그먼트에 나타난 용어의 발생 빈도에 기초하여, 상기 각 문서(또는 패턴) 세그먼트들 각각에 대한 문서(또는 패턴) 세그먼트 벡터를 생성하는 단계와,
    (a-2) 상기 문서(또는 패턴) 세그먼트 벡터로부터 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대한 동시 발생 매트릭스를 획득하는 단계와,
    (a-3) 상기 각 문서에 대한 상기 동시 발생 매트릭스로부터 문서(또는 패턴) 빈도 매트릭스를 획득하는 단계를 더 포함하는
    문서 클러스터링 방법.
  3. 제 1 항에 있어서,
    상기 (b) 단계는,
    (b-1) 공통 동시 발생 매트릭스를 구성하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)들의 상기 공통 동시 발생 매트릭스를 구성하는 단계와,
    (b-2) 상기 나머지 문서(또는 패턴)들의 상기 공통 동시 발생 매트릭스를 이용하여, 상기 나머지 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 나머지 문서(또는 패턴) 세트에 대한 문서 공통성을 획득하고, 가장 높은 문서(또는 패턴) 공통성을 갖는 문서(또는 패턴)를 추출하며, 상기 시드 문서(또는 패턴) 및, 상기 시드 문서(또는 패턴)와 유사한 인접 문서(또는 패턴)를 포함하는 문서(또는 패턴) 세트를 형성하여, 상기 초기 상태의 현재 클러스터를 구성하는 단계를 더 포함하는
    문서 클러스터링 방법.
  4. 제 1 항에 있어서,
    상기 (c) 단계는,
    (c-1) 상기 현재 클러스터의 공통 동시 발생 매트릭스 및 상기 현재 클러스터의 문서(또는 패턴) 빈도 매트릭스를 구성하는 단계와,
    (c-2) 상기 입력 문서(또는 패턴) 세트의 상기 문서(또는 패턴) 빈도 매트릭스와 상기 현재 클러스터의 상기 문서(또는 패턴) 빈도 매트릭스를 비교하여, 상기 현재 클러스터에 대한 각 용어 및 각 용어 쌍의 변별성을 획득하는 단계와,
    (c-3) 상기 현재 클러스터의 상기 공통 동시 발생 매트릭스와, 상기 각 용어 및 각 용어 쌍의 변별성으로부터 획득한 상기 각 용어 및 용어 쌍의 가중치를 이용하여, 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하고, 상기 문서(또는 패턴) 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)를 형성하는 단계를 더 포함하는
    문서 클러스터링 방법.
  5. 제 1 항에 있어서,
    임의의 현재 클러스터에 대한 문서(또는 패턴) 공통성이 임계값 미만인 문서(또는 패턴)들의 수가 0이 되거나, 또는 상기 수가 임계값 미만이고, 상기 이전 반복시의 문서 수와 동일하게 될 때까지 상기 (e) 단계를 반복하는 단계를 더 포함하는
    문서 클러스터링 방법.
  6. 제 1 항에 있어서,
    상기 (f) 단계는,
    중복 클러스터의 존재 여부를 검사하여, 상기 중복 클러스터가 존재하면 이를 제거하고, 각 문서가 소속된 클러스터를 다시 결정하는 단계를 더 포함하는
    문서 클러스터링 방법.
  7. 제 1 항에 있어서,
    상기 문서(또는 패턴) Dr의 동시 발생 매트릭스 Sr은 아래의 수학식에 의해 결정되고,
    M은 발생 용어의 종류 수이고, Dr은 R개의 문서(또는 패턴)로 구성되는 문서(또는 패턴) 세트 D내의 r번째 문서(또는 패턴)이고, Yr은 문서(또는 패턴) Dr내의 문서(또는 패턴) 세그먼트들의 수이고, dry= (dry1, ..., dryM)T는 문서(또는 패턴) Dr의 y번째 문서(또는 패턴) 세그먼트 벡터이고, T는 벡터의 전치를 나타내는
    문서 클러스터링 방법.
  8. 제 1 항에 있어서,
    문서(또는 패턴) 세트 D의 상기 문서(또는 패턴) 빈도 매트릭스의 각 구성 요소는, 상기 문서(또는 패턴) 세트 D내의 각 문서(또는 패턴)의 동시 발생 매트릭스의 대응하는 구성 요소가 0의 값을 취하지 않은 문서(또는 패턴)들의 수인
    문서 클러스터링 방법.
  9. 제 1 항에 있어서,
    아래의 수학식에 의해 결정되는 mn 구성 요소를 갖는 매트릭스 TA에 의해 mn 구성 요소가 결정되는 매트릭스 T에 기초하여 매트릭스 TA로부터 문서(또는 패턴) 세트 D의 공통 동시 발생 매트릭스를 결정하는 단계를 더 포함하되,
    Umn은 상기 문서(또는 패턴) 세트 D의 상기 문서(또는 패턴) 빈도 매트릭스의 mn 구성 요소를 나타내는
    문서 클러스터링 방법.
  10. 제 1 항에 있어서,
    mn 구성 요소가 아래의 수학식에 의해 결정되는 매트릭스 T에 기초하여 매트릭스 QA로부터 문서(또는 패턴) 세트 D의 공통 동시 발생 매트릭스를 결정하는 단계를 더 포함하되,
    mn 구성 요소를 갖는 상기 매트릭스 QA는 다음의 수학식에 의해 결정되는
    문서 클러스터링 방법.
  11. 제 10 항에 있어서,
    zmm및 zmn은 각각 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n의 가중치이고, 상기 문서(또는 패턴) 세트 D에 대하여 동시 발생 매트릭스 SP를 갖는 문서(또는 패턴) P의 문서(또는 패턴) 공통성은 아래의 수학식에 의해 주어지는
    또는
    문서 클러스터링 방법.
  12. 제 9 항에 있어서,
    zmm및 zmn은 각각 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n의 가중치이고, 상기 문서(또는 패턴) 세트 D에 대하여 동시 발생 매트릭스 SP를 갖는 문서(또는 패턴) P의 문서(또는 패턴) 공통성은 아래의 수학식에 의해 주어지는
    또는
    문서 클러스터링 방법.
  13. 제 1 항에 있어서,
    상기 현재 클러스터의 시드 문서(또는 패턴)의 추출과, 상기 초기 상태의 상기 현재 클러스터의 구성은,
    (a) 상기 나머지 문서(또는 패턴)의 상기 공통 동시 발생 매트릭스를 이용하여, 상기 나머지 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여, 상기 나머지 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 공통성을 획득하는 단계와,
    (b) 상기 현재 클러스터의 상기 시드 문서의 후보로서, 상기 (a) 단계에서 획득한 문서(또는 패턴) 공통성이 큰 특정 수의 문서(또는 패턴)를 추출하는 단계와,
    (c) 상기 입력 문서(또는 패턴) 세트 또는 상기 나머지 문서(또는 패턴) 세트내의 모든 문서(또는 패턴)에 대하여 상기 클러스터의 상기 시드 문서의 각 후보들의 유사성을 획득하고, 임계값보다 큰 유사성을 갖는 문서(또는 패턴)들을 상기 후보의 인접 문서(또는 패턴)들로서 획득하는 단계와,
    (d) 상기 인접 문서(또는 패턴)들의 수가 상기 후보들 중에서 가장 큰 후보를 상기 현재 클러스터의 상기 시드 문서로 선택하고, 그의 인접 문서(또는 패턴)들을 상기 초기 상태의 상기 현재 클러스터로 하는 단계를 포함하는
    문서 클러스터링 방법.
  14. 제 1 항에 있어서,
    상기 현재 클러스터에 대하여 각 용어(또는 객체 특징) 및 각 용어 쌍의 변별성을 검출하고, 그들의 가중치를 검출하는 단계를 더 포함하되,
    상기 변별성 및 가중치 검출 단계는,
    (a) 상기 입력 문서(또는 패턴) 세트로부터 획득한 문서(또는 패턴) 빈도 매트릭스의 각 구성 요소와, 상기 현재 클러스터로부터 획득한 문서(또는 패턴) 빈도 매트릭스의 대응하는 구성 요소간의 비율을, 각 용어(또는 특징) 또는 각 용어(또는 특징) 쌍의 문서(또는 패턴) 빈도율로서 획득하는 단계와,
    (b) 가장 높은 문서(또는 패턴) 빈도를 갖는 특정 수의 용어(또는 특징) 또는 용어(또는 특징) 쌍들 중에서, 가장 작은 문서(또는 패턴) 빈도율을 갖는 특정 수의 용어(또는 특징) 또는 용어(또는 특징) 쌍을 선택하고, 상기 선택된 용어(또는 특징) 또는 용어(또는 특징) 쌍의 문서(또는 패턴) 빈도율의 평균을, 평균 문서(또는 패턴) 빈도율로서 획득하는 단계와,
    (c) 상기 각 용어(또는 특징) 또는 용어(또는 특징) 쌍의 변별성 측정치로서, 상기 평균 문서(또는 패턴) 빈도율을 상기 각 용어(또는 특징) 또는 각 용어(또는 특징) 쌍의 상기 문서(또는 패턴) 빈도율로 제산하는 단계와,
    (d) 상기 변별성 측정치를 변수로 갖는 함수로부터 각 용어(또는 특징) 및 각 용어(또는 특징) 쌍의 가중치를 결정하는 단계를 포함하는
    문서 클러스터링 방법.
  15. 제 1 항에 있어서,
    임계값보다 더 높은 문서(또는 패턴) 빈도를 갖는 용어(또는 특징) 또는 용어(또는 특징) 쌍을 제거하는 단계를 더 포함하는
    문서 클러스터링 방법.
  16. 제 1 항에 있어서,
    클러스터에 포함된 문서(또는 패턴) 세트가 상기 입력 문서(또는 패턴) 세트로 되게 함으로써 클러스터링을 반복적으로(recursively) 수행하는
    문서 클러스터링 방법.
  17. 컴퓨터가 상기 청구항 1의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
  18. 컴퓨터가 상기 청구항 2의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
  19. 컴퓨터가 상기 청구항 3의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
  20. 컴퓨터가 상기 청구항 4의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
  21. 컴퓨터가 상기 청구항 5의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
  22. 컴퓨터가 상기 청구항 6의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
  23. 상기 청구항 1의 방법을 수행하도록 구성된 컴퓨터.
  24. 상기 청구항 2의 방법을 수행하도록 구성된 컴퓨터.
  25. 상기 청구항 3의 방법을 수행하도록 구성된 컴퓨터.
  26. 상기 청구항 4의 방법을 수행하도록 구성된 컴퓨터.
  27. 상기 청구항 5의 방법을 수행하도록 구성된 컴퓨터.
  28. 상기 청구항 6의 방법을 수행하도록 구성된 컴퓨터.
  29. 문서(또는 패턴)들을 그들간의 관계에 기초하여 클러스터링하기 위한 것으로, 상기 문서 각각은 입력 문서(또는 패턴) 세트내에 하나 이상의 문서(또는 패턴) 세그먼트를 갖는, 문서 클러스터링 장치에 있어서,
    (a) 각 문서(또는 패턴)에 나타난 용어의 발생 빈도에 기초하여, 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스를 획득하는 수단과,
    (b) 시드 문서(또는 패턴)를 선택하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)로부터 상기 시드 문서(또는 패턴)를 선택하고, 상기 시드 문서(또는 패턴)를 이용하여 초기 상태의 현재 클러스터를 구성하는 수단과,
    (c) 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 상기 현재 클러스터내의 문서(또는 패턴)들에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 및 상기 현재 클러스터의 공통 동시 발생 매트릭스에 기초한 정보를 이용하여 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하기 위한 수단 및, 상기 문서 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)들을 형성하는 수단과,
    (d) 상기 현재 클러스터에 임시로 소속된 문서(또는 패턴)들의 수가 이전 반복시의 문서들의 수와 동일하게 될 때까지 상기 (c) 수단의 동작을 반복시키는 수단과,
    (e) 주어진 수렴 조건이 만족될 때까지 상기 (b) 수단 내지 (d) 수단의 동작을 반복시키는 수단과,
    (f) 상기 각 클러스터에 대한 각 문서(또는 패턴)의 문서(또는 패턴) 공통성에 기초하여, 상기 각 문서(또는 패턴)가 소속되는 클러스터를 결정하는 수단을 포함하는
    문서 클러스터링 장치.
KR1020040014809A 2003-03-05 2004-03-05 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터 KR101086510B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003105867 2003-03-05
JPJP-P-2003-00105867 2003-03-05
JP2004030629A JP4828091B2 (ja) 2003-03-05 2004-02-06 クラスタリング方法プログラム及び装置
JPJP-P-2004-00030629 2004-02-06

Publications (2)

Publication Number Publication Date
KR20040078896A true KR20040078896A (ko) 2004-09-13
KR101086510B1 KR101086510B1 (ko) 2011-11-23

Family

ID=32829076

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040014809A KR101086510B1 (ko) 2003-03-05 2004-03-05 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터

Country Status (5)

Country Link
US (1) US7499923B2 (ko)
EP (1) EP1455285A3 (ko)
JP (1) JP4828091B2 (ko)
KR (1) KR101086510B1 (ko)
CN (1) CN1530857B (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7863510B2 (en) 2006-02-23 2011-01-04 Samsung Electronics Co., Ltd. Method, medium, and system classifying music themes using music titles
KR101035037B1 (ko) * 2010-09-01 2011-05-19 한국과학기술정보연구원 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
KR101402808B1 (ko) * 2012-09-18 2014-07-08 한국과학기술원 익명화를 위한 시드 선택 방법, 익명화 방법 및 이를 이용하는 정보 보호 장치
WO2015167074A1 (ko) * 2014-04-28 2015-11-05 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
US9477769B2 (en) 2008-10-02 2016-10-25 Nhn Corporation Method and system for detecting original document of web document, method and system for providing history information of web document for the same
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Families Citing this family (243)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4328000A (en) 1999-03-31 2000-10-16 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US6718363B1 (en) 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US7243092B2 (en) * 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7711719B1 (en) 2005-03-24 2010-05-04 Palamida, Inc. Massive multi-pattern searching
US7565348B1 (en) * 2005-03-24 2009-07-21 Palamida, Inc. Determining a document similarity metric
JP2006301959A (ja) * 2005-04-20 2006-11-02 Just Syst Corp 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070233679A1 (en) * 2006-04-03 2007-10-04 Microsoft Corporation Learning a document ranking function using query-level error measurements
EP1876540A1 (en) * 2006-07-06 2008-01-09 British Telecommunications Public Limited Company Organising and storing documents
US7593934B2 (en) * 2006-07-28 2009-09-22 Microsoft Corporation Learning a document ranking using a loss function with a rank pair or a query parameter
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
US7512605B2 (en) 2006-11-01 2009-03-31 International Business Machines Corporation Document clustering based on cohesive terms
FR2913274A1 (fr) * 2007-03-02 2008-09-05 Canon Kk Procede et dispositif de codage de document et procede et dispositif de decodage de document.
EP1973045A1 (en) * 2007-03-20 2008-09-24 British Telecommunications Public Limited Company Organising and storing documents
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
KR100992364B1 (ko) 2008-12-22 2010-11-04 포항공과대학교 산학협력단 비음수 행렬의 직교 분해를 이용한 문서 집단화 방법, 이를수행하기 위한 컴퓨팅 장치 및 이를 수행하기 위한 프로그램 기록매체
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9298722B2 (en) * 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US8635223B2 (en) 2009-07-28 2014-01-21 Fti Consulting, Inc. System and method for providing a classification suggestion for electronically stored information
CA3026879A1 (en) 2009-08-24 2011-03-10 Nuix North America, Inc. Generating a reference set for use during document review
EP2488970A4 (en) * 2009-10-15 2016-03-16 Rogers Comm Tnc SYSTEM AND METHOD FOR CLASSIFYING MULTIPLE DATA STREAMS
US8954434B2 (en) * 2010-01-08 2015-02-10 Microsoft Corporation Enhancing a document with supplemental information from another document
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
JP2011150450A (ja) * 2010-01-20 2011-08-04 Sony Corp 情報処理装置、情報処理方法、およびプログラム
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
CN102163189B (zh) * 2010-02-24 2014-07-23 富士通株式会社 从评论性文本中提取评价性信息的方法和装置
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8918399B2 (en) * 2010-03-03 2014-12-23 Ca, Inc. Emerging topic discovery
US8782734B2 (en) * 2010-03-10 2014-07-15 Novell, Inc. Semantic controls on data storage and access
US8832103B2 (en) * 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US9135603B2 (en) * 2010-06-07 2015-09-15 Quora, Inc. Methods and systems for merging topics assigned to content items in an online application
US8713021B2 (en) * 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
AU2010202901B2 (en) * 2010-07-08 2016-04-14 Patent Analytics Holding Pty Ltd A system, method and computer program for preparing data for analysis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8452774B2 (en) * 2011-03-10 2013-05-28 GM Global Technology Operations LLC Methodology to establish term co-relationship using sentence boundary detection
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP2012212422A (ja) * 2011-03-24 2012-11-01 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8706758B2 (en) * 2011-10-04 2014-04-22 Galisteo Consulting Group, Inc. Flexible account reconciliation
US8886651B1 (en) * 2011-12-22 2014-11-11 Reputation.Com, Inc. Thematic clustering
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9064491B2 (en) * 2012-05-29 2015-06-23 Nuance Communications, Inc. Methods and apparatus for performing transformation techniques for data clustering and/or classification
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP5900419B2 (ja) * 2013-06-11 2016-04-06 コニカミノルタ株式会社 関心事判別装置、関心事判別方法、およびコンピュータプログラム
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
EP3063669A4 (en) * 2013-10-31 2017-04-26 Hewlett-Packard Enterprise Development LP Classifying document using patterns
US10114823B2 (en) * 2013-11-04 2018-10-30 Ayasdi, Inc. Systems and methods for metric data smoothing
US10540404B1 (en) * 2014-02-07 2020-01-21 Amazon Technologies, Inc. Forming a document collection in a document management and collaboration system
US10599753B1 (en) 2013-11-11 2020-03-24 Amazon Technologies, Inc. Document version control in collaborative environment
US11336648B2 (en) 2013-11-11 2022-05-17 Amazon Technologies, Inc. Document management and collaboration system
US9542391B1 (en) 2013-11-11 2017-01-10 Amazon Technologies, Inc. Processing service requests for non-transactional databases
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10356032B2 (en) 2013-12-26 2019-07-16 Palantir Technologies Inc. System and method for detecting confidential information emails
US10691877B1 (en) 2014-02-07 2020-06-23 Amazon Technologies, Inc. Homogenous insertion of interactions into documents
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9619557B2 (en) 2014-06-30 2017-04-11 Palantir Technologies, Inc. Systems and methods for key phrase characterization of documents
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9256664B2 (en) * 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9807073B1 (en) 2014-09-29 2017-10-31 Amazon Technologies, Inc. Access to documents in a document management and collaboration system
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9424298B2 (en) * 2014-10-07 2016-08-23 International Business Machines Corporation Preserving conceptual distance within unstructured documents
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105095430A (zh) * 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置
KR101688829B1 (ko) * 2015-07-24 2016-12-22 삼성에스디에스 주식회사 사용자 패턴을 반영한 문서 제공 방법 및 그 장치
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11392582B2 (en) * 2015-10-15 2022-07-19 Sumo Logic, Inc. Automatic partitioning
US10146874B2 (en) * 2015-10-28 2018-12-04 Fujitsu Limited Refining topic representations
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10803358B2 (en) 2016-02-12 2020-10-13 Nec Corporation Information processing device, information processing method, and recording medium
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10318568B2 (en) 2016-06-07 2019-06-11 International Business Machines Corporation Generation of classification data used for classifying documents
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10678669B2 (en) * 2017-04-21 2020-06-09 Nec Corporation Field content based pattern generation for heterogeneous logs
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN110580335B (zh) 2018-06-07 2023-05-26 阿里巴巴集团控股有限公司 用户意图的确定方法及装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11232132B2 (en) 2018-11-30 2022-01-25 Wipro Limited Method, device, and system for clustering document objects based on information content
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
RU2757592C1 (ru) * 2019-02-08 2021-10-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для кластеризации документов
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7221527B2 (ja) * 2019-04-25 2023-02-14 株式会社アナリティクスデザインラボ 分析方法、分析装置及び分析プログラム
CN110110326B (zh) * 2019-04-25 2020-10-27 西安交通大学 一种基于主题信息的文本切割方法
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11520782B2 (en) 2020-10-13 2022-12-06 Oracle International Corporation Techniques for utilizing patterns and logical entities
CN112732904A (zh) * 2020-10-15 2021-04-30 中科曙光南京研究院有限公司 一种基于文本处理的异常突发事件检测方法及系统
CN112883154B (zh) * 2021-01-28 2022-02-01 平安科技(深圳)有限公司 文本主题挖掘方法、装置、计算机设备及存储介质
US20230245146A1 (en) * 2022-01-28 2023-08-03 Walmart Apollo, Llc Methods and apparatus for automatic item demand and substitution prediction using machine learning processes

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US6356864B1 (en) 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6360227B1 (en) 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
JP3471253B2 (ja) 1999-05-25 2003-12-02 日本電信電話株式会社 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
CN1335966A (zh) * 1999-06-15 2002-02-13 皇家菲利浦电子有限公司 在基于字符的文档和文件中的属性数据的隐形编码
JP2001229177A (ja) * 2000-02-16 2001-08-24 Mitsubishi Electric Corp 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
JP2002108894A (ja) * 2000-09-27 2002-04-12 Ricoh Co Ltd 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
JP2002183171A (ja) 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP4349480B2 (ja) 2001-05-30 2009-10-21 ヒューレット・パッカード・カンパニー 重要句・文抽出方法及び装置
US7225120B2 (en) * 2001-05-30 2007-05-29 Hewlett-Packard Development Company, L.P. Method of extracting important terms, phrases, and sentences
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP2004164036A (ja) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> 文書の共通性評価方法
US7225184B2 (en) * 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7863510B2 (en) 2006-02-23 2011-01-04 Samsung Electronics Co., Ltd. Method, medium, and system classifying music themes using music titles
US9477769B2 (en) 2008-10-02 2016-10-25 Nhn Corporation Method and system for detecting original document of web document, method and system for providing history information of web document for the same
KR101035037B1 (ko) * 2010-09-01 2011-05-19 한국과학기술정보연구원 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
KR101402808B1 (ko) * 2012-09-18 2014-07-08 한국과학기술원 익명화를 위한 시드 선택 방법, 익명화 방법 및 이를 이용하는 정보 보호 장치
WO2015167074A1 (ko) * 2014-04-28 2015-11-05 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
US10394864B2 (en) 2014-04-28 2019-08-27 Foundation Of Soongsil University Industry Cooperation Method and server for extracting topic and evaluating suitability of the extracted topic
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Also Published As

Publication number Publication date
EP1455285A3 (en) 2006-12-20
EP1455285A2 (en) 2004-09-08
US7499923B2 (en) 2009-03-03
US20040230577A1 (en) 2004-11-18
JP2004288168A (ja) 2004-10-14
CN1530857A (zh) 2004-09-22
KR101086510B1 (ko) 2011-11-23
JP4828091B2 (ja) 2011-11-30
CN1530857B (zh) 2011-11-16

Similar Documents

Publication Publication Date Title
KR101086510B1 (ko) 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터
CA2423033C (en) A document categorisation system
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
JP2004164036A (ja) 文書の共通性評価方法
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
Ledger et al. Shakespeare, fletcher, and the two noble kinsmen
EP1528486A2 (en) Classification evaluation system, method, and program
CN103399901A (zh) 一种关键词抽取方法
Kumar et al. Visual approaches for exploratory data analysis: A survey of the visual assessment of clustering tendency (vat) family of algorithms
Alexandrov et al. An approach to clustering abstracts
KR102373146B1 (ko) 군집 기반 중복문서 제거 장치 및 제거 방법
Mercioni et al. Evaluating hierarchical and non-hierarchical grouping for develop a smart system
CN105260467A (zh) 一种短信分类的方法及装置
Sandul et al. Keyword extraction from single Russian document
Perri et al. One Graph to Rule them All: Using NLP and Graph Neural Networks to analyse Tolkien's Legendarium
KR100328963B1 (ko) 띄어쓰기오류허용한국어형태소분석방법및그장치
EP2090992A2 (en) Determining words related to a given set of words
Shin et al. Automatic word sense clustering using collocation for sense adaptation
CN117391071B (zh) 一种新闻话题数据挖掘方法、装置及存储介质
KR102471408B1 (ko) 악성민원 검출장치 및 그 방법
Broda et al. Experiments in clustering documents for automatic acquisition of lexical semantic networks for Polish
Kamaruddin et al. Text classification using modified multi class association rule
He et al. A threshold criterion, auto-detection and its use in MST-based clustering
Das et al. Extraction of key topics from online text reviews
AU2001291494A1 (en) A document categorisation system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee