KR20040078896A - 문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터 - Google Patents
문서 클러스터링 장치 및 방법, 컴퓨터 프로그램 장치,컴퓨터 Download PDFInfo
- Publication number
- KR20040078896A KR20040078896A KR1020040014809A KR20040014809A KR20040078896A KR 20040078896 A KR20040078896 A KR 20040078896A KR 1020040014809 A KR1020040014809 A KR 1020040014809A KR 20040014809 A KR20040014809 A KR 20040014809A KR 20040078896 A KR20040078896 A KR 20040078896A
- Authority
- KR
- South Korea
- Prior art keywords
- document
- pattern
- cluster
- documents
- term
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Abstract
문서(또는 패턴) 클러스터링에 있어서, 정확한 수의 클러스터와, 정확한 클러스터에 대한 각 문서(또는 패턴)의 정밀한 할당이 달성된다. 동일한 토픽(또는 객체)을 기술하는 문서(또는 패턴)가 그룹화되고, 그에 따라 동일 클러스터에 소속된 문서(또는 패턴) 그룹이 얼마간의 공통성을 갖는다. 각 토픽(또는 객체)은 구별되는 용어(또는 객체 특징) 또는 용어(또는 객체 특징) 쌍을 갖는다. 주어진 클러스터에 대한 각 문서(또는 패턴)의 근사성이 획득되면, 주어진 클러스터에 대한 공통 정보가 추출되고 이용되며, 주어진 클러스터에 대해 구별되지 않는 용어(또는 객체 특징) 또는 용어(또는 객체 특징) 쌍의 영향은 배제된다.
Description
본 발명은 문서 및 패턴 클러스터링(document or pattern clustering)을 포함하는 처리에 관한 것이다.
문서 및 패턴 클러스터링은 입력된 문서 또는 패턴 세트를 문서 또는 패턴의 내용 또는 토픽에 따라 몇몇 그룹으로 분할하기 위한 기법이다. 클러스터링 기법은 오랫동안 연구되어 왔고, 지금까지 고안된 방법은 C. D. Manning과 H. Schutze가 발표한 "Foundations of Statistical Natural Language Processing" (The MIT Press, 1999)에 체계적으로 개시되어 있다. 소프트 클러스터링이라 일컫는 클러스터링은 각 문서 또는 패턴이 각 클러스터에 속할 확률을 얻는다. 하드 클러스터링이라 일컫는 클러스터링은 각 문서 또는 패턴이 각 클러스터에 소속되는지 여부를 결정한다. 하드 클러스터링은 계층 및 비계층적 방안으로 더 나뉜다. 계층적 방안은 상향식(bottom-up) 및 하향식(top-down) 방안으로 더 나뉜다. 계층적 방안의 초기 상태에서, 각 문서 또는 패턴은 클러스터의 시드(seed)가 되고, 최근사 클러스터를 합병(merging)하는 처리를 반복한다. 최근사 클러스터를 합병하기 위해, 문서 또는 패턴 세트를 트리 구조(tree structure)로 표현한다. 클러스터들간에 가까운 정도(즉, 유사성(similarity))를 측정하는 방법으로서 단일 연결법(single link method), 완전 연결법(complete link method) 및 그룹 평균법(group average method)이 알려져 있다. 이들 측정법의 각각에서, 계산은 두 문서 또는 패턴간의 유사성에 근거하여 수행된다. 하향식 방안에서, 모든 문서 또는 패턴이 하나의 클러스터내에 있는 초기 상태로부터 처리를 반복한다. 예를 들어, 하나의 클러스터내에서 모든 문서 또는 패턴 쌍의 최저 유사성(lowest similarity)이 임계값보다 작으면, 클러스터는 분할된다.
비계층적 방법에서, 미리 정해진 수의 클러스터가 소정의 기준을 만족시키도록 정해진다. 비계층적 방법에서의 전형적인 처리 단계들은 다음으로서, 단계 1: 특정 수의 클러스터링 문서 또는 패턴을 임의로 선택하여 그들을 각 클러스터의 중심으로 만들고,
단계 2: 각 문서 또는 패턴과 각 클러스터 중심과의 거리를 계산하여 각 문서 또는 패턴을 그것에 가장 가까운 클러스터에 귀속시키고,
단계 3: 각 클러스터에 소속되는 문서 또는 패턴 벡터를 평균(averaging)함으로써 각 클러스터의 중심을 결정하고,
단계 4: 각 문서 또는 패턴이 소속되는 클러스터가 변경되지 않았으면, 단계 2의 처리를 수행하고 프로시저를 종료하고, 변경되었으면, 단계 3을 수행한다.
통상적인 문서 및 패턴 클러스터링 기법은 세 가지 심각한 문제를 갖고 있다. 한 가지 문제는 획득할 클러스터 수에 관한 것이다. 문서 또는 패턴 클러스터링에서, 획득할 클러스터의 수는 입력된 문서 또는 패턴 세트의 문서 또는 패턴에 나타난 토픽 수와 같아야 한다. 위에 설명한 바와 같이, 상향식 계층적 클러스터링 처리에서, 각 클러스터는 하나의 문서 또는 패턴을 포함하는 상태로부터 시작하여, 모든 문서 또는 패턴이 최종적으로 하나의 클러스터내에 있을 때까지 최근사 클러스터를 합병하는 것을 반복한다. 따라서, 클러스터들의 수가 토픽의 수와 같은 클러스터를 얻기 위해서는, 클러스터 합병을 중지할 필요가 있다. 이는,유사성이 임계값보다 작은 클러스터 쌍들을 합병하지 않음으로써 실현될 수 있다. 그러나, 임계값을 결정하기가 어렵다. 임계값이 부적절하면, 정확한 수의 클러스터가 획득될 수 없다. 이와 유사하게, 하향식 클러스터링 처리에서는, 하나의 클러스터내에서 모든 문서 또는 패턴 쌍의 최저 유사성이 임계값보다 높으면 클러스터가 분할되지 않아, 원리적으로 토픽 수와 동일한 수의 클러스터가 획득되어야 한다.
이러한 경우에도 임계값을 결정하기가 어렵다. 또한, 비계층적 클러스터링에서, 주어진 문서 세트가 분할될 클러스터의 수를 사용자가 (미리) 입력할 것을 요구한다. 그러나, 입력 문서 또는 패턴 세트에 대한 사전지식 없이 클러스터 수에 관한 정보를 정확히 입력하는 것은 불가능하다. 위에 언급한 바와 같이, 입력 문서 또는 패턴 세트로부터 정확한 수의 클러스터를 얻는 것은 어려운 문제이다. 비계층적 클러스터링으로 클러스터 수를 정확히 추론하려한 Liu 등에 의해 성능이 향상되었으나, 완벽하지는 않다(X. Liu, Y. Gong, W. Xu and S. Zhu, Document Clustering with Cluster Refinement and Model Selectin Capabilities; Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191-198. Tampere, Finland, August, 2002).
제 2의 문제는 클러스터링 정확성이다. 이는, 동일한 클러스터에 소속되는 문서 또는 패턴이 동일한 토픽 또는 객체를 기술하는지의 여부에 관한 것이다. 일반적으로, 클러스터링 처리에서, 문서는 벡터로 표현된다. 각 벡터 구성 요소는 문서내에서 각 용어의 존재나 그 용어 발생 빈도에 의존한다. 두 개의 클러스터간의 유사성은, (1) 상이한 클러스터에 소속되는 문서들의 두 개의 벡터간의 코사인 유사성(cosine similarity) 및 (2) 특정 문서와 클러스터간의 거리에 기초하여 결정된다. 문서 또는 패턴과 클러스터간의 거리는 문서 또는 패턴의 벡터와 클러스터내의 문서 또는 패턴의 평균 벡터간의 거리(가령, 유클리디언 거리(Euclidean distance)에 의해 결정된다. 통상의 클러스터링 처리에서는, 코사인 유사성 또는 유클리디언 거리가 획득되면, 보통 각 문서 또는 패턴에 대해 획득된 벡터는 클러스터에 어떤 용어가 중요한 지에 대한 확인 없이 사용된다. 그래서, 각 클러스터에 필수적이지 않은 용어나 객체 특징 또는 용어나 객체 특징 쌍의 존재는 클러스터링 정확성에 영향을 미칠 수 있다.
제 3의 문제는 토픽이나 객체의 계층을 추출하는 방법에 관한 것이다. 보통, 토픽 또는 객체에는 계층이 존재한다. 예를 들어, 토픽 "이라크 전쟁"을 고려해 보자. 관련된 뉴스 기사에서의 서브토픽(subtopic)은 "이라크 전쟁", "사담 후세인(Saddam Hussein)", "미국에 의한 대량 사살 무기 조사", "부시 대통령의 의견", "프랑스, 독일 및 러시아의 대항" 중 임의의 하나일 수 있다. 이러한 뉴스 기사의 클러스터링 결과를 고려해 보자. "이라크 전쟁"에 대해 알고자 하는 사용자는 서브클러스터링(sub-clustering)에 의해 획득된 각 서브토픽에 대응되는 문서 그룹이 나타나기를 원할 것이다. 사용자는 보통 본래의 클러스터링 결과가 나타나지 않기를 원할 것이다. 위에서 언급한 바와 같이, 개별 토픽에 대응되는 클러스터를 정확하게 결정하여 각 문서를 정확한 클러스터에 할당하는 것이 어렵기 때문에, 서브클러스터링은 어려운 문제로 남아있다.
토픽(또는 객체) 계층이 획득되지 않은 플랫 클러스터링(flat clustering)의 경우를 고려해보자. 문서(또는 패턴) 클러스터링은, 각 문서(또는 패턴)에 기술된 토픽(또는 객체)에 따라 문서(또는 패턴)를 그룹으로 나누기 때문에, 하나의 클러스터에 소속되는 문서(또는 패턴)(클러스터 문서(또는 패턴) 세트라 일컫어짐)는 동일한 토픽(또는 객체)을 기술해야 한다. 따라서, 클러스터 문서 세트는 몇 가지 공통성을 가져야 한다. 또한, 각각의 토픽(또는 객체)은, 그 토픽(또는 객체)과 구별되고 그 토픽(또는 객체)에서는 자주 발견되지만 다른 토픽(또는 객체)에서는 거의 발견되지 않는 용어나 용어 쌍을 가져야 한다. 따라서, 클러스터들간에 용어나 용어 쌍(또는 객체나 객체 쌍)의 발생 경향에는 차이가 있어야 한다.
위의 관점에서, 본 발명의 일 측면에 따라, 클러스터링의 정확성을 향상시키기 위해, 클러스터링 처리에 다음이 도입된다. A) 주어진 클러스터 문서(또는 패턴) 세트의 공통 정보가 추출되고, 공통 정보를 이용하여 주어진 클러스터로의 각 문서(또는 패턴)의 근사성(closeness)(문서(또는 패턴) 공통성)이 획득된다. B) 주어진 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체 특징이나 객체 특징 쌍)이 검출되고, 구별되지 않는 그 쌍들의 영향은 문서 공통성의 계산에서 제외된다.
통상의 계층적 처리에서, 클러스터의 합병 또는 분할을 수회 반복한다. 통상인 비계층적 처리에서, 클러스터들의 멤버는 여러 차례 상호교환된다. 그러므로, 종래의 기술로, 제각각의 클러스터들의 공통 정보, 또는 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체 특징이나 객체 특징 쌍)을 검출하기가 어렵다.
본 발명의 일 측면은 다음과 같은 여러 단계들을 포함하는 방법을 사용한다.
단계 1: 클러스터 시드의 후보는 제 1 반복시 모든 문서(또는 패턴)로부터 검출된다. 제 2 또는 후속 반복시, 클러스터 시드 후보는 임의의 현재 클러스터에의 문서(또는 패턴) 공통성이 임계값보다 작은 문서(또는 패턴)로부터 검출된다.
단계 2: 각 후보에 관해서, 모든 문서(또는 패턴)에의 유사성이 검출된다. 유사성이 임계값보다 높은 문서(또는 패턴)는 인접(neighbor) 문서(또는 패턴)로서 추출된다. 최다수의 인접 문서(또는 패턴)를 갖는 후보 문서(또는 패턴)가 클러스터의 시드로서 선택된다. 클러스터는 시드의 인접 문서(또는 패턴)의 세트로 구성된다.
단계 3: 각각의 문서(또는 패턴)의 현재 클러스터와의 문서(또는 패턴) 공통성이 검출된다. 임계값보다 높은 문서(또는 패턴) 공통성을 갖는 문서(또는 패턴)는 임시적으로 그 클러스터에 속하게 되어서 그 클러스터는 성장하게 된다. 그 클러스터에 임시적으로 소속되는 문서(또는 패턴)의 수가 일정하면, 프로시저는 단계 4로 진행된다. 그렇지 않으면, 각 문서(또는 패턴)의 현재 클러스터와의 문서(또는 패턴) 공통성이 재검출된다. 종료 조건이 만족되면, 처리는 다음 단계로 진행된다. 종료 조건이 만족되지 않으면, 처리는 단계 1로 돌아가 계속된다.
단계 5: 다음 단계에서, (각각의 문서(또는 패턴)에 관해) 각각의 클러스터에의 문서(또는 패턴) 공통성이 검출되고, 각 문서(또는 패턴)는, 문서(또는 패턴) 공통성이 임계값보다 높은 클러스터에 소속되는 것으로 판정된다.
다음으로, 두 개 이상의 클러스터가 중첩되고 하나의 토픽(또는 객체)에 대응되는지 여부를 결정한다. 이러한 클러스터는 중복 클러스터(redundant cluster)로서 판단되어, 고려되는 각각의 문서(또는 패턴)가 소속되는 클러스터를 재획득한다.
위의 클러스터링 프로시저에서, 공통 정보를 사용하는 문서(또는 패턴) 공통성의 계산 및 주어진 클러스터와 구별되지 않는 용어나 용어 쌍(또는 객체나 객체 쌍)의 검출이 단계 3 및 5에서 수행된다. 전자에 있어서, 주어진 클러스터에 임시적으로 소속되는 문서(또는 패턴)로부터 공통 정보가 추출된다. 공통 정보의 추출 및 사용에 있어서는, 일본 특허 출원 제 2002-326157 호에 개시된 방법을 채택할 수 있다.
주어진 클러스터가 R개의 문서로 구성되고, R개의 문장으로 구성된 문장 그룹은 각 문서로부터 하나의 문장을 추출함으로써 형성된다고 가정하면 기본 개념을 이해할 수 있다. 문장 그룹은 문장의 가능한 모든 조합에 대해 구성된다. 이러한 문장 그룹의 전체 수는 제각각의 문서의 문장 수의 곱과 같게 된다. 주어진 문장 그룹에서, R개의 문장 중에서 A개보다 많은 문장에서 발견되는 용어는 공통 용어(common term)로서 정의되고, 공통 용어로 구성된 문장은 공통 문장이라 일컫어진다. A개보다 많은 문서에서 발견되는 용어는 몇몇 문장 그룹에서 공통 용어가 된다. 또한, 공통 문장은 모든 문장 그룹에 대해 구성되어, 공통 문장의 세트가 구성된다고 가정하자. 위에서 언급한 바와 같이, 공통 문장의 세트는 주어진 클러스터의 공통 토픽 내용을 나타낸다고 간주될 수 있다. 따라서, 각각의 문서와 공통 문장 세트간의 유사성이 문서 공통성으로서 획득될 수 있으면, 그것은 각각의 문서가, 주어진 클러스터의 공통 토픽에 근사하다는 것을 나타낼 것이다.
문서(또는 패턴)와 공통 문장의 세트(또는 객체의 그룹)간의 유사성은, 문서(또는 패턴)가 A개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)를 포함할 때만 0이 아닌 값(non-zero value)을 갖는다. 두 개의 값, A1및 A2(A1>A2)를 A의 값으로서 고려해보자. A1개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)의 수는 A2개보다 많은 문서(또는 패턴)에서 발견되는 용어(또는 객체)의 수보다 작기 때문에, A=A1이면 공통 문장(또는 객체 그룹)의 토픽은 A=A2일 때보다 한정적이다. 그러므로, 공통 문장(또는 객체 그룹) 세트와의 유사성이 임계값보다 큰 문서(또는 패턴)의 토픽 범위(spread)는 A=A2일 때보다 A=A1일 때 작다. 더욱이, A1개보다 많은 문서(또는 패턴)에서 발견되는 용어를 포함하는 문서(또는 패턴)의 수는 A=A2일 때의 수보다 작다. 문서(또는 패턴)와 공통 문장의 세트(또는 객체의 그룹)와의 유사성이 단계 3 및 5에서 문서(또는 패턴) 공통성으로서 채택되면, A가 작은 값으로 설정될 때, 클러스터는 토픽이 광범위한 문서(또는 패턴)로 구성되고, 그 역도 마찬가지다. 그래서, A의 값은 클러스터의 토픽(또는 객체)범위를 제어한다.
주어진 클러스터와 구별되지 않는 용어 및 용어 쌍(또는 객체 및 객체 쌍)은, 그 시드 문서(또는 패턴)의 토픽(또는 객체)이 i인 주어진 클러스터의 성장 처리를 고려함으로써 검출된다. 이 개념을 이해하기 위해, (1) 전체 문서 세트 중 토픽 i를 기술하는 문서의 수가 co개이고, (2) c는 주어진 클러스터의 문서 세트가고, (3) 용어 m을 포함하는 문서의 수는 전체 입력 문서 세트 중 Uo mm개이고, (4) Umm은 주어진 클러스터의 문서 세트가고, (5) 용어 m은 토픽 i에 대해 구별된다고 가정해 보자. 용어 m을 갖는 대부분의 문서는 토픽이 i이기 때문에, 다음 관계식이 만족되어야 한다. Uo mm/Umm =co/c.
토픽이 i가 아닌 문서에서 자주 발견되는 용어 m은 관계식 Uo mm/Umm =co/c을 충족시키지 않고, 다음 관계식:
를 충족시켜야 한다.
따라서, co/c가 정확하게 결정될 수 있다면, 용어 m이 토픽(또는 객체) i에 대해 구별되는지의 여부에 관한 결정이 수행될 수 있다. UO mm/Umm은 용어(또는 객체 특징) m의 문서(또는 패턴) 빈도율이라고 불린다. 주어진 클러스터의 문서(또는 패턴) 세트에서 가장 높은 빈도를 갖는 특정 수의 용어(또는 객체 특징) 중에서, (1) 작은 문서(또는 패턴) 빈도율을 갖는 특정 수의 용어(또는 객체 특징)는 토픽(또는 객체) i에 대해 구별되는 것으로 가정되며, (2) 이들 용어(또는 객체 특징)의 문서(또는 패턴) 빈도율의 평균 c'은 co/c의 예측된 값으로서 간주된다. 결국, 상수 계수 α를 이용함으로써, 이하의 수학식을 만족하는 용어(또는 객체 특징) m은 토픽(또는 객체) i에 대해 구별되지 않는다는 결정이 수행될 수 있다.
마찬가지로, 용어(또는 객체 특징) m, n을 포함하는 문서(또는 패턴)의 수는 전체 입력 문서(또는 패턴) 세트에서 U0 mn이며, Umn은 주어진 클러스터의 문서(또는 패턴) 세트라고 가정한다. 이들 가정을 이용함으로써, 이하의 수학식을 만족하는 용어(또는 객체 특징) m, n은 토픽(또는 객체) i에 대해 구별되지 않는다는 결정이 수행될 수 있다.
문서 공통성에 대하여, 주어진 클러스터에 대해 필수적이지 않은 용어(또는 객체 특징) 및 용어(또는 객체 특징) 쌍의 영향을 감소시키기 위해, 토픽(또는 객체) i에 대해 구별되지 않는 것으로 판정된 용어(또는 객체 특징) 및 용어(또는 객체 특징) 쌍은 주어진 클러스터의 각 문서(또는 패턴)과 문서(또는 패턴) 세트 사이의 문서(또는 패턴) 공통성의 계산을 위해 이용되지 않는다. 이와 달리,
은 문서(또는 패턴) 공통성 계산시에 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n에 대한 가중치로서 각각 이용될 수 있다. 이러한 방안을 이용함으로써, 문서 공통성은 토픽(또는 객체) i를 기술하는 문서(또는 패턴)에 대해 큰 값을 갖는다. 그 결과, 클러스터링 정확성의 개선을 기대할 수 있다.
전체 클러스터링 프로시저에서, 처리가 반복 수행되어, 처음에 하나의 문서(또는 패턴)가 클러스터의 시드로서 추출되고, 그 다음 이러한 시드와 동일한 토픽(또는 객체)을 기술하는 문서(또는 패턴)을 검출 및 합병함으로써 시드가 성장하게 된다. 따라서, 시드 문서(또는 패턴)의 수가 입력 문서내의 토픽(또는 객체)의 수와 동일하다면, 정확한 수의 클러스터가 획득될 수 있다. 단계 1의 결과로서 2개의 시드 문서(또는 패턴)가 동일 토픽(또는 객체)에 대해 검출되었지만, 단계 6에서 중복 클러스터가 검출 및 제거되므로, 정확한 수의 클러스터가 획득될 수 있다. 단계 1의 결과로서 시드 문서(또는 패턴)가 어떤 토픽(또는 객체)에 대해 검출되지 않는다면, 클러스터의 수는 작아진다. 그러한 상황은 검출될 토픽(또는 객체)을 갖는 문서(또는 패턴)가 다른 토픽(또는 객체)의 현존 클러스터에 대해 높은 문서(또는 패턴) 유사성을 갖고, 클러스터로 합병될 때 발생된다. 그러나, A) 및 B)을 채택함으로써 클러스터링의 정확성이 증가하므로, 상이한 토픽(또는 객체)을 갖는 문서(또는 객체)가 혼합될 가능성은 낮으며, 획득된 클러스터의 수가 작아지는 상황은 거의 발생하지 않는다.
A의 값이 변하거나, 또는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이 선택적으로 이용되는 것으로서 전술된 클러스터링 프로시저를 반복적으로적용함으로써 계층적 클러스터링이 수행될 수 있다. 다음과 같이 가정한다. 즉, (1) 입력 문서(또는 패턴) 세트는 제 0 층상에 있고, (2) 클러스터링을 입력 문서(또는 패턴)에 적용함으로써 획득된 클러스터는 제 1 층상에 있고, (3) 서브클러스터링을 제 1 층상의 각 클러스터에 적용함으로써 획득된 서브클러스터는 제 2 층상에 있고, (4) 그 다음 후속하는 층상의 각 클러스터에 대해 서브클러스터링을 수행한다.
계층적 클러스터링은 다음과 같이 수행될 수 있다. 첫째, 제 1 층상의 클러스터는 A를 적절한 값으로 설정함으로써 전술한 클러스터링 처리를 적용하는 것에 의해 획득된다. 각 클러스터내의 문서(또는 패턴)는 각 토픽(또는 객체)를 갖는다. 제 2 층상의 서브클러스터가 획득될 때, A는 제 1 층상의 클러스터가 획득될 때의 값보다 큰 값으로 설정된다. 제 1 층상의 클러스터는 좁은 범위를 갖는 서브토픽(또는 서브 객체)을 갖는 서브클러스터로 분할된다.
대안적인 계층적 클러스터링 방법은 다음과 같다. 제 2 층상의 서브클러스터내의 구별되는 용어(또는 객체 특징) 또는 용어 쌍(객체 특징 쌍)은 제 1 층상의 부모(parent) 클러스터에서 낮은 문서 빈도를 갖는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이어야 한다. 따라서, 유효 서브클러스터는 임계값보다 높은 문서 빈도(또는 패턴)를 갖는 용어(또는 객체 특징) 또는 용어 쌍(또는 객체 특징 쌍)이 제거된 후에 클러스터링 처리를 적용함으로써 획득된다. 마찬가지로, 제 3 층 또는 보다 높은 층상의 서브클러스터가 획득될 것이다.
도 1은 본 발명과 관련된 일반적인 컴퓨터 동작의 블럭도,
도 2a 및 2b는 도 1의 문서 입력 및 전처리 블럭과 관련된 동작의 흐름도로서, 문서 세트가 입력되는 단계로부터 각 문서가 소속되는 결정 클러스터의 단계까지의 절차를 결정하는 도면,
도 3은 도 1의 문서 정보 처리 블럭과 관련된 동작이 클러스터가 성장하게 하는 방법 및 초기 클러스터로부터의 성장 절차를 도시하는 흐름도,
도 4a 및 4b는 중복 클러스터를 삭제하는 방법을 설명하기 위한 도면.
도면의 주요 부분에 대한 부호의 설명
110 : 문서 입력 블럭 120 : 문서 전처리 블럭
130 : 문서 정보 처리 블럭 140 : 출력 블럭
도 1은 클러스터링된 문서를 자연 언어 처리하는 방법에 대한 컴퓨터 시스템의 블럭도이다. 설명된 원리는 패턴 처리에도 또한 적용할 수 있지만, 단지 문서 처리와 관련하여서만 특정 실시예를 설명한다. 시스템은 문서 입력 블럭(110), 문서 전처리 블럭(120), 문서 정보 처리 블럭(130) 및 출력 블럭(140)을 포함한다. 처리될 문서 세트가 문서 입력 블럭(110)에 입력된다. 문서 전처리 블럭(120)은 입력된 문서에 대해, 용어 검출, 형태 분석 및 문서 세그먼트 분할을 수행한다.
문서의 문서 세그먼트 기본 단위는 문장이다. 대부분의 유럽 언어의 문장의 시작 및 끝은 쉽게 검출되는데, 그 이유는 각 문장의 끝은 마침표를 가지며, 인쇄되는 경우 더블 스페이스가 따르게 되기 때문이다. 복잡한 문장과 관련된 다른 문서 구분 방법으로서, 문장은 주절 및 종속절로 구분(즉, 분할)된다. 다른 방법에서, 복수의 문장이 문서 세그먼트로 수집되어, 각 문장에서의 용어의 수가 대략 동일하게 되도록 한다. 다른 방법에서는, 문서내의 문장에 관계없이, 문서의 시작으로부터, 문서를 동일한 수의 용어를 갖는 세그먼트로 분할한다.
블럭(130)은 입력된 문서의 정보 처리 및 입력된 문서에서의 클러스터링과 직접 관련된 처리를 수행한다. 블럭(130)은 (1) 시드 문서 검출, (2) 모든 입력 문서와 주어진 클러스터 사이의 문서 세트 공통성 계산, (3) 특정 클러스터에 대해 구별되지 않는 용어 및 용어 쌍 검출과 같은 동작을 수행한다. 블럭(130)은 이하에 상세히 기술된다. 출력 블럭(140)은 디스플레이와 같은 출력 장치에, 문서 정보 처리 블럭(130)에 의해 획득된 결과를 출력한다.
도 2a 및 2b는 블럭(110, 120, 130)이 소정의 문서 세트에 대해 수행하는 클러스터링 및 다른 동작의 흐름도를 구성한다. 도 2a, 2b, 3의 동작은 범용 컴퓨터상에서 프로그램을 실행함으로써 수행될 수 있다.
단계(21) 동안, 입력 블럭(110)에 의해 문서 세트가 컴퓨터에 공급된다. 공급된 문서는 단계(22) 동안, 전처리 블럭(120)에서 모두 전처리된다. 단계(23) 동안, 블럭(130)은 문서 세트내의 모든 문서로부터 정보를 추출한다. 단계(24) 동안, 블럭(130)은 클러스터의 시드 문서를 추출하여, 초기 클러스터를 구성한다. 블럭(130)은, 단계(25) 동안, 문서를 처리하여 클러스터를 성장시킨다. 단계(26) 동안, 블럭(130)은 세트내의 나머지 문서를 추출한다. 블럭(130)은, 단계(27) 동안, 조건 검사를 종료한다. 단계(28) 동안, 블럭(130)은 문서 세트를 처리하여, 나머지 문서로부터 정보를 추출한다. 블럭(130)은, 단계(29, 30) 동안 각각, 클러스터 멤버에 무엇이 있는지를 결정하고, 그 후 중복 클러스터를 추출 및 제거한다. 영어 문서 처리의 실시예를 기술한다.
첫째, 단계(21) 동안, 문서 세트가 객체로서 컴퓨터에 입력된다. 계층적 클러스터링에서 제 n 층상의 서브클러스터가 획득될 때, 입력 문서 세트는 제 (n-1) 층상의 (서브)클러스터내의 문서로 구성된다. 문서 전처리 단계(22)에서, 각 입력 문서에 대해 (용어 검출, 형태 분석, 문서 세그먼트 분할, 문서 세그먼트 벡터 구성과 같은) 문서 전처리가 수행된다. 용어 검출은 각 입력 문서에 대한 단어, 수치 표현, 심볼 시리즈 등의 검출을 포함한다. 그러므로, 단어, 수치 표현, 심볼 시리즈 등은 일반적으로 용어라고 지칭된다. 영어 기록 표기 방법은 간격을두고 분리된 용어들을 갖기 때문에, 용어 검출은 용이하게 수행된다.
다음, 각 입력 문서에 대해 (용어에 대한 스피치 태깅(speech tagging)의 일부와 같은) 형태 분석이 수행된다.
각 입력 문서에 대해 문서 구분(또는 분할)이 수행된다. 문서 세그먼트 벡터 구성에서, 구성될 벡터의 차원 및 각 구성 요소와 각 용어 사이의 대응 관계는 전체 문서에서 발생되는 용어로부터 처음에 결정된다. 벡터의 구성 요소가 문서에서 발생되는 모든 용어에 대응하도록 만들 필요는 없다. 스피치 태깅의 일루로부터의 결과를 이용하는 것에 의해, 벡터는, 예를 들면, 단지 명사 및 동사라고 판정될 용어만을 이용함으로써 구성될 수 있다. 다음, 문서 세그먼트 벡터는 각 문서 세그먼트에서 발생되는 용어에 대응하는 구성 요소만이 1이고, 다른 것은 0이 되도록 구성된다.
모든 문서에 대한 문서 세트 정보 추출 단계(23)에서, 클러스터링 처리 단계에서 이용된 데이터는 각 문서 및 전체 입력 문서 세트로부터 획득된다. 획득될 데이터는 각 문서의 동시 발생 매트릭스(co-occurrence matrix), 문서 세트의 동시 발생 매트릭스(공통 동시 발생 매트릭스) 및 전체 입력 문서 세트의 문서 빈도 매트릭스이다. 각 문서의 동시 발생 매트릭스는 용어의 발생 빈도 및 용어 쌍의 동시 발생 빈도를 반영하는 매트릭스이다.
문서 세그먼트인 문장의 경우에 대해 설명을 계속하며, 여기서, M은 발생되는 용어의 종류 수를 나타내고, Dr은 R개의 문서로 구성되는 문서 세트 D내의 r번째문서를 나타내고, Yr은 문서 Dr내의 문장의 수를 나타내고, dry= (dry1, ..., dryM)T는 y번째 문장 벡터를 나타낸다. 문장 벡터 dry는 이진 벡터이므로, drym은 m번째 용어의 존재 또는 부재를 나타낸다. 문서 Dr의 동시 발생 매트릭스 Sr은 다음의 수학식과 같이 주어진다.
여기서, T는 벡터 전치(transpose)를 나타낸다.
수학식 (1)로부터, Sr의 mn 구성 요소는 다음과 같이 주어진다.
따라서, Sr mm은 용어 m이 발생되는 문장의 수를 나타내고, Sr mn은 용어 m 및 n이 동시에 발생되는 문장의 동시 발생 카운트를 나타낸다. 각 문장내에서 각 용어가 2회 이상 발생되지 않는다면, Sr mm은 문서 Dr내에서의 용어 m의 발생 빈도를 나타낸다. 다음, 시스템은 매트릭스 T를 획득하며, 그것의 mn 구성 요소는 다음과 같이 정의된다.
더욱이, 각 용어의 문서 빈도 및 입력 문서 세트내의 각 용어를 저장하는 문서 빈도 매트릭스 U0이 획득된다. 매트릭스 U0 mm및 U0 mn은 용어 m이 발생되는 문서의 수 및 용어 m 및 n이 동시 발생되는 문서의 수를 각각 나타낸다. 전술한 바와 같은 매트릭스 T 및 U0을 이용함으로써, 공통 동시 발생 매트릭스 TA가 획득된다. 공통 동시 발생 매트릭스 TA의 mn 구성 요소는 다음과 같이 결정된다.
"A"는 실험적으로 결정된 임계값을 나타낸다.
이하에 주어진 바와 같은 mn 구성 요소를 갖는 매트릭스 QA가 정의되어, 공통 동시 발생 매트릭스로서 이용된다.
계층적 클러스터링이 수행되는 경우, U0 mn의 값이 임계값을 초과할 때 U0 mn은 0으로 설정된다.
단계(24)에서, 프로세서(130)는 이전에 기술된 단계 1 및 2를 수행함으로써, 클러스터의 시드 문서를 추출하여, 초기 클러스터를 구성한다. 임의의 현재 클러스터에 대한 문서 공통성이 임계값보다 작은 문서는 나머지 문서 세트라고 가정한다. 나머지 문서 세트는 임의의 현재 클러스터에 속하지 않을 가능성이 높은 문서의 세트이다. 공통 동시 발생 매트릭스 TA, QA, 및 문서 빈도 매트릭스 U는 (1)제 1 반복시의 입력 문서 세트 및 (2) 제 2 및 후속 반복시의 나머지 문서 세트에 기초하여 계산된다.
클러스터의 시드 문서는 문서가 기술하는 토픽에서의 현저한 문서인 것이 바람직하다. 나머지 문서 세트내의 가장 현저한 토픽의 문서 그룹에서의 현저한 문서는 나머지 문서 세트에 대해 높은 문서 공통성을 갖는 것으로 가정되기 때문에, 단계(24)는 (1) 나머지 문서 세트내의 각 문서와 나머지 문서 세트 사이의 문서 공통성을 결정하고, (2) 높은 문서 공통성을 갖는 문서를 클러스터의 시드의 후보로서 선택한다. SP를 임의의 문서 P에 대한 공통 동시 발생 매트릭스라고 한다. 단계(24) 동안, 문서 P와 나머지 문서 세트 사이의 문서 공통성은 다음과 같이 획득된다.
수학식 (2)에서, 매트릭스 TA는 또한 매트릭스 QA대신에 이용될 수 있다. 복수의 토픽에 공통인 용어의 영향을 감소시키기 위해, 동시 발생 매트릭스 및 공통 동시 발생 매트릭스의 대각선 구성 요소는 수학식 (2)에서 이용될 수 없는데, 그 이유는, 각각의 용어는 용어 쌍보다 용이하게 복수의 토픽에서 공유되는 경향이 있기 때문이다.
클러스터의 시드 문서의 후보는 수학식 (2)를 이용하여 나머지 문서 세트내의 모든 문서에 대한 문서 공통성을 계산하고, 높은 문서 공통성을 갖는 특정 수의 문서를 선택함으로써 획득된다.
다음, 클러스터 시드 문서 추출을 다루는 단계(24)의 일부에 대해 기술된다. 각각의 후보 문서에 대해, 나머지 문서 세트 D내의 모든 문서의 유사성이 처음에 획득된다. 잘 알려진 코사인 유사성이 유사성 기준으로서 채택될 수 있다. 다음, 각각의 후보 문서에 대해, 사전설정된 임계값보다 큰 유사성을 갖는 문서가, 각각의 후보 문서의 인접 문서로서 획득된다. 가장 큰 수의 인접 문서를 갖는 문서가, 후보 문서로부터 클러스터 시드 문서로서 선택된다. 초기의 클러스터는 시드 문서의 인접 문서에 의해 주어진다.
블럭(130)이 수행하는 클러스터 성장 단계(25)에서, 높은 공통성을 갖는 문서를 클러스터와 합병함으로써 클러스터가 성장한다. 도 3은 클러스터 성장 단계(25)의 상세한 흐름도이다. 처음에 블럭(130)은, 단계(31) 동안, 문서 빈도 매트릭스를 구성한다. 블럭(130)은, 단계(32) 동안, 공통 동시 발생 매트릭스를 구성하고, 이어서 각 용어 및 용어 쌍에 대한 변별성 계산이 수행되는 단계(33)이 뒤따른다. 그 다음, 단계(34) 동안, 블럭(130)은 문서 공통성을 계산하고, 이어서 클러스터 멤버 결정이 수행되는 단계(35)가 뒤따른다. 블럭(130)은 종료 조건 검사 단계(36)로 진행한다.
문서 빈도 매트릭스의 구성을 포함하는 단계(31) 및 공통 동시 발생 매트릭스의 구성을 포함하는 단계(32) 동안, 블럭(130)은 현재 처리된 문서의 세트에 대해 단계(31, 32) 동안 처리를 수행한다. 이들 단계(31, 32)의 처리는 도 2의 단계(23) 동안의 문서 빈도 매트릭스 구성 처리 및 공통 동시 발생 매트릭스 구성 처리와 동등하다.
U를 단계(31) 동안에 획득한 문서 빈도 매트릭스라고 하자. TA및 QA를 각각 단계(32) 동안에 획득한 공통 동시 발생 매트릭스 및 그의 수정된 매트릭스라 하자. 단계(33) 동안에, 블럭(130)은 각 용어에 대한 변별성 및 가중치를 결정한다. 문서 빈도가 0인 용어 및 용어 쌍에 대한 가중치는 0으로 설정된다. 상술한 방식에 있어서, 우선, 용어 m에 대한 문서 빈도율로서 U0 mm/Umm을 획득한다. 또한, 높은 문서 빈도를 갖는 특정 수의 용어 및 작은 문서 빈도율을 갖는 특정 수의 용어가 선택된다. 선택된 용어는 주어진 클러스터의 구별되는 용어인 것으로 간주된다. 다음, 이들 용어의 문서 빈도율을 평균한다. c'을 평균 문서 빈도율이라 하자. 용어 m의 변별성 vmm및 용어 쌍 m, n의 변별성 vmn은 아래의 수학식에 의해 결정된다.
대안적으로, 평균 문서 빈도율은 구별되는 용어 쌍 및 구별되는 용어 둘다를 이용하여 획득할 수 있다. 이 경우 있어서, m이 n과 다르면, U0 mn/Umn은 용어 쌍 m,n의 문서 빈도율로서 획득되고, m이 n과 동일하면, U0 mn/Umn은 용어 m의 문서 빈도율로서 획득된다. 가장 높은 문서 빈도를 갖는 특정 수의 용어 및 용어 쌍들 중에서, 낮은 빈도율을 갖는 특정 수의 용어 또는 용어 쌍을 선택한다. 선택된 용어 또는 용어 쌍은 주어진 클러스터의 구별되는 용어 또는 용어 쌍으로서 간주된다. 다음, 이들 용어 및 용어 쌍의 문서 빈도율을 평균한다. c'를 평균이라 하자.
zmm및 zmn을 각각 용어 m 및 용어 쌍 m,n의 가중치라 하자. 이들 가중치는 다음과 같은 가중치 결정 함수 f(x)를 이용하여 결정된다.
f(x)에 대해 여러 함수들이 고려될 수 있다. 예를 들어, 다음과 같은 함수들이 이용될 수 있다.
f(x) = x
또는
f(x) = x2
또는
x가 임계값보다 큰 경우, f(x) = 1,
그렇지 않은 경우, f(x) = 0.
문서 공통성 계산 단계(34)에 있어서, 블럭(130)에서는 모든 입력 문서들에 대하여 주어진 클러스터에 대한 문서 공통성을 계산한다. Sp를 문서 P의 동시 발생 매트릭스라 하자. 문서 세트 D에 대한 문서 P의 문서 공통성은 다음의 수학식에 의해 획득될 수 있다.
또는
여기에서, D는 주어진 클러스터의 문서 세트를 나타낸다. 상술한 수학식에 있어서, 매트릭스 QA대신에 매트릭스 TA가 이용될 수 있다.
단계(35)에 있어서, 블럭(130)에서는 특정의 값보다 높은 문서 공통성을 갖는 문서들을 선택함으로써 주어진 클러스터의 클러스터 멤버를 결정한다.
종료 조건 검사 단계(36)에 있어서, 블럭(130)에서는 주어진 클러스터의 성장 처리가 완료되었는지의 여부를 결정한다. 단계(36)의 제 1 반복시에는, 처리가 무조건적으로 단계(31)로 복귀하며, 단계(31)의 처리를 반복한다. 단계(36)의 제 2 또는 후속 반복시에는, 단계(35) 동안에 획득한 주어진 클러스터내의 문서 수를 카운트한다. 문서 수가 이전 반복시의 문서 수와 다르면, 단계(31)로 복귀하여 단계(31)의 처리를 반복한다. 단계(36) 동안의 문서 수가 이전 반복시의 문서 수와 동일하다고 결정되면, 모든 입력 문서들에 대한 주어진 클러스터의 문서 공통성을 유지하고, 주어진 클러스터의 성장 처리를 종료한다.
도 2에 대해 계속 설명한다.
단계(26) 동안에, 블럭(13)에서는 모든 현재 클러스터들에 대한 각 문서의 문서 공통성에 기초하여 나머지 문서들을 추출한다. 임의의 클러스터에 대한 문서 공통성이 임계값 미만인 문서들을 나머지 문서로서 추출한다.
종료 조건 검사 단계(27) 동안에, 블럭(110)에서는 시드 추출에서부터 성장까지의 일련의 처리가 나머지 문서들의 수에 기초하여 완료되었는지의 여부를 결정한다. 나머지 문서들의 수가 임계값 미만이고 이전 반복시의 나머지 문서 수와 동일하면, 프로시저는 단계(29)로 진행한다. 그러한 조건이 만족되지 않으면, 처리는 단계(28)로 진행하여 나머지 문서 세트에 대해 단계(23)와 동일한 처리를 수행한다.
클러스터 멤버 결정 단계(29)에서는, 각 문서가 소속되는 클러스터를 결정한다. 이것은 도 3에서 각 문서에 대하여 획득한 각각의 클러스터에 대한 문서 공통성에 대한 정보를 사용하고, 또한 그 문서 공통성이 실험에 의해 결정된 임계값보다 높은 클러스터에 각 문서를 소속시킴으로써 실행된다.
중복 클러스터의 검출 및 제거를 포함하는 단계(30) 동안에, 블럭(130)에서는 중복 클러스터가 존재하는지의 여부를 결정한다. 중복 클러스터가 존재하면 제거한다. 하나의 토픽에 대해 둘 이상의 클러스터가 획득되는 경우에 중복 클러스터가 발생한다. 그 경우에는, 토픽을 기술하는 문서가 둘 이상의 클러스터에 대해 큰 공통성을 가지며, 둘 이상의 클러스터가 서로 중첩된다. 중복 클러스터를 검출하기 위해서, 모든 문서에 대하여 모든 획득한 클러스터에 대한 문서 공통성을 우선적으로 획득한다.
다음, 주어진 클러스터에 대한 문서 공통성은 임계값보다 크지만, 임의의 다른 클러스터에 대한 문서 공통성은 임계값보다 작은 문서들의 수를 획득한다. 주어진 클러스터가 임의의 다른 클러스터와 중첩되지 않으면, 그러한 문서들의 수는 주어진 클러스터에 대한 문서 공통성이 임계값보다 높은 문서들의 수와 동일하게된다. 한편, 주어진 클러스터가 다른 클러스터와 중첩되면, 클러스터내의 문서들의 수는, 클러스터와 중첩되지 않은 문서들의 수, 즉 주어진 클러스터내에만 있는 문서의 수와 동일하게 된다.
상술한 문서들의 수는 각 클러스터의 중요도로서 정의될 수 있다. 예를 들어, 도 4a의 경우, 클러스터 1의 중요도는 클러스터 1내의 문서들의 수이다. 이것은 클러스터 2에 대해서도 마찬가지이다. 주어진 클러스터가 다른 클러스터와 부분적으로 중첩되면, 그 중요도는 다른 클러스터와 중첩되지 않은 문서들의 수가 된다. 즉, 클러스터 1에 대한 중요도는 도 4b에서 "c"로 나타낸 부분에 포함된 문서들의 수로 표시된다. 클러스터 2에 대한 중요도는 도 4b에서 "d"로 나타낸 부분에 포함된 문서 수로 표시된다.
하나의 클러스터에 대한 중요도가 특정값보다 작으면, 그 클러스터에 소속되는 문서의 수가 많을지라도, 보다 작은 중요도를 갖는 클러스터가 중복 클러스터로 간주되어 제거된다. 그러한 작은 중요도의 클러스터가 복수개 존재하면, 가장 낮은 클러스터 중요도를 갖는 클러스터가 우선적으로 제거된다. 그 다음, 나머지 클러스터에 대해 클러스터 중요도 계산이 다시 실행되고, 클러스터 중요도가 가장 낮은 클러스터가 제거된다. 중복 클러스터가 모두 없어질 때까지 이러한 방식의 처리가 반복된다. 중복 클러스터 제거가 실행되면, 각 클러스터 멤버의 결정이 다시 수행된다. 이 경우에, 클러스터 멤버 결정을 위한 다른 방법으로서, 문서 공통성이 가장 높은 클러스터에 각 문서를 할당할 수 있다.
상술한 작용에 대한 효과를 설명하기 위해, 도 2 및 도 3의 실시예에 기초한실험적 결과를 설명한다. 자료로서 TDT2가 이용된다. 자료 TDT2는, 1998년 1월부터 6월까지의 100개의 이벤트에 관련된 뉴스 스토리 세트(a set of news stories)로서 6개의 뉴스 소스로부터 수집된 것이다. Liu 등이 TDT2를 이용하여 실행한 비계층적 클러스터링의 결과들을 비교하였다(X. Liu, Y. Gong, W. Xu and S. Zhu, Document Clustering with Cluster Refinement and Model Selectin Capabilities. In Proceedings of the 25th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191-198. Tampere, Finland, August, 2002). 그 구성은 Liu 등의 실험치와 동일한 데이터를 이용한 실험 결과에 기초한 것이다.
그 데이터는 ABC, CNN 및 VOA에 의해 수집된 15개의 이벤트에 관련된 뉴스 스토리 세트이다. 표 1은 이 데이터들의 세부 사항을 포함한다.
표 2는 실험에 이용된 15개의 데이터 세트와, 본 명세서에 개시된 방법 및 Liu 등에 의한 방법의 클러스터링 정확도를 포함한다. Liu 등에 의한 방법의 결과는 Liu 등의 의한 논문에 기초한 것이다. 임의의 문서가 소속되는 이벤트가 클러스터의 시드 문서의 이벤트와 부합하면, 클러스터링의 결과는 정확한 것으로 간주된다. 모든 클러스터에 대한 문서 공통성이 0인 문서는 에러가 있는 것으로 간주된다. 정확도는 정확하게 클러스터링된 문서 수와 모든 문서 수간의 비율로부터 획득된다. Liu 등의 방법에서는, 비계층적 클러스터링을 가우시안 혼합 모델에 기초하여 실행한 후에, 각 클럭스터의 구별되는 용어를 획득하며, 그 결과는 구별되는 용어를 보우팅(voating)함에 의해 정정된다. 표 2에 있어서, 테스트 데이터 ABC-01-02-15는 ABC로부터 수집되고 표 1에서 01, 02 및 15의 이벤트 ID를 갖는 문서들을 의미한다. 표 2에 있어서, 본 명세서에서 개시한 방법의 고 정확도를 갖는 데이터 세트의 수는 Liu 등의 방법에서의 데이터 세트의 수보다 더 많다.
Liu 등의 논문에 나열된 12 데이터 세트와 관련하여, 본 명세서에서 개시된 방법에서는 추출된 클러스터의 수가 정확하였다. 한편, Liu 등의 방법에서는, 12 데이터 세트들 중 3 데이터 세트에 대해 추출된 클러스터의 수가 부정확하였다.표 3은 Liu 등에 의한 방법과 본 명세서에 개시된 방법의 결과를 포함한다.
상술한 바와 같이, 본 명세서에 개시된 방법에 따르면, 정확한 수의 클러스터가 입력 문서 세트로부터 추출될 수 있으며, 각 문서는 높은 정확도로 클러스터에 할당될 수 있다. 그러므로, 사용자에 의한 정보 획득의 효율이 크게 개선될 수 있다.
상술한 실시예는 문서 세트를 예시적으로 인용하여 설명한 것이다. 또한, 개시한 실시예는 본 명세서에서 설명한 문서 세트와 유사하게 나타낼 수 있거나, 또는 그 문서 세트와 동일한 특징을 갖는 패턴 세트에 적용될 수 있다. 문서를 패턴으로 대체하는 것은, (1) 문서의 용어를 패턴의 구성 요소로 대체하고, (2) 문서 세그먼트를 패턴 세그먼트로 대체하고, (3) 문서 빈도 매트릭스를 패턴 빈도 매트릭스로 대체하고, (4) 각 문서에 대한 동시 발생 매트릭스를 각 패턴에 대한 동시 발생 매트릭스로 대체하고, (5) 문서 공통성을 패턴 공통성으로 대체하는 것 등을 포함한다. 결과적으로, 본 발명의 원리는 문서 세트 뿐만 아니라, 패턴 세트에도 적용될 수 있다. 특허 청구 범위에 있어서, 용어, (또는 패턴)과 (또는 객체 특징)은 문서가 아닌 패턴과 관련한 동작을 나타내는데 이용된다.
본 발명에 의하면, 정확한 수의 클러스터가 입력 문서 세트로부터 추출될 수 있으며, 각 문서는 높은 정확도로 클러스터에 할당될 수 있다. 그러므로, 사용자에 의한 정보 획득의 효율이 크게 개선될 수 있는 효과가 있다.
Claims (29)
- 문서(또는 패턴)들을 그들간의 관계에 기초하여 클러스터링하기 위한 것으로, 상기 문서 각각은 입력 문서(또는 패턴) 세트내에 하나 이상의 문서(또는 패턴) 세그먼트를 갖는, 문서 클러스터링 방법에 있어서,(a) 각 문서(또는 패턴)에 나타난 용어의 발생 빈도에 기초하여, 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스를 획득하는 단계와,(b) 시드(seed) 문서(또는 패턴)를 선택하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)들로부터 상기 시드 문서(또는 패턴)를 선택하고, 상기 시드 문서(또는 패턴)를 이용하여 초기 상태의 현재 클러스터를 구성하는 단계와,(c) 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 상기 현재 클러스터내의 문서(또는 패턴)들에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 및 상기 현재 클러스터의 공통 동시 발생 매트릭스에 기초한 정보를 이용하여 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하고, 상기 문서 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)를 형성하는 단계와,(d) 상기 현재 클러스터에 임시로 소속된 문서(또는 패턴)들의 수가 이전 반복시의 문서들의 수와 동일하게 될 때까지 상기 (c) 단계를 반복하는 단계와,(e) 주어진 수렴 조건이 만족될 때까지 상기 (b) 단계 내지 (d) 단계를 반복하는 단계와,(f) 상기 각 클러스터에 대한 각 문서(또는 패턴)의 문서(또는 패턴) 공통성에 기초하여, 상기 각 문서(또는 패턴)가 소속되는 클러스터를 결정하는 단계를 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 (a) 단계는,(a-1) 상기 각 문서(또는 패턴) 세그먼트에 나타난 용어의 발생 빈도에 기초하여, 상기 각 문서(또는 패턴) 세그먼트들 각각에 대한 문서(또는 패턴) 세그먼트 벡터를 생성하는 단계와,(a-2) 상기 문서(또는 패턴) 세그먼트 벡터로부터 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대한 동시 발생 매트릭스를 획득하는 단계와,(a-3) 상기 각 문서에 대한 상기 동시 발생 매트릭스로부터 문서(또는 패턴) 빈도 매트릭스를 획득하는 단계를 더 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 (b) 단계는,(b-1) 공통 동시 발생 매트릭스를 구성하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)들의 상기 공통 동시 발생 매트릭스를 구성하는 단계와,(b-2) 상기 나머지 문서(또는 패턴)들의 상기 공통 동시 발생 매트릭스를 이용하여, 상기 나머지 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 나머지 문서(또는 패턴) 세트에 대한 문서 공통성을 획득하고, 가장 높은 문서(또는 패턴) 공통성을 갖는 문서(또는 패턴)를 추출하며, 상기 시드 문서(또는 패턴) 및, 상기 시드 문서(또는 패턴)와 유사한 인접 문서(또는 패턴)를 포함하는 문서(또는 패턴) 세트를 형성하여, 상기 초기 상태의 현재 클러스터를 구성하는 단계를 더 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 (c) 단계는,(c-1) 상기 현재 클러스터의 공통 동시 발생 매트릭스 및 상기 현재 클러스터의 문서(또는 패턴) 빈도 매트릭스를 구성하는 단계와,(c-2) 상기 입력 문서(또는 패턴) 세트의 상기 문서(또는 패턴) 빈도 매트릭스와 상기 현재 클러스터의 상기 문서(또는 패턴) 빈도 매트릭스를 비교하여, 상기 현재 클러스터에 대한 각 용어 및 각 용어 쌍의 변별성을 획득하는 단계와,(c-3) 상기 현재 클러스터의 상기 공통 동시 발생 매트릭스와, 상기 각 용어 및 각 용어 쌍의 변별성으로부터 획득한 상기 각 용어 및 용어 쌍의 가중치를 이용하여, 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하고, 상기 문서(또는 패턴) 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)를 형성하는 단계를 더 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,임의의 현재 클러스터에 대한 문서(또는 패턴) 공통성이 임계값 미만인 문서(또는 패턴)들의 수가 0이 되거나, 또는 상기 수가 임계값 미만이고, 상기 이전 반복시의 문서 수와 동일하게 될 때까지 상기 (e) 단계를 반복하는 단계를 더 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 (f) 단계는,중복 클러스터의 존재 여부를 검사하여, 상기 중복 클러스터가 존재하면 이를 제거하고, 각 문서가 소속된 클러스터를 다시 결정하는 단계를 더 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 문서(또는 패턴) Dr의 동시 발생 매트릭스 Sr은 아래의 수학식에 의해 결정되고,M은 발생 용어의 종류 수이고, Dr은 R개의 문서(또는 패턴)로 구성되는 문서(또는 패턴) 세트 D내의 r번째 문서(또는 패턴)이고, Yr은 문서(또는 패턴) Dr내의 문서(또는 패턴) 세그먼트들의 수이고, dry= (dry1, ..., dryM)T는 문서(또는 패턴) Dr의 y번째 문서(또는 패턴) 세그먼트 벡터이고, T는 벡터의 전치를 나타내는문서 클러스터링 방법.
- 제 1 항에 있어서,문서(또는 패턴) 세트 D의 상기 문서(또는 패턴) 빈도 매트릭스의 각 구성 요소는, 상기 문서(또는 패턴) 세트 D내의 각 문서(또는 패턴)의 동시 발생 매트릭스의 대응하는 구성 요소가 0의 값을 취하지 않은 문서(또는 패턴)들의 수인문서 클러스터링 방법.
- 제 1 항에 있어서,아래의 수학식에 의해 결정되는 mn 구성 요소를 갖는 매트릭스 TA에 의해 mn 구성 요소가 결정되는 매트릭스 T에 기초하여 매트릭스 TA로부터 문서(또는 패턴) 세트 D의 공통 동시 발생 매트릭스를 결정하는 단계를 더 포함하되,Umn은 상기 문서(또는 패턴) 세트 D의 상기 문서(또는 패턴) 빈도 매트릭스의 mn 구성 요소를 나타내는문서 클러스터링 방법.
- 제 1 항에 있어서,mn 구성 요소가 아래의 수학식에 의해 결정되는 매트릭스 T에 기초하여 매트릭스 QA로부터 문서(또는 패턴) 세트 D의 공통 동시 발생 매트릭스를 결정하는 단계를 더 포함하되,mn 구성 요소를 갖는 상기 매트릭스 QA는 다음의 수학식에 의해 결정되는문서 클러스터링 방법.
- 제 10 항에 있어서,zmm및 zmn은 각각 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n의 가중치이고, 상기 문서(또는 패턴) 세트 D에 대하여 동시 발생 매트릭스 SP를 갖는 문서(또는 패턴) P의 문서(또는 패턴) 공통성은 아래의 수학식에 의해 주어지는또는문서 클러스터링 방법.
- 제 9 항에 있어서,zmm및 zmn은 각각 용어(또는 객체 특징) m 및 용어(또는 객체 특징) 쌍 m, n의 가중치이고, 상기 문서(또는 패턴) 세트 D에 대하여 동시 발생 매트릭스 SP를 갖는 문서(또는 패턴) P의 문서(또는 패턴) 공통성은 아래의 수학식에 의해 주어지는또는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 현재 클러스터의 시드 문서(또는 패턴)의 추출과, 상기 초기 상태의 상기 현재 클러스터의 구성은,(a) 상기 나머지 문서(또는 패턴)의 상기 공통 동시 발생 매트릭스를 이용하여, 상기 나머지 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여, 상기 나머지 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 공통성을 획득하는 단계와,(b) 상기 현재 클러스터의 상기 시드 문서의 후보로서, 상기 (a) 단계에서 획득한 문서(또는 패턴) 공통성이 큰 특정 수의 문서(또는 패턴)를 추출하는 단계와,(c) 상기 입력 문서(또는 패턴) 세트 또는 상기 나머지 문서(또는 패턴) 세트내의 모든 문서(또는 패턴)에 대하여 상기 클러스터의 상기 시드 문서의 각 후보들의 유사성을 획득하고, 임계값보다 큰 유사성을 갖는 문서(또는 패턴)들을 상기 후보의 인접 문서(또는 패턴)들로서 획득하는 단계와,(d) 상기 인접 문서(또는 패턴)들의 수가 상기 후보들 중에서 가장 큰 후보를 상기 현재 클러스터의 상기 시드 문서로 선택하고, 그의 인접 문서(또는 패턴)들을 상기 초기 상태의 상기 현재 클러스터로 하는 단계를 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,상기 현재 클러스터에 대하여 각 용어(또는 객체 특징) 및 각 용어 쌍의 변별성을 검출하고, 그들의 가중치를 검출하는 단계를 더 포함하되,상기 변별성 및 가중치 검출 단계는,(a) 상기 입력 문서(또는 패턴) 세트로부터 획득한 문서(또는 패턴) 빈도 매트릭스의 각 구성 요소와, 상기 현재 클러스터로부터 획득한 문서(또는 패턴) 빈도 매트릭스의 대응하는 구성 요소간의 비율을, 각 용어(또는 특징) 또는 각 용어(또는 특징) 쌍의 문서(또는 패턴) 빈도율로서 획득하는 단계와,(b) 가장 높은 문서(또는 패턴) 빈도를 갖는 특정 수의 용어(또는 특징) 또는 용어(또는 특징) 쌍들 중에서, 가장 작은 문서(또는 패턴) 빈도율을 갖는 특정 수의 용어(또는 특징) 또는 용어(또는 특징) 쌍을 선택하고, 상기 선택된 용어(또는 특징) 또는 용어(또는 특징) 쌍의 문서(또는 패턴) 빈도율의 평균을, 평균 문서(또는 패턴) 빈도율로서 획득하는 단계와,(c) 상기 각 용어(또는 특징) 또는 용어(또는 특징) 쌍의 변별성 측정치로서, 상기 평균 문서(또는 패턴) 빈도율을 상기 각 용어(또는 특징) 또는 각 용어(또는 특징) 쌍의 상기 문서(또는 패턴) 빈도율로 제산하는 단계와,(d) 상기 변별성 측정치를 변수로 갖는 함수로부터 각 용어(또는 특징) 및 각 용어(또는 특징) 쌍의 가중치를 결정하는 단계를 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,임계값보다 더 높은 문서(또는 패턴) 빈도를 갖는 용어(또는 특징) 또는 용어(또는 특징) 쌍을 제거하는 단계를 더 포함하는문서 클러스터링 방법.
- 제 1 항에 있어서,클러스터에 포함된 문서(또는 패턴) 세트가 상기 입력 문서(또는 패턴) 세트로 되게 함으로써 클러스터링을 반복적으로(recursively) 수행하는문서 클러스터링 방법.
- 컴퓨터가 상기 청구항 1의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
- 컴퓨터가 상기 청구항 2의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
- 컴퓨터가 상기 청구항 3의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
- 컴퓨터가 상기 청구항 4의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
- 컴퓨터가 상기 청구항 5의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
- 컴퓨터가 상기 청구항 6의 방법을 수행하게 하는 컴퓨터 프로그램 장치.
- 상기 청구항 1의 방법을 수행하도록 구성된 컴퓨터.
- 상기 청구항 2의 방법을 수행하도록 구성된 컴퓨터.
- 상기 청구항 3의 방법을 수행하도록 구성된 컴퓨터.
- 상기 청구항 4의 방법을 수행하도록 구성된 컴퓨터.
- 상기 청구항 5의 방법을 수행하도록 구성된 컴퓨터.
- 상기 청구항 6의 방법을 수행하도록 구성된 컴퓨터.
- 문서(또는 패턴)들을 그들간의 관계에 기초하여 클러스터링하기 위한 것으로, 상기 문서 각각은 입력 문서(또는 패턴) 세트내에 하나 이상의 문서(또는 패턴) 세그먼트를 갖는, 문서 클러스터링 장치에 있어서,(a) 각 문서(또는 패턴)에 나타난 용어의 발생 빈도에 기초하여, 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스를 획득하는 수단과,(b) 시드 문서(또는 패턴)를 선택하되, 그 시점에 존재하는 임의의 클러스터내에 포함되지 않은 나머지 문서(또는 패턴)로부터 상기 시드 문서(또는 패턴)를 선택하고, 상기 시드 문서(또는 패턴)를 이용하여 초기 상태의 현재 클러스터를 구성하는 수단과,(c) 상기 입력 문서(또는 패턴) 세트에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 상기 현재 클러스터내의 문서(또는 패턴)들에 대한 문서(또는 패턴) 빈도 매트릭스에 기초한 정보, 및 상기 현재 클러스터의 공통 동시 발생 매트릭스에 기초한 정보를 이용하여 상기 입력 문서(또는 패턴) 세트내의 각 문서(또는 패턴)에 대하여 상기 현재 클러스터에 대한 문서(또는 패턴) 공통성을 획득하기 위한 수단 및, 상기 문서 공통성이 상기 현재 클러스터에 임시로 소속된 임계값보다 더 큰 문서(또는 패턴)들을 형성하는 수단과,(d) 상기 현재 클러스터에 임시로 소속된 문서(또는 패턴)들의 수가 이전 반복시의 문서들의 수와 동일하게 될 때까지 상기 (c) 수단의 동작을 반복시키는 수단과,(e) 주어진 수렴 조건이 만족될 때까지 상기 (b) 수단 내지 (d) 수단의 동작을 반복시키는 수단과,(f) 상기 각 클러스터에 대한 각 문서(또는 패턴)의 문서(또는 패턴) 공통성에 기초하여, 상기 각 문서(또는 패턴)가 소속되는 클러스터를 결정하는 수단을 포함하는문서 클러스터링 장치.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003105867 | 2003-03-05 | ||
JPJP-P-2003-00105867 | 2003-03-05 | ||
JP2004030629A JP4828091B2 (ja) | 2003-03-05 | 2004-02-06 | クラスタリング方法プログラム及び装置 |
JPJP-P-2004-00030629 | 2004-02-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040078896A true KR20040078896A (ko) | 2004-09-13 |
KR101086510B1 KR101086510B1 (ko) | 2011-11-23 |
Family
ID=32829076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040014809A KR101086510B1 (ko) | 2003-03-05 | 2004-03-05 | 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7499923B2 (ko) |
EP (1) | EP1455285A3 (ko) |
JP (1) | JP4828091B2 (ko) |
KR (1) | KR101086510B1 (ko) |
CN (1) | CN1530857B (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7863510B2 (en) | 2006-02-23 | 2011-01-04 | Samsung Electronics Co., Ltd. | Method, medium, and system classifying music themes using music titles |
KR101035037B1 (ko) * | 2010-09-01 | 2011-05-19 | 한국과학기술정보연구원 | 동적 임계값이 적용된 유사문서 분류화 장치 및 방법 |
KR101402808B1 (ko) * | 2012-09-18 | 2014-07-08 | 한국과학기술원 | 익명화를 위한 시드 선택 방법, 익명화 방법 및 이를 이용하는 정보 보호 장치 |
WO2015167074A1 (ko) * | 2014-04-28 | 2015-11-05 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
US9477769B2 (en) | 2008-10-02 | 2016-10-25 | Nhn Corporation | Method and system for detecting original document of web document, method and system for providing history information of web document for the same |
KR20180035477A (ko) * | 2016-09-29 | 2018-04-06 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
Families Citing this family (243)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU4328000A (en) | 1999-03-31 | 2000-10-16 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
US8275661B1 (en) | 1999-03-31 | 2012-09-25 | Verizon Corporate Services Group Inc. | Targeted banner advertisements |
US8572069B2 (en) | 1999-03-31 | 2013-10-29 | Apple Inc. | Semi-automatic index term augmentation in document retrieval |
US6718363B1 (en) | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6912525B1 (en) | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
US6778995B1 (en) * | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
US7711719B1 (en) | 2005-03-24 | 2010-05-04 | Palamida, Inc. | Massive multi-pattern searching |
US7565348B1 (en) * | 2005-03-24 | 2009-07-21 | Palamida, Inc. | Determining a document similarity metric |
JP2006301959A (ja) * | 2005-04-20 | 2006-11-02 | Just Syst Corp | 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070233679A1 (en) * | 2006-04-03 | 2007-10-04 | Microsoft Corporation | Learning a document ranking function using query-level error measurements |
EP1876540A1 (en) * | 2006-07-06 | 2008-01-09 | British Telecommunications Public Limited Company | Organising and storing documents |
US7593934B2 (en) * | 2006-07-28 | 2009-09-22 | Microsoft Corporation | Learning a document ranking using a loss function with a rank pair or a query parameter |
US8340957B2 (en) * | 2006-08-31 | 2012-12-25 | Waggener Edstrom Worldwide, Inc. | Media content assessment and control systems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP5011947B2 (ja) * | 2006-10-19 | 2012-08-29 | オムロン株式会社 | Fmeaシートの作成方法およびfmeaシート自動作成装置 |
US7512605B2 (en) | 2006-11-01 | 2009-03-31 | International Business Machines Corporation | Document clustering based on cohesive terms |
FR2913274A1 (fr) * | 2007-03-02 | 2008-09-05 | Canon Kk | Procede et dispositif de codage de document et procede et dispositif de decodage de document. |
EP1973045A1 (en) * | 2007-03-20 | 2008-09-24 | British Telecommunications Public Limited Company | Organising and storing documents |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20090063470A1 (en) * | 2007-08-28 | 2009-03-05 | Nogacom Ltd. | Document management using business objects |
US9317593B2 (en) * | 2007-10-05 | 2016-04-19 | Fujitsu Limited | Modeling topics using statistical distributions |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
KR100992364B1 (ko) | 2008-12-22 | 2010-11-04 | 포항공과대학교 산학협력단 | 비음수 행렬의 직교 분해를 이용한 문서 집단화 방법, 이를수행하기 위한 컴퓨팅 장치 및 이를 수행하기 위한 프로그램 기록매체 |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9298722B2 (en) * | 2009-07-16 | 2016-03-29 | Novell, Inc. | Optimal sequential (de)compression of digital data |
US8635223B2 (en) | 2009-07-28 | 2014-01-21 | Fti Consulting, Inc. | System and method for providing a classification suggestion for electronically stored information |
CA3026879A1 (en) | 2009-08-24 | 2011-03-10 | Nuix North America, Inc. | Generating a reference set for use during document review |
EP2488970A4 (en) * | 2009-10-15 | 2016-03-16 | Rogers Comm Tnc | SYSTEM AND METHOD FOR CLASSIFYING MULTIPLE DATA STREAMS |
US8954434B2 (en) * | 2010-01-08 | 2015-02-10 | Microsoft Corporation | Enhancing a document with supplemental information from another document |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
JP2011150450A (ja) * | 2010-01-20 | 2011-08-04 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
CN102163189B (zh) * | 2010-02-24 | 2014-07-23 | 富士通株式会社 | 从评论性文本中提取评价性信息的方法和装置 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8918399B2 (en) * | 2010-03-03 | 2014-12-23 | Ca, Inc. | Emerging topic discovery |
US8782734B2 (en) * | 2010-03-10 | 2014-07-15 | Novell, Inc. | Semantic controls on data storage and access |
US8832103B2 (en) * | 2010-04-13 | 2014-09-09 | Novell, Inc. | Relevancy filter for new data based on underlying files |
US9135603B2 (en) * | 2010-06-07 | 2015-09-15 | Quora, Inc. | Methods and systems for merging topics assigned to content items in an online application |
US8713021B2 (en) * | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
AU2010202901B2 (en) * | 2010-07-08 | 2016-04-14 | Patent Analytics Holding Pty Ltd | A system, method and computer program for preparing data for analysis |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8452774B2 (en) * | 2011-03-10 | 2013-05-28 | GM Global Technology Operations LLC | Methodology to establish term co-relationship using sentence boundary detection |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP2012212422A (ja) * | 2011-03-24 | 2012-11-01 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8706758B2 (en) * | 2011-10-04 | 2014-04-22 | Galisteo Consulting Group, Inc. | Flexible account reconciliation |
US8886651B1 (en) * | 2011-12-22 | 2014-11-11 | Reputation.Com, Inc. | Thematic clustering |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9064491B2 (en) * | 2012-05-29 | 2015-06-23 | Nuance Communications, Inc. | Methods and apparatus for performing transformation techniques for data clustering and/or classification |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102579086B1 (ko) | 2013-02-07 | 2023-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP5900419B2 (ja) * | 2013-06-11 | 2016-04-06 | コニカミノルタ株式会社 | 関心事判別装置、関心事判別方法、およびコンピュータプログラム |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
EP3063669A4 (en) * | 2013-10-31 | 2017-04-26 | Hewlett-Packard Enterprise Development LP | Classifying document using patterns |
US10114823B2 (en) * | 2013-11-04 | 2018-10-30 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
US10540404B1 (en) * | 2014-02-07 | 2020-01-21 | Amazon Technologies, Inc. | Forming a document collection in a document management and collaboration system |
US10599753B1 (en) | 2013-11-11 | 2020-03-24 | Amazon Technologies, Inc. | Document version control in collaborative environment |
US11336648B2 (en) | 2013-11-11 | 2022-05-17 | Amazon Technologies, Inc. | Document management and collaboration system |
US9542391B1 (en) | 2013-11-11 | 2017-01-10 | Amazon Technologies, Inc. | Processing service requests for non-transactional databases |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10356032B2 (en) | 2013-12-26 | 2019-07-16 | Palantir Technologies Inc. | System and method for detecting confidential information emails |
US10691877B1 (en) | 2014-02-07 | 2020-06-23 | Amazon Technologies, Inc. | Homogenous insertion of interactions into documents |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9619557B2 (en) | 2014-06-30 | 2017-04-11 | Palantir Technologies, Inc. | Systems and methods for key phrase characterization of documents |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9535974B1 (en) | 2014-06-30 | 2017-01-03 | Palantir Technologies Inc. | Systems and methods for identifying key phrase clusters within documents |
US9256664B2 (en) * | 2014-07-03 | 2016-02-09 | Palantir Technologies Inc. | System and method for news events detection and visualization |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9807073B1 (en) | 2014-09-29 | 2017-10-31 | Amazon Technologies, Inc. | Access to documents in a document management and collaboration system |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9424298B2 (en) * | 2014-10-07 | 2016-08-23 | International Business Machines Corporation | Preserving conceptual distance within unstructured documents |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN105095430A (zh) * | 2015-07-22 | 2015-11-25 | 深圳证券信息有限公司 | 构建词语网络及抽取关键词的方法和装置 |
KR101688829B1 (ko) * | 2015-07-24 | 2016-12-22 | 삼성에스디에스 주식회사 | 사용자 패턴을 반영한 문서 제공 방법 및 그 장치 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US11392582B2 (en) * | 2015-10-15 | 2022-07-19 | Sumo Logic, Inc. | Automatic partitioning |
US10146874B2 (en) * | 2015-10-28 | 2018-12-04 | Fujitsu Limited | Refining topic representations |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10803358B2 (en) | 2016-02-12 | 2020-10-13 | Nec Corporation | Information processing device, information processing method, and recording medium |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US11068546B2 (en) | 2016-06-02 | 2021-07-20 | Nuix North America Inc. | Computer-implemented system and method for analyzing clusters of coded documents |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10318568B2 (en) | 2016-06-07 | 2019-06-11 | International Business Machines Corporation | Generation of classification data used for classifying documents |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10678669B2 (en) * | 2017-04-21 | 2020-06-09 | Nec Corporation | Field content based pattern generation for heterogeneous logs |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN110580335B (zh) | 2018-06-07 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 用户意图的确定方法及装置 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11232132B2 (en) | 2018-11-30 | 2022-01-25 | Wipro Limited | Method, device, and system for clustering document objects based on information content |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
RU2757592C1 (ru) * | 2019-02-08 | 2021-10-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для кластеризации документов |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP7221527B2 (ja) * | 2019-04-25 | 2023-02-14 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
CN110110326B (zh) * | 2019-04-25 | 2020-10-27 | 西安交通大学 | 一种基于主题信息的文本切割方法 |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11520782B2 (en) | 2020-10-13 | 2022-12-06 | Oracle International Corporation | Techniques for utilizing patterns and logical entities |
CN112732904A (zh) * | 2020-10-15 | 2021-04-30 | 中科曙光南京研究院有限公司 | 一种基于文本处理的异常突发事件检测方法及系统 |
CN112883154B (zh) * | 2021-01-28 | 2022-02-01 | 平安科技(深圳)有限公司 | 文本主题挖掘方法、装置、计算机设备及存储介质 |
US20230245146A1 (en) * | 2022-01-28 | 2023-08-03 | Walmart Apollo, Llc | Methods and apparatus for automatic item demand and substitution prediction using machine learning processes |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US6356864B1 (en) | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
US6360227B1 (en) | 1999-01-29 | 2002-03-19 | International Business Machines Corporation | System and method for generating taxonomies with applications to content-based recommendations |
JP3471253B2 (ja) | 1999-05-25 | 2003-12-02 | 日本電信電話株式会社 | 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体 |
CN1335966A (zh) * | 1999-06-15 | 2002-02-13 | 皇家菲利浦电子有限公司 | 在基于字符的文档和文件中的属性数据的隐形编码 |
JP2001229177A (ja) * | 2000-02-16 | 2001-08-24 | Mitsubishi Electric Corp | 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体 |
US6674900B1 (en) * | 2000-03-29 | 2004-01-06 | Matsushita Electric Industrial Co., Ltd. | Method for extracting titles from digital images |
US7130848B2 (en) * | 2000-08-09 | 2006-10-31 | Gary Martin Oosta | Methods for document indexing and analysis |
JP2002108894A (ja) * | 2000-09-27 | 2002-04-12 | Ricoh Co Ltd | 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 |
JP2002183171A (ja) | 2000-12-12 | 2002-06-28 | Matsushita Electric Ind Co Ltd | 文書データ・クラスタリングシステム |
JP4349480B2 (ja) | 2001-05-30 | 2009-10-21 | ヒューレット・パッカード・カンパニー | 重要句・文抽出方法及び装置 |
US7225120B2 (en) * | 2001-05-30 | 2007-05-29 | Hewlett-Packard Development Company, L.P. | Method of extracting important terms, phrases, and sentences |
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
JP2004164036A (ja) * | 2002-11-08 | 2004-06-10 | Hewlett Packard Co <Hp> | 文書の共通性評価方法 |
US7225184B2 (en) * | 2003-07-18 | 2007-05-29 | Overture Services, Inc. | Disambiguation of search phrases using interpretation clusters |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
-
2004
- 2004-02-06 JP JP2004030629A patent/JP4828091B2/ja not_active Expired - Fee Related
- 2004-03-04 US US10/791,897 patent/US7499923B2/en not_active Expired - Fee Related
- 2004-03-05 KR KR1020040014809A patent/KR101086510B1/ko not_active IP Right Cessation
- 2004-03-05 CN CN2004100352030A patent/CN1530857B/zh not_active Expired - Fee Related
- 2004-03-05 EP EP04251279A patent/EP1455285A3/en not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7863510B2 (en) | 2006-02-23 | 2011-01-04 | Samsung Electronics Co., Ltd. | Method, medium, and system classifying music themes using music titles |
US9477769B2 (en) | 2008-10-02 | 2016-10-25 | Nhn Corporation | Method and system for detecting original document of web document, method and system for providing history information of web document for the same |
KR101035037B1 (ko) * | 2010-09-01 | 2011-05-19 | 한국과학기술정보연구원 | 동적 임계값이 적용된 유사문서 분류화 장치 및 방법 |
KR101402808B1 (ko) * | 2012-09-18 | 2014-07-08 | 한국과학기술원 | 익명화를 위한 시드 선택 방법, 익명화 방법 및 이를 이용하는 정보 보호 장치 |
WO2015167074A1 (ko) * | 2014-04-28 | 2015-11-05 | 숭실대학교산학협력단 | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 |
US10394864B2 (en) | 2014-04-28 | 2019-08-27 | Foundation Of Soongsil University Industry Cooperation | Method and server for extracting topic and evaluating suitability of the extracted topic |
KR20180035477A (ko) * | 2016-09-29 | 2018-04-06 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
Also Published As
Publication number | Publication date |
---|---|
EP1455285A3 (en) | 2006-12-20 |
EP1455285A2 (en) | 2004-09-08 |
US7499923B2 (en) | 2009-03-03 |
US20040230577A1 (en) | 2004-11-18 |
JP2004288168A (ja) | 2004-10-14 |
CN1530857A (zh) | 2004-09-22 |
KR101086510B1 (ko) | 2011-11-23 |
JP4828091B2 (ja) | 2011-11-30 |
CN1530857B (zh) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101086510B1 (ko) | 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터 | |
CA2423033C (en) | A document categorisation system | |
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
JP2004164036A (ja) | 文書の共通性評価方法 | |
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
Ledger et al. | Shakespeare, fletcher, and the two noble kinsmen | |
EP1528486A2 (en) | Classification evaluation system, method, and program | |
CN103399901A (zh) | 一种关键词抽取方法 | |
Kumar et al. | Visual approaches for exploratory data analysis: A survey of the visual assessment of clustering tendency (vat) family of algorithms | |
Alexandrov et al. | An approach to clustering abstracts | |
KR102373146B1 (ko) | 군집 기반 중복문서 제거 장치 및 제거 방법 | |
Mercioni et al. | Evaluating hierarchical and non-hierarchical grouping for develop a smart system | |
CN105260467A (zh) | 一种短信分类的方法及装置 | |
Sandul et al. | Keyword extraction from single Russian document | |
Perri et al. | One Graph to Rule them All: Using NLP and Graph Neural Networks to analyse Tolkien's Legendarium | |
KR100328963B1 (ko) | 띄어쓰기오류허용한국어형태소분석방법및그장치 | |
EP2090992A2 (en) | Determining words related to a given set of words | |
Shin et al. | Automatic word sense clustering using collocation for sense adaptation | |
CN117391071B (zh) | 一种新闻话题数据挖掘方法、装置及存储介质 | |
KR102471408B1 (ko) | 악성민원 검출장치 및 그 방법 | |
Broda et al. | Experiments in clustering documents for automatic acquisition of lexical semantic networks for Polish | |
Kamaruddin et al. | Text classification using modified multi class association rule | |
He et al. | A threshold criterion, auto-detection and its use in MST-based clustering | |
Das et al. | Extraction of key topics from online text reviews | |
AU2001291494A1 (en) | A document categorisation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |