KR20050065578A - 관련 단어들의 클러스터들을 바탕으로 문서를 특성화하는방법 및 장치 - Google Patents
관련 단어들의 클러스터들을 바탕으로 문서를 특성화하는방법 및 장치 Download PDFInfo
- Publication number
- KR20050065578A KR20050065578A KR1020057005832A KR20057005832A KR20050065578A KR 20050065578 A KR20050065578 A KR 20050065578A KR 1020057005832 A KR1020057005832 A KR 1020057005832A KR 20057005832 A KR20057005832 A KR 20057005832A KR 20050065578 A KR20050065578 A KR 20050065578A
- Authority
- KR
- South Korea
- Prior art keywords
- cluster
- active
- probability
- node
- nodes
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (62)
- 개념적으로 관련된 단어들의 클러스터들에 대해 한 문서를 특성화하는 방법으로서, 이 방법은,- 단어 세트를 지닌 문서를 수신하고,- 단어 세트에 관련된 개념적으로 관련된 단어들의 후보 클러스터들을 선택하며, 이때, 개념적으로 관련된 단어들의 클러스터들로부터 단어 세트들이 어떻게 발생되는 지를 설명하는 모델을 이용하여 후보 클러스터들이 선택되며,- 문서를 특성화하기 위한 구성요소 세트를 구축하고, 이때, 상기 구성요소 세트는 후보 클러스터들에 대한 구성요소들을 포함하고, 이때, 각각의 구성요소는 해당 후보 클러스터가 단어 세트들에 관련된 정도를 표시하는단계를 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 1 항에 있어서, 상기 모델은 확률 모델로서, 단어들과, 개념적으로 관련된 단어들의 클러스터들에 대한 임의적 변수를 나타내는 노드들을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 2 항에 있어서, 구성요소 세트의 각각의 구성요소는 단어 세트를 발생시킴에 있어 해당하는 후보 클러스터가 활성 상태인 정도를 표시하는 것을 특징으로 하는 문서 특성화 방법.
- 제 3 항에 있어서,확률 모델의 노드들은 가중치화된 링크에 의해 함께 연결되고, 그리고확률 모델의 클러스터 노드가 점화될 경우, 클러스터 노드로부터 또다른 노드까지 가중치화된 링크가 그 외 다른 노드를 점화시킬 수 있는 것을 특징으로 하는 문서 특성화 방법.
- 제 4 항에 있어서, 한 노드가 활성 상태인 여러개의 부모 노드를 가질 경우, 노드가 점화하지 않을 확률은 활성 부모 노드로부터의 링크들이 점화하지 않을 확률들의 프로덕트인 것을 특징으로 하는 문서 특성화 방법.
- 제 2 항에 있어서, 상기 확률 모델은 범용 노드로서 항상 활성 상태이고 모든 클러스터 노드들에 대해 가중치화된 링크들을 가지는 것을 특징으로 하는 문서 특성화 방법.
- 제 4 항에 있어서, 후보 클러스터들을 선택하는 상기 단계는,- 문서 내 단어 세트들에 관련된 터미널 노드들로 시작함으로서 그리고 역방향으로 부모 클러스터노드들에 대한 링크를 따름으로서 증거 트리를 구축하고,- 단어 세트를 발생시킴에 있어 각각의 부모 클러스터 노드가 활성 상태였을 가능성을 추정하도록 증거 트리를 이용하며, 그리고- 추정된 가능성을 바탕으로 후보 클러스터 노드가 될 부모 클러스터 노드를 선택하는단계들을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 7 항에 있어서, 단어 세트들을 발생시킴에 있어 해당 부모 노드가 활성 상태일 가능성을 추정하는 상기 단계는,- 해당 부모 노드가 활성 상태일 무조건적 확률,- 해당 부모 노드의 부모 노드들이 활성 상태라고 가정할 때 해당 부모 노드가 활성 상태일 조건부 확률, 그리고- 해당 부모 노드의 자손 노드들의 활성 상태라고 가정할 때 해당 부모 노드가 활성 상태일 조건부 확률을 고려하는 단계를 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 8 항에 있어서, 조건부 확률들을 고려하는 상기 단계는 노드들 간의 링크에 대한 가중치를 고려하는 단계를 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 7 항에 있어서, 단어 세트를 발생시킴에 있어 해당 부모 노드가 활성 상태일 가능성을 추정하는 상기 단계는, 추정 과정 중 터미널 노드들을 표시하여, 터미널 노드들이 추정 중에 두 번 이상 팩터화되지 않음을 보장하는 것을 특징으로 하는 문서 특성화 방법.
- 제 7 항에 있어서, 증거 트리를 구축하는 상기 단계는 증거 트리로부터 가능성 적은 노드들을 가지치는 과정을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 3 항에 있어서, 구성요소 세트의 구축 중, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 정도는, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태일 확률을 연산함으로서 결정되는 것을 특징으로 하는 문서 특성화 방법.
- 제 3 항에 있어서, 구성요소 세트 구축 중, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 정도는 후보 클러스터에 대한 활성화와, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 확률을 곱함으로서 결정되며, 이때, 상기 활성화는 후보 클러스터로부터 그 외 다른 노드까지 몇 개의 링크가 점화될 가능성이 있는 지를 표시하는 것을 특징으로 하는 문서 특성화 방법.
- 제 1 항에 있어서, 구성요소 세트를 구축하는 단계는, 구성요소 세트를 노멀라이징하는 과정을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 3 항에 있어서, 구성요소 세트를 구축하는 단계는, 단어 세트를 발생시킬 수 있는 확률 모델의 상태들에 대해 주어진 확률 클러스터가 활성 상태일 확률을 근사시키는 과정을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 15 항에 있어서, 확률에 근사하는 상기 단계는,- 문서 내 단어 세트들을 발생시켰을 가능성이 높은 확률 모델들에 대한 상태들을 선택하고, 그리고- 해당 후보 클러스터가 활성 상태인 확률을 연산할 때 선택된 상태들만을 고려하는단계들을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 16 항에 있어서, 단어 세트를 발생시켰을 가능성이 높은 상태를 선택하는 단계는,- 확률 모델에 대해 시작 상태를 임의적으로 선택하고, 그리고- 단어 세트를 발생시켰을 가능성이 높은 상태에 도달하도록 시작 상태에서 시작하는 힐-클라이밍 동작을 실행하는단계들을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 17 항에 있어서, 힐-클라이밍 동작들을 실행하는 단계는 힐-클라이밍 동작들을 통해 도달할 수 없는 확률 모델의 상태들을 탐구하도록 힐-클라이밍 동작들에 대한 목적 함수에 관계없이 개별 후보 클러스터들의 상태들을 주기적으로 변경시키는 단계들을 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 18 항에 있어서, 개별 후보 클러스터의 상태를 변경시키는 단계는, 변경된 상태를 포함하는, 목적 함수에 대한 극점을 생성하도록 변경된 상태를 일시적으로 고정시키는 단계를 포함하는 것을 특징으로 하는 문서 특성화 방법.
- 제 1 항에 있어서, 상기 문서는,- 웹페이지 또는- 질의어로부터의 용어 세트를 포함할 수 있는 것을 특징으로 하는 문서 특성화 방법.
- 개념적으로 관련된 단어들의 클러스터들에 대해 한 문서를 특성화하는 방법을 컴퓨터에 의해 실행하도록 컴퓨터를 통해 실행시키는 명령들을 저장하는 컴퓨터-판독형 저장 매체로서, 상기 방법은,- 단어 세트를 지닌 문서를 수신하고,- 단어 세트에 관련된 개념적으로 관련된 단어들의 후보 클러스터들을 선택하며, 이때, 개념적으로 관련된 단어들의 클러스터들로부터 단어 세트들이 어떻게 발생되는 지를 설명하는 모델을 이용하여 후보 클러스터들이 선택되며,- 문서를 특성화하기 위한 구성요소 세트를 구축하고, 이때, 상기 구성요소 세트는 후보 클러스터들에 대한 구성요소들을 포함하고, 이때, 각각의 구성요소는 해당 후보 클러스터가 단어 세트들에 관련된 정도를 표시하는단계를 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 21 항에 있어서, 상기 모델은 확률 모델로서, 단어들과, 개념적으로 관련된 단어들의 클러스터들에 대한 임의적 변수를 나타내는 노드들을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 22 항에 있어서, 구성요소 세트의 각각의 구성요소는 단어 세트를 발생시킴에 있어 해당하는 후보 클러스터가 활성 상태인 정도를 표시하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 23 항에 있어서,확률 모델의 노드들은 가중치화된 링크에 의해 함께 연결되고, 그리고확률 모델의 클러스터 노드가 점화될 경우, 클러스터 노드로부터 또다른 노드까지 가중치화된 링크가 그 외 다른 노드를 점화시킬 수 있는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 24 항에 있어서, 한 노드가 활성 상태인 여러개의 부모 노드를 가질 경우, 노드가 점화하지 않을 확률은 활성 부모 노드로부터의 링크들이 점화하지 않을 확률들의 프로덕트인 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 22 항에 있어서, 상기 확률 모델은 범용 노드로서, 항상 활성 상태이고 모든 클러스터 노드들에 대해 가중치화된 링크들을 가지는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 24 항에 있어서, 후보 클러스터들을 선택하는 상기 단계는,- 문서 내 단어 세트들에 관련된 터미널 노드들로 시작함으로서 그리고 역방향으로 부모 클러스터노드들에 대한 링크를 따름으로서 증거 트리를 구축하고,- 단어 세트를 발생시킴에 있어 각각의 부모 클러스터 노드가 활성 상태였을 가능성을 추정하도록 증거 트리를 이용하며, 그리고- 추정된 가능성을 바탕으로 후보 클러스터 노드가 될 부모 클러스터 노드를 선택하는단계들을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 27 항에 있어서, 단어 세트들을 발생시킴에 있어 해당 부모 노드가 활성 상태일 가능성을 추정하는 상기 단계는,- 해당 부모 노드가 활성 상태일 무조건적 확률,- 해당 부모 노드의 부모 노드들이 활성 상태라고 가정할 때 해당 부모 노드가 활성 상태일 조건부 확률, 그리고- 해당 부모 노드의 자손 노드들의 활성 상태라고 가정할 때 해당 부모 노드가 활성 상태일 조건부 확률을 고려하는 단계를 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 28 항에 있어서, 조건부 확률들을 고려하는 상기 단계는 노드들 간의 링크에 대한 가중치를 고려하는 단계를 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 27 항에 있어서, 해당 부모 노드가 활성 상태일 가능성을 추정하는 상기 단계는, 추정 과정 중 터미널 노드들을 표시하여, 터미널 노드들이 추정 중에 두 번 이상 팩터화되지 않음을 보장하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 27 항에 있어서, 증거 트리를 구축하는 상기 단계는 증거 트리로부터 가능성 적은 노드들을 가지치는 과정을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 23 항에 있어서, 구성요소 세트의 구축 중, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 정도는, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태일 확률을 연산함으로서 결정되는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 23 항에 있어서, 구성요소 세트 구축 중, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 정도는 후보 클러스터에 대한 활성화와, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 확률을 곱함으로서 결정되며, 이때, 상기 활성화는 후보 클러스터로부터 그 외 다른 노드까지 몇 개의 링크가 점화될 가능성이 있는 지를 표시하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 21 항에 있어서, 구성요소 세트를 구축하는 단계는, 구성요소 세트를 노멀라이징하는 과정을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 23 항에 있어서, 구성요소 세트를 구축하는 단계는, 단어 세트를 발생시킬 수 있는 확률 모델의 상태들에 대해 주어진 확률 클러스터가 활성 상태일 확률을 근사시키는 과정을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 35 항에 있어서, 확률에 근사하는 상기 단계는,- 문서 내 단어 세트들을 발생시켰을 가능성이 높은 확률 모델들에 대한 상태들을 선택하고, 그리고- 해당 후보 클러스터가 활성 상태인 확률을 연산할 때 선택된 상태들만을 고려하는단계들을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 36 항에 있어서, 단어 세트를 발생시켰을 가능성이 높은 상태를 선택하는 단계는,- 확률 모델에 대해 시작 상태를 임의적으로 선택하고, 그리고- 단어 세트를 발생시켰을 가능성이 높은 상태에 도달하도록 시작 상태에서 시작하는 힐-클라이밍 동작을 실행하는단계들을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 37 항에 있어서, 힐-클라이밍 동작들을 실행하는 단계는 힐-클라이밍 동작들을 통해 도달할 수 없는 확률 모델의 상태들을 탐구하도록 힐-클라이밍 동작들에 대한 목적 함수에 관계없이 개별 후보 클러스터들의 상태들을 주기적으로 변경시키는 단계들을 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 38 항에 있어서, 개별 후보 클러스터의 상태를 변경시키는 단계는, 변경된 상태를 포함하는, 목적 함수에 대한 극점을 생성하도록 변경된 상태를 일시적으로 고정시키는 단계를 포함하는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 제 21 항에 있어서, 상기 문서는,- 웹페이지 또는- 질의어로부터의 용어 세트를 포함할 수 있는 것을 특징으로 하는 컴퓨터-판독형 저장 매체.
- 개념적으로 관련된 단어들의 클러스터들에 대해 한 문서를 특성화하는 장치에 있어서, 이 장치는,- 단어 세트를 지닌 문서를 수신하도록 구성되는 수신 수단,- 단어 세트에 관련된 개념적으로 관련된 단어들의 후보 클러스터들을 선택하도록 구성되는 선택 수단으로서, 이때, 개념적으로 관련된 단어들의 클러스터들로부터 단어 세트들이 어떻게 발생되는 지를 설명하는 모델을 이용하여 후보 클러스터들이 선택되는 바의 상기 선택 수단, 그리고- 문서를 특성화하기 위한 구성요소 세트를 구축하도록 구성되는 구성요소 구축 수단으로서, 이때, 상기 구성요소 세트는 후보 클러스터들에 대한 구성요소들을 포함하고, 이때, 각각의 구성요소는 해당 후보 클러스터가 단어 세트들에 관련된 정도를 표시하는 바의 상기 구성요소 구축 수단을 포함하는 것을 특징으로 하는 문서 특성화 장치.
- 제 41 항에 있어서, 상기 모델은 확률 모델로서, 단어들과, 개념적으로 관련된 단어들의 클러스터들에 대한 임의적 변수를 나타내는 노드들을 포함하는 것을 특징으로 하는 문서 특성화 장치.
- 제 42 항에 있어서, 구성요소 세트의 각각의 구성요소는 단어 세트를 발생시킴에 있어 해당하는 후보 클러스터가 활성 상태인 정도를 표시하는 것을 특징으로 하는 문서 특성화 장치.
- 제 43 항에 있어서,확률 모델의 노드들은 가중치화된 링크에 의해 함께 연결되고, 그리고확률 모델의 클러스터 노드가 점화될 경우, 클러스터 노드로부터 또다른 노드까지 가중치화된 링크가 그 외 다른 노드를 점화시킬 수 있는 것을 특징으로 하는 문서 특성화 장치.
- 제 44 항에 있어서, 한 노드가 활성 상태인 여러개의 부모 노드를 가질 경우, 노드가 점화하지 않을 확률은 활성 부모 노드로부터의 링크들이 점화하지 않을 확률들의 프로덕트인 것을 특징으로 하는 문서 특성화 장치.
- 제 42 항에 있어서, 상기 확률 모델은 범용 노드로서 항상 활성 상태이고 모든 클러스터 노드들에 대해 가중치화된 링크들을 가지는 것을 특징으로 하는 문서 특성화 장치.
- 제 44 항에 있어서, 상기 선택 수단은,- 문서 내 단어 세트들에 관련된 터미널 노드들로 시작함으로서 그리고 역방향으로 부모 클러스터노드들에 대한 링크를 따름으로서 증거 트리를 구축하고,- 단어 세트를 발생시킴에 있어 각각의 부모 클러스터 노드가 활성 상태였을 가능성을 추정하도록 증거 트리를 이용하며, 그리고- 추정된 가능성을 바탕으로 후보 클러스터 노드가 될 부모 클러스터 노드를 선택하도록구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 47 항에 있어서, 단어 세트들을 발생시킴에 있어 해당 부모 노드가 활성 상태일 가능성을 추정하면서, 상기 선택 수단은,- 해당 부모 노드가 활성 상태일 무조건적 확률,- 해당 부모 노드의 부모 노드들이 활성 상태라고 가정할 때 해당 부모 노드가 활성 상태일 조건부 확률, 그리고- 해당 부모 노드의 자손 노드들의 활성 상태라고 가정할 때 해당 부모 노드가 활성 상태일 조건부 확률중 한가지 이상을 고려하도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 48 항에 있어서, 조건부 확률들을 고려하면서, 상기 선택 수단은, 노드들 간의 링크에 대한 가중치를 고려하도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 47 항에 있어서, 단어 세트를 발생시킴에 있어 해당 부모 노드가 활성 상태일 가능성을 추정하면서, 상기 선택 수단은, 추정 과정 중 터미널 노드들을 표시하여, 터미널 노드들이 추정 중에 두 번 이상 팩터화되지 않음을 보장하도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 47 항에 있어서, 증거 트리를 구축하면서, 상기 선택 수단은, 증거 트리로부터 가능성 적은 노드들을 가지치도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 43 항에 있어서, 구성요소 세트 중 해당 구성요소를 구축하면서, 상기 구성요소 구축 수단은, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태일 확률을 연산함으로서 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 정도를 결정하도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 43 항에 있어서, 구성요소 세트의 해당 구성요소를 구축하면서, 상기 구성요소 구축 수단은, 후보 클러스터에 대한 활성화와, 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 확률을 곱함으로서 단어 세트를 발생시킴에 있어 후보 클러스터가 활성 상태인 정도를 결정하도록 구성되며, 이때, 상기 활성화는 후보 클러스터로부터 그 외 다른 노드까지 몇 개의 링크가 점화될 가능성이 있는 지를 표시하는 것을 특징으로 하는 문서 특성화 장치.
- 제 41 항에 있어서, 상기 구성요소 세트 구축 수단은, 구성요소 세트를 노멀라이징하도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 43 항에 있어서, 상기 구성요소 세트 구축 수단은, 단어 세트를 발생시킬 수 있는 확률 모델의 상태들에 대해 주어진 확률 클러스터가 활성 상태일 확률을 근사시키도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 55 항에 있어서, 확률에 근사하면서, 상기 구성요소 구축 수단은,- 문서 내 단어 세트들을 발생시켰을 가능성이 높은 확률 모델들에 대한 상태들을 선택하고, 그리고- 해당 후보 클러스터가 활성 상태인 확률을 연산할 때 선택된 상태들만을 고려하도록구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 56 항에 있어서, 단어 세트를 발생시켰을 가능성이 높은 상태를 선택하면서, 상기 구성요소 구축 수단은,- 확률 모델에 대해 시작 상태를 임의적으로 선택하고, 그리고- 단어 세트를 발생시켰을 가능성이 높은 상태에 도달하도록 시작 상태에서 시작하는 힐-클라이밍 동작을 실행하도록구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 57 항에 있어서, 힐-클라이밍 동작들을 실행하면서, 상기 구성요소 구축 수단은, 힐-클라이밍 동작들을 통해 도달할 수 없는 확률 모델의 상태들을 탐구하도록 힐-클라이밍 동작들에 대한 목적 함수에 관계없이 개별 후보 클러스터들의 상태들을 주기적으로 변경시키도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 58 항에 있어서, 개별 후보 클러스터의 상태를 변경시키면서, 상기 구성요소 구축 수단은, 목적 함수에 대한 극점을 생성하도록 변경된 상태를 일시적으로 고정시키도록 구성되는 것을 특징으로 하는 문서 특성화 장치.
- 제 41 항에 있어서, 상기 문서는,- 웹페이지 또는- 질의어로부터의 용어 세트를 포함할 수 있는 것을 특징으로 하는 문서 특성화 장치.
- 개념적으로 관련된 단어들의 클러스터들에 대한 한 문서의 특성화를 촉진시키는 데이터 구조를 지닌 컴퓨터-판독형 저장 매체에 있어서, 상기 데이터 구조는,- 단어들과, 개념적으로 관련된 단어들의 클러스터들에 대해 임의적 변수들을 표시하는 노드들을 지닌 확률 모델을 포함하며, 이때, 상기 확률 모델의 노드들은 가중치화된 링크들에 의해 함께 연결되며,확률 모델의 클러스터 노드가 점화할 경우, 클러스터 노드로부터 또다른 노드까지 가중치화된 링크가 나머지 링크를 점화시킬 수 있으며, 그리고나머지 노드가 한 단어나 한 클러스터에 상관될 수 있는 것을 특징으로 하는 데이터 구조를 지닌 컴퓨터-판독형 저장 매체.
- 제 61 항에 있어서, 상기 확률 모델은 범용 노드를 포함하며, 상기 범용 노드는 항상 활성 상태로서 모든 클러스터 노드들에 대한 가중치화된 링크를 가지는 것을 특징으로 하는 데이터 구조를 지닌 컴퓨터-판독형 저장 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41614402P | 2002-10-03 | 2002-10-03 | |
US60/416,144 | 2002-10-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050065578A true KR20050065578A (ko) | 2005-06-29 |
KR101014895B1 KR101014895B1 (ko) | 2011-02-15 |
Family
ID=32069938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057005832A KR101014895B1 (ko) | 2002-10-03 | 2003-10-03 | 관련 단어들의 클러스터들을 바탕으로 문서를 특성화하는방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7383258B2 (ko) |
EP (1) | EP1546932A4 (ko) |
JP (1) | JP4465274B2 (ko) |
KR (1) | KR101014895B1 (ko) |
CN (1) | CN100504856C (ko) |
CA (1) | CA2500914C (ko) |
WO (1) | WO2004031916A2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200128752A (ko) * | 2018-05-02 | 2020-11-16 | 가부시키가이샤 프론테오 | 위험 행동 예측 장치, 예측 모델 생성 장치 및 위험 행동 예측용 프로그램 |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229957B2 (en) * | 2005-04-22 | 2012-07-24 | Google, Inc. | Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization |
US7231393B1 (en) * | 2003-09-30 | 2007-06-12 | Google, Inc. | Method and apparatus for learning a probabilistic generative model for text |
US7020593B2 (en) * | 2002-12-04 | 2006-03-28 | International Business Machines Corporation | Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model) |
GB0322600D0 (en) * | 2003-09-26 | 2003-10-29 | Univ Ulster | Thematic retrieval in heterogeneous data repositories |
US7617205B2 (en) | 2005-03-30 | 2009-11-10 | Google Inc. | Estimating confidence for query revision models |
US8015119B2 (en) * | 2004-01-21 | 2011-09-06 | Google Inc. | Methods and systems for the display and navigation of a social network |
US8010459B2 (en) * | 2004-01-21 | 2011-08-30 | Google Inc. | Methods and systems for rating associated members in a social network |
EP1562111B1 (en) * | 2004-02-03 | 2017-04-26 | Sap Se | A context modeller for modelling a context representation and a method of modelling a context representation |
US7313552B2 (en) * | 2004-03-19 | 2007-12-25 | Sybase, Inc. | Boolean network rule engine |
US7409383B1 (en) * | 2004-03-31 | 2008-08-05 | Google Inc. | Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems |
US8019875B1 (en) | 2004-06-04 | 2011-09-13 | Google Inc. | Systems and methods for indicating a user state in a social network |
US8832132B1 (en) | 2004-06-22 | 2014-09-09 | Google Inc. | Personalizing search queries based on user membership in social network communities |
US9223868B2 (en) | 2004-06-28 | 2015-12-29 | Google Inc. | Deriving and using interaction profiles |
US7860314B2 (en) * | 2004-07-21 | 2010-12-28 | Microsoft Corporation | Adaptation of exponential models |
US8015019B1 (en) | 2004-08-03 | 2011-09-06 | Google Inc. | Methods and systems for providing a document |
WO2006034038A2 (en) * | 2004-09-17 | 2006-03-30 | Become, Inc. | Systems and methods of retrieving topic specific information |
US9031898B2 (en) * | 2004-09-27 | 2015-05-12 | Google Inc. | Presentation of search results based on document structure |
US7668822B2 (en) * | 2004-12-23 | 2010-02-23 | Become, Inc. | Method for assigning quality scores to documents in a linked database |
US7797344B2 (en) * | 2004-12-23 | 2010-09-14 | Become, Inc. | Method for assigning relative quality scores to a collection of linked documents |
US7716140B1 (en) | 2004-12-31 | 2010-05-11 | Google Inc. | Methods and systems for controlling access to relationship information in a social network |
US7567946B2 (en) * | 2005-03-14 | 2009-07-28 | Xerox Corporation | Method, apparatus, and article of manufacture for estimating parameters of a probability model on shared device usage probabilistic semantic analysis |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US8412780B2 (en) * | 2005-03-30 | 2013-04-02 | Google Inc. | Methods and systems for providing current email addresses and contact information for members within a social network |
CN100470544C (zh) | 2005-05-24 | 2009-03-18 | 国际商业机器公司 | 用于链接文档的方法、设备和系统 |
US7818208B1 (en) | 2005-06-28 | 2010-10-19 | Google Inc. | Accurately estimating advertisement performance |
US8028337B1 (en) | 2005-08-30 | 2011-09-27 | Sprint Communications Company L.P. | Profile-aware filtering of network traffic |
US8204974B1 (en) * | 2005-08-30 | 2012-06-19 | Sprint Communications Company L.P. | Identifying significant behaviors within network traffic |
US8095876B1 (en) | 2005-11-18 | 2012-01-10 | Google Inc. | Identifying a primary version of a document |
US8316292B1 (en) * | 2005-11-18 | 2012-11-20 | Google Inc. | Identifying multiple versions of documents |
US7827060B2 (en) | 2005-12-30 | 2010-11-02 | Google Inc. | Using estimated ad qualities for ad filtering, ranking and promotion |
US10600090B2 (en) | 2005-12-30 | 2020-03-24 | Google Llc | Query feature based data structure retrieval of predicted values |
US20070156887A1 (en) * | 2005-12-30 | 2007-07-05 | Daniel Wright | Predicting ad quality |
US20070157228A1 (en) | 2005-12-30 | 2007-07-05 | Jason Bayer | Advertising with video ad creatives |
US8065184B2 (en) * | 2005-12-30 | 2011-11-22 | Google Inc. | Estimating ad quality from observed user behavior |
US7725417B2 (en) * | 2006-02-09 | 2010-05-25 | Ebay Inc. | Method and system to analyze rules based on popular query coverage |
US8380698B2 (en) * | 2006-02-09 | 2013-02-19 | Ebay Inc. | Methods and systems to generate rules to identify data items |
US9443333B2 (en) | 2006-02-09 | 2016-09-13 | Ebay Inc. | Methods and systems to communicate information |
US7739226B2 (en) * | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of the aspect rules |
US7739225B2 (en) * | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of an aspect-value pair |
US7640234B2 (en) * | 2006-02-09 | 2009-12-29 | Ebay Inc. | Methods and systems to communicate information |
WO2007095075A2 (en) * | 2006-02-09 | 2007-08-23 | Ebay Inc. | Methods and systems to communicate information |
US7849047B2 (en) | 2006-02-09 | 2010-12-07 | Ebay Inc. | Method and system to analyze domain rules based on domain coverage of the domain rules |
US8019754B2 (en) * | 2006-04-03 | 2011-09-13 | Needlebot Incorporated | Method of searching text to find relevant content |
US8856145B2 (en) * | 2006-08-04 | 2014-10-07 | Yahoo! Inc. | System and method for determining concepts in a content item using context |
US7660804B2 (en) * | 2006-08-16 | 2010-02-09 | Microsoft Corporation | Joint optimization of wrapper generation and template detection |
US7831472B2 (en) | 2006-08-22 | 2010-11-09 | Yufik Yan M | Methods and system for search engine revenue maximization in internet advertising |
US20080066107A1 (en) | 2006-09-12 | 2008-03-13 | Google Inc. | Using Viewing Signals in Targeted Video Advertising |
EP1903457B1 (en) * | 2006-09-19 | 2012-05-30 | Exalead | Computer-implemented method, computer program product and system for creating an index of a subset of data |
US7747607B2 (en) * | 2006-09-21 | 2010-06-29 | Yahoo! Inc. | Determining logically-related sub-strings of a string |
US9075864B2 (en) | 2006-10-10 | 2015-07-07 | Abbyy Infopoisk Llc | Method and system for semantic searching using syntactic and semantic analysis |
US9098489B2 (en) | 2006-10-10 | 2015-08-04 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9069750B2 (en) | 2006-10-10 | 2015-06-30 | Abbyy Infopoisk Llc | Method and system for semantic searching of natural language texts |
US9189482B2 (en) | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US9892111B2 (en) | 2006-10-10 | 2018-02-13 | Abbyy Production Llc | Method and device to estimate similarity between documents having multiple segments |
JP5011947B2 (ja) * | 2006-10-19 | 2012-08-29 | オムロン株式会社 | Fmeaシートの作成方法およびfmeaシート自動作成装置 |
US7945854B2 (en) * | 2006-10-30 | 2011-05-17 | Palo Alto Research Center Incorporated | Systems and methods for the combination and display of social and textual content |
US20080172293A1 (en) * | 2006-12-28 | 2008-07-17 | Yahoo! Inc. | Optimization framework for association of advertisements with sequential media |
US20080159114A1 (en) * | 2007-01-02 | 2008-07-03 | Dipietro Richard Anthony | High density data storage medium, method and device |
US9507858B1 (en) * | 2007-02-28 | 2016-11-29 | Google Inc. | Selectively merging clusters of conceptually related words in a generative model for text |
US8584013B1 (en) | 2007-03-20 | 2013-11-12 | Google Inc. | Temporal layers for presenting personalization markers on imagery |
US8103707B2 (en) * | 2007-03-30 | 2012-01-24 | Verizon Patent And Licensing Inc. | Method and system for presenting non-linear content based on linear content metadata |
US8271476B2 (en) * | 2007-03-30 | 2012-09-18 | Stuart Donnelly | Method of searching text to find user community changes of interest and drug side effect upsurges, and presenting advertisements to users |
US8275773B2 (en) * | 2007-03-30 | 2012-09-25 | Stuart Donnelly | Method of searching text to find relevant content |
US8086624B1 (en) | 2007-04-17 | 2011-12-27 | Google Inc. | Determining proximity to topics of advertisements |
US8229942B1 (en) | 2007-04-17 | 2012-07-24 | Google Inc. | Identifying negative keywords associated with advertisements |
US8667532B2 (en) * | 2007-04-18 | 2014-03-04 | Google Inc. | Content recognition for targeting video advertisements |
US20080276266A1 (en) * | 2007-04-18 | 2008-11-06 | Google Inc. | Characterizing content for identification of advertising |
US8433611B2 (en) * | 2007-06-27 | 2013-04-30 | Google Inc. | Selection of advertisements for placement with content |
US20090006190A1 (en) * | 2007-06-28 | 2009-01-01 | Google Inc. | Determining location-based commercial information |
US8073803B2 (en) * | 2007-07-16 | 2011-12-06 | Yahoo! Inc. | Method for matching electronic advertisements to surrounding context based on their advertisement content |
US20090024470A1 (en) * | 2007-07-20 | 2009-01-22 | Google Inc. | Vertical clustering and anti-clustering of categories in ad link units |
US8180725B1 (en) * | 2007-08-01 | 2012-05-15 | Google Inc. | Method and apparatus for selecting links to include in a probabilistic generative model for text |
US8554618B1 (en) | 2007-08-02 | 2013-10-08 | Google Inc. | Automatic advertising campaign structure suggestion |
US9064024B2 (en) | 2007-08-21 | 2015-06-23 | Google Inc. | Bundle generation |
US20090089261A1 (en) * | 2007-10-01 | 2009-04-02 | Wand, Inc. | Method for resolving failed search queries |
CN101493823B (zh) * | 2007-10-05 | 2012-06-13 | 富士通株式会社 | 根据单词相关度识别单词聚类 |
US8572087B1 (en) | 2007-10-17 | 2013-10-29 | Google Inc. | Content identification |
US9824372B1 (en) | 2008-02-11 | 2017-11-21 | Google Llc | Associating advertisements with videos |
US8255948B1 (en) | 2008-04-23 | 2012-08-28 | Google Inc. | Demographic classifiers from media content |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
US20100037149A1 (en) * | 2008-08-05 | 2010-02-11 | Google Inc. | Annotating Media Content Items |
US8583618B2 (en) * | 2008-11-24 | 2013-11-12 | Business Objects S.A. | Determination of graphical format to present search results |
US8234274B2 (en) * | 2008-12-18 | 2012-07-31 | Nec Laboratories America, Inc. | Systems and methods for characterizing linked documents using a latent topic model |
US8099453B2 (en) * | 2009-01-22 | 2012-01-17 | Hewlett-Packard Development Company, L.P. | System and method for data clustering |
US20100211894A1 (en) * | 2009-02-18 | 2010-08-19 | Google Inc. | Identifying Object Using Generative Model |
US8296257B1 (en) * | 2009-04-08 | 2012-10-23 | Google Inc. | Comparing models |
US8060512B2 (en) * | 2009-06-05 | 2011-11-15 | Xerox Corporation | Hybrid tensor-based cluster analysis |
DE102009031872A1 (de) | 2009-07-06 | 2011-01-13 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher |
US8326820B2 (en) * | 2009-09-30 | 2012-12-04 | Microsoft Corporation | Long-query retrieval |
US8229959B1 (en) | 2009-11-11 | 2012-07-24 | Google Inc. | Sharable search result labels |
US9152708B1 (en) | 2009-12-14 | 2015-10-06 | Google Inc. | Target-video specific co-watched video clusters |
US9002866B1 (en) | 2010-03-25 | 2015-04-07 | Google Inc. | Generating context-based spell corrections of entity names |
CN102236664B (zh) * | 2010-04-28 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 基于语义归一化的检索系统、检索方法以及信息处理方法 |
US8161073B2 (en) | 2010-05-05 | 2012-04-17 | Holovisions, LLC | Context-driven search |
AU2010202901B2 (en) * | 2010-07-08 | 2016-04-14 | Patent Analytics Holding Pty Ltd | A system, method and computer program for preparing data for analysis |
JP5403696B2 (ja) * | 2010-10-12 | 2014-01-29 | 株式会社Nec情報システムズ | 言語モデル生成装置、その方法及びそのプログラム |
US8751496B2 (en) | 2010-11-16 | 2014-06-10 | International Business Machines Corporation | Systems and methods for phrase clustering |
US9026479B1 (en) | 2011-02-02 | 2015-05-05 | Google Inc. | Predicting user interests |
US8811726B2 (en) * | 2011-06-02 | 2014-08-19 | Kriegman-Belhumeur Vision Technologies, Llc | Method and system for localizing parts of an object in an image for computer vision applications |
US8869208B2 (en) * | 2011-10-30 | 2014-10-21 | Google Inc. | Computing similarity between media programs |
US8997008B2 (en) | 2012-07-17 | 2015-03-31 | Pelicans Networks Ltd. | System and method for searching through a graphic user interface |
US9245024B1 (en) * | 2013-01-18 | 2016-01-26 | Google Inc. | Contextual-based serving of content segments in a video delivery system |
US9390383B2 (en) * | 2013-01-28 | 2016-07-12 | Georges Harik | Method for an optimizing predictive model using gradient descent and conjugate residuals |
US9600777B2 (en) | 2013-03-11 | 2017-03-21 | Georges Harik | Configuring and optimizing computational structure for a machine learning application using a tuple of vectors |
US11336648B2 (en) | 2013-11-11 | 2022-05-17 | Amazon Technologies, Inc. | Document management and collaboration system |
US10540404B1 (en) * | 2014-02-07 | 2020-01-21 | Amazon Technologies, Inc. | Forming a document collection in a document management and collaboration system |
US10599753B1 (en) | 2013-11-11 | 2020-03-24 | Amazon Technologies, Inc. | Document version control in collaborative environment |
US9542391B1 (en) | 2013-11-11 | 2017-01-10 | Amazon Technologies, Inc. | Processing service requests for non-transactional databases |
US9652554B2 (en) * | 2013-12-26 | 2017-05-16 | Facebook, Inc. | Systems and methods for adding users to a networked computer system |
FR3016459A1 (ko) * | 2014-01-15 | 2015-07-17 | Intema Solutions Inc | |
CN103810266B (zh) * | 2014-01-27 | 2017-04-05 | 中国电子科技集团公司第十研究所 | 语义网络目标识别判证方法 |
US10691877B1 (en) | 2014-02-07 | 2020-06-23 | Amazon Technologies, Inc. | Homogenous insertion of interactions into documents |
WO2015145555A1 (ja) * | 2014-03-25 | 2015-10-01 | 株式会社日立製作所 | 確率推論システム |
US9811931B2 (en) | 2014-06-02 | 2017-11-07 | Business Objects Software Limited | Recommendations for creation of visualizations |
US9807073B1 (en) | 2014-09-29 | 2017-10-31 | Amazon Technologies, Inc. | Access to documents in a document management and collaboration system |
US9928232B2 (en) | 2015-02-27 | 2018-03-27 | Microsoft Technology Licensing, Llc | Topically aware word suggestions |
CN104881400B (zh) * | 2015-05-19 | 2018-01-19 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
US9684842B2 (en) | 2015-10-29 | 2017-06-20 | The Nielsen Company (Us), Llc | Methods and apparatus to extract text from imaged documents |
WO2017140213A1 (en) * | 2016-02-19 | 2017-08-24 | Huawei Technologies Co., Ltd. | System, method, and device for unified access control on federated database |
US10803245B2 (en) * | 2016-09-06 | 2020-10-13 | Microsoft Technology Licensing, Llc | Compiling documents into a timeline per event |
CN110023924A (zh) | 2016-11-11 | 2019-07-16 | 德尼梅尔奥克提麦恩有限公司 | 用于语义搜索的设备和方法 |
CN108075959B (zh) * | 2016-11-14 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 一种会话消息处理方法和装置 |
JP6751064B2 (ja) * | 2017-09-20 | 2020-09-02 | 株式会社東芝 | データ検索システム、データ検索方法、及びプログラム |
US11205179B1 (en) | 2019-04-26 | 2021-12-21 | Overstock.Com, Inc. | System, method, and program product for recognizing and rejecting fraudulent purchase attempts in e-commerce |
CN116821053B (zh) * | 2023-08-30 | 2023-11-21 | 之江实验室 | 数据上报方法、装置、计算机设备和存储介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US6460036B1 (en) * | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
GB9426165D0 (en) | 1994-12-23 | 1995-02-22 | Anthony Andre C | Method of retrieving and displaying data |
US5794050A (en) | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US6820093B2 (en) | 1996-07-30 | 2004-11-16 | Hyperphrase Technologies, Llc | Method for verifying record code prior to an action based on the code |
US7013298B1 (en) | 1996-07-30 | 2006-03-14 | Hyperphrase Technologies, Llc | Method and system for automated data storage and retrieval |
US6078914A (en) | 1996-12-09 | 2000-06-20 | Open Text Corporation | Natural language meta-search system and method |
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US6606143B1 (en) | 1998-03-13 | 2003-08-12 | Sharp Kabushiki Kaisha | Liquid crystal display device with phase element |
US6108662A (en) | 1998-05-08 | 2000-08-22 | Allen-Bradley Company, Llc | System method and article of manufacture for integrated enterprise-wide control |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US7181438B1 (en) | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
GB9925741D0 (en) * | 1999-10-30 | 1999-12-29 | Ibm | Interaction with database reports |
US20020120619A1 (en) * | 1999-11-26 | 2002-08-29 | High Regard, Inc. | Automated categorization, placement, search and retrieval of user-contributed items |
US6868525B1 (en) | 2000-02-01 | 2005-03-15 | Alberti Anemometer Llc | Computer graphic display visualization system and method |
JP2001273293A (ja) | 2000-03-23 | 2001-10-05 | Nippon Telegr & Teleph Corp <Ntt> | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 |
US6684205B1 (en) * | 2000-10-18 | 2004-01-27 | International Business Machines Corporation | Clustering hypertext with applications to web searching |
US7363308B2 (en) * | 2000-12-28 | 2008-04-22 | Fair Isaac Corporation | System and method for obtaining keyword descriptions of records from a large database |
US20020087310A1 (en) | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented intelligent dialogue control method and system |
US8001118B2 (en) | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
WO2003075186A1 (en) * | 2002-03-01 | 2003-09-12 | Paul Jeffrey Krupin | A method and system for creating improved search queries |
GB2391967A (en) | 2002-08-16 | 2004-02-18 | Canon Kk | Information analysing apparatus |
US7231393B1 (en) | 2003-09-30 | 2007-06-12 | Google, Inc. | Method and apparatus for learning a probabilistic generative model for text |
US7685236B1 (en) | 2003-09-24 | 2010-03-23 | Google Inc. | Methods and systems for developing an instant messaging network |
US7437364B1 (en) | 2004-06-30 | 2008-10-14 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US8224964B1 (en) | 2004-06-30 | 2012-07-17 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US9820658B2 (en) | 2006-06-30 | 2017-11-21 | Bao Q. Tran | Systems and methods for providing interoperability among healthcare devices |
US7558622B2 (en) | 2006-05-24 | 2009-07-07 | Bao Tran | Mesh network stroke monitoring appliance |
-
2003
- 2003-09-30 US US10/676,571 patent/US7383258B2/en active Active
- 2003-10-03 JP JP2004541690A patent/JP4465274B2/ja not_active Expired - Lifetime
- 2003-10-03 CA CA2500914A patent/CA2500914C/en not_active Expired - Fee Related
- 2003-10-03 CN CNB2003801030451A patent/CN100504856C/zh not_active Expired - Lifetime
- 2003-10-03 EP EP03774573A patent/EP1546932A4/en not_active Ceased
- 2003-10-03 WO PCT/US2003/031545 patent/WO2004031916A2/en active Application Filing
- 2003-10-03 KR KR1020057005832A patent/KR101014895B1/ko active IP Right Grant
-
2008
- 2008-06-02 US US12/131,637 patent/US8688720B1/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200128752A (ko) * | 2018-05-02 | 2020-11-16 | 가부시키가이샤 프론테오 | 위험 행동 예측 장치, 예측 모델 생성 장치 및 위험 행동 예측용 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
US20040068697A1 (en) | 2004-04-08 |
US8688720B1 (en) | 2014-04-01 |
CN100504856C (zh) | 2009-06-24 |
EP1546932A2 (en) | 2005-06-29 |
CN1711536A (zh) | 2005-12-21 |
JP4465274B2 (ja) | 2010-05-19 |
AU2003282688A1 (en) | 2004-04-23 |
JP2006502480A (ja) | 2006-01-19 |
WO2004031916A3 (en) | 2004-12-23 |
KR101014895B1 (ko) | 2011-02-15 |
US7383258B2 (en) | 2008-06-03 |
WO2004031916A2 (en) | 2004-04-15 |
CA2500914A1 (en) | 2004-04-15 |
EP1546932A4 (en) | 2008-04-09 |
CA2500914C (en) | 2010-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101014895B1 (ko) | 관련 단어들의 클러스터들을 바탕으로 문서를 특성화하는방법 및 장치 | |
US8412747B1 (en) | Method and apparatus for learning a probabilistic generative model for text | |
US9373086B1 (en) | Crowdsource reasoning process to facilitate question answering | |
RU2377645C2 (ru) | Способ и система для классификации дисплейных страниц с помощью рефератов | |
US8606739B2 (en) | Using computational engines to improve search relevance | |
US9213946B1 (en) | Comparing models | |
US7877371B1 (en) | Selectively deleting clusters of conceptually related words from a generative model for text | |
JPWO2007099812A1 (ja) | 質問回答装置、質問回答方法および質問回答用プログラム | |
US20220253611A1 (en) | Techniques for maintaining rhetorical flow | |
US20100185623A1 (en) | Topical ranking in information retrieval | |
US11875116B2 (en) | Machine learning models with improved semantic awareness | |
Song et al. | Detecting opinion leader dynamically in chinese news comments | |
Nigam et al. | Towards a robust metric of polarity | |
Wazzan et al. | Comparing traditional and LLM-based search for image geolocation | |
Watters | Dictionary of information science and technology | |
NikRavesh | Fuzzy conceptual-based search engine using conceptual semantic indexing | |
US9507858B1 (en) | Selectively merging clusters of conceptually related words in a generative model for text | |
CN107423439B (zh) | 一种基于lda的中文问题映射方法 | |
Secker et al. | AISIID: An artificial immune system for interesting information discovery on the web | |
Selçuk Candan et al. | Using random walks for mining web document associations | |
Zhao | Modeling and solving term mismatch for full-text retrieval | |
Matijasevic et al. | „Specific characteristics of computer criminal offenses with regard to the law regulations “ | |
AU2003282688B2 (en) | Method and apparatus for characterizing documents based on clusters of related words | |
Termehchy et al. | A signaling game approach to databases querying and interaction | |
Marx et al. | CACAO: Conditional Spread Activation for Keyword Factual Query Interpretation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140127 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150127 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160125 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170131 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180129 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190125 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20200129 Year of fee payment: 10 |