KR20110134314A - 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델 - Google Patents

컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델 Download PDF

Info

Publication number
KR20110134314A
KR20110134314A KR1020110054634A KR20110054634A KR20110134314A KR 20110134314 A KR20110134314 A KR 20110134314A KR 1020110054634 A KR1020110054634 A KR 1020110054634A KR 20110054634 A KR20110054634 A KR 20110054634A KR 20110134314 A KR20110134314 A KR 20110134314A
Authority
KR
South Korea
Prior art keywords
document
data structure
edge
graph data
nodes
Prior art date
Application number
KR1020110054634A
Other languages
English (en)
Other versions
KR101790793B1 (ko
Inventor
챠루 씨 아가르왈
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20110134314A publication Critical patent/KR20110134314A/ko
Application granted granted Critical
Publication of KR101790793B1 publication Critical patent/KR101790793B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

그래픽 모델로 텍스트 문서를 표현하는 방법에서, 복수의 정렬된 단어를 포함하는 문서가 수신되고, 문서에 대한 그래프 데이터 구조가 생성된다. 그래프 데이터 구조는 복수의 노드 및 에지를 포함하고, 각각의 노드는 문서에서의 개별 단어를 나타내며, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해준다. 그래프 데이터 구조는 정보 저장소에 저장된다.

Description

컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델{GRAPHICAL MODELS FOR REPRESENTING TEXT DOCUMENTS FOR COMPUTER ANALYSIS}
본 발명은 텍스트 문서 표현 및 컴퓨터 분석에 관한 것이다.
텍스트 문서로부터 고품질 정보를 도출하기 위해, 클러스터링, 분류, 인덱싱 및 유사성 검색 등의 각종의 텍스트 마이닝 및 관리 알고리즘이 존재한다. 이들 응용의 대부분은 텍스트 표현 및 분석을 위해 벡터-공간 모델(vector-space model)을 사용한다. 벡터-공간 모델은 텍스트 문서를, 예를 들어, 색인어(index term) 등의 식별자의 벡터로서 표현하는 대수 모델(algebraic model)이다. 벡터-공간 모델이 마이닝(mining)을 위한 효과적이고 효율적인 표현이지만, 문서에서의 단어의 순서에 관한 정보를 유지하지 않는다.
본 발명은 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델을 제공하고자 한다.
본 발명의 예시적인 실시예에 따르면, 텍스트 문서를 표현하는 그래픽 모델(graphical model)이 제공된다. 그래픽 모델은 개별 단어들 간의 거리로서 문서를 표현하는 거리 그래프(distance graph)로부터 작성된다. 본 발명에서의 거리 그래프 표현은 기본 데이터의 문장 구조의 측면에서 풍부한 표현을 제공하기 위해 문서에서의 단어의 위치 정보를 보유하고, 마이닝에 효과적이다. 이 표현은, 단어들 간의 거리를 표현하는 능력이 더 낫기 때문에, 벡터-공간 표현보다 효과적이다.
본 발명의 예시적인 실시예는 그래픽 모델로 텍스트 문서를 표현하는 방법 및 컴퓨터 프로그램 제품을 제공한다. 이 방법에서, 복수의 정렬된 단어(ordered word)를 포함하는 문서가 수신될 수 있고, 문서의 그래프 데이터 구조가 생성될 수 있다. 그래프 데이터 구조는 복수의 노드(node) 및 에지(edge)를 포함할 수 있고, 각각의 노드는 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해준다. 그래프 데이터 구조는 정보 저장소(information repository)에 저장될 수 있다.
본 발명에 따라 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델을 제공할 수 있다.
도 1은 본 발명의 예시적인 실시예에 따른 텍스트 단편(text fragment)의 거리 그래프 표현을 나타낸 도면.
도 2는 본 발명의 예시적인 실시예에 따른 거리 그래프 및 거리 그래프의 데이터 구조를 나타낸 도면.
도 3은 본 발명의 예시적인 실시예에 따른 텍스트 단편의 무향 거리 그래프 표현(undirected distance graph representation)을 나타낸 도면.
도 4는 본 발명의 예시적인 실시예를 구현하는 장치를 나타낸 도면.
도 5는 본 발명의 예시적인 실시예에 따른 거리 그래프를 구성하는 프로세스를 나타낸 도면.
도 6은 본 발명의 예시적인 실시예에 따른 마이닝을 위해 거리 그래프를 텍스트 표현으로 변환하는 프로세스를 나타낸 도면.
본 개시 내용에서, 본 발명의 예시적인 실시예에 따른, 텍스트 문서를 표현하는 그래픽 모델이 제시된다. 이후부터, 본 발명의 예시적인 실시예에 따른, 문서에서의 개별 단어들 간의 거리로서 문서를 표현하는 거리 그래프를 정의할 것이다. 본 발명의 그래픽 모델은 그래프 이론의 분야로부터의 개념을 유사하지 않은 텍스트 문서 표현의 분야에 적용함으로써 도출된다. 또한 이 구조적 표현을 사용하는 몇가지 마이닝 및 관리 응용에 대해서도 살펴볼 것이다.
본 발명의 거리 그래프 표현이 효과적인 처리를 가능하게 해주며, 그로부터 문서에서의 텍스트의 고품질 표현이 얻어진다는 것을 보여줄 것이다. 예를 들어, 거리 그래프 표현은 문서에서의 기본 데이터의 거동에 관한 풍부한 정보를 보유할 수 있다. 이 풍부한 수준의 구조적 정보는 손실이 보다 많은 벡터-공간 표현에서 가능하지 않은 응용을 가능하게 해주며, 기존의 응용에서 더 높은 품질의 결과를 제공한다. 또한, 단지 텍스트 문서의 기본 표현을 본 발명의 거리 그래프의 에지의 벡터-공간 표현으로 변경하는 것만으로 본 발명의 구조화된 데이터의 벡터-공간 표현에서 클러스터링 등의 많은 기존의 텍스트 응용이 곧바로 사용될 수 있다는 것도 보여줄 것이다.
이제부터 본 발명의 예시적인 실시예에 따른 거리 그래프 표현의 요약을 제공할 것이다.
거리 그래프는 점들 간의 거리가 1일 때마다 에지에 의해 2개의 점을 연결함으로써 유클리드 평면(Euclidean plane)에서의 점들의 모음으로 형성된 그래프이다. 거리 그래프의 구조적 표현에 의해 거리 그래프가 처리에 효과적인 표현으로 된다. 거리 그래프는 보유된 거리 정보의 레벨에 따라 다양한 차수를 가지는 것으로 정의될 수 있다. 구체적으로는, 차수 k의 거리 그래프는 기본 문서에서 최대 k의 거리에 있는 단어 쌍에 관한 정보를 보유한다. 문서 코퍼스 내의 각각의 단어에 대한 노드와, 한 쌍의 노드 사이의 거리가 특정 수보다 작은 경우, 한 쌍의 노드 사이에 존재하는 에지를 정의하는 구조로서 거리 그래프를 정의한다.
코퍼스 C로부터 도출된 문서 D에 대한 차수 k의 거리 그래프는 그래프 G(C,D,k) = (N(C),A(D,k))로서 정의되고, 여기서 N(C)는 코퍼스 C와 관련하여 정의된 노드의 집합이고, A(D,k)는 문서에서의 에지의 집합이다. 이들 집합은 다음과 같이 정의된다.
집합 N(C)는 전체 문서 코퍼스 C에서의 각각의 개별 단어에 대한 하나의 노드를 포함한다. 코퍼스에서의 대응하는 단어의 인덱스를 표현하기 위해 용어 "노드 i" 및 "단어 i"를 서로 바꾸어 사용할 것이다. 유의할 점은, 코퍼스 C가 다수의 문서를 포함할 수 있고, 대응하는 단어(노드)의 인덱스가 C에서의 상이한 문서의 표현에 걸쳐 그대로 유지된다는 것이다. 노드의 집합은 N(C)로 표시되고, 코퍼스 C의 함수이다.
단어 i가 최대 k개 위치만큼 단어 j보다 앞에 나오는 경우, 집합 A(D,k)는 노드 i로부터 노드 j로의 유향 에지를 포함한다. 예를 들어, 연속적인 단어의 경우, k의 값은 1이다. 에지의 빈도수는 문서에서 단어 i가 최대 k개 위치만큼 단어 j보다 앞에 나오는 횟수이다.
대부분의 텍스트 모음은 전치사, 관사 및 접속사 등 많은 빈번히 나오는 단어를 포함한다. 이들은 불용어(stop-word)라고 한다. 거리 그래프 표현에서, 거리 그래프 구성 이전에 이들 단어가 텍스트로부터 제거되는 것으로 가정한다. 환언하면, 불용어는 그래프에 대한 거리를 계산할 때 카운트되지 않으며, 노드 집합 N(C)에 포함되지 않는다. 이것은 거리 그래프 표현에서 에지의 수를 크게 감소시킨다. 이것은 또한 처리 동안에 더 나은 효율을 가져온다.
본 발명의 예시적인 실시예에 따르면, 잘 알려진 자장가 "Mary had a little lamb"의 거리 그래프 표현이 도 1에 예시되어 있다. 도 1에 도시된 바와 같이, 텍스트 단편(110)이 제공되어 있다. 텍스트 단편(110)은 텍스트 문서의 일부분이다. 텍스트 문서는 뉴스 기사, 웹 페이지, 소셜 네트워크 콘텐츠, 블로그, 출판 문서 또는 임의의 다른 형태의 디지털 텍스트 모음과 같은 임의의 디지털 텍스트 모음 중 하나일 수 있다. 텍스트 문서는 본질적인 단어 순서(word order)를 가진다. 환언하면, 텍스트 문서에서의 문장은 구문 배열로 단어를 포함한다. 이 배열은 마이닝에 유용한 정보이다.
도 1에서, 불용어가 제거되고(120), 나머지 단어(130)에 대해 거리 그래프가 구성된다. 도 1에서의 행 A-C는 정리된 텍스트 표현(pruned text representation)(130)으로부터 구성된 거리 그래프를 나타낸다. 행 A는 0차 유향 거리 그래프를 나타내고, 행 B는 1차 유향 거리 그래프를 나타내며, 행 C는 2차 유향 거리 그래프를 나타낸다. 유향 거리 그래프는, 노드 및 에지를 포함하고 에지들 사이에 방향이 있는 그래프이다.
본 발명의 예시적인 실시예에 따른 거리 그래프(201) 및 그의 데이터 구조(202)가 도 2에 도시되어 있다. 메모리에 저장될 수 있는 거리 그래프(201)의 내부 표현인 데이터 구조(202)는 거리 그래프(201)의 노드 1, 2, 3, 4, 5에 대응하는 리스트 및 거리 그래프(201)의 에지 (1,2), (1,3), (2,3), (2,4), (3,5), (4,5)에 대응하는 리스트를 포함한다. 데이터 구조(202)는 또한 에지 리스트와 일대일 대응관계를 갖는 에지 가중치 리스트 1, 2, 3, 5, 8, 9를 포함한다. 에지 가중치 리스트는 거리 그래프(201)에서의 에지의 빈도수를 포함한다. 에지의 빈도수는 에지의 양측에 있는 노드가 서로로부터 소정의 거리 내에서 몇번 나오는지에 대응한다. 이것은 이하에서의 도 1에 대한 추가의 논의에서 더 명확하게 될 것이다. 본 개시 내용에 기술된 처리를 수행하는 데 데이터 구조(202)로 충분하다.
다시 도 1을 참조하면, 행 A에서의 거리 그래프가 0차 거리 그래프이기 때문에, 이 그래프는 단지 자기 루프(self-loop)(140a-140f)만을 포함한다. 자기 루프는 자체로부터 0의 거리 내에서 단어가 나오는 횟수이다. 예를 들어, 자기 루프(140a)에서, "MARY"가 정리된 표현(130)에서 자체로부터 0(개 단어)의 거리 내에서 2번 나온다는 것을 나타내는 숫자 2가 나타내어져 있고, 자기 루프(140b)에서, "LITTLE"이 정리된 표현(130)에서 자체로부터 0(개 단어)의 거리 내에서 4번 나온다는 것을 나타내는 숫자 4가 나타내어져 있으며, 이하 마찬가지이다. 행 B에서의 자기 루프는 행 A에서의 자기 루프와 동일하다. 행 C에서의 자기 루프는 자기 루프(150b, 150c)를 제외하고 행 A 및 B에 도시된 자기 루프와 동일하다. 이들은 숫자 6으로 표시되어 있는데, 그 이유는 단어 "LITTLE" 및 "LAMB"이 자체로부터 2(개 단어)의 거리 내에서 6번 나오기 때문이다.
도 1에 도시된 바와 같이, 연속적으로 더 높은 차수의 거리 그래프에 대해 에지의 수가 증가한다. 행 A에서의 0차 그래프는 에지를 포함하지 않는다. 행 B에서의 1차 그래프는 에지(160a-160f)를 포함하고, 행 C에서의 2차 그래프는 에지(170a-170j)를 포함한다. 행 B에서의 에지(160a-160f)는 단어가 다른 단어로부터 1의 거리 내에서 몇번 발견되는지(예를 들어, 빈도수)를 나타낸다. 예를 들어, 행 B에 나타낸 바와 같이, "MARY"와 "LITTLE" 사이의 에지는 2로 표시되어 있는데, 그 이유는 "MARY"가 단어 "LITTLE"로부터 1(개 단어)의 거리 내에서 2번 발견되기 때문이다. 그에 부가하여, 행 B에서의 에지(160f)는 2로 표시되어 있는데, 그 이유는 단어 "LAMB"이 단어 "LITTLE" 사이에 2번 끼여 있기 때문이다.
행 C에서의 에지(170a-170j)는 단어가 다른 단어로부터 2의 거리 내에서 몇번 발견되는지를 나타낸다. 예를 들어, "LITTLE"은 2의 거리 내에서 "LAMB" 이후에 최대 2번 나온다. 따라서, 에지(170a)는 2로 표시되어 있다. 이와 유사하게, "LAMB"은 2의 거리 내에서 "MARY" 이후에 최대 2번 나온다. 그에 대응하여, 에지(170b)도 역시 2로 표시되어 있다.
도 1에 도시된 바와 같이, 행 C의 2차 거리 그래프에서의 자기 루프의 값은 행 A의 0차 거리 그래프 및 행 B의 1차 거리 그래프보다 크다. 이러한 이유는 "LITTLE" 및 "LAMB"과 같은 반복적인 단어가 서로로부터 교대로 있는 위치에 나오기 때문이다. 이러한 반복은 행 A의 0차 거리 그래프 및 행 B의 1차 거리 그래프의 자기 루프의 값을 변경하지 않고 행 C의 2차 거리 그래프, 따라서 자기 루프(150b, 150c)에 영향을 미친다.
도 1에서의 각각의 노드는 원래의 거리 그래프에서의 실제 텍스트 단어에 대응하는 라벨을 가지고 있다. 이들 라벨은 상이한 문서에서의 거리 그래프를 서로 관련시키는 데 유용할 수 있다.
수집될 수 있기 때문에, 보다 높은 차수의 거리 그래프가 보다 낮은 차수의 거리 그래프보다 더 풍부하지만, 5차 또는 10차보다 더 높은 차수의 경우 이것이 꼭 그러한 것은 아니다. 예를 들어, 문서에서의 개별 단어의 수보다 큰 차수를 갖는 거리 그래프는 완전한 무리(complete clique)가 될 것이다. 명확하게도, 이것이 꼭 유용한 정보를 인코딩하는 것은 아니다. 한편, 0차의 거리 그래프도 역시 그다지 유용한 정보를 인코딩하지 않는다. 상이한 차수의 거리 그래프의 상대적 거동을 검사할 때, 낮은 차수의 거리 그래프가 더 효과적인 것으로 밝혀졌다.
데이터베이스 관점에서 볼 때, 거리 그래프는 XML로 표현될 수 있으며, 노드 상의 속성 라벨은 단어 식별자에 대응하고, 에지 상의 라벨은 에지의 빈도수에 대응한다. 이러한 표현은 이러한 반구조화된 데이터(semi-structured data)에 대한 데이터 관리 및 마이닝 기법이 이미 존재한다는 점에서 유용하다. 따라서, 이 표현은 이들 응용(예를 들어, 클러스터링, 분류, 및 유사성 검색)에 곧바로 사용될 수 있다. 나중에, 클러스터링, 분류 및 빈번한 패턴 마이닝 등의 일부 통상적인 텍스트 응용이 본 발명의 거리 그래프 표현에서 어떻게 사용될 수 있는지에 대해 설명할 것이다.
앞서 언급한 바와 같이, 도 1에서의 행 A-C의 거리 그래프는 각각이 그래프에서의 단어의 순서를 고려하는 유향 그래프(directed graph)이다. 그렇지만, 일부 응용에서, 거리 그래프 표현에서 어떤 유연성을 허용하기 위해 순서를 약간 완화시키는 것이 유용할지도 모른다. 이것을 하기 위해, 무향 그래프(undirected graph)가 사용될 수 있다. 무향 그래프는 사용될 수 있는 응용의 수의 많은 변동을 가능하게 해주는데, 그 이유는 마이닝 응용에서 (유향 그래프와 비교하여) 처리하기가 더 간단하기 때문이다. 유향 그래프와 무향 그래프 간의 주된 차이점은 무향 그래프에서의 에지가 방향이 없다는 것이다.
도 3은 본 발명의 예시적인 실시예에 따른 텍스트 단편의 무향 거리 그래프 표현을 나타낸 것이다. 보다 구체적으로는, 도 3의 무향 거리 그래프(301)는 도 1의 행 C에서의 2차 거리 그래프에 대응한다. 유향 에지(directed edge)[도 1에서 화살표를 가지는 에지(170a-170j) 전부]를 동일한 빈도수의 무향 에지(undirected edge)(370a-370i)(화살표가 없음)로 대체함으로써 무향 거리 그래프(301)가 도 1의 행 C에서의 2차 유향 거리 그래프로부터 도출될 수 있다는 것이 명백하다. 에지가 양쪽 방향으로 존재하는 경우에, 양방향 에지의 빈도수를 가산함으로써 대응하는 무향 에지의 빈도수를 도출할 수 있다. 예를 들어, 도 3에서의 무향 에지(370d)의 빈도수는 도 1에서의 유향 에지(170c, 170d)의 빈도수의 합이다. 알 수 있는 바와 같이, 무향 표현은 순서에 관한 일부 정보를 상실하지만, 거리에 관한 정보를 보유하고 있다. 상이한 언어가 주어진 텍스트 단편에 대한 동일한 단어 번역을 표현하지만 순서가 상이한 경우에, 무향 거리 그래프 표현이 사용될 수 있다.
본 발명의 예시적인 실시예에 대해 이제부터 도 4의 장치(401)를 참조하여 기술할 것이다. 컴퓨터일 수 있는 장치(401)는 메모리(402), 디스크(403), 및 프로세서[CPU(central processing unit)(404) 등]를 포함한다.
"프로세서"라는 용어가, 본 명세서에서 사용되는 바와 같이, 임의의 처리 장치(예를 들어, CPU 및/또는 다른 형태의 처리 회로를 포함하는 처리 장치 등)를 포함하기 위한 것임을 잘 알 것이다. 게다가, "프로세서"라는 용어는 2개 이상의 개별 프로세서를 말할 수 있다. "메모리" 라는 용어는 프로세서 또는 CPU와 연관된 메모리[예를 들어, RAM, ROM, 고정 메모리 장치(예를 들어, 하드 드라이브), 이동식 메모리 장치(예를 들어, 디스켓), 플래시 메모리, 기타 등등]를 포함하기 위한 것이다. 그에 부가하여, "입력 및/또는 출력 인터페이스"라는 문구는, 본 명세서에서 사용되는 바와 같이, 예를 들어, 처리 장치에 데이터를 입력하는 하나 이상의 메커니즘(예를 들어, 마우스) 및 처리 장치와 연관된 결과를 제공하는 하나 이상의 메커니즘(예를 들어, 프린터)을 포함하기 위한 것이다.
도 4에 도시된 바와 같이, 장치(401)가 입력 데이터를 통해 입력 텍스트 데이터를 수신할 때, 이 데이터가 디스크(403) 상에 저장될 수 있다. 입력 텍스트 데이터는 처리를 위해 이용되는 임의의 문서 모음으로부터 온 것일 수 있다. 예를 들어, 도 1 내지 도 3을 참조하여 전술한 방식으로 입력 텍스트 데이터의 거리 그래프 표현을 생성하기 위해 입력 텍스트 데이터가 CPU(404)에서 처리된다. 거리 그래프 생성 동안의 중간 계산이 메모리(402)에 저장될 수 있다. 거리 그래프 표현이 장치(401)의 출력 인터페이스를 통해 정보 저장소(405)에 출력된다. 정보 저장소(405)는 문서의 상이한 표현이 저장되는 디스크 저장 장치의 형태일 수 있다. 거리 그래프 표현은 장래의 처리를 위해 어떤 종류의 데이터베이스에라도 저장될 수 있다.
그래프의 텍스트 분석을 수행하기 위해, 정보 저장소(405)에서 거리 그래프 표현이 장치(401) 또는 다른 컴퓨팅 장치에 의해 액세스될 수 있다. 특정의 응용에 대한 분석 결과를 결정하기 위해 거리 그래프 표현이 이어서 분석될 수 있다. 예를 들어, 정보 저장소(405)에 있는 임의의 문서에서 특정의 문장 단편(sentence fragment)이 나오는지를 판정하기 위해, 먼저 쿼리 단편(query fragment)에 대한 거리 그래프 표현을 구성하고, 이어서 정보 저장소(405)에 있는 임의의 거리 그래프 표현에 쿼리 그래프(query graph)가 존재하는지를 판정하기 위해 정보 저장소(405)를 검색한다. 일부 실시예에서, 텍스트 분석(410)을 수행하라는 요청(사용자로부터 입력되는 검색 요청 등)이 장치(401)에 입력될 수 있다. 일부 실시예에서, 요청에 대한 응답(420)이 장치(401)로 출력된다.
도 5는 본 발명의 예시적인 실시예에 따른 거리 그래프 표현을 생성하는 프로세스를 나타낸 것이다. 거리 그래프 생성 프로세스는 다음과 같은 3가지 종류의 엔터티를 결정하는 것을 포함한다: (i) 노드, (ii) 에지 및 (iii) 에지들 사이의 빈도수. 거리 그래프는 어휘 내의 각각의 개별 단어에 대해 하나의 노드를 포함한다. 501에서, 도 1에 도시된 단어 등의 정렬된 단어의 코퍼스를 포함하는 문서가 수신된다. 그 다음에, 문서에 대해 그래프 데이터 구조가 생성되고, 그래프 데이터 구조는 노드 및 에지를 포함하며, 각각의 노드는 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해준다. 일부 실시예에서, 소정의 거리는 그래프 데이터 구조의 차수 값에 기초하고, 일부 실시예에서, 에지는 유향 에지 또는 무향 에지이다. 따라서, 제1 단계는 코퍼스 내의 모든 개별 단어를 판정하는 것이다. 단계(510)에서, 이들 개별 단어가 노드로서 표현된다. 단계(520)에서, 단어들 간의 거리에 기초하여 노드들 간의 에지를 생성한다. 차수 k의 거리 그래프에 대해, 모든 단어 쌍 간의 에지를 생성하고, 단어들 간의 거리가 최대 k이다. 주목할 점은, 단계(520)가 유향 그래프가 필요한지 무향 그래프가 필요한지에 따라 다르게 구현될 수 있다는 것이다. 단계(530)에서, 이들 에지의 빈도수를 결정한다. 이들 에지의 빈도수는 거리 그래프 표현에서 최대 k의 거리에 에지가 나올 수 있는 횟수에 의해 결정된다. 이 프로세스의 결과는 도 1 및 도 3에 도시된 거리 그래프들 중 하나일 수 있다.
그 다음에, 540에서, 그래프 데이터 구조가 정보 저장소(도 4의 405 등)에 저장된다. 550에서, 문서 내의 단어들에 대한 검색과 같은 문서에 대해 텍스트 분석을 수행하라는 요청(예를 들어, 도 4의 410)이 있다. 560에서, 그래프 데이터 구조에 대해 텍스트 분석이 수행되고, 요청에 응답하는 결과(예를 들어, 도 4의 420)가 제공된다. 일부 실시예에서, 문서를 수신한 후 그래프 데이터 구조를 생성하기 전에, 이 방법은 문서로부터 불용어를 정리(pruning)하는 단계를 추가로 포함하며, 여기서 정리된 문서로부터 그래프 데이터 구조가 생성된다.
도 6은 본 발명의 예시적인 실시예에 따른 거리 그래프 표현이 마이닝에 사용되는 프로세스를 나타낸 것이다. 먼저, 601에서, 복수의 단어를 포함하는 문서가 수신되고, 605에서, 거리 그래프가 생성되며, 이에 대해서는 앞서 논의하였다. 마이닝 알고리즘과 관련하여 본 발명의 거리 그래프 표현을 사용하기 위해, 도 6에 도시된 바와 같이, 먼저 거리 그래프를 벡터-공간 표현으로 변환한다(610). 이것을 시각화하기 위해, 도 1의 행 B에서의 1차 거리 그래프를 생각해보자. 이 경우에, 각각의 에지에 대한 새로운 의사-단어(pseudo-word)를 생성하고, 에지에 가중치를 할당한다. 의사-단어는 에지의 시작과 끝에 있는 단어들의 연결이며, 가중치는 에지의 빈도수이다. 예를 들어, "MARY"부터 "LITTLE"까지의 에지가 가중치 2를 가지는 반면, "LITTLE"부터 "LAMB"까지의 에지는 가중치 4를 가진다. 따라서, 가중치 2를 갖는 새로운 단어 "MARY-LITTLE" 및 가중치 4를 갖는 새로운 단어 "LITTLE-LAMB"를 생성한다. 얻어진 벡터-공간 표현은 새로운 단어의 대응하는 가중치 빈도수를 갖는 새로운 단어의 리스트이다.
단계(620)에서, 텍스트 관리 및 마이닝 알고리즘이 수정된 벡터-공간 표현에 곧바로 적용될 수 있다. 이러한 응용의 일례가 유사성 검색 응용일 것이다. 이 응용에서, 본 발명의 수정된 벡터-공간 표현을 사용하여 2개의 그래프 사이에 공통인 에지의 수를 검사함으로써 2개의 문서의 유사성을 계산할 수 있다. 이러한 접근 방식은 순전히 표준의 벡터-공간 표현에 기초한 표준의 유사성 검색보다 우수한 결과를 산출할 것이다. 630에서, 예를 들어, 요청에 응답하여, 마이닝의 결과가 출력된다.
당업자라면 잘 알 것인 바와 같이, 본 발명의 측면들이 시스템, 방법, 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 발명의 측면들은, 전적으로 하드웨어인 실시예, 전적으로 소프트웨어인 실시예(펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함함), 또는 소프트웨어와 하드웨어 측면들을 겸비한 실시예(이들 모두가 일반적으로 본 명세서에서 “회로”, “모듈” 또는 “시스템”으로서 지칭될 수 있음)의 형태를 취할 수 있다. 게다가, 본 발명의 측면들이 컴퓨터 판독가능 프로그램 코드가 구현되어 있는 하나 이상의 컴퓨터-판독가능 매체(들)에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 이상의 컴퓨터-판독가능 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터-판독가능 매체는 컴퓨터-판독가능 신호 매체 또는 컴퓨터-판독가능 저장 매체일 수 있다. 컴퓨터-판독가능 저장 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 소자 또는 이들의 임의의 적당한 조합일 수 있지만, 이들로 제한되지 않는다. 보다 구체적인 컴퓨터-판독가능 저장 매체의 일례(비전수적인 목록임)로는, 하나 이상의 전선을 갖는 전기적 연결, 휴대형 컴퓨터 디스켓(portable computer diskette), 하드 디스크, RAM, ROM, 소거가능 프로그램가능 판독 전용 메모리(EPROM, 또는 플래시 메모리), 광섬유, 휴대형 CD-ROM(compact disc read-only memory), 광 저장 장치, 자기 저장 장치, 또는 이들의 임의의 적당한 조합이 있을 것이다. 본 문서와 관련하여, 컴퓨터-판독가능 저장 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형의 매체(tangible medium)라면 어느 것이라도 될 수 있다.
컴퓨터-판독가능 신호 매체는 컴퓨터-판독가능 프로그램 코드가 구현되어 있는 전파 데이터 신호(propagated data signal)(예를 들어, 기저대역 내에 있거나 반송파의 일부로서 있음)를 포함할 수 있다. 이러한 전파 신호는 전자기, 광학 또는 이들의 임의의 적합한 조합(이들로 제한되지 않음)을 포함하는 다양한 형태들 중 임의의 형태를 취할 수 있다. 컴퓨터-판독가능 신호 매체는, 컴퓨터-판독가능 저장 매체는 아니지만, 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 프로그램을 전달, 전파 또는 전송할 수 있는 임의의 컴퓨터-판독가능 매체일 수 있다.
컴퓨터-판독가능 매체 상에 구현된 프로그램 코드는 무선, 유선, 광섬유 케이블, RF, 기타 또는 이들의 임의의 적합한 조합(이들로 제한되지 않음)을 포함하는 임의의 적합한 매체를 사용하여 전송될 수 있다.
본 발명의 측면들에 대한 동작들을 수행하는 컴퓨터 프로그램 코드는, Java, Smalltalk, C++, 기타 등등과 같은 개체 지향 프로그래밍 언어 및 “C” 프로그램 언어 또는 유사한 프로그램 언어들과 같은 종래의 절차형 프로그래밍 언어들을 포함하는 하나 이상의 프로그램 언어들의 임의의 조합으로 작성될 수 있다. 프로그램 코드는, 전체가 사용자의 컴퓨터에서, 일부가 사용자의 컴퓨터에서, 독립적인 소프트웨어 패키지로서, 일부는 사용자의 컴퓨터에서 일부는 원격 컴퓨터에서, 또는 전체가 원격 컴퓨터 또는 서버에서 실행될 수 있다. 후자의 시나리오에서, 원격 컴퓨터는 LAN(local area network) 또는 WAN(wide area network)을 포함하는 임의의 유형의 네트워크를 통해 사용자의 컴퓨터에 연결될 수 있거나, 그 연결이 (예를 들어, 인터넷 서비스 공급자를 이용하여 인터넷을 통해) 외부 컴퓨터로 이어질 수 있다.
본 발명의 측면들이, 예를 들어, 본 발명의 실시예들에 따른 방법, 장치(시스템), 및 컴퓨터 프로그램 제품의 플로우차트 예시 및/또는 블록도를 참조하여 기술되어 있다. 플로우차트 예시 및/또는 블록도의 각각의 블록과, 플로우차트 예시 및/또는 블록도의 블록들의 조합이 컴퓨터 프로그램 명령들에 의해 구현될 수 있다는 것을 잘 알 것이다. 컴퓨터 또는 기타 프로그램가능 데이터 처리 장치의 프로세서를 통해 실행되는 명령들이 플로우차트 및/또는 블록도 블록 또는 블록들에서 명시된 기능들/동작들을 구현하는 수단을 생성하도록 하는 머신(machine)을 생성하기 위해, 이러한 컴퓨터 프로그램 명령들이 범용 컴퓨터, 전용 컴퓨터, 또는 기타 프로그램가능 데이터 처리 장치의 프로세서에게 제공될 수 있다.
컴퓨터-판독가능 매체에 저장된 명령들이 플로우차트 및/또는 블록도 블록 또는 블록들에서 명시된 기능/동작을 구현하는 명령들을 포함하는 제조 물품을 생성하도록, 컴퓨터, 기타 프로그램가능 데이터 처리 장치, 또는 기타 디바이스들에게 특정한 방식으로 기능하도록 지시할 수 있는 이러한 컴퓨터 프로그램 명령들이 또한 컴퓨터-판독가능 매체에 저장될 수 있다.
컴퓨터 또는 기타 프로그램가능 장치 상에서 실행되는 명령들이 플로우차트 및/또는 블록도 블록 또는 블록들에 명시된 기능/동작을 구현하는 프로세스를 제공하도록 하는 컴퓨터-구현 프로세스를 생성하기 위해, 컴퓨터 프로그램 명령들은 또한 컴퓨터, 기타 프로그램가능 장치 또는 기타 디바이스 상에서 일련의 동작 단계들이 수행되게 하기 위해 컴퓨터, 기타 프로그램가능 데이터 처리 장치 또는 기타 소자에 로드될 수 있다.
도면에서의 플로우차트와 블록도는 본 발명의 다양한 실시예들에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현들의 아키텍처, 기능 및 동작을 예시하고 있다. 이와 관련하여, 플로우차트 또는 블록도에서 각각의 블록은 명시된 논리적 기능(들)을 구현하는 하나 이상의 실행가능 명령들을 포함하는 코드 모듈, 코드 세그먼트 또는 코드 부분을 나타낼 수 있다. 또한, 몇몇 대안의 구현들에서, 블록에 표시된 기능들이 도면에서 표시된 순서와 다르게 일어날 수 있음에 주목해야 한다. 예를 들어, 관여된 기능에 따라, 연속하여 도시된 2개의 블록이 실제로는 거의 동시에 실행될 수 있거나, 그 블록들이 때때로 정반대의 순서로 실행될 수 있다. 또한, 유의할 점은, 블록도 및/또는 플로우차트 예시의 각각의 블록 및 블록도 및/또는 플로우차트 예시에서의 블록들의 조합들이 명시된 기능들 또는 동작들을 수행하는 전용 하드웨어-기반 컴퓨터 시스템들 또는 전용 하드웨어와 컴퓨터 명령들의 조합들에 의해 구현될 수 있다는 것이다.
본 명세서에서 사용된 용어들은 단지 특정의 실시예들을 설명하기 위한 것이며 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용되는 바와 같이, 단수 형태 "어떤", "한" 및 "그"는, 문맥이 명확하게 다른 것을 말하지 않는 한, 복수 형태를 포함하는 것으로 보아야 한다. 또한, 용어 "포함한다" 및/또는 "포함하는"이 본 명세서에서 사용될 때 언급한 특징, 정수, 단계, 동작, 요소, 및/또는 구성요소가 존재함을 명시하는 것이고 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는다는 것을 잘 알 것이다.
이하의 청구항에 있는 모든 수단 또는 단계+기능(step plus function) 요소들의 대응하는 구조, 재료, 동작 및 등가물은 구체적으로 청구되는 다른 청구된 요소들과 관련하여 기능을 수행하는 모든 구조, 재료, 또는 동작을 포함하는 것으로 보아야 한다. 본 발명의 설명은 예시와 설명을 위해 제공되었으며, 전수적이거나 개시된 형태의 발명으로 제한되는 것으로 보아서는 안된다. 발명의 범위 및 사상을 벗어나지 않고 많은 수정 및 변형이 당업자들에게는 명백할 것이다. 본 발명의 원리들 및 실제 응용들을 가장 잘 설명하여, 당업자가 생각되는 특정의 용도에 적합한 다양한 수정들을 갖는 다양한 실시예들에 대해 본 발명을 이해할 수 있게 해주기 위해 이들 실시예가 선택되어 기술되었다.

Claims (10)

  1. 복수의 정렬된 단어를 포함하는 문서를 수신하고,
    상기 문서에 대해 그래프 데이터 구조를 생성하고 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 -,
    상기 그래프 데이터 구조를 정보 저장소에 저장하고,
    상기 문서에 대해 텍스트 분석을 수행하라는 요청을 수신하고,
    상기 그래프 데이터 구조에 대해 텍스트 분석을 수행하고 상기 요청에 응답하는 결과를 제공하는 것을 포함하는 방법.
  2. 제1항에 있어서, 상기 소정의 거리는 상기 그래프 데이터 구조의 차수(order) 값에 기초하는 것인 방법.
  3. 제1항에 있어서, 에지가 유향(directed) 에지 또는 무향(undirected) 에지인 것인 방법.
  4. 제1항에 있어서, 상기 문서를 수신한 후 상기 그래프 데이터 구조를 생성하기 전에, 상기 방법은 상기 문서로부터 불용어(stop word)를 정리(pruning)하는 것을 더 포함하며, 상기 정리된 문서로부터 상기 그래프 데이터 구조가 생성되는 것인 방법.
  5. 제1항에 있어서, 상기 텍스트 분석은 텍스트 검색인 것인 방법.
  6. 복수의 단어를 포함하는 문서의 그래프 데이터 구조를 수신하고 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 -,
    상기 그래프 데이터 구조에서의 각각의 에지에 고유의 토큰을 할당함으로써 상기 문서의 벡터-공간 표현을 구성하고 - 각각의 에지에 대해, 상기 토큰의 빈도수는 상기 2개의 노드가 서로로부터 상기 소정의 거리에서 나오는 횟수와 동등하고, 상기 벡터-공간 표현은 상기 토큰을 포함함 -,
    상기 벡터-공간 표현을 출력하는 것을 포함하는 방법.
  7. 제6항에 있어서, 토큰이 의사-단어(pseudo-word)를 포함하는 것인 방법.
  8. 제6항에 있어서,
    상기 문서에 대해 텍스트 분석을 수행하라는 요청을 수신하고,
    상기 요청에 응답하는 결과를 획득하기 위해 상기 벡터-공간 표현에 대해 텍스트 분석을 수행하는 것을 더 포함하는 방법.
  9. 컴퓨터 프로그램 제품으로서,
    컴퓨터 판독가능 프로그램 코드가 구현되어 있는 컴퓨터 판독가능 저장 매체를 포함하고,
    상기 컴퓨터 판독가능 프로그램 코드는,
    복수의 정렬된 단어를 포함하는 문서를 수신하도록 구성된 컴퓨터 판독가능 프로그램 코드, 및
    상기 문서에 대해 그래프 데이터 구조를 생성하도록 구성된 컴퓨터 판독가능 프로그램 코드 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 - 를 포함하는 것인 컴퓨터 프로그램 제품.
  10. 컴퓨터 프로그램 제품으로서,
    컴퓨터 판독가능 프로그램 코드가 구현되어 있는 컴퓨터 판독가능 저장 매체를 포함하고,
    상기 컴퓨터 판독가능 프로그램 코드는,
    복수의 단어를 포함하는 문서의 그래프 데이터 구조를 수신하도록 구성된 컴퓨터 판독가능 프로그램 코드 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 -, 및
    상기 그래프 데이터 구조에서의 각각의 에지에 고유의 토큰을 할당함으로써 상기 문서의 벡터-공간 표현을 구성하도록 구성된 컴퓨터 판독가능 프로그램 코드 - 각각의 에지에 대해, 상기 토큰의 빈도수는 상기 2개의 노드가 서로로부터 상기 소정의 거리에서 나오는 횟수와 동등하고, 상기 벡터-공간 표현은 상기 토큰을 포함함 - 를 포함하는 것인 컴퓨터 프로그램 제품.
KR1020110054634A 2010-06-08 2011-06-07 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델 KR101790793B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/796,266 2010-06-08
US12/796,266 US8375061B2 (en) 2010-06-08 2010-06-08 Graphical models for representing text documents for computer analysis

Publications (2)

Publication Number Publication Date
KR20110134314A true KR20110134314A (ko) 2011-12-14
KR101790793B1 KR101790793B1 (ko) 2017-10-26

Family

ID=45065290

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110054634A KR101790793B1 (ko) 2010-06-08 2011-06-07 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델

Country Status (3)

Country Link
US (1) US8375061B2 (ko)
JP (1) JP5995409B2 (ko)
KR (1) KR101790793B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101697875B1 (ko) 2015-10-30 2017-01-18 아주대학교산학협력단 그래프 모델에 기반하는 문서 분석 방법 및 그 시스템
KR101723770B1 (ko) 2016-02-19 2017-04-06 아주대학교산학협력단 플레이어 매칭 기법에 기반하는 문제 추천 방법 및 그 시스템
KR20180101991A (ko) * 2017-03-06 2018-09-14 가부시끼가이샤 히다치 세이사꾸쇼 발상 지원 장치 및 발상 지원 방법

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775441B2 (en) * 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8484215B2 (en) 2008-10-23 2013-07-09 Ab Initio Technology Llc Fuzzy data operations
EP3855321A1 (en) * 2011-11-15 2021-07-28 AB Initio Technology LLC Data clustering based on variant token networks
US8819078B2 (en) * 2012-07-13 2014-08-26 Hewlett-Packard Development Company, L. P. Event processing for graph-structured data
US8954441B1 (en) 2014-01-02 2015-02-10 Linkedin Corporation Graph-based system and method of information storage and retrieval
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
CN105701083A (zh) 2014-11-28 2016-06-22 国际商业机器公司 文本表示方法和装置
US9483474B2 (en) * 2015-02-05 2016-11-01 Microsoft Technology Licensing, Llc Document retrieval/identification using topics
US10248738B2 (en) 2015-12-03 2019-04-02 International Business Machines Corporation Structuring narrative blocks in a logical sequence
US10013404B2 (en) * 2015-12-03 2018-07-03 International Business Machines Corporation Targeted story summarization using natural language processing
US10013450B2 (en) 2015-12-03 2018-07-03 International Business Machines Corporation Using knowledge graphs to identify potential inconsistencies in works of authorship
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US10437810B2 (en) 2016-09-30 2019-10-08 Microsoft Technology Licensing, Llc Systems and methods for maintaining cardinality schema to prevent corruption in databases indifferent to cardinality
US10621234B2 (en) 2018-04-06 2020-04-14 Runecast Solutions Limited Method for discovering a group of interdependent computing objects within undirected graph structure in a computing environment corresponding to a set of known conditions
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11328025B1 (en) 2019-04-26 2022-05-10 Bank Of America Corporation Validating mappings between documents using machine learning
US11556711B2 (en) 2019-08-27 2023-01-17 Bank Of America Corporation Analyzing documents using machine learning
US11423231B2 (en) 2019-08-27 2022-08-23 Bank Of America Corporation Removing outliers from training data for machine learning
US11449559B2 (en) 2019-08-27 2022-09-20 Bank Of America Corporation Identifying similar sentences for machine learning
US11526804B2 (en) 2019-08-27 2022-12-13 Bank Of America Corporation Machine learning model training for reviewing documents
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质
CN113312498B (zh) * 2021-06-09 2022-06-17 上海交通大学 用无向图嵌入知识图谱的文本信息抽取方法
CN114219876B (zh) * 2022-02-18 2022-06-24 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5740421A (en) * 1995-04-03 1998-04-14 Dtl Data Technologies Ltd. Associative search method for heterogeneous databases with an integration mechanism configured to combine schema-free data models such as a hyperbase
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5675788A (en) * 1995-09-15 1997-10-07 Infonautics Corp. Method and apparatus for generating a composite document on a selected topic from a plurality of information sources
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5640553A (en) * 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
US5659742A (en) * 1995-09-15 1997-08-19 Infonautics Corporation Method for storing multi-media information in an information retrieval system
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5742816A (en) * 1995-09-15 1998-04-21 Infonautics Corporation Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5822731A (en) * 1995-09-15 1998-10-13 Infonautics Corporation Adjusting a hidden Markov model tagger for sentence fragments
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
US6070134A (en) * 1997-07-31 2000-05-30 Microsoft Corporation Identifying salient semantic relation paths between two words
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US6549896B1 (en) * 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US20030033582A1 (en) * 2001-05-09 2003-02-13 Wavemarket, Inc. Representations for estimating distance
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
AU2003201799A1 (en) * 2002-01-16 2003-07-30 Elucidon Ab Information data retrieval, where the data is organized in terms, documents and document corpora
JP4085156B2 (ja) 2002-03-18 2008-05-14 独立行政法人情報通信研究機構 テキスト生成方法及びテキスト生成装置
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
JP2004110161A (ja) 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
US7007069B2 (en) * 2002-12-16 2006-02-28 Palo Alto Research Center Inc. Method and apparatus for clustering hierarchically related information
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7081839B2 (en) * 2003-09-11 2006-07-25 Lucent Technologies Inc. Method and apparatus for compressing an input string to provide an equivalent decompressed output string
US7346629B2 (en) * 2003-10-09 2008-03-18 Yahoo! Inc. Systems and methods for search processing using superunits
JP2005122515A (ja) * 2003-10-17 2005-05-12 Sony Corp 電子機器装置、テキスト間の類似度計算方法、およびプログラム
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
WO2006012487A1 (en) * 2004-07-22 2006-02-02 Genometric Systems Llc Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units
US7836076B2 (en) * 2004-08-20 2010-11-16 Hewlett-Packard Development Company, L.P. Distributing content indices
US20060074900A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Selecting keywords representative of a document
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US20060200461A1 (en) * 2005-03-01 2006-09-07 Lucas Marshall D Process for identifying weighted contextural relationships between unrelated documents
US20060235899A1 (en) * 2005-03-25 2006-10-19 Frontline Systems, Inc. Method of migrating legacy database systems
US7447683B2 (en) * 2005-03-31 2008-11-04 Jiles, Inc. Natural language based search engine and methods of use therefor
US9129038B2 (en) * 2005-07-05 2015-09-08 Andrew Begel Discovering and exploiting relationships in software repositories
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7672511B2 (en) * 2005-08-30 2010-03-02 Siemens Medical Solutions Usa, Inc. System and method for lattice-preserving multigrid method for image segmentation and filtering
US7499919B2 (en) * 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
CN101305366B (zh) * 2005-11-29 2013-02-06 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8438486B2 (en) 2006-02-09 2013-05-07 Microsoft Corporation Automatically converting text to business graphics
US7461073B2 (en) * 2006-02-14 2008-12-02 Microsoft Corporation Co-clustering objects of heterogeneous types
US20070214137A1 (en) * 2006-03-07 2007-09-13 Gloor Peter A Process for analyzing actors and their discussion topics through semantic social network analysis
US7752243B2 (en) * 2006-06-06 2010-07-06 University Of Regina Method and apparatus for construction and use of concept knowledge base
US7624104B2 (en) * 2006-06-22 2009-11-24 Yahoo! Inc. User-sensitive pagerank
US20080004956A1 (en) 2006-06-28 2008-01-03 Andrew Ian Atherton System and method for generating graphical advertisements based on text offers
US7954059B2 (en) 2006-07-24 2011-05-31 National Instruments Corporation Automatic conversion of text-based code having function overloading and dynamic types into a graphical program for compiled execution
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
US8166029B2 (en) * 2006-09-07 2012-04-24 Yahoo! Inc. System and method for identifying media content items and related media content items
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
KR20090050086A (ko) * 2006-09-11 2009-05-19 인터내셔널 비지네스 머신즈 코포레이션 내비게이션 동안의 사용자 지원 방법, 웹 애플리케이션 서버 컴퓨터 시스템, 컴퓨터 판독가능 저장 매체
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8359190B2 (en) * 2006-10-27 2013-01-22 Hewlett-Packard Development Company, L.P. Identifying semantic positions of portions of a text
EP2100228A1 (en) * 2007-01-05 2009-09-16 Microsoft Corporation Directed graph embedding
US7966291B1 (en) * 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US20090024385A1 (en) * 2007-07-16 2009-01-22 Semgine, Gmbh Semantic parser
US20090031224A1 (en) 2007-07-25 2009-01-29 International Business Machines Corporation Method, system, and computer program product for visually associating a static graphic image and html text on a web page
JP2009048351A (ja) * 2007-08-17 2009-03-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法および情報検索プログラム
JP5141152B2 (ja) * 2007-09-20 2013-02-13 富士通株式会社 テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
US20090144262A1 (en) * 2007-12-04 2009-06-04 Microsoft Corporation Search query transformation using direct manipulation
JP5038939B2 (ja) * 2008-03-03 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索システム、方法及びプログラム
US8290975B2 (en) * 2008-03-12 2012-10-16 Microsoft Corporation Graph-based keyword expansion
US20090254799A1 (en) 2008-04-04 2009-10-08 Michael Unger System for creating graphical display from text
JP5226401B2 (ja) * 2008-06-25 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書データの検索を支援する装置及び方法
JP5224953B2 (ja) * 2008-07-17 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法およびプログラム
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
US8095546B1 (en) * 2009-01-09 2012-01-10 Google Inc. Book content item search
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
WO2010130083A1 (en) * 2009-05-12 2010-11-18 Shanghai Hewlett-Packard Co., Ltd Document key phrase extraction method
US8271414B2 (en) * 2009-07-24 2012-09-18 International Business Machines Corporation Network characterization, feature extraction and application to classification
US9026427B2 (en) * 2009-10-30 2015-05-05 Blackberry Limited Method and apparatus for pruning side information including directed edges not possessing shortest expanded length for grammar-based compression
US20110131244A1 (en) * 2009-11-29 2011-06-02 Microsoft Corporation Extraction of certain types of entities

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101697875B1 (ko) 2015-10-30 2017-01-18 아주대학교산학협력단 그래프 모델에 기반하는 문서 분석 방법 및 그 시스템
KR101723770B1 (ko) 2016-02-19 2017-04-06 아주대학교산학협력단 플레이어 매칭 기법에 기반하는 문제 추천 방법 및 그 시스템
KR20180101991A (ko) * 2017-03-06 2018-09-14 가부시끼가이샤 히다치 세이사꾸쇼 발상 지원 장치 및 발상 지원 방법
CN108536720A (zh) * 2017-03-06 2018-09-14 株式会社日立制作所 构思支援装置及构思支援方法

Also Published As

Publication number Publication date
JP5995409B2 (ja) 2016-09-21
KR101790793B1 (ko) 2017-10-26
US8375061B2 (en) 2013-02-12
JP2011258184A (ja) 2011-12-22
US20110302168A1 (en) 2011-12-08

Similar Documents

Publication Publication Date Title
KR20110134314A (ko) 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델
Vijaymeena et al. A survey on similarity measures in text mining
Nagwani Summarizing large text collection using topic modeling and clustering based on MapReduce framework
US9740685B2 (en) Generation of natural language processing model for an information domain
US9621601B2 (en) User collaboration for answer generation in question and answer system
US9471559B2 (en) Deep analysis of natural language questions for question answering system
KR102123974B1 (ko) 유사 특허 검색 서비스 시스템 및 방법
Chen et al. BigGorilla: An open-source ecosystem for data preparation and integration.
US9946763B2 (en) Evaluating passages in a question answering computer system
CN106844341B (zh) 基于人工智能的新闻摘要提取方法及装置
US20160259826A1 (en) Parallelized Hybrid Sparse Matrix Representations for Performing Personalized Content Ranking
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US10325026B2 (en) Recombination techniques for natural language generation
KR20120063442A (ko) 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
US11625537B2 (en) Analysis of theme coverage of documents
US11847415B2 (en) Automated detection of safety signals for pharmacovigilance
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
KR20160120583A (ko) 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
KR102206742B1 (ko) 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치
US20180260476A1 (en) Expert stance classification using computerized text analytics
Rasheed et al. Conversational chatbot system for student support in administrative exam information
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
Ba et al. ServOMap and ServOMap-lt Results for OAEI 2012
Shen SRTK: A Toolkit for Semantic-relevant Subgraph Retrieval
Han et al. Research of the Defect Model Based on Similarity and Association Rule

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant