KR20110134314A

KR20110134314A - 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델

Info

Publication number: KR20110134314A
Application number: KR1020110054634A
Authority: KR
Inventors: 챠루 씨 아가르왈
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2010-06-08
Filing date: 2011-06-07
Publication date: 2011-12-14
Also published as: JP5995409B2; US20110302168A1; JP2011258184A; US8375061B2; KR101790793B1

Abstract

그래픽 모델로 텍스트 문서를 표현하는 방법에서, 복수의 정렬된 단어를 포함하는 문서가 수신되고, 문서에 대한 그래프 데이터 구조가 생성된다. 그래프 데이터 구조는 복수의 노드 및 에지를 포함하고, 각각의 노드는 문서에서의 개별 단어를 나타내며, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해준다. 그래프 데이터 구조는 정보 저장소에 저장된다.

Description

컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델{GRAPHICAL MODELS FOR REPRESENTING TEXT DOCUMENTS FOR COMPUTER ANALYSIS}

본 발명은 텍스트 문서 표현 및 컴퓨터 분석에 관한 것이다.

텍스트 문서로부터 고품질 정보를 도출하기 위해, 클러스터링, 분류, 인덱싱 및 유사성 검색 등의 각종의 텍스트 마이닝 및 관리 알고리즘이 존재한다. 이들 응용의 대부분은 텍스트 표현 및 분석을 위해 벡터-공간 모델(vector-space model)을 사용한다. 벡터-공간 모델은 텍스트 문서를, 예를 들어, 색인어(index term) 등의 식별자의 벡터로서 표현하는 대수 모델(algebraic model)이다. 벡터-공간 모델이 마이닝(mining)을 위한 효과적이고 효율적인 표현이지만, 문서에서의 단어의 순서에 관한 정보를 유지하지 않는다.

본 발명은 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델을 제공하고자 한다.

본 발명의 예시적인 실시예에 따르면, 텍스트 문서를 표현하는 그래픽 모델(graphical model)이 제공된다. 그래픽 모델은 개별 단어들 간의 거리로서 문서를 표현하는 거리 그래프(distance graph)로부터 작성된다. 본 발명에서의 거리 그래프 표현은 기본 데이터의 문장 구조의 측면에서 풍부한 표현을 제공하기 위해 문서에서의 단어의 위치 정보를 보유하고, 마이닝에 효과적이다. 이 표현은, 단어들 간의 거리를 표현하는 능력이 더 낫기 때문에, 벡터-공간 표현보다 효과적이다.

본 발명의 예시적인 실시예는 그래픽 모델로 텍스트 문서를 표현하는 방법 및 컴퓨터 프로그램 제품을 제공한다. 이 방법에서, 복수의 정렬된 단어(ordered word)를 포함하는 문서가 수신될 수 있고, 문서의 그래프 데이터 구조가 생성될 수 있다. 그래프 데이터 구조는 복수의 노드(node) 및 에지(edge)를 포함할 수 있고, 각각의 노드는 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해준다. 그래프 데이터 구조는 정보 저장소(information repository)에 저장될 수 있다.

본 발명에 따라 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델을 제공할 수 있다.

도 1은 본 발명의 예시적인 실시예에 따른 텍스트 단편(text fragment)의 거리 그래프 표현을 나타낸 도면.
도 2는 본 발명의 예시적인 실시예에 따른 거리 그래프 및 거리 그래프의 데이터 구조를 나타낸 도면.
도 3은 본 발명의 예시적인 실시예에 따른 텍스트 단편의 무향 거리 그래프 표현(undirected distance graph representation)을 나타낸 도면.
도 4는 본 발명의 예시적인 실시예를 구현하는 장치를 나타낸 도면.
도 5는 본 발명의 예시적인 실시예에 따른 거리 그래프를 구성하는 프로세스를 나타낸 도면.
도 6은 본 발명의 예시적인 실시예에 따른 마이닝을 위해 거리 그래프를 텍스트 표현으로 변환하는 프로세스를 나타낸 도면.

본 개시 내용에서, 본 발명의 예시적인 실시예에 따른, 텍스트 문서를 표현하는 그래픽 모델이 제시된다. 이후부터, 본 발명의 예시적인 실시예에 따른, 문서에서의 개별 단어들 간의 거리로서 문서를 표현하는 거리 그래프를 정의할 것이다. 본 발명의 그래픽 모델은 그래프 이론의 분야로부터의 개념을 유사하지 않은 텍스트 문서 표현의 분야에 적용함으로써 도출된다. 또한 이 구조적 표현을 사용하는 몇가지 마이닝 및 관리 응용에 대해서도 살펴볼 것이다.

본 발명의 거리 그래프 표현이 효과적인 처리를 가능하게 해주며, 그로부터 문서에서의 텍스트의 고품질 표현이 얻어진다는 것을 보여줄 것이다. 예를 들어, 거리 그래프 표현은 문서에서의 기본 데이터의 거동에 관한 풍부한 정보를 보유할 수 있다. 이 풍부한 수준의 구조적 정보는 손실이 보다 많은 벡터-공간 표현에서 가능하지 않은 응용을 가능하게 해주며, 기존의 응용에서 더 높은 품질의 결과를 제공한다. 또한, 단지 텍스트 문서의 기본 표현을 본 발명의 거리 그래프의 에지의 벡터-공간 표현으로 변경하는 것만으로 본 발명의 구조화된 데이터의 벡터-공간 표현에서 클러스터링 등의 많은 기존의 텍스트 응용이 곧바로 사용될 수 있다는 것도 보여줄 것이다.

이제부터 본 발명의 예시적인 실시예에 따른 거리 그래프 표현의 요약을 제공할 것이다.

거리 그래프는 점들 간의 거리가 1일 때마다 에지에 의해 2개의 점을 연결함으로써 유클리드 평면(Euclidean plane)에서의 점들의 모음으로 형성된 그래프이다. 거리 그래프의 구조적 표현에 의해 거리 그래프가 처리에 효과적인 표현으로 된다. 거리 그래프는 보유된 거리 정보의 레벨에 따라 다양한 차수를 가지는 것으로 정의될 수 있다. 구체적으로는, 차수 k의 거리 그래프는 기본 문서에서 최대 k의 거리에 있는 단어 쌍에 관한 정보를 보유한다. 문서 코퍼스 내의 각각의 단어에 대한 노드와, 한 쌍의 노드 사이의 거리가 특정 수보다 작은 경우, 한 쌍의 노드 사이에 존재하는 에지를 정의하는 구조로서 거리 그래프를 정의한다.

코퍼스 C로부터 도출된 문서 D에 대한 차수 k의 거리 그래프는 그래프 G(C,D,k) = (N(C),A(D,k))로서 정의되고, 여기서 N(C)는 코퍼스 C와 관련하여 정의된 노드의 집합이고, A(D,k)는 문서에서의 에지의 집합이다. 이들 집합은 다음과 같이 정의된다.

집합 N(C)는 전체 문서 코퍼스 C에서의 각각의 개별 단어에 대한 하나의 노드를 포함한다. 코퍼스에서의 대응하는 단어의 인덱스를 표현하기 위해 용어 "노드 i" 및 "단어 i"를 서로 바꾸어 사용할 것이다. 유의할 점은, 코퍼스 C가 다수의 문서를 포함할 수 있고, 대응하는 단어(노드)의 인덱스가 C에서의 상이한 문서의 표현에 걸쳐 그대로 유지된다는 것이다. 노드의 집합은 N(C)로 표시되고, 코퍼스 C의 함수이다.

단어 i가 최대 k개 위치만큼 단어 j보다 앞에 나오는 경우, 집합 A(D,k)는 노드 i로부터 노드 j로의 유향 에지를 포함한다. 예를 들어, 연속적인 단어의 경우, k의 값은 1이다. 에지의 빈도수는 문서에서 단어 i가 최대 k개 위치만큼 단어 j보다 앞에 나오는 횟수이다.

대부분의 텍스트 모음은 전치사, 관사 및 접속사 등 많은 빈번히 나오는 단어를 포함한다. 이들은 불용어(stop-word)라고 한다. 거리 그래프 표현에서, 거리 그래프 구성 이전에 이들 단어가 텍스트로부터 제거되는 것으로 가정한다. 환언하면, 불용어는 그래프에 대한 거리를 계산할 때 카운트되지 않으며, 노드 집합 N(C)에 포함되지 않는다. 이것은 거리 그래프 표현에서 에지의 수를 크게 감소시킨다. 이것은 또한 처리 동안에 더 나은 효율을 가져온다.

본 발명의 예시적인 실시예에 따르면, 잘 알려진 자장가 "Mary had a little lamb"의 거리 그래프 표현이 도 1에 예시되어 있다. 도 1에 도시된 바와 같이, 텍스트 단편(110)이 제공되어 있다. 텍스트 단편(110)은 텍스트 문서의 일부분이다. 텍스트 문서는 뉴스 기사, 웹 페이지, 소셜 네트워크 콘텐츠, 블로그, 출판 문서 또는 임의의 다른 형태의 디지털 텍스트 모음과 같은 임의의 디지털 텍스트 모음 중 하나일 수 있다. 텍스트 문서는 본질적인 단어 순서(word order)를 가진다. 환언하면, 텍스트 문서에서의 문장은 구문 배열로 단어를 포함한다. 이 배열은 마이닝에 유용한 정보이다.

도 1에서, 불용어가 제거되고(120), 나머지 단어(130)에 대해 거리 그래프가 구성된다. 도 1에서의 행 A-C는 정리된 텍스트 표현(pruned text representation)(130)으로부터 구성된 거리 그래프를 나타낸다. 행 A는 0차 유향 거리 그래프를 나타내고, 행 B는 1차 유향 거리 그래프를 나타내며, 행 C는 2차 유향 거리 그래프를 나타낸다. 유향 거리 그래프는, 노드 및 에지를 포함하고 에지들 사이에 방향이 있는 그래프이다.

본 발명의 예시적인 실시예에 따른 거리 그래프(201) 및 그의 데이터 구조(202)가 도 2에 도시되어 있다. 메모리에 저장될 수 있는 거리 그래프(201)의 내부 표현인 데이터 구조(202)는 거리 그래프(201)의 노드 1, 2, 3, 4, 5에 대응하는 리스트 및 거리 그래프(201)의 에지 (1,2), (1,3), (2,3), (2,4), (3,5), (4,5)에 대응하는 리스트를 포함한다. 데이터 구조(202)는 또한 에지 리스트와 일대일 대응관계를 갖는 에지 가중치 리스트 1, 2, 3, 5, 8, 9를 포함한다. 에지 가중치 리스트는 거리 그래프(201)에서의 에지의 빈도수를 포함한다. 에지의 빈도수는 에지의 양측에 있는 노드가 서로로부터 소정의 거리 내에서 몇번 나오는지에 대응한다. 이것은 이하에서의 도 1에 대한 추가의 논의에서 더 명확하게 될 것이다. 본 개시 내용에 기술된 처리를 수행하는 데 데이터 구조(202)로 충분하다.

다시 도 1을 참조하면, 행 A에서의 거리 그래프가 0차 거리 그래프이기 때문에, 이 그래프는 단지 자기 루프(self-loop)(140a-140f)만을 포함한다. 자기 루프는 자체로부터 0의 거리 내에서 단어가 나오는 횟수이다. 예를 들어, 자기 루프(140a)에서, "MARY"가 정리된 표현(130)에서 자체로부터 0(개 단어)의 거리 내에서 2번 나온다는 것을 나타내는 숫자 2가 나타내어져 있고, 자기 루프(140b)에서, "LITTLE"이 정리된 표현(130)에서 자체로부터 0(개 단어)의 거리 내에서 4번 나온다는 것을 나타내는 숫자 4가 나타내어져 있으며, 이하 마찬가지이다. 행 B에서의 자기 루프는 행 A에서의 자기 루프와 동일하다. 행 C에서의 자기 루프는 자기 루프(150b, 150c)를 제외하고 행 A 및 B에 도시된 자기 루프와 동일하다. 이들은 숫자 6으로 표시되어 있는데, 그 이유는 단어 "LITTLE" 및 "LAMB"이 자체로부터 2(개 단어)의 거리 내에서 6번 나오기 때문이다.

도 1에 도시된 바와 같이, 연속적으로 더 높은 차수의 거리 그래프에 대해 에지의 수가 증가한다. 행 A에서의 0차 그래프는 에지를 포함하지 않는다. 행 B에서의 1차 그래프는 에지(160a-160f)를 포함하고, 행 C에서의 2차 그래프는 에지(170a-170j)를 포함한다. 행 B에서의 에지(160a-160f)는 단어가 다른 단어로부터 1의 거리 내에서 몇번 발견되는지(예를 들어, 빈도수)를 나타낸다. 예를 들어, 행 B에 나타낸 바와 같이, "MARY"와 "LITTLE" 사이의 에지는 2로 표시되어 있는데, 그 이유는 "MARY"가 단어 "LITTLE"로부터 1(개 단어)의 거리 내에서 2번 발견되기 때문이다. 그에 부가하여, 행 B에서의 에지(160f)는 2로 표시되어 있는데, 그 이유는 단어 "LAMB"이 단어 "LITTLE" 사이에 2번 끼여 있기 때문이다.

행 C에서의 에지(170a-170j)는 단어가 다른 단어로부터 2의 거리 내에서 몇번 발견되는지를 나타낸다. 예를 들어, "LITTLE"은 2의 거리 내에서 "LAMB" 이후에 최대 2번 나온다. 따라서, 에지(170a)는 2로 표시되어 있다. 이와 유사하게, "LAMB"은 2의 거리 내에서 "MARY" 이후에 최대 2번 나온다. 그에 대응하여, 에지(170b)도 역시 2로 표시되어 있다.

도 1에 도시된 바와 같이, 행 C의 2차 거리 그래프에서의 자기 루프의 값은 행 A의 0차 거리 그래프 및 행 B의 1차 거리 그래프보다 크다. 이러한 이유는 "LITTLE" 및 "LAMB"과 같은 반복적인 단어가 서로로부터 교대로 있는 위치에 나오기 때문이다. 이러한 반복은 행 A의 0차 거리 그래프 및 행 B의 1차 거리 그래프의 자기 루프의 값을 변경하지 않고 행 C의 2차 거리 그래프, 따라서 자기 루프(150b, 150c)에 영향을 미친다.

도 1에서의 각각의 노드는 원래의 거리 그래프에서의 실제 텍스트 단어에 대응하는 라벨을 가지고 있다. 이들 라벨은 상이한 문서에서의 거리 그래프를 서로 관련시키는 데 유용할 수 있다.

수집될 수 있기 때문에, 보다 높은 차수의 거리 그래프가 보다 낮은 차수의 거리 그래프보다 더 풍부하지만, 5차 또는 10차보다 더 높은 차수의 경우 이것이 꼭 그러한 것은 아니다. 예를 들어, 문서에서의 개별 단어의 수보다 큰 차수를 갖는 거리 그래프는 완전한 무리(complete clique)가 될 것이다. 명확하게도, 이것이 꼭 유용한 정보를 인코딩하는 것은 아니다. 한편, 0차의 거리 그래프도 역시 그다지 유용한 정보를 인코딩하지 않는다. 상이한 차수의 거리 그래프의 상대적 거동을 검사할 때, 낮은 차수의 거리 그래프가 더 효과적인 것으로 밝혀졌다.

데이터베이스 관점에서 볼 때, 거리 그래프는 XML로 표현될 수 있으며, 노드 상의 속성 라벨은 단어 식별자에 대응하고, 에지 상의 라벨은 에지의 빈도수에 대응한다. 이러한 표현은 이러한 반구조화된 데이터(semi-structured data)에 대한 데이터 관리 및 마이닝 기법이 이미 존재한다는 점에서 유용하다. 따라서, 이 표현은 이들 응용(예를 들어, 클러스터링, 분류, 및 유사성 검색)에 곧바로 사용될 수 있다. 나중에, 클러스터링, 분류 및 빈번한 패턴 마이닝 등의 일부 통상적인 텍스트 응용이 본 발명의 거리 그래프 표현에서 어떻게 사용될 수 있는지에 대해 설명할 것이다.

앞서 언급한 바와 같이, 도 1에서의 행 A-C의 거리 그래프는 각각이 그래프에서의 단어의 순서를 고려하는 유향 그래프(directed graph)이다. 그렇지만, 일부 응용에서, 거리 그래프 표현에서 어떤 유연성을 허용하기 위해 순서를 약간 완화시키는 것이 유용할지도 모른다. 이것을 하기 위해, 무향 그래프(undirected graph)가 사용될 수 있다. 무향 그래프는 사용될 수 있는 응용의 수의 많은 변동을 가능하게 해주는데, 그 이유는 마이닝 응용에서 (유향 그래프와 비교하여) 처리하기가 더 간단하기 때문이다. 유향 그래프와 무향 그래프 간의 주된 차이점은 무향 그래프에서의 에지가 방향이 없다는 것이다.

도 3은 본 발명의 예시적인 실시예에 따른 텍스트 단편의 무향 거리 그래프 표현을 나타낸 것이다. 보다 구체적으로는, 도 3의 무향 거리 그래프(301)는 도 1의 행 C에서의 2차 거리 그래프에 대응한다. 유향 에지(directed edge)[도 1에서 화살표를 가지는 에지(170a-170j) 전부]를 동일한 빈도수의 무향 에지(undirected edge)(370a-370i)(화살표가 없음)로 대체함으로써 무향 거리 그래프(301)가 도 1의 행 C에서의 2차 유향 거리 그래프로부터 도출될 수 있다는 것이 명백하다. 에지가 양쪽 방향으로 존재하는 경우에, 양방향 에지의 빈도수를 가산함으로써 대응하는 무향 에지의 빈도수를 도출할 수 있다. 예를 들어, 도 3에서의 무향 에지(370d)의 빈도수는 도 1에서의 유향 에지(170c, 170d)의 빈도수의 합이다. 알 수 있는 바와 같이, 무향 표현은 순서에 관한 일부 정보를 상실하지만, 거리에 관한 정보를 보유하고 있다. 상이한 언어가 주어진 텍스트 단편에 대한 동일한 단어 번역을 표현하지만 순서가 상이한 경우에, 무향 거리 그래프 표현이 사용될 수 있다.

본 발명의 예시적인 실시예에 대해 이제부터 도 4의 장치(401)를 참조하여 기술할 것이다. 컴퓨터일 수 있는 장치(401)는 메모리(402), 디스크(403), 및 프로세서[CPU(central processing unit)(404) 등]를 포함한다.

"프로세서"라는 용어가, 본 명세서에서 사용되는 바와 같이, 임의의 처리 장치(예를 들어, CPU 및/또는 다른 형태의 처리 회로를 포함하는 처리 장치 등)를 포함하기 위한 것임을 잘 알 것이다. 게다가, "프로세서"라는 용어는 2개 이상의 개별 프로세서를 말할 수 있다. "메모리" 라는 용어는 프로세서 또는 CPU와 연관된 메모리[예를 들어, RAM, ROM, 고정 메모리 장치(예를 들어, 하드 드라이브), 이동식 메모리 장치(예를 들어, 디스켓), 플래시 메모리, 기타 등등]를 포함하기 위한 것이다. 그에 부가하여, "입력 및/또는 출력 인터페이스"라는 문구는, 본 명세서에서 사용되는 바와 같이, 예를 들어, 처리 장치에 데이터를 입력하는 하나 이상의 메커니즘(예를 들어, 마우스) 및 처리 장치와 연관된 결과를 제공하는 하나 이상의 메커니즘(예를 들어, 프린터)을 포함하기 위한 것이다.

도 4에 도시된 바와 같이, 장치(401)가 입력 데이터를 통해 입력 텍스트 데이터를 수신할 때, 이 데이터가 디스크(403) 상에 저장될 수 있다. 입력 텍스트 데이터는 처리를 위해 이용되는 임의의 문서 모음으로부터 온 것일 수 있다. 예를 들어, 도 1 내지 도 3을 참조하여 전술한 방식으로 입력 텍스트 데이터의 거리 그래프 표현을 생성하기 위해 입력 텍스트 데이터가 CPU(404)에서 처리된다. 거리 그래프 생성 동안의 중간 계산이 메모리(402)에 저장될 수 있다. 거리 그래프 표현이 장치(401)의 출력 인터페이스를 통해 정보 저장소(405)에 출력된다. 정보 저장소(405)는 문서의 상이한 표현이 저장되는 디스크 저장 장치의 형태일 수 있다. 거리 그래프 표현은 장래의 처리를 위해 어떤 종류의 데이터베이스에라도 저장될 수 있다.

그래프의 텍스트 분석을 수행하기 위해, 정보 저장소(405)에서 거리 그래프 표현이 장치(401) 또는 다른 컴퓨팅 장치에 의해 액세스될 수 있다. 특정의 응용에 대한 분석 결과를 결정하기 위해 거리 그래프 표현이 이어서 분석될 수 있다. 예를 들어, 정보 저장소(405)에 있는 임의의 문서에서 특정의 문장 단편(sentence fragment)이 나오는지를 판정하기 위해, 먼저 쿼리 단편(query fragment)에 대한 거리 그래프 표현을 구성하고, 이어서 정보 저장소(405)에 있는 임의의 거리 그래프 표현에 쿼리 그래프(query graph)가 존재하는지를 판정하기 위해 정보 저장소(405)를 검색한다. 일부 실시예에서, 텍스트 분석(410)을 수행하라는 요청(사용자로부터 입력되는 검색 요청 등)이 장치(401)에 입력될 수 있다. 일부 실시예에서, 요청에 대한 응답(420)이 장치(401)로 출력된다.

도 5는 본 발명의 예시적인 실시예에 따른 거리 그래프 표현을 생성하는 프로세스를 나타낸 것이다. 거리 그래프 생성 프로세스는 다음과 같은 3가지 종류의 엔터티를 결정하는 것을 포함한다: (i) 노드, (ii) 에지 및 (iii) 에지들 사이의 빈도수. 거리 그래프는 어휘 내의 각각의 개별 단어에 대해 하나의 노드를 포함한다. 501에서, 도 1에 도시된 단어 등의 정렬된 단어의 코퍼스를 포함하는 문서가 수신된다. 그 다음에, 문서에 대해 그래프 데이터 구조가 생성되고, 그래프 데이터 구조는 노드 및 에지를 포함하며, 각각의 노드는 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해준다. 일부 실시예에서, 소정의 거리는 그래프 데이터 구조의 차수 값에 기초하고, 일부 실시예에서, 에지는 유향 에지 또는 무향 에지이다. 따라서, 제1 단계는 코퍼스 내의 모든 개별 단어를 판정하는 것이다. 단계(510)에서, 이들 개별 단어가 노드로서 표현된다. 단계(520)에서, 단어들 간의 거리에 기초하여 노드들 간의 에지를 생성한다. 차수 k의 거리 그래프에 대해, 모든 단어 쌍 간의 에지를 생성하고, 단어들 간의 거리가 최대 k이다. 주목할 점은, 단계(520)가 유향 그래프가 필요한지 무향 그래프가 필요한지에 따라 다르게 구현될 수 있다는 것이다. 단계(530)에서, 이들 에지의 빈도수를 결정한다. 이들 에지의 빈도수는 거리 그래프 표현에서 최대 k의 거리에 에지가 나올 수 있는 횟수에 의해 결정된다. 이 프로세스의 결과는 도 1 및 도 3에 도시된 거리 그래프들 중 하나일 수 있다.

그 다음에, 540에서, 그래프 데이터 구조가 정보 저장소(도 4의 405 등)에 저장된다. 550에서, 문서 내의 단어들에 대한 검색과 같은 문서에 대해 텍스트 분석을 수행하라는 요청(예를 들어, 도 4의 410)이 있다. 560에서, 그래프 데이터 구조에 대해 텍스트 분석이 수행되고, 요청에 응답하는 결과(예를 들어, 도 4의 420)가 제공된다. 일부 실시예에서, 문서를 수신한 후 그래프 데이터 구조를 생성하기 전에, 이 방법은 문서로부터 불용어를 정리(pruning)하는 단계를 추가로 포함하며, 여기서 정리된 문서로부터 그래프 데이터 구조가 생성된다.

도 6은 본 발명의 예시적인 실시예에 따른 거리 그래프 표현이 마이닝에 사용되는 프로세스를 나타낸 것이다. 먼저, 601에서, 복수의 단어를 포함하는 문서가 수신되고, 605에서, 거리 그래프가 생성되며, 이에 대해서는 앞서 논의하였다. 마이닝 알고리즘과 관련하여 본 발명의 거리 그래프 표현을 사용하기 위해, 도 6에 도시된 바와 같이, 먼저 거리 그래프를 벡터-공간 표현으로 변환한다(610). 이것을 시각화하기 위해, 도 1의 행 B에서의 1차 거리 그래프를 생각해보자. 이 경우에, 각각의 에지에 대한 새로운 의사-단어(pseudo-word)를 생성하고, 에지에 가중치를 할당한다. 의사-단어는 에지의 시작과 끝에 있는 단어들의 연결이며, 가중치는 에지의 빈도수이다. 예를 들어, "MARY"부터 "LITTLE"까지의 에지가 가중치 2를 가지는 반면, "LITTLE"부터 "LAMB"까지의 에지는 가중치 4를 가진다. 따라서, 가중치 2를 갖는 새로운 단어 "MARY-LITTLE" 및 가중치 4를 갖는 새로운 단어 "LITTLE-LAMB"를 생성한다. 얻어진 벡터-공간 표현은 새로운 단어의 대응하는 가중치 빈도수를 갖는 새로운 단어의 리스트이다.

단계(620)에서, 텍스트 관리 및 마이닝 알고리즘이 수정된 벡터-공간 표현에 곧바로 적용될 수 있다. 이러한 응용의 일례가 유사성 검색 응용일 것이다. 이 응용에서, 본 발명의 수정된 벡터-공간 표현을 사용하여 2개의 그래프 사이에 공통인 에지의 수를 검사함으로써 2개의 문서의 유사성을 계산할 수 있다. 이러한 접근 방식은 순전히 표준의 벡터-공간 표현에 기초한 표준의 유사성 검색보다 우수한 결과를 산출할 것이다. 630에서, 예를 들어, 요청에 응답하여, 마이닝의 결과가 출력된다.

당업자라면 잘 알 것인 바와 같이, 본 발명의 측면들이 시스템, 방법, 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 발명의 측면들은, 전적으로 하드웨어인 실시예, 전적으로 소프트웨어인 실시예(펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함함), 또는 소프트웨어와 하드웨어 측면들을 겸비한 실시예(이들 모두가 일반적으로 본 명세서에서 “회로”, “모듈” 또는 “시스템”으로서 지칭될 수 있음)의 형태를 취할 수 있다. 게다가, 본 발명의 측면들이 컴퓨터 판독가능 프로그램 코드가 구현되어 있는 하나 이상의 컴퓨터-판독가능 매체(들)에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.

하나 이상의 컴퓨터-판독가능 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터-판독가능 매체는 컴퓨터-판독가능 신호 매체 또는 컴퓨터-판독가능 저장 매체일 수 있다. 컴퓨터-판독가능 저장 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 소자 또는 이들의 임의의 적당한 조합일 수 있지만, 이들로 제한되지 않는다. 보다 구체적인 컴퓨터-판독가능 저장 매체의 일례(비전수적인 목록임)로는, 하나 이상의 전선을 갖는 전기적 연결, 휴대형 컴퓨터 디스켓(portable computer diskette), 하드 디스크, RAM, ROM, 소거가능 프로그램가능 판독 전용 메모리(EPROM, 또는 플래시 메모리), 광섬유, 휴대형 CD-ROM(compact disc read-only memory), 광 저장 장치, 자기 저장 장치, 또는 이들의 임의의 적당한 조합이 있을 것이다. 본 문서와 관련하여, 컴퓨터-판독가능 저장 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형의 매체(tangible medium)라면 어느 것이라도 될 수 있다.

컴퓨터-판독가능 신호 매체는 컴퓨터-판독가능 프로그램 코드가 구현되어 있는 전파 데이터 신호(propagated data signal)(예를 들어, 기저대역 내에 있거나 반송파의 일부로서 있음)를 포함할 수 있다. 이러한 전파 신호는 전자기, 광학 또는 이들의 임의의 적합한 조합(이들로 제한되지 않음)을 포함하는 다양한 형태들 중 임의의 형태를 취할 수 있다. 컴퓨터-판독가능 신호 매체는, 컴퓨터-판독가능 저장 매체는 아니지만, 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 프로그램을 전달, 전파 또는 전송할 수 있는 임의의 컴퓨터-판독가능 매체일 수 있다.

컴퓨터-판독가능 매체 상에 구현된 프로그램 코드는 무선, 유선, 광섬유 케이블, RF, 기타 또는 이들의 임의의 적합한 조합(이들로 제한되지 않음)을 포함하는 임의의 적합한 매체를 사용하여 전송될 수 있다.

본 발명의 측면들에 대한 동작들을 수행하는 컴퓨터 프로그램 코드는, Java, Smalltalk, C++, 기타 등등과 같은 개체 지향 프로그래밍 언어 및 “C” 프로그램 언어 또는 유사한 프로그램 언어들과 같은 종래의 절차형 프로그래밍 언어들을 포함하는 하나 이상의 프로그램 언어들의 임의의 조합으로 작성될 수 있다. 프로그램 코드는, 전체가 사용자의 컴퓨터에서, 일부가 사용자의 컴퓨터에서, 독립적인 소프트웨어 패키지로서, 일부는 사용자의 컴퓨터에서 일부는 원격 컴퓨터에서, 또는 전체가 원격 컴퓨터 또는 서버에서 실행될 수 있다. 후자의 시나리오에서, 원격 컴퓨터는 LAN(local area network) 또는 WAN(wide area network)을 포함하는 임의의 유형의 네트워크를 통해 사용자의 컴퓨터에 연결될 수 있거나, 그 연결이 (예를 들어, 인터넷 서비스 공급자를 이용하여 인터넷을 통해) 외부 컴퓨터로 이어질 수 있다.

본 발명의 측면들이, 예를 들어, 본 발명의 실시예들에 따른 방법, 장치(시스템), 및 컴퓨터 프로그램 제품의 플로우차트 예시 및/또는 블록도를 참조하여 기술되어 있다. 플로우차트 예시 및/또는 블록도의 각각의 블록과, 플로우차트 예시 및/또는 블록도의 블록들의 조합이 컴퓨터 프로그램 명령들에 의해 구현될 수 있다는 것을 잘 알 것이다. 컴퓨터 또는 기타 프로그램가능 데이터 처리 장치의 프로세서를 통해 실행되는 명령들이 플로우차트 및/또는 블록도 블록 또는 블록들에서 명시된 기능들/동작들을 구현하는 수단을 생성하도록 하는 머신(machine)을 생성하기 위해, 이러한 컴퓨터 프로그램 명령들이 범용 컴퓨터, 전용 컴퓨터, 또는 기타 프로그램가능 데이터 처리 장치의 프로세서에게 제공될 수 있다.

컴퓨터-판독가능 매체에 저장된 명령들이 플로우차트 및/또는 블록도 블록 또는 블록들에서 명시된 기능/동작을 구현하는 명령들을 포함하는 제조 물품을 생성하도록, 컴퓨터, 기타 프로그램가능 데이터 처리 장치, 또는 기타 디바이스들에게 특정한 방식으로 기능하도록 지시할 수 있는 이러한 컴퓨터 프로그램 명령들이 또한 컴퓨터-판독가능 매체에 저장될 수 있다.

컴퓨터 또는 기타 프로그램가능 장치 상에서 실행되는 명령들이 플로우차트 및/또는 블록도 블록 또는 블록들에 명시된 기능/동작을 구현하는 프로세스를 제공하도록 하는 컴퓨터-구현 프로세스를 생성하기 위해, 컴퓨터 프로그램 명령들은 또한 컴퓨터, 기타 프로그램가능 장치 또는 기타 디바이스 상에서 일련의 동작 단계들이 수행되게 하기 위해 컴퓨터, 기타 프로그램가능 데이터 처리 장치 또는 기타 소자에 로드될 수 있다.

도면에서의 플로우차트와 블록도는 본 발명의 다양한 실시예들에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현들의 아키텍처, 기능 및 동작을 예시하고 있다. 이와 관련하여, 플로우차트 또는 블록도에서 각각의 블록은 명시된 논리적 기능(들)을 구현하는 하나 이상의 실행가능 명령들을 포함하는 코드 모듈, 코드 세그먼트 또는 코드 부분을 나타낼 수 있다. 또한, 몇몇 대안의 구현들에서, 블록에 표시된 기능들이 도면에서 표시된 순서와 다르게 일어날 수 있음에 주목해야 한다. 예를 들어, 관여된 기능에 따라, 연속하여 도시된 2개의 블록이 실제로는 거의 동시에 실행될 수 있거나, 그 블록들이 때때로 정반대의 순서로 실행될 수 있다. 또한, 유의할 점은, 블록도 및/또는 플로우차트 예시의 각각의 블록 및 블록도 및/또는 플로우차트 예시에서의 블록들의 조합들이 명시된 기능들 또는 동작들을 수행하는 전용 하드웨어-기반 컴퓨터 시스템들 또는 전용 하드웨어와 컴퓨터 명령들의 조합들에 의해 구현될 수 있다는 것이다.

본 명세서에서 사용된 용어들은 단지 특정의 실시예들을 설명하기 위한 것이며 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용되는 바와 같이, 단수 형태 "어떤", "한" 및 "그"는, 문맥이 명확하게 다른 것을 말하지 않는 한, 복수 형태를 포함하는 것으로 보아야 한다. 또한, 용어 "포함한다" 및/또는 "포함하는"이 본 명세서에서 사용될 때 언급한 특징, 정수, 단계, 동작, 요소, 및/또는 구성요소가 존재함을 명시하는 것이고 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는다는 것을 잘 알 것이다.

이하의 청구항에 있는 모든 수단 또는 단계+기능(step plus function) 요소들의 대응하는 구조, 재료, 동작 및 등가물은 구체적으로 청구되는 다른 청구된 요소들과 관련하여 기능을 수행하는 모든 구조, 재료, 또는 동작을 포함하는 것으로 보아야 한다. 본 발명의 설명은 예시와 설명을 위해 제공되었으며, 전수적이거나 개시된 형태의 발명으로 제한되는 것으로 보아서는 안된다. 발명의 범위 및 사상을 벗어나지 않고 많은 수정 및 변형이 당업자들에게는 명백할 것이다. 본 발명의 원리들 및 실제 응용들을 가장 잘 설명하여, 당업자가 생각되는 특정의 용도에 적합한 다양한 수정들을 갖는 다양한 실시예들에 대해 본 발명을 이해할 수 있게 해주기 위해 이들 실시예가 선택되어 기술되었다.

Claims

복수의 정렬된 단어를 포함하는 문서를 수신하고,
상기 문서에 대해 그래프 데이터 구조를 생성하고 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 -,
상기 그래프 데이터 구조를 정보 저장소에 저장하고,
상기 문서에 대해 텍스트 분석을 수행하라는 요청을 수신하고,
상기 그래프 데이터 구조에 대해 텍스트 분석을 수행하고 상기 요청에 응답하는 결과를 제공하는 것을 포함하는 방법.
제1항에 있어서, 상기 소정의 거리는 상기 그래프 데이터 구조의 차수(order) 값에 기초하는 것인 방법.
제1항에 있어서, 에지가 유향(directed) 에지 또는 무향(undirected) 에지인 것인 방법.
제1항에 있어서, 상기 문서를 수신한 후 상기 그래프 데이터 구조를 생성하기 전에, 상기 방법은 상기 문서로부터 불용어(stop word)를 정리(pruning)하는 것을 더 포함하며, 상기 정리된 문서로부터 상기 그래프 데이터 구조가 생성되는 것인 방법.
제1항에 있어서, 상기 텍스트 분석은 텍스트 검색인 것인 방법.
복수의 단어를 포함하는 문서의 그래프 데이터 구조를 수신하고 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 -,
상기 그래프 데이터 구조에서의 각각의 에지에 고유의 토큰을 할당함으로써 상기 문서의 벡터-공간 표현을 구성하고 - 각각의 에지에 대해, 상기 토큰의 빈도수는 상기 2개의 노드가 서로로부터 상기 소정의 거리에서 나오는 횟수와 동등하고, 상기 벡터-공간 표현은 상기 토큰을 포함함 -,
상기 벡터-공간 표현을 출력하는 것을 포함하는 방법.
제6항에 있어서, 토큰이 의사-단어(pseudo-word)를 포함하는 것인 방법.
제6항에 있어서,
상기 문서에 대해 텍스트 분석을 수행하라는 요청을 수신하고,
상기 요청에 응답하는 결과를 획득하기 위해 상기 벡터-공간 표현에 대해 텍스트 분석을 수행하는 것을 더 포함하는 방법.
컴퓨터 프로그램 제품으로서,
컴퓨터 판독가능 프로그램 코드가 구현되어 있는 컴퓨터 판독가능 저장 매체를 포함하고,
상기 컴퓨터 판독가능 프로그램 코드는,
복수의 정렬된 단어를 포함하는 문서를 수신하도록 구성된 컴퓨터 판독가능 프로그램 코드, 및
상기 문서에 대해 그래프 데이터 구조를 생성하도록 구성된 컴퓨터 판독가능 프로그램 코드 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 - 를 포함하는 것인 컴퓨터 프로그램 제품.
컴퓨터 프로그램 제품으로서,
컴퓨터 판독가능 프로그램 코드가 구현되어 있는 컴퓨터 판독가능 저장 매체를 포함하고,
상기 컴퓨터 판독가능 프로그램 코드는,
복수의 단어를 포함하는 문서의 그래프 데이터 구조를 수신하도록 구성된 컴퓨터 판독가능 프로그램 코드 - 상기 그래프 데이터 구조는 복수의 노드 및 에지를 포함하며, 각각의 노드는 상기 문서에서의 개별 단어를 나타내고, 각각의 에지는 2개의 노드가 서로로부터 소정의 거리 내에서 나오는 횟수를 식별해줌 -, 및
상기 그래프 데이터 구조에서의 각각의 에지에 고유의 토큰을 할당함으로써 상기 문서의 벡터-공간 표현을 구성하도록 구성된 컴퓨터 판독가능 프로그램 코드 - 각각의 에지에 대해, 상기 토큰의 빈도수는 상기 2개의 노드가 서로로부터 상기 소정의 거리에서 나오는 횟수와 동등하고, 상기 벡터-공간 표현은 상기 토큰을 포함함 - 를 포함하는 것인 컴퓨터 프로그램 제품.