KR101174184B1

KR101174184B1 - 통계에 의한 시소러스 데이터베이스 구축 방법 및 시소러스 데이터 구축 시스템

Info

Publication number: KR101174184B1
Application number: KR1020090006301A
Authority: KR
Inventors: 이창규; 강창수
Original assignee: 강창수; 이창규
Priority date: 2009-01-23
Filing date: 2009-01-23
Publication date: 2012-08-20
Also published as: KR20100086860A

Abstract

본 발명은 통계적 방법으로 시소러스 데이터를 구축하는 방법 및 시소러스 데이터 구축 시스템에 관한 것이다.

본 발명은 정보 검색 수행자가 입력하는 검색식으로부터 키워드가 되는 단어의 유사도를 추출하고, 이를 토대로 원하는 형태로 유사어를 출력/저장하는 방법을 포함한다.

본 발명은 정보 검색 수행자가 입력하는 검색식으로부터 키워드에 해당하는 단어들을 추출하고, 유사어군으로 분리하는 단계, 모든 단어를 정점(Vertex)으로 하고, 단어 관계를 간선(Edge)으로 하는 그래프(Graph)를 생성하는 단계, 각 단어별 트리(Tree)를 생성하는 단계, 의미별 카테고리로 분리하는 단계를 포함한다.

보다 상세하게는 입력되는 검색식에서 AND, OR, NOT 논리 연산자를 기준으로 나누고 OR 논리식은 유사어로 연결되어 있음에 착안하여 각 단어들의 유사도를 추출하여 원래의 Graph구조를 복원한다. 또한, 각 정점을 루트로 하는 트리를 재구성하여 원하는 형식으로 출력 또는 저장하는 것을 특징으로 한다.

키워드, 시소러스, 사전, 통계

Description

통계에 의한 시소러스 데이터베이스 구축 방법 및 시소러스 데이터 구축 시스템{Method and System on Deriving Thesaurus Database from Statistics}

도 1 은 Graph 구조인 단어의 관계를 나타낸 것이다.

도 2 는 단어의 포함관계 분류 기준의 불명확성을 도식적으로 나타낸 것이다.

도 3 은 입력되는 쿼리식에서 유사어군을 추출하는 과정 및 사용된 통계를 이용하여 Graph 노드로 활용하는 과정이다.

도 4 는 Graph에서 트리를 구성하는 과정이다.

도 5 는 트리에서 카테고리 모양의 출력 형식으로 그룹을 분리하는 과정이다.

특허정보와 같은 특정된 검색 시스템에 특화된 시소러스 DB를 구축하는 것은 일반 사전DB처럼 사람의 손으로 수정하고 갱신함으로써 쌓아온 노하우도 부족하며, 수작업으로 시소러스(Thesaurus) DB를 구축하는 것은 투자 인력, 시간 등을 고려할 때, 상당히 많은 비용을 요구한다. 사람의 주관에 의해 이루어지는 작업이므로 그 결과 또한 만족스럽지 못하다.

대부분의 시소러스(Thesaurus) DB는 계층적으로 상위 카테고리(Category)에서 하위 카테고리(Category)로 분류하여 나아가는 형태로 구성되어 있다. 그러나 이론적으로 볼 때, 시소러스 단어 데이터의 구조를 살펴보면, [도 1]과 같이 단어를 정점(Vertex)으로 하고, 단어간 관계를 에지(Egde)로 하는 그래프(Graph) 구조임을 알 수 있다. 또한 이러한 관계를 정확하게 계산해 내는 것은 NP(Nondeterministic Polynomial Time Problem)문제이다. 즉, 모든 단어들을 몇개의 단어군으로 나누어야 하며, 어느 단어군에 소속시키는 것이 옳으며, "동음이의어, 다의어 등을 어떻게 처리할 것인가", "시대에 따라 달라지는 어휘 사용의 변화를 어떻게 처리할 것인가"하는 문제는 그 해결이 쉽지 않다[도 2].

공개특허 2001-0056963, "시소러스 자동구축 및 자동검색 방법"은 수작업에 의해 용어들의 계층을 미리 정의하거나 결정하지 않고 무게중심을 이용하여 자동으로 용어들의 계층을 형성할 수 있는 시소러스 구축 방법을 게시하고 있다. 그러나, 방법이 다소 복잡하며, 그래프 구조인 데이터 전체를 계층화하기 때문에 경우에 따라 상대적인 단어 대 단어 관계가 정확하다는 보장을 하지 못한다. 또한 등록특허 10-0286501, "래티스를 키로 하여 검색을 행하는 사전 검색 장치 및 방법"에서는 인식 결과의 각 후보 문자를 데이타 노드로 하고, 그것들을 제어 노드로 접속하여 문자 래티스를 구성하고, 복합키내의 데이타 노드를 더듬어가면서 트라이 사전의 대응하는 기록을 검색하는 것을 특징으로 한다. 이 방법은 단어 자체의 개념적인 유사성보다는 단어 음절의 배열 또는 단어의 배열을 통한 합성어와 관련된 검색에 용이하다.

본 발명이 이루고자 하는 기술적 과제는 통계적 방법으로 시소러스 데이터를 구축하는 방법 및 시소러스 데이터 구축 시스템을 제시하는 것이다.
NP문제를 근본적으로 해결하는 것은 거의 불가능하므로, 각 정점(Vertex)에 대해 주변 유사도가 높은 단어들을 중심으로 일일이 개별 트리를 구성한다. 검색식에 대해 통계 연산을 하고 자동적으로 검색식의 생성을 도울 수 있는 시소러스 DB를 갱신해 나감으로써 정확하고 자동화된 DB를 구축하는 것이다. 다행히 인간이 사용하는, 한 단어에 대한 유사어로 사용할 만한 단어는 그리 많지 않기 때문에 전체 그래프의 연산은 피할 수 있는 것이다.

상기 목적을 달성하기 위해 본 발명은, 정보 검색 수행자가 입력하는 검색식으로부터 유사어군으로 분리하는 단계와, 모든 단어를 Vertex로 하고, 단어 관계를 Edge로 하는 Graph를 생성하는 단계와, 각 단어별 Tree를 생성하는 단계, 의미별 카테고리로 분리하는 단계를 포함하는 것을 특징으로 한다.

[도 3]에서, 상기 검색식으로부터 유사어군으로 분리하는 단계는, 먼저 단어의 사용과 관련없는 단어, 오류단어를 제거한다. 입력되는 쿼리에서 날짜제한 조건 문자열, 와일드카드 문자, 필드제한 문자열 등 필요없는 데이터이므로 오류문자와 함께 제거한다. 이렇게 필요한 부분의 문자열만 놓고 보면, OR 논리식으로 묶인 단어들은 유사성을 가지고 있음을 알 수 있다. 물론 사전적인 의미에서는 다르더라도 "검색"이라는 이슈만을 가지고 판단한다면 최소한 다음 검색에서 OR 논리로 묶여 같이 검색될 확률이 높음은 확실하다. 따라서, OR 논리식으로 연결된 단어들은 유 사어로 간주한다. 반면, NOT, AND 연산자 및 근접성 연산자(Proximity Operators), 필드연산자 등의 연산자들로 연결된 부분의 전/후 단어는 유사성이 없으므로 다른 유사어군으로 나누는 기준으로 잡는다. 단, 단어와 인접하여 사용되는 전/후방 절단자나 와일드카드와 같은 경우는 인접하여 나열된 다른 단어와의 관계와 무관하므로 나누는 기준에서 제외하는 것이 바람직하다. 이렇게 단어 간 연산자들을 이용하여 유사어군들을 추출한다.

상기 추출된 유사어군들로부터 단어의 구조인 Graph를 구성한다. 어떻게 보면 Weight=0인 Edge들을 무수히 많이 포함하는 Complete Graph라고 할 수 있다. 단어들은 각각 Vertex로 하고, 단어 간의 유사성은 Edge가 된다. 따라서, Graph 구조는 Vertex 정보와 Edge 정보로 구성된다. Vertex 정보의 Schema는 단어 문자열과 해당 단어가 출현한 횟수(출현수)를 포함한다. Edge 정보의 Schema는 두 개의 단어 문자열(시점단어, 종점단어)과 두 단어가 동시에 출현하여 하나의 유사어군 내에서 만난 횟수(동시출현수; 유사도) 정보를 포함한다.

Vertex 정보와 Edge 정보를 추출하는 방법은 다음과 같다. 상기 얻어진 유사어군들을 반복적으로 읽어 들인다. 하나의 유사어군을 읽으면서 유사어군에 출현한 단어들에 해당하는 Vertex 정보의 출현수를 1씩 증가함으로써 Vertex 정보를 업데이트하며, 각각의 단어들을 두개씩 짝을 지어 Cartesian 조합을 하여 각 두 단어 조합마다 해당되는 시점단어와 종점단어에 일치하는 Edge 정보의 유사도(동시출현수)를 1씩 증가함으로써 Edge 정보를 업데이트한다. 하나의 유사어군이 N개의 단어 를 가지고 있다면 N회의 출현수 증가연산과 _nP₂ 회의 유사도 증가연산을 수행한다. 그런데, 유사도 증가연산은 유사어군 U의 임의의 두 단어 w1, w2에 대해 두번씩 연산을 한다. 이렇게 하지 않고, w1, w2가 각각 시점단어, 종점단어인 경우와 각각 종점단어, 시점단어인 경우 두 가지를 하나로 연산하여 유사도 증가연산을 _nC₂ 회 수행하도록 할 수 있다. 이렇게 하면, 연산 수도 줄이고 데이터 또한 줄일 수 있다. 또한 시점단어와 종점단어가 같은 단어인 경우는 연산을 하지 않음으로써 연산수를 줄일 수도 있다. 이러한 사항들은 시스템 개발시 정책적으로 선택할 수 있는 내용들이지만 이용적 측면, 관리적 측면에서 상기 모든 경우에 대해 연산을 수행하는 것이 효과적이다.

상기 생성된 Graph 구조는 원래의 단어 관계로 통계 데이터를 이용해 복원한 구조이나, 실제로 검색하고, 보여주기에는 상당히 까다롭다. 본 발명은 Graph 구조를 단어 관계 또는 그러한 사용상의 특수한 점을 이용하여 극복하는 방법을 제공한다. 이하 비선형 데이터 구조인 Graph 구조를 선형화하는 방법이 게시된다.

[도 4]에서, Graph의 무수히 많은 Vertex들은 다른 Vertex와 무수히 많은 Edge를 형성할 수도 있다. 또한, 어떤 Vertex에서 어떤 Vertex로 순회할지 알 수 없다. 그러나, 유사 단어 구조의 Edge는 유사성이 있어야만 형성되며, 한 단어와 유사성이 있는 단어는 한정되어 있다. 또한 사람이 유사어를 사용할 때, 그 한정된 단어(인접한 단어)만 사용되므로, 유사어를 이용하는데 필요한 연산도 한정되어 있다. 그러므로, 이 한정된 단어로 이루어진 작은 Graph 구조에서 먼저 Tree를 구성 한다. Graph 구조를 Tree 구조로 만들기 위해서 Graph 구조의 Cycle 부분을 없애야 한다. Edge 정보를 유사도 순으로 정렬하고, 차례로 읽어들인다. 하나의 Edge 정보를 읽어 들일 때, Edge의 양쪽 Vertex 모두 신규한 단어라면 새로운 트리를 구성한다. 양쪽 Vertex 중의 하나가 신규한 단어일 경우는 기존 단어의 하위 Node로 신규 단어를 추가한다. 만약, 양쪽 Vertex 중 신규한 단어가 없는 경우는 버린다. 이 과정에서 기 사용된 Vertex들 간의 Edge는 없어지게 되어, 모든 Cycle은 없어지게 되고 하나 또는 둘 이상의 Tree 구조가 남게 된다. 이 과정은 신장트리(Spanning Tree)를 형성하는 것과 유사한 결과를 보이는데, 하나의 스패닝 트리가 생성되는 것이 아니라 여러 개의 트리가 생성되며, 복잡한 알고리즘을 사용하지도 않는 것이 특징이다.

[도 5]에서, 출력 또는 저장 등의 작업에는 선형화된 데이터가 컨트롤하기에 용이하다. 그러나 아직 Tree 구조는 비선형 데이터 구조이다. Tree를 선형화 시키기 위해 먼저 하나의 그룹 맴버 기준 개수는 n개라고 가정한다. 우선적으로 트리의 노드 개수가 N개 이하라면 따로 트리를 쪼개는 작업을 할 필요가 없고 그룹으로 등록한다. n개 이상의 노드를 가진 트리는 적당한 부분의 링크를 잘라내어 새로운 그룹으로 등록해 가면서 n개 이하로 줄일 수 있다. 그러기 위해서는 트리의 각 노드가 가지고 있는 하위 Node의 개수를 이용한다. 즉, 하위노드를 n개 이하 가지면서 가장 많은 하위 Node를 가진 Node를 Root로 하는 하위 Tree를 새 그룹으로 등록한다. 위 과정을 반복하면 단 한 가지 경우를 제외하고는 모든 그룹의 단어 개수는 n개 이하가 되는데, 그 한 가지 예외 경우는 하나의 non-terminal 노드에 (n-1)개 이상의 terminal 노드가 링크된 경우로 더 이상 쪼개지지 않는 경우이다.

본 발명에 의해 구현되는 두 가지 시스템의 형태는 다음과 같다.

첫 번째 시스템의 형태는, 입력 데이터로부터 유사어군으로 분리하는 단계와, 모든 단어를 Vertex로 하고, 단어 관계를 Edge로 하는 Graph를 생성하는 단계와, 각 단어별 Tree를 생성하는 단계와, 의미별 카테고리로 분리하여 저장하는 단계, 시소러스 검색 서비스를 제공하는 단계를 포함하는 것을 특징으로 한다.

이렇게 사전에 모든 검색 및 연산을 실시하고 그 결과를 저장해 놓음으로써 검색엔진을 구성할 수 있다. 실제로, 실시간으로 입력되는 검색식으로부터 Graph 를 업데이트하는 것은 논리적인 연산이 거의 없다. 그러나, 새로운 입력되고, Graph에서 입력 단어에 따른 Tree를 동적으로 구성하고, 원하는 형태로 분리하여 출력하여 서비스하는 것은 복잡하고 많은 연산을 필요로 한다. 따라서, 이것을 사전에 일일이 실시해 그 결과를 저장해 놓고, 서비스 상태에는 결과를 즉시 보여줌으로써 훨씬 빠른 결과를 반환한다. 연산을 미리 수행해 놓는 방법은 일반 텍스트 검색엔진에서 텍스트데이터에서 문자열을 매칭시키고 해당 문자열을 포함하는 위치를 미리 저장시켜 놓는 인덱싱작업 부분에서 차이가 난다. 만약, Tree를 구성하거나, 출력형식과 관련된 정책이 달라진다면 Tree 구성 및 그 이후 작업이 모두 새로 실시되어야 한다는 단점이 있다.

두 번째 시스템의 형태는, 입력 데이터로부터 유사어군으로 분리하는 단계와, 모든 단어를 Vertex로 하고, 단어 관계를 Edge로 하는 Graph를 생성하는 단계와, Graph를 DB로 저장하는 단계와, 시소러스 검색 서비스를 제공하는 단계를 포함 하는 것을 특징으로 한다. 또한, 시소러스 검색 서비스를 제공하는 단계는, 사용자가 시소러스 검색을 실시하는 단계와, 입력된 단어에 대해 Tree를 생성하는 단계와, 의미별 카테고리로 분리하여 출력하는 단계로 이루어진 것을 특징으로 한다.

이 형태는 Graph 상태의 데이터를 보관하며, 검색단어가 입력되면 실시간으로 Tree를 구성하고, 출력형식에 맞게 재구성하여 출력하는 것을 의미한다. Tree 구성이나, 출력형식과 관련된 정책이 달라져도, 검색모듈만 수정하면 되는 점, 검색결과를 미리 저장하는 작업이 없고, 따라서 별도의 저장공간이 필요없다는 점은 장점이 될 수 있지만, 서비스 중에 동적으로 연산을 실시하므로 속도가 느린 단점이 있다.

본 발명은 AND, OR, NOT논리로 이루어진 검색식에 대해 시소러스 DB를 자동으로 생성하고, 갱신함으로써 수작업에 의한 사전 구축방법에서 벗어나 사용 통계데이터에 토대를 두어 자동적으로 시소러스 사전을 구축할 수 있다. 특히, 일반 포털 사이트의 검색 이외의 전문성을 요하는 선행기술 조사 등의 토대가 되는 시소러스 DB를 자동적으로 구축할 수 있으며, 통계적인 수치가 논리에 의해 계산된 결과이므로 이상적이라 할 만큼 높은 정확성과 객관성을 보장한다.

Claims

다수의 정보 검색 수행자가 입력한 검색식을 가공하여 시소러스 데이터를 구축하는 시소러스 데이터 구축 시스템의 정보처리 방법에 있어서,

상기 시소러스 데이터 구축 시스템이

상기 검색식으로부터 유사어군으로 분리하는 단계;

상기 유사어군에 포함된 모든 단어를 Vertex로 하고, 단어 관계를 Edge로 하는 Graph를 생성하는 단계;

상기 단어별로 Tree를 생성하는 단계; 및

상기 생성된 Tree를 활용하여 의미별 카테고리로 분리하는 단계;를 포함하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 1 항에 있어서,

상기 정보 검색 수행자가 입력한 검색식으로부터 유사어군으로 분리하는 단계는,

상기 검색식으로 입력되는 쿼리에서 날짜제한 조건 문자열, 와일드카드 문자, 필드제한 문자열 및 오류문자 중 어느 하나 이상의 시소러스 데이터와 관련없는 문자열을 제거하는 단계;및

상기 쿼리에서 OR 논리식으로 연결된 단어들은 유사어로 간주하고, OR 이외의 기설정된 기준 연산자들을 기준으로 하여 유사어군으로 분리하는 단계;를 포함하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 2 항에 있어서,

상기 유사어군으로 분리하는 상기 기준 연산자는 NOT 연산자, AND 연산자, 근접성 연산자(Proximity Operators) 및 필드연산자 중 어느 하나 이상인 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 1 항에 있어서,

상기 Graph는 Vertex 정보와 Edge 정보로 이루어진 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 4 항에 있어서,

상기 Vertex 정보는 출현수 정보를 포함하는 것이며,

상기 단어가 사용된 횟수는 상기 검색식으로 입력되는 쿼리식에 출현한 횟수인 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 4 항에 있어서,

상기 Edge 정보는 두 단어 간의 유사도 정보를 포함하는 것이며,

상기 두 단어가 동시에 사용된 횟수는 상기 두 단어가 OR 논리연산자로 묶여 함께 사용된 횟수인 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 1 항에 있어서,

상기 단어별로 Tree를 생성하는 단계는

한 단어를 Root로 정하는 단계;

Edge 정보로부터 Root 단어와 가장 유사도가 높은 순으로 임의 개수의 단어를 선택하여 한정된 단어로 이루어진 작은 Graph 구조를 생성하는 단계;

상기 작은 Graph 구조의 Edge 정보를 유사도 순으로 정렬하고 차례로 입력받는 단계;

상기 입력받은 Edge 정보에서, 양쪽 Vertex인 두 단어 모두가 처음 입력되는 경우는 새 트리(tree)를 구성하는 단계;

상기 입력받은 Edge 정보에서, 양쪽 Vertex인 두 단어 중 어느 한 단어만 처음 입력되는 경우는 기존 트리에 연결하여 상기 기존 트리에 상기 처음 입력되는 한 단어를 추가하는 단계;및

상기 입력받은 Edge 정보에서, 양쪽 Vertex인 두 단어 모두가 기 입력된 단어인 경우는 추가적인 처리 없이 건너뛰는 단계;를 포함하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
삭제
제 1 항에 있어서,

상기 생성된 Tree를 활용하여 의미별 카테고리로 분리하는 단계는

기 설정된 n개(단, n>1이고 n은 자연수) 이하의 단어를 그룹의 원소의 갯수로 하는 적어도 하나 이상의 그룹들로 출력 또는 저장하고자 하는 경우,

n개 이하의 단어로 이루어진 트리는 그대로 그룹으로 출력 또는 저장하며,

n개 이상의 단어로 이루어진 트리는 구성 단어 수가 각각 n개 이하인 트리가 될 때까지 분기 노드에서 분리하는 과정을 반복하여 출력 또는 저장하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 9 항에 있어서,

n개 이상의 단어로 이루어진 트리에 대하여 상기 분기 노드에서 분리해 낼 때, 상기 분기 노드는 하위 노드가 n개 이하이면서 가장 많은 노드를 가진 노드인 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 1항에 있어서,

상기 시소러스 데이터 구축 시스템이 구축한 상기 시소러스 데이터에 대해서 시소러스 검색 서비스를 제공하는 단계;를 더 포함하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
삭제
다수의 정보 검색 수행자가 입력한 검색식을 가공하여 시소러스 데이터를 구축하는 시소러스 데이터 구축 시스템의 정보처리 방법에 있어서,

상기 시소러스 데이터 구축 시스템이

상기 검색식으로부터 유사어군으로 분리하는 단계;

상기 유사어군에 포함된 모든 단어를 Vertex로 하고, 단어 관계를 Edge로 하는 Graph를 생성하는 단계;

상기 생성된 Graph를 DB로 저장하는 단계;및

시소러스 검색 서비스를 제공하는 단계;를 포함하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
제 13 항에 있어서,

상기 시소러스 검색 서비스를 제공하는 단계는

사용자가 시소러스 검색을 실시하는 단계;

입력된 단어에 대해 트리(Tree)를 생성하는 단계;및

의미별 카테고리로 분리하여 출력하는 단계;를 포함하는 것을 특징으로 하는 통계적 방법을 이용한 시소러스 데이터 구축 방법.
삭제
삭제