KR100944756B1

KR100944756B1 - 대용량 레파지토리 구성을 위한 데이터 저장 구조

Info

Publication number: KR100944756B1
Application number: KR1020090103691A
Authority: KR
Inventors: 송석철
Original assignee: 주식회사 이지마루
Priority date: 2009-10-29
Filing date: 2009-10-29
Publication date: 2010-03-03

Abstract

시맨틱 검색 등에 필요한 대용량 레파지토리 구성을 위한 인덱스 등의 데이터 저장 구조에 관해 개시한다. 본 발명의 데이터 저장 구조는, 키들이 바이트 스트링으로 되어 있으며 연관 배열 데이터들을 저장하는 데 사용되는 순서화된 트리형 데이터 저장 구조로서, 노드들이 구별되는 문자열 단위로 구성되며, 다음에 오는 노드의 정보를 보관하기 위한 경로 노드를 더 포함하며, 같은 키스트링을 갖는 노드들을 모아서 노드 블록을 이루도록 그루핑한 것을 특징으로 한다. 본 발명에 따르면, 데이터 로드 및 조회 속도가 향상되어서 복잡한 시맨틱 질의 조건 등에 대해서도 빠른 검색결과를 제공할 수 있는 대용량 레파지토리 구성을 위한 데이터 저장 구조가 제공된다.

대용량, 레파지토리, 시맨틱, 검색, 데이터, 인덱스, 문자열, 경로 노드

Description

대용량 레파지토리 구성을 위한 데이터 저장 구조 {Data storage structure for forming mass repository}

본 발명은 데이터 저장 구조에 관한 것으로서, 특히 시맨틱 검색 등에 필요한 대용량 레파지토리 구성을 위한 인덱스 등의 데이터 저장 구조에 관한 것이다.

시맨틱 검색(Semantic Search)이란 자연어 처리 및 의미를 추출해 사용자 의도에 좀더 가까운 검색 결과를 보여주기 때문에 최근 많이 채용되고 있다. 시맨틱 검색을 위해서는 많은 양의 메타데이터가 구성되고 메타데이터들의 조합을 가지고 검색을 수행해야 하기 때문에, 기존의 R-DB 형태로 하여서는 만족할만한 속도가 되지 않기 때문에 새로운 방법에 대한 연구가 계속되고 있다. 이러한 시맨틱 검색을 위한 대용량 인덱스 구조로서 일반적으로 B-TREE(Balanced Tree) 형태의 B+TREE, B#TREE, B*TREE, B**TREE 등을 이용하여 왔다. B-TREE는 데이터를 정렬하여 탐색, 삽입, 삭제 및 순차 접근이 가능하도록 유지하는 트리형 데이터 구조를 말한다. 이러한 B-TREE는, 기본적으로 단위 블록에 일정한 수의 노드(PATH 또는 LEAF)를 가지도록 구성되어, 추가, 수정, 삭제가 블록 단위로 이루어지는 구조로서 노드를 관리하는 방법에 따라 효율적으로 하기 위하여 다양한 변형된 형태로 발전되어 사용되 어 온 인덱스 저장 구조이다. 따라서, 이 구조는 대용량 데이터를 다루는 DB, ISAM(Indexed Sequential Access Method)과 검색엔진 등의 인덱스 저장 구조로서 사용되어 왔다.

한편, 문자열에 대한 인덱스를 하기 위하여 사용되는 TRIE(reTRIEval)의 인덱스 구조는 매우 빠른 데이터의 추가, 삭제가 가능하고 절단 검색에 유리한 인덱스 저장 구조에 해당한다. 도 1은 일반적인 TRIE 형태의 일 예를 나타낸 구조도로서, ALGO, ALL, ALSO, ASSOC, TREE, TRIE 데이터를 저장한 예를 나타낸 것이다. 도 1을 참조하면, TRIE의 글자 단위로 노드가 구성되어 있음을 알 수 있다. 하지만 이러한 구조를 이용하는 방법의 경우에 데이터의 수에 비하여 많은 수의 작은 노드들이 존재하여 대용량에 적용하기에는 적합하지 않은 것으로 알려져 있다. 따라서, 이 구조는 일정한 수의 데이터로서 형태소 분석이나 사전을 저장하기 위한 인덱스 저장 구조로 많이 사용되어 왔다. 중언하자면, TRIE 인덱스 저장 구조의 장점으로는 데이터의 크기에 무관하고 문자열의 길이에 의존하여 빠른 검색 속도를 나타내며, 빠른 절단 검색 처리, 추가 및 삭제가 용이함이 있다. 그러나, 단점으로는 노드의 수가 데이터의 수에 비하여 훨씬 많아져서 메모리 크기에 제한된다는 것이다. 즉, TRIE 인덱스 저장 구조는 작은 노드들로 구성되기 때문에 대용량이 되어 메모리 한계를 넘어갈 경우에 디스크(DISK) I/O 및 관리의 복잡성이 발생하여 제한된 메모리에 사용될 정도의 인덱스 저장을 위해서 주로 사용되어 왔다.

위에서는 주로 시맨틱 검색을 위한 인덱스 저장 구조에 대해서 설명하였으나, 일반적인 데이터 저장 구조에서도 마찬가지의 문제점이 현실적으로 존재한다.

따라서 본 발명이 해결하고자 하는 과제는, 기본적인 데이터 저장 구조로서 TRIE의 장점은 택하고, 그 단점을 극복하는 수단을 적용하여 대용량 레파지토리로 사용할 수 있는 대용량 처리 가능한 새로운 데이터 저장 구조를 제공하는 것이다.

상기 과제를 달성하기 위한 본 발명에 따른 데이터 저장 구조는, 키들이 바이트 스트링으로 되어 있으며 연관 배열 데이터들을 저장하는 데 사용되는 순서화된 트리형 데이터 저장 구조로서, 노드들이 구별되는 문자열 단위로 구성되며, 다음에 오는 노드의 정보를 보관하기 위한 경로 노드를 더 포함하며, 같은 키스트링(Key String)을 갖는 노드들을 모아서 노드 블록을 이루도록 그루핑(Grouping)한 것을 특징으로 한다.

여기서, 상기 연관 배열 데이터들 중에 말단에만 데이터가 있는 경우에, 그 데이터에 대해서는 상기 경로 노드와 그 다음에 오는 노드 사이에 중복이 없도록 그 다음에 오는 노드를 생략하고 상기 경로 노드만으로 배열되게 할 수도 있다.

또한, 상기 데이터 저장 구조가 메모리 맵핑 프로그램에 의해 입력/독출이 이루어지는 구조를 가지는 것이 바람직하다.

본 발명에 따르면, 데이터 로드 및 조회 속도가 향상되어서 복잡한 시맨틱 질의 조건 등에 대해서도 빠른 검색결과를 제공할 수 있는 대용량 레파지토리 구성을 위한 데이터 저장 구조가 제공된다.

이하에서, 본 발명의 바람직한 실시예를 첨부한 도면들을 참조하여 상세히 설명한다. 아래의 실시예는 본 발명의 내용을 이해하기 위해 제시된 것일 뿐이며 당 분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상 내에서 많은 변형이 가능할 것이다. 따라서 본 발명의 권리범위가 이러한 실시예에만 한정되는 것으로 해석되어서는 안 된다.

아래의 실시예는 주로 인덱스 저장 구조에 대해 설명하고 있지만, 본 발명의 사상은 특별한 인덱스 저장 구조 뿐만 아닌 일반적인 데이터 저장 구조에 모두 적용될 수 있음은 물론이다.

도 2는 본 발명의 실시예에 따른 데이터 저장 구조, 특히 인덱스 저장 구조를 적용한 예를 나타낸 도면이다. 도 2를 참조하면, ALGO, ALL, ALSO, ASSOC, TREE, TRIE 데이터를 저장하였음을 알 수 있다. 도 2를 참조하면, 기본적인 인덱스 저장 구조는 키들이 바이트 스트링(Byte String)으로 되어 있으며 연관 배열을 저장하는 데 사용되는 순서화된 트리형 인덱스 저장 구조이기 때문에 도 1에 설명된 종래의 TRIE 구조와 유사하지만, 본 발명에서는 TRIE의 글자 단위의 노드로 구성하지 않고, 구별되는 문자열을 노드로 구성하고 있음을 알 수 있다. 따라서, 종래기술에는 ASSOC를 저장하고자 할 때, 글자 단위의 노드로 구성되어 많은 키를 가지지 만, 본 발명에서는 저장된 데이터에서 구별되는 문자열인 SSOC가 하나의 단위로서 노드를 이루게 된다. 즉, 저장된 데이터에 ASSOC가 포함되어 있을 때, A 글자로 구성된 노드(120) 다음에는 ALGO, ALL, ALSO, ASSOC가 있으므로 구별되는 문자열이 하나로 정해지지 않는다. 그러나, AS 시작하는 것은 ASSOC 밖에 없으므로 A 글자로 구성된 노드(120) 다음에 SSOC가 하나의 구별되는 문자열로서 노드(130)를 이루게 되는 것이다. 이와 마찬가지로, 저장된 데이터에서 T 글자로 시작되는 것은 TRIE와 TREE만 있는데 이들은 T 글자만으로 구분된 문자열을 이루는 것이 아니라 TR 글자로 구분된 문자열이 정해지므로 TR 자체가 노드를 이루게 된다. 여기서, "구분되는 문자열"이라는 것은 일반적인 문자열만 포함하는 것이 아니라 각 구성요소가 256가지(0∼255)로 이루어지는 "바이너리(Binary)"도 포함하는 것을 의미한다. 본 발명에서는 이러한 노드들의 각각의 다음에 오는 노드 정보를 보관하기 위한 경로 노드(110a, 110b, 110c, 110d)를 별도로 생성하여 노드에 저장할 수 있는 정보를 단순화시키고, 정보의 추가, 삭제를 용이하게 할 수 있도록 하였다. 경로 노드(110a, 110b, 110c, 110d)에는 많은 수의 다음 노드를 포함할 수 있도록 하였고, 이진 검색(Binary Search)을 할 수 있도록 하였다.

중언하자면, 이와 같은 방법으로 데이터 저장 구조를 만들면, 저장되는 데이터 중에서 ALGO와 ALL은 종래기술의 TRIE 인덱스 저장 구조에서는 서로 다른 깊이(Depth)를 가지는 데이터였지만, G-L-S 경로 노드(110d)의 하위 노드로서 모두 같은 깊이를 갖는 데이터가 되며, ALGO의 경우 종래보다 짧은 깊이를 갖는 데이터가 된다. 따라서, 본 발명의 실시예에 따르면, 데이터의 수에 비하여 많지 않은 수 의 노드가 형성되기 때문에 대용량 시맨틱 레파지토리를 구성하기에 용이해지는 장점이 있다.

한편, 작은 TRIE 노드들의 집합을 모아 노드 블록을 구성하였는데, 같은 키스트링(Key String)을 갖는 노드들을 모아 노드 블록을 이루도록 그루핑(Grouping)하였다. 여기서 키스트링은 노드 블록을 구성할 때 쓰이는 것으로서, 스트링을 앞, 뒤 두 부분으로 나누고 앞 부분에 의해 생성되는 노드는 ROOT 블록에 저장을 하고, 뒷 부분에 의해 생성되는 노드는 앞 부분에 의해 정해지는 블록에 저장을 하도록 했을 때, "앞 부분에 해당되는 스트링"을 "키스트링"이라는 용어로 사용한다. 키스트링은 스트링에 따라 가변의 길이로 정해질 수 있다. 도 3은 도 2에 설명된 본 발명의 실시예에 따른 데이터 저장 구조에서 노드 블록을 구성한 상태를 설명하기 위한 도면이다. 도 3을 참조하면, 키스트링으로는 'TR', 'AS', 'AL'이 존재함을 알 수 있다. 저장되는 데이터가 A 글자 또는 T 글자만으로 시작되므로 루트(ROOT) 아래에 다음 노드인 A와 TR의 정보를 보관하기 위한 A-T 경로 노드(110a)가 형성된다. 또한, A 글자의 노드(120)의 아래에는 L-S 경로 노드(110b)가 형성되는데, 이는 저장되는 데이터에서 A로 시작되는 데이터들의 다음 글자가 L 글자 또는 S 글자만으로 이루어지기 때문이다. 따라서, A-T 경로 노드(110a)와 A글자의 노드(120) 및 TR글자의 노드(125), 그리고 L-S 경로 노드(110b)가 같은 키스트링을 가지므로 ROOT 경로 노드 블록에 속하게 된다. 한편, 저장되는 데이터 중에서 AS로 앞부분이 시작되는 것은 ASSOC 밖에 없으므로 L-S 경로 노드(110b) 아래의 노드에는 SSOC글자의 노드(130)가 형성된다. 노드 블록을 형성하는 방법은 다음과 같다. 어느 하나 의 상위 노드에 공통으로 포함되는 바로 다음의 하위 노드와 그 하위 노드에 대한 경로 노드가 합쳐져서 상위 노드 글자에 의해 만들어진 노드 블록을 이루게 된다. 따라서, 도 3을 참조하면, E-I 경로 노드(110c)와 그 하위의 EE글자 노드와 IE 글자 노드가 모두 'TR'에 의해 만들어진 노드 블록에 포함되는 것이다. 이와 같이 노드 블록을 형성하면, 같은 노드 블록에 존재하는 데이터는 디스크에서 가까운 곳에 위치하게 되므로, 디스크 I/O 가 효율적으로 이루어지게 된다.

도 4는 도 2의 데이터 저장 구조를 더욱 간략화한 예를 설명하기 위한 도면이다. 본 발명에 따른 데이터 저장 구조에 저장되는 연관 배열 데이터들 중에 말단에만 데이터가 있는 경우에, 그 데이터에 대해서는 경로 노드와 그 다음에 오는 노드 사이에 중복이 없도록 그 다음에 오는 노드를 생략하고 경로 노드만으로 배열되게 할 수 있다. 따라서, 도 4를 참조하면, ALL의 경우, 노드 없이 경로 노드로만 표시되며, 참조번호 125a에 대응되는 노드는 도 2에서 참조번호 125로서 TR 이라는 문자열이었지만, 참조번호 125a의 경우 더욱 간략화되어 R 이라는 문자열만으로 이루어지는 것을 알 수 있다. 이와 같이 하면 노드 패스가 줄어들어서, 더욱 간단한 데이터 저장 구조를 구현할 수 있다.

도 5는 본 발명의 실시예에 따른 데이터 저장 구조를 이용한 텍스트 저장 및 역파일 저장의 예를 나타낸 도면이다. 도 5를 참조하면, 루트 노드(ROOT Node)에서 경로 노드(PATH Node), 리프 노드(LEAF Node)에 이르는 데이터 저장 구조가 순차 파일(Sequence File; SEQN 파일)을 통해 역 파일(Inverted File; INVT 파일) 또는 텍스트 파일(Text File; TEXT 파일)에 접근하도록 해준다. 여기서 본 발명에 따른 다면 데이터 저장 파일의 사이즈가 작아지기 때문에, 대용량의 인덱스라도 쉽게 저장이 가능하게 된다.

일반적으로 트리형 데이터 저장 구조를 대용량에 적용했을 때, 대용량에 따른 제한된 메모리가 문제시되며, 작은 노드로 구성되어 관리가 복잡하며, 노드 관리를 위한 메모리가 증가하며, 트리형 저장 구조상 노드가 분산되어 분포하고, 작은 노드로 인한 비효율적인 디스크 I/O에 의존해야 하며, 절단 검색의 경우 많은 노드를 조회해야 하는 문제점이 있다. 그러나, 본 발명의 실시예에 따른 데이터 저장 구조를 이용하면, 대용량에 적용하더라도 노드 수가 크게 늘어나지 않으므로 노드 관리면에서 유리하다는 장점을 갖는다.

한편 본 발명의 실시예에서는 노드 수를 줄이기 위한 데이터 저장 구조를 제공하는 것 이외에도, 파일 I/O에 MMAP(Memory-Mapped File) I/O 기술을 적용하였다. 도 6은 본 발명의 실시예에 따른 데이터 저장 구조를 인덱스 저장 구조로 사용하고, 여기에 공지의 MMAP I/O 기술을 적용한 구성을 나타낸 도면이다. 도 5에서, 참조번호 510은 본 발명의 실시예에 따른 데이터 저장 구조로 이루어진 인덱스 저장 파일을 나타낸다. 이와 같이, MMAP I/O 기술을 적용할 경우, 여러 프로세스가 동시에 접근하여 추가, 수정, 삭제, 조회 등의 접근을 하여도 성능에 지장이 없다. 즉, 데이터의 변경을 하면서 타인이 조회를 하는 경우에도 큰 문제가 발생하지 않는다. 또한, 본 발명의 실시예에 따른 데이터 저장 구조와 같이 TRIE 형을 기본으로 하는 인덱스 저장 구조에서 단점으로 지적되고 있는 처리 속도의 지연을 없애고 대용량 인덱스에 있어서도 빠른 처리 속도를 유지할 수 있게 된다.

상기한 바와 같은 본 발명의 실시예에 따른 데이터 저장 구조를 인덱스 저장 구조에 적용하고 트리플 검색을 수행하기 위해 파일 로드를 한 결과, 다양한 트리플 조합에서 로드 시간과 검색시간이 단축됨을 확인할 수 있었다.

도 1은 일반적인 TRIE 형태의 일 예를 나타낸 구조도;

도 2는 본 발명의 실시예에 따른 데이터 저장 구조를 적용한 예를 나타낸 도면;

도 3은 도 2에 설명된 본 발명의 실시예에 따른 데이터 저장 구조에서 노드 블록을 구성한 상태를 설명하기 위한 도면;

도 4는 도 2의 데이터 저장 구조를 더욱 간략화한 예를 설명하기 위한 도면;

도 5는 본 발명의 실시예에 따른 데이터 저장 구조를 이용한 텍스트 저장 및 역파일 저장의 예를 나타낸 도면;

도 6은 본 발명의 실시예에 따른 데이터 저장 구조를 인덱스 저장 구조로 사용하고, 여기에 공지의 MMAP I/O 기술을 적용한 구성을 나타낸 도면이다.

Claims

키들이 바이트 스트링으로 되어 있으며 연관 배열 데이터들을 저장하는 데 사용되는 순서화된 트리형 데이터 저장 구조에 있어서,

노드들이 구별되는 문자열 단위로 구성되며,

다음에 오는 노드의 정보를 보관하기 위한 경로 노드를 더 포함하며,

같은 키스트링을 갖는 노드들을 모아서 노드 블록을 이루도록 그루핑한 것을 특징으로 하는, 대용량 레파지토리 구성을 위한 데이터 저장 구조.
제1항에 있어서, 상기 연관 배열 데이터들 중에 말단에만 데이터가 있는 경우에, 그 데이터에 대해서는 상기 경로 노드와 그 다음에 오는 노드 사이에 중복이 없도록 그 다음에 오는 노드를 생략하고 상기 경로 노드만으로 배열되게 하는 것을 특징으로 하는, 대용량 레파지토리 구성을 위한 데이터 저장 구조.
제1항 또는 제2항에 있어서, 상기 데이터 저장 구조가 메모리 맵핑 프로그램에 의해 입력/독출이 이루어지는 구조를 가지는 것을 특징으로 하는, 대용량 레파지토리 구성을 위한 데이터 저장 구조.