KR102664792B1

KR102664792B1 - 고속 질의 처리가 가능한 다차원 배열 압축 방법

Info

Publication number: KR102664792B1
Application number: KR1020210134278A
Authority: KR
Inventors: 정연돈; 김민수
Original assignee: 고려대학교 산학협력단
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2024-05-08
Also published as: KR20230050922A

Abstract

본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법은 원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성하는 HMMT 구성 과정; 상기 HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장하는 HMMT 압축 저장 과정; 탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하는 후보 영역 추정 과정; 및 상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출하는 탐색 질의 결과 도출 과정을 포함한다

Description

고속 질의 처리가 가능한 다차원 배열 압축 방법{Multi-dimensional array compression method capable of high-speed query processing}

본 발명은 다차원 배열 데이터를 압축 저장하는 방법 및 데이터베이스에서 압축 저장된 데이터에서 효율적 질의 처리 방법에 관한 것이다.

본 발명은 웨이블릿 변환(wavelet transform) 기술에 기반하고 있으며, 웨이블릿 변환 압축 방법인 EZW(embedded zero tree wavelet)나 SPIHT(set partitioning in hierarchical trees)와 같은 중복비트 제거 방식을 사용한다.

이와 관련하여, 다차원 배열 데이터는 대용량 데이터로 이를 저장/관리하기 위해서는 매우 큰 용량의 저장장치를 필요하다. 또한, 데이터의 저장 공간을 줄이기 위해 이를 압축할 경우, 압축 저장된 데이터를 이용하여 분석 및 질의를 수행할 때 압축을 해제하는 과정이 필요하다. 이러한 과정은 보통 많은 연산을 요구하며 질의 수행 시간을 증가시킬 수 있다.

한편, 기존 발명들은 압축률을 얻기 위한 옵션으로 허프만 코딩과 같은 코딩 방식을 사용하는 경우 기존 발명들은 원본 배열(original array) 내의 각 블록의 값을 전수 조사하여 빈도수를 구하여야 한다는 문제점이 있다. 이에 따라, 대용량의 데이터를 저장하고 있는 데이터베이스에서 고속 질의 처리가 어렵다는 문제점이 있다.

또한, 기존 발명들은 탐색 질의 요청에 응답하여 원본 배열의 전체 영역 내에서 탐색을 진행한다. 이에 따라, 대용량의 데이터를 저장하고 있는 데이터베이스에서 고속 질의 처리가 어렵다는 문제점이 있다.

본 발명은 종래기술의 단점을 해결하기 위해, 고속 질의 처리가 가능한 다차원 배열 압축 방법을 제공하고자 한다.

본 발명은 압축을 통해 다차원 배열 데이터의 저장 공간을 줄이면서도, 질의 성능을 유지할 수 있는 고속 질의 처리가 가능한 다차원 배열 압축 방법을 제공하고자 한다.

또한, 본 발명은 한국연구재단의 '대규모 분산 딥러닝을 위한 인메모리 텐서 데이터베이스' 과제(과제고유번호 : 1711127329), 정보통신기획평가원의 'ICT명품인재양성' 과제(과제고유번호 : 1711126325), 및 한국연구재단의 '프라이버시 침해 없이 감염병을 예방하는 데이터 기반 시스템' 과제(과제고유번호 : NRF-2020K2A9A1A01095894)의 수행 결과물이다.

본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법은 원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성하는 HMMT 구성 과정; 상기 HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장하는 HMMT 압축 저장 과정; 탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하는 후보 영역 추정 과정; 및 상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출하는 탐색 질의 결과 도출 과정을 포함한다.

일 실시 예에 따르면, 상기 HMMT 구성 과정은 여러 해상도의 상기 원본 배열이 계층적 관계를 가지는 다층 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 상기 HMMT를 구성한다.

일 실시 예에 따르면, 상기 HMMT 압축 저장 과정은 상기 원본 배열을 웨이블릿 변환하고, 상기 웨이블릿 변환된 배열을 근사 영역에 해당하는 제1 영역과 상세 영역에 해당하는 제2 영역으로 구분하고, 상기 제1 영역에 대해 델타 인코딩을 수행하고, 상기 HMMT를 참조하여 상기 제2 영역에 대해 압축 저장을 수행할 수 있다.

일 실시 예에 따르면, 상기 후보 영역 추정 과정에서 상기 원본 배열을 여러 개의 작은 배열로 나누고 각각의 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 상기 제2 영역을 압축 저장하고, 상기 압축 저장된 원본 배열을 디코딩 시 상기 최소 비트수를 알 수 있도록 상기 각 영역을 인코딩 시 상기 최소 비트수와 연관된 정보를 헤더 또는 프리앰블 부분에 포함시킬 수 있다.

일 실시 예에 따르면, 상기 HMMT 압축 저장 과정에서 상기 각 영역의 최소 비트수에 비례하는 빈도수를 갖는 확률분포함수를 갖는 허프만 트리를 생성하고, 상기 각 영역의 최소 비트수에 따라 다르게 생성된 허프만 트리를 사용하여 상기 각 영역에 포함된 정보를 압축할 수 있다.

일 실시 예에 따르면, 상기 후보 영역 추정 과정은 상기 압축 저장된 HMMT를 복원하고, 상기 복원된 HMMT에 기초하여 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정할 수 있다.

일 실시 예에 따르면, 상기 후보 영역 추정 과정에서 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기초하여 상기 후보 영역의 최소값과 최대값을 추정하고, 상기 추정된 후보 영역의 최소값과 최대값에 기초하여 상기 압축 저장된 HMMT를 복원할 수 있다.

일 실시 예에 따르면, 상기 HMMT 구성 과정 및 상기 HMMT 압축 저장 과정은 선박 위치 데이터(AIS) 또는 GPS 데이터의 기록, 유체역학을 포함하는 시뮬레이션 데이터의 저장 또는 다차원 배열 형태의 과학 데이터의 저장에 사용되고, 상기 탐색 질의에 따른 상기 후보 영역 추정 과정 및 상기 탐색 질의 결과 도출 과정은 상기 선박 위치 데이터(AIS) 또는 GPS 데이터의 분석, 유체역학을 포함하는 상기 시뮬레이션 데이터의 분석 또는 상기 다차원 배열 형태의 과학 데이터의 분석에 사용될 수 있다.

본 발명의 다른 양상에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법을 수행하는 데이터베이스는 원본 배열과 연관된 데이터를 수신하도록 구성된 인터페이스; 및 상기 원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성하는 프로세서; 및 상기 프로세서와 동작 가능하게 결합되고, 다차원 배열 데이터를 저장하도록 구성된 메모리를 포함한다.

일 실시 예에 따르면, 상기 프로세서는 상기 HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장하도록 상기 메모리를 제어하고, 탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하고, 상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출하도록 구성된다.

일 실시 예에 따르면, 상기 프로세서는 상기 원본 배열을 웨이블릿 변환하고, 상기 웨이블릿 변환된 배열을 근사 영역에 해당하는 제1 영역과 상세 영역에 해당하는 제2 영역으로 구분하고, 상기 제1 영역에 대해 델타 인코딩을 수행하고, 상기 HMMT를 참조하여 상기 제2 영역에 대해 압축 저장을 수행할 수 있다.

일 실시 예에 따르면, 상기 프로세서는 상기 원본 배열을 여러 개의 작은 배열로 나누고 각각의 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 상기 제2 영역을 압축 저장하고, 상기 압축 저장된 원본 배열을 디코딩 시 상기 최소 비트수를 알 수 있도록 상기 각 영역을 인코딩 시 상기 최소 비트수와 연관된 정보를 헤더 또는 프리앰블 부분에 포함시킬 수 있다.

일 실시 예에 따르면, 상기 프로세서는 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기초하여 상기 후보 영역의 최소값과 최대값을 추정하고, 상기 추정된 후보 영역의 최소값과 최대값에 기초하여 상기 압축 저장된 HMMT를 복원하고, 상기 복원된 HMMT에 기초하여 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정할 수 있다.

본 발명에 따르면, 다차원 배열 데이터를 기존 압축 기법 대비 높은 압축률로 압축 저장할 수 있다.

본 발명에 따르면, 압축 저장된 데이터의 일부만을 이용하여 근사 질의(approximate query)를 수행하고 이를 통해 근사 질의 결과 및 질의 영역을 추정할 수 있다.

본 발명에 따르면, 인덱스 구조 등을 이용하여 질의에 불필요한 영역을 제외시킴으로써 질의 처리 속도를 향상시킬 수 있다.

상술한 본 발명의 특징 및 효과는 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.

도 1은 본 발명에 따른 계층적 관계를 가지는 다층 배열의 구조를 나타낸 것이다.
도 2는 도 1의 다층 배열 구조에서 각 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하는 방식의 개념도이다.
도 3은 도 1의 다층 배열 구조에서 각 노드에 기록된 비트 자리수 차이에 따른 최소값과 최대값을 추정하는 개념도이다.
도 4은 본 발명에 따른 영역 기반 다차원 배열 압축 방법의 개념도를 나타낸다.
도 5는 도 4의 영역 기반 다차원 배열 압축 방법의 일 예시로, 2차원 웨이블릿 변환에 따른 영상과 이를 수행하기 위한 구성을 나타낸다.
도 6은 본 발명에 따른 청크 단위의 블록 별 요구 비트 수에 따른 허프만 트리의 구성을 나타낸다.
도 7은 본 발명에 따른 다차원 배열 압축 방법에서 후보 영역의 데이터만을 불러와 탐색 질의 수행 결과를 도출하는 개념도를 나타낸다.
도 8은 본 발명의 일 양상에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법의 흐름도를 나타낸다.
도 9는 본 발명에 따른 다른 양상에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법을 수행하는 데이터베이스의 구성을 나타낸다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다.

제1, 제2등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

이하의 설명에서 사용되는 구성요소에 대한 접미사 모듈, 블록 및 부는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

이하, 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 당해 분야에 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 설명한다. 하기에서 본 발명의 실시 예를 설명함에 있어, 관련된 공지의 기능 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

이하에서는, 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법 및 이를 수행하는 데이터베이스 시스템에 대해 설명한다. 이와 관련하여, 본 발명은 중복비트를 제거하기 위해 계층적 트리(HMMT: Hierarchical Min-max Tree)를 사용하며, 이 트리의 압축 방법을 새롭게 제안한다.

또한 본 발명에서는 추가적인 압축률을 얻기 위한 옵션으로 허프만 코딩을 사용할 수 있다. 이는 기존과 발명들과 달리 최소 비트 자리수에 따라 각기 다른 값 분포를 가지는 허프만 트리를 미리 구성하며 이를 활용하여 고속의 디코딩이 가능하다.

본 발명은 여러 해상도의 배열이 계층적 관계를 가지는 다층 배열을 사용하여 희소 배열(sparse array)을 배열 데이터 모델로 표현하고 질의 성능을 개선하는 방법을 제공한다. 희소 배열은 데이터가 저장되지 않은 경우가 더 많도록 구성되어 희소 배열은 배열의 원소 위치가 연속적이지 않은 배열을 지칭한다. 이에 따라, 배열 원소의 개수가 배열의 length 값보다 작게 구성된다. 따라서, 본 발명에서는 배열을 여러 개의 작은 배열로 나누고 각 영역에서의 최소값과 최대값을 조사한 후, 이를 토대로 HMMT를 구성할 수 있다.

이와 관련하여, 도 1은 본 발명에 따른 계층적 관계를 가지는 다층 배열의 구조를 나타낸 것이다. 도 2는 도 1의 다층 배열 구조에서 각 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하는 방식의 개념도이다. 도 1 및 도 2를 참조하면, HMMT를 압축 저장하기 위해서는 루트노드로부터 시작하여 각 노드에 담긴 최소값과 최대값의 비트 자리수(significant bit)를 비교하며, 자식노드는 부모노드와의 비트 자리수 차만을 기록하여 저장한다.

한편, 도 3은 도 1의 다층 배열 구조에서 각 노드에 기록된 비트 자리수 차이에 따른 최소값과 최대값을 추정하는 개념도이다. 도 1 내지 도 3을 참조하면, HMMT를 복원 할 때에도 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이를 보고 최소값과 최대값을 추정할 수 있다.

한편, 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법에 대해 상세하게 설명한다. 이와 관련하여, 도 4은 본 발명에 따른 영역 기반 다차원 배열 압축 방법의 개념도를 나타낸다. 한편, 도 5는 도 4의 영역 기반 다차원 배열 압축 방법의 일 예시로, 2차원 웨이블릿 변환에 따른 영상과 이를 수행하기 위한 구성을 나타낸다.

도 1 내지 도 5를 참조하면, 원본 배열을 압축 저장할 때는 1) HMMT를 구성한 이후, 2) 원본 배열을 웨이블릿 변환한다. 이때 배열은 approximate 영역과 detail 영역으로 나뉜다. 3) 웨이블릿 변환된 배열의 approximate 영역은 delta encoding하며, 4.) detail 영역은 HMMT를 참조하여 배열의 나머지 부분을 압축 저장한다.

이와 관련하여, detail 영역을 압축 저장할 때는 배열을 여러 개의 작은 배열로 나누고 각 작은 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 저장한다. 이때 최소 비트수는 실제 작은 배열 내의 모든 값들을 조사하여 구하며, 디코딩 시 이를 최소 비트수를 알 수 있도록 각 영역 인코딩 시 맨 앞에 표시한다. 최소 비트수의 표시 방법은 인코딩 영역과 일치하는 HMMT 노드를 찾고 해당 노드에서 추정할 수 있는 최소 비트수와 실제 최소 비트수 간의 차를 기록한다.

한편, 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법은 더 높은 압축률을 위해 다른 코딩 방식과 결합될 수 있다. 이와 관련하여, 도 6은 본 발명에 따른 청크 단위의 블록 별 요구 비트 수에 따른 허프만 트리의 구성을 나타낸다. 도 1 내지 도 6을 참조하면, 본 발명은 더 높은 압축률이 필요할 경우 허프만 코딩을 활용하는 추가적인 압축 방법을 제안한다. 이는 각 블록의 최소 비트수에 따라 각기 다른 허프만 트리를 사용하여 내부의 값들을 압축한다.

허프만 트리를 구성하기 위해서는 원래 값들의 빈도수가 필요하다. 본 발명에서는 허프만 코딩 시 각 블록의 값을 전수조사하여 빈도수를 구하는 대신, 미리 실험적으로 값의 빈도수와 유사한 확률분포함수를 추정하고 일반적인 데이터의 경우 이를 따른다고 가정한다. 이를 기반으로 각 비트수에 따른 고정된 허프만 트리를 생성해낼 수 있다. 따라서 비트수에 따라 여러 개의 허프만 트리를 사용하더라도 허프만 트리를 압축하거나 복원하는 과정이 필요 없다.

한편, 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법은 값 기반의 탐색 질의를 수행할 수 있다. 이와 관련하여, 도 7은 본 발명에 따른 다차원 배열 압축 방법에서 후보 영역의 데이터만을 불러와 탐색 질의 수행 결과를 도출하는 개념도를 나타낸다.

도 1 내지 도 7을 참조하면, 값 기반의 탐색 질의를 수행할 때는, HMMT를 우선 복원하여 이를 통해 찾고자 하는 값이 존재하는 후보 영역을 먼저 추정한다. 이후 후보 영역의 데이터만을 불러와 탐색 질의 수행 결과를 도출할 수 있다. 이상에서는 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법 및 이를 이용한 탐색 질의 처리 방법에 대해 설명하였다. 이하에서는 전술한 기술적 특징등에 기반하여 본 발명에서 청구하고자 하는 고속 질의 처리가 가능한 다차원 배열 압축 방법 및 이를 수행하는 데이터베이스 시스템에 대해 설명한다. 한편, 본 발명에서 청구하고자 하는 사항은 이하의 설명에 한정되는 것은 아니고 전술한 기술적 특징들과 임의의 형태 및 방식으로 결합될 수 있다.

도 8은 본 발명의 일 양상에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법의 흐름도를 나타낸다. 이와 관련하여, 상기 방법은 배열 데이터베이스 시스템의 프로세서에 의해 수행될 수 있다. 도 1 내지 도 8을 참조하면, 다차원 배열 압축 방법은 HMMT 구성 과정(S100) 및 HMMT 압축 저장 과정(S200)을 포함할 수 있다. 또한, 다차원 배열 압축 방법은 후보 영역 추정 과정(S300) 및 탐색 질의 결과 도출 과정(S400)을 더 포함할 수 있다.

HMMT 구성 과정(S100)에서, 원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성한다.HMMT 구성 과정(S100)에서, 여러 해상도의 상기 원본 배열이 계층적 관계를 가지는 다층 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 상기 HMMT를 구성할 수 있다. 한편, HMMT 압축 저장 과정(S200)에서, HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장할 수 있다.

후보 영역 추정 과정(S300)에서, 탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정한다. 탐색 질의 결과 도출 과정(S400)에서, 상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출할 수 있다.

HMMT 압축 저장 과정(S200)에서, 상기 원본 배열을 웨이블릿 변환하고, 상기 웨이블릿 변환된 배열을 근사 영역에 해당하는 제1 영역과 상세 영역에 해당하는 제2 영역으로 구분할 수 있다. 또한, HMMT 압축 저장 과정(S200)에서, 상기 제1 영역에 대해 델타 인코딩을 수행하고, 상기 HMMT를 참조하여 상기 제2 영역에 대해 압축 저장을 수행할 수 있다.

후보 영역 추정 과정(S300)에서, 상기 원본 배열을 여러 개의 작은 배열로 나누고 각각의 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 상기 제2 영역을 압축 저장할 수 있다. 또한, 후보 영역 추정 과정(S300)에서, 상기 압축 저장된 원본 배열을 디코딩 시 상기 최소 비트수를 알 수 있도록 상기 각 영역을 인코딩 시 상기 최소 비트수와 연관된 정보를 헤더 또는 프리앰블 부분에 포함시킬 수 있다.

한편, HMMT 압축 저장 과정(S200)에서, 상기 각 영역의 최소 비트수에 비례하는 빈도수를 갖는 확률분포함수를 갖는 허프만 트리를 생성할 수 있다. 또한, HMMT 압축 저장 과정(S200)에서, 상기 각 영역의 최소 비트수에 따라 다르게 생성된 허프만 트리를 사용하여 상기 각 영역에 포함된 정보를 압축할 수 있다.

한편, 후보 영역 추정 과정(S300)에서, 상기 압축 저장된 HMMT를 복원하고, 상기 복원된 HMMT에 기초하여 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정할 수 있다. 후보 영역 추정 과정(S300)에서, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기초하여 상기 후보 영역의 최소값과 최대값을 추정할 수 있다. 이에 따라, 상기 추정된 후보 영역의 최소값과 최대값에 기초하여 상기 압축 저장된 HMMT를 복원할 수 있다.

전술한 HMMT 구성 과정(S100) 및 HMMT 압축 저장 과정(S200)은 선박 위치 데이터(AIS) 또는 GPS 데이터의 기록, 유체역학을 포함하는 시뮬레이션 데이터의 저장 또는 다차원 배열 형태의 과학 데이터의 저장에 사용될 수 있다. 탐색 질의에 따른 후보 영역 추정 과정(S300) 및 탐색 질의 결과 도출 과정(S400)은 상기 선박 위치 데이터(AIS) 또는 GPS 데이터의 분석, 유체역학을 포함하는 상기 시뮬레이션 데이터의 분석 또는 상기 다차원 배열 형태의 과학 데이터의 분석에 사용될 수 있다.

이하에서는 본 발명의 다른 양상에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법을 수행하는 데이터베이스에 대해 설명한다. 이와 관련하여, 도 9는 본 발명에 따른 다른 양상에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법을 수행하는 데이터베이스의 구성을 나타낸다. 도 9를 참조하면, 데이터베이스 (시스템)은 데이터베이스에 한정되는 것은 아니고 이러한 다차원 배열 압축 방법을 수행하는 임의의 장치일 수 있다. 일 예로, 다차원 배열 압축 방법을 수행하는 서버 및 임의의 전자 장치일 수 있다.

데이터베이스는 인터페이스(100), 프로세서(200) 및 메모리(300)를 포함하도록 구성될 수 있다. 인터페이스(100)는 원본 배열과 연관된 데이터를 수신하도록 구성될 수 있다. 인터페이스(100)는 데이터가 입력되는 형태인 입력 인터페이스일 수 있다. 또한, 인터페이스(100)는 다른 전자 장치와 연결된 유선/무선 통신 인터페이스일 수 있다.

도 1 내지 도 9를 참조하면, 프로세서(200)는 원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성할 수 있다. 메모리(300)는 프로세서(200)와 동작 가능하게 결합되고, 다차원 배열 데이터를 저장하도록 구성될 수 있다.

프로세서(200)는 HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장하도록 메모리(300)를 제어할 수 있다. 프로세서(200)는 탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정할 수 있다. 프로세서(200)는 상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출할 수 있다.

프로세서(200)는 원본 배열을 웨이블릿 변환하고, 상기 웨이블릿 변환된 배열을 근사 영역에 해당하는 제1 영역과 상세 영역에 해당하는 제2 영역으로 구분할 수 있다. 프로세서(200)는 상기 제1 영역에 대해 델타 인코딩을 수행하고, 상기 HMMT를 참조하여 상기 제2 영역에 대해 압축 저장을 수행할 수 있다.

프로세서(200)는 상기 원본 배열을 여러 개의 작은 배열로 나누고 각각의 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 상기 제2 영역을 압축 저장하도록 제어할 수 있다. 프로세서(200)는 상기 압축 저장된 원본 배열을 디코딩 시 상기 최소 비트수를 알 수 있도록 상기 각 영역을 인코딩 시 상기 최소 비트수와 연관된 정보를 헤더 또는 프리앰블 부분에 포함시키도록 제어할 수 있다.

프로세서(200)는 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기초하여 상기 후보 영역의 최소값과 최대값을 추정할 수 있다. 이에 따라, 프로세서(200)는 상기 추정된 후보 영역의 최소값과 최대값에 기초하여 상기 압축 저장된 HMMT를 복원할 수 있다. 또한, 프로세서(200)는 상기 복원된 HMMT에 기초하여 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정할 수 있다.

이상에서는 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법 및 이를 수행하는 데이터베이스 시스템에 대해 설명하였다. 본 발명에 따른 기술의 적용 형태 (적용 가능 제품/서비스)는 배열 데이터 모델을 기반으로 동작하는 배열 데이터베이스 시스템에 적용하여 사용할 수 있다. 또한, 대용량 배열 데이터가 사용되는 과학 데이터의 저장 및 분석 서비스에 사용될 수 있다.

본 발명에 따른 기술의 적용 시장은 다양한 형태의 위치 기록 데이터(예: 선박 위치 데이터(AIS), 휴대용 단말기 등의 GPS 데이터)의 기록 및 분석에 사용될 수 있다. 유체역학을 비롯한 각종 시뮬레이션 데이터 저장 및 분석에 사용될 수 있다. 또한, 다차원 배열 형태의 과학 데이터 저장 및 분석에 사용될 수 있다.

본 발명에 따른 기술을 활용할 수 있는 대상 기업은 천체 망원경 등의 대용량의 관측 데이터를 생성하는 과학 장비를 운용하는 연구소 및 기업일 수 있다. 또한, MRI, CT등의 의학 이미지 데이터를 저장 분석하는 의료기관 혹은 연구소일 수 있다.

이러한 본 발명에 따른 고속 질의 처리가 가능한 다차원 배열 압축 방법 및 이를 수행하는 데이터베이스 시스템의 기술적 효과는 다음과 같다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능뿐만 아니라 각각의 구성 요소들에 대한 설계 및 파라미터 최적화는 별도의 소프트웨어 모듈로도 구현될 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리에 저장되고, 제어부(controller) 또는 프로세서(processor)에 의해 실행될 수 있다.

Claims

고속 질의 처리가 가능한 다차원 배열 압축 방법에 있어서, 상기 방법은 배열 데이터베이스 시스템의 프로세서에 의해 수행되고,
원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성하는 HMMT 구성 과정;
상기 HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장하는 HMMT 압축 저장 과정;
탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하는 후보 영역 추정 과정; 및
상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출하는 탐색 질의 결과 도출 과정을 포함하는, 다차원 배열 압축 방법.
제1 항에 있어서,
상기 HMMT 구성 과정은,
여러 해상도의 상기 원본 배열이 계층적 관계를 가지는 다층 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 상기 HMMT를 구성하는, 다차원 배열 압축 방법.
제1 항에 있어서,
상기 HMMT 압축 저장 과정은,
상기 원본 배열을 웨이블릿 변환하고, 상기 웨이블릿 변환된 배열을 근사 영역에 해당하는 제1 영역과 상세 영역에 해당하는 제2 영역으로 구분하고
상기 제1 영역에 대해 델타 인코딩을 수행하고, 상기 HMMT를 참조하여 상기 제2 영역에 대해 압축 저장을 수행하는, 다차원 배열 압축 방법.
제3 항에 있어서,
상기 후보 영역 추정 과정에서,
상기 원본 배열을 여러 개의 작은 배열로 나누고 각각의 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 상기 제2 영역을 압축 저장하고,
상기 압축 저장된 원본 배열을 디코딩 시 상기 최소 비트수를 알 수 있도록 상기 각 영역을 인코딩 시 상기 최소 비트수와 연관된 정보를 헤더 또는 프리앰블 부분에 포함시키는, 다차원 배열 압축 방법.
제3 항에 있어서,
상기 HMMT 압축 저장 과정에서,
상기 각 영역의 최소 비트수에 비례하는 빈도수를 갖는 확률분포함수를 갖는 허프만 트리를 생성하고,
상기 각 영역의 최소 비트수에 따라 다르게 생성된 허프만 트리를 사용하여 상기 각 영역에 포함된 정보를 압축하는, 다차원 배열 압축 방법.
제1 항에 있어서,
상기 후보 영역 추정 과정은,
상기 압축 저장된 HMMT를 복원하고, 상기 복원된 HMMT에 기초하여 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하는, 다차원 배열 압축 방법.
제6 항에 있어서,
상기 후보 영역 추정 과정에서,
상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기초하여 상기 후보 영역의 최소값과 최대값을 추정하고,
상기 추정된 후보 영역의 최소값과 최대값에 기초하여 상기 압축 저장된 HMMT를 복원하는, 다차원 배열 압축 방법.
제1 항에 있어서,
상기 HMMT 구성 과정 및 상기 HMMT 압축 저장 과정은 선박 위치 데이터(AIS) 또는 GPS 데이터의 기록, 유체역학을 포함하는 시뮬레이션 데이터의 저장 또는 다차원 배열 형태의 과학 데이터의 저장에 사용되고,
상기 탐색 질의에 따른 상기 후보 영역 추정 과정 및 상기 탐색 질의 결과 도출 과정은 상기 선박 위치 데이터(AIS) 또는 GPS 데이터의 분석, 유체역학을 포함하는 상기 시뮬레이션 데이터의 분석 또는 상기 다차원 배열 형태의 과학 데이터의 분석에 사용되는, 다차원 배열 압축 방법.
고속 질의 처리가 가능한 다차원 배열 압축 방법을 수행하는 데이터베이스에 있어서,
원본 배열과 연관된 데이터를 수신하도록 구성된 인터페이스;
상기 원본 배열이 여러 개의 작은 배열로 나누어진 각 영역에서의 최소값과 최대값에 기초하여 HMMT(Hierarchical Min-max Tree)를 구성하는 프로세서; 및
상기 프로세서와 동작 가능하게 결합되고, 다차원 배열 데이터를 저장하도록 구성된 메모리를 포함하고,
상기 프로세서는,
상기 HMMT에서 루트 노드로부터 시작하여 각 자식 노드에 담긴 최소값과 최대값의 비트 자리수를 비교하여, 자식 노드가 부모 노드와의 비트 자리수 차이를 저장하도록 상기 메모리를 제어하고,
탐색 질의에 응답하여, 상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기반하여, 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하고,
상기 후보 영역의 데이터만을 호출하여 상기 탐색 질의에 대한 수행 결과를 도출하는, 데이터베이스.
제9 항에 있어서,
상기 프로세서는,
상기 원본 배열을 웨이블릿 변환하고, 상기 웨이블릿 변환된 배열을 근사 영역에 해당하는 제1 영역과 상세 영역에 해당하는 제2 영역으로 구분하고
상기 제1 영역에 대해 델타 인코딩을 수행하고, 상기 HMMT를 참조하여 상기 제2 영역에 대해 압축 저장을 수행하는, 데이터베이스.
제10 항에 있어서,
상기 프로세서는,
상기 원본 배열을 여러 개의 작은 배열로 나누고 각각의 배열의 값들을 인코딩할 수 있는 최소 비트수만을 사용하여 상기 제2 영역을 압축 저장하고,
상기 압축 저장된 원본 배열을 디코딩 시 상기 최소 비트수를 알 수 있도록 상기 각 영역을 인코딩 시 상기 최소 비트수와 연관된 정보를 헤더 또는 프리앰블 부분에 포함시키는, 데이터베이스.
제10 항에 있어서,
상기 프로세서는,
상기 루트 노드로부터 시작하여 각 자식 노드에 기록된 비트 자리수 차이에 기초하여 상기 후보 영역의 최소값과 최대값을 추정하고,
상기 추정된 후보 영역의 최소값과 최대값에 기초하여 상기 압축 저장된 HMMT를 복원하고,
상기 복원된 HMMT에 기초하여 상기 탐색 질의를 통해 찾고자 값이 존재하는 후보 영역을 추정하는, 데이터베이스.