KR101331350B1

KR101331350B1 - 데이터 큐브를 이용한 대용량 시계열 데이터 관리 방법

Info

Publication number: KR101331350B1
Application number: KR1020120051558A
Authority: KR
Inventors: 정연돈; 양해미
Original assignee: 고려대학교 산학협력단
Priority date: 2012-05-15
Filing date: 2012-05-15
Publication date: 2013-11-20

Abstract

본 발명은 대용량 데이터 처리 및 분석 시스템에서 데이터 큐브를 이용하여 대용량 시계열 데이터를 관리하는 방법에 관한 것으로서, 구체적으로 본 발명에 따른 대용량 시계열 데이터 처리 시스템은 네트워크 상의 데이터를 수집하는 데이터 수집수단; 사용자 단말기로부터 질의되는 질의어들로부터 다차원 데이터 구조체의 데이터베이스 키를 선정하는 데이터베이스 키 선정수단; 및 상기 수집된 데이터들로부터 상기 선정된 데이터베이스 키를 이용하여 주기적으로 다차원 데이터 구조체들을 모델링하는 데이터 구조체 모델링 수단;을 포함한다.
본 발명에 따르면, 자주 요구되는 질의들을 데이터 큐브를 통해 데이터를 미리 집계하여 주기적인 시간 단위로 데이터를 복수의 독립적인 데이터 큐브로 모델링 함으로써 사용자에 의한 질의를 처리하는 시간을 단축시키는 효과가 있다.

Description

데이터 큐브를 이용한 대용량 시계열 데이터 관리 방법 {Large-scale, time-series data handling method using data cube}

본 발명은 데이터 큐브를 이용하여 데이터 모델링을 통해 효과적으로 대용량 시계열 데이터를 관리하는 방법에 관한 것이다.

빅데이터(Big Data)란 현존하는 데이터베이스 시스템으로는 수집, 저장, 분석하기 어려운 엄청난 양의 데이터를 의미한다. 빅데이터 처리와 관련하여 크기, 속도 및 다양성이라는 3가지가 이슈화 되고 있다. 크기(Volume)는 수집, 저장, 분석할 데이터의 크기를 의미하고, 속도(Velocity)는 데이터의 저장 및 처리에 소요되는 속도를 의미하며, 다양성(Variety)은 데이터의 형태, 정형화된 데이터뿐 만 아니라 이미지, 음성, 트위터와 같은 비정형 데이터를 포함하는 의미로 사용된다.

최근, 다양한 빅데이터 처리 및 분석 시스템 등장하고 있으며, 구글(Google)과 같은 선두 기업들과 오픈소스 커뮤니티에 의해 발전하고 있다. 그 중 하둡(Hadoop)이 표준처럼 사용되고 있다.

다양한 종류의 빅데이터로는 소셜 미디어, 소셜 네트워크 서비스에서 발생하는 소셜 데이터, 네트워크 트래픽 로그 및 웹 서버나 응용 프로그램의 웹 로그 등을 예로 들 수 있다. 특히 대용량 데이터 중 시계열 데이터(Time-series Data)는 시간이 지날 수록 데이터가 축적되어 다루어야 할 데이터의 크기가 엄청나게 증가하는 특징을 지닌다. 시계열 데이터의 예로는 네트워크 트래픽 로그, 웹 로그 등이 있고, 이것들은 시간의 흐름에 따른 동향 분석에 주로 이용된다.

한편, 전통적인 데이터 웨어하우스는 시계열 데이터를 전체 시간 단위로 모델링한 하나의 데이터 큐브로 생성해 저장하고 관리한다. 시간이 지남에 따라 추가적인 데이터가 발생하면 추가로 발생한 데이터는 이미 생성된 데이터 큐브에 삽입되거나 또는 이미 생성된 데이터 큐브를 갱신함으로써 반영시키게 된다. 질의 처리 시에는 색인을 통해 해당 데이터를 탐색한다.

그러나 이러한 갱신과 탐색 방법은 시간에 따라 폭발적으로 증가하는 대용량시계열 데이터를 다루기에는 적합하지 않다. 즉, 시계열 데이터의 경우 시간이 지남에 따라 데이터가 계속해서 축적되어 데이터 큐브의 갱신과 데이터 큐브로부터 특정 데이터를 탐색하는데 소요되는 시간이 증가하는 문제점이 발생한다. 또한 시간이 지날 수록 폭발적으로 증가하는 데이터로 인해 디스크 가용성에 대한 효율성이 급격히 감소하는 문제점이 발생한다.

따라서, 대용량 데이터 처리 및 분석 시스템에 전통적인 데이터 웨어하우스에서 데이터 큐브 관리 방법을 그대로 적용하는 것은 비효율적이기 때문에 새로운 데이터 모델링 방법의 필요성이 대두된다.

본 발명은 대용량 데이터 처리 및 분석 시스템에서 대용량 시계열 데이터에 대한 질의 처리 시간을 단축시킬 수 있는 데이터 큐브의 관리 방법을 제공한다.

또한 본 발명은 시간에 따라 증가하는 시계열 데이터의 저장과 관련하여 디스크 가용성 문제를 효율적으로 개선할 수 있는 방법을 제공한다.

본 발명에 따른 대용량 시계열 데이터 처리 시스템은 네트워크 상의 데이터를 수집하는 데이터 수집수단; 사용자 단말기로부터 질의되는 질의어들로부터 다차원 데이터 구조체의 데이터베이스 키를 선정하는 데이터베이스 키 선정수단; 및 상기 수집된 데이터들로부터 상기 선정된 데이터베이스 키를 이용하여 주기적으로 다차원 데이터 구조체들을 모델링하는 데이터 구조체 모델링 수단;을 포함한다.

또한 상기 선정된 데이터베이스 키를 추상화함으로써 상기 다차원 데이터 구조체들로부터 선정된 적어도 둘 이상의 데이터 구조체들을 병합하는 에이징 수단을 더 포함할 수 있다.

나아가 상기 에이징 수단은 상기 에이징 수단에 의하여 병합된 데이터 구조체들로부터 선정된 적어도 둘 이상의 데이터 구조체들을 병합할 수 있다.

또한 상기 다차원 데이터 구조체는 데이터 큐브 방식으로 모델링 될 수 있다.

또한 상기 다차원 데이터 구조체들을 각각 독립적으로 분산저장하는 분산처리 수단을 더 포함할 수 있다.

나아가 상기 분산처리 수단에 의하여 상기 다차원 데이터 구조체들이 추가 전용(append only)으로 저장되는 데이터 저장부를 더 포함할 수 있다.

한편, 본 발명에 따른 대용량 시계열 데이터 관리 방법은 요구 빈도가 높은 질의들을 집계하여 다차원 데이터 구조체를 위한 데이터 베이스 키를 선정하는 제1 단계; 및 수집된 데이터로부터 상기 선정된 데이터 베이스 키를 이용하여 주기적으로 독립적인 다차원 데이터 구조체들을 모델링하는 제2 단계;를 포함한다.

또한 상기 데이터 구조체들 중 일정 시간이 경과된 데이터 구조체들을 상기 데이터 베이스 키의 추상화를 통하여 병합하는 제3 단계를 더 포함할 수 있다.

나아가 상기 제3 단계는, 상기 데이터 구조체들 중 모델링된 후 가장 오래된2개의 데이터 큐브를 선택하는 제3a 단계; 상기 선택된 데이터 큐브들이 같은 시간을 주기로 모델링 되었는지 여부를 판단하는 제3b 단계; 및 상기 선택된 데이터 큐브들이 같은 시간을 주기로 모델링 된 경우 상기 선택된 데이터 큐브들을 병합하는 제3c 단계:를 포함할 수 있다.

더 나아가 상기 제3b 단계에서는 상기 선택된 데이터 큐브 들이 동일한 필드를 갖고 있는지 여부를 더 판단하고, 상기 제3c 단계에서는 상기 선택된 데이터 큐브들이 같은 시간을 주기로 모델링 되고, 동일한 필드를 갖고 있는 경우 상기 선택된 데이터 큐브들을 병합할 수 있다.

또한 상기 제3 단계는 디스크 가용성에 한계가 이르면 상기 데이터 큐브들 중 오래된 데이터 큐브들을 대상으로 반복될 수 있다.

본 발명에 따르면, 자주 요구되는 질의들을 이용하여 주기적인 시간 단위로 데이터를 다양한 차원을 가지는 데이터로 모델링 함으로써 사용자에 의한 질의를 처리하는 시간을 단축시키는 효과가 있다.

또한 본 발명에 따르면 시기적으로 오래된 데이터 큐브들을 추상화함으로써 데이터 자체의 크기를 감소시키고, 디스크 가용성을 효율적으로 증가시키는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 처리 시스템의 모습을 나타내는 블록도이다.
도 2는 일 실시예에 따른 다차원 데이터 구조체의 모습을 나타내는 블록도이다.
도 3은 종래의 데이터 큐브 구조에 따른 분산 처리 상태를 나타내는 블록도이다.
도 4는 일 실시예에 따른 다차원 데이터 구조체의 분산처리 모습을 나타내는 블록도이다.
도 5a 내지 도 5d는 일 실시예에 따른 에이징 단계를 순차적으로 나타내는 블록도이다.
도 6a 및 도 6b는 다른 실시예에 따른 에이징 단계를 순차적으로 나타내는 블록도이다.
도 7은 일 실시예에 따른 다차원 데이터 관리 방법을 나타내는 순서도이다.
도 8은 일 실시예에 따른 데이터 관리 방법과 비교예에 따른 데이터 관리 방법의 비교 테스트에 따른 결과를 나타내는 그래프이다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다. 특별한 정의나 언급이 없는 경우에 본 설명에 사용하는 방향을 표시하는 용어는 도면에 표시된 상태를 기준으로 한다.

데이터 웨어하우스(data warehouse)란 여러 원천(source)들로부터 수집된 데이터를 추출, 가공, 요약하여 사용자의 의사 결정을 효율적으로 지원하는 특성을 지니는 시스템을 말한다. 데이터 웨어하우스의 데이터는 다양한 차원으로 모델링 될 수 있다. 데이터를 다차원으로 모델링 하기 위해서는 차원(dimension)과 사실(fact)이 정의되어야 한다. 차원이란 분석에 필요한 대상이 되는 것을 의미한다. 사실이란 숫자적으로 표현되는 값을 의미한다.

다차원 정보분석 요구를 반영하는 논리적인 모델을 실제로 구축하고 처리하는 방식과 과정은 정보분석 도구마다 다르다. 다차원 모델을 구축하기 위한 정보분석 도구를 OLAP(On Line Analytical Processing) 도구라 하는데 이는 다차원 정보분석을 지원하는 소프트웨어를 말하며, 다차원 데이터베이스(MDDB) 제품을 중심으로 발전되어왔다.

본 실시예에서는 다차원 데이터 모델링 방법인 데이터 큐브를 이용한 데이터관리 방법을 예를 들어 설명한다.

도 1 내지 도 6b를 참조하여 일 실시예에 따른 데이터 처리 시스템을 설명한다. 도 1은 본 발명의 일 실시예에 따른 데이터 처리 시스템의 모습을 나타내는 블록도이다.

데이터 수집수단(110)은 네트워크 상의 데이터를 수집한다. 즉, 데이터 수집수단(110)은 사용자로부터 발생하는 네트워크 트래픽 데이터를 실시간으로 수집한다.

데이터베이스 키 선정수단(120)은 사용자 단말기(10)로부터 질의되는 질의어들로부터 다차원 데이터 구조체의 데이터베이스 키를 선정한다. 구체적으로 데이터베이스 키 선정수단(120)은 사용자 단말기(10)로부터 질의되는 질의어의 빈도수를 기반으로 자주 사용되는 질의어를 데이터베이스 키로 선정할 수 있다. 데이터베이스 키는 다차원 데이터 구조체의 각 차원을 결정하는데 이용될 수 있다.

본 실시예에 따른 데이터 구조체의 모델링 수단(130)을 설명한다. 도 2는 일 실시예에 따른 다차원 데이터 구조체의 모습을 나타내는 블록도이다. 데이터 구조체를 모델링하는 모델링 수단(130)은 데이터 수집수단(110)에 의하여 수집된 데이터들로부터 사용자에게 자주 요구되는 질의에 대해 데이터를 미리 집계하고 다양한 차원의 데이터로 모델링 방법인 데이터 큐브를 이용해 생성한다. 모델링 수단(130)은 1일 또는 일주일과 같이 일정한 기간을 주기로 하여 수집된 데이터로부터 데이터 큐브를 생성한다. 즉, 도 2에 도시된 바와 같이 일정한 주기를 단위로 데이터 1 내지 4(Data 1 내지 Data 4)를 수집한 경우 각각의 데이터(Data 1 내지 4)를 대상으로 독립적인 데이터 큐브(DC1 내지 DC4)를 모델링한다.

본 실시예에 따른 분산처리 수단 및 데이터 저장부를 설명한다. 도 3은 종래의 데이터 큐브 구조에 따른 분산 처리 상태를 나타내는 블록도이고, 도 4는 일 실시예에 따른 다차원 데이터 구조체의 분산처리 모습을 나타내는 블록도이다.

분산처리 수단(140)은 모델링 수단(130)에 의하여 형성된 다차원 데이터 구조체들을 각각의 노드에 독립적으로 분산저장한다. 일반적으로 데이터 큐브 데이터 구조체를 분산저장하는 경우 데이터 큐브의 데이터 전체를 일정 수의 노드에 분산하여 저장하게 된다. 예를 들어 1Gbyte 크기의 데이터 큐브를 분산저장하는 경우 도 3에 도시된 바와 같이 총 16개의 노드에 64Mbyte 크기의 데이터의 조각으로 나누어 저장할 수 있다. 그러나 1Gbyte 크기의 데이터 큐브 대신 256Mbyte 크기의 4개의 데이터 큐브로 모델링하는 경우 도 4에 도시된 바와 같이 어느 한 큐브(DC4)에 해당하는 데이터는 각각 64Mbyte 크기의 데이터 조각으로 나뉘어 4개의 노드(노드 4-1 내지 노드 4-4)에 분산 저장될 수 있다.

데이터 저장부(150)는 모델링 수단(130)에 의하여 모델링된 데이터 큐브를 저장한다. 앞서 설명한 각각의 노드가 데이터 저장부(150)에 해당할 수 있으며, 분산처리 수단(140)에 의하여 데이터 큐브의 각 노드에 분산되어 저장될 데이터 조각을 저장한다. 한편, 본 실시예에 따른 데이터 저장부(150)의 경우 효율적으로 대용량 데이터를 처리하기 위해 갱신과 색인을 지원하지 않는 추가 전용(append only) 저장부일 수 있다. 즉, 데이터 저장부 (150)에서는 기존의 경우처럼 하나의 데이터 큐브를 형성한 후 데이터가 추가되는 경우에는 데이터를 갱신하거나, 데이터 큐브에 새로운 데이터를 삽입하는 방식으로 데이터 큐브의 데이터를 갱신할 수 없다. 따라서, 본 실시예에서는 주기적으로 수집되는 새로운 데이터를 기존의 데이터 큐브에 삽입하거나 갱신하지 않고, 독립적인 여러 개가 데이터 큐브를 생성하여 관리하게 된다.

[표 1]

즉, 위의 표 1에 도시된 바와 같이 본 실시예에 따른 대용량 데이터 처리 및분석 시스템은 종래와는 달리 데이터의 갱신을 미지원하는 대신 추가 전용 저장소를 지원하여 빠른 데이터의 반영을 용이하게 하며, 색인을 미지원하는 대신 분산 처리를 통해 전체를 저장함으로써 전체 데이터가 아닌 탐색 결과에 해당하는 데이터만 접근하여 결과를 반환할 수 있도록 해서 데이터의 탐색에 불필요한 자원낭비를 막는다.

본 실시예에 따른 에이징 수단을 설명한다.　도 5a 내지 도 5d는 일 실시예에 따른 에이징 단계를 순차적으로 나타내는 블록도이고, 도 6a 및 도 6b는 다른 실시예에 따른 에이징 단계를 순차적으로 나타내는 블록도이다. 에이징 수단(160)은 디스크 가용성에 한계가 오면 가장 오래된 데이터 큐브를 대상으로 병합을 시도하는 기능을 수행한다. 예를 들어 도 5a에 도시된 바와 같이 오래된 두 데이터 큐브(DC1, DC2)들을 선택하여 병합을 시도한다. 먼저 두 데이터 큐브(DC1, DC2)가 병합될 수 있는 데이터 큐브인지를 판단한다. 예를 들어 두 데이터 큐브(DC1, DC2)가 같은 시간을 주기로 모델링 되었는지 여부와 각각의 데이터 큐브들이 동일한 필드를 갖고 있는지 여부를 판단함으로써 데이터 큐브들의 병합 가능 여부를 판단한다. 두 데이터 큐브(DC1, DC2)가 같은 시간을 주기로 모델링되었으며, 동일한 필드를 갖고 있는 경우에는 병합가능한 데이터 큐브로 판단할 수 있으며, 도 5b에 도시된 바와 같이 두 데이터 큐브를 병합할 하게 된다. 이러한 단계는 다음의 데이터 큐브(DC3, DC4)에 대하여 동일하게 수행할 수 있다. 즉, 두 데이터 큐브(DC3, DC4)를 선택하고 병합가능 여부를 판단한다. 판단 결과 병합이 가능한 것으로 판단되는 경우에는 도 5d에 도시된 바와 같이 병합을 수행한다.

한편, 이러한 데이터 큐브의 병합은 모델링 된 데이터 큐브 뿐 아니라 도 6a에 도시된 바와 같이 이미 병합된 데이터 큐브들(M_DC1, M_DC2) 간에도 수행될 수 있다. 즉 앞서 설명한 방법과 동일한 방법으로 이미 병합된 데이터 큐브들이 저장된 데이터 큐브 중 가장 오래된 데이터 큐브가 되면 두 데이터 큐브들(M_DC1, M_DC2)를 선택하고, 두 데이터 큐브들(M_DC1, M_DC2)간의 병합 가능여부를 판단한다. 병합이 가능한 것으로 판단되는 경우에는 도 6b에 도시된 바와 같이 두 데이터 큐브들(M_DC1, M_DC2)간의 병합을 수행한다.

데이터 에이징이란 디스크 가용성에 한계가 이르면 가장 오래된 데이터 큐브의 데이터를 추상화 시킴으로써 저장된 데이터의 크기를 줄이는 과정을 의미한다. 즉 데이터 에이징을 통하여 질의의 대상이 될 확률이 감소되는 오래된 데이터의 크기를 실질적으로 감소시킬 수 있게 된다.

도 7을 참조하여 본 실시예에 따른 다차원으로 모델링 된 데이터의 관리 방법을 설명한다. 도 7은 일 실시예에 따른 다차원으로 모델링된 데이터의 관리 방법을 나타내는 순서도이다.

본 실시예에 따른 대용량 시계열 데이터 관리 방법은 다음과 같은 단계를 포함한다. 먼저 앞서 설명한 바와 같이 네트워크 상의 데이터를 수집한다(S10). 이와는 별도로 혹은 순차적으로 사용자 단말기로부터 질의되는 질의어의 빈도를 계측하고(S20), 질의어의 빈도를 기반으로 데이터를 모델링한다(S40). 이 때 앞서 설명한 바와 같이 수집된 데이터들을 주기적으로 모델링함으로써 데이터 큐브들을 생성한다.

이후 데이터 큐브들이 저장된 저장소의 가용성에 한계가 오면 오래된 데이터 큐브를 선택하여 에이징을 수행할 수 있다. 에이징은 다차원 데이터 구조체 모델링(S40) 단계의 반복 중에 이루어지는 것이 가능하다. 구체적으로 에이징 단계는 데이터 큐브를 선택하는 단계(S50)와 데이터 큐브를 병합하는 단계(S60)로 구분될 수 있다.

앞서 설명한 바와 같이 가장 오래된 데이터 큐브를 선택한다. 이후 데이터 큐브를 병합하기 위하여 병합 가능여부를 판단하고 병합이 가능한 것으로 판단되는 경우에는 병합을 수행한다.

도 8을 참조하여 일 실시예에 따른 데이터 관리 방법과 비교예에 따른 데이터 관리 방법을 비교하는 테스트를 설명한다. 도 8은 일 실시예에 따른 데이터 관리 방법과 비교예에 따른 데이터 관리 방법의 비교 테스트에 따른 결과를 나타내는 그래프이다.

본 실시예에 따른 대용량 시계열 데이터 큐브 관리 방법에 대한 질의 처리 시간을 평가하기 위하여 비교예에 따른 데이터 큐브 관리 방법과의 비교 실험을 수행하였다.

본 실시예에 따른 데이터 큐브 관리 방법을 PTU (Period Time Unit) 데이터 큐브타입이라 한다면, 비교예에 따른 데이터 큐브 관리 방법은 TTU (Total Time Unit) 데이터 큐브 타입이라 할 수 있다. 즉, 본 실시예에 따른 데이터 큐브 관리 방법은 주기적으로 수집된 데이터들을 이용하여 복수의 데이터 큐브를 형성하였으며, 비교예에 따른 데이터 큐브 관리 방법은 하나의 데이터 큐브를 형성한 경우에 해당한다.

실험을 위하여 i5-2500 3.3Ghz의 CPU와 16GB의 RAM을 구비한 컴퓨터 30대로 클러스터를 구성하였으며, 트래픽 수집기를 통해 계속해서 유입되는 실제 네트워크 트래픽 로그를 사용하여 결과를 측정하였다.

저장된 실시예와 비교예에 따른 데이터 큐브에 대해 다음과 같이 특정 시간 범위(Q1 내지 Q4)에 해당하는 데이터를 선택하는 질의를 처리하고 결과를 측정하였으며, 그 결과를 도 8에 도시하였다.(단, Q1: SELECT a, b, c, d FROM cube WHERE t1 < time and time < t2, Q2: SELECT a, b, c, d FROM cube WHERE t1 < time and time < t3, Q3: SELECT a, b, c, d FROM cube WHERE t1 < time and time < t4, Q4: SELECT a, b, c, d FROM cube WHERE t1 < time and time < t5)

도 8에 도시된 바와 같이, Q1 시간 범위에서 본 실시예의 경우 약 25sec가 소요되었으며, 이에 비하여 비교예의 경우 약 250sec가 소요되었다. Q2의 시간 범위에서 본 실시예의 경우 약 35sec가 소요되었으며, 비교예의 경우 235sec가 소요되었다. Q3의 시간 범위에서 본 실시예의 경우 약 47sec가 소요되었으며, 비교예의 경우 약 245sec가 소요되었다. Q4의 시간 범위에서 본 실시예의 경우 약 108sec가 소요되었으며, 비교예의 경우 약 240sec가 소요되었다.

즉, 본 실시예(PTU 데이터 큐브)의 경우 제안 방법이 전체 시간 단위로 데이터 큐브를 생성했을 때보다 빠른 질의 처리 시간을 보이는 것을 실험을 통해 증명함으로써 비교예(TTU 데이터 큐브)에 비하여 대용량 데이터 처리 및 분석 시스템에 적합한 것을 확인할 수 있었다.

이상 본 발명의 바람직한 실시예에 대하여 설명하였으나, 본 발명의 기술적 사상이 상술한 바람직한 실시예에 한정되는 것은 아니며, 특허청구범위에 구체화된 본 발명의 기술적 사상을 벗어나지 않는 범주에서 다양한 데이터 큐브를 이용한 대용량 시계열 데이터 처리 시스템 및 분석 방법으로 구현될 수 있다.

10, 10a, 10b, 10c: 사용자 단말기
100: 데이터 처리 시스템 110: 데이터 수집수단
120: 데이터베이스 키 선정수단 130: 모델링 수단
140: 분산처리 수단 150: 데이터 저장부
160: 에이징 수단

Claims

네트워크 상의 데이터를 수집하는 데이터 수집수단;
사용자 단말기로부터 질의되는 질의어들로부터 다차원 데이터 구조체의 데이터베이스 키를 선정하는 데이터베이스 키 선정수단;
상기 수집된 데이터들로부터 상기 선정된 데이터베이스 키를 이용하여 주기적으로 다차원 데이터 구조체들을 모델링하는 데이터 구조체 모델링 수단; 및
상기 선정된 데이터베이스 키를 추상화함으로써 상기 다차원 데이터 구조체들로부터 선정된 적어도 둘 이상의 데이터 구조체들을 병합하는 에이징 수단;을 포함하는 대용량 시계열 데이터 처리 시스템.
삭제
제1항에 있어서,
상기 에이징 수단은 상기 에이징 수단에 의하여 병합된 데이터 구조체들로부터 선정된 적어도 둘 이상의 데이터 구조체들을 병합하는 대용량 시계열 데이터 처리 시스템.
제1항에 있어서,
상기 다차원 데이터 구조체는 데이터 큐브 방식으로 모델링 되는 대용량 시계열 데이터 처리 시스템.
제1항에 있어서,
상기 다차원 데이터 구조체들을 각각 독립적으로 분산저장하는 분산처리 수단을 더 포함하는 대용량 시계열 데이터 처리 시스템.
제5항에 있어서,
상기 분산처리 수단에 의하여 상기 다차원 데이터 구조체들이 추가 전용(append only)으로 저장되는 데이터 저장부를 포함하는 대용량 시계열 데이터 처리 시스템.
질의들을 집계하여 다차원 데이터 구조체를 위한 데이터 베이스 키를 선정하는 제1 단계;
수집된 데이터로부터 상기 선정된 데이터 베이스 키를 이용하여 주기적으로 독립적인 다차원 데이터 구조체들을 모델링하는 제2 단계; 및
상기 데이터 구조체들 중 일정 시간이 경과된 데이터 구조체들을 상기 데이터 베이스 키의 추상화를 통하여 병합하는 제3 단계;를 포함하는 대용량 시계열 데이터 관리 방법.
삭제
제7항에 있어서,
상기 제3 단계는,
상기 데이터 구조체들 중 모델링된 후 일정 시간이 경과된 적어도 2개 이상의 데이터 큐브를 선택하는 제3a 단계;
상기 선택된 데이터 큐브들이 같은 시간을 주기로 모델링 되었는지 여부를 판단하는 제3b 단계; 및
상기 선택된 데이터 큐브들이 같은 시간을 주기로 모델링 된 경우 상기 선택된 데이터 큐브들을 병합하는 제3c 단계:를 포함하는 대용량 시계열 데이터 관리 방법.
제9항에 있어서,
상기 제3b 단계에서는 상기 선택된 데이터 큐브 들이 동일한 필드를 갖고 있는지 여부를 더 판단하고,
상기 제3c 단계에서는 상기 선택된 데이터 큐브들이 같은 시간을 주기로 모델링 되고, 동일한 필드를 갖고 있는 경우 상기 선택된 데이터 큐브들을 병합하는 대용량 시계열 데이터 관리 방법.
제7항에 있어서,
상기 제3 단계는 상기 데이터 큐브들 중 오래된 데이터 큐브들을 대상으로 반복되는 대용량 시계열 데이터 관리 방법.