KR20090130614A

KR20090130614A - 다차원 데이터 처리 방법 및 분석 방법과 다차원 데이터처리 장치

Info

Publication number: KR20090130614A
Application number: KR1020080056325A
Authority: KR
Inventors: 이원석
Original assignee: 연세대학교 산학협력단
Priority date: 2008-06-16
Filing date: 2008-06-16
Publication date: 2009-12-24
Also published as: KR101047592B1

Abstract

다차원 데이터의 처리 방법 및 분석 방법, 그리고 다차원 데이터 처리 장치가 개시된다. 본 발명에 따른, 복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 처리 방법은, 복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 단계; 및 입력되는 데이터에 따라 상기 차원 속성 정보 및 측정치 속성 정보를 갱신하는 단계를 포함하는 것을 특징으로 한다. 이러한 본 발명은 지속적으로 발생되는 데이터 스트림 형태의 다차원 데이터에 적합하며, 데이터 큐브의 메모리 사용량을 효과적으로 관리할 수 있고 새롭게 생성되는 데이터의 처리 시간을 절약할 수 있다.

다차원 데이터, 데이터스트림, OLAP, 데이터 큐브

Description

다차원 데이터 처리 방법 및 분석 방법과 다차원 데이터 처리 장치{Method for processing multi-dimensional data, method for analyzing multi-dimensional data and apparatus for processing multi-dimensional data}

본 발명은 다차원 데이터의 처리 및 분석에 관한 것으로, 보다 상세하게는 복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 처리 방법 및 분석 방법, 그리고 다차원 데이터 처리 장치에 관한 것이다.

다차원 데이터 분석에 있어 기존의 데이터베이스 및 데이터 웨어하우스 시스템에서의 OLAP(online analytical processing) 기술은 많은 발전을 이루었다. OLAP은 다차원 데이터에 대한 요약, 통합, 관찰, 공식 적용, 종합의 특성을 가지고 있으며, OLAP 시스템에 사용되는 다차원 데이터 모델에 있어서 데이터 큐브는 차원과 척도라는 두 요소에 의해 데이터 항목의 다양한 특성을 나타내는 데 사용된다. OLAP 기술은 현재 데이터 분석가 및 의사 결정권자에게 없어서는 안될 기본적인 도구로 성장하였으며, OLAP의 다차원 데이터 모델인 데이터 큐브는 많은 다차원 데이터 분석에 성공적으로 적용되었다.

정보 기술의 급속한 발전으로 인해, 여러 응용 범위에서 생성되는 정보의 양 은 이전 어느 때보다 급속히 증가하고 있으며, 유비쿼터스 시대가 도래함에 따라 데이터 스트림의 양은 빠르게 증가되고 있다. 데이터 스트림은 다른 응용 범위에서의 데이터와는 다르게 실시간에 지속적으로 방대하게 생성되며, 데이터의 분포적 특성이 빠르게 변한다는 특징을 가지고 있다.

그러나 다차원 분석에 있어 OLAP 기술은 많은 발전을 이루었지만 데이터 스트림 처리에 있어 이러한 요구 조건을 만족시키기 위해 기존의 OLAP의 다차원 데이터 모델인 데이터 큐브를 그대로 사용하는 것은 한계를 가지고 있다.

발생되는 다차원 데이터 스트림을 한정된 메모리 공간에 모두 저장하는 것은 불가능하다. 이런 특성을 고려하여 데이터 스트림에서 정보에 대한 지식을 추출하기 위해서는 다음과 같은 조건들은 만족하는 것이 바람직하다. 첫째, 데이터 스트림에서 각 트랜잭션 정보는 단 한번만 읽고 처리해야 한다. 둘째, 데이터 스트림에서 새로운 데이터가 지속적으로 생성된다 하더라도, 한정된 물리적 메모리 공간에서 처리해야 한다. 셋째, 새롭게 생성된 데이터는 가능한 빠르게 처리되어야 한다. 넷째, 데이터 스트림에서 갱신된 결과는 필요시 즉시 제공되어야 한다.

따라서 본 발명이 이루고자 하는 기술적 과제는 지속적으로 발생되는 데이터 스트림 형태의 다차원 데이터 처리에 적합하며, 데이터 스트림에서 데이터 큐브의 메모리 사용량을 효과적으로 관리할 수 있고 새롭게 생성되는 데이터를 빨리 처리할 수 있는 다차원 데이터 처리 방법, 다차원 데이터 분석 방법, 다차원 데이터 처 리 장치, 그리고 상기 다차원 데이터 처리 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는 데 있다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른, 복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 처리 방법은, 복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 단계; 및 입력되는 데이터에 따라 상기 차원 속성 정보 및 측정치 속성 정보를 갱신하는 단계를 포함하는 것을 특징으로 한다.

여기서, 상기 차원 속성 정보는 상기 차원 속성 값 그룹의 범위 및 빈도수를 포함할 수 있고, 상기 측정치 속성 정보는 상기 차원 속성 값 그룹에 속한 측정치 속성 값에 대한 평균값을 포함할 수 있다.

또한, 상기 트리 구조는 서로 다른 차원 속성 값 그룹을 가지는 노드 간의 싱글 링크드 리스트인 형제 리스트를 포함할 수 있다.

또한, 상기 트리 구조는, 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함할 수 있다. 그리고 상기 1차원 트리 및 상기 큐브 트리의 각 레벨은 서로 다른 차원 속성 값 그룹을 가지는 두 노드 간의 싱글 링크드 리스트인 형제 리스트로 이루어질 수 있다.

또한, 상기 다차원 데이터 처리 방법은, 상기 차원 속성 값 그룹의 지지율이 소정 범위 내에 위치하도록 노드에 속한 차원 속성 값 그룹을 재그룹화하는 단계를 더 포함할 수 있다.

여기서, 상기 재그룹화하는 단계는, 지지율이 소정 값인 최대 지지율보다 높은 차원 속성 값 그룹을 둘 또는 그 이상의 차원 속성 값 그룹들로 분할하여 재그룹화하는 확장 단계를 포함할 수 있다. 또한, 상기 재그룹화하는 단계는, 지지율이 소정 값인 최소 지지율보다 낮은 둘 또는 그 이상의 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여 재그룹화하는 축소 단계를 더 포함할 수 있다.

또한, 상기 재그룹화하는 단계는, 상기 분할된 차원 속성 값 그룹들 또는 상기 병합된 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 갱신하는 단계를 더 포함할 수 있다.

나아가, 상기 재그룹화하는 단계는, 상기 확장 단계 이전에, 상기 확장 단계를 수행하였을 경우에 예상되는, 상기 트리 구조가 저장되는 메모리의 예상 메모리 사용량이 소정 값인 최대 메모리 사용량보다 큰 경우 상기 최대 지지율 및 상기 최소 지지율을 각각 소정 값만큼 증가시고, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작아지도록 상기 축소 단계를 수행하는 단계를 더 포함할 수 있다.

나아가, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량과 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량 사이인 경우 상기 확장 단계를 소정 주기만큼 지연시켜 수행할 수 있다.

나아가, 상기 재그룹화하는 단계는, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량보다 작은 경우 상기 최대 지지율 및 최소 지지율을 초기에 설정된 값에 가까워지도록 소정 값만큼 감소시키는 단계를 더 포함할 수 있다.

상기 기술적 과제를 해결하기 위하여 상기된 다차원 데이터 처리 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른, 복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 분석 방법은, 차원 속성 값을 포함하는 다차원 데이터 분석을 위한 기준 정보를 입력받는 단계; 및 상기 입력된 기준에 따라, 복수 개의 노드들로 이루어지며 각 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보가 저장된 트리 구조를 탐색하는 단계를 포함하는 것을 특징으로 한다.

한편, 상기 트리 구조에 저장된 정보로부터 예외를 탐지하고자 하는 경우 다단 군집 추출을 역으로 이용하여 예외를 탐지하는 단계를 더 포함할 수 있다.

상기 트리 구조는, 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함할 수 있고, 상기 예외를 탐지하는 단계는, 상기 1차원 트리의 각 레벨을 모집단으로 하고 큐브 트리의 각 레벨을 다단을 통해 추출된 군집 표본들로 하여 다단 군집 추출을 역으로 이용할 수 있다.

이때 상기 예외를 탐지하는 단계는, 예외 표본들을 추출해 내기 위해서 그 지표로서 Z-score를 사용할 수 있고, 전체 모집단의 Z-score와 다단 군집 표본의 Z-score 간의 거리가 소정 값 이상 떨어진 표본을 예외로서 탐지할 수 있다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른, 복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터를 처리하기 위한 장치는, 복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하기 위한 메모리; 및 입력되는 데이터에 따라 상기 차원 속성 정보 및 측정치 속성 정보를 갱신하는 갱신부를 포함하는 것을 특징으로 한다.

상기 다차원 데이터 처리 장치는, 상기 차원 속성 값 그룹의 지지율이 소정 범위 내에 위치하도록 노드에 속한 차원 속성 값 그룹을 재그룹화하는 재그룹화부를 더 포함할 수 있다.

여기서, 상기 재그룹화부는 지지율이 소정 값인 최대 지지율보다 높은 차원 속성 값 그룹을 둘 또는 그 이상의 차원 속성 값 그룹들로 분할하여 재그룹화할 수 있다. 또한, 상기 재그룹화부는 지지율이 소정 값인 최소 지지율보다 낮은 둘 또는 그 이상의 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여 재그룹화할 수 있다. 이때 상기 갱신부는 상기 재그룹화 결과에 따라 상기 분할된 차원 속성 값 그룹들 또는 상기 병합된 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 갱신할 수 있다.

또한, 상기 재그룹화부는, 상기 확장부의 동작을 수행하였을 경우에 예상되 는, 상기 메모리의 예상 메모리 사용량이 소정 값인 최대 메모리 사용량보다 큰 경우 상기 최대 지지율 및 상기 최소 지지율을 각각 소정 값만큼 증가시키고, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작아지도록 상기 병합을 수행할 수 있다.

나아가, 상기 재그룹화부는, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량과 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량 사이인 경우 상기 분할을 소정 주기만큼 지연시켜 수행할 수 있다.

나아가, 상기 재그룹화부는, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량보다 작은 경우 상기 최대 지지율 및 최소 지지율을 초기에 설정된 값에 가까워지도록 소정 값만큼 감소시킬 수 있다.

상기 기술적 과제를 해결하기 위하여 본 발명에 따른, 복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 처리 장치는, 차원 속성 값을 포함하는 다차원 데이터 분석을 위한 기준 정보를 입력받는 사용자 입력부; 복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하기 위한 메모리; 및 상기 입력된 기준에 따라, 상기 메모리에 저장된 트리 구조를 탐색하는 탐색부를 포함하는 것을 특징으로 한다.

한편, 상기 탐색부는, 상기 트리 구조에 저장된 정보로부터 예외를 탐지하고자 하는 경우, 다단 군집 추출을 역으로 이용하여 예외를 탐지할 수 있다.

상기 트리 구조는, 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함할 수 있고, 상기 탐색부는, 상기 1차원 트리의 각 레벨을 모집단으로 하고 큐브 트리의 각 레벨을 다단을 통해 추출된 군집 표본들로 하여 다단 군집 추출을 역으로 이용할 수 있다.

이때 상기 탐색부는, 예외 표본들을 추출해 내기 위해서 그 지표로서 Z-score를 사용할 수 있다.

상술한 본 발명은 지속적으로 발생되는 데이터 스트림 형태의 다차원 데이터에 적합하며, 데이터 큐브의 메모리 사용량을 효과적으로 관리할 수 있고 새롭게 생성되는 데이터의 처리 시간을 절약할 수 있다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.

우선, OLAP의 대표적인 데이터 모델인 데이터 큐브에 관하여 설명하기로 한다. 데이터 큐브는 데이터를 다차원으로 모델링하고 보여지도록 하며, 차원(Dimension)과 사실(Fact)로 정의된다. 차원이란 조직이 데이터 레코드를 운용하는 이유의 대상이 되는 측면을 의미하고, 사실이란 숫자적으로 표현되는 값을 의미한다. 예를 들어 자동차 판매량(sales)에 대하여 Company, Region, Color에 따라 자동차가 어떤 판매 경향을 나타내는지 알아보기 위하여 데이터 큐브를 구성한다면, 차원을 Company, Region, Color으로 결정하고, 판매량을 사실로 결정할 수 있다. 그에 따른 데이터 큐브는 도 1과 같이 나타낼 수 있게 된다. 도 1을 참조하면, (a)에 도시된 사실 테이블은 (b), (c), (d)에 도시된 바와 같은 각 차원 뷰로 나타낼 수 있으며, 각 차원에서의 큐보이드(quboid)들은 (e)와 같은 래티스 구조를 가진다. 이러한 테이블들은 관계 데이터의 집합들을 어떻게 분석할 지를 나타내게 되며, 가능한 집합의 수는 원래의 데이터를 계층적으로 연결 할 수 있는 모든 가능한 방법에 의해 결정된다.

데이터 스트림은 전통적인 데이터베이스 시스템에서의 데이터와 달리 실시간 에 지속적으로 방대하게 생성된다. 데이터 스트림의 대표적인 예로는 유비쿼터스 환경에서의 센서 데이터, 증권, 날씨, 콜센터, 웹 페이지 클릭 로그 데이터 등등을 들 수 있으며, 데이터 스트림은 다음과 같이 정의될 수 있다.

1. 데이터 스트림 D^t는 과거부터 현재 시점 t까지의 튜플(tuple) T^t를 포함하는 집합을 의미한다. D^t = {T¹, T², T³, ..., T^t}. |D^t|는 현재 데이터 집합 Dt에 포함된 튜플의 총 수를 의미한다.

2. 튜플 T는 두 가지 종류의 속성으로 구성될 수 있다. 하나는 차원을 나타내기 위한 속성으로 DIM으로 표기하고, 다른 하나는 측정치를 나타내기 위한 속성으로 M으로 표기한다. 즉, DIM∪M = T 이고, DIM∩M = φ 이다.

3. M은 데이터 베이스에서 사용하는 COUNT, SUM, AVG 등과 같은 집계 함수를 통한 집계가 가능하다.

4. DIM은 다차원 공간에서 하나의 셀(Cell)을 이룬다.

데이터 스트림은 튜플, 즉 셀이 실시간에 지속적으로 방대하게 무한히 생성되는 튜플의 집합으로 정의 될 수 있다.

본 발명의 일 실시예에서, 데이터 큐브는 전체 큐보이드를 이용한 데이터 큐브를 구성하는 대신에 차원 속성 값의 그룹화를 통하여, 소정 범위인 사용자 관심 영역에 대한 분석 상세 정도를 유지한다. 사용자 관심 영역은 소정 값인 최소 지지율 S_min과 최대 지지율 S_max 사이의 범위로서 도 2에 도시된 바와 같은 영역으로 나타내어질 수 있다.

본 발명의 일 실시예에서, 차원의 속성 값의 지지율을 기반으로 최소 지지율 S_min 이하의 지지율을 가지는 차원 속성 값 그룹은 후술할 축소 단계를 통하여 차원 속성 값 그룹의 지지율을 높여 사용자 관심 영역에 속하게 하고, 최대 지지율 S_max 이상의 지지율을 가지는 차원 속성 값 그룹은 후술할 확장 단계를 통하여 차원 속성 값 그룹의 지지율을 낮추어 사용자 관심 영역에 속하게 하여 최대한 차원 속성 값 그룹이 사용자 관심 영역에 있게 관리함으로써, 동적 데이터 큐브의 메모리 사용을 효율적으로 관리할 뿐 아니라, 사용자 관심 영역에 대하여 차원 속성 그룹 범위의 상세화를 제공할 수 있게 된다.

도 3은 본 발명의 일 실시예에 따른 다차원 데이터 처리 방법을 개략적으로 나타낸 흐름도이다. 도 3을 참조하면, 310단계에서 트리 구조의 노드에 적어도 하나의 차원 속성 값들로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 및 측정치 속성 정보를 저장한다. 그리고 다차원 데이터가 입력되면 320단계에서 입력되는 데이터에 따라 해당 노드의 차원 속성 정보 및 측정치 속성 정보를 갱신한다. 이하에서는 상기 두 단계를 보다 상세히 설명한다.

먼저, 상기 310단계를 보다 상세히 설명한다.

본 실시예에서, 데이터 큐브는 복수 개의 노드들을 포함하는 트리 구조로 이루어지며, 차원 속성 값 그룹의 지지율 및 분석을 위한 정보를 저장하기 위하여 차원 속성 정보 및 측정치 속성 정보로서, 예를 들어 다음과 같은 통계 정보를 각 노드에 저장한다.

1. 간격(I) : I는 현재 시간 t에서의 차원 속성 값의 그룹의 범위에 대한 간격이다. 다시 말하면, 어떤 노드에 속한 차원 속성 값 그룹의 개수이다.

2. 빈도수(C) : C는 현재 시간 t에서의 차원 속성 값 그룹에 대한 빈도수의 합이다.

3. 차원 속성 값 그룹의 범위(R) : 현재 노드에 저장된 차원 속성 값 그룹의 범위로 R = {DIM₁, DIM₂, DIM₃, ..., DIM_n}로 나타낼 수 있다.

4. 평균 측정치 속성 값(M) : M은 현재 시간 t에서의 차원 속성 값 그룹에 속한 측정치 속성 값들에 대한 평균 측정치 속성 값이다.

상기된 바에 따른 데이터 큐브의 통계 정보는 도 1의 사실 테이블(a)을 이용하여 구성한 (b), (c), (d)에서 한 큐보이드 내에 존재하는 셀들을 1개 이상 그룹화한 차원 속성 값 그룹에 해당하는 정보를 저장하게 된다.

나아가, 상기 트리 구조는 서로 다른 차원 속성 값 그룹을 가지는 노드 간의 싱글 링크드 리스트(single linked list)인 형제 리스트를 포함할 수 있다. 이 형제 리스트는 차원 속성 값 그룹들의 차원 속성 정보 및 측정치 속성 정보를 저장하기 위한 리스트로서 보다 구체적으로 다음과 같이 설명될 수 있다.

1. 상기 노드로 연결된 싱글 링크드 리스트이다(S=<N₁, N₂, N₃, ..., N_n>).

2. 노드간의 연결을 위한 다음 차원 속성 그룹 포인터를 유지한다.

상기된 형제 리스트는 예를 들어 도 1의 사실 테이블(a)를 이용하여 구성한 (b), (c), (d)에서 차원 속성 값 그룹의 집합으로 이루어진 리스트이다. 차원 속성 값 그룹의 범위 R = {White}를 가지는 차원 속성 값 그룹과 차원 속성 값 그룹의 범위 R = {Red, Blue}를 가지는 차원 속성 값 그룹으로 이루어진 형제 리스트의 예를 도 4에 도시된 바와 같이 나타낼 수 있다.

또한, 상기 트리 구조는 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함할 수 있다.

먼저 1차원 트리를 보다 상세히 설명한다. 1차원 트리는 상기된 형제 리스트 S로 구성되며, 트리 레벨은 하나의 1차원 큐보이드의 정보를 저장한다. 그리고 상위 레벨과 하위 레벨이 싱글 링크드 리스트로 구성되며 현재 레벨의 형제 리스트와 다음 레벨의 형제 리스트의 연결을 위한 다음 레벨 큐보이드 포인터를 유지한다. 1차원 트리는, 예를 들어 도 1의 사실 테이블(a)를 이용하여 구성한 데이터 큐브 래티스 구조(e)에서 1차원 큐보이드에 해당하는 각 큐보이드들의 형제 리스트로 이루어진 트리이다. 1차원 큐보이드들에 대한 범위 정보(R) 및 빈도수(C)만을 간략하게 표시한 1차원 큐보이드 트리의 예를 도 5에 도시된 바와 같이 나타낼 수 있다.

다음으로, 큐브 트리를 보다 상세히 설명한다. 큐브 트리는 상기된 형제 리스트로 구성되는 트리로서, 트리 레벨 L은 1개 이상의 형제 리스트로 구성되어지며, 서로 더블 링크드 리스트(double linked list)로 연결되어진다(L=<S₁, S₂, S₃, ..., S_n>). 그리고 트리 레벨에 속하는 형제 리스트들 간의 연결을 위하여 다음 형제 리스트 헤더 포인터 및 이전 형제 리스트 헤더 포인터를 유지하며, 상위 레벨과 하위 레벨은 싱글 링크드 리스트로 구성된다. 또한, 트리에 속하는 레벨들 간의 연결을 위하여 다음 레벨 큐보이드 포인터를 유지한다.

큐브 트리는, 예를 들어 도 1의 사실 테이블(a)를 이용하여 구성한 데이터 큐브 래티스 구조(e)에서 정점 큐보이드에서부터 기본 큐보이드까지의 한 경로를 구성하는 큐보이드들로 이루어진 트리이다. 큐보이드들에 대한 범위 정보(R) 및 빈도수(C)만을 간략하게 표시한 큐브 트리의 예를 도 6에 도시된 바와 같이 나타낼 수 있다.

이제 상기 320단계를 보다 상세히 설명한다.

데이터 스트림 D^t에서 시간 t에 새로운 튜플 T^t이 생성됨에 따라 시간 (t-1)에서의 큐보이드 트리의 차원 속성 값의 빈도수 C^t-1 및 평균 차원 측정치 속성 값 M^t-1가 갱신되어야 한다. 새로 발생한 튜플의 차원 속성 값이 차원 속성 값의 그룹 범위 R에 속하고, 새로 발생한 튜플의 측정치 속성 값이 m^t일 경우 시간 (t-1)에서의 빈도수 C^t-1와 평균 차원 측정치 M^t-1 속성 값을 이용하여 다음 수학식과 같이 현재 시간 t에서의 차원 속성 값의 빈도수 C^t 및 평균 측정치 속성 값 M^t를 구할 수 있다.

또한, 본 실시예에서는 데이터 큐브에서 사용자 관심 영역을 벗어나는 차원 속성 값 그룹에 대하여 차원 속성 값 그룹의 지지율이 소정 범위 내에 위치하도록 해당 노드에 속한 차원 속성 값 그룹을 재그룹화하여 최대한 사용자 관심 영역으로 위치하도록 차원 속성 값 그룹의 범위를 조절한다. 도 7은 이러한 재그룹화 과정의 일 실시예를 나타낸 흐름도이다.

도 7을 참조하면, 710단계에서, 각 노드에 속한 차원 속성 값 그룹의 지지율을 계산한다. 여기서 지지율은 전체 차원 속성 값의 빈도수에 대한 해당 노드에 속한 차원 속성 값 그룹의 빈도수를 말한다.

720단계는 확장 단계(expanding phase)로서, 지지율이 최대 지지율 S_max보다 높은 차원 속성 값 그룹을 둘 또는 그 이상의 차원 속성 값 그룹들로 분할하여 재그룹화한다. 본 단계를 통하여, 확장된 차원 속성 값 그룹의 지지율이 최대한 사용자 관심 영역에 속하도록 유도된다.

730단계는 축소 단계(shrinking phase)로서, 지지율이 최소 지지율 S_min보다 낮은 둘 또는 그 이상의 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여 재그룹화한다. 본 단계를 통하여, 축소된 차원 속성 값 그룹의 지지율이 최대한 사용자 관심 영역에 속하도록 유도된다.

도 8은 상기 확장 단계의 보다 구체적인 일 실시예를 나타낸 흐름도이다.

우선, 1차원 트리에서 차원 속성 값 그룹의 빈도수 지지율이 최대 지지율 S_max보다 높은 차원 속성 값 그룹에 대하여 미리 정의된 λ만큼 차원 속성 값 그룹을 분할한다(810단계). 그리고 큐브 트리에서 1차원 트리와 같은 레벨에 있는 차원 속성 값에 대하여 1차원 트리에서 분할된 차원 속성 값 그룹과 같은 차원 속성 값 그룹에 대하여 동일하게 차원 속성 값 그룹을 분할한다(820단계). 다만 분할될 차원 속성 값 그룹의 간격이 미리 정의된 차원 속성 값의 단위 간격보다 작다면, 그 차원 속성 값 그룹은 확장되지 않도록 할 수 있다. 본 단계에서, 사용자가 지정한 S_max보다 높은 빈도수 지지율을 갖는 차원 속성 값 그룹은 사용자의 관심 영역을 벗어나게 되므로, 차원 속성 값 그룹을 λ만큼 분할하여, 분할된 차원 속성 값 그룹이 사용자 관심 영역에 위치 할 수 있도록 유도하게 된다. 다음에, 확장된 각 차원 속성 값 그룹의 차원 속성 정보 및 측정치 속성 정보를 갱신한다(830단계). 확장된 각 차원 속성 값 그룹의 빈도수 C_new 및 평균 측정치 속성 값 M_new은 다음 수학식에 따라 계산될 수 있다.

상기 수학식을 참조하면, 확장된 차원 속성 값 그룹의 평균 측정치 속성 값 M_new은 평균값이기 때문에 추가적인 계산 없이 확장 단계 이전의 차원 속성 값 그룹의 평균 측정치 속성 값을 그대로 사용할 수 있다.

도 9는 상기된 실시예에 따라, 새로운 데이터 요소가 들어오는 경우 데이터 큐브가 갱신되고 확장 단계가 수행되는 예를 나타낸다. 도 9의 (a)를 참조하면, 새로운 데이터 요소가 들어옴에 따라 굵은 실선으로 표시된 노드에 속한 차원 속성 값 그룹의 빈도수가 갱신되고, 그 결과 Red와 Blue를 범위로 가지는 차원 속성 값 그룹의 빈도수 지지율이 미리 정의된 최대 빈도수 지지율 S_max=0.25를 넘게 된다. 따라서 도 9의 (b)에 도시된 바와 같이, 1차원 트리에서 Red와 Blue를 범위로 가지는 차원 속성 값 그룹이 λ=2개의 차원 속성 값 그룹으로 분할되고, 큐브 트리에서 같은 레벨에 있는 차원 속성 값에 대하여 역시 Red와 Blue를 범위로 가지는 차원 속성 값 그룹이 λ=2개의 차원 속성 값 그룹으로 분할된다.

도 10은 상기 축소 단계의 보다 구체적인 일 실시예를 나타낸 흐름도이다.

우선, 1차원 트리에서 차원 속성 값 그룹의 빈도수 지지율이 사용자가 최소 지지율 S_min보다 낮은 연속된 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합한다(1010단계). 그리고 큐브 트리에서 1차원 트리와 같은 레벨에 있는 차원 속성 값에 대하여 1차원 트리에서 병합된 차원 속성 값 그룹과 같은 차원 속성 값 그룹에 대하여 동일하게 차원 속성 값 그룹들을 병합한다(1020단계). 다만 병합될 차원 속성 값 그룹들이 연속적이지 않다면 그 차원 속성 값 그룹들은 병합하지 않는다. 본 단계에서, 사용자가 지정한 S_min보다 낮은 빈도수 지지율을 갖는 차원 속 성 값 그룹들은 사용자의 관심 영역을 벗어나게 되므로, 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여, 병합된 차원 속성 값 그룹이 사용자 관심 영역에 위치하도록 유도하게 된다. 다음에, 병합된 차원 속성 값 그룹의 차원 속성 정보 및 측정치 속성 정보를 갱신한다(1030단계). 병합된 차원 속성 값 그룹의 빈도수 C_new 및 평균 측정치 속성 값 M_new은 다음 수학식에 따라 계산될 수 있다.

상기 수학식을 참조하면, 연속된 n개의 차원 속성 값 그룹의 병합에 있어 새로운 빈도수는 n개의 차원 속성 값 그룹의 빈도수의 합으로 계산 가능하고, 평균 측정치 속성 값은 n개의 차원 속성 값 그룹의 평균 측정치를 합으로 환산한 값들의 새로운 빈도수에 대한 평균으로 계산 가능하다.

도 11은 상기된 실시예에 따라, 새로운 데이터 요소가 들어오는 경우 데이터 큐브가 갱신되고 축소 단계가 수행되는 예를 나타낸다. 도 11의 (a)를 참조하면, 새로운 데이터 요소가 들어옴에 따라 굵은 실선으로 표시된 노드에 속한 차원 속성 값 그룹의 빈도수가 갱신되고, Blue를 범위로 하는 차원 속성 값 그룹의 빈도수가 증가함에 따라 White를 범위로 하는 차원 속성 값 그룹과 Red를 범위로 하는 차원 속성 값 그룹의 빈도수 지지율이 미리 정의된 최소 빈도수 지지율 S_min=0.1보다 낮게 된다. 따라서 도 11의 (b)에 도시된 바와 같이, 1차원 트리에서 White를 범위로 하는 차원 속성 값 그룹과 Red를 범위로 하는 차원 속성 값 그룹이 White와 Red를 범위로 하는 하나의 차원 속성 값 그룹으로 병합되고, 큐브 트리에서 같은 레벨에 있는 차원 속성 값에 대하여 역시 White를 범위로 하는 차원 속성 값 그룹과 Red를 범위로 하는 차원 속성 값 그룹이 White와 Red를 범위로 하는 하나의 차원 속성 값 그룹으로 병합된다.

도 12는 새로운 튜플의 발생에 따른 데이터 큐브의 갱신, 그리고 확장 및 축소 단계를 수행하는 알고리즘을 구현한 예를 나타낸다.

상술한 실시예에 의한 데이터 큐브에서는 사용자가 관심 영역인 최대 빈도수 지지율 S_max 및 최소 빈도수 지지율 S_min의 범위를 벗어나는 차원 속성 값 그룹을 확장 단계와 축소 단계를 거쳐 재그룹화 함으로써, 차원 속성 값 그룹이 사용자 관심 영역에 위치하도록 유도한다. 그러나 데이터 스트림은 시간 흐름에 따른 변화 가능성이 크므로, 데이터 큐브에서 유지되는 정보의 양도 변화한다. 이러한 데이터 스트림에 대한 동적 데이터 큐브 처리를 제한된 메모리 공간에서 효율적으로 수행하기 위해서는 사용자가 정의한 제한된 메모리에서 데이터 스트림의 변화에 따라 초기 사용자가 지정한 최대 빈도수 지지율 S_max 및 최소 빈도수 지지율 S_min의 값을 동적으로 적응 시킬 필요가 있다.

데이터 큐브의 메모리 사용량은 사용자가 정의한 지지율인 S_min과 S_max에 영향 을 받는다. 즉, S_min 및 S_max의 값을 증가 시키게 되면 축소 단계를 통해 한 노드에 그룹화되는 차원 속성 값 그룹이 많아지게 되고, 확장 단계를 통해 분할되는 차원 속성 값 그룹은 줄어들게 되어, 결과적으로 데이터 큐브 전체에서 사용되는 메모리는 감소하게 된다. 따라서, 본 발명의 일 실시예에서는 사용자가 정의한 최대 메모리 사용량 M_max를 넘지 않으면서, S_min과 S_max의 조절을 통하여, 메모리 공간을 효율적으로 사용하는 적응적 메모리 최적화 방법을 제안한다.

첫 번째 실시예로서, 확장 단계 이전에, 확장 단계를 수행하였을 경우에 예상되는 데이터 큐브 트리 구조가 저장되는 메모리의 예상 메모리 사용량이 M_max보다 큰 경우 S_min과 S_max을 소정 값만큼 증가시키고, 상기 예상 메모리 사용량이 M_max보다 작아지도록 축소 단계를 반복적으로 수행한다. 편의상 이를 강제 축소 단계 메모리 적응 방법(Force Shrinking Phase Memory Adaptation Method)이라 명명하기로 한다.

강제 축소 단계 메모리 적응 방법을 보다 구체적으로 설명한다. 데이터 큐브의 갱신시 실제 확장 단계에 들어가기 전에 예상 메모리 사용량을 계산한다. 데이터 큐브에 대해 실제 확장 단계를 수행하였을 경우의 예상 메모리 사용량을 M_exp라고 하면, M_exp에 대한 계산은 데이터 큐브의 1차원 트리를 탐색하여 확장 예상 노드 수를 조사하여 다음 수학식과 같이 계산할 수 있다.

여기서,

은 1차원 트리의 n 레벨에서의 예상 노드 수이고,

는 한 노드가 차지하는 메모리의 크기이다.

예상 메모리 사용량 M_exp가 사용자가 정의한 최대 메모리 사용량 M_max보다 클 경우에 강제 축소 단계 메모리 적응 방법이 다음 순서로 수행된다.

먼저, 사용자가 정의한 초기 S_min과 S_max 값에 대하여 초기 설정 간격을 유지한 체 S_min과 S_max 값을 사용자가 정의한 δ(delta)만큼 증가시킨다. 그리고 M_exp가 M_max보다 작아질 때까지, δ 만큼 S_min과 S_max 값을 증가 시키면서 반복적으로 축소 단계를 수행한다. 이때 축소 단계는 가장 많은 수의 노드가 줄어드는 트리 레벨 순으로 진행되는 것이 바람직하다.

두 번째 실시예로서, 상기 예상 메모리 사용량 M_exp가 최대 메모리 사용량 M_max와 M_max보다 작은 소정 값인 상위 메모리 사용량 M_upper 사이인 경우 확장 단계를 소정 주기만큼 지연시켜 수행한다. 편의상 이를 두 번째는 지연 확장 단계 메모리 적응 방법(Delaying Expanding Phase Memory Adaptation Method)이라 명명하기로 한다. 상기된 강제 축소 단계 메모리 적응 방법은 예상 메모리 사용량이 최대 메모리 사용량 M_max를 넘게 될 경우 사용하는 방법으로써, 데이터 큐브에 대한 전체적인 노드 축소를 수행한다. 따라서 강제 축소 단계 메모리 적응 방법은 즉각적인 메모리 사용량 감소의 효과를 보이지만, 메모리 적응에 그만큼 많은 처리 시간이 필요하게 될 수 있다. 데이터 스트림은 데이터가 무한히 발생되는 특징을 가지고 있으며, 현재 주요하게 발생되는 데이터 스트림에서의 차원 속성 값이 주요한 의미를 가지는 차원 속성 값이라면, 일정 기간이 지난 후에도 주요하게 발생될 확률이 높기 때문에 현재 확장 단계에서 분할되어질 차원 속성 값 그룹들 중 중요한 의미를 가지는 차원 속성 값 그룹들은 일정 시간이 지난 후에도 확장 단계에서 분할되어질 가능성이 높게 된다. 따라서 최대 메모리 사용량 M_max보다 작은 값인 상위 메모리 사용량 M_upper를 정의하고, 예상 메모리 사용량 M_exp가 사용자가 정의한 최대 메모리인 M_max보다 작고, M_upper보다 클 경우에 확장 단계에서 분할되어져야 하는 차원 속성 값 그룹의 확장시기를 사용자가 정의한 주기인 P 만큼 지연시키는 방법을 통해 현재 메모리 사용량을 고수하고, 지지율이 사용자가 정의한 S_min보다 작아 축소 단계에서 병합되는 차원 속성 값 그룹들의 메모리를 확보함으로써, 강제 축소 메모리 적응이 일어날 가능성을 줄여주게 된다.

세 번째 실시예로서, 예상 메모리 사용량 M_exp가 최대 메모리 사용량 M_max보다 작은 소정 값인 상위 메모리 사용량 M_upper보다 작은 경우 최대 지지율 S_max 및 최소 지지율 S_min을 초기에 설정된 값에 가까워지도록 소정 값만큼 감소시킨다. 이를 편의상 지지율 회복 메모리 적응 방법(Support Recovery Memory Adaptation Method) 이라 명명하기로 한다. 강제 축소 단계 메모리 적응 방법에서 증가된 최대 및 최소 지지율이 계속 그대로 유지되어 질 경우, 사용자 초기의 관심 영역과는 거리가 먼 분석을 진행하게 될 수 있다. 따라서, 예상 메모리 사용량 M_exp가 사용자가 정의한 M_upper보다 작을 경우에 현재의 S_min과 S_max 값에 대하여 사용자가 정의한 초기 S_min과 S_max값에 가까워 지도록 초기 설정 간격을 유지하면서 현재 S_min과 S_max 값을 사용자가 정의한 δ만큼 감소시켜 지지율을 회복한다.

도 13은 상기된 세 가지 메모리 적응 방법을 통하여 적응적 메모리 최적화를 수행하는 알고리즘을 구현한 예를 나타낸다.

이하에서는 상술한 데이터 큐브 트리에 저장된 다차원 데이터의 분석 방법에 관하여 설명한다. 본 실시예에 의한 다차원 데이터 분석 방법은, 사용자로부터 원하는 차원 속성 값 등과 같은 다차원 데이터 분석을 위한 기준 정보를 입력받고, 입력받은 기준에 따라서 상술한 데이터 큐브 트리를 탐색함으로써 OLAP 연산을 수행한다.

데이터 큐브에서 의미 있는 데이터를 탐색하기 위하여 OLAP 시스템에서는 Roll-up, Drill-down, Slice, Dice, Pivot등의 연산을 사용할 수 있다. Roll-up 연산은 차원의 계층 구조를 한 단계 상승 시키거나 차원을 감소시킴에 의해 데이터 큐브의 집계(aggregation)를 수행한다. Drill-down 연산은 Roll-up 연산의 역으로, 데이터의 상세 레벨을 탐색하는 것이다. Slice 연산은 주어진 데이터 큐브에서 한 차원을 선택하는 것으로, 결과는 서브 큐브가 된다. Dice 연산은 두 개 이상의 차 원을 선택함에 의해 서브 큐브를 생성하는 것이고, Pivot 연산은 데이터의 축을 회전하여 다른 관점에서 볼 수 있게 하는 시각화를 위한 연산이다.

상술한 실시예에 따른 데이터 큐브에서는 차원의 증가 및 감소에 따른 Roll-up 연산과 Drill-down 연산을 트리의 탐색 레벨 조정을 이용하여 수행할 수 있다. 도 14는 본 발명의 일 실시예에 따라 데이터 큐브 트리에서 Roll-up 연산과 Drill-down 연산을 수행하는 과정을 나타낸다. 도 14를 참조하면, 데이터 큐브 트리의 탐색 레벨을 2레벨에서 3레벨로 조정하면, (Company, *, *) 큐보이드에서 (Company, Region, *) 큐보이드로 Drill-down 연산을 수행할 수 있게 된다. 이와 반대로 탐색 레벨을 3레벨에서 2레벨로 조정하면, (Company, Region, *) 큐보이드에서 (Company, *, *) 큐보이드로 Roll-up 연산을 수행 할 수 있게 된다.

또한, 상술한 실시예에 따른 데이터 큐브 트리에서 Slice 연산과 Dice 연산은 데이터 큐브 트리의 부분 탐색을 통하여 사용자가 원하는 결과를 얻을 수 있다. 도 15는 본 발명의 일 실시예에 따라 데이터 큐브 트리에서 Slice 연산과 Dice 연산을 수행하는 과정을 나타낸다. 도 15를 참조하면, Slice는 Slice for Company = "Ford" 연산의 수행 결과이고, Dice는 Dice for Company = "BMW" and Region = "America" and ( Color= "White, Red" or "Blue") 연산의 수행 결과이다.

또한, 상술한 실시예에 의한 데이터 큐브에서, 1차원 큐보이드들은 1차원 트리에, 그리고 정점 큐보이드부터 기본 큐보이드까지의 한 경로에 속하는 큐보이드들은 큐브 트리에 저장된다. 따라서 두 트리에 의해 표시되어지지 않는 큐보이드에 대한 응답은 트리를 순회하면서 계산을 통하여 수행될 수 있다. 도 16은 데이터 큐 브 트리에 저장되지 않는 2차원 큐보이드들 중 (Company, *, Color) 큐보이드에 대한 응답을 구하는 예를 나타낸다. 데이터 큐브 트리는 4레벨까지 순회하면 기본 큐보이드에 대한 결과를 얻을 수 있게 된다. 도 16을 참조하면, (Company, *, Color) 큐보이드의 경우 큐브 트리를 4레벨까지 순회 중 Region 차원의 하위 트리에 대한 합을 통하여 (Company, *, Color)에 대한 결과를 계산할 수 있다.

상술한 다차원 데이터의 분석 방법에 의하면, 다차원 데이터 스트림에 대하여 1차원 큐보이드 및 정점 큐보이드에서부터 기본 큐보이드까지의 한 경로에 속해있는 큐보이드 전체에 대한 정보를 저장하기 때문에 다양한 연산을 통해 전체 데이터 큐브에 대하여 분석을 수행할 수 있다.

이하에서는 상술한 데이터 큐브에서의 예외 탐지 기법에 관하여 설명한다. 데이터는 데이터 큐브에 요약되어 저장되어지며, OLAP 연산에 의해 탐색된다. 이와 같은 연산이 분석가로 하여금 데이터 큐브를 탐색 가능하게 하지만, 데이터 큐브에서 의미가 있는 어떤 부분에 도달 하도록 지원하지는 않는다. 따라서 분석가는 자신의 가정을 기초로 하여 데이터의 예외나 이례적인 부분을 찾는 가설 중심의 데이터 큐브 탐색 방법을 이용하여 왔고, 각 계층의 데이터를 일일이 탐색하며 예외를 찾는 단점을 해결하기 위하여, 논문 [Z. Shao, J. Han, and D. Xin, "MM-Cubing: Computing iceberg cubes by factorizing the lattice space,"in Proc. 2004 Int. Conf. on Scientific and Statistical Database Management (SSDBM'04), Santorini Island, Greece, June 2004, pp. 213??222.]에서 발견 중심의 데이터 큐브 탐색 방법이 제안되었다. 이 방법은 데이터 큐브의 각 레벨에서 발생하는 예외를 정의할 수 있는 미리 계산된 지표를 이용하여 예외 탐색을 지원하지만, 모든 차원 및 계층의 데이터에 대한 상호작용을 계산하기 때문에 빠른 데이터 처리를 요구하는 데이터 스트림에는 맞지 않는다.

따라서, 본 발명에서는 데이터 스트림에서 데이터의 예외나 이례적인 부분을 빠르게 찾을 수 있도록, 통계학적 표본조사 방법 중 하나인 다단 군집 추출을 역으로 이용한 예외 탐지 기법을 제안한다.

통계학에서 표본 조사의 목적은 최소의 비용으로 모집단에 대한 통계 정보를

얻는 것이다. 표본 조사에서 표본을 추출하는 방법은 매우 다양하다. 그 중에서 본 발명의 일 실시예에서는 다단 군집 추출(Multi-stage Cluster Sampling)방법을 역으로 이용하여 예외를 탐지한다. 다단 군집 추출은 각 표본의 추출 단위가 원소들의 군집(Cluster)으로 구성된 확률 표본이다. 여기서 군집은 여러 개의 기본 단위 또는 분석 단위로 이루어진 복합 적인 단위를 뜻한다. 예를 들어 통계청에서 실시하는 인구주택 총 조사에는 매우 자세하게 구역들에 대한 통계를 설명하고 있기 때문에, 도시 내의 구역들은 가구나 사람들로 구성된 군집으로 자주 이용된다. 인구주택 총 조사 자료의 구역은 도시 자체적으로 설정한 구역이 되거나, 같은 정치적 의견이나, 지역적 경계를 갖는 불규칙적인 모양의 지역으로 구성 될 수 있다. 통계청의 구역 통계는 시장조사를 하고자 하는 회사가 어떤 제품에 대한 그 지역의 잠재적 시장 판매량을 추정하고자 할 경우나, 새로운 상점이 그 지역에 개업했을 때 얻을 수 있는 잠재적 매출액 또는 그 지역에 비상 응급센터와 같은 새로운 서비스 용역을 개설할 경우에 이용하려고 하는 잠재적 고객의 수 등을 추정하고자 하는 경우 등에서 많이 사용된다. 이외에도 군집 추출을 이용한 많은 예제들이 있으며, 표본 추출을 위해 이용할 수 있는 군집들의 종류는 수 없이 많다.

본 실시예에서는 상술한 데이터 큐브에서 앞에서 설명한 통계적 추출 방법의 하나인 다단 군집 추출을 역으로 이용하여 예외를 탐지한다. 데이터 큐브의 1차원 트리는 각 트리 레벨에서 1 차원 속성에 대한 군집들로 이루어져 있으며, 데이터 큐브가 생성된 시점에서 현재 시점까지의 데이터 스트림의 평균 측정치 속성 값을 저장하고 있으므로, 통계학에서 모집단과 동일한 의미를 가진다. 그리고 큐브 트리는 다단을 통해 추출된 군집 표본들과 동일하다. 따라서 모집단에 대한 통계적 특성을 표본들과 대조하여 볼 수 있으며, 모집단의 통계적 특성을 따르지 않는 표본들은 예외로 간주하여 추출해 낼 수 있게 된다. 이런 예외 표본들을 추출해 내기 위해서는 예외를 판별할 수 있는 지표가 필요하다. 이에 본 실시예에서는 그 지표로서 Z-score를 사용한다. Z-score는 확률변수 X가 평균으로부터 떨어져 있는 지점을 표준 편차의 수로 나타낸 것으로, 자료의 평균 μ과 표준편차 σ를 이용하여, 다음 수학식과 같이 구할 수 있다.

Z-score 값은 자료와 평균 간의 거리를 나타내는 표준화된 값으로서 0에서 1사이에 분포하기 때문에, 자료의 양에 관계 없이 두 자료 간의 비교가 가능하다. 동적 데이터 큐브에서 1차원 트리의 모집단 군집에 대한 Z-score를 Z_T, 큐브 트리의 다단 군집 표본의 Z-score을 Z_P라 하면, 그에 대한 예외는 다음 수학식을 통하여 계산할 수 있다.

본 실시예에서, 전체 모집단의 Z-score Z_T와 다단 군집 표본의 Z-score Z_P를 비교하여, 두 값의 거리가 사용자가 정의한 임계 값 τ이상 떨어진 표본을 예외로 탐지한다.

상기 도 5에 도시된 1차원 트리는 모집단에 대하여 Company, Region, Color라는 각 세가지 타입의 군집들로 구성된 모집단이다. 그리고 도 6에 도시된 큐브 트리의 세 번째 트리 레벨은 Region 모집단 군집에 대하여 Company 군집 추출을 적용한 1단 군집 추출 샘플들로 구성되어 있으며, 네 번째 트리 레벨에서는 Color 모집단 군집에 대하여 Company 군집 추출 후, Region 군집 추출을 적용한 2단 군집 추출 표본들로 구성되어 있다.

따라서 큐브 트리의 세 번째 레벨 이상은 트리 레벨 보다 2가 적은 다단 군집 추출 표본들로 구성된다. 도 17은 도 1에 도시된 사실 테이블(a)에 대한 본 발명의 데이터 큐브에서의 예외 탐지를 수행한 예이다. 첫 번째 계열은 (*, *, Color) 군집 모집단에 대한 Z_T이고, 두 번째는 (BMW, America, Color)군집 표본, 세 번째는 (Ford, Europe, Color)군집 표본에 대한 Z_P이다. (Ford, Europe, Color)군집 표본에서 Red 및 White의 Z-score가 모집단의 Z-score와 사용자 정의 임계 값 τ=0.7 이상의 차이를 보이고 있어 예외로 선출되었다.

도 18은 본 발명의 일 실시예에 따른 다차원 데이터 처리 장치의 개략적인 블록도이다. 본 실시예에 따른 다차원 데이터 처리 장치는 갱신부(10), 재그룹화부(20), 메모리(30), 탐색부(40), 사용자 입력부(50)를 포함하여 이루어진다.

메모리(30)에는 복수 개의 노드들로 이루어지는 데이터 큐브 트리 구조가 저장되며, 각 노드에는 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장된다. 메모리(30)에 저장되는 데이터 큐브 트리 구조는 도 3의 310단계에 관하여 설명된 바에 따른 트리 구조와 동일하므로 구체적인 설명은 생략한다.

외부로부터 데이터 스트림 형태의 다차원 데이터가 입력되면, 갱신부(10)는 입력되는 데이터에 따라 메모리(30)의 트리 구조에 저장된 차원 속성 정보 및 측정치 속성 정보를 갱신한다. 갱신부(10)의 동작은 도 3의 320단계에서 설명된 바와 동일하므로 구체적인 설명은 생략한다. 나아가, 갱신부(10)는 상기 도 8 및 도 10에 관하여 설명된 확장 및 축소 과정에서 차원 속성 정보 및 측정치 속성 정보를 갱신하는 단계를 수행한다.

재그룹화부(20)는 각 노드에 속한 차원 속성 값 그룹의 지지율이 소정 범위 내에 위치하도록 차원 속성 값 그룹을 재그룹화한다. 재그룹화부(20)는 지지율이 소정 값인 최대 지지율보다 높은 차원 속성 값 그룹을 둘 도는 그 이상의 차원 속성 값 그룹들로 분할하여 재그룹화하거나, 지지율이 소정 값인 최소 지지율 보다 낮은 둘 또는 그 이상의 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여 재그룹화한다. 분할 또는 병합의 기준이 되는 최소 지지율 또는 최대 지지율은 사용자로부터 지정될 수 있으며, 최소 지지율 또는 최대 지지율은 메모리(30) 또는 기타 저장 수단에 저장된다. 재그룹화부(20)의 동작은 도 7에 관하여 설명된 재그룹화 과정과 동일하므로 구체적인 설명은 생략한다.

또한, 재그룹화부(20)는 상기된 적응적 메모리 최적화 방법을 수행하여 메모리 공간을 효율적으로 사용할 수 있도록 한다. 재그룹화부(20)의 동작 역시 상술한 메모리 최적화 방법에 관하여 설명된 바와 동일하므로 구체적인 설명은 생략한다.

나아가, 본 실시예에 따른 다차원 데이터 처리 장치는 사용자 입력부(50)를 통하여 차원 속성 값 등과 같은 다차원 데이터 분석을 위한 기준 정보를 입력받을 수 있다. 그러면 탐색부(40)는 입력된 기준에 따라서 메모리(30)에 저장된 데이터 큐브 트리 구조를 탐색하여 사용자가 원하는 결과를 도출한다. 또한, 탐색부(40)는 사용자 입력부(50)를 통한 사용자의 요청에 따라서 데이터의 예외나 이례적인 부분을 찾는 예외 탐지를 수행한다. 탐색부(40)의 구체적인 동작은 상술한 다차원 데이터의 분석 방법 및 예외 탐지 방법에 관하여 설명된 바와 동일하므로 구체적인 설명은 생략한다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광 학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 데이터 큐브의 예를 나타낸다.

도 2는 본 발명의 일 실시예에 따라 사용자 관심 영역을 나타낸 참고도이다.

도 3은 본 발명의 일 실시예에 따른 다차원 데이터 처리 방법을 개략적으로 나타낸 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 형제 리스트의 예를 나타낸다.

도 5는 본 발명의 일 실시예에 따른 1차원 큐보이드 트리의 예를 나타낸다.

도 6은 본 발명의 일 실시예에 따른 큐브 트리의 예를 나타낸다,

도 7은 본 발명에 따른 재그룹화 과정의 일 실시예를 나타낸 흐름도이다.

도 8은 본 발명에 따른 확장 단계의 보다 구체적인 일 실시예를 나타낸 흐름도이다.

도 9는 본 발명의 일 실시예에 따라, 새로운 데이터 요소가 들어오는 경우 데이터 큐브가 갱신되고 확장 단계가 수행되는 예를 나타낸다.

도 10은 본 발명에 따른 축소 단계의 보다 구체적인 일 실시예를 나타낸 흐름도이다.

도 11은 본 발명의 일 실시예에 따라, 새로운 데이터 요소가 들어오는 경우 데이터 큐브가 갱신되고 축소 단계가 수행되는 예를 나타낸다.

도 13은 본 발명의 실시예들에 따른 세 가지 메모리 적응 방법을 통하여 적 응적 메모리 최적화를 수행하는 알고리즘을 구현한 예를 나타낸다.

도 14는 본 발명의 일 실시예에 따라 데이터 큐브 트리에서 Roll-up 연산과 Drill-down 연산을 수행하는 과정의 예를 나타낸다.

도 15는 본 발명의 일 실시예에 따라 데이터 큐브 트리에서 Slice 연산과 Dice 연산을 수행하는 과정의 예를 나타낸다.

도 16은 본 발명의 일 실시예에 따라 데이터 큐브 트리에 저장되지 않는 2차원 큐보이드에 대한 응답을 구하는 예를 나타낸다.

도 17은 본 발명의 일 실시예에 따라 도 1에 도시된 사실 테이블(a)에 대한 본 발명의 데이터 큐브에서의 예외 탐지를 수행한 예이다.

도 18은 본 발명의 일 실시예에 따른 다차원 데이터 처리 장치의 개략적인 블록도이다.

Claims

복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 처리 방법에 있어서,

복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 단계; 및

입력되는 데이터에 따라 상기 차원 속성 정보 및 측정치 속성 정보를 갱신하는 단계를 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제1항에 있어서,

상기 차원 속성 정보는 상기 차원 속성 값 그룹의 범위 및 빈도수를 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제2항에 있어서,

상기 측정치 속성 정보는 상기 차원 속성 값 그룹에 속한 측정치 속성 값에 대한 평균값을 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제1항에 있어서,

상기 트리 구조는 서로 다른 차원 속성 값 그룹을 가지는 노드 간의 싱글 링 크드 리스트인 형제 리스트를 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제1항에 있어서,

상기 트리 구조는, 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제5항에 있어서,

상기 1차원 트리 및 상기 큐브 트리의 각 레벨은 서로 다른 차원 속성 값 그룹을 가지는 두 노드 간의 싱글 링크드 리스트인 형제 리스트로 이루어지는 것을 특징으로 하는 다차원 데이터 처리 방법.
제2항에 있어서,

상기 차원 속성 값 그룹의 지지율이 소정 범위 내에 위치하도록 노드에 속한 차원 속성 값 그룹을 재그룹화하는 단계를 더 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제7항에 있어서,

상기 재그룹화하는 단계는,

지지율이 소정 값인 최대 지지율보다 높은 차원 속성 값 그룹을 둘 또는 그 이상의 차원 속성 값 그룹들로 분할하여 재그룹화하는 확장 단계를 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제8항에 있어서,

상기 재그룹화하는 단계는,

지지율이 소정 값인 최소 지지율보다 낮은 둘 또는 그 이상의 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여 재그룹화하는 축소 단계를 더 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제9항에 있어서,

상기 재그룹화하는 단계는,

상기 분할된 차원 속성 값 그룹들 또는 상기 병합된 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제9항에 있어서,

상기 재그룹화하는 단계는,

상기 확장 단계 이전에, 상기 확장 단계를 수행하였을 경우에 예상되는, 상 기 트리 구조가 저장되는 메모리의 예상 메모리 사용량이 소정 값인 최대 메모리 사용량보다 큰 경우 상기 최대 지지율 및 상기 최소 지지율을 각각 소정 값만큼 증가시고, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작아지도록 상기 축소 단계를 수행하는 단계를 더 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제11항에 있어서,

상기 예상 메모리 사용량이 상기 최대 메모리 사용량과 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량 사이인 경우 상기 확장 단계를 소정 주기만큼 지연시켜 수행하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제11항에 있어서,

상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량보다 작은 경우 상기 최대 지지율 및 최소 지지율을 초기에 설정된 값에 가까워지도록 소정 값만큼 감소시키는 단계를 더 포함하는 것을 특징으로 하는 다차원 데이터 처리 방법.
제1항 내지 제13항 중 어느 한 항에 기재된 다차원 데이터 처리 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 분석 방법에 있어서,

차원 속성 값을 포함하는 다차원 데이터 분석을 위한 기준 정보를 입력받는 단계; 및

상기 입력된 기준에 따라, 복수 개의 노드들로 이루어지며 각 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보가 저장된 트리 구조를 탐색하는 단계를 포함하는 것을 특징으로 하는 다차원 데이터 분석 방법.
제15항에 있어서,

상기 트리 구조에 저장된 정보로부터 예외를 탐지하고자 하는 경우 다단 군집 추출을 역으로 이용하여 예외를 탐지하는 단계를 더 포함하는 것을 특징으로 하는 다차원 데이터 분석 방법.
제16항에 있어서,

상기 트리 구조는, 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함하는 것을 특징으로 하는 다차원 데이터 분석 방법.
제17항에 있어서,

상기 예외를 탐지하는 단계는, 상기 1차원 트리의 각 레벨을 모집단으로 하고 큐브 트리의 각 레벨을 다단을 통해 추출된 군집 표본들로 하여 다단 군집 추출을 역으로 이용하는 것을 특징으로 하는 다차원 데이터 분석 방법.
제18항에 있어서,

상기 예외를 탐지하는 단계는, 예외 표본들을 추출해 내기 위해서 그 지표로서 Z-score를 사용하는 것을 특징으로 하는 다차원 데이터 분석 방법.
제19항에 있어서,

상기 예외를 탐지하는 단계는, 전체 모집단의 Z-score와 다단 군집 표본의 Z-score 간의 거리가 소정 값 이상 떨어진 표본을 예외로서 탐지하는 것을 특징으로 하는 다차원 데이터 분석 방법.
복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터를 처리하기 위한 장치에 있어서,

복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하기 위한 메모리; 및

입력되는 데이터에 따라 상기 차원 속성 정보 및 측정치 속성 정보를 갱신하 는 갱신부를 포함하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제21항에 있어서,

상기 차원 속성 정보는 상기 차원 속성 값 그룹의 범위 및 빈도수를 포함하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제22항에 있어서,

상기 차원 속성 값 그룹의 지지율이 소정 범위 내에 위치하도록 노드에 속한 차원 속성 값 그룹을 재그룹화하는 재그룹화부를 더 포함하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제23항에 있어서,

상기 재그룹화부는 지지율이 소정 값인 최대 지지율보다 높은 차원 속성 값 그룹을 둘 또는 그 이상의 차원 속성 값 그룹들로 분할하여 재그룹화하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제24항에 있어서,

상기 재그룹화부는 지지율이 소정 값인 최소 지지율보다 낮은 둘 또는 그 이상의 차원 속성 값 그룹들을 하나의 차원 속성 값 그룹으로 병합하여 재그룹화하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제25항에 있어서,

상기 갱신부는 상기 재그룹화 결과에 따라 상기 분할된 차원 속성 값 그룹들 또는 상기 병합된 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 갱신하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제25항에 있어서,

상기 재그룹화부는, 상기 확장부의 동작을 수행하였을 경우에 예상되는, 상기 메모리의 예상 메모리 사용량이 소정 값인 최대 메모리 사용량보다 큰 경우 상기 최대 지지율 및 상기 최소 지지율을 각각 소정 값만큼 증가시키고, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작아지도록 상기 병합을 수행하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제27항에 있어서,

상기 재그룹화부는, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량과 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량 사이인 경우 상기 분할을 소정 주기만큼 지연시켜 수행하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제27항에 있어서,

상기 재그룹화부는, 상기 예상 메모리 사용량이 상기 최대 메모리 사용량보다 작은 소정 값인 상위 메모리 사용량보다 작은 경우 상기 최대 지지율 및 최소 지지율을 초기에 설정된 값에 가까워지도록 소정 값만큼 감소시키는 것을 특징으로 하는 다차원 데이터 처리 장치.
복수의 차원 속성과 측정치 속성으로 이루어지는 다차원 데이터의 처리 장치에 있어서,

차원 속성 값을 포함하는 다차원 데이터 분석을 위한 기준 정보를 입력받는 사용자 입력부;

복수 개의 노드들로 이루어지는 트리 구조의 노드에 적어도 하나의 차원 속성 값으로 이루어지는 차원 속성 값 그룹에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하기 위한 메모리; 및

상기 입력된 기준에 따라, 상기 메모리에 저장된 트리 구조를 탐색하는 탐색부를 포함하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제30항에 있어서,

상기 탐색부는, 상기 트리 구조에 저장된 정보로부터 예외를 탐지하고자 하는 경우, 다단 군집 추출을 역으로 이용하여 예외를 탐지하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제31항에 있어서,

상기 트리 구조는, 1차원 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 1차원 트리와, 정점 큐보이드로부터 기본 큐보이드까지의 경로를 구성하는 큐보이드들에 대한 차원 속성 정보 및 측정치 속성 정보를 저장하는 큐브 트리를 포함하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제32항에 있어서,

상기 탐색부는, 상기 1차원 트리의 각 레벨을 모집단으로 하고 큐브 트리의 각 레벨을 다단을 통해 추출된 군집 표본들로 하여 다단 군집 추출을 역으로 이용하는 것을 특징으로 하는 다차원 데이터 처리 장치.
제33항에 있어서,

상기 탐색부는, 예외 표본들을 추출해 내기 위해서 그 지표로서 Z-score를 사용하는 것을 특징으로 하는 다차원 데이터 처리 장치.