KR20120132116A

KR20120132116A - 예측 및 분석을 위한 분산 의사 결정 트리 생성방법

Info

Publication number: KR20120132116A
Application number: KR1020110050739A
Authority: KR
Inventors: 강대기
Original assignee: 동서대학교산학협력단
Priority date: 2011-05-27
Filing date: 2011-05-27
Publication date: 2012-12-05
Also published as: KR101256922B1

Abstract

본 발명은 분산 컴퓨팅 환경의 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 관한 것으로, (a) 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 계산하는 단계; (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계; (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계; (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계; (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함한다.
이와 같은 본 발명은, 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘을 제공할 수 있고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공할 수 있게 된다.

Description

예측 및 분석을 위한 분산 의사 결정 트리 생성방법{Method for distributed decision tree induction algorithm for prediction and analysis}

본 발명은 분산 컴퓨팅 환경의 파편화된 (fragmented) 데이터 소스(data source)로부터 충분 통계량 (sufficient statistics)을 계산하여 이를 기반으로 의사 결정 트리를 생성하는 방법에 관한 것이다.

유비쿼터스 컴퓨팅, 클라우드 컴퓨팅, 그리드 컴퓨팅 등의 분산 컴퓨팅 환경에서는 파편화된 (fragmented) 또는 분산된 (distributed) 데이터베이스들이 각각 데이터 소스(data source)로서 존재한다. 분산 환경에서 데이터가 파편화되는 양상은 수직 파편화(vertical fragmentation)와 수평 파편화(horizontal fragmentation)로 나누어진다.

이러한 분산 컴퓨팅 환경의 분산 데이터베이스에서의 추론 및 학습을 통한 예측 및 분석은 많은 응용 예를 가진다. 예를 들어 구글, 페이스북 등의 글로벌 기업은 상상을 초월하는 양의 빅 데이터를 보유하고, 고급분석 환경을 구축하여 서비스를 제공하거나 준비 중이다. 이러한 선도적인 글로벌 기업들의 분석 및 서비스를 수행하려는 데이터의 종류로는 위치기반 데이터, 소셜 미디어에 의해 생산되는 사용자 활동 데이터, 빅 데이터라고 부르는 클라우드 컴퓨팅 환경의 초 대형 데이터 등이 있다.

이러한 데이터를 기반으로 한 고급 분석을 통한 결과가 각종 의사결정 단계에 실제로 활용되는 패턴 기반의 전략수행, 이른바 비즈니스 어낼리틱스가 글로벌 서비스 기업 및 초일류 컨설팅 기업들의 주력 사업으로 각광받고 있다.

데이터베이스가 분산 환경에서 파편화되는 경우, 전체 데이터베이스에 대해 의사 결정 트리를 학습하는 가장 단순한 방법은 전체 데이터베이스들을 하나의 거대한 데이터베이스로 조인 연산을 통해 통합하여, 이에 대해 의사 결정 트리를 학습하는 것이다. 그러나 이러한 학습 방법은 하나의 거대한 데이터베이스를 생성하고 관리하기 위한 방대한 양의 메모리가 필요하며, 이 거대한 데이터베이스의 각 속성에 대해 분할 기준을 계산하고, 이를 재귀 호출을 통해 반복해야 하기 때문에 메모리 부담 및 오버헤드가 매우 크거나, 분산 데이터베이스가 방대한 경우, 학습이 불가능하다.

이러한 문제를 해결하기 위해, 데이터를 저장하는 근본적인 방법을 개선하는 방안으로 GFS(Google File System), MapReduce, BigTable, Amazon SimpleDB, Dynamo storage system, Apache Hadoop Distributed File System 등이 제안되었다. 그러나 이러한 방안들은 예를 들면 컬럼 지향 DBMS(column oriented DBMS)와 같이, 데이터를 저장하는 방안을 개선하는 것으로, 기존의 수많은 분산 데이터베이스를 아우를 수 있는 해결책은 아니다.

따라서, 기존의 분산 데이터베이스를 활용할 수 있으면서, 대용량의 분산 데이터베이스 환경에서 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리의 기계 학습 알고리즘을 위한 방법 및 장치의 기술 개발이 절실하게 요구된다.

상술한 문제를 해결하기 위한 본 발명의 과제는 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 결합(join)이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공하고자 함이다.

상술한 문제를 해결하기 위한 본 발명의 특징은 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 있어서, (a) 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 계산하는 단계; (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계; (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계; (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계; 및 (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함한다.

여기서, 상기 (b) 단계는, 상기 충분 통계량을 기반으로 하여 엔트로피 값과 정보이득(IG) 값을 통하여 분할 기준을 계산하는 단계인 것이 바람직하다.

또한, 상기 데이터가 수직 파편화된 경우, 엔트로피값과, 상기 정보이득 값은,

,

(여기서, S는 데이터베이스이고, V는 속성이고, S_vi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 S_x에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, S_vi _,x 는 특정 속성값 V_i를 가지는 행들의 클래스 값이다.) 와 같은 식으로 연산되는 것이 바람직하다.

또한, 상기 데이터가 수평 파편화된 경우, 엔트로피 값과, 정보이득 값은,

(여기서, S는 데이터베이스이고, V는 속성이고, S_vi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 S_x에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, count(S_i, c_k)는 조인트 카운트를 의미한다.) 와 같은 식으로 연산되는 것이 바람직하다.

더하여, 바람직하게는 상기 (c) 단계는, 상기 분할 기준을 통하여 분할 가능한 노드가 있는지를 판단하는 단계; 상기 분할 가능한 노드가 있는 경우, 상기 분할 기준을 통해 속성을 선택하여 분할하는 단계; 상기 분할된 노드를 데이터 구조인 큐(que)에 삽입하는 단계; 및 상기 단계를 반복하는 것일 수 있고, 상기 (d) 단계는 상기 충분 통계량을 기반으로 가지치기 알고리즘(pruning algorithm)을 이용하여 분할을 종료하는 단계인 것일 수 있다.

이와 같은 본 발명은, 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘을 제공할 수 있고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공할 수 있게 된다.

도 1은 본 발명의 바람직한 실시 예에 따른 예측 및 분석을 위한 분산 의사 결정 트리 생성방법 흐름도이고,
도 2는 본 발명이 적용되는 데이터 소스가 분산된 상황을 일반적으로 나타낸 다이어그램이고,
도 3은 본 발명에 따른 일 실시 예에 적용되는 수직 단편화된 분산 데이터베이스의 예이고,
도 4은 본 발명이 따른 일 실시 예에 적용되는 수평 단편화된 분산 데이터베이스의 예를 나타낸다.

본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 통해 설명될 것이다. 그러나 본 발명은 여기에서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 본 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다.

도면들에 있어서, 본 발명의 실시예들은 도시된 특정 형태로 제한되는 것이 아니며 명확성을 기하기 위하여 과장된 것이다. 또한 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소를 나타낸다.

본 명세서에서 "및/또는"이란 표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 또한, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다" 또는 "포함하는"으로 언급된 구성요소, 단계, 동작 및 소자는 하나 이상의 다른 구성요소, 단계, 동작, 소자 및 장치의 존재 또는 추가를 의미한다.

이하에서 본발명에 따른 바람직한 실시예를 도면을 참조하여 상세히 설명하기로한다.

도 1은 본 발명에 따른 예측 및 분석을 위한 분산 의사 결정 트리 생성방법의 흐름도를 나타낸 도면이다. 도 1에 나타낸 바와 같이, 본 발명에 따른 의사 결정 트리 생성방법은, 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 있어서, (a) 복수개의 분산된 데이터베이스의 각 데이터 소스로부터 속성(attribute)들과 상기 속성들의 충분 통계량을 계산하는 단계(S200); (b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계(S300); (c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계(S400, S500, S600); (d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계(S700); (e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계(S800)를 포함한다.

먼저, 분산 컴퓨팅 환경에서 데이터 구조인 큐(que)에 루트 노드를 삽입하고(S100), 상기 (a) 단계는, 분산된 데이터베이스들이 있을 때, 각각의 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(information provider)로부터 독립 변수인 속성(attribute)들과 속성들의 충분 통계량인 조인트 카운트(joint count)을 계산하는 단계이다.(S200) 이 단계에서는 다음 단계에서 분할 기준을 계산하기 위해 필요한 조인트 카운트를 계산해서 각 데이터 소스에 서버 시스템으로 존재하는 래퍼나 정보 제공자가 도 2의 중앙 서버에 제공한다.

여기서, 조인트 카운트를 이해하기 위해, 정보 이득 (information gain)이 분할 기준으로 사용되는 의사 결정 트리 알고리즘의 경우를 보면, 의사 결정 트리 알고리즘에서 엔트로피는 [수학식 1]과 같이 계산된다.

여기서 확률 p는 예측을 수행하고자 하는 종속 변수인 클래스 속성(attribute)의 가능한 값들로서, 클래스 레이블 각각의 분포에 따라 계산된다. 예를 들어 데이터베이스 S의 전체 행의 수가 10 개일 때, 클래스 속성이 4 개의 YES 값과 6 개의 NO 값을 가진다면, 엔트로피는 -{(4/10)*log(4/10)+(6/10)*log(6/10)}로 계산된다. 특정 속성을 분할하고자 하는 노드로 선택했을 때, 이에 따라 정보 이득이 달라진다. 특정 속성에 대한 정보 이득은 [수학식 2]와 같이 계산된다.

즉, 원래의 데이터베이스 S의 엔트로피 값에서, 특정 속성 V를 선택했을 때, 그 속성 V의 각각의 값에 따라 나누어지는 서브 데이터베이스들인 에 대한 각각의 엔트로피들을 그 서브 데이터베이스의 크기에 따라 가중치를 곱한 값의 합으로 뺀 것이 바로 정보 이득 IG(S,V)가 된다.

도 2에 나타낸 바와 같이, 분산 환경에서는 중앙 서버에서 정보 이득을 계산하기 위해서는 전체 속성 집합에 대한 데이터베이스 스키마, 즉 사전 (dictionary) 정보와 정보 이득을 계산하기 위한 조인트 카운트로 충분하다.

(b) 단계는 계산한 충분 통계량을 기반으로 결정 트리를 생성하기 위한 분할 기준(splitting criteria)를 계산하는 단계이다.(S300) 이 단계에서 상술한 엔트로피와 정보 이득이 어떻게 구해지는지 설명하기로 한다. 우선, 엔트로피는 도 2에 나타낸 바와 같이, 수직 파편화된 경우 [수학식 3]과 같이 구해진다.

즉, 각각의 데이터 소스들 중에서 클래스 속성이 있는 S_x 에 대한 엔트로피를 구하면 된다. 이에 대한 정보 이득은 [수학식 4]와 같이 구한다.

여기서, S_x는 클래스 속성을 가진 특정 데이터 소스에서 주기적으로 보내진다. 특정 속성 V는 해당되는 데이터 소스에서 얻어지며, S_Vi _,x는 특정 속성 값 V_i를 가지는 행들에 대한 클래스 값이다.

그리고, 도 3에 나타낸 바와 같이, 수평 파편화된 경우, 엔트로피는 [수학식 5]와 같이 구할 수 있다.

즉, 각각의 데이터 소스가 보내는 클래스 속성의 분포를 나타내는 조인트 카운트인 count(S_i,c_k)를 전체 행의 수로 나눈 값인 p_k를 기반으로 엔트로피를 구할 수 있다. 이에 대한 정보 이득은 [수학식 6]과 같다.

(c) 단계는 상기와 같은 분할을 재귀 호출(recursion)을 이용하여 반복하는 단계이다.(S400,S500,S600) 이렇게 재귀 호출을 반복하면서, 트리 구조를 생성해 나간다. 기존의 결정 트리 알고리즘과 다른 점은 각 단계에서 충분 통계량인 조인트 카운트를 통하여 엔트로피 값과 정보 이득과 같은 분할 기준 값을 계산해 나간다는 점이다.

보다 구체적으로 살펴보면, (c) 단계는 도 1에 나타낸 바와 같이, 상기 분할 기준을 통하여 분할 가능한 노드가 있는지를 판단하는 단계(S400); 상기 분할 가능한 노드가 있는 경우, 상기 분할 기준을 통해 속성을 선택하여 분할하는 단계(S500); 및 상기 분할된 노드를 데이터 구조인 큐(que)에 삽입하는 단계(S600)를 반복하는 단계이다.

(d) 단계는 충분 통계량을 기반으로 가지치기 알고리즘(pruning algorithm)을 이용하여 분할을 종료하는 단계이다. 이러한 가지치기 알고리즘은 프리 프루닝(pre pruning) 또는 포스트 프루닝(post pruning)과 같은 여러 가지 방법이 가능하나, 이들 또한 충분 통계량인 조인트 카운트를 기반으로 계산된다.

마지막으로, (e) 단계는 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 계산하는 단계를 포함할 수 있다. 일반적으로 이 대푯값은 그 노드에 남아있는 데이터베이스의 각 행들에 대한 클래스 레이블 중 최빈수를 가지는 클래스 레이블, 즉 가장 많은 수를 가지는 값(majority)이 사용된다.

이상의 설명에서 본 발명은 특정의 실시 예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능 하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.

Claims

분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 의사 결정 트리를 생성하는 방법에 있어서,
(a) 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 계산하는 단계;
(b) 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위한 분할 기준(splitting criteria)을 계산하는 단계;
(c) 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계;
(d) 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계;
(e) 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함하는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
제1항에 있어서,
상기 (b) 단계는,
상기 충분 통계량을 기반으로 하여 엔트로피 값과 정보이득(IG) 값을 통하여 분할 기준을 계산하는 단계인 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
제2항에 있어서,
상기 데이터가 수직 파편화된 경우, 엔트로피값과, 상기 정보이득 값은,

,

(여기서, S는 데이터베이스이고, V는 속성이고, S_vi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 S_x에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, S_vi _,x 는 특정 속성값 V_i를 가지는 행들의 클래스 값이다.)
와 같은 식으로 연산되는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
제2항에 있어서,
상기 데이터가 수평 파편화된 경우, 엔트로피 값과, 정보이득 값은,

(여기서, S는 데이터베이스이고, V는 속성이고, S_vi 는 상기 V 값에 따라 나누어지는 서브 데이터베이스를 의미한다. 엔트로피는 각각의 데이터 소스들 중에서 클래스 속성이 있는 S_x에 대한 엔트로피이고, P는 예측을 수행하고자 하는 종속 변수인 클래스 속성의 가능한 값을 의미하고, count(S_i, c_k)는 조인트 카운트를 의미한다.)
와 같은 식으로 연산되는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
제1항에 있어서,
상기 (c) 단계는,
상기 분할 기준을 통하여 분할 가능한 노드가 있는지를 판단하는 단계;
상기 분할 가능한 노드가 있는 경우, 상기 분할 기준을 통해 속성을 선택하여 분할하는 단계;
상기 분할된 노드를 데이터 구조인 큐(que)에 삽입하는 단계;
상기 단계를 반복하는 것을 특징으로 하는 예측 및 분석을 위한 분산 의사 결정 트리 생성방법.
제5항에 있어서,
상기 (d) 단계는 상기
상기 충분 통계량을 기반으로 가지치기 알고리즘(pruning algorithm)을 이용하여 분할을 종료하는 단계인 것을 특징으로 하는 의사 결정 트리 학습방법.