KR20080008573A

KR20080008573A - Ｘｍｌ 데이터로부터 연관규칙을 추출하기 위한 방법

Info

Publication number: KR20080008573A
Application number: KR1020060067996A
Authority: KR
Inventors: 신준; 백주련; 김응모
Original assignee: 성균관대학교산학협력단
Priority date: 2006-07-20
Filing date: 2006-07-20
Publication date: 2008-01-24

Abstract

본 발명은 데이터 마이닝 기술 중 XML문서들에 대한 마이닝 기술로서 빈번 서브트리(Frequent subtree)를 추출하고 이를 바탕으로 연관규칙을 추출하는 방법에 관한 것이다. 본 발명에서는 key와 Tid_list의 쌍들로 구성된 PairSet이라는 구조를 도입하고, 크로스 필터링 알고리즘을 개발함으로써, 여러 개의 XML문서 혹은 트리 데이터들을 마치 채로 걸러내듯이 걸러서 자주 발생하는 서브 트리들만을 추출하고 이로부터 연관 규칙을 추출하는 내용을 담고 있다. 본 방식은 네트워크 상에서 전송, 저장되는 정보를 제공하는 모든 반구조적 객체들에 적용 가능하다. 따라서 전자 상거래, 문서 교환, 정보 공유 등의 등에 활용할 수 있다. 또한, 이종 환경에서의 XML 문서들을 통합하는 시스템에 요구되는 복잡도와 저장공간 그리고 수행 시간이 적은 효율적인 방식이므로 인테그레이션 시스템에 적용 가능하다.

Description

ＸＭＬ 데이터로부터 연관규칙을 추출하기 위한 방법{METHOD FOR EXTRACTING ASSOCIATION RULE FROM XML DATA}

도 1은 트리 집합의 일 예를 도시한다.

도 2는 도 1의 트리집합을 기초로 만들어진 PairSet을 도시한다.

도 3은 본 발명에 따른 크로스 필터링 알고리듬의 예를 도시한다.

도 4는 후보집합[C]와 빈번히 발생하는 집합[F]의 예를 도시한다.

도 5는 크로스 필터링이 끝난 후의 후보집합[C]와 빈번히 발생하는 집합[F]의 예를 도시한다.

도 6은 크로스 필터링이 끝난 후 빈번히 발생하는 집합[F]으로부터의 연관규칙의 예를 도시한다.

본 발명은 데이터 마이닝 기술 중 XML문서들에 대한 마이닝 기술로서 빈번 서브트리(Frequent subtree)를 추출하고 이를 바탕으로 연관규칙을 추출하는 방법에 관한 것이다.

XML 문서는 트리 구조로 이루어져 있으며 이런 구조적 특성으로 인해 XML 마 이닝은 주로 대상 문서들의 공통의 서브 트리 패턴들을 발견하는 방법이 가장 많이 연구되어 지고 있는 분야이다. 기존의 RDB 에서의 Apriori 알고리즘을 이용한 빈도 아이템 집합과 후보 빈도 아이템 집합을 구분 지었듯이, XML 마이닝 역시 빈번 서브 트리 집합과 후보 빈번 서브 트리 집합을 근간으로 하여 이루어지는 연구들이 주를 이룬다. 즉 이러한 Apriori 기반의 방식은 1993년 Rakesh Agrawal에 의해 처음으로 제안된 이후(R. Agrawal, T. Imielinski, and A. N. Swami. Mining association rules between sets of items in large databases. In Proc. of the ACM SIGMOD International Conference on Management of Data, pp.207-216, 1993), 많은 연구가 진행되어 현재까지 다양한 알고리즘들이 제안되었다.

연관 규칙을 추출하는데 있어서 핵심 포인트는 자주 발생하는 서브 트리를 추출하는 것이다. 지금까지 적지 않은 빈번 서브 트리 생성 알고리즘들이 제안되었으나 대부분의 방식이 단계적인 에지 조인 생성을 이용하므로, 레이블 개수 멱승과 같은 많은 양의 계산, 공간을 요구한다는 단점이 있다.

본 발명이 이루고자 하는 기술적 과제는 새롭게 고안된 크로스필터링 알고리듬을 이용하여 종래 기술의 방식에 비하여 요구되는 계산량이 감소되고 수행시간이 적고 효율적인 방식으로 연관규칙을 추출해내는 것을 목적으로 한다.

이러한 과제를 이루기 위하여 본 발명에 따른 XML 연관규칙을 찾기 위한 방법에서는 XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환하고, 크로스필 터링 알고리즘을 이용하여 페어셋(PairSet)에서 빈번하게 발생하는 서브트리 찾고, 크로스필터링이 끝난 후 페어셋(PairSet)의 빈번하게 발생하는 집합(Frequent Set)[F]으로부터 연관규칙 축출하는 프로세스를 수행한다.

이와 같이, 본 발명에서는 가장 복잡하고 많은 시간이 요구되는 에지 조인단계를 생략하기 위해 '페어셋(PairSet)' 이라는 새로운 구조로 이 트리들을 분석하여 저장하는 방식을 사용하였다. 이를 이용하여 최대 빈번 서브 트리들을 추출하여 기존 일부 알고리즘에서 발생했던 빈번 서브 트리를 발견하지 못하거나 중복해서 발견했던 문제점 또한 개선한다.

이하 첨부된 도면을 참조로 본 발명에 따른 XML 연관규칙을 찾기 위한 각각의 프로세스를 설명한다.

본 발명의 설명에 앞서, 본 발명의 명세서에서 사용된 각각의 용어에 대한 설명은 다음과 같다.

- 레이블드 트리(labeled tree) : 트리 노드들에 대해 일련의 문자들의 조합으로 나타낼 수 있는 함수가 존재하는 트리이다.

- 서브트리 : 트리 t = (N, E) 이라 정할 때, t 의 서브 트리인 s = (N _s , E _s ) 로 나타 낼 수 있는데, 이때 N _s ⊆ N 이며 E _s 에 속하는 모든 에지들인 (u, v) 는 E 에서 u는 v의 조상이 되는 관계를 반드시 유지해야만 s 를 t 의 서브트리라 하며 s ≤ t 로 나타낸다.

- 최소 지지도 (minimum support) : 전체 입력 트리에 대한 비로써 0과 1사이의 값을 갖는다. 최소 지지도 * 전체 트리 수를 만족하는 서브 트리들을 구하는데 주요 역할을 하는 요소로서 사용자가 정의한다.

- key : 트리에서 노드들의 식별자, XML문서에서는 <tag>가 키가 된다.

- tid _list : 빈번히 발생하는 서브트리들을 찾기 위한 도메인(예를 들자면, XML 데이터베이스 혹은 TREE들의 집합)에서 각각의 구성요소에 대한 식별자를 tree id라 부르고, 이 tree id들의 집합을 tid_list라고 한다.

- PairSet : (key, tid_list) 쌍들을 원소로 갖고 있는 집합을 나타낸다. 어떤 key가 여러 개의 트리에 공통적으로 존재하는 경우, key값과 해당 트리들의 id집합을 묶어서 표현할 때 사용한다.

1. XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환.

1) 트리 집합의 모든 트리를 하나씩 DFS방식으로 방문하면서 PairSet을 생성한다.

2) 루트 노드에서부터 DFS방식으로 노드들을 방문하면서,

3) 해당 깊이(depth)의 PairSet에 방문 중인 노드의 key가 있으면 key에 대응하는 tid_list에 현재 방문 중인 트리의 ID를 추가한다.

도 1은 위에서 설명한 트리 집합의 하나의 예가 될 수 있다. 도 1의 트리집합에서 PairSet을 만들면 도 2와 같이 된다.

2. PairSet에서 빈번하게 발생하는 서브트리 찾기(크로스필터링 알고리즘 이용).

크로스필터링 알고리즘의 슈도(Pseudo) 코드가 도 3에 나와 있다. 크로스필터링 알고리즘은 다음과 같이 세 부분으로 구분할 수 있다.

1) PairSet을 두개의 집합 [C]와 [F]로 나누기.

여기서 [C]는 후보집합(Candidate Set)을 의미하고 [F]는 빈번하게 발생하는 집합(Frequent Set)이다. 이들을 분리하는 기준은 사용자가 정의한 최소지지도 (minsup: minimum support)를 이용한다. 도 4에 PairSet을 후보집합[C]와 빈번하게 발생하는 집합[F]로 분리한 모습이 도시되어 있다.

2) 인접 레벨의 후보집합[C]에 속하는 어떤 key가 현 레벨의 빈번하게 발생하는 집합[F]에 속하면 그 key에 대응하는 tid_list를 통합하고 key를 후보집합[C]에서 삭제한다.

3) 그래도 남아있는 후보집합[C]에 속하는 (key, tid_list)쌍들은 채로 걸러내듯이 다음 레벨로 이동시킨다.

이렇게 해서 빈번하게 발생하는 집합[F]에 남게 되는 (key, tid_list) 쌍은 도 5에 나와 있다.

3. 크로스필터링이 끝난 후 [F]로부터 연관규칙 축출

연관규칙이란 X⇒Y로 표현되는 규칙으로서, X이면 Y이다가 참이 되는 명제를 말한다. 여기서 X와 Y는 다음 두 조건을 만족한다.

1) X∈F, Y∈F

2)

따라서 빈번하게 발생하는 집합[F]로부터 축출된 정보를 통해서 그림 6과 같은 형태의 연관규칙을 얻어낼 수 있다.

이와 같이, 본 발명에서는 key와 Tid-list의 쌍들로 구성된 PairSet이라는 구조를 도입하고, 크로스 필터링 알고리즘을 개발함으로써, 여러 개의 XML문서 혹은 트리 데이터들을 마치 채로 걸러내듯이 걸러서 자주 발생하는 서브 트리들만을 추출하고 이로부터 연관 규칙을 추출한다.

본 방법은 네트워크 상에서 전송, 저장되는 정보를 제공하는 모든 반구조적 객체들에 적용 가능하다. 따라서 전자 상거래, 문서 교환, 정보 공유 등의 등에 활용할 수 있다. 또한, 이종 환경에서의 XML 문서들을 통합하는 시스템에 요구되는 복잡도와 저장공간 그리고 수행 시간이 적은 효율적인 방식이므로 인테그레이션 시스템에 적용 가능하다.

이상에서 설명한 것은 본 발명에 따른 하나의 실시예를 설명한 것이며, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자가 변경실시 가능한 범위까지 본 발명의 범위에 있다고 할 것이다.

이와 같이 본 발명에 따른 방법은 기존의 방식에 비해 요구되는 계산량을 감소시키고, 최종적으로 XML 연관규칙을 추출해낸다.

또한, 본 발명은 이종 환경에서의 XML 문서들을 통합하는 시스템에 요구되는 복잡도와 저장공간 그리고 수행 시간이 적은 효율적인 방식이므로 인테그레이션 시스템에 적용 가능하다.

Claims

XML 데이터로부터 연관규칙을 추출하기 위한 방법에 있어서,

XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환하는 단계;

크로스필터링 알고리즘을 이용하여 페어셋(PairSet)에서 빈번하게 발생하는 서브트리를 찾는 단계;

크로스필터링이 끝난 후 페어셋(PairSet)의 빈번하게 발생하는 집합(Frequent Set)으로부터 연관규칙을 축출하는 단계를 포함하는 XML 데이터로부터의 연관규칙 추출 방법.
제 1항에 있어서, 상기 XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환하는 단계는:

트리 집합의 모든 트리를 하나씩 DFS방식으로 방문하면서 페어셋(PairSet)을 생성하는 단계;

루트 노드에서부터 DFS방식으로 노드들을 방문하면서, 해당 깊이(depth)의 페어셋(PairSet)에 방문 중인 노드의 키(key)가 있으면 키(key)에 대응하는 tid_list에 현재 방문 중인 트리의 ID를 추가하는 단계를 포함하는 것을 특징으로 하는 XML 데이터로부터의 연관규칙 추출 방법.
제 1항에 있어서, 상기 크로스필터링 알고리즘은:

사용자가 정의한 최소지지도 (minsup: minimum support)를 이용하여 상기 페어셋(PairSet)을 두개의 집합 후보집합[C]와 빈번하게 발생하는 집합[F]으로 나누는 단계;

인접 레벨의 후보집합[C]에 속하는 어떤 키(key)가 현 레벨의 빈번하게 발생하는 집합[F]에 속하면 그 키(key)에 대응하는 tid_list를 통합하고 키(key)를 후보집합[C]에서 삭제하는 단계; 및

여전히 남아있는 후보집합[C]에 속하는 (key, tid_list)쌍들은 걸러내어 다음 레벨로 이동시키고, 빈번하게 발생하는 집합[F]에 남게 되는 (key, tid_list) 쌍만을 추출하는 단계를 포함하는 것을 특징으로 하는 XML 데이터로부터의 연관규칙 추출 방법.