KR101330939B1

KR101330939B1 - 정규 그래프 탐색 트리의 생성 방법

Info

Publication number: KR101330939B1
Application number: KR1020120035007A
Authority: KR
Inventors: 이영구; 한용구; 박기성
Original assignee: 경희대학교 산학협력단
Priority date: 2012-04-04
Filing date: 2012-04-04
Publication date: 2013-11-18
Also published as: KR20130112543A

Abstract

본 발명은 빈발 부분그래프 마이닝 방법에 관한 것으로, 보다 구체적으로 빈발 부분그래프 마이닝을 반복하여 수행하는 다양한 분석 기법에서 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 용이하고 빠르게 판단할 수 있는 정규 그래프 탐색 트리의 생성 방법에 관한 것이다.

Description

정규 그래프 탐색 트리의 생성 방법{Method for creating search tree of canonized graph}

빈발 부분그래프(frequent subgraph)는 그래프 데이터베이스에서 최소 지지도 이상으로 출현하는 부분그래프로서, 빈발 부분그래프는 그래프의 고유한 특성을 나타내어 그래프의 분류, 군집화, 인덱싱 등에서 사용된다. 빈발 부분그래프 마이닝은 그래프 데이터베이스에서 모든 빈발 부분그래프를 찾는 기법으로, 복잡한 구조를 가지는 그래프들이 대용량으로 저장되어 있는 그래프 데이터베이스로부터 최소 지지도 이상으로 출현하는 모든 부분그래프를 검색하는 과정을 의미한다.

빈발 부분그래프를 효율적으로 마이닝하기 위하여 AGM, FSG, gSpan 등의 다양한 기법들이 연구되고 있다. 이 중에서 성능이 탁월한 것으로 알려진 gSpan이 널리 사용되고 있다. gSpan은 패턴 확장 방법으로 그래프 데이터베이스로부터 빈발 부분그래프를 마이닝하는 알고리즘으로, 깊이우선탐색(depth first search, 이하 DFS) 순서로 방문한 그래프의 에지들을 각 에지의 DFS 코드로 표현한다. 그래프는 탐색 시작 버텍스(vertex)에 따라 다양한 DFS 코드가 생성되는데, gSpan에서는 최소값을 가지는 DFS 코드를 정규 그래프로 정의하여 빈발 부분그래프가 최소 DFS코드와 다르게 확장된 경우 제거하여 많은 수의 중복 부분그래프들을 제거한다.

gSpan의 전체 알고리즘은 다음과 같다. 우선, 그래프 데이터베이스 내의 모든 1-에지 빈발 부분그래프들을 찾는다. 찾은 1-에지 빈발 부분그래프를 최소 DFS코드로 표현하고 에지를 하나씩 확장하며 그래프 데이터베이스에 존재하는 그래프들의 빈발 부분그래프들을 추출한다. 에지를 확장한 빈발 부분그래프를 DFS코드로 표현하고, DFS 코드로 표현된 빈발 부분그래프 중 최소 DFS코드를 가지는 정규 그래프인 경우에만 확장하여 빠르게 빈발 부분그래프를 마이닝하며 최소 DFS 코드를 가지지 않는 나머지 빈발 부분그래프는 중복 그래프로 간주하여 제거한다.

빈발 부분그래프의 DFS 코드 중 최소 DFS 코드를 빈발 부분그래프의 정규 코드 형태로 사용하여 빈발 부분그래프를 유일하게 표현한다. 빈발 부분그래프를 정규 코드 형태로 표현하는 것을 정규화 연산(canonized operation)이라 정의하고 정규 코드 형태로 표현되는 빈발 부분그래프를 빈발 부분그래프의 정규 그래프라 언급한다. 정규화 연산을 위하여 빈발 부분그래프의 최소 DFS코드를 찾기 위한 과정은 다음과 같다. 빈발 부분그래프의 에지들을 DFS코드로 표현하고, 각 에지의 DFS코드 중 가장 작게 표현된 값을 탐색 시작 지점으로 설정한다. 탐색 시작 지점부터 깊이우선탐색(DFS) 순서에 따라 버텍스의 식별자를 순차적으로 부여한다. 만약 동일 버텍스가 여러 개의 에지를 가지면, 가장 작은 DFS코드로 표현되는 에지를 선택하여 탐색한다. 만약 가장 작게 표현되는 에지가 여러 개 존재할 경우, 하나의 에지를 선택하여 모두 탐색한 후, 나머지 에지들에 대해서도 재귀적으로 모든 에지를 탐색한다. 탐색하여 얻은 DFS코드 집합 중에서 가장 작게 표현되는 최소 DFS코드를 찾는다.

빈발 부분그래프의 정규화 연산은 이와 같이 복잡한 과정을 요구하는 고비용 연산이다. 특히, 빈발 부분그래프의 에지 수가 많거나 빈발 부분그래프에 동일한 레이블을 갖는 에지들이 같은 버텍스에 많이 연결되어 있는 경우 탐색 공간이 증가하여 수행시간이 크게 증가한다.

최근 다양한 그래프 연구 분야에서 빈발 부분그래프 마이닝을 반복적으로 수행하는 기법들이 제안되고 있다. 대표적인 예로서 그래프 분류에 유용한 특징들을 찾기 위하여 제안된 도약탐색(leap search) 기법과 모델 기반 탐색 트리(model based search tree) 기법이 있다. 도약 탐색 기법은 최소지지도를 다양하게 변화시키며 그래프 데이터베이스에서 찾은 빈발 부분그래프들 가운데 가장 분류의 성능이 높은 것들을 특징으로 선택한다. 모델 기반 탐색 트리 기법은 그래프 데이터베이스에서 찾은 빈발 부분그래프들 가운데 가장 분류 성능이 높은 빈발 부분그래프의 포함 여부를 기준으로 그래프 데이터베이스를 분할하는 과정을 반복 수행한다. 이와 같은 기법들의 수행 시간은 통상적으로 긴 시간을 요구하는데, 이와 같은 기법의 수행 시간에서 반복적으로 수행되는 동일한 빈발 부분그래프의 정규화 연산 시간이 대부분을 차지한다.

도 1은 정규화 연산의 고비용을 확인하기 위하여 모델기반 탐색 트리의 수행시간에서 정규화 연산이 차지하는 비율을 측정한 실험이다. 그래프 데이터베이스는 그래프로 표현된 항암 화합물 molt-4, MCF-7, YEAST을 사용하였다. 실험 결과 모델기반 탐색 트리 기법에서 정규화 연산의 수행 시간이 약 20~40%를 차지한다.

따라서 빈발 부분그래프 마이닝을 반복적으로 수행하는 다양한 기법에서 정규화 연산 수행 시간을 줄임으로써 다양한 기법의 전체 수행 시간을 개선할 수 있다.

본 발명은 위에서 언급한 종래 빈발 부분그래프 마이닝시 수행되는 정규화 연산이 가지는 문제점을 해결하기 위한 것으로, 본 발명이 이루고자 하는 목적은 빈발 부분그래프 마이닝을 반복하여 수행하는 다양한 분석 기법에서 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 용이하고 빠르게 판단할 수 있는 정규 그래프 탐색 트리의 생성 방법을 제공하는 것이다.

본 발명이 이루고자 하는 다른 목적은 정규 그래프를 구성하는 에지의 에지 코드 발생 빈도에 따라 에지 코드를 적은 수의 비트로 압축 부호화하여 저장 및 관리가 용이한 정규 그래프 탐색 트리의 생성 방법을 제공하는 것이다.

본 발명의 목적을 달성하기 위하여 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법은 그래프 데이터베이스로부터 제1 빈발 부분그래프를 추출하는 단계(이하 a단계)와, 추출한 제1 빈발 부분그래프를 정규화 연산하여 제1 빈발 부분그래프의 최소 DFS 코드를 획득하는 단계와(이하 b단계), 제1 빈발 부분그래프의 에지 확장 순서에 따른 제1 빈발 부분그래프의 DFS 코드와 제1 빈발 부분그래프의 최소 DFS 코드를 비교하여 제1 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단하는 단계와(이하 c단계), 제1 빈발 부분그래프가 정규 그래프인 경우 제1 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터를 저장하여 정규 그래프 탐색 트리를 생성하는 단계(이하 d단계)를 포함한다.

본 발명에 따른 정규 그래프 탐색 트리의 생성 방법은 제1 빈발 부분그래프가 정규 그래프인 경우 제1 빈발 부분그래프를 에지 확장하여 제2 빈발 부분그래프를 추출하는 단계를 더 포함하며, 제2 빈발 부분그래프에 대해 (b) 단계 내지 (d) 단계를 반복하고 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터를 정규 그래프 탐색 트리에 추가하여 정규 그래프 탐색 트리를 갱신한다.

여기서 제1 빈발 부분그래프 또는 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드는 각 에지를 구성하는 버텍스 레이블과 에지 레이블로 이루어진 에지 코드와 각 에지를 구성하는 버텍스 식별자를 구비하는데, 바람직하게 각 에지의 DFS 코드는 에지 코드를 압축 코드로 압축하여 정규 압축 코드로 저장되는 것을 특징으로 한다.

여기서 정규 압축 코드는 정규 그래프 탐색 트리에 저장되어 있는 각 에지의 에지 코드를 추출하는 단계와, 추출한 에지 코드의 발생 빈도 순서로 추출한 에지 코드에 적은 수의 비트로 부호화된 압축 코드를 할당하여 압축 변환 순람표를 생성하는 단계와, 압축 변환 순람표에 기초하여 에지 코드를 압축 코드로 압축하여 각 에지의 DFS 코드를 정규 압축 코드로 생성하는 단계를 통해 생성된다.

본 발명에 따른 정규 그래프 탐색 트리의 생성 장치는 그래프 데이터베이스로부터 빈발 부분그래프를 추출하는 빈발 부분그래프 추출부와, 빈발 부분그래프를 정규화 연산하여 빈발 부분그래프의 최소 DFS 코드를 획득하는 정규화 연산부와, 빈발 부분그래프의 에지 확장 순서에 따른 빈발 부분그래프의 DFS 코드와 빈발 부분그래프의 최소 DFS 코드를 비교하여 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단하는 정규 그래프 판단부와, 빈발 부분그래프가 정규 그래프인 경우 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터로 정규 그래프 탐색 트리를 생성하는 탐색 트리 생성부를 포함하는 것을 특징으로 한다.

본 발명에 따른 정규 그래프 탐색 트리의 생성 장치는 빈발 부분그래프가 정규 그래프인 경우 그래프 데이터베이스에서 빈발 부분그래프를 에지 확장하는 빈발 부분그래프 확장부를 더 포함하며, 빈발 부분그래프 추출부는 확장된 빈발 부분그래프에서 제2 빈발 부분그래프를 추출하며, 탐색 트리 생성부는 제2 빈발 부분그래프가 정규 그래프인 경우 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 확장 포인터를 정규 그래프 탐색 트리에 추가하여 정규 그래프 탐색 트리를 갱신하는 것을 특징으로 한다.

여기서 빈발 부분그래프 또는 상기 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드는 각 에지를 구성하는 버텍스 레이블과 에지 레이블로 이루어진 에지 코드와 각 에지를 구성하는 버텍스 식별자를 구비한다.

본 발명에 따른 정규 그래프 탐색 트리의 생성 장치는 빈발 부분그래프 또는 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드를 정규 압축 코드로 압축하는 압축부를 더 포함하는데, 압축부는 정규 그래프 탐색 트리에 저장되어 있는 모든 에지의 에지 코드를 추출하는 에지 추출부와, 추출한 에지 코드의 발생 빈도 순서를 계산하는 발생 빈도 계산부와, 계산한 발생 빈도 순서로 추출한 에지 코드에 적은 수의 비트로 부호화된 압축 코드를 할당하여 압축 변환 순람표를 생성하는 순람표 생성부와, 압축 변환 순람표에 기초하여 에지 코드를 압축 코드로 압축하여 각 에지의 DFS 코드를 정규 압축 코드로 생성하는 정규 압축 코드 생성부를 포함한다.

본 발명에 따른 정규 그래프 탐색 트리의 생성 방법은 다음과 같은 다양한 효과를 가진다.

첫째, 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법은 빈발 부분그래프가 정규 그래프인지 여부를 판단하는데 이용되는 정규 그래프 탐색 트리를 제공함으로써, 빈발 부분그래프 마이닝을 반복하여 수행하는 다양한 분석 기법에서 동일한 빈발 부분그래프에 대한 반복적인 정규화 연산없이도 용이하고 빠르게 빈발 부분그래프가 정규 그래프인지를 판단할 수 있다.

둘째, 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법은 정규 그래프를 구성하는 에지의 에지 코드 발생 빈도에 따라 에지 코드를 적은 수의 비트로 압축 부호화함으로써, 정규 그래프 탐색 트리의 저장 및 관리가 용이하다.

셋째, 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법은 빈발 부분그래프의 한 번의 정규화 연산만으로 정규 그래프 탐색 트리를 생성함으로써, 빈발 부분그래프 마이닝을 반복하여 수행하는 다양한 분석 기법에서 동일한 빈발 부분그래프에 대한 반복적인 정규화 연산을 줄여 분석 시간과 비용을 줄일 수 있다.

도 1은 정규화 연산의 고비용을 확인하기 위하여 모델기반 탐색 트리의 수행시간에서 정규화 연산이 차지하는 비율을 측정한 실험이다.
도 2는 본 발명에 따른 정규 그래프 탐색 트리의 생성 장치를 설명하기 위한 기능 블록도이다.
도 3은 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법을 설명하기 위한 흐름도이다.
도 4는 그래프 데이터베이스와 그래프 데이터베이스로부터 추출되는 빈발 부분그래프의 일 예를 도시하고 있다.
도 5와 도 6은 도 4에 도시되어 있는 2에지 빈발 부분그래프(g₁, g₂, g₃)와 빈발 부분그래프( g₄, g₅)의 DFS 코드를 각각 도시하고 있다.
도 7은 본 발명에 따른 정규 그래프 탐색 트리의 일 예를 도시하고 있다.
도 8은 본 발명에서 정규 압축 코드를 생성하는 방법을 보다 구체적으로 설명하는 흐름도이다.
도 9는 본 발명에 따른 정규 압축 코드의 일 예를 설명하기 위한 도면이다.
도 10은 본 발명에 따른 정규 그래프 탐색 트리를 이용하여 빈발 부분그래프 마이닝을 반복하여 수행하는 도약 탐색 기법을 수행하는 방법을 설명하는 흐름도이다.

이하 첨부한 도면을 참고로 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법 및 그 장치에 대해 보다 구체적으로 살펴본다.

도 2는 본 발명에 따른 정규 그래프 탐색 트리의 생성 장치를 설명하기 위한 기능 블록도이다.

도 2를 참고로 보다 구체적으로 살펴보면, 그래프 데이터베이스(110)에는 복잡한 구조를 가지는 그래프들이 대용량으로 저장되어 있으며, 빈발 부분그래프 추출부(120)는 그래프 데이터베이스(110)에 저장되어 있는 그래프에서 최소 지지도(MinSup) 이상으로 출현하는 빈발 부분그래프를 추출한다.

정규화 연산부(130)는 추출한 빈발 부분그래프를 정규화 연산하여 추출한 빈발 부분그래프의 최소 DFS(Depth First Search) 코드를 획득한다. 정규 그래프 판단부(140)는 추출한 각각의 빈발 부분그래프를 깊이우선탐색 순서로 에지 확장하여 추출한 빈발 부분그래프의 DFS 코드를 계산하고, 계산한 빈발 부분그래프의 DFS 코드와 획득한 빈발 부분그래프의 최소 DFS 코드를 비교하여 추출한 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단한다. 탐색 트리 생성부(160)는 추출한 빈발 부분그래프가 정규 그래프인 경우, 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터로 정규 그래프 탐색 트리를 생성한다.

빈발 부분그래프 확장부(150)는 추출한 빈발 부분그래프 중 정규 그래프인 빈발 부분그래프에서 에지 확장이 가능한지 판단하며, 에지 확장이 가능한 경우 빈발 부분그래프를 에지 확장하여 확장된 부분그래프를 생성한다. 빈발 부분그래프 추출부(120), 정규화 연산부(130) 및 정규 그래프 판단부(140)는 에지 확장된 부분그래프에 대해 앞서 설명한 것과 동일하게 동작한다. 즉, 빈발 부분 그래프 추출부(120)는 에지 확장된 부분그래프에서 제2 빈발 부분그래프를 추출하며, 정규화 연산부(130)는 제2 빈발 부분그래프를 정규화 연산하여 추출한 제2 빈발 부분그래프의 최소 DFS 코드를 획득한다. 정규 그래프 판단부(140)는 추출한 각각의 제2 빈발 부분그래프의 DFS 코드를 계산하고, 계산한 빈발 부분그래프의 DFS 코드와 획득한 제2 빈발 부분그래프의 최소 DFS 코드를 비교하여 추출한 제2 빈발 부분그래프 중 정규 그래프를 판단한다. 탐색 트리 생성부(160)는 제2 빈발 부분그래프가 정규 그래프인 경우 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 확장 포인터를 상기 정규 그래프 탐색 트리에 추가하여 정규 그래프 탐색 트리를 갱신한다.

탐색 트리 생성부(160)는 생성된 정규 그래프 탐색 트리를 탐색 트리 저장부(170)에 저장 관리하는데, 압축부(180)는 정규 그래프 탐색 트리 저장부(170)에 저장되어 있는, 정규 그래프를 구성하는 모든 에지의 에지 코드 발생 빈도를 계산하고 에지 코드의 발생 빈도 순서에 기초하여 정규 그래프 탐색 트리에 저장되어 있는 모든 에지의 DFS 코드를 정규 압축 코드로 압축하여 정규 그래프 탐색 트리에 재저장한다.

도 3은 본 발명에 따른 정규 그래프 탐색 트리의 생성 방법을 설명하기 위한 흐름도이다.

도 3을 참고로 보다 구체적으로 살펴보면, 그래프 데이터베이스로부터 최소 지지도 이상으로 발생하는 빈발 부분그래프를 추출한다(S10). 빈발 부분그래프(FG)은 아래의 수학식(1)과 같이 정의된다.

[수학식 1]

여기서

는 부분그래프(g)를 가지는 그래프(G)의 개수이며

는 그래프 데이터베이스에 존재하는 그래프의 개수이다. 그래프 데이터베이스와 그래프 데이터베이스로부터 추출되는 빈발 부분그래프의 일 예를 도시하고 있는 도 4를 참고로 살펴보면, 그래프 데이터베이스에 3개의 그래프(G₁, G₂, G₃)가 저장되어 있으며, 그래프 데이터베이스에 저장되어 있는 그래프들에서 최소 지지도 2/3 이상으로 발생하는 1에지 빈발 부분그래프(g₀)가 추출되며, 1에지 빈발 부분그래프에서 에지 확장되는 부분그래프 중 최소 지지도 2/3이상인 2에지 빈발 부분그래프(g₁, g₂, g₃)와 빈발 부분그래프(g₄, g₅)가 추출된다.

추출한 빈발 부분그래프를 정규화 연산하여 추출한 빈발 부분그래프의 최소 DFS 코드를 획득한다(S20). 추출한 빈발 부분그래프의 정규화 연산은 빈발 부분그래프를 구성하는 각 에지의 DFS 코드 중 가장 작게 표현된 값을 탐색 시작 시점으로 깊이우선탐색 순서로 버텍스 식별자를 순차적으로 부여하여 DFS 코드 집합 중 가장 작게 표현되는 최소 DFS 코드를 검색한다. 다수의 동일한 빈발 부분그래프가 존재하는 경우 에지의 확장 순서에 따라 동일한 빈발 부분그래프는 서로 다른 DFS 코드를 가지는데, 다수의 동일한 빈발 부분그래프를 유일하게 표현한 것이 최소 DFS 코드이다.

예를 들어 도 4에 도시되어 있는 2에지 빈발 부분그래프(g₁, g₂, g₃)의 정규화 연산 과정을 보다 구체적으로 살펴보면, 2에지 빈발 부분그래프(g₁, g₂, g₃)를 구성하는 각 에지(C-H, H-C, H-O, O-H)의 DFS 코드를 계산하고, 계산한 각 에지의 DFS 코드 중 가장 작게 표현된 값을 탐색 시작 시점으로 설정한다.

여기서 각 에지의 DFS 코드는 추출한 빈발 부분그래프(g₁, g₂, g₃)를 구성하는 각 에지의 확장 순서로 깊이 우선 탐색(DFS) 방식으로 생성되는데, 빈발 부분그래프(g₁, g₂, g₃)를 구성하는 각 에지의 DFS 코드는 에지를 구성하는 2개 버텍스(vertex) 식별자, 2개 버텍스 레이블 및 2개 버텍스를 연결하는 에지 레이블로 구성된다. 버텍스 식별자란 버텍스에 순차적으로 할당되는 식별자이며, 버텍스 레이블은 버텍스를 구성하는 버텍스 내용이며, 에지 레이블은 에지의 결합을 의미한다. 즉 빈발 부분그래프를 구성하는 각 에지의 DFS 코드는 아래의 수학식(2)와 같이 표현된다.

[수학식 2]

DFS 코드={i, j, l(v_i), l(e₁(v_i, v_j)), l(v_j)}

여기서 i, i는 각각 에지(e₁)를 구성하는 2개 버텍스(vertex) 식별자, l(v_i)와 l(v_j)는 각각 2개 버텍스 레이블, l(e₁(v_i, v_j))는 2개 버텍스를 연결하는 에지 레이블이다.

예를 들어, 에지(C-H)에 대한 DFS 코드는 에지를 구성하는 2개의 버텍스에 순차적으로 할당되는 버텍스 식별자(1, 2), 2개의 버텍스 레이블(C, H) 및 에지 레이블(1=단일결합)로 구성되어 (1, 2, C, 1, H)로 표현된다. 빈발 부분그래프(g₁, g₂, g₃)를 구성하는 각 에지(C-H, H-C, H-O, O-H)의 DFS 코드((1, 2, C, 1, H), (1, 2, H, 1, C), (1, 2, H, 1, O),(1, 2, O, 1, H)) 중 가장 작게 표현되는 제1 DFS 코드 (1, 2, C, 1, H)의 에지를 탐색 시작 시점으로 하여 확장 에지(H-O)를 구성하는 다음 버텍스에 순차적으로 버텍스 식별자를 부여하여 확장 에지의 제2 DFS 코드(2, 3, H, 1, O)를 획득하고 깊이우선탐색 순서로 순차적으로 확장되어 획득한 DFS 코드 집합 중 가장 작은 값을 가지는 DFS 코드 집합을 최소 DFS 코드((1, 2, C, 1, H), (2, 3, H, 1, O))로 검색한다. 여기서 깊이우선탐색 순서란 순차적으로 에지 확장되는 순서를 의미한다.

다시 도 3을 참고로 살펴보면, 추출한 빈발 부분그래프의 최소 DFS 코드와 추출한 각 빈발 부분그래프의 DFS 코드를 비교하여 추출한 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단한다(S30). 판단 결과 추출한 빈발 부분그래프 중 최소 DFS 코드를 가지는 빈발 부분그래프의 DFS 코드를 정규 그래프 탐색 트리에 저장한다(S40). 한편, 추출한 빈발 부분그래프가 정규 그래프인 경우, 추출한 빈발 부분그래프를 에지 확장하여 제2 빈발 부분그래프를 추출하며, 추출한 제2 빈발 부분그래프에 대해 S20 단계 내지 S40 단계를 반복하고, 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터를 정규 그래프 탐색 트리에 추가하여 정규 그래프 탐색 트리를 갱신한다. 여기서 추출한 빈발 부분그래프 또는 제2 추출 빈발 그래프가 정규 그래프가 아닌 경우 정규 그래프 탐색 트리에 저장하지 않고 그대로 삭제한다.

도 5와 도 6은 도 4에 도시되어 있는 2에지 빈발 부분그래프(g₁, g₂, g₃)와 빈발 부분그래프( g₄, g₅)의 DFS 코드를 각각 도시하고 있는데, 도 5와 도 6을 참고로 살펴보면 빈발 부분그래프(g₁, g₂, g₃) 중 최소 DFS 코드를 가지는 빈발 부분그래프(g₂)와 빈발 부분그래프(g₄, g₅) 중 최소 DFS 코드를 가지는 빈발 부분그래프(g₄)를 정규 그래프로 판단한다.

본 발명에 따른 정규 그래프 탐색 트리의 일 예를 도시하고 있는 도 7을 참고로 살펴보면, 정규 그래프 탐색 트리는 최소 DFS 코드를 효율적으로 저장 또는 검색할 수 있는 트리 구조의 인덱스인데, 최소 DFS 코드를 구성하는 DFS 코드 집합의 시작 시점 에지인 부모 에지와 부모 에지로부터 확장되는 자식 에지 각각의 DFS 코드와 부모 에지에서 자식 에지로의 확장 포인터로 설정되어 있다. 제1 빈발 부분그래프의 부모 에지(C-H)의 확장 포인터(A₂)에 따라 부모 에지의 자식 에지(H-O)가 연결되어 있다. 한편, 제2 빈발 부분그래프의 부모 에지(H-O)의 확장 포인터(A₁)에 따라 부모 에지의 자식 에지(O-P)가 연결되어 있다. 따라서 부모 에지로부터 최종 자식 에지까지 방문한 경로는 정규 그래프의 최소 DFS 코드를 순차적으로 방문한 에지의 순서와 일치한다.

본 발명에 따른 정규 그래프 탐색 트리 생성 방법의 다른 실시예에서 정규 그래프 탐색 트리의 저장 및 검색을 보다 용이하게 하기 위하여 정규 그래프를 구성하는 각 에지의 DFS 코드를 정규 압축 코드로 압축할 수 있는데, 도 8을 참고로 정규 압축 코드를 생성하는 방법을 보다 구체적으로 살펴본다.

도 8을 참고로 보다 구체적으로 살펴보면, 정규 그래프 탐색 트리에 저장되어 있는 모든 에지로부터 에지 코드를 추출한다(S110). 여기서 에지 코드란 에지의 DFS 코드에서 버텍스 레이블과 에지 레이블을 추출하여 생성된다. 추출한 모든 에지에 대한 에지 코드의 발생 빈도, 즉 모든 에지에서 동일한 에지 코드의 수를 계산한다(S120). 계산한 에지 코드의 발생 빈도 순서에 따라 가장 많은 발생 빈도를 가지는 에지 코드에 가장 적은 데이터를 할당하고 가장 낮은 발생 빈도를 가지는 에지 코드에 가장 많은 데이터를 할당하여 에지 코드를 압축 코드로 부호화하여 압축 변환 순람표를 생성한다(S130). 생성한 압축 변환 순람표에 따라 정규 그래프 탐색 트리에 저장되어 있는 모든 에지의 DFS 코드 중 에지 코드를 압축 코드로 변환하여 정규 압축 코드를 생성한다(S140). 본 발명에서 압축 코드는 호프만 코드를 사용하여 에지 코드를 압축 코드로 압축할 수 있다. 본 발명이 적용되는 분야에 따라 다양한 압축 방식으로 에지 코드를 압축하여 압축 코드를 생성할 수 있으며, 이는 본 발명의 범위에 속한다.

도 9는 본 발명에 따른 정규 압축 코드의 일 예를 설명하기 위한 도면이다.

도 9(a)에 도시되어 있는 정규 그래프(G₁)를 구성하는 각 에지(e₁, e₂, e₃, e₄, e₅, e₆)에 대한 DFS 코드에서 버텍스 레이블과 에지 레이블(에지의 결합 상태, 예를 들어 단일결합, 이중결합 등)로 표현되는 에지 코드를 생성하고, 각 에지의 에지 코드가 정규 그래프에서 빈발하게 반복되는 횟수에 따라 서로 다른 데이터로 표현하는 압축 코드를 생성한다.

도 9(b)에 도시되어 있는 것과 같이, 정규 그래프(G₁)를 구성하는 각 에지의 DFS 코드를 각 에지의 버텍스 식별자와 압축 코드로 표현되는 압축 정규 코드로 변환하여 정규 그래프 탐색 트리를 저장함으로써, 정규 그래프 탐색 트리의 저장을 보다 적은 메모리로 할 수 있다.

한편, 도 9(c)에 도시되어 있는 것과 같이 에지 코드와 각 에지 코드에 해당하는 압축 코드의 테이블을 저장한 순람표를 별도로 저장함으로써, 순람표에 의해 각 에지의 압축 정규 코드를 빠르게 생성할 수 있다.

도 10은 본 발명에 따른 정규 그래프 탐색 트리를 이용하여 빈발 부분그래프 마이닝을 반복하여 수행하는 도약 탐색 기법을 수행하는 방법을 설명하는 흐름도이다.

도 10을 참고로 보다 구체적으로 살펴보면, 최소 지지도가 입력되면(S210) 그래프 데이터베이스에서 입력된 최소 지지도를 가지는 빈발 부분그래프를 추출하고(S220), 추출한 빈발 부분그래프의 DFS 코드를 생성한다(S230).

생성한 빈발 부분그래프의 DFS 코드와 정규 그래프 탐색 트리의 정규 코드를 비교하여 추출한 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단한다(S240). 판단 결과 추출한 빈발 부분그래프가 정규 그래프인 경우 추출한 빈발 부분그래프에서 에지가 확장되는 부분그래프가 생성되는지 판단하여(S250), 에지가 확장될 때까지 추출한 빈발 부분그래프로부터 생성되는 새로운 부분그래프를 생성하고 생성한 새로운 부분그래프에 대해 앞서 설명한 S220 단계 내지 S240 단계를 반복 수행하여 그래프 데이터베이스에 존재하는 최소 지지도를 만족하는 모든 빈발 부분그래프를 탐색한다.

한편, 최소 지지도가 설정된 다른 최소 지지도로 변경되는 경우, 그래프 데이터베이스에서 변경된 최소 지지도로 위에서 설명한 단계 S220 내지 S250단계를 수행하여 변경된 최소 지지도로 그래프 데이터베이스의 모든 빈발 부분그래프를 추출한다.

이와 같이 빈발 부분그래프 마이닝을 반복하여 수행하는 다양한 분석 기법에서 최소 지지도 또는 그래프 데이터베이스를 달리할 때마다 동일한 빈발 부분그래프에 대한 정규화 연산을 반복하여 수행하는 대신, 정규 그래프 탐색 트리를 이용하여 빈발 부분그래프가 정규 그래프인지 판단함으로써 고비용의 정규화 연산을 줄일 수 있으며, 따라서 분석 비용과 시간을 줄일 수 있다.

도 4에 도시되어 있는 그래프 데이터베이스에서 도 7에 도시되어 있는 정규 그래프 탐색 트리를 이용하여 최소 지지도 2로 빈발 부분그래프 마이닝하는 방법을 살펴보면, 제1 빈발 부분그래프(g₁, g₃)의 에지 확장 순서로 부모 에지(e₁)의 DFS 코드(1, 2, H, 1, O)가 생성된 정규 그래프 탐색 트리의 제1 저장 레벨에 존재하는지 판단한다. 판단 결과 부모 에지(e₁)의 DFS 코드가 정규 그래프 탐색 트리의 제1 저장 레벨에 존재하는 경우, 부모 에지(e₁)의 DFS 코드의 확장 포인터(A₁)을 따라 정규 그래프 탐색 트리의 제2 저장 레벨에 자식 에지(e₂)의 DFS 코드(2, 3, H, 1, C)가 존재하는지 판단한다. 판단 결과 정규 그래프 탐색 트리의 제2 저장 레벨에 자식 에지(e₂)의 DFS 코드(2, 3, H, 1, C)가 존재가 존재하지 않는 경우 제1 빈발 부분그래프 (g₁, g₃)는 최소 DFS 코드를 가지지 않는 정규 코드가 아님을 확인할 수 있다. 한편, 제1 빈발 부분그래프(g₂)의 에지 확장 순서로 부모 에지(e₁)의 DFS 코드(1, 2, C, 1, H)가 정규 그래프 탐색 트리의 제1 저장 레벨에 존재하는지 판단한다. 판단 결과 부모 에지(e₁)의 DFS 코드가 정규 그래프 탐색 트리의 제1 저장 레벨에 존재하는 경우, 부모 에지(e₁)의 DFS 코드의 확장 포인터(A₂)을 따라 정규 그래프 탐색 트리의 제2 저장 레벨에 자식 에지(e₂)의 DFS 코드(2, 3, H, 1, O)가 존재하는지 판단한다. 판단 결과 정규 그래프 탐색 트리의 제2 저장 레벨에 자식 에지(e₂)의 DFS 코드(2, 3, H, 1, O)가 존재하는 경우 제1 빈발 부분그래프(g₂)는 최소 DFS 코드를 가지는 정규 그래프로 판단하며, 정규 그래프로 판단된 제1 빈발 부분그래프(g₂)를 에지 확장하여 제1 빈발 부분그래프(g₂)로부터 확장된 새로운 빈발 부분그래프를 추출한다.

이와 동일하게 제2 빈발 부분그래프(g₄)의 부모 에지(e₁)와 자식 에지(e₂)의 DFS 코드가 에지 확장 순서에 대응하도록 정규 그래프 탐색 트리의 제1 저장 레벨과 제2 저장 레벨에 저장되어 있는 경우, 제2 빈발 부분그래프(g₄)를 정규 그래프로 판단하여 제2 빈발 부분그래프(g₄)를 에지 확장하여 제2 빈발 부분그래프(g₄)로부터 확장된 새로운 빈발 부분그래프를 추출하며, 제2 빈발 부분그래프(g5)의 부모 에지(e₁)와 자식 에지(e₂)의 DFS 코드가 에지 확장 순서에 대응하도록 정규 그래프 탐색 트리의 제1 저장 레벨과 제2 저장 레벨에 저장되어 있지 않은 경우 제2 빈발 부분그래프(g₅)를 제거한다.

한편, 상술한 본 발명의 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

110: 그래프 DB 120: 빈발 부분그래프 추출부
130: 정규화 연산부 140: 정규 그래프 판단부
150: 빈발 부분그래프 확장부 160: 탐색트리 생성부
170: 탐색 트리 저장부 180: 압축부

Claims

(a) 그래프 데이터베이스로부터 제1 빈발 부분그래프를 추출하는 단계;
(b) 추출한 상기 제1 빈발 부분그래프를 정규화 연산하여 상기 제1 빈발 부분그래프의 최소 DFS 코드를 획득하는 단계;
(c) 상기 제1 빈발 부분그래프의 에지 확장 순서로 계산한 DFS 코드를 획득하고, 상기 제1 빈발 부분그래프의 DFS 코드와 상기 제1 빈발 부분그래프의 최소 DFS 코드를 비교하여 상기 제1 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단하는 단계; 및
(d) 상기 제1 빈발 부분그래프가 정규 그래프인 경우, 상기 제1 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터를 저장하여 정규 그래프 탐색 트리를 생성하는 단계를 포함하는 정규 그래프 탐색 트리의 생성 방법.
제 1 항에 있어서, 상기 정규 그래프 탐색 트리의 생성 방법은
(e) 상기 제1 빈발 부분그래프가 정규 그래프인 경우, 상기 제1 빈발 부분그래프를 에지 확장하여 제2 빈발 부분그래프를 추출하는 단계를 더 포함하며,
상기 제2 빈발 부분그래프에 대해 상기 (b) 단계 내지 상기 (d) 단계를 반복하고, 상기 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터를 상기 정규 그래프 탐색 트리에 추가하여 상기 정규 그래프 탐색 트리를 갱신하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 방법.
제 2 항에 있어서,
상기 제1 빈발 부분그래프 또는 상기 제2 빈발 부분그래프가 정규 그래프가 아닌 경우, 상기 제1 빈발 부분그래프 또는 상기 제2 빈발 부분그래프를 삭제하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 방법.
제 1 항 또는 제 2 항에 있어서, 상기 제1 빈발 부분그래프 또는 상기 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드는 상기 각 에지를 구성하는 버텍스 레이블과 에지 레이블로 이루어진 에지 코드와 상기 각 에지를 구성하는 버텍스 식별자를 구비하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 방법.
제 4 항에 있어서, 상기 각 에지의 DFS 코드는
상기 에지 코드를 압축 코드로 압축하여 정규 압축 코드로 저장되는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 방법.
제 5 항에 있어서, 상기 정규 압축 코드는
상기 정규 그래프 탐색 트리에 저장되어 있는 각 에지의 에지 코드를 추출하는 단계;
상기 추출한 에지 코드의 발생 빈도 순서로 상기 추출한 에지 코드에 적은 수의 비트로 부호화된 압축 코드를 할당하여 압축 변환 순람표를 생성하는 단계; 및
상기 압축 변환 순람표에 기초하여 상기 에지 코드를 압축 코드로 압축하여 상기 각 에지의 DFS 코드를 정규 압축 코드로 생성하는 단계를 포함하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 방법.
제 6 항에 있어서, 상기 각 에지의 에지 코드에서 상기 각 에지를 구성하는 버텍스 레이블은 상승 순서로 순차적으로 정렬되는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 방법.
그래프 데이터베이스로부터 빈발 부분그래프를 추출하는 빈발 부분그래프 추출부;
상기 빈발 부분그래프를 정규화 연산하여 상기 빈발 부분그래프의 최소 DFS 코드를 획득하는 정규화 연산부;
상기 빈발 부분그래프의 에지 확장 순서로 계산한 DFS 코드와 상기 빈발 부분그래프의 최소 DFS 코드를 비교하여 상기 빈발 부분그래프가 최소 DFS 코드를 가지는 정규 그래프인지 판단하는 정규 그래프 판단부; 및
상기 빈발 부분그래프가 정규 그래프인 경우, 상기 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 각 에지 사이의 순차적인 확장 포인터로 정규 그래프 탐색 트리를 생성하는 탐색 트리 생성부를 포함하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 장치.
제 8 항에 있어서, 상기 정규 그래프 탐색 트리의 생성 장치는
상기 빈발 부분그래프가 정규 그래프인 경우, 상기 그래프 데이터베이스에서 상기 빈발 부분그래프를 에지 확장하는 빈발 부분그래프 확장부를 더 포함하며,
상기 빈발 부분그래프 추출부는 에지 확장한 빈발 부분그래프에서 제2 빈발 부분그래프를 추출하며, 상기 탐색 트리 생성부는 상기 제2 빈발 부분그래프가 정규 그래프인 경우 상기 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드와 확장 포인터를 상기 정규 그래프 탐색 트리에 추가하여 상기 정규 그래프 탐색 트리를 갱신하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 장치.
제 9 항에 있어서, 상기 빈발 부분그래프 또는 상기 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드는
상기 각 에지를 구성하는 버텍스 레이블과 에지 레이블로 이루어진 에지 코드와 상기 각 에지를 구성하는 버텍스 식별자를 구비하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 장치.
제 10 항에 있어서, 상기 정규 그래프 탐색 트리의 생성 장치는
상기 빈발 부분그래프 또는 상기 제2 빈발 부분그래프를 구성하는 각 에지의 DFS 코드를 정규 압축 코드로 압축하는 압축부를 더 포함하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 장치.
제 11 항에 있어서, 상기 압축부는
상기 정규 그래프 탐색 트리에 저장되어 있는 모든 에지의 에지 코드를 추출하는 에지 추출부;
상기 추출한 에지 코드의 발생 빈도 순서를 계산하는 발생 빈도 계산부;
상기 계산한 발생 빈도 순서로 상기 추출한 에지 코드에 적은 수의 비트로 부호화된 압축 코드를 할당하여 압축 변환 순람표를 생성하는 순람표 생성부;
상기 압축 변환 순람표에 기초하여 상기 에지 코드를 압축 코드로 압축하여 상기 각 에지의 DFS 코드를 정규 압축 코드로 생성하는 정규 압축 코드 생성부를 포함하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 장치.
제 8 항 또는 제 12 항 중 어느 한 항에 있어서, 상기 정규 그래프 탐색 트리의 생성 장치는
상기 생성한 정규 그래프 탐색 트리를 저장하고 있는 탐색 트리 데이터베이스를 더 포함하는 것을 특징으로 하는 정규 그래프 탐색 트리의 생성 장치.