KR20140131471A

KR20140131471A - 시계열 패턴 마이닝 방법 및 장치

Info

Publication number: KR20140131471A
Application number: KR20130050247A
Authority: KR
Inventors: 박형민; 강효아; 이기용
Original assignee: 삼성전자주식회사
Priority date: 2013-05-03
Filing date: 2013-05-03
Publication date: 2014-11-13
Also published as: US9465912B2; KR102020673B1; US20140330843A1

Abstract

시계열 패턴 마이닝 방법 및 장치가 제공된다. 일 양상에 따른 시계열 패턴 마이닝 방법은, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 동일한 데이터 패턴 집합을 생성하는 단계와, 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 단계와, 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계와, 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 단계를 포함할 수 있다.

Description

시계열 패턴 마이닝 방법 및 장치{Method and Apparatus for mining temporal pattern}

데이터 마이닝 기술에 관한 것으로, 특히 시계열 패턴 마이닝 방법 및 장치에 관한 것이다.

각종 의료 장비의 발달과 체계적인 전산 시스템의 도입으로 병원에서 생성되는 메디컬 데이터의 양은 폭발적으로 증가하고 있다. 그러나, 폭발적인 데이터의 증가는 의사들이 다룰 수 있는 수준을 훌쩍 뛰어넘어 분석이 점점 어려워지고 있는 형편이다. 특히, 심전도(electrocardiography, ECG 또는 EKG) 등 생체 신호 데이터는 초당 데이터가 생성되기 때문에 하루치 데이터만 해도 매우 큰 데이터이다. 따라서, 대용량 데이터를 분석하기 위해 데이터 마이닝 기술에 대한 연구가 많아지고 있다.

한편, 데이터 마이닝 기법에 있어, 관심 패턴의 형태를 정의하는 관심 패턴 모델이 활용될 수 있다. 즉, 관심 패턴의 길이, 최대 허용 불일치 값(mismatch) 및 최소 지지도(minimum support)를 정의하는 관심 패턴 모델을 이용하여 시퀀스 데이터에서 빈발 패턴을 마이닝할 수 있다.

그러나, 최대 허용 불일치 값을 허용함으로서 시퀀스 데이터 자체에는 등장하지 않는 패턴이 같이 추출되며, 최대 허용 불일치 값이 크면 추출되는 빈발 패턴의 수도 증가하여 분석이 곤란하므로 필요없는 패턴의 추출을 지양하고 속도 향상에도 기여하는 효율적인 데이터 마이닝 기법이 요구된다.

시계열 패턴 마이닝 방법 및 장치를 제공하는 것을 목적으로 한다.

일 양상에 따른 시계열 패턴 마이닝 방법은, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 동일한 데이터 패턴 집합을 생성하는 단계와, 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 단계와, 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계와, 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 단계를 포함할 수 있다.

여기서, 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 상기 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 하나를 포함할 수 있다.

또한, 시계열 패턴 마이닝 방법은, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 후보 패턴 집합에서 해당 후보 패턴을 제거하는 단계를 더 포함할 수 있다.

또한, 시계열 패턴 마이닝 방법은, 후보 패턴의 길이가 관심 패턴 길이와 동일하지 않는 경우, 후보 패턴 집합에 남아있는 각 후보 패턴과의 불일치 값이 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합에서 제거하는 단계와, 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 남아있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성하는 단계를 더 포함할 수 있다.

여기서, 후보 패턴 집합을 생성하는 단계는 사용 가능한 메모리 크기를 기반으로, 생성 가능한 모든 후보 패턴 중 일부만을 분할 생성할 수 있다.

여기서, 지지도를 산출하는 단계는 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출할 수 있다.

또한, 시계열 패턴 마이닝 방법은, 입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 단계를 더 포함할 수 있다.

또 다른 양상에 따른 시계열 패턴 마이닝 장치는, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 동일한 데이터 패턴 집합을 생성하는 데이터 패턴 생성부와, 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 후보 패턴 생성부와, 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 지지도 산출부와, 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 제어부를 포함할 수 있다.

여기서, 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 하나를 포함할 수 있다.

여기서, 제어부는 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 후보 패턴 집합에서 해당 후보 패턴을 제거할 수 있다.

여기서, 제어부는 후보 패턴 집합에 남아있는 후보 패턴 각각과의 불일치 값이 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합에서 제거할 수 있다.

여기서, 제어부는 후보 패턴 집합에 포함되는 후보 패턴의 길이가 관심 패턴 길이와 동일하지 않는 경우, 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 포함되는 데이터 패턴에 단위 패턴을 결합하여 데이터 패턴 집합을 생성하도록 데이터 패턴 생성부를 제어할 수 있다.

여기서, 지지도 산출부는 상기 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출할 수 있다.

또한, 시계열 패턴 마이닝 장치는, 입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 데이터 서픽스 트리 생성부를 더 포함할 수 있다.

특정 조건을 만족하는 패턴만을 마이닝함으로써, 데이터 자체에 등장하지 않는 패턴은 마이닝하지 않도록 하여 패턴 마이닝 속도를 향상 시킬 수 있다.

도 1은 시퀀스 데이터의 예를 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 방법의 흐름도이다.
도 3a 내지 도 3f는 시계열 패턴 마이닝 방법을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 장치의 구성도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 시퀀스 데이터의 예를 도시한 도면이다.

도 1을 참조하면, 시퀀스 데이터는 연속적인 사건들을 특정 규칙에 따라 배열한 데이터를 의미한다. 예를 들어, 시퀀스 데이터는 DNA 염기 서열을 심볼화 하여 순서대로 나열한 데이터일 수 있다(110). 또 다른 예를 들면, 심전도(electrocardiogram, ECG) 측정 데이터를 심볼화하여 연속적으로 나열한 데이터일 수 있다(130). 그러나, 시퀀스 데이터는 도시된 예에 한정되는 것은 아니며, 특정 단어, 글자 또는 숫자가 연속적으로 나열된 데이터 등 다양한 형태일 수 있다.

단위 패턴은 시퀀스 데이터를 구성하는 최소 단위를 의미한다. 예를 들어, 도 1의 DNA 시퀀스 데이터(110)의 경우, 단위 패턴은 A, G, T 및 C 각각을 의미한다. 또한, 패턴은 연속적인 단위 패턴들의 조합을 의미한다. 이하, 시퀀스 데이터, 패턴 및 단위 패턴은 동일한 의미로 해석된다.

한편, 본 발명의 일 실시 예를 설명함에 있어, 시퀀스 데이터에서 원하는 패턴을 마이닝하기 위해 관심 패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심 패턴 모델이 설정되어 있다고 가정한다. 또한, 시퀀스 데이터는 동일 범주로 분류된 시퀀스 데이터라 가정한다.

여기서, 관심 패턴은 관심 패턴 모델의 최대 허용 불일치 값을 고려한 지지도가 최소 지지도 이상이며, 관심 패턴 길이를 만족하는 패턴을 말한다.

빈도수란 시퀀스 데이터에서 특정 패턴이 나타나는 횟수를 의미하며, 이때, 특정 패턴을 포함하는 시퀀스들이 특정 패턴을 지지한다고 말한다. 한편, 본 명세서에서 사용되는 빈도수란 후술하는 불일치 값을 고려하지 않으나, 지지도는 특정 패턴을 지지하는 정도로서, 후술하는 바와 같이 불일치 값을 고려하여 결정된다.

불일치 값은 시퀀스 데이터에서 특정 패턴의 지지도 검사에 있어서, 특정 패턴과 완전히 동일하지 않고 유사한 경우를 고려하기 위한 것으로 시퀀스 데이터가 획득되는 과정에서 발생할 수 있는 노이즈를 해결하기 위한 것이다. 즉, 불일치 값은 같은 길이의 두 패턴을 비교하였을 때 같은 위치에 다른 단위 패턴을 가질 경우 발생한다. 예를 들어, 패턴 abc와 adc를 비교하면, 두 번째 자리에서 다른 단위 패턴 b와 d를 가지고 있으므로 불일치 값이 1이 된다.

일 실시 예에 따르면, 패턴 검색 공간을 줄이기 위해 비단조(anti-monotonicity) 성질을 이용할 수 있다. 비단조(anti-monotonicity) 성질을 이용하기 위해 패턴 길이가 1인 단위 패턴부터 조건 만족 여부를 판단하고, 패턴 길이가 2인 패턴을, 패턴 길이가 3인 패턴을 그리고 원하는 길이 L인 패턴까지 만들어 나가며, 조건 만족 여부를 판단한다. 이 과정에서 비단조(anti-monotonicity) 성질을 이용하여 탐색 공간을 줄일 수 있다.

도 2는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 방법의 흐름도이다.

도 2를 참조하면, 시계열 패턴 마이닝 방법은 먼저, 시퀀스 데이터에 대한 데이터 서픽스 트리(data suffix tree)를 기반으로 데이터 패턴 집합을 생성한다(210). 예를 들면, 데이터 서픽스 트리의 각 노드 정보를 바탕으로 동일한 패턴 길이를 가지는 데이터 패턴들의 집합을 생성할 수 있다.

그 후, 생성된 데이터 패턴 집합을 이용하여 후보 패턴 집합을 생성한다(220).

일 실시 예에 따르면, 데이터 패턴 집합에 포함된 각 데이터 패턴과의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값 이내인 후보 패턴 집합을 생성할 수 있다. 예를 들어, 최대 허용 불일치 값이 1이고, 시퀀스 데이터에 나타나는 단위 패턴 집합이 {a, b, c}, 데이터 패턴 집합이 {ab, ac}라고 가정하면, 데이터 패턴 ab와 불일치 값이 1이하인 후보 패턴 집합은 {aa, ab, ac ,bb, cb}이며, 데이터 패턴 ac와 불일치 값이 1이하인 후보 패턴 집합은 {aa, ab, ac, bc, cc}이므로, 데이터 패턴 집합 {ab, ac}를 기반으로 생성되는 후보 패턴 집합은 {aa, ab, ac, bb, bc, cb, cc}가 된다.

그 후, 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출한다(230).

일 실시 예에 따르면, 지지도는 데이터 패턴 각각에 대한 빈도수를 기반으로, 각 데이터 패턴과의 불일치 값을 고려하여 산출할 수 있다. 이 경우, 각 데이터 패턴과의 불일치 값에 따라 가중치를 달리하여 각 후보 패턴의 지지도를 산출할 수 있다. 이를 수식으로 나타내면 다음과 같다.

여기서, P는 후보 패턴, S는 데이터 패턴, j는 후보 패턴 P와 데이터 패턴 S의 불일치 값,

는 불일치 값이 j일 때의 가중치를 의미한다.

예를 들어,

,

이고, 후보 패턴 ab를 지지하는(후보 패턴 ab와의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값 이내인) 데이터 패턴이 ab 및 bb이며, 데이터 패턴 ab의 빈도수가 5, 데이터 패턴 bb의 빈도수가 3이라고 가정하면, 후보 패턴 ab의 지지도는 0.9*5+0.1*3=4.3이 된다.

또 다른 실시 예에 따르면, 지지도는 입력된 시퀀스 데이터의 개수를 고려하여 산출할 수도 있다. 특정 데이터 패턴에 대하여, 100개의 시퀀스 데이터에서 빈도수가 10회인 경우와 10개의 시퀀스 데이터에서 빈도수가 10회인 경우는 그 중요도에 있어서 차이가 존재한다. 따라서, 입력된 시퀀스 데이터의 개수를 고려하여 후보 패턴의 지지도를 산출할 수 있다. 이를 수학식으로 나타내면 다음과 같다.

여기서, x는 입력된 시퀀스 데이터의 개수를 의미한다.

그 후, 각 후보 패턴의 지지도를 기반으로, 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는지 여부를 판단한다(240). 여기서, 미리 설정된 패턴 조건은 지지도가 관심 패턴 모델의 최소 지지도 이상일 것(조건 1), 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것(조건 2) 등일 수 있으나, 이에 한정되는 것은 아니며, 특징적(discriminative)인 패턴을 마이닝하기 위한 정보 이득(information gain) 조건 또는 견고한(robust) 패턴을 마이닝하기 위한 다양한 조건들을 포함할 수 있다. 또한, 조건 2에서 불일치 값이 0인 데이터 패턴의 빈도수에 대한 임계값 뿐만이 아니라 불일치 값이 1인 데이터 패턴의 빈도수에 대한 임계값, 불일치 값이 2인 데이터 패턴의 빈도수에 대한 임계값 등 불일치 값에 따라 임계값이 별개로 설정되어, 각 불일치 값에 따른 빈도수가 해당 임계값 이상일 것을 조건으로 설정될 수도 있다.

그 후, 단계 240의 판단 결과, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 해당 후보 패턴을 후보 패턴 집합에서 제거한다(250).

그 후, 후보 패턴 집합 내의 후보 패턴들의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지를 판단한다(260).

단계 260의 판단 결과, 후보 패턴 길이가 관심 패턴 길이와 동일한 경우, 후보 패턴 집합에 남아 있는 후보 패턴을 검출하고, 절차를 종료한다.

한편, 단계 260의 판단 결과, 후보 패턴 길이가 관심 패턴 길이와 동일하지 않는 경우, 후보 패턴 집합에 남아 있는 각 후보 패턴과의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합에서 제거하고(270), 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 남아 있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성한다(210). 즉, 남아 있는 후보 패턴을 지지하지 않는 데이터 패턴을 데이터 패턴 집합에서 제거하고, 남아 있는 데이터 패턴을 기초로 단위 패턴을 결합함으로써 새로운 데이터 패턴 집합을 생성한다.

한편, 단계 240의 판단 결과, 후보 패턴 집합내의 모든 후보 패턴이 미리 설정된 패턴 조건을 만족하는 경우, 후보 패턴 집합 내의 후보 패턴들의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지를 판단한다(260).

한편, 본 발명의 추가적 실시 예에 따르면, 시계열 패턴 마이닝 방법은, 시퀀스 데이터를 수신하고 수신된 시퀀스 데이터를 기반으로 데이터 서픽스 트리를 생성하는 단계(205)를 더 포함할 수 있다.

한편, 일 실시 예에 따른 시계열 패턴 마이닝 방법에 따르면, 단계 220에서 후보 패턴 집합을 생성할 때, 사용 가능한 메모리의 크기에 따라서, 생성 가능한 후보 패턴 중 일부 후보 패턴만을 포함하는 후보 패턴 집합을 생성하여, 패턴 검색을 수행하고, 일부 후보 패턴에 대한 패턴 검색이 완료된 후, 나머지 후보 패턴을 생성하여 패턴 검색을 수행하는 것도 가능하다. 이 경우, 사용 가능한 메모리의 크기가 작더라도, 메모리 크기에 따라 패턴 검색 범위를 적절히 조절함으로써, 빠른 검색이 가능하다.

한편, 일 실시 예에 따르면, 시퀀스 데이터에서 원하는 패턴을 마이닝하기 위해 관심 패턴 길이, 최소 유사도 및 최소 지지도를 포함하는 관심 패턴 모델을 이용할 수도 있다. 여기서, 유사도는 패턴의 길이를 고려한 것으로, 양 패턴의 불일치 값을 패턴의 길이로 나눈 값으로 정의될 수 있다. 이때, 양 패턴의 유사도가 최소 유사도 이하인 경우 양 패턴은 유사하다고 판단하고, 관심 패턴 모델의 최소 유사도 조건을 만족한다고 판단할 수 있다.

이하, 시계열 패턴 마이닝 방법을 예를 들어 상세하게 설명한다.

도 3a 내지 도 3f는 시계열 패턴 마이닝 방법을 설명하기 위한 예시도이다. 자세하게는, 도 3a는 입력된 시퀀스 데이터의 예, 도 3b는 도 3a의 시퀀스 데이터를 기반으로 생성된 데이터 서픽스 트리, 도 3c는 패턴 길이가 1인 데이터 패턴 집합 및 후보 패턴 집합을 표현하는 이분 그래프, 도 3d는 패턴 길이가 2인 데이터 패턴 집합 및 후보 패턴 집합을 표현하는 이분 그래프, 도 3e는 도 3d의 이분 그래프에서 길이가 2인 데이터 패턴 및 후보 패턴을 직접 연결하여 도시한 이분 그래프, 도 3e는 패턴 길이가 3인 데이터 패턴 집합 및 후보 패턴 집합을 표현하는 이분 그래프를 도시한 도면이다.

도 3a 내지 도 3f를 참조하여 시계열 패턴 마이닝 방법을 예를 들어 설명함에 앞서, 관심 패턴 길이가 3, 최대 허용 불일치 값이 1, 최소 지지도가 3.2인 관심 패턴 모델이 설정되어 있고, 지지도 산출시 불일치 값이 0인 경우 가중치가 0.8이며(

), 불일치 값이 1인 경우 가중치가 0.2이고(

), 지지도 산출시 시퀀스 데이터의 개수는 고려하지 않는다고 가정한다. 또한, 미리 설정된 패턴 조건은 지지도가 관심 패턴 모델의 최소 지지도 이상일 것(조건 1)이라고 가정한다.

한편, 후보 패턴의 생성과 지지도 계산을 용이하게 하기 위해 이분 그래프(bipartite graph)를 이용한다. 이때, 이분 그래프의 왼쪽은 데이터 서픽스 트리를 기반으로 생성된 데이터 패턴에 대응되는 노드가 표현되며, 오른쪽은 데이터 패턴을 기반으로 생성되는 후보 패턴에 대응되는 노드가 표현된다. 여기서, 두 종류의 노드간 간선(edge)은 노드가 나타내는 패턴 간의 불일치 값이 최대 허용 불일치 값 보다 작을 때 존재하며, 각 간선에는 불일치 값이 저장될 수 있다.

도 3a의 시퀀스 데이터가 입력되는 경우, 입력된 시퀀스 데이터를 기반으로 도 3b에 도시된 바와 같이 데이터 서픽스 트리를 생성한다(205). 이때, 생성된 데이터 서픽스 트리의 각 노드에는 해당 노드에 대응되는 패턴의 빈도수가 함께 저장될 수 있다.

그 후, 생성된 데이터 서픽스 트리의 첫 번째 노드들(310)을 기반으로 길이가 1인 데이터 패턴 집합 S1을 생성하고(210), 생성된 데이터 패턴 집합 S1을 기반으로 데이터 패턴 집합 S1 내의 각 데이터 패턴과의 불일치 값이 1 이하인 후보 패턴 집합 P1을 생성한다(220). 도 3c에서 이분 그래프의 왼쪽 노드들(340)은 각각 데이터 패턴에 대응되며, 오른쪽 노드들(350)은 각각 후보 패턴에 대응된다. 이 경우, 데이터 패턴에 대응되는 각 왼쪽 노드에는 해당 데이터 패턴의 빈도수가 함께 저장될 수 있다. 이하, 설명의 편의를 위해, 이분 그래프의 각 노드 및 각 노드에 대응되는 패턴은 동일 참조부호를 쓰기로 한다.

도시된 예에서, 데이터 서픽스 트리의 첫 번째 노드들(310)을 기반으로 데이터 패턴 집합 S1={a, b, c}이 생성되고, 데이터 패턴 집합 S1을 기반으로 불일치 값이 1 이하인 후보 패턴 집합 P1={a, b, c}이 생성된다.

그 후, 후보 패턴 집합 P1내의 각 후보 패턴의 지지도를 산출한다(230). 도시된 예에서, 후보 패턴 a(351)을 지지하는 데이터 패턴은 a(341), b(343), c(345)이고, 각 패턴(341, 343, 345)의 빈도수는 각각 8, 6, 6이므로, 수학식 1을 이용하면, 후보 패턴 a(351)의 지지도는 (8*0.8)+(6*0.2)+(6*0.2)=8.8 이 된다. 마찬가지로 후보 패턴 b(353)의 지지도는 (8*0.2)+(6*0.8)+(6*0.2)=7.6, 후보 패턴 c(355)의 지지도는 (8*0.2)+(6*0.2)+(6*0.8)=7.6이 된다.

그 후, 후보 패턴 집합 P1내의 각 후보 패턴(351, 353, 355)이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단한다(240). 도시된 예에서, 가정에 따라 조건 1을 만족하는 지 여부를 판단하면, 관심 패턴 모델의 최소 지지도 3.2이므로, 후보 패턴(351, 353, 355) 모두는 조건 1을 만족한다.

후보 패턴 집합 P1내의 각 후보 패턴(351, 353, 355)이 미리 설정된 패턴 조건을 만족하므로 후보 패턴의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지 여부를 판단한다(260). 도시된 예에서, 관심 패턴 모델의 관심 패턴 길이는 3이고, 후보 패턴의 길이는 1이므로 양자는 동일하지 아니하다.

후보 패턴 길이가 관심 패턴 모델의 관심 패턴 길이와 동일하지 않으므로, 후보 패턴 집합 P1내의 각 후보 패턴과의 불일치 값이 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합 S1에서 제거한다(270). 도시된 예에서 후보 패턴 집합 P1 내의 모든 후보 패턴(351, 353, 355)과의 불일치 값이 최대 허용 불일치 값 1을 초과하는 데이터 패턴은 존재하지 않는다.

그 후, 데이터 서픽스 트리의 두번째 노드들(320)을 기반으로 데이터 패턴 집합 S1내의 각 데이터 패턴(341, 343, 345)에 단위 패턴을 결합하여 새로운 데이터 패턴 집합 S2를 생성한다(210). 도시된 예에서, 데이터 패턴(341, 343, 345)에 데이터 서픽스 트리의 두번째 노드들(320)을 기반으로 단위 패턴을 결합하여 길이가 2인 새로운 데이터 패턴 집합 S2={aa, ab, ba, bc, ca, cc}를 생성한다.

그 후, 데이터 패턴 집합 S2를 이용하여 최대 허용 불일치 값 1을 만족하는 후보 패턴 집합 P2를 생성한다(220). 이 경우, 기존의 후보 패턴 집합 P1을 기반으로 데이터 패턴 집합 S2를 이용하여 후보 패턴 집합 P2를 생성할 수 있다. 도시된 예에서, 최대 허용 불일치 값이 1이므로 데이터 패턴 집합 S2로부터 생성되는 후보 패턴 집합 P2는 {aa, ab, ac, ba, bb, bc, ca, cb, cc}이다.

그 후, 후보 패턴 집합 P2 내의 각 후보 패턴의 지지도를 산출한다(230). 후보 패턴 aa(371)를 지지하는 데이터 패턴은 aa(361), ab(362), ba(363), ca(365) 이고, 각 패턴의 빈도수는 각각 1, 5, 1, 3이므로, 수학식 1을 이용하면, 후보 패턴 aa(371)의 지지도는 (1*0.8)+(5*0.2)+(1*0.2)+(3*0.2)=2.6 이 된다. 마찬가지로 후보 패턴 ab(372)의 지지도는 4.2, 후보 패턴 ac(373)의 지지도는 2.4, 후보 패턴 ba(374)의 지지도는 2.6, 후보 패턴 bb(375)의 지지도는 2.2, 후보 패턴 bc(376)의 지지도는 4.4, 후보 패턴 ca(377)의 지지도는 3.0, 후보 패턴 cb(378)의 지지도는 1.8, 후보 패턴 cc(379)의 지지도는 2.4가 된다.

그 후, 후보 패턴 집합 P2내의 각 후보 패턴(371 내지 379)이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단한다(240). 도시된 예에서, 관심 패턴 모델의 최소 지지도 3.2이므로, 후보 패턴 ab(372) 및 bc(376)가 조건 1을 만족한다.

그 후, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴(371, 373 내지 375, 377 내지 379)을 후보 패턴 집합 P2에서 제거한다(250). 도시된 예에서, 조건 1을 만족하지 않는 후보 패턴을 제거하면, 후보 패턴 집합 P2'는 {ab, ba}가 된다.

그 후, 후보 패턴 길이가 2이며, 관심 패턴 길이 3이므로 양자가 동일하지 않으므로(260), 후보 패턴 집합 P2'내의 모든 후보 패턴 ab(372) 및 ba(376)과의 불일치 값이 최대 허용 불일치 값을 초과하는 데이터 패턴 ca(365)를 데이터 패턴 집합 S2에서 제거한다(270). 도시된 예에서, 데이터 패턴 ca(365)가 제거된 데이터 패턴 집합 S2'는 {aa, ab, ba, bc, cc}가 된다.

그 후, 데이터 서픽스 트리의 세번째 노드들(330)을 기반으로 데이터 패턴 집합 S2'내의 각 데이터 패턴(361 내지 364, 366)에 단위 패턴을 결합하여 데이터 패턴 집합 S3를 생성하고(210), 데이터 패턴 집합 S3내의 각 데이터 패턴(381 내지 387)과의 불일치 값이 최대 허용 불일치 값 1이하인 후보 패턴 집합 P3를 생성한다(220). 이 경우, 후보 패턴 집합 P3는 P2'을 기반으로 생성될 수 있다. 도시된 예에서, 후보 패턴 집합 P3는 {aba, abb, abc, bca, bcb, bcc}가 된다.

그 후, 각 후보 패턴의 지지도를 산출한다(230). 도시된 예에서, 수학식 1을 이용하여 각 후보 패턴의 지지도를 산출하면, aba(391)는 1.6, abb(392)는 1.2, abc(393)는 3.4, bca(394)는 2.0, bcb(395)는 0.8, bcc(396)는 1.2가 된다.

그 후, 미리 설정된 패턴 조건을 만족하는 지 여부를 판단한다(240). 도시된 예에서, 최소 지지도가 3.2이므로 조건 1을 만족하는 후보 패턴은 abc(393)가 된다.

그 후, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴(391, 392, 394 내지 396)을 후보 패턴 집합 P3에서 제거하고(250), 후보 패턴 abc(393)의 길이가 관심 패턴 길이 3과 동일하므로(260), 후보 패턴 abc(393)를 마이닝하고자 하는 패턴으로 판단하고, 패턴 마이닝 과정을 종료한다.

도 4는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 장치의 구성도이다.

도 4를 참조하면, 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 장치(400)는 데이터 서픽스 트리 생성부(410), 데이터 패턴 생성부(420), 후보 패턴 생성부(430), 지지도 산출부(440) 및 제어부(450)를 포함할 수 있다. 한편,

데이터 서픽스 트리 생성부(410)는 입력된 시퀀스 데이터를 기반으로 데이터 서픽스 트리(data suffix tree)를 생성할 수 있다.

데이터 패턴 생성부(420)는 데이터 서픽스 트리를 바탕으로 데이터 패턴 집합을 생성할 수 있다. 예를 들어, 데이터 패턴 생성부(420)는 데이터 서픽스 트리의 각 노드 정보를 바탕으로 동일한 패턴 길이를 가지는 데이터 패턴들의 집합을 생성할 수 있다.

후보 패턴 생성부(430)는 데이터 패턴 집합을 이용하여 후보 패턴 집합을 생성할 수 있다. 예를 들어, 후보 패턴 생성부(430)는 데이터 패턴 집합에 포함되는 각 데이터 패턴과의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값 이내인 후보 패턴 모델을 생성할 수 있다.

지지도 산출부(440)는 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출할 수 있다.

일 실시 예에 따르면, 지지도는 데이터 패턴 각각에 대한 빈도수를 기반으로, 각 데이터 패턴과의 불일치 값을 고려하여 산출할 수 있다. 이 경우, 각 데이터 패턴과의 불일치 값에 따라 가중치를 달리하여 각 후보 패턴의 지지도를 산출할 수 있다. 이를 수식으로 나타내면 수학식 1과 같다.

다른 실시 예에 따르면, 지지도는 입력된 시퀀스 데이터의 개수를 고려하여 산출할 수도 있다. 특정 데이터 패턴에 대하여, 100개의 시퀀스 데이터에서 빈도수가 10회인 경우와 10개의 시퀀스 데이터에서 빈도수가 10회인 경우는 그 중요도에 있어서 차이가 존재한다. 따라서, 입력된 시퀀스 데이터의 개수를 고려하여 후보 패턴의 지지도를 산출할 수 있다. 이를 수학식으로 나타내면 수학식 2와 같다.

제어부(450)는 데이터 서픽스 트리 생성부(410), 데이터 패턴 생성부(420), 후보 패턴 생성부(430) 및 지지도 산출부(440)를 제어할 수 있다.

제어부(450)는 각 후보 패턴의 지지도를 바탕으로 각 후보 패턴이 미리 설정된 조건을 만족하는지 여부를 판단할 수 있다. 여기서, 미리 설정된 패턴 조건은 지지도가 관심 패턴 모델의 최소 지지도 이상일 것(조건 1), 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것(조건 2) 등일 수 있으나, 이에 한정되는 것은 아니며, 특징적(discriminative)인 패턴을 마이닝하기 위한 정보 이득(information gain) 조건 또는 견고한(robust) 패턴을 마이닝하기 위한 다양한 조건들을 포함할 수 있다. 또한, 조건 2에서 불일치 값이 0인 데이터 패턴의 빈도수에 대한 임계값 뿐만이 아니라 불일치 값이 1인 데이터 패턴의 빈도수에 대한 임계값, 불일치 값이 2인 데이터 패턴의 빈도수에 대한 임계값 등 불일치 값에 따라 임계값이 별개로 설정되어, 각 불일치 값에 따른 빈도수가 해당 임계값 이상일 것을 조건으로 설정될 수도 있다.

제어부(450)는 후보 패턴 생성부(430)에서 생성된 후보 패턴 집합에서 미리 설정된 조건을 만족하지 않는 후보 패턴을 제거하고, 후보 패턴 집합에 남아있는 후보 패턴의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지 여부를 판단할 수 있다.

제어부(450)는 후보 패턴 집합에 남아 있는 후보 패턴의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일하지 않은 경우, 제거된 후보 패턴만을 지지하는 데이터 패턴을 데이터 패턴 집합에서 제거하고, 데이터 서픽스 트리를 기반으로 남아 있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성하도록 데이터 패턴 생성부(420)를 제어할 수 있다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

400: 시계열 패턴 마이닝 장치, 410: 데이터 서픽스 트리 생성부,
420: 데이터 패턴 생성부, 430: 후보 패턴 생성부,
440: 지지도 산출부, 450: 제어부.

Claims

관심 패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심 패턴 모델을 이용한 시계열 패턴 마이닝 방법에 있어서,
시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 서로 동일한 데이터 패턴 집합을 생성하는 단계;
상기 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 상기 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 단계;
데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 상기 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계; 및
상기 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 단계; 를 포함하는 시계열 패턴 마이닝 방법.
제 1항에 있어서,
상기 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 상기 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 적어도 하나를 포함하는 시계열 패턴 마이닝 방법.
제 1항에 있어서,
미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 상기 후보 패턴 집합에서 해당 후보 패턴을 제거하는 단계; 를 더 포함하는 시계열 패턴 마이닝 방법.
제 3항에 있어서,
후보 패턴의 길이가 상기 관심 패턴 길이와 동일하지 않는 경우, 후보 패턴 집합에 남아있는 각 후보 패턴과의 불일치 값이 상기 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 상기 데이터 패턴 집합에서 제거하는 단계; 및
상기 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 남아있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성하는 단계; 더 를 포함하는 시계열 패턴 마이닝 방법.
제 1항에 있어서,
상기 후보 패턴 집합을 생성하는 단계는 사용 가능한 메모리 크기를 기반으로, 생성 가능한 모든 후보 패턴 중 일부만을 분할 생성하는 시계열 패턴 마이닝 방법.
제 1항에 있어서,
상기 지지도를 산출하는 단계는 상기 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출하는 시계열 패턴 마이닝 방법.
제 1항에 있어서,
입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 단계; 를 더 포함하는 시계열 패턴 마이닝 방법.
관심 패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심 패턴 모델을 이용한 시계열 패턴 마이닝 장치에 있어서,
시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 서로 동일한 데이터 패턴 집합을 생성하는 데이터 패턴 생성부;
상기 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 상기 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 후보 패턴 생성부;
데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 상기 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 지지도 산출부; 및
상기 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 제어부; 를 포함하는 시계열 패턴 마이닝 장치.
제 8항에 있어서,
상기 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 상기 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 적어도 하나를 포함하는 시계열 패턴 마이닝 장치.
제 8항에 있어서,
상기 제어부는 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 상기 후보 패턴 집합에서 해당 후보 패턴을 제거하는 시계열 패턴 마이닝 장치.
제 10항에 있어서,
상기 제어부는 후보 패턴 집합에 남아있는 후보 패턴 각각과의 불일치 값이 상기 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 상기 데이터 패턴 집합에서 제거하는 시계열 패턴 마이닝 장치.
제 8항에 있어서,
상기 제어부는 상기 후보 패턴 집합에 포함되는 후보 패턴의 길이가 상기 관심 패턴 길이와 동일하지 않는 경우, 상기 데이터 서픽스 트리를 기반으로 상기 데이터 패턴 집합에 포함되는 데이터 패턴에 단위 패턴을 결합하여 데이터 패턴 집합을 생성하도록 데이터 패턴 생성부를 제어하는 시계열 패턴 마이닝 장치.
제 8항에 있어서,
상기 지지도 산출부는 상기 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출하는 시계열 패턴 마이닝 장치.
제 8항에 있어서,
입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 데이터 서픽스 트리 생성부; 를 더 포함하는 시계열 패턴 마이닝 장치.