KR20140131471A - 시계열 패턴 마이닝 방법 및 장치 - Google Patents

시계열 패턴 마이닝 방법 및 장치 Download PDF

Info

Publication number
KR20140131471A
KR20140131471A KR20130050247A KR20130050247A KR20140131471A KR 20140131471 A KR20140131471 A KR 20140131471A KR 20130050247 A KR20130050247 A KR 20130050247A KR 20130050247 A KR20130050247 A KR 20130050247A KR 20140131471 A KR20140131471 A KR 20140131471A
Authority
KR
South Korea
Prior art keywords
pattern
data
candidate
support
candidate pattern
Prior art date
Application number
KR20130050247A
Other languages
English (en)
Other versions
KR102020673B1 (ko
Inventor
박형민
강효아
이기용
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130050247A priority Critical patent/KR102020673B1/ko
Priority to US14/267,351 priority patent/US9465912B2/en
Publication of KR20140131471A publication Critical patent/KR20140131471A/ko
Application granted granted Critical
Publication of KR102020673B1 publication Critical patent/KR102020673B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06V30/1988Graph matching
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

시계열 패턴 마이닝 방법 및 장치가 제공된다. 일 양상에 따른 시계열 패턴 마이닝 방법은, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 동일한 데이터 패턴 집합을 생성하는 단계와, 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 단계와, 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계와, 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 단계를 포함할 수 있다.

Description

시계열 패턴 마이닝 방법 및 장치{Method and Apparatus for mining temporal pattern}
데이터 마이닝 기술에 관한 것으로, 특히 시계열 패턴 마이닝 방법 및 장치에 관한 것이다.
각종 의료 장비의 발달과 체계적인 전산 시스템의 도입으로 병원에서 생성되는 메디컬 데이터의 양은 폭발적으로 증가하고 있다. 그러나, 폭발적인 데이터의 증가는 의사들이 다룰 수 있는 수준을 훌쩍 뛰어넘어 분석이 점점 어려워지고 있는 형편이다. 특히, 심전도(electrocardiography, ECG 또는 EKG) 등 생체 신호 데이터는 초당 데이터가 생성되기 때문에 하루치 데이터만 해도 매우 큰 데이터이다. 따라서, 대용량 데이터를 분석하기 위해 데이터 마이닝 기술에 대한 연구가 많아지고 있다.
한편, 데이터 마이닝 기법에 있어, 관심 패턴의 형태를 정의하는 관심 패턴 모델이 활용될 수 있다. 즉, 관심 패턴의 길이, 최대 허용 불일치 값(mismatch) 및 최소 지지도(minimum support)를 정의하는 관심 패턴 모델을 이용하여 시퀀스 데이터에서 빈발 패턴을 마이닝할 수 있다.
그러나, 최대 허용 불일치 값을 허용함으로서 시퀀스 데이터 자체에는 등장하지 않는 패턴이 같이 추출되며, 최대 허용 불일치 값이 크면 추출되는 빈발 패턴의 수도 증가하여 분석이 곤란하므로 필요없는 패턴의 추출을 지양하고 속도 향상에도 기여하는 효율적인 데이터 마이닝 기법이 요구된다.
시계열 패턴 마이닝 방법 및 장치를 제공하는 것을 목적으로 한다.
일 양상에 따른 시계열 패턴 마이닝 방법은, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 동일한 데이터 패턴 집합을 생성하는 단계와, 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 단계와, 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계와, 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 단계를 포함할 수 있다.
여기서, 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 상기 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 하나를 포함할 수 있다.
또한, 시계열 패턴 마이닝 방법은, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 후보 패턴 집합에서 해당 후보 패턴을 제거하는 단계를 더 포함할 수 있다.
또한, 시계열 패턴 마이닝 방법은, 후보 패턴의 길이가 관심 패턴 길이와 동일하지 않는 경우, 후보 패턴 집합에 남아있는 각 후보 패턴과의 불일치 값이 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합에서 제거하는 단계와, 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 남아있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성하는 단계를 더 포함할 수 있다.
여기서, 후보 패턴 집합을 생성하는 단계는 사용 가능한 메모리 크기를 기반으로, 생성 가능한 모든 후보 패턴 중 일부만을 분할 생성할 수 있다.
여기서, 지지도를 산출하는 단계는 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출할 수 있다.
또한, 시계열 패턴 마이닝 방법은, 입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 단계를 더 포함할 수 있다.
또 다른 양상에 따른 시계열 패턴 마이닝 장치는, 시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 동일한 데이터 패턴 집합을 생성하는 데이터 패턴 생성부와, 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 후보 패턴 생성부와, 데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 지지도 산출부와, 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 제어부를 포함할 수 있다.
여기서, 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 하나를 포함할 수 있다.
여기서, 제어부는 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 후보 패턴 집합에서 해당 후보 패턴을 제거할 수 있다.
여기서, 제어부는 후보 패턴 집합에 남아있는 후보 패턴 각각과의 불일치 값이 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합에서 제거할 수 있다.
여기서, 제어부는 후보 패턴 집합에 포함되는 후보 패턴의 길이가 관심 패턴 길이와 동일하지 않는 경우, 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 포함되는 데이터 패턴에 단위 패턴을 결합하여 데이터 패턴 집합을 생성하도록 데이터 패턴 생성부를 제어할 수 있다.
여기서, 지지도 산출부는 상기 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출할 수 있다.
또한, 시계열 패턴 마이닝 장치는, 입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 데이터 서픽스 트리 생성부를 더 포함할 수 있다.
특정 조건을 만족하는 패턴만을 마이닝함으로써, 데이터 자체에 등장하지 않는 패턴은 마이닝하지 않도록 하여 패턴 마이닝 속도를 향상 시킬 수 있다.
도 1은 시퀀스 데이터의 예를 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 방법의 흐름도이다.
도 3a 내지 도 3f는 시계열 패턴 마이닝 방법을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 장치의 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 시퀀스 데이터의 예를 도시한 도면이다.
도 1을 참조하면, 시퀀스 데이터는 연속적인 사건들을 특정 규칙에 따라 배열한 데이터를 의미한다. 예를 들어, 시퀀스 데이터는 DNA 염기 서열을 심볼화 하여 순서대로 나열한 데이터일 수 있다(110). 또 다른 예를 들면, 심전도(electrocardiogram, ECG) 측정 데이터를 심볼화하여 연속적으로 나열한 데이터일 수 있다(130). 그러나, 시퀀스 데이터는 도시된 예에 한정되는 것은 아니며, 특정 단어, 글자 또는 숫자가 연속적으로 나열된 데이터 등 다양한 형태일 수 있다.
단위 패턴은 시퀀스 데이터를 구성하는 최소 단위를 의미한다. 예를 들어, 도 1의 DNA 시퀀스 데이터(110)의 경우, 단위 패턴은 A, G, T 및 C 각각을 의미한다. 또한, 패턴은 연속적인 단위 패턴들의 조합을 의미한다. 이하, 시퀀스 데이터, 패턴 및 단위 패턴은 동일한 의미로 해석된다.
한편, 본 발명의 일 실시 예를 설명함에 있어, 시퀀스 데이터에서 원하는 패턴을 마이닝하기 위해 관심 패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심 패턴 모델이 설정되어 있다고 가정한다. 또한, 시퀀스 데이터는 동일 범주로 분류된 시퀀스 데이터라 가정한다.
여기서, 관심 패턴은 관심 패턴 모델의 최대 허용 불일치 값을 고려한 지지도가 최소 지지도 이상이며, 관심 패턴 길이를 만족하는 패턴을 말한다.
빈도수란 시퀀스 데이터에서 특정 패턴이 나타나는 횟수를 의미하며, 이때, 특정 패턴을 포함하는 시퀀스들이 특정 패턴을 지지한다고 말한다. 한편, 본 명세서에서 사용되는 빈도수란 후술하는 불일치 값을 고려하지 않으나, 지지도는 특정 패턴을 지지하는 정도로서, 후술하는 바와 같이 불일치 값을 고려하여 결정된다.
불일치 값은 시퀀스 데이터에서 특정 패턴의 지지도 검사에 있어서, 특정 패턴과 완전히 동일하지 않고 유사한 경우를 고려하기 위한 것으로 시퀀스 데이터가 획득되는 과정에서 발생할 수 있는 노이즈를 해결하기 위한 것이다. 즉, 불일치 값은 같은 길이의 두 패턴을 비교하였을 때 같은 위치에 다른 단위 패턴을 가질 경우 발생한다. 예를 들어, 패턴 abc와 adc를 비교하면, 두 번째 자리에서 다른 단위 패턴 b와 d를 가지고 있으므로 불일치 값이 1이 된다.
일 실시 예에 따르면, 패턴 검색 공간을 줄이기 위해 비단조(anti-monotonicity) 성질을 이용할 수 있다. 비단조(anti-monotonicity) 성질을 이용하기 위해 패턴 길이가 1인 단위 패턴부터 조건 만족 여부를 판단하고, 패턴 길이가 2인 패턴을, 패턴 길이가 3인 패턴을 그리고 원하는 길이 L인 패턴까지 만들어 나가며, 조건 만족 여부를 판단한다. 이 과정에서 비단조(anti-monotonicity) 성질을 이용하여 탐색 공간을 줄일 수 있다.
도 2는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 방법의 흐름도이다.
도 2를 참조하면, 시계열 패턴 마이닝 방법은 먼저, 시퀀스 데이터에 대한 데이터 서픽스 트리(data suffix tree)를 기반으로 데이터 패턴 집합을 생성한다(210). 예를 들면, 데이터 서픽스 트리의 각 노드 정보를 바탕으로 동일한 패턴 길이를 가지는 데이터 패턴들의 집합을 생성할 수 있다.
그 후, 생성된 데이터 패턴 집합을 이용하여 후보 패턴 집합을 생성한다(220).
일 실시 예에 따르면, 데이터 패턴 집합에 포함된 각 데이터 패턴과의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값 이내인 후보 패턴 집합을 생성할 수 있다. 예를 들어, 최대 허용 불일치 값이 1이고, 시퀀스 데이터에 나타나는 단위 패턴 집합이 {a, b, c}, 데이터 패턴 집합이 {ab, ac}라고 가정하면, 데이터 패턴 ab와 불일치 값이 1이하인 후보 패턴 집합은 {aa, ab, ac ,bb, cb}이며, 데이터 패턴 ac와 불일치 값이 1이하인 후보 패턴 집합은 {aa, ab, ac, bc, cc}이므로, 데이터 패턴 집합 {ab, ac}를 기반으로 생성되는 후보 패턴 집합은 {aa, ab, ac, bb, bc, cb, cc}가 된다.
그 후, 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출한다(230).
일 실시 예에 따르면, 지지도는 데이터 패턴 각각에 대한 빈도수를 기반으로, 각 데이터 패턴과의 불일치 값을 고려하여 산출할 수 있다. 이 경우, 각 데이터 패턴과의 불일치 값에 따라 가중치를 달리하여 각 후보 패턴의 지지도를 산출할 수 있다. 이를 수식으로 나타내면 다음과 같다.
Figure pat00001
여기서, P는 후보 패턴, S는 데이터 패턴, j는 후보 패턴 P와 데이터 패턴 S의 불일치 값,
Figure pat00002
는 불일치 값이 j일 때의 가중치를 의미한다.
예를 들어,
Figure pat00003
,
Figure pat00004
이고, 후보 패턴 ab를 지지하는(후보 패턴 ab와의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값 이내인) 데이터 패턴이 ab 및 bb이며, 데이터 패턴 ab의 빈도수가 5, 데이터 패턴 bb의 빈도수가 3이라고 가정하면, 후보 패턴 ab의 지지도는 0.9*5+0.1*3=4.3이 된다.
또 다른 실시 예에 따르면, 지지도는 입력된 시퀀스 데이터의 개수를 고려하여 산출할 수도 있다. 특정 데이터 패턴에 대하여, 100개의 시퀀스 데이터에서 빈도수가 10회인 경우와 10개의 시퀀스 데이터에서 빈도수가 10회인 경우는 그 중요도에 있어서 차이가 존재한다. 따라서, 입력된 시퀀스 데이터의 개수를 고려하여 후보 패턴의 지지도를 산출할 수 있다. 이를 수학식으로 나타내면 다음과 같다.
Figure pat00005
여기서, x는 입력된 시퀀스 데이터의 개수를 의미한다.
그 후, 각 후보 패턴의 지지도를 기반으로, 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는지 여부를 판단한다(240). 여기서, 미리 설정된 패턴 조건은 지지도가 관심 패턴 모델의 최소 지지도 이상일 것(조건 1), 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것(조건 2) 등일 수 있으나, 이에 한정되는 것은 아니며, 특징적(discriminative)인 패턴을 마이닝하기 위한 정보 이득(information gain) 조건 또는 견고한(robust) 패턴을 마이닝하기 위한 다양한 조건들을 포함할 수 있다. 또한, 조건 2에서 불일치 값이 0인 데이터 패턴의 빈도수에 대한 임계값 뿐만이 아니라 불일치 값이 1인 데이터 패턴의 빈도수에 대한 임계값, 불일치 값이 2인 데이터 패턴의 빈도수에 대한 임계값 등 불일치 값에 따라 임계값이 별개로 설정되어, 각 불일치 값에 따른 빈도수가 해당 임계값 이상일 것을 조건으로 설정될 수도 있다.
그 후, 단계 240의 판단 결과, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 해당 후보 패턴을 후보 패턴 집합에서 제거한다(250).
그 후, 후보 패턴 집합 내의 후보 패턴들의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지를 판단한다(260).
단계 260의 판단 결과, 후보 패턴 길이가 관심 패턴 길이와 동일한 경우, 후보 패턴 집합에 남아 있는 후보 패턴을 검출하고, 절차를 종료한다.
한편, 단계 260의 판단 결과, 후보 패턴 길이가 관심 패턴 길이와 동일하지 않는 경우, 후보 패턴 집합에 남아 있는 각 후보 패턴과의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합에서 제거하고(270), 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 남아 있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성한다(210). 즉, 남아 있는 후보 패턴을 지지하지 않는 데이터 패턴을 데이터 패턴 집합에서 제거하고, 남아 있는 데이터 패턴을 기초로 단위 패턴을 결합함으로써 새로운 데이터 패턴 집합을 생성한다.
한편, 단계 240의 판단 결과, 후보 패턴 집합내의 모든 후보 패턴이 미리 설정된 패턴 조건을 만족하는 경우, 후보 패턴 집합 내의 후보 패턴들의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지를 판단한다(260).
한편, 본 발명의 추가적 실시 예에 따르면, 시계열 패턴 마이닝 방법은, 시퀀스 데이터를 수신하고 수신된 시퀀스 데이터를 기반으로 데이터 서픽스 트리를 생성하는 단계(205)를 더 포함할 수 있다.
한편, 일 실시 예에 따른 시계열 패턴 마이닝 방법에 따르면, 단계 220에서 후보 패턴 집합을 생성할 때, 사용 가능한 메모리의 크기에 따라서, 생성 가능한 후보 패턴 중 일부 후보 패턴만을 포함하는 후보 패턴 집합을 생성하여, 패턴 검색을 수행하고, 일부 후보 패턴에 대한 패턴 검색이 완료된 후, 나머지 후보 패턴을 생성하여 패턴 검색을 수행하는 것도 가능하다. 이 경우, 사용 가능한 메모리의 크기가 작더라도, 메모리 크기에 따라 패턴 검색 범위를 적절히 조절함으로써, 빠른 검색이 가능하다.
한편, 일 실시 예에 따르면, 시퀀스 데이터에서 원하는 패턴을 마이닝하기 위해 관심 패턴 길이, 최소 유사도 및 최소 지지도를 포함하는 관심 패턴 모델을 이용할 수도 있다. 여기서, 유사도는 패턴의 길이를 고려한 것으로, 양 패턴의 불일치 값을 패턴의 길이로 나눈 값으로 정의될 수 있다. 이때, 양 패턴의 유사도가 최소 유사도 이하인 경우 양 패턴은 유사하다고 판단하고, 관심 패턴 모델의 최소 유사도 조건을 만족한다고 판단할 수 있다.
이하, 시계열 패턴 마이닝 방법을 예를 들어 상세하게 설명한다.
도 3a 내지 도 3f는 시계열 패턴 마이닝 방법을 설명하기 위한 예시도이다. 자세하게는, 도 3a는 입력된 시퀀스 데이터의 예, 도 3b는 도 3a의 시퀀스 데이터를 기반으로 생성된 데이터 서픽스 트리, 도 3c는 패턴 길이가 1인 데이터 패턴 집합 및 후보 패턴 집합을 표현하는 이분 그래프, 도 3d는 패턴 길이가 2인 데이터 패턴 집합 및 후보 패턴 집합을 표현하는 이분 그래프, 도 3e는 도 3d의 이분 그래프에서 길이가 2인 데이터 패턴 및 후보 패턴을 직접 연결하여 도시한 이분 그래프, 도 3e는 패턴 길이가 3인 데이터 패턴 집합 및 후보 패턴 집합을 표현하는 이분 그래프를 도시한 도면이다.
도 3a 내지 도 3f를 참조하여 시계열 패턴 마이닝 방법을 예를 들어 설명함에 앞서, 관심 패턴 길이가 3, 최대 허용 불일치 값이 1, 최소 지지도가 3.2인 관심 패턴 모델이 설정되어 있고, 지지도 산출시 불일치 값이 0인 경우 가중치가 0.8이며(
Figure pat00006
), 불일치 값이 1인 경우 가중치가 0.2이고(
Figure pat00007
), 지지도 산출시 시퀀스 데이터의 개수는 고려하지 않는다고 가정한다. 또한, 미리 설정된 패턴 조건은 지지도가 관심 패턴 모델의 최소 지지도 이상일 것(조건 1)이라고 가정한다.
한편, 후보 패턴의 생성과 지지도 계산을 용이하게 하기 위해 이분 그래프(bipartite graph)를 이용한다. 이때, 이분 그래프의 왼쪽은 데이터 서픽스 트리를 기반으로 생성된 데이터 패턴에 대응되는 노드가 표현되며, 오른쪽은 데이터 패턴을 기반으로 생성되는 후보 패턴에 대응되는 노드가 표현된다. 여기서, 두 종류의 노드간 간선(edge)은 노드가 나타내는 패턴 간의 불일치 값이 최대 허용 불일치 값 보다 작을 때 존재하며, 각 간선에는 불일치 값이 저장될 수 있다.
도 3a의 시퀀스 데이터가 입력되는 경우, 입력된 시퀀스 데이터를 기반으로 도 3b에 도시된 바와 같이 데이터 서픽스 트리를 생성한다(205). 이때, 생성된 데이터 서픽스 트리의 각 노드에는 해당 노드에 대응되는 패턴의 빈도수가 함께 저장될 수 있다.
그 후, 생성된 데이터 서픽스 트리의 첫 번째 노드들(310)을 기반으로 길이가 1인 데이터 패턴 집합 S1을 생성하고(210), 생성된 데이터 패턴 집합 S1을 기반으로 데이터 패턴 집합 S1 내의 각 데이터 패턴과의 불일치 값이 1 이하인 후보 패턴 집합 P1을 생성한다(220). 도 3c에서 이분 그래프의 왼쪽 노드들(340)은 각각 데이터 패턴에 대응되며, 오른쪽 노드들(350)은 각각 후보 패턴에 대응된다. 이 경우, 데이터 패턴에 대응되는 각 왼쪽 노드에는 해당 데이터 패턴의 빈도수가 함께 저장될 수 있다. 이하, 설명의 편의를 위해, 이분 그래프의 각 노드 및 각 노드에 대응되는 패턴은 동일 참조부호를 쓰기로 한다.
도시된 예에서, 데이터 서픽스 트리의 첫 번째 노드들(310)을 기반으로 데이터 패턴 집합 S1={a, b, c}이 생성되고, 데이터 패턴 집합 S1을 기반으로 불일치 값이 1 이하인 후보 패턴 집합 P1={a, b, c}이 생성된다.
그 후, 후보 패턴 집합 P1내의 각 후보 패턴의 지지도를 산출한다(230). 도시된 예에서, 후보 패턴 a(351)을 지지하는 데이터 패턴은 a(341), b(343), c(345)이고, 각 패턴(341, 343, 345)의 빈도수는 각각 8, 6, 6이므로, 수학식 1을 이용하면, 후보 패턴 a(351)의 지지도는 (8*0.8)+(6*0.2)+(6*0.2)=8.8 이 된다. 마찬가지로 후보 패턴 b(353)의 지지도는 (8*0.2)+(6*0.8)+(6*0.2)=7.6, 후보 패턴 c(355)의 지지도는 (8*0.2)+(6*0.2)+(6*0.8)=7.6이 된다.
그 후, 후보 패턴 집합 P1내의 각 후보 패턴(351, 353, 355)이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단한다(240). 도시된 예에서, 가정에 따라 조건 1을 만족하는 지 여부를 판단하면, 관심 패턴 모델의 최소 지지도 3.2이므로, 후보 패턴(351, 353, 355) 모두는 조건 1을 만족한다.
후보 패턴 집합 P1내의 각 후보 패턴(351, 353, 355)이 미리 설정된 패턴 조건을 만족하므로 후보 패턴의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지 여부를 판단한다(260). 도시된 예에서, 관심 패턴 모델의 관심 패턴 길이는 3이고, 후보 패턴의 길이는 1이므로 양자는 동일하지 아니하다.
후보 패턴 길이가 관심 패턴 모델의 관심 패턴 길이와 동일하지 않으므로, 후보 패턴 집합 P1내의 각 후보 패턴과의 불일치 값이 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 데이터 패턴 집합 S1에서 제거한다(270). 도시된 예에서 후보 패턴 집합 P1 내의 모든 후보 패턴(351, 353, 355)과의 불일치 값이 최대 허용 불일치 값 1을 초과하는 데이터 패턴은 존재하지 않는다.
그 후, 데이터 서픽스 트리의 두번째 노드들(320)을 기반으로 데이터 패턴 집합 S1내의 각 데이터 패턴(341, 343, 345)에 단위 패턴을 결합하여 새로운 데이터 패턴 집합 S2를 생성한다(210). 도시된 예에서, 데이터 패턴(341, 343, 345)에 데이터 서픽스 트리의 두번째 노드들(320)을 기반으로 단위 패턴을 결합하여 길이가 2인 새로운 데이터 패턴 집합 S2={aa, ab, ba, bc, ca, cc}를 생성한다.
그 후, 데이터 패턴 집합 S2를 이용하여 최대 허용 불일치 값 1을 만족하는 후보 패턴 집합 P2를 생성한다(220). 이 경우, 기존의 후보 패턴 집합 P1을 기반으로 데이터 패턴 집합 S2를 이용하여 후보 패턴 집합 P2를 생성할 수 있다. 도시된 예에서, 최대 허용 불일치 값이 1이므로 데이터 패턴 집합 S2로부터 생성되는 후보 패턴 집합 P2는 {aa, ab, ac, ba, bb, bc, ca, cb, cc}이다.
그 후, 후보 패턴 집합 P2 내의 각 후보 패턴의 지지도를 산출한다(230). 후보 패턴 aa(371)를 지지하는 데이터 패턴은 aa(361), ab(362), ba(363), ca(365) 이고, 각 패턴의 빈도수는 각각 1, 5, 1, 3이므로, 수학식 1을 이용하면, 후보 패턴 aa(371)의 지지도는 (1*0.8)+(5*0.2)+(1*0.2)+(3*0.2)=2.6 이 된다. 마찬가지로 후보 패턴 ab(372)의 지지도는 4.2, 후보 패턴 ac(373)의 지지도는 2.4, 후보 패턴 ba(374)의 지지도는 2.6, 후보 패턴 bb(375)의 지지도는 2.2, 후보 패턴 bc(376)의 지지도는 4.4, 후보 패턴 ca(377)의 지지도는 3.0, 후보 패턴 cb(378)의 지지도는 1.8, 후보 패턴 cc(379)의 지지도는 2.4가 된다.
그 후, 후보 패턴 집합 P2내의 각 후보 패턴(371 내지 379)이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단한다(240). 도시된 예에서, 관심 패턴 모델의 최소 지지도 3.2이므로, 후보 패턴 ab(372) 및 bc(376)가 조건 1을 만족한다.
그 후, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴(371, 373 내지 375, 377 내지 379)을 후보 패턴 집합 P2에서 제거한다(250). 도시된 예에서, 조건 1을 만족하지 않는 후보 패턴을 제거하면, 후보 패턴 집합 P2'는 {ab, ba}가 된다.
그 후, 후보 패턴 길이가 2이며, 관심 패턴 길이 3이므로 양자가 동일하지 않으므로(260), 후보 패턴 집합 P2'내의 모든 후보 패턴 ab(372) 및 ba(376)과의 불일치 값이 최대 허용 불일치 값을 초과하는 데이터 패턴 ca(365)를 데이터 패턴 집합 S2에서 제거한다(270). 도시된 예에서, 데이터 패턴 ca(365)가 제거된 데이터 패턴 집합 S2'는 {aa, ab, ba, bc, cc}가 된다.
그 후, 데이터 서픽스 트리의 세번째 노드들(330)을 기반으로 데이터 패턴 집합 S2'내의 각 데이터 패턴(361 내지 364, 366)에 단위 패턴을 결합하여 데이터 패턴 집합 S3를 생성하고(210), 데이터 패턴 집합 S3내의 각 데이터 패턴(381 내지 387)과의 불일치 값이 최대 허용 불일치 값 1이하인 후보 패턴 집합 P3를 생성한다(220). 이 경우, 후보 패턴 집합 P3는 P2'을 기반으로 생성될 수 있다. 도시된 예에서, 후보 패턴 집합 P3는 {aba, abb, abc, bca, bcb, bcc}가 된다.
그 후, 각 후보 패턴의 지지도를 산출한다(230). 도시된 예에서, 수학식 1을 이용하여 각 후보 패턴의 지지도를 산출하면, aba(391)는 1.6, abb(392)는 1.2, abc(393)는 3.4, bca(394)는 2.0, bcb(395)는 0.8, bcc(396)는 1.2가 된다.
그 후, 미리 설정된 패턴 조건을 만족하는 지 여부를 판단한다(240). 도시된 예에서, 최소 지지도가 3.2이므로 조건 1을 만족하는 후보 패턴은 abc(393)가 된다.
그 후, 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴(391, 392, 394 내지 396)을 후보 패턴 집합 P3에서 제거하고(250), 후보 패턴 abc(393)의 길이가 관심 패턴 길이 3과 동일하므로(260), 후보 패턴 abc(393)를 마이닝하고자 하는 패턴으로 판단하고, 패턴 마이닝 과정을 종료한다.
도 4는 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 장치의 구성도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 시계열 패턴 마이닝 장치(400)는 데이터 서픽스 트리 생성부(410), 데이터 패턴 생성부(420), 후보 패턴 생성부(430), 지지도 산출부(440) 및 제어부(450)를 포함할 수 있다. 한편,
데이터 서픽스 트리 생성부(410)는 입력된 시퀀스 데이터를 기반으로 데이터 서픽스 트리(data suffix tree)를 생성할 수 있다.
데이터 패턴 생성부(420)는 데이터 서픽스 트리를 바탕으로 데이터 패턴 집합을 생성할 수 있다. 예를 들어, 데이터 패턴 생성부(420)는 데이터 서픽스 트리의 각 노드 정보를 바탕으로 동일한 패턴 길이를 가지는 데이터 패턴들의 집합을 생성할 수 있다.
후보 패턴 생성부(430)는 데이터 패턴 집합을 이용하여 후보 패턴 집합을 생성할 수 있다. 예를 들어, 후보 패턴 생성부(430)는 데이터 패턴 집합에 포함되는 각 데이터 패턴과의 불일치 값이 관심 패턴 모델의 최대 허용 불일치 값 이내인 후보 패턴 모델을 생성할 수 있다.
지지도 산출부(440)는 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출할 수 있다.
일 실시 예에 따르면, 지지도는 데이터 패턴 각각에 대한 빈도수를 기반으로, 각 데이터 패턴과의 불일치 값을 고려하여 산출할 수 있다. 이 경우, 각 데이터 패턴과의 불일치 값에 따라 가중치를 달리하여 각 후보 패턴의 지지도를 산출할 수 있다. 이를 수식으로 나타내면 수학식 1과 같다.
다른 실시 예에 따르면, 지지도는 입력된 시퀀스 데이터의 개수를 고려하여 산출할 수도 있다. 특정 데이터 패턴에 대하여, 100개의 시퀀스 데이터에서 빈도수가 10회인 경우와 10개의 시퀀스 데이터에서 빈도수가 10회인 경우는 그 중요도에 있어서 차이가 존재한다. 따라서, 입력된 시퀀스 데이터의 개수를 고려하여 후보 패턴의 지지도를 산출할 수 있다. 이를 수학식으로 나타내면 수학식 2와 같다.
제어부(450)는 데이터 서픽스 트리 생성부(410), 데이터 패턴 생성부(420), 후보 패턴 생성부(430) 및 지지도 산출부(440)를 제어할 수 있다.
제어부(450)는 각 후보 패턴의 지지도를 바탕으로 각 후보 패턴이 미리 설정된 조건을 만족하는지 여부를 판단할 수 있다. 여기서, 미리 설정된 패턴 조건은 지지도가 관심 패턴 모델의 최소 지지도 이상일 것(조건 1), 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것(조건 2) 등일 수 있으나, 이에 한정되는 것은 아니며, 특징적(discriminative)인 패턴을 마이닝하기 위한 정보 이득(information gain) 조건 또는 견고한(robust) 패턴을 마이닝하기 위한 다양한 조건들을 포함할 수 있다. 또한, 조건 2에서 불일치 값이 0인 데이터 패턴의 빈도수에 대한 임계값 뿐만이 아니라 불일치 값이 1인 데이터 패턴의 빈도수에 대한 임계값, 불일치 값이 2인 데이터 패턴의 빈도수에 대한 임계값 등 불일치 값에 따라 임계값이 별개로 설정되어, 각 불일치 값에 따른 빈도수가 해당 임계값 이상일 것을 조건으로 설정될 수도 있다.
제어부(450)는 후보 패턴 생성부(430)에서 생성된 후보 패턴 집합에서 미리 설정된 조건을 만족하지 않는 후보 패턴을 제거하고, 후보 패턴 집합에 남아있는 후보 패턴의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일한지 여부를 판단할 수 있다.
제어부(450)는 후보 패턴 집합에 남아 있는 후보 패턴의 길이가 관심 패턴 모델의 관심 패턴 길이와 동일하지 않은 경우, 제거된 후보 패턴만을 지지하는 데이터 패턴을 데이터 패턴 집합에서 제거하고, 데이터 서픽스 트리를 기반으로 남아 있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성하도록 데이터 패턴 생성부(420)를 제어할 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
400: 시계열 패턴 마이닝 장치, 410: 데이터 서픽스 트리 생성부,
420: 데이터 패턴 생성부, 430: 후보 패턴 생성부,
440: 지지도 산출부, 450: 제어부.

Claims (14)

  1. 관심 패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심 패턴 모델을 이용한 시계열 패턴 마이닝 방법에 있어서,
    시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 서로 동일한 데이터 패턴 집합을 생성하는 단계;
    상기 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 상기 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 단계;
    데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 상기 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 단계; 및
    상기 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 단계; 를 포함하는 시계열 패턴 마이닝 방법.
  2. 제 1항에 있어서,
    상기 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 상기 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 적어도 하나를 포함하는 시계열 패턴 마이닝 방법.
  3. 제 1항에 있어서,
    미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 상기 후보 패턴 집합에서 해당 후보 패턴을 제거하는 단계; 를 더 포함하는 시계열 패턴 마이닝 방법.
  4. 제 3항에 있어서,
    후보 패턴의 길이가 상기 관심 패턴 길이와 동일하지 않는 경우, 후보 패턴 집합에 남아있는 각 후보 패턴과의 불일치 값이 상기 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 상기 데이터 패턴 집합에서 제거하는 단계; 및
    상기 데이터 서픽스 트리를 기반으로 데이터 패턴 집합에 남아있는 데이터 패턴에 단위 패턴을 결합하여 새로운 데이터 패턴 집합을 생성하는 단계; 더 를 포함하는 시계열 패턴 마이닝 방법.
  5. 제 1항에 있어서,
    상기 후보 패턴 집합을 생성하는 단계는 사용 가능한 메모리 크기를 기반으로, 생성 가능한 모든 후보 패턴 중 일부만을 분할 생성하는 시계열 패턴 마이닝 방법.
  6. 제 1항에 있어서,
    상기 지지도를 산출하는 단계는 상기 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출하는 시계열 패턴 마이닝 방법.
  7. 제 1항에 있어서,
    입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 단계; 를 더 포함하는 시계열 패턴 마이닝 방법.
  8. 관심 패턴 길이, 최대 허용 불일치 값 및 최소 지지도를 포함하는 관심 패턴 모델을 이용한 시계열 패턴 마이닝 장치에 있어서,
    시퀀스 데이터에 대한 데이터 서픽스 트리를 기반으로 패턴 길이가 서로 동일한 데이터 패턴 집합을 생성하는 데이터 패턴 생성부;
    상기 데이터 패턴 집합에 포함되는 데이터 패턴과의 불일치 값이 상기 최대 허용 불일치 값 이하인 후보 패턴 집합을 생성하는 후보 패턴 생성부;
    데이터 패턴과의 불일치 값에 따라 상이한 가중치를 적용하여 상기 후보 패턴 집합에 포함되는 각 후보 패턴의 지지도를 산출하는 지지도 산출부; 및
    상기 각 후보 패턴의 지지도를 기반으로 각 후보 패턴이 미리 설정된 패턴 조건을 만족하는 지 여부를 판단하는 제어부; 를 포함하는 시계열 패턴 마이닝 장치.
  9. 제 8항에 있어서,
    상기 미리 설정된 패턴 조건은 해당 후보 패턴의 지지도가 상기 최소 지지도 이상일 것 또는 해당 후보 패턴과의 불일치 값이 0인 데이터 패턴의 빈도수가 미리 설정된 임계값 이상일 것 중 적어도 하나를 포함하는 시계열 패턴 마이닝 장치.
  10. 제 8항에 있어서,
    상기 제어부는 미리 설정된 패턴 조건을 만족하지 않는 후보 패턴이 존재하는 경우, 상기 후보 패턴 집합에서 해당 후보 패턴을 제거하는 시계열 패턴 마이닝 장치.
  11. 제 10항에 있어서,
    상기 제어부는 후보 패턴 집합에 남아있는 후보 패턴 각각과의 불일치 값이 상기 최대 허용 불일치 값을 모두 초과하는 데이터 패턴을 상기 데이터 패턴 집합에서 제거하는 시계열 패턴 마이닝 장치.
  12. 제 8항에 있어서,
    상기 제어부는 상기 후보 패턴 집합에 포함되는 후보 패턴의 길이가 상기 관심 패턴 길이와 동일하지 않는 경우, 상기 데이터 서픽스 트리를 기반으로 상기 데이터 패턴 집합에 포함되는 데이터 패턴에 단위 패턴을 결합하여 데이터 패턴 집합을 생성하도록 데이터 패턴 생성부를 제어하는 시계열 패턴 마이닝 장치.
  13. 제 8항에 있어서,
    상기 지지도 산출부는 상기 시퀀스 데이터의 개수 정보를 고려하여 후보 패턴에 대한 지지도를 산출하는 시계열 패턴 마이닝 장치.
  14. 제 8항에 있어서,
    입력된 시퀀스 데이터를 기초로 데이터 서픽스 트리를 생성하는 데이터 서픽스 트리 생성부; 를 더 포함하는 시계열 패턴 마이닝 장치.















KR1020130050247A 2013-05-03 2013-05-03 시계열 패턴 마이닝 방법 및 장치 KR102020673B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130050247A KR102020673B1 (ko) 2013-05-03 2013-05-03 시계열 패턴 마이닝 방법 및 장치
US14/267,351 US9465912B2 (en) 2013-05-03 2014-05-01 Method and apparatus for mining temporal pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130050247A KR102020673B1 (ko) 2013-05-03 2013-05-03 시계열 패턴 마이닝 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140131471A true KR20140131471A (ko) 2014-11-13
KR102020673B1 KR102020673B1 (ko) 2019-09-11

Family

ID=51842075

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130050247A KR102020673B1 (ko) 2013-05-03 2013-05-03 시계열 패턴 마이닝 방법 및 장치

Country Status (2)

Country Link
US (1) US9465912B2 (ko)
KR (1) KR102020673B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016085042A1 (ko) * 2014-11-28 2016-06-02 비씨카드(주) 사용 업종 예측을 위한 카드 사용 패턴 분석 방법 및 이를 수행하는 서버
KR101636202B1 (ko) * 2015-04-14 2016-07-04 연세대학교 산학협력단 바이오 서열 데이터의 역위에 대한 패턴 마이닝 방법 및 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6223889B2 (ja) * 2014-03-31 2017-11-01 株式会社東芝 パターン発見装置、およびプログラム
WO2016116958A1 (ja) * 2015-01-19 2016-07-28 株式会社東芝 系列データ分析装置及プログラム
US10713264B2 (en) * 2016-08-25 2020-07-14 International Business Machines Corporation Reduction of feature space for extracting events from medical data
CN111460956B (zh) * 2020-03-26 2021-06-29 山东科技大学 一种基于数据增强与损失加权的不平衡心电样本分类方法
KR102571593B1 (ko) 2021-04-07 2023-08-28 주식회사 에비드넷 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010007985A1 (en) * 1995-10-24 2001-07-12 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
KR20100062854A (ko) * 2008-12-02 2010-06-10 한국전자통신연구원 비트맵을 이용한 스트림 빈발 패턴 마이닝 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092065A (en) * 1998-02-13 2000-07-18 International Business Machines Corporation Method and apparatus for discovery, clustering and classification of patterns in 1-dimensional event streams
US7440461B2 (en) 2003-12-23 2008-10-21 Intel Corporation Methods and apparatus for detecting patterns in a data stream
JP4496943B2 (ja) * 2004-11-30 2010-07-07 日本電気株式会社 病理診断支援装置、病理診断支援プログラム、病理診断支援装置の作動方法、及び病理診断支援システム
WO2008129635A1 (ja) * 2007-04-12 2008-10-30 Fujitsu Limited 性能障害要因分析プログラムおよび性能障害要因分析装置
US7818303B2 (en) * 2008-01-29 2010-10-19 Microsoft Corporation Web graph compression through scalable pattern mining
KR20090083972A (ko) 2008-01-31 2009-08-05 연세대학교 산학협력단 음악 검색을 위한 음악 데이터베이스 구축 방법, 허밍 질의를 입력으로 하여 음악을 검색하는 방법 및 장치
KR101091204B1 (ko) 2010-02-26 2011-12-09 인하대학교 산학협력단 패턴 검색을 통한 침입 탐지 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010007985A1 (en) * 1995-10-24 2001-07-12 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
KR20100062854A (ko) * 2008-12-02 2010-06-10 한국전자통신연구원 비트맵을 이용한 스트림 빈발 패턴 마이닝 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016085042A1 (ko) * 2014-11-28 2016-06-02 비씨카드(주) 사용 업종 예측을 위한 카드 사용 패턴 분석 방법 및 이를 수행하는 서버
CN107004221A (zh) * 2014-11-28 2017-08-01 Bc卡有限公司 用于预测使用行业的卡使用模式分析方法及执行其的服务器
KR101636202B1 (ko) * 2015-04-14 2016-07-04 연세대학교 산학협력단 바이오 서열 데이터의 역위에 대한 패턴 마이닝 방법 및 장치

Also Published As

Publication number Publication date
US9465912B2 (en) 2016-10-11
KR102020673B1 (ko) 2019-09-11
US20140330843A1 (en) 2014-11-06

Similar Documents

Publication Publication Date Title
KR20140131471A (ko) 시계열 패턴 마이닝 방법 및 장치
EP3876191A1 (en) Estimator generation device, monitoring device, estimator generation method, estimator generation program
US20150269195A1 (en) Model updating apparatus and method
US20190310927A1 (en) Information processing apparatus and information processing method
CN108261176A (zh) 胎心监护数据处理方法、装置、系统、存储介质和计算机设备
Fernandez-Viagas et al. A beam-search-based constructive heuristic for the PFSP to minimise total flowtime
US20190051405A1 (en) Data generation apparatus, data generation method and storage medium
JP2014112292A5 (ko)
JP2020503917A5 (ko)
JP5509153B2 (ja) 歩容解析方法、歩容解析装置及びそのプログラム
EP3942567A1 (en) Population-level gaussian processes for clinical time series forecasting
Krutanard et al. Discovering organizational process models of resources in a hospital using Role Hierarchy Miner
CN104075709B (zh) 基于稀疏轨迹点数据的移动轨迹确定方法及设备
Tóth et al. Applicability of process mining in the exploration of healthcare sequences
US20180285758A1 (en) Methods for creating and analyzing dynamic trail networks
JP2020009034A (ja) 業務推定方法、情報処理装置、及び業務推定プログラム
Paalvast et al. Real-time estimation of surgical procedure duration
CN110236572B (zh) 基于体温信息的抑郁症预测系统
CN111048165A (zh) 试验样本的确定方法及装置、计算机介质和电子设备
CN108542381B (zh) 一种数据处理方法和装置
JP2013149104A (ja) 行動推定装置
Friganovic et al. MULTISAB project: a web platform based on specialized frameworks for heterogeneous biomedical time series analysis-an architectural overview
US20190294523A1 (en) Anomaly identification system, method, and storage medium
US11289202B2 (en) Method and system to improve clinical workflow
CN113408210A (zh) 基于深度学习的非侵入负荷分解方法、系统、介质和设备

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant