KR101064617B1 - 다변량 스트림 데이터 분류 방법 및 장치 - Google Patents

다변량 스트림 데이터 분류 방법 및 장치 Download PDF

Info

Publication number
KR101064617B1
KR101064617B1 KR1020090016855A KR20090016855A KR101064617B1 KR 101064617 B1 KR101064617 B1 KR 101064617B1 KR 1020090016855 A KR1020090016855 A KR 1020090016855A KR 20090016855 A KR20090016855 A KR 20090016855A KR 101064617 B1 KR101064617 B1 KR 101064617B1
Authority
KR
South Korea
Prior art keywords
multivariate
stream data
substrings
data
class
Prior art date
Application number
KR1020090016855A
Other languages
English (en)
Other versions
KR20100097951A (ko
Inventor
강재우
서성보
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020090016855A priority Critical patent/KR101064617B1/ko
Publication of KR20100097951A publication Critical patent/KR20100097951A/ko
Application granted granted Critical
Publication of KR101064617B1 publication Critical patent/KR101064617B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다변량 스트림 데이터를 사전에 정의된 클래스 집합 중의 하나로 분류하는 장치는 입력된 다변량 스트림 데이터를 기호를 사용하여 하나의 문자열로 변환하는 데이터 변환부, 상기 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열들의 집합을 생성하는 부분 문자열 생성부, 상기 생성된 부분 문자열 집합에서 상기 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출하는 모티프 추출부 및 상기 추출된 모티프가 될 수 있는 부분 문자열에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 데이터 분류부를 포함한다
스트림 데이터, 분류

Description

다변량 스트림 데이터 분류 방법 및 장치{METHOD AND APPARATUS FOR CLASSIFYING MULTIVARIATE STREAM DATA}
본 발명은 모티프 사이의 시간 관계를 고려한 다변량 스트림 데이터 분류 방법 및 장치에 관한 것이다.
스트림 데이터(Stream data) 분류는 새로운 스트림 데이터를 사전에 정의된 클래스(Class) 집합 중에 하나로 분류하는 것이다. 현존하는 대부분의 분류 기법은 데이터의 수치적 거리와 통계적 분포를 고려하여 가장 유사한 클래스를 선택한다. 하지만 다변량 스트림 데이터는 속성간에 강한 연관성과 순차적인 특성을 가지는 패턴(Pattern)이 존재하기 때문에, 단순한 거리 비교와 통계적 분포의 유사성을 이용한 분류 기법은 한계가 있다.
스트림 데이터 패턴 분류 기법은 센서에서 수집된 이력 데이터에서 패턴을 발견하고, 이 패턴들을 이용하여 새로운 데이터를 분류하는데 매우 유용하다. 주식, 날씨, 인구 데이터와 같은 전통적인 시계열 데이터와는 달리, 센서와 무선 네트워크 기술의 발달로 실시간으로 현실 세계의 데이터 수집이 가능하게 되었다. 이러한 데이터 수집 기술로 인해 사용자들은 단순히 센서 데이터 값을 모니터 링(Monitoring)하는 것뿐만 아니라 현재 데이터의 특성을 분류하고 미래의 상황을 예측하려는 요구로 확대되었다.
도 1은 스트림 데이터의 일 예를 도시한 도면이다.
예를 들어, 여러 개의 센서를 부착한 이동 로봇이 어떠한 일을 수행하면서 일정한 시간 간격 주기로 각 센서들에서 수집된 측정 값을 중앙 서버에 전송할 수 있다. 로봇은 일을 수행하면서, ‘회전’, ‘집기’, ‘충돌’, ‘장애물’ 등의 상황에 직면할 수 있다. 또한, 각 상황에 따라 각각의 센서에서는 시간에 따라 급격히 증가, 감소 또는 변화가 없는 값을 수집할 수 있다. 사용자가 복수개의 센서로부터 얻어지는 다변량 스트림 데이터를 보고, 원거리에 있는 로봇의 수행 패턴을 정확히 분류할 수 있다면, 로봇을 제어하거나 앞으로의 로봇의 상태를 예측할 수 있을 것이다.
한편, 현존하는 스트림 데이터 분류 기법은 크게 거리 척도를 이용하여 가장 가까운 객체를 선택하는 거리 기반 분류 기법, 통계적 정보를 이용하여 가장 유사한 객체를 선택하는 분류 기법 및 구조적 정보를 이용하는 분류 기법이 있다.
거리 기반 분류 기법은 각 속성열의 수치 벡터에 대한 거리 척도를 이용하여 가장 가까운 거리 객체를 선택하는 방식이다. 가장 일반적인 거리 척도 기법으로는 유클리디안(Euclidean) 거리 척도 또는 Dynamic Time Wrapping(DTW)가 있으며, 총 거리의 합이 가장 가까운 클래스를 선택하는 방식이다.
통계 정보를 이용한 분류 기법은 Bayesian classifier, HMM, RNN 등과 같이 확률적 이론과 데이터 분포 특성을 이용한 방식이다. 이 기법들은 사전에 학습된 확률 값과 분포 특성을 이용하여 사후에 가장 유사한(maximum likelihood) 클래스를 선택하는 방식이다.
마지막으로 구조 패턴 분류 기법은 규칙을 생성한 후, 데이터의 특성을 트리(Tree) 또는 그래프(Graph)의 구조로 만들고, 가장 유사한 구조를 따르는 클래스를 선택하는 방식이다.
하지만 센서 네트워크 응용분야에서 다양한 센서를 통해 수집되는 스트림 데이터는 클래스마다 독특한 데이터 특성을 갖고 있으며, 스트림 데이터의 속성 사이에 강한 시간적 인과관계가 존재하기 때문에 단순한 거리, 확률 및 구조만을 이용한 분류 기법들은 다변량 스트림 데이터를 분류하는데 적합하지 않다.
본 발명의 일 실시예는 복수개의 센서로부터 입력되는 스트림 데이터에서 다른 클래스의 스트림 데이터와 차별되는 중요한 특징들을 추출하고, 상기 추출된 특징들이 클래스에서 차지하는 중요도와 상기 특징들 사이의 시간 관계 패턴을 고려하여 보다 정확하게 다변량 스트림 데이터를 분류할 수 있는 방법 및 장치를 제공한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 입력된 다변량 스트림 데이터를 기호를 사용하여 하나의 문자열로 변환하는 데이터 변환부, 상기 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열들의 집합을 생성하는 부분 문자열 생성부, 상기 생성된 부분 문자열 집합에서 상기 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출하는 모티프 추출부 및 상기 추출된 모티프가 될 수 있는 부분 문자열에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 데이터 분류부를 포함하는 다변량 스트림 데이터를 사전에 정의된 클래스 집합 중의 하나로 분류하는 장치를 제공할 수 있다.
또한, 본 발명의 제 2 측면은 (a) 입력된 상기 다변량 스트림 데이터를 기호를 사용하여 하나의 문자열로 변환하는 단계, (b) 상기 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열들의 집 합을 생성하는 단계, (c) 상기 생성된 부분 문자열 집합에서 상기 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출하는 단계 및 (d) 상기 추출된 모티프가 될 수 있는 부분 문자열에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 단계를 포함하는 다변량 스트림 데이터를 사전에 정의된 클래스 집합 중의 하나로 분류하는 방법을 제공할 수 있다.
전술한 본 발명의 과제 해결 수단에 의하면, 수치 기반의 다변량 스트림 데이터를 데이터의 변화 정도와 연계된 기호를 사용하여 단순화시켜, 스트림 데이터의 해석 알고리즘의 복잡도를 줄였으며, 데이터의 변화 정도와 연계된 기호를 사용하였기 때문에 생성된 규칙에 대한 근사적 해석이 가능하다.
또한, 전술한 본 발명의 과제 해결 수단에 의하면, 엔 그램(n-gram) 기법을 이용하여, 훈련 데이터와 테스트 데이터의 길이가 동일해야 유사도 비교가 가능했던 기존 스트림 데이터 분류 기법의 문제를 해결할 수 있다.
또한, 본 발명의 다른 과제 해결 수단 중 하나에 의하면 모티프를 선별하여 분류 알고리즘에 적용하였기 때문에 전체 데이터를 고려하는 것보다 공간적, 시간적 비용이 절약될 수 있다.
또한, 본 발명의 다른 과제 해결 수단 중 하나에 의하면 하나의 클래스에서 단순히 발생 빈도가 높은 모티프를 선택하는 것이 아니라, 다른 클래스에서의 발생 빈도를 함께 고려한 TFIDF 값에 기초하여 모티프를 선택하였기 때문에 보다 정확하게 스트림 데이터를 분류할 수 있다.
또한, 본 발명의 또 다른 과제 해결 수단 중 하나에 의하면 모티프가 발생하는 확률, TFIDF 값 및 상호 정보(Mutual Information) 값을 이용하여 데이터의 확률 값과 구조적 패턴을 함께 고려하기 때문에 규칙 해석이 가능하며, 보다 정확하게 스트림 데이터를 분류할 수 있다.
또한, 본 발명의 또 다른 과제 해결 수단 중 하나에 의하면 로봇 데이터를 이용한 행위 분석, 수화 언어의 인식, 바이오 생체 데이터를 이용한 사건 분석 및 분류 및 RFID, USN 분야에서 수집되는 다변량 스트림 데이터를 분석할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 시스템의 개략도이다.
본 명세서에서는 사람이 x, y, z 방향 이외에, 굴림(roll), 투척(pitch) 및 흔들림(yaw) 등의 동작을 감지할 수 있는 11개의 센서가 각각 부착된 장갑을 양손에 착용하고 ‘YES’ 라는 단어를 수화로 표현하는 경우에 얻어지는 다변량 스트림 데이터를 예로 들어 설명하겠다.
사람이 11개의 센서가 부착된 장갑을 양손에 착용하고, ‘YES’라는 단어를 수화로 표현하는 경우, 각 센서에서는 일정한 시간 간격 주기로 데이터를 수집하여 다변량 스트림 데이터 분류 장치(300)에 전송할 수 있다.
다변량 스트림 데이터 분류 장치(300)에 전송된 다변량 스트림 데이터는 ‘YES’라는 단어를 표현하는 동안 시간에 따라 급격히 증가, 감소 또는 변화가 없는 값들로 구성될 수 있다. 또한, 22개의 센서로부터 다변량 스트림 데이터가 수집되므로, 스트림의 개수는 22개이다. 즉, ‘YES’라는 클래스를 수화로 표현하는 동안 다변량 스트림 데이터가 22개가 얻어질 수 있다.
다변량 스트림 데이터 분류 장치(300)는 각 클래스에 대한 수치 기반의 상기 다변량 스트림 데이터를 기호를 사용하여 하나의 문자열로 변환할 수 있다. 이때, 상기 기호는 다변량 스트림 데이터의 두 개의 시점 사이의 데이터의 증감 변화 정도와 연계된 기호이다.
예를 들어, 다변량 스트림 데이터 분류 장치(300)는 다변량 스트림 데이터를 5개의 기호를 사용하여 하나의 문자열로 변환할 수 있다. 상기 기호는 U, u, D, d, S일 수 있다. 여기서, U는 두 시점 사이의 데이터의 급격한 상승, u는 두 시점 사이의 데이터의 단조로운 상승, D는 두 시점 사이의 데이터의 급격한 감소, d는 두 시점 사이의 데이터의 단조로운 감소, S는 안정화를 의미한다.
또한, 다변량 스트림 데이터 분류 장치(300)는 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 부분 문자열 집합을 생성할 수 있다. 여기서, 엔-그램 방법이란 하나의 긴 문자열을 순서를 유지하면서 인접한 n 개의 음절 단위로 나누는 방법이다. 예를 들어, ‘대한민국’에 대하여 2-gram 방법을 적용하면, ‘대한’, ‘한민’, ‘민국’이라는 부분 문자열이 생성된다.
또한, 다변량 스트림 데이터 분류 장치(300)는 상기 생성된 부분 문자열 집합에서 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출할 수 있다. 여기서 모티프란 각 클래스를 대표하는 중요한 특징이 될 수 있는 사건을 뜻한다. 예를 들어, 다변량 스트림 데이터 분류 장치(300)는 ‘YES’라는 단어를 수화로 표현했을 때 얻어지는 다변량 스트림 데이터에 대한 부분 문자열 중에서, ‘YES’라는 단어를 표현할 때에만 특징적으로 나타나는 문자열을 추출할 수 있다.
또한, 다변량 스트림 데이터 분류 장치(300)는 상기 추출된 모티프가 될 수 있는 부분 문자열들 중 미리 설정되어 있는 시간 범위 내의 임의의 2개의 상기 부분 문자열 사이의 시간 관계 정보를 생성하고, 상기 시간 관계 정보가 상기 각 클래스에서 차지하는 가중치 값을 산출할 수 있다.
전술한 바와 같은, 다변량 스트림 데이터 분류 장치(300)에 의하면 스트림 데이터를 이용한 수화 언어의 인식뿐만 아니라 로봇 데이터를 이용한 행위 분석, 바이오 생체 데이터를 이용한 사건 분석 및 분류, RFID(Radio Frequency Identification), USN(Ubiquitous Sensor Network) 등 다변량으로 수집되는 스트림 데이터를 이용하는 모든 분야에서 특정한 사건을 검출하거나, 상기 검출된 사건을 이용하여 상태 및 행위를 분류할 수 있다.
다변량 스트림 데이터 분류 장치(300)의 세부 구성 및 각 구성의 기능을 도 3을 참조하여 자세히 설명하겠다.
도 3은 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 장치의 세부 구성도이다.
도시된 바와 같이, 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 장치는 데이터 변환부(310), 부분 문자열 생성부(320), 모티프 추출부(330), 시간 정보 생성부(340), 상호 정보 생성부(350) 및 데이터 분류부(360)를 포함한다.
데이터 변환부(310)는 각 클래스에 대한 수치 기반의 다변량 스트림 데이터를 다변량 스트림 데이터의 두 개의 시점 사이의 데이터의 증감 변화 정도와 연계된 기호를 사용하여 하나의 문자열로 변환할 수 있다.
데이터 변환부(310)는 다변량 스트림 데이터를 기호를 사용하여 문자열로 변환하기 위해 수치 기반의 다변량 스트림 데이터를 정규화 시킬 수 있다. 데이터 정규화는 속성마다 서로 다른 범위의 값을 -1과 1사이로 값을 변환하는 것이다. 정규화를 통해 속성 사이의 값의 비교가 가능하며, 연속된 각 속성값이 평균에서 얼마만큼 떨어져 있는지 알 수 있다.
또한, 데이터 변환부(310)는 수치 기반의 다변량 스트림 데이터의 연속된 두 시점의 정규화된 값의 차에 대한 누적 확률 분포를 산출하고, 상기 산출된 누적 확률 분포에 기초하여 브레이크 포인트(breakpoint)를 결정할 수 있다. 여기서 브레이크 포인트는 기호의 종류를 결정하기 위한 경계 점이 될 수 있다.
예를 들어, 상기 기호는 U, u, D, d, s일 수 있다. 여기서, U는 두 시점 사이의 데이터의 급격한 상승, u는 두 시점 사이의 데이터의 단조로운 상승, D는 두 시점 사이의 데이터의 급격한 감소, d는 두 시점 사이의 데이터의 단조로운 감소, S는 안정화를 의미한다. 즉, 연속된 두 시점의 정규화된 값의 차이가 -0.25 ~ +0.25 인 경우에는 S, 연속된 두 시점의 정규화된 값의 차이가 +0.25 ~ +0.84 인 경우에는 u, 연속된 두 시점의 정규화된 값의 차이가 +0.84 이상인 경우에는 U, 연속된 두 시점의 정규화된 값의 차이가 -0.25 ~ -0.84 인 경우에는 d, 연속된 두 시점의 정규화된 값의 차이가 -0.84 이하인 경우에는 D가 사용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 문자열로 변환된 다변량 스트림 데이터를 도시한 도면이다.
도시된 바와 같이, 정규화 과정 후의 하나의 스트림은 기호를 이용하여 문자열로 변환될 수 있다. 즉, 데이터 변환부(310)는 하나의 스트림 데이터를 5개의 기호를 이용하여 하나의 긴 문자열로 변환할 수 있다.
예를 들어, 상기 변환된 문자열은 ‘16DsDU,…,sss’가 될 수 있다. 여기서 숫자 16은 22개의 센서 중에 16번째의 센서의 속성을 의미한다. 즉, 이 속성은 손바닥을 한쪽 방향으로 흔들 때 수집되는 측정값을 의미한다. 또한, ‘UsDU,…,sss’는 시간이 증가함에 따라 데이터 값이 ‘급격한 상승(U) → 안정화(s) → 급격한 감소(D) → 급격한 상승(U),…, → 안정화(s)’로 변화했음을 의미한다.
다시 도 3으로 돌아가서, 부분 문자열 생성부(320)는 데이터 변환부(310)가 생성한 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열 집합을 생성할 수 있다. 예를 들어, 부분 문자열 생성부(320)는 2 개의 음절을 갖는 부분 문자열들의 집합, 3개의 음절을 갖는 부분 문자열들의 집합, 4 개의 음절을 갖는 부분 문자열들의 집합 및 5 개의 음절을 갖는 부분 문자열들의 집합 중 하나 이상의 집합을 생성할 수 있다.
스트림 데이터는 연속된 값 사이에 지역성(locality)이 존재하기 때문에 여러 개의 부분 문자열의 집합은 하나의 긴 문자열보다 데이터 특성을 더욱더 잘 표현할 수 있다. 또한, 순서화된 하나의 긴 문자열에서 순서를 유지한 부분 문자열로 분할하면 긴 문자열에서 부분 문자열의 비교가 가능해진다.
도 5는 본 발명의 일 실시예에 따른 부분 문자열 집합을 도시한 도면이다.
예를 들어, 도시된 바와 같이, 5개의 기호를 사용하여 변환된 22개의 문자열을 1-gram 방법 내지 5-gram 방법을 적용하여 부분 문자열 집합을 생성할 수 있다. 다시 말해, 부분 문자열 생성부(320)는 데이터 변환부(310)로부터 수신한 22개의 문자열에 1-gram 방법 내지 5-gram 방법을 적용하여 부분 문자열 집합을 생성하였다.
다시 도 3으로 돌아가서, 모티프 추출부(330)는 부분 문자열 생성부(320)가 생성한 부분 문자열 집합에서 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출할 수 있다. 데이터 분류의 품질과 수행 속도를 높이기 위해, 클래 스를 대표하는 중요한 특징, 즉 모티프(Motifs)를 이용하는 것은 필수적이다. 거대한 데이터를 처리하는 분류 기법에는 두 가지 문제점이 있다. 첫째, 처리해야 할 데이터가 너무 크기 때문에 많은 수행시간이 요구되며, 둘째 각 클래스를 대표하는 특징을 엄격하게 결정하는 것이 어려운 문제이다. 수백개의 특징들이 존재하는 거대한 문서, 또는 수십개의 센서에서 동시에 수집되는 센서 데이터를 분석할 때, 중요한 특징을 선택하여 분석한다면 데이터 분류의 정확도와 수행속도가 크게 향상될 것이다.
모티프 추출부(330)는 모티프가 될 수 있는 부분 문자열을 추출하기 위해 TFIDF(Term Frequency and Inverse Document Frequency) 값을 이용할 수 있다. TFIDF는 각 클래스에 대한 각 부분 문자열의 가중치를 결정하는 기법으로서 TFIDF 값은 다음 수학식에 의해 결정된다.
Figure 112009012340070-pat00001
수학식 1에서
Figure 112009012340070-pat00002
는 발생 빈도로서 클래스 또는 문서(d) 안에서 단어(t)가 발생한 횟수를 의미한다.
또한,
Figure 112009012340070-pat00003
는 역문서 빈도로서 다음 수학식에 의해 결정된다.
Figure 112009012340070-pat00004
수학식 2에서
Figure 112009012340070-pat00005
는 문서 빈도로서, 특정한 단어(t)가 적어도 한번 발생한 문서의 개수를 의미한다. 또한,
Figure 112009012340070-pat00006
는 문서의 총 개수를 의미한다. 그러므로 많은 문서에 특정한 단어(t)가 포함되어 있다면 역문서 빈도 값은 낮고, 특정한 문서에만 상기 특정한 단어(t)가 포함되어 있다면 역문서 빈도 값은 높다.
TFIDF 값은 발생 빈도 값과 역문서 빈도 값의 곱으로 계산되므로, 특정 클래스에서는 특정 부분 문자열이 많이 나타나지만 다른 클래스에서는 상기 부분 문자열이 적게 나타날수록 TFIDF 값이 높게 나타난다. 따라서, 특정 클래스에서는 많이 나타나지만 다른 클래스에서는 적게 나타나는 부분 문자열이 상기 특정 클래스의 모티프가 될 수 있다.
도 6은 본 발명의 일 실시예에 따른 부분 문자열에 대한 TFIDF 값 테이블이다.
도시된 바와 같이, ‘22uud’는 ‘boy’ 클래스와 ‘come’ 클래스에서만 높은 가중치 값을 가지므로 ‘boy’ 클래스와 ‘come’ 클래스를 대표하는 모티프가 될 수 있다. 즉, 22번 센서가 단조로운 상승(u) → 단조로운 상승(u) → 단조로운 감소(d)를 하는 경우, ‘boy’ 또는 ‘come’ 이라는 단어를 표시한 것임을 예측할 수 있다.
그러나, ‘5dsud’와 같이 가중치의 값이 모든 클래스에서 높게 나타나거나 0이면 클래스를 대표하는 모티프가 될 수 없다.
또한, 부분 문자열 생성부(320)가 생성한 모든 부분 문자열에 대하여 TFIDF 값을 구하는 경우, 1-gram 방법을 적용한 부분 문자열에 대한 TFIDF 값은 거의 0에 가까워 1-gram 방법을 적용한 부분 문자열은 모티프 값이 될 수 없다. 반면에, 2 내지 5-gram 방법을 적용한 부분 문자열이 모티프가 될 수 있는 가능성이 가장 높다.
다시 도 3으로 돌아가서, 시간 정보 생성부(340)는 모티프 추출부(330)가 추출한 모티프가 될 수 있는 부분 문자열들 중 임의의 2개의 부분 문자열 사이의 시간 관계 정보를 생성할 수 있다.
도 7은 본 발명의 일 실시예에 따른 시간 관계 정보 테이블이다.
도시된 바와 같이, 모티프는 시작 시점과 종료 시점을 가지는 시간 간격 데이터이다.
또한, 시간 관계 정보는 종료(Finish), 포함(During), 시작(Start), 중첩(Overlap), 만남(Meet) 및 이전(Before)이 될 수 있다. 종료(Finish)는 제1 모티프와 제2 모티프의 종료 시점이 일치하는 시간 관계 정보이다. 포함(During)은 제2 모티프 안에 제1 모티프가 포함되는 시간 관계 정보이다. 이때, 제1 모티프 안에 제2 모티프가 포함되어도 상관없다. 시작(Start)은 제1 모티프와 제2 모티프의 시작 시점이 일치하는 시간 관계 정보이다. 중첩(Overlap)은 제1 모티프와 제2 모티프가 일부 시간 동안 겹치게 되는 시간 관계 정보이다. 만남(Meet)은 제1 모티프가 끝나면 제2 모티프가 곧바로 시작되는 시간 관계 정보이다. 이때, 제2 모티프가 끝나고 제1 모티프가 곧바로 시작되어도 상관 없다. 마지막으로 이전(Before)은 제1 모티프가 끝나고 제2 모티프가 시작되지만, 시간적 연속성이 없는 시간 관계 정보이다.
시간 정보 생성부(340)는 각각의 시간 관계 정보를 6개의 문자 B,M,O,S,D,F로 표시될 수 있다. 또한, 예를 들어, 시간 정보 생성부(340)는 모티프들 사이의 시간 관계를 {제1 모티프 (시간 관계 정보 문자) 제2 모티프}의 형태로 표시할 수 있다.
상호 정보 생성부(350)는 시간 정보 생성부(340)가 생성한 모티프들 사이의 시간 관계 정보들 중에서 미리 설정되어 있는 시간 범위 내의 각 시간 관계 정보가 각 클래스에서 차지하는 가중치 값을 산출할 수 있다.
시간 정보 생성부(340)가 전체 시간 동안의 모든 모티프들 사이의 시간 관계 정보를 생성하더라도, 근접하게 이웃해 있는 모티프들 사이에는 강한 연관성이 존재하기 때문에, 상호 정보 생성부(350)는 일정한 시간 범위(d) 내의 모티프들 사이의 시간 관계 정보만을 고려할 수 있다.
도 8은 본 발명의 일 실시예에 따른 모티프 사이의 시간 관계 정보를 나타낸 도면이다.
예를 들어 시간 정보 생성부(340)는 모티프 ‘5uuud’에 모티프 ‘4ud’가 포함되는 것을 검출하고 {5uuud(D)4ud}라는 시간 관계 정보를 생성할 수 있다. 또 한, 시간 정보 생성부(340)는 모티프 ‘5uuud’와 모티프 ‘3Ddsd’가 중첩 됨을 발견하고 {5uuud(O)3Ddsd}라는 시간 관계 정보를 생성할 수 있다. 또한, 시간 정보 생성부(340)는 모티프 ‘4ud’와 모티프 ‘3Ddsd’가 중첩 됨을 발견하고 {4ud(O)3Ddsd}라는 시간 관계 정보를 생성할 수 있다. 또한 시간 정보 생성부(340)는 {3Ddsd(M)2Ddsd}, {4Ddsd(S)3ds}, {2Ddsd(D)4Ddsd}, {2Ddsd(D)3ds} 등의 시간 관계 정보를 생성할 수 있다.
그러나, 상호 정보 생성부(350)는 일정한 시간 범위(d) 내에서 모티프들 사이의 시간 관계 정보만을 고려할 수 있다.
상호 정보 생성부(350)는 두 개의 모티프 사이의 시간 관계 정보가 각 클래스에서 차지하는 가중치 값을 계산하기 위해 상호 정보(Mutual Information) 값을 이용할 수 있다. 다시 말해, 상호 정보 생성부(350)는 모티프 추출부(330)가 추출한 부분 문자열들 중 미리 설정되어 있는 시간 범위 내의 임의의 2개의 부분 문자열과 상기 2개의 부분 문자열이 형성하는 시간 관계 정보 간의 상호 정보(Mutual Information) 값을 이용하여 상기 2개의 부분 문자열이 형성하는 시간 관계 정보가 각 클래스에서 차지하는 가중치 값을 계산할 수 있다.
상호 정보 값은 아래의 수학식에 의해 결정된다.
Figure 112009012340070-pat00007
여기서
Figure 112009012340070-pat00008
Figure 112009012340070-pat00009
는 각각 모티프(
Figure 112009012340070-pat00010
)과 모티프(
Figure 112009012340070-pat00011
)가 특정 클래스의 모티프들 중에서 차지하는 비율이다. 또한,
Figure 112009012340070-pat00012
는 모티프(
Figure 112009012340070-pat00013
)과 모티프(
Figure 112009012340070-pat00014
)가 미리 설정된 시간 범위(d) 내에서 형성하는 시간 관계 정보가 특정 클래스의 모티프들 중에서 차지하는 비율이다.
도 9는 본 발명의 일 실시예에 따른 시간 관계 정보에 대한 상호 정보 값 테이블이다.
도시된 바와 같이, 모티프 ‘2uud’와 ‘5uds’가 형성하고 있는 시간 관계 정보(M)는 클래스 ‘girl’에 대한 높은 상호 정보 값, 즉 가중치 값을 갖는다.
다시 말해, 예를 들어, 2번 센서가 단조로운 상승 → 단조로운 상승 → 단조로운 감소를 한 직후 5번 센서가 단조로운 상승 → 단조로운 감소 → 안정화를 유지하면, ‘girl’을 수화로 표현했다고 예측할 수 있다.
또한, 모티프 ‘2udu’와 ‘5uds’가 형성하고 있는 시간 관계 정보(O)는 클래스 ‘hello’에 대한 높은 가중치 값을 갖는다.
다시 말해, 2번 센서가 단조로운 상승 → 단조로운 감소 → 단조로운 상승을 하는 동안 5번 센서가 단조로운 상승 → 단조로운 감소 → 안정화를 유지하면, ‘hello’를 수화로 표현했다고 예측할 수 있다.
다시 도 3으로 돌아가서, 데이터 분류부(360)는 모티프 추출부(330)가 추출한 모티프가 될 수 있는 부분 문자열에 기초하여 다변량 스트림 데이터를 미리 정의된 클래스 집합 중의 하나로 분류할 수 있다. 나아가, 데이터 분류부(360)는 시 간 정보 생성부(340)가 생성한 부분 문자열 사이의 시간 관계 정보를 고려하여 다변량 스트림 데이터를 미리 정의된 클래스 집합 중의 하나로 분류할 수 있다. 또한, 데이터 분류부(360)는 상호 정보 생성부(350)가 산출한 시간 관계 정보가 각 클래스에서 차지하는 가중치 값에 기초하여 다변량 스트림 데이터를 미리 정의된 클래스 집합 중의 하나로 분류할 수 있다.
이와 같이, 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 장치는 각 클래스를 표현하는 중요한 모티프를 발견하고 이들 사이의 시간 관계를 고려하기 때문에 보다 정확한 데이터 해석과 예측이 가능하다.
도 10은 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 방법의 흐름도이다.
단계(S1000)에서 데이터 변환부(310)는 입력된 다변량 스트림 데이터를 상기 다변량 스트림 데이터의 두 개의 시점 사이의 데이터의 증감 변화 정도와 연계된 기호를 사용하여 하나의 문자열로 변환할 수 있다. 예를 들어, 상기 기호는 U, u, D, d, s일 수 있다.
또한, 단계(S1000)에서 데이터 변환부(310)는 다변량 스트림 데이터를 기호를 사용하여 문자열로 변환하기 위해 수치 기반의 다변량 스트림 데이터를 정규화 시킬 수 있다.
또한, 단계(S1000)에서 데이터 변환부(310)는 상기 수치 기반의 다변량 스트림 데이터의 연속된 두 시점의 정규화된 값의 차에 대한 누적 확률 분포를 산출하고, 상기 산출된 누적 확률 분포에 기초하여 브레이크 포인트(breakpoint)를 결정 할 수 있다. 여기서 브레이크 포인트는 기호의 종류를 결정하기 위한 경계 점이 될 수 있다.
단계(S1020)는 부분 문자열 생성부(320)가 상기 단계(S1000)에서 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열 집합을 생성하는 단계이다. 예를 들어, 단계(S1020)에서 부분 문자열 생성부(320)는 2 개의 음절을 갖는 부분 문자열들의 집합, 3 개의 음절을 갖는 부분 문자열들의 집합, 4 개의 음절을 갖는 부분 문자열들의 집합, 5 개의 음절을 갖는 부분 문자열들의 집합 중 하나 이상의 집합을 생성할 수 있다.
단계(S1040)는 모티프 추출부(330)가 상기 단계(S1020)에서 생성된 부분 문자열 집합에서 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출하는 단계이다.
단계(S1040)에서 모티프 추출부(330)는 모티프가 될 수 있는 부분 문자열을 추출하기 위해 TFIDF(Term Frequency and Inverse Document Frequency) 값을 이용할 수 있다. 특정 클래스에서는 특정 부분 문자열이 많이 나타나지만 다른 클래스에서는 상기 부분 문자열이 적게 나타날수록 TFIDF 값이 높게 나타난다. 따라서, 특정 클래스에서는 많이 나타나지만 다른 클래스에서는 적게 나타나는 부분 문자열이 상기 특정 클래스의 모티프가 될 수 있다. TFIDF 값에 대한 수식적 설명은 전술한 바와 동일하므로 생략하기로 한다.
단계(S1060)는 시간 정보 생성부(340) 상기 단계(S1040)에서 추출된 모티프들 중 임의의 2개의 모티프들 사이의 시간 관계 정보를 생성하는 단계이다.
예를 들어, 시간 관계 정보는 이전(Before), 만남(Meet), 중첩(Overlap), 시작(Start), 포함(During) 및 종료(Finish)가 될 수 있고, 각각의 시간 관계 정보는 6개의 문자 B,M,O,S,D,F로 표시될 수 있다.
단계(S1080)는 상호 정보 생성부(350)가 상기 단계(S1060)에서 생성된 모티프들 사이의 시간 관계 정보들 중에서 미리 설정되어 있는 시간 범위 내의 각 시간 관계 정보가 각 클래스에서 차지하는 가중치 값을 산출하는 단계이다.
상기 단계(S1060)에서 시간 정보 생성부(340)가 전체 시간 동안의 모든 모티프들 사이의 시간 관계 정보를 생성하더라도, 상호 정보 생성부(350)는 일정한 시간 범위(d) 내의 모티프들 사이의 시간 관계 정보만을 고려할 수 있다.
단계(S1080)에서 상호 정보 생성부(350)는 두 개의 모티프 사이의 시간 관계 정보가 각 클래스에서 차지하는 가중치 값을 계산하기 위해 상호 정보(Mutual Information) 값을 이용할 수 있다. 상호 정보 값에 대한 수식적 설명은 전술한 바와 동일하므로 생략하기로 한다.
단계(S1100)는 데이터 분류부(360)가 입력된 다변량 스트림 데이터를 사전에 정의된 클래스 집합 중의 하나로 분류하는 단계이다. 예를 들어, 단계(S1100)에서 데이터 분류부(360)는 상기 단계(S1040)에서 추출된 모티프가 될 수 있는 부분 문자열에 기초하여 다변량 스트림 데이터를 미리 정의된 클래스 집합 중의 하나로 분류할 수 있다. 나아가, 단계(S1100)에서 데이터 분류부(360)는 상기 단계(S1060)에서 생성된 부분 문자열 사이의 시간 관계 정보를 고려하여 다변량 스트림 데이터를 미리 정의된 클래스 집합 중의 하나로 분류할 수 있다. 또한, 데이터 분류 부(360)는 상기 단계(S1080)에서 산출된 시간 관계 정보가 각 클래스에서 차지하는 가중치 값에 기초하여 다변량 스트림 데이터를 미리 정의된 클래스 집합 중의 하나로 분류할 수 있다.
본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 장치 및 방법은 스트림 데이터를 이용한 수화 언어의 인식뿐만 아니라 로봇 데이터를 이용한 행위 분석, 바이오 생체 데이터를 이용한 사건 분석 및 분류, RFID, USN 등 다변량으로 수집되는 스트림 데이터를 이용하는 모든 분야에서 특정한 사건을 검출하거나, 상기 검출된 사건을 이용하여 상태 및 행위를 분류하는데 이용될 수 있다.
또한, 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 장치 및 방법은 모티프만을 고려하기 때문에 전체 데이터를 고려하는 것보다 공간적, 시간적 비용이 절약된다. 또한 모티프 사이의 시간적 관계가 규칙에 반영되어 분류 규칙의 명확한 해석이 가능하며, 확률과 시간 구조 정보를 함께 고려하기 때문에 단순히 데이터 거리나 데이터 분포를 고려하는 기존의 기법에 정확하게 데이터를 분류할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 스트림 데이터의 일 예를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 시스템의 개략도.
도 3은 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 장치의 세부 구성도.
도 4는 본 발명의 일 실시예에 따른 문자열로 변환된 다변량 스트림 데이터를 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 부분 문자열 집합을 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 부분 문자열에 대한 TFIDF 값 테이블.
도 7은 본 발명의 일 실시예에 따른 시간 관계 정보 테이블.
도 8은 본 발명의 일 실시예에 따른 모티프 사이의 시간 관계 정보를 나타낸 도면.
도 9는 본 발명의 일 실시예에 따른 시간 관계 정보에 대한 상호 정보 값 테이블.
도 10은 본 발명의 일 실시예에 따른 다변량 스트림 데이터 분류 방법의 흐름도.

Claims (23)

  1. 다변량 스트림 데이터를 사전에 정의된 클래스 집합 중의 하나로 분류하는 장치에 있어서,
    입력된 다변량 스트림 데이터를 기호를 사용하여 하나의 문자열로 변환하는 데이터 변환부,
    상기 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열들의 집합을 생성하는 부분 문자열 생성부,
    상기 생성된 부분 문자열 집합에서 상기 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출하는 모티프 추출부 및
    상기 추출된 부분 문자열에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 데이터 분류부
    를 포함하는 다변량 스트림 데이터 분류 장치.
  2. 제 1 항에 있어서,
    상기 추출된 부분 문자열들 중 임의의 2개의 상기 부분 문자열 사이의 시간 관계 정보를 생성하는 시간 정보 생성부 및
    미리 설정되어 있는 시간 범위 내의 상기 시간 관계 정보가 상기 각 클래스에서 차지하는 가중치 값을 산출하는 상호 정보 생성부를 더 포함하되
    상기 데이터 분류부는 상기 시간 관계 정보 및 상기 가중치 값에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 것인 다변량 스트림 데이터 분류 장치.
  3. 제 1 항에 있어서,
    상기 데이터 변환부는 상기 다변량 스트림 데이터를 정규화시키고, 상기 다변량 스트림 데이터의 연속된 두 시점의 정규화된 값의 차에 대한 누적 확률 분포를 산출하고, 상기 산출된 누적 확률 분포에 기초하여 브레이크 포인트(breakpoint)를 결정하고, 상기 브레이크 포인트에 기초하여 상기 기호를 결정하는 것인 다변량 스트림 데이터 분류 장치.
  4. 제 1 항에 있어서,
    상기 부분 문자열 생성부는 2 개의 음절을 갖는 부분 문자열들의 집합, 3개의 음절을 갖는 부분 문자열들의 집합, 4 개의 음절을 갖는 부분 문자열들의 집합 및 5 개의 음절을 갖는 부분 문자열들의 집합 중 하나 이상의 집합을 생성하는 다변량 스트림 데이터 분류 장치.
  5. 제 3 항에 있어서,
    상기 기호는 상기 다변량 스트림 데이터의 두 개의 시점 사이의 데이터의 증감 변화 정도와 연계된 것인 다변량 스트림 데이터 분류 장치.
  6. 제 3 항에 있어서,
    상기 기호는 U, u, D, d 및 S를 포함하되,
    상기 U는 상기 다변량 스트림 데이터의 두 시점 사이의 데이터의 급격한 상승, 상기 u는 단조로운 상승, 상기 D는 급격한 감소, 상기 d는 단조로운 감소, 상기 S는 안정화를 의미하는 것인 다변량 스트림 데이터 분류 장치.
  7. 제 3 항에 있어서,
    상기 기호는 U, u, D, d 및 S를 포함하되,
    상기 S는 상기 연속된 두 시점의 정규화된 값의 차이가 -0.25 ~ +0.25 인 경우, 상기 u는 상기 연속된 두 시점의 정규화된 값의 차이가 +0.25 ~ +0.84 인 경우, 상기 U는 상기 연속된 두 시점의 정규화된 값의 차이가 +0.84 이상인 경우, 상기 d는 상기 연속된 두 시점의 정규화된 값의 차이가 -0.25 ~ -0.84 인 경우, 상기 D는 상기 연속된 두 시점의 정규화된 값의 차이가 -0.84 이하인 경우에 사용되는 것인 다변량 스트림 데이터 분류 장치.
  8. 제 1 항에 있어서,
    상기 모티프 추출부는 상기 각 클래스에 대한 상기 각 부분 문자열의 가중치를 결정하는 TFIDF(Term Frequency and Inverse Document Frequency) 값을 이용하는 것인 다변량 스트림 데이터 분류 장치.
  9. 제 2 항에 있어서,
    상기 시간 관계 정보는 이전(before), 만남(meet), 중첩(overlap), 시작(start), 포함(during) 및 종료(finish)를 포함하는 것인 다변량 스트림 데이터 분류 장치.
  10. 제 9 항에 있어서,
    상기 상호 정보 생성부 상기 추출된 부분 문자열들 중 미리 설정되어 있는 시간 범위 내의 임의의 2개의 상기 부분 문자열과 상기 2개의 부분 문자열이 형성하는 상기 시간 관계 정보 간의 상호 정보(Mutual Information) 값을 이용하는 것인 다변량 스트림 데이터 분류 장치.
  11. 다변량 스트림 데이터를 사전에 정의된 클래스 집합 중의 하나로 분류하는 방법에 있어서,
    (a) 입력된 상기 다변량 스트림 데이터를 기호를 사용하여 하나의 문자열로 변환하는 단계,
    (b) 상기 변환된 문자열에 엔-그램(n-gram) 방법을 적용하여 n 개(n은 자연수)의 음절을 갖는 부분 문자열들의 집합을 생성하는 단계,
    (c) 상기 생성된 부분 문자열 집합에서 상기 각 클래스에 대한 모티프(Motif)가 될 수 있는 부분 문자열을 추출하는 단계 및
    (d) 상기 추출된 모티프가 될 수 있는 부분 문자열에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 단계
    를 포함하는 다변량 스트림 데이터 분류 방법.
  12. 제 11 항에 있어서,
    (e) 상기 추출된 부분 문자열들 중 임의의 2개의 상기 부분 문자열 사이의 시간 관계 정보를 생성하는 단계 및
    (f) 미리 설정되어 있는 시간 범위 내의 상기 시간 관계 정보가 상기 각 클래스에서 차지하는 가중치 값을 산출하는 단계를 더 포함하되
    상기 (d) 단계는 상기 시간 관계 정보 및 상기 가중치 값에 기초하여 상기 다변량 스트림 데이터를 상기 클래스 집합 중의 하나로 분류하는 것인 다변량 스트림 데이터 분류 방법.
  13. 제 11 항에 있어서,
    상기 (a) 단계는
    (a1) 상기 다변량 스트림 데이터를 정규화시키는 단계,
    (a2) 상기 다변량 스트림 데이터의 연속된 두 시점의 정규화된 값의 차에 대한 누적 확률 분포를 산출하는 단계 및
    (a3) 상기 산출된 누적 확률 분포에 기초하여 브레이크 포인트(breakpoint)를 결정하는 단계
    를 포함하는 것인 다변량 스트림 데이터 분류 방법.
  14. 제 11 항에 있어서,
    상기 (b) 단계는 2 개의 음절을 갖는 부분 문자열들의 집합, 3 개의 음절을 갖는 부분 문자열들의 집합, 4 개의 음절을 갖는 부분 문자열들의 집합, 5 개의 음절을 갖는 부분 문자열들의 집합 중 하나 이상의 집합을 생성하는 단계
    를 포함하는 다변량 스트림 데이터 분류 방법.
  15. 제 13 항에 있어서,
    상기 기호는 상기 다변량 스트림 데이터의 두 개의 시점 사이의 데이터의 증감 변화 정도와 연계된 것인 다변량 스트림 데이터 분류 방법.
  16. 제 13 항에 있어서,
    상기 기호는 U, u, D, d 및 S를 포함하되,
    상기 U는 상기 다변량 스트림 데이터의 두 시점 사이의 데이터의 급격한 상승, 상기 u는 단조로운 상승, 상기 D는 급격한 감소, 상기 d는 단조로운 감소, 상기 S는 안정화를 의미하는 것인 다변량 스트림 데이터 분류 방법.
  17. 제 13 항에 있어서,
    상기 기호는 U, u, D, d 및 S를 포함하되,
    상기 S는 상기 연속된 두 시점의 정규화된 값의 차이가 -0.25 ~ +0.25 인 경 우, 상기 u는 상기 연속된 두 시점의 정규화된 값의 차이가 +0.25 ~ +0.84 인 경우, 상기 U는 상기 연속된 두 시점의 정규화된 값의 차이가 +0.84 이상인 경우, 상기 d는 상기 연속된 두 시점의 정규화된 값의 차이가 -0.25 ~ -0.84 인 경우, 상기 D는 상기 연속된 두 시점의 정규화된 값의 차이가 -0.84 이하인 경우에 사용되는 것인 다변량 스트림 데이터 분류 방법.
  18. 제 11 항에 있어서,
    상기 (c) 단계는 상기 각 클래스에 대한 상기 각 부분 문자열의 가중치를 결정하는 TFIDF(Term Frequency and Inverse Document Frequency) 값을 이용하는 것인 다변량 스트림 데이터 분류 방법.
  19. 제 12 항에 있어서,
    상기 시간 관계 정보는 이전(before), 만남(meet), 중첩(overlap), 시작(start), 포함(during) 및 종료(finish)를 포함하는 것인 다변량 스트림 데이터 분류 방법.
  20. 제 19 항에 있어서,
    상기 (f) 단계는 상기 추출된 부분 문자열들 중 미리 설정되어 있는 시간 범위 내의 임의의 2개의 상기 부분 문자열과 상기 2개의 부분 문자열이 형성하는 상기 시간 관계 정보 간의 상호 정보(Mutual Information) 값을 이용하는 것인 다변 량 스트림 데이터 분류 방법.
  21. 제 11 항 내지 제 20 항 중 어느 하나의 항에 기재된 단계를 수행하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  22. 삭제
  23. 삭제
KR1020090016855A 2009-02-27 2009-02-27 다변량 스트림 데이터 분류 방법 및 장치 KR101064617B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090016855A KR101064617B1 (ko) 2009-02-27 2009-02-27 다변량 스트림 데이터 분류 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090016855A KR101064617B1 (ko) 2009-02-27 2009-02-27 다변량 스트림 데이터 분류 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100097951A KR20100097951A (ko) 2010-09-06
KR101064617B1 true KR101064617B1 (ko) 2011-09-15

Family

ID=43004988

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090016855A KR101064617B1 (ko) 2009-02-27 2009-02-27 다변량 스트림 데이터 분류 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101064617B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220898A1 (en) * 2014-02-04 2015-08-06 Seth Priebatsch Dynamic ingestion and processing of transactional data at the point of sale

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130085069A (ko) 2012-01-18 2013-07-29 삼성전자주식회사 엔-그램 인덱스 기반의 다차원 문자열 질의 처리 장치 및 방법
US8639619B1 (en) 2012-07-13 2014-01-28 Scvngr, Inc. Secure payment method and system
US8770478B2 (en) 2013-07-11 2014-07-08 Scvngr, Inc. Payment processing with automatic no-touch mode selection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092488A (ja) 1999-09-17 2001-04-06 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2004094521A (ja) 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体
JP2006181173A (ja) 2004-12-28 2006-07-13 Konica Minolta Medical & Graphic Inc 患者情報分類装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092488A (ja) 1999-09-17 2001-04-06 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2004094521A (ja) 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体
JP2006181173A (ja) 2004-12-28 2006-07-13 Konica Minolta Medical & Graphic Inc 患者情報分類装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220898A1 (en) * 2014-02-04 2015-08-06 Seth Priebatsch Dynamic ingestion and processing of transactional data at the point of sale
US10489764B2 (en) * 2014-02-04 2019-11-26 Scvngr, Inc. Dynamic ingestion and processing of transactional data at the point of sale

Also Published As

Publication number Publication date
KR20100097951A (ko) 2010-09-06

Similar Documents

Publication Publication Date Title
Fulcher Feature-based time-series analysis
Aghdam et al. Feature selection using particle swarm optimization in text categorization
JP2019535047A (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
Nayak et al. Hyper-parameter tuned light gradient boosting machine using memetic firefly algorithm for hand gesture recognition
KR101064617B1 (ko) 다변량 스트림 데이터 분류 방법 및 장치
CN111078546A (zh) 一种表达页面特征的方法和电子设备
Đogić et al. Sign Language Recognition using Neural Networks.
Sakshi et al. Handwritten mathematical symbols classification using WEKA
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
Luqman et al. Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images
CN114925702A (zh) 文本相似度识别方法、装置、电子设备及存储介质
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
JPWO2020095357A1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Abdallah et al. Facial-expression recognition based on a low-dimensional temporal feature space
Hossain et al. A novel approach to classify bangla sign digits using capsule network
Patel et al. Personality analysis using social media
Bostrom Shapelet transforms for univariate and multivariate time series classification
CN113792540A (zh) 意图识别模型更新方法及相关设备
Jothi et al. Machine learning approach to document classification using concept based features
Cenedese et al. A parsimonious approach for activity recognition with wearable devices: An application to cross-country skiing
KR102418239B1 (ko) 기술의 지속 가능성을 탐색하기 위한 특허 분석 장치
WO2015029158A1 (ja) データ変換装置およびデータ変換方法ならびにデータ変換プログラム
Khatri et al. Analysis and Design of Twitter Sentiment Analysis Using Improved Machine Learning Approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151103

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee