KR101560274B1 - 데이터 분석 장치 및 방법 - Google Patents

데이터 분석 장치 및 방법 Download PDF

Info

Publication number
KR101560274B1
KR101560274B1 KR1020130062415A KR20130062415A KR101560274B1 KR 101560274 B1 KR101560274 B1 KR 101560274B1 KR 1020130062415 A KR1020130062415 A KR 1020130062415A KR 20130062415 A KR20130062415 A KR 20130062415A KR 101560274 B1 KR101560274 B1 KR 101560274B1
Authority
KR
South Korea
Prior art keywords
series data
time series
data
time
value
Prior art date
Application number
KR1020130062415A
Other languages
English (en)
Other versions
KR20140141101A (ko
Inventor
서범준
김형찬
오규삼
권순환
오민환
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020130062415A priority Critical patent/KR101560274B1/ko
Priority to CN201410239436.6A priority patent/CN104216941B/zh
Priority to US14/291,855 priority patent/US9454595B2/en
Publication of KR20140141101A publication Critical patent/KR20140141101A/ko
Application granted granted Critical
Publication of KR101560274B1 publication Critical patent/KR101560274B1/ko
Priority to US15/239,199 priority patent/US9842159B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

본 발명은, 서로 다른 종류의 센서에 의하여 측정된 측정값인 이종 데이터를 종합하여 클러스터를 생성하는 장치 및 방법에 관한 것이다. 본 발명의 일 실시예에 따른 데이터 분석 장치는, 제1 센서에 의하여 측정된 제1 시계열 데이터 및, 상기 제1 센서와 서로 다른 종류의 센서인 제2 센서에 의하여 측정된 제2 시계열 데이터를 수신하는 수신부; 상기 제1 시계열 데이터와 상기 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함하여 생성하는 데이터 병합부; 및 상기 제1 시계열 데이터의 측정값를 가리키는 제1 축 및 상기 제2 시계열 데이터의 측정값를 가리키는 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 순서쌍 세트를 이용하여 클러스터를 생성하는 클러스터 생성부를 포함할 수 있다.

Description

데이터 분석 장치 및 방법{Apparatus and Method for Analyzing Data}
본 발명은 데이터 분석 장치 및 방법에 관한 것이다. 보다 상세하게는, 본 발명은 서로 다른 센서에서 측정되는 데이터를 몇몇의 그룹으로 분류하는 하는 데이터 클러스터링 방법 및 장치에 관한 것이다.
클러스터(Cluster)는 수 많은 데이터 중 유사한 데이터를 모아서 하나의 대상으로 한 것을 의미한다. 클러스터링(Clustering)은 수 많은 데이터 중 유사한 데이터를 몇몇의 그룹으로 분류하는 것을 의미한다.
K-Means, K-Medoids, Canopy 등의 기존의 클러스터 기반의 클러스터링 방법은 새로운 데이터가 입력되면, 모든 클러스터와 각각 거리 연산 수행하여 입력 데이터와 거리가 가장 가까운 클러스터를 찾아내어 해당 클러스터에 클러스터링한다.
그러나, 이러한 클러스터링 방법은 데이터의 크기가 커질수록 클러스터의 수가 많아져서 연산량이 크게 늘어나는 문제점이 존재한다. 이러한 문제점을 극복하기 위하여 클러스터의 수를 줄이면, 원래의 데이터가 가지는 특성 정보를 잃게 되어 정확한 데이터 진단이 어려워지는 한계가 존재한다.
기존 클러스터링 방법 중 K-D Tree와 같은 계층적 알고리즘을 이용한 클러스터링 방법은 모든 클러스터에 대하여 거리 연산을 수행할 필요는 없으나, 차원의 수 N이 10보다 커지게 되면 공간에 대해 탐색할 노드의 숫자가 기하급수적으로 증가하여 연산이 느리다. 또한, K-D Tree와 같은 계층적 알고리즘은 밸런싱이 되지 않아 노드 간 밸런스를 맞추기 위하여 주기적으로 재정렬해야 하는 문제점도 존재한다.
또한, 기존 클러스터링 방법으로는 클러스터링이 효과적이지 않은 산재한 데이터가 존재하며, 이러한 데이터를 기존 클러스터링 방법으로 클러스터링할 경우, 매번 다른 클러스터링 결과를 보여주게 된다. 따라서, 기존 클러스터링 방법으로 산재한 데이터를 클러스터링하면, 클러스터링 수행 중 리클러스터링(Re-Clustering)을 하는 경우가 많아지게 되어 연산량이 증가하는 문제점이 있다.
또한, 연산량 감소를 위하여 데이터의 차원을 축소 기술을 이용하는 경우, 데이터의 정보 손실이 발생하며, 축소된 차원의 아웃라이어(Outlier) 데이터를 식별할 수 없어 정확한 클러스터링이 어려운 문제점이 있다.
게다가, 건물 에너지 관리 시스템(BEMS, Building Energy Management System)과 같이 서로 다른 수많은 종류의 센서를 통하여 다양한 데이터를 측정하는 경우가 증가하고 있으나, 서로 다른 수많은 종류의 센서에서 측정된 다양한 데이터를 종합하여 클러스터를 생성하는 기술이 부재한 상황이다. 더욱이, 지속적으로 측정되는 서로 다른 수많은 종류의 센서에서 측정된 다양한 데이터를 빠르고 효과적으로 클러스터링할 수 있는 기술도 부재한 상황이다. 이러한 상황은 앞서 기재한 바와 같이, BEMS와 같은 곳에서 서로 다른 수많은 종류의 센서를 통하여 측정된 데이터는 대용량이며, 산재된 데이터인바, 신속하고 정확한 클러스터링이 어렵기 때문이다. 따라서, 다양한 이종의 데이터를 종합하여 클러스터를 생성하는 기술과 새롭게 입력되는 다양한 데이터를 효과적으로 클러스터링할 수 있는 기술이 필요하다.
본 발명이 해결하고자 하는 기술적 과제는, 서로 다른 종류의 센서에 의하여 측정된 측정값인 이종 데이터를 종합하여 클러스터를 생성하는 장치 및 방법에 관한 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는 다차원의 데이터, 대용량의 데이터 또는 산재한 데이터를 효과적으로 클러스터링 할 수 있도록 인덱스를 설정하여 클러스터를 생성하는 장치 및 방법에 관한 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 인덱스를 이용하여 새롭게 입력된 데이터의 위치를 인지함으로써, 기존 클러스터링 방법에 비하여 연산량을 감소시켜 빠르고 효율적으로 클러스터링 하는 장치 및 방법에 관한 것이다. 더욱이, 본 발명이 해결하고자 하는 기술적 과제는, 대용량 데이터의 클러스터링 시 보다 효율적으로 적용되는 장치 및 방법에 관한 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 인덱스를 이용하여 새롭게 입력된 데이터의 위치를 인지함으로써, 기존 클러스터링 방법으로는 클러스터링이 효과적이지 않은 산재한 데이터를 효과적으로 클러스터링하는 장치 및 방법에 관한 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해 될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 제1 태양에 따른 이종 데이터 클러스터 생성 장치는, 제1 센서에 의하여 측정된 제1 시계열 데이터 및, 상기 제1 센서와 서로 다른 종류의 센서인 제2 센서에 의하여 측정된 제2 시계열 데이터를 수신하는 수신부; 상기 제1 시계열 데이터와 상기 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함하여 생성하는 데이터 병합부; 및 상기 제1 시계열 데이터의 측정값를 가리키는 제1 축 및 상기 제2 시계열 데이터의 측정값를 가리키는 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 순서쌍 세트를 이용하여 클러스터를 생성하는 클러스터 생성부를 포함할 수 있다.
상기 클러스터 생성부는, 상기 제1 시계열 데이터 중 최소값과 최대값을 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 제2 시계열 데이터 중 최소값과 최대값을 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 상기 격자형 분할 좌표계를 생성하고, 상기 각 격자형 분할 좌표계마다 서로 다른 인텍스(Index)를 설정하는 인덱스 설정부를 더 포함할 수 있다.
상기 이종 데이터 클러스터 생성 장치는, 상기 제1 시계열 데이터의 평균과 분산, 상기 제2 시계열 데이터의 평균과 분산을 산출하고, 상기 산출된 제1 시계열 데이터의 평균과 분산을 이용하여 상기 제1 시계열 데이터를 표준화(Normalization)하고, 상기 산출된 제2 시계열 데이터의 평균과 분산을 이용하여 상기 제2 시계열 데이터를 표준화하는 표준화부; 및 상기 표준화된 제1 시계열 데이터 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 시계열 데이터 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 상기 격자형 분할 좌표계를 생성하고, 상기 각 격자형 분할 좌표계마다 서로 다른 인텍스(Index)를 설정하는 인덱스 설정부를 더 포함할 수 있다.
일 실시예에 따르면, 상기 데이터 병합부는 상기 표준화된 제1 시계열 데이터와 상기 표준화된 제2 시계열 데이터를 이용하여 표준화된 순서쌍 세트를 생성하되, 상기 표준화된 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값을 표준화한 값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 표준화한 값으로 구성된 표준화된 순서쌍을 하나 이상 포함하여 생성하며, 상기 클러스터 생성부는 상기 표준화된 제1 시계열 데이터의 측정값을 가리키는 상기 제1 축 및 상기 표준화된 제2 시계열 데이터의 측정값을 가리키는 상기 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 표준화된 순서쌍 세트를 이용하여 클러스터를 생성할 수 있다.
상기 클러스터 생성부는, 상기 격자형 분할 좌표계 중 상기 위치를 기준으로 대응되는 표준화된 순서쌍이 존재하는 영역을 클러스터로 생성하고, 상기 생성된 클러스터에 존재하는 상기 표준화된 순서쌍을 이용하여 상기 생성된 클러스터의 대표값을 설정하는 대표값 설정부를 포함할 수 있다.
상기 대표값 설정부는, 상기 클러스터에 존재하는 표준화된 순서쌍이 하나인 경우, 상기 하나의 표준화된 순서쌍을 상기 대표값으로 설정하고, 상기 클러스터에 존재하는 표준화된 순서쌍이 둘 이상인 경우, 상기 둘 이상의 표준화된 순서쌍의 평균값을 상기 대표값으로 설정할 수 있다.
일 실시예에 따르면, 상기 특정 시각에 대응되는 측정값은, 상기 수신부에서 수신한 상기 시계열 데이터 중 상기 특정 시각에 측정된 데이터이며, 상기 특정 시각에 측정된 데이터가 존재하지 않는 경우, 상기 특정 시각에 대응되는 측정값은, 상기 특정 시각 이전에 측정된 상기 시계열 데이터에서 상기 특정 시각과의 시간 차이가 최소인 시각에 측정된 측정값인 것을 특징으로 할 수 있다.
상기 특정 시각에 대응되는 측정값은, 상기 수신부에서 수신한 상기 시계열 데이터 중 상기 특정 시각에 측정된 데이터이며, 상기 특정 시각에 측정된 데이터가 존재하지 않는 경우, 상기 특정 시각에 대응되는 측정값은, 상기 특정 시각 이전 및 이후에 측정된 상기 시계열 데이터에서 상기 특정 시각과의 시간 차이가 최소인 시각에 측정된 측정값인 것을 특징으로 할 수 있다.
상기 특정 시각은 상기 제1 센서 또는 상기 제2 센서의 측정 시각과 동일한 시간이거나, 특정 주기(T0)를 가진 시각인 것을 특징으로 할 수 있다.
상기 수신부는 제3 센서에 의하여 측정된 제3 시계열 데이터를 더 수신하고, 상기 데이터 병합부는 상기 제3 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 포함하여 상기 순서쌍이 하나 이상 포함된 상기 순서쌍 세트를 생성할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 제2 태양에 따른 데이터 클러스터링 장치는, 격자 형태로 분할된 좌표계마다 서로 다른 인덱스를 설정하는 인덱스 설정부; 상기 격자 형태로 분할된 좌표계 내에 데이터 값이 존재하는 영역을 클러스터로 생성하고, 상기 생성된 클러스터 내에 존재하는 상기 데이터 값을 이용하여 대표값을 설정하는 클러스터 생성부; 상기 격자 형태로 분할된 영역 중 어느 한 구간에 새로운 데이터가 입력된 경우, 상기 새로운 데이터가 입력된 영역의 인덱스를 판정하는 인덱스 판정부; 및 상기 판정된 인덱스 정보를 이용하여 상기 새로운 데이터를 클러스터링하는 클러스터링부를 포함할 수 있다.
상기 판정된 인덱스 정보가 상기 판정된 인덱스에 해당하는 구간에 생성된 클러스터가 존재한다는 정보인 경우, 상기 클러스터링부는 상기 생성된 클러스터에 상기 새로운 데이터를 포함시킬 수 있다.
상기 판정된 인덱스 정보가 상기 판정된 인덱스에 해당하는 구간에 생성된 클러스터가 존재하지 않는다는 정보인 경우, 상기 클러스터링부는 상기 판정된 인덱스에 해당하는 구간에 새로운 데이터를 위한 클러스터를 생성할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 제3 태양에 따른 이종 데이터 클러스터 생성 방법은, 제1 센서에 의하여 측정된 제1 시계열 데이터 및, 상기 제1 센서와 서로 다른 종류의 센서인 제2 센서에 의하여 측정된 제2 시계열 데이터를 수신하는 수신단계; 상기 제1 시계열 데이터와 상기 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함하여 생성하는 데이터 병합단계; 및 상기 제1 시계열 데이터의 측정값를 가리키는 제1 축 및 상기 제2 시계열 데이터의 측정값를 가리키는 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 순서쌍 세트를 이용하여 클러스터를 생성하는 클러스터 생성단계를 포함할 수 있다.
상기 이종 데이터 클러스터 생성 방법은, 상기 제1 시계열 데이터의 평균과 분산, 상기 제2 시계열 데이터의 평균과 분산을 산출하고, 상기 산출된 제1 시계열 데이터의 평균과 분산을 이용하여 상기 제1 시계열 데이터를 표준화(Normalization)하고, 상기 산출된 제2 시계열 데이터의 평균과 분산을 이용하여 상기 제2 시계열 데이터를 표준화하는 표준화단계; 및 상기 표준화된 제1 시계열 데이터 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 시계열 데이터 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 상기 격자형 분할 좌표계를 생성하고, 상기 각 격자형 분할 좌표계마다 서로 다른 인텍스(Index)를 설정하는 인덱스 설정단계를 더 포함할 수 있다.
상기 데이터 병합단계는 상기 표준화된 제1 시계열 데이터와 상기 표준화된 제2 시계열 데이터를 이용하여 표준화된 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값을 표준화한 값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 표준화한 값으로 구성된 표준화된 순서쌍을 하나 이상 포함하여 생성하며, 상기 클러스터 생성단계는 상기 표준화된 제1 시계열 데이터의 측정값을 가리키는 상기 제1 축 및 상기 표준화된 제2 시계열 데이터의 측정값을 가리키는 상기 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 표준화된 순서쌍 세트를 이용하여 클러스터를 생성할 수 있다.
상기 클러스터 생성단계는, 상기 격자형 분할 좌표계 중 상기 위치를 기준으로 대응되는 상기 표준화된 순서쌍이 존재하는 영역을 클러스터로 생성하고, 상기 생성된 클러스터에 존재하는 상기 표준화된 순서쌍을 이용하여 상기 생성된 클러스터의 대표값을 설정하는 대표값 설정단계를 포함할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 제4 태양에 따른 데이터 클러스터링 방법은, 격자 형태로 분할된 좌표계마다 서로 다른 인덱스를 설정하는 인덱스 설정단계; 상기 격자 형태로 분할된 좌표계 내에 데이터 값이 존재하는 영역을 클러스터로 생성하고, 상기 생성된 클러스터 내에 존재하는 상기 데이터 값을 이용하여 대표값을 설정하는 클러스터 생성단계; 상기 격자 형태로 분할된 영역 중 어느 한 구간에 새로운 데이터가 입력된 경우, 상기 새로운 데이터가 입력된 영역의 인덱스를 판정하는 인덱스 판정단계; 및 상기 판정된 인덱스 정보를 이용하여 상기 새로운 데이터의 클러스터를 결정하는 클러스터링단계를 포함할 수 있다.
상기 판정된 인덱스 정보가 상기 판정된 인덱스에 해당하는 구간에 생성된 클러스터가 존재한다는 정보인 경우, 상기 클러스터링단계는 상기 생성된 클러스터에 상기 새로운 데이터를 포함시킬 수 있다.
일 실시예에 따르면, 상기 판정된 인덱스 정보가 상기 판정된 인덱스에 해당하는 구간에 생성된 클러스터가 존재하지 않는다는 정보인 경우, 상기 클러스터링단계는 상기 판정된 인덱스에 해당하는 구간에 새로운 데이터를 위한 클러스터를 생성할 수 있다.
본 발명에 따른 이종 데이터 클러스터 생성 장치 및 방법은 서로 다른 센서에서 측정되는 이종 데이터를 종합하여 클러스터를 생성할 수 있다.
또한, 본 발명에 따른 이종 데이터 클러스터 생성 장치 및 방법은 다차원의 데이터, 대용량의 데이터 또는 산재한 데이터를 효과적으로 클러스터링 할 수 있는 클러스터를 생성할 수 있다.
본 발명에 따른 데이터 클러스터링 방법 및 장치는 기존 클러스터링 방법에 비하여 클러스터링에 필요한 연산량을 감소시킬 수 있다.
또한, 본 발명에 따른 데이터 클러스터링 방법 및 장치는 대용량 데이터의 클러스터링을 기존 클러스터링 방법에 비하여 신속하고 정확하게 수행할 수 있다.
또한, 본 발명에 따른 데이터 클러스터링 방법 및 장치는 기존 클러스터링 방법을 이용하여 클러스터링이 어려운 산재된 데이터를 신속하고 정확하게 클러스터링 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치에 관한 블록도이다.
도 2 내지 도 5는 데이터 병합부가 순서쌍을 생성하는 예를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치의 클러스터 생성부에 관한 블록도이다.
도 7은 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치의 클러스터 생성부가 생성한 클러스터의 일 예를 설명한다.
도 8은 본 발명의 일 실시예에 따른 데이터 클러스터링 장치에 관한 블록도이다.
도 9는 본 발명의 일 실시예에 따른 데이터 클러스터링 장치가 새로운 데이터를 클러스터링 하는 일 예를 설명하는 도면이다.
도 10은 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 방법에 관한 흐름도이다.
도 11은 본 발명의 일 실시예에 따른 데이터 클러스터링 방법에 관한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
어떤 구성요소가 다른 구성요소에 “연결되어”있다거나 “접속되어”있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어”있다거나 “직접 접속되어”있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함될 수 있다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
건물 에너지 관리 시스템(BEMS, Building Energy Management System)은 빌딩의 에너지를 관리하기 위한 시스템으로, 빌딩의 에너지를 관리하기 위하여, 온도 측정 센서, 습도 측정 센서, CO2 농도 측정 센서, 가스 소비량 측정 센서, 전력 사용량 측정 센서 등 서로 다른 수많은 센서로부터 다양한 정보를 수집한다.
따라서, 건물 에너지 관리 시스템이 수신한 센서에서 측정된 값들은 수 많은 이종의 측정값들이 존재한다. 또한, 동종의 센서로부터 측정된 값들도 센서가 건물 외부에 설치되었는지 건물 내부에 설치되었는지, 센서가 작동하는 시간이 밤인지 낮인지, 센서가 1층에 설치되었는지 20층에 설치되었는지 등 다양한 환경에 따라서 폭 넓은 스펙트럼에서 측정 값이 존재할 수 있다.
최근에는 건물 에너지 관리 시스템뿐만 아니라, 시설물 관리 시스템(FMS, Facility Management System), 건물 자동 제어 시스템(BAS, Building Automation System) 등의 스마트 그리드(Smart Grid) 관련 시스템과 같이 이종의 수많은 센서를 이용하여 대량이면서 다양한 데이터를 수집하는 시스템이 증가하고 있다.
본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치는 이러한, 이종의 수많은 센서에서 측정된 대량이면서 다양한 데이터를 종합하여 클러스터(Cluster)를 생성할 수 있다. 또한, 동시에, 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치가 생성한 클러스터는 다차원 데이터, 대용량 데이터 및 산재한 데이터를 효과적으로 클러스터링(Clustering)하는데 이용될 수 있다.
구체적으로 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치를 도 1 내지 7를 참조하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치에 관한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치(100)는 수신부(110), 데이터 병합부(120), 표준화부(130) 및 클러스터 생성부(140)를 포함할 수 있다.
수신부(110)는 이종의 센서인 제1 센서(10)와 제2 센서(20)에서 각각 측정된 시계열 데이터를 수신한다. 구체적으로 수신부(110)는 이종의 정보를 측정하는 제1 센서(10)와 제2 센서(20)에서 각각 시계열적으로 측정된 측정값 데이터를 측정된 시각(Time) 정보와 함께 수신한다.
즉, 수신부(110)는 제1 센서에 의하여 측정된 제1 시계열 데이터와 제2 센서에 의하여 측정된 제 시계열 데이터를 수신할 수 있다.
본 발명에서 “시계열 데이터”는, 시간의 흐름에 따라, 주기적 또는 비주기적으로 측정된 데이터를 의미한다.
또한, 본 발명은 발명의 이해를 돕기 위하여 서로 다른 두 개의 센서를 예로 들어 설명하고 있으나, 제3 센서, 제4 센서 등 수천 개 이상의 센서를 포함할 수 있다.
제1 센서(10)와 제2 센서(20)는 각각 온도 측정 센서와 전력 소비량 측정 센서와 같이 서로 다른 종류의 정보를 측정하는 센서이다.
센서의 수가 3개 이상인 경우에는, 적어도 하나의 센서가 다른 센서와 서로 다른 종류의 정보를 측정하는 센서이면 된다. 나머지 두 개의 센서는 서로 동일한 종류의 정보를 측정하는 센서여도 된다. 예를 들어, 제2 센서(20) 및 제3 센서는 모두 1층 내부에 위치한 센서일 수도 있고, 제2 센서(20)는 1층 내부에 위치하고, 제3 센서는 옥상 외부에 위치한 센서와 같이 측정 환경이 상이하여 측정되는 측정값의 차이가 큰 경우일 수도 있다.
즉, 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치(100)의 수신부(110)에서 수신하는 측정값 데이터는 모두 동일한 종류의 정보가 아니라, 서로 이종의 센서에서 측정된 이종의 정보가 포함된 경우이다. 이종의 정보라는 것은 측정값이 나타내는 의미나 단위가 다른 경우를 의미한다.
수신부(110)는 각 센서들과 유선 또는 무선으로 연결되어 각 센서에서 측정되는 측정값을 실시간으로, 주기적으로, 또는 비주기적으로 수신할 수 있다.
데이터 병합부(120)는 수신부(110)에서 수신한 제1 시계열 데이터와 제2 시계열 데이터를 이용하여 순서쌍 세트(Set)를 생성한다. 데이터 병합부(120)가 생성하는 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함한 것을 의미한다.
클러스터 생성부(140)는 상기 제1 축 및 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는 상기 순서쌍 세트를 이용하여 클러스터를 생성할 수 있다.
데이터 병합부(120)가 생성한 순서쌍은 특정 시각에 대응되는 (제1 축의 값, 제2축의 값)이 될 수 있다.
제1 축은 제1 시계열 데이터의 측정치를 가리키며, 제2 축은 제2 시계열 데이터의 측정치를 가리킨다. 따라서, 센서의 개수, 센서의 종류의 개수, 센서에서 측정하는 데이터의 종류에 따라서 축의 개수를 달리 설정할 수 있다. 예를 들어, 수신부(110)가 건물 2층 온도 측정 센서인 제1 센서(10), 건물 2층 습도 측정 센서인 제2 센서(20), 건물 2층 물 소비량 측정 센서인 제3 센서로부터 측정값 데이터를 수신하는 경우, 서로 상이한 정보를 측정하는 3가지 종류의 센서에 기반하여 축의 개수는 3개가 될 수 있다.
좌표계는 평면 및 공간을 포함하는 의미이다. 즉, 축이 두 개인 경우, 두 개의 축으로 구성된 좌표계는 평면이 될 것이다. 축이 세 개 이상인 경우, 세 개 이상의 축으로 구성된 좌표계는 공간이 될 것이다.
클러스터 생성부(140)에 관하여는 데이터 병합부(120)를 설명한 후 보다 자세히 설명하도록 한다.
데이터 병합부(120)가 순서쌍 세트를 생성하는 과정에서 각 센서에서 측정된 시간의 상이함이 문제가 될 수 있다.
데이터 병합부(120)가 순서쌍 세트를 생성하는데 이용하는 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값에서 상기 특정 시각과 대응되는 시각은 상기 특정 시각과 동일한 시각일 수 있다.
또는, 상기 특정 시각과 대응되는 시각은 상기 특정 시각에서 기 설정된 시간 범위(ThTime) 내에 존재하는 시각일 수 있다. 예를 들면, 특정 시각이 3.5초이고 기 설정된 시간 범위(ThTime)이 0.5초인 경우, 상기 특정 시각과 대응되는 시각은 3초에서 4초일 수 있다. 즉, 데이터 병합부(120)가 설정하는 제2 축의 값은 3초에서 4초 사이에 제2 센서(20)에서 측정한 값이 될 수 있다.
또는. 상기 수신부(110)에서 수신한 측정값 데이터에서 상기 특정 시각과 동일 시각에 측정된 제2 센서(20)의 측정값이 존재하지 않는 경우, 상기 특정 시각 이전에 제2 센서(20)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각을 상기 특정 시각과 대응되는 시각으로 설정할 수 있다.
또는, 상기 수신부(110)에서 수신한 측정값 데이터에서 상기 특정 시각과 동일 시각에 측정된 제2 센서(20)의 측정값이 존재하지 않는 경우, 상기 특정 시각 이전 및 이후에 제2 센서(20)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각을 상기 특정 시각과 대응되는 시각으로 설정할 수 있다.
또한, 특정 시각은 제1 센서의 측정 시각과 동일할 수도 있으며, 제2 센서의 측정 시각과 동일할 수도 있다. 또는, 특정 시각은 제1 센서 및 제2 센서의 측정 주기와는 상이한 측정 주기를 가진 시각일 수도 있다.
상기 특정 시각과 대응되는 시각의 설정은 사용자의 의도, 센서의 정보 수집 정도에 따라서 상기 설명한 바와 다르게 설정할 수 있으나, 데이터 병합부(120)는 서로 유사한 시각에 측정된 제1 센서(10)의 시계열 데이터와 제2 센서(20)의 시계열 데이터를 이용하여 순서쌍 세트 구성하는 것이 바람직하다.
구체적으로 도 2 내지 도 5를 참조하여, 데이터 병합부(120)가 순서쌍을 생성하는 일 예를 설명한다.
도 2 내지 도 5는 데이터 병합부(120)가 순서쌍을 생성하는 예를 설명하기 위한 도면이다.
도 2를 참조하면, 제1 센서(10)는 T1주기 마다 정보를 측정하고, 제2 센서(20)도 T1주기 마다 정보를 측정하는 경우이다. 제1 센서(10)와 제2 센서(20)의 측정 시작을 0초 T1을 2초로 가정하면, 수신부(110)에서 수신한 제1 센서(10) 시계열 데이터를 (측정값, 측정 시각)으로 나타내면, (a,0), (b,2), (c,4), (d,6), (e,8), (f,10), (g,12)와 같이 나타낼 수 있다. 마찬가지로, 수신부(110)에서 수신한 제2 센서(20)의 시계열 데이터를 (측정값, 측정 시각)으로 나타내면, (ㄱ,0), (ㄴ,2), (ㄷ,4), (ㄹ,6), (ㅁ,8), (ㅂ,10), (ㅅ,12)와 같이 나타낼 수 있다.
데이터 병합부(120)는 특정 시각 0초에 측정된 제1 센서(10)의 측정값인 a를 제1 축의 값으로 설정하고, 상기 0초와 동일 시각인 0초에 측정된 제2 센서(20)의 측정값 ㄱ을 제2 축의 값으로 설정할 수 있다. 또한, 데이터 병합부(120)는 다른 특정 시각 2초에 측정된 제1 센서(10)의 측정값인 b를 제1 축의 값으로 설정하고, 다른 특정 시각과 동일 시각 2초에 측정된 제2 센서(20)의 측정값인 ㄴ을 제2 축의 값으로 설정할 수 있다. 이와 같은 설정을 수신부(110)가 수신한 12초까지의 데이터에 적용하면, 데이터 병합부(120)가 생성한 순서쌍 세트는 (a,ㄱ), (b,ㄴ), (c,ㄷ), (d,ㄹ), (e,ㅁ), (f,ㅂ) 및 (g,ㅅ)이 될 수 있다. 즉, 구체적으로, (a,ㄱ)은 데이터 병합부(120)에서 특정 시각 0초에서 제1 축의 값 a와 제2 축의 값을 ㄱ으로 생성한 순서쌍이다. (b,ㄴ)은 데이터 병합부(120)에서 다른 특정 시각 2초에서 제1 축의 값을 b와 제2 축의 값을 ㄴ으로 생성한 순서쌍이다. 또한, (c,ㄷ)은 데이터 병합부(120)가 또 다른 특정 시각 4초에서 제1 축의 값을 c와 제2 축의 값을 ㄷ으로 생성한 순서쌍이다. 제1 센서(10)의 측정값이 존재하는 특정 시각 마다, 대응되는 시각의 제2 센서(20)의 측정값을 제2 축 값으로 생성할 수 있다. 다만, 반드시 특정시각이 제1 센서(10)의 측정값이 존재하는 시각인 것은 아니며, 특정 주기(T0)마다 시각을 특정 시각으로 설정할 수도 있다. 이에 관하여는 차후 도 4를 참조하여 일 예를 설명한다.
도 3을 참조하여 제1 센서(10)의 측정 주기와 제2 센서(20)의 측정 주기가 상이한 경우에 데이터 병합부(120)의 순서쌍 세트를 생성하는 일 예를 설명한다.
도 3은 제1 센서(10)의 측정 주기 T1이 제2 센서(20)의 측정 주기 T2보다 긴 경우이다. 즉, 도 3은 서로 동일한 시각에 측정된 값이 항상 존재하지 않는 경우 인바, 데이터 병합부(120)는 상기 특정 시각 이전에 상기 제2 센서(20)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각을 상기 특정 시각과 대응되는 시각으로 설정하여 순서쌍을 생성할 수 있다.
구체적으로 예를 들어, 도 3에서 주기 T1을 2초라고 가정하면, 제1 센서(10)의 시계열 데이터는 (a,0), (b,2), (c,4), (d,6), (e,8), (f,10)가 될 수 있다. 제2 센서(20)의 측정 주기 T2를 1.2초라고 가정하면, 제2 센서(20)의 시계열 데이터는 (ㄱ,0), (ㄴ,1.2), (ㄷ,2.4), (ㄹ,3.6), (ㅁ,4.8), (ㅂ,6), (ㅅ,7.2), (ㅇ,8.4), (ㅈ,9.6), (ㅊ,10.8)이 될 수 있다.
도 3과 같은 경우, 데이터 병합부(120)는 (a,ㄱ), (b,ㄴ), (c,ㄹ), (d,ㅂ), (e,ㅅ), (f,ㅈ)를 순서쌍 세트로 생성할 수 있다.
제1 센서(10)의 주기가 제2 센서(20)의 주기보다 짧은 경우에도, 도 3에서 설명한 바와 같이 데이터 병합부(120)가 순서쌍 세트를 생성할 수 있다.
구체적으로 도 3에서 데이터 병합부(120)가 제2 센서(20)에서 측정된 측정값을 제1축의 값으로 설정하고, 제1 센서(10)에서 측정된 측정값을 제2축의 값으로 설정한 경우 생성되는 순서쌍 세트를 설명한다. 이러한 경우, 데이터 병합부(120)가 생성한 순서쌍 세트는 (ㄱ,a), (ㄴ,a), (ㄷ,b), (ㄹ,b), (ㅁ,c), (ㅂ,d), (ㅅ,d), (ㅇ,e), (ㅈ,e), (ㅊ,f)가 될 수 있다.
데이터 병합부(120)는 제1 센서(10) 또는 제2 센서(20)에서 측정된 데이터가 존재하는 시각을 특정 시각으로 설정하여 순서쌍 세트를 생성하지 않을 수도 있다. 즉, 데이터 병합부(120)는 특정 주기(T0)마다 순서쌍 세트를 생성할 수도 있다. 데이터 병합부(120)가 특정 주기(T0)마다의 시각을 특정 시각으로 설정하여 순서쌍 세트를 생성하는 경우, 특정 주기(T0)의 특정 시각 이전에 존재하는 각 센서의 측정 값 중 해당 특정 시각에 가장 근접한 시각을 이용하여 순서쌍을 생성할 수 있다.
즉, 특정 시각을 특정 주기(T0)를 가진 시각으로 설정하면, 데이터 병합부(120)는 상기 특정 시각 이전에 상기 제1 센서(10)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각에 측정된 값을 특정 시각에 측정된 상기 제1 센서(10)의 측정값으로 보아 제1축의 값으로 설정할 수 있다. 또한, 데이터 병합부(120)는, 상기 특정 시각 이전에 상기 제2 센서(20)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각을 특정 시각과 대응되는 시각으로 보아 제2축의 값으로 설정할 수 있다.
도 4를 참조하여, 일 예를 설명한다. 도 4는 수신부(110)가 수신한 제1 센서(10)의 측정값과 제2 센서(20)의 측정값은 도 3과 같으며, 데이터 병합부(120)가 특정 주기(T0)를 0.8초로 설정한 경우이다.
도 4를 참조하면, 제1특정 시각 0초에서 제1 축의 값은 a, 제2 축의 값은 ㄱ이 된다. 특정 주기(T0)에 따른 제2특정 시각 0.5초에서 제1 축의 값은 a, 제2 축의 값은 ㄱ이 된다. 특정 주기(T0)에 따른 제3특정 시각 1초에서 제1 축의 값은 a, 제2 축의 값은 ㄱ이 된다. 특정 주기(T0)에 따른 제4특정 시각 1.5초에서 제1 축의 값은 a, 제2 축의 값은 1.2초에 측정된 값인 ㄴ이 된다. 앞서 설명한 바와 같은 방법으로 도 4에서 데이터 병합부(120)가 설정한 순서쌍 세트는 (a,ㄱ), (a,ㄱ), (a,ㄴ), (b,ㄷ), (b,ㄷ), (c,ㄹ), (c,ㅁ), (c,ㅁ), (d,ㅂ), (d,ㅅ), (e,ㅅ), (e,ㅇ), (e,ㅈ), (f,ㅈ), (f,ㅊ)가 될 수 있다.
도 3 내지 4를 참조하여, 수신부(110)에서 수신한 측정값 데이터에서 상기 특정 시각과 동일 시각에 측정된 상기 제2 센서(20)의 측정값이 존재하지 않는 경우, 데이터 병합부(120)가 상기 특정 시각 이전에 상기 제2 센서(20)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각을 상기 특정 시각과 대응되는 시각으로 설정하는 예들을 설명하였다.
앞서 설명한 바와 같이, 데이터 병합부(120)는 상기 수신부(110)에서 수신한 측정값 데이터에서 상기 특정 시각과 동일 시각에 측정된 상기 제2 센서(20)의 측정값이 존재하지 않는 경우, 상기 특정 시각 이전 및 이후에 상기 제2 센서(20)에서 측정된 시각 중 상기 특정 시각과의 시간 차이가 가장 작은 시각을 상기 특정 시각과 대응되는 시각으로 설정할 수도 있다. 데이터 병합부(120)가 특정 시각 이전뿐만 아니라, 이후의 값을 고려하여 순서쌍 세트를 생성하는 예를 도 5를 참조하여 설명한다.
도 5를 참조하면, 도 5는 수신부(110)에서 수신한 제1 센서(10)의 측정값, 제2 센서(20)의 측정값, T1, T2가 도 3과 동일한 경우이다.
계속하여 도 5를 참조하면, T1은 2초, T2는 1.2초 인바, 특정 시각 2초에서는 제2 센서(20)의 측정값 중 1.2초 보다 2.4초에 측정된 값이 2초와 가장 가까운 값이다. 따라서, 데이터 병합부(120)는 특정시각 2초에서 제1 센서(10)의 측정값 b를 제1 축의 값으로, 특정시각 2초에 대응되는 시각 2.4초에서 제2 센서(20)의 측정값 ㄷ을 제2 축의 값으로 설정할 수 있다. 이와 같은 방식으로 데이터 병합부(120)가 도 5에서 생성한 순서쌍 세트는 (a,ㄱ), (b,ㄷ), (c,ㄹ), (d,ㅂ), (e,ㅇ), (f,ㅈ)이 될 수 있다.
데이터 병합부(120)가 도 5에서 이용한 방법으로 순서쌍 세트를 생성하기 위하여 수신부(110)가 각 센서의 측정값 데이터를 수신하고, 각 센서의 측정 주기를 고려하여 일정 시간을 경과한 후에 순서쌍 세트를 생성할 수도 있다.
또한, 데이터 병합부(120)가 특정 시각 이전뿐만 아니라, 이후의 값을 고려하여 순서쌍 세트를 생성하는 방법은, 도 4를 참조하여 설명한 특정 주기(T0)를 이용하여 순서쌍 세트를 설정하는 방법에도 적용될 수 있다.
또한, 데이터 병합부(120)는 각 센서의 측정 시작 시점이 다른 경우에도, 제1 센서(10)의 측정 주기와 제2 센서(20)의 측정 주기가 상이한 경우에 데이터 병합부(120)는 도 3 내지 도 5을 참조하여 설명한 방법을 이용하여 순서쌍 세트를 생성할 수 있다.
또한, 데이터 병합부(120)는 제3 센서의 시계열 데이터가 존재하는 경우, 제3 센서의 시계열 데이터를 이용하여 제3축의 값으로 설정하고, 제4 센서의 시계열 데이터가 존재하는 경우, 제4 센서의 시계열 데이터를 이용하여 제4축의 값으로 설정할 수 있다. 이러한 경우, 데이터 병합부(120)가 설정한 순서쌍은 (제1축의 값, 제2축의 값, 제3축의 값, 제4축의 값)의 형태가 될 수 있다.
도 6은 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치의 클러스터 생성부에 관한 블록도이다.
도 6을 참조하면, 클러스터 생성부(140)는 인덱스 설정부(142) 및 대표값 설정부(144)를 포함할 수 있다.
인덱스 설정부(142)는 제1 센서(10)의 시계열 데이터 중 최소값과 최대값을 제1 축의 최소값과 최대값으로 설정하고, 제2 센서(20)의 시계열 데이터 중 최소값과 최대값을 상기 제2 축의 최소값과 최대값으로 설정할 수 있다.
또한, 인덱스 설정부(142)는 기 설정된 민감도(Sensitivity)에 의하여 제1 축과 제2 축을 포함하여 형성된 좌표계(축이 두 개인 경우는 평면, 축이 3개인 경우는 공간) 분할하여 격자형 분할 좌표계를 생성하고, 상기 각 격자형 분할 구간마다 서로 다른 인덱스(Index)를 설정할 수 있다. 격자형 분할 구간은 기 설정된 민감도에 따라서 균일한 크기의 격자로 분할될 수 있다. 또한, 축이 3개 이상이 되는 경우, 인덱스 설정부(142)는 3개 이상의 축으로 형성된 공간을 균일하게 분할하여 격자형 분할 공간을 생성하고, 각 격자형 분할 공간마다 서로 다른 인덱스를 설정할 수 있다. 이하 본 발명의 설명에서는 제1 축 및 제2 축으로 구성된 좌표계를 예로 들어 설명하는바 격자형 분할 구간이라는 용어를 사용한다. 다만, 이에 한정되는 것은 아니며, 축이 3개 이상인 경우, 격자형 분할 공간이 형태도 본 발명이 적용되는 범위가 된다.
상기 기 설정된 민감도는, 사용자의 설정, 시스템 환경, 센서의 종류, 데이터의 양 등에 따라서 변경가능하며, 클러스터의 크기를 조절할 수 있는 파라미터(Parameter)이다.
데이터 병합부(120)는 설정한 순서쌍 세트를 인덱스 설정부(142)에서 생성한 격자형 분할 구간 중 대응되는 위치에 입력할 수 있다. 대표값 설정부(144)는, 격자형 분할 구간 중 입력된 데이터(순서쌍)가 존재하는 구간은 클러스터(Cluster)를 생성하고, 각 클러스터마다 대표값을 설정할 수 있다.
대표값 설정부(144)는, 하나의 클러스터에 복수 개의 데이터가 존재하는 경우, 상기 복수 개의 데이터의 평균값을 해당 클러스터의 대표값으로 설정할 수 있으며, 평균값이 아닌 기 설정된 다른 방법을 이용하여 대표값을 설정할 수도 있다.
다시 도 1을 참조하면, 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치(100)는 표준화부(130)를 포함할 수 있다.
표준화부(130)는 각 축의 합리적인 교차를 통한 클러스터 생성을 위하여 각 축별로 표준화를 수행할 수 있다.
표준화부(130)가 각 축별로 표준화를 수행하지 않는 경우, 각 센서별 측정값의 상이함으로 인하여, 클러스터 생성부(140)가 생성한 클러스터의 각 축의 비율 차이가 크게 발생하여 각 센서별 측정값으로 이루어진 순서쌍 세트의 분포가 효율적이지 않을 수 있다. 또한, 표준화부(130)는 평균과 단위가 다른 측정값들의 비교의 용이성을 높일 수 있다.
표준화부(130)는 제1 시계열 데이터의 평균과 분산, 상기 제2 시계열 데이터의 평균과 분산을 산출하고, 상기 산출된 제1 시계열 데이터의 평균과 분산을 이용하여 상기 제1 시계열 데이터를 표준화(Normalization)하고, 상기 산출된 제2 시계열 데이터의 평균과 분산을 이용하여 상기 제2 시계열 데이터를 표준화한다.
표준화부(130)에서 표준화가 이루어지면, 데이터 병합부(120)는 상기 표준화된 제1 시계열 데이터와 상기 표준화된 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값을 표준화한 값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 표준화한 값으로 구성된 표준화된 순서쌍을 하나 이상 포함할 수 있다. 또는, 표준화부(130)가 데이터 병합부(120)에서 생성된 순서쌍 세트를 표준화하여, 표준화된 순서쌍 세트를 생성할 수도 있다.
표준화부(130)에서 표준화가 이루어지면, 인덱스 설정부(142)는 상기 표준화된 제1 시계열 데이터 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 시계열 데이터 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축으로 구성되는 구간을 분할하여 상기 격자형 분할 구간을 생성하고, 상기 각 격자형 분할 구간마다 서로 다른 인텍스(Index)를 설정할 수 있다.
표준화부(130)에서 표준화가 이루어지면, 클러스터 생성부(140)는 상기 표준화된 제1 시계열 데이터의 측정값을 가리키는 상기 제1 축 및 상기 표준화된 제2 시계열 데이터의 측정값을 가리키는 상기 제2 축으로 구성되는 구간 상 위치를 기준으로 대응되는, 상기 순서쌍 세트를 이용하여 클러스터를 생성할 수 있다.
구체적으로 표준화부(130)는 시계열 데이터들의 측정값을 이용하여 평균과 분산을 산출하고, 산출된 평균과 분산 값을 이용하여 표준화(Normalization)를 수행할 수 있다. 보다 구체적으로 표준화부(130)는 각 축별로 산출된 평균, 분산 값 및 분산에서 도출되는 표준편차를 이용하여 지-스코어(Z-Score)와 같은 표준화를 수행할 수 있다. 지-스코어는 표준점수의 하나로서 평균으로부터의 편차점수를 그 분포의 표준편차로 나누어 얻어진 전환점수의 하나이다. 구체적으로 지-스코어는 하기 수학식 1을 이용하여 산출될 수 있다.
[수학식 1]
Z = (X-X')/S
상기 수학식 1에서 Z는 Z-score로 얻어진 전환점수이고, X는 각 축의 값, X'는 각 축의 값들의 평균, S는 각 축의 값들의 표준편차이다.
다시 도 6을 참조하면, 표준화부(130)에서 각 축별로 표준화를 수행한 경우, 앞서 언급한 바와 같이 인덱스 설정부(142)는, 상기 표준화부(130)에서 표준화된 제1 축의 값(표준화된 제1 시계열 데이터가 가리키는 값) 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 축의 값(표준화된 제2 시계열 데이터가 가리키는 값) 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정할 수 있다.
또한, 인덱스 설정부(142)는 기 설정된 민감도에 의하여 상기 제1 축과 상기 제2 축을 분할하여 상기 격자형 분할 구간을 생성하고, 각 격자형 분할 구간마다 서로 다른 인텍스(Index)를 설정할 수 있다. 클러스터 크기를 변경하고자 할 경우, 기 설정된 민감도를 변경할 수 있다.
대표값 설정부(144)는 순서쌍이 존재하는 격자형 분할 구간은 클러스터를 생성할 수 있다. 또한, 대표값 설정부(144)는 상기 생성된 클러스터에 존재하는 표준화된 순서쌍을 이용하여 각 클러스터의 대표값을 설정할 수 있다. 대표값 설정부(144)가 설정한 각 클러스터의 대표값을 예로 들면, 해당 클러스터에 존재하는 순서쌍들의 평균값이 될 수 있다.
도 7을 참조하여, 클러스터 생성부(140)가 생성한 클러스터의 일 예를 설명한다.
도 7에서, 인덱스 설정부(142)에서 생성한 격자형 분할 공간은 100X100의 격자형 분할 공간이며, 따라서, 각 격자형 분할 공간마다 설정된 인덱스도 (1,1) 부터 (100,100)까지 1만개가 존재한다. 인덱스가 (2,2)인 클러스터를 보면, 순서쌍으로 Data1, Data2가 입력되어 있고, 대표값 설정부(144)는 Data1과 Data2의 평균값을 대표값 RV2로 설정할 수 있다. 인덱스가 (4,3)인 클러스터를 보면, 순서쌍으로 Data3이 입력되어 있고, 따라서 대표값 설정부(144)는 Data3의 값을 대표값으로 설정할 수 있다. 도 7에서는 점으로 표시된 것은 데이터 병합부(120)에서 생성된 순서쌍 세트를 대응되는 격자형 분할 구간에 입력한 데이터를 의미한다. RV1부터 RV7은 각 클러스터의 대표값을 의미한다. 각 축의 1부터 100까지의 숫자는 인덱스 정보를 의미한다.
본 발명에 따른 이종 데이터 클러스터 생성 장치(100)는 서로 다른 센서에서 측정되는 이종 데이터를 종합하여 클러스터를 생성할 수 있다.
K-means, K-medoids, Canopy, 계층적 알고리즘 등의 기존의 클러스터링 방법은, 새로운 데이터가 입력되면, 모든 클러스터와 각각 거리 연산 수행하여 입력 데이터와 거리가 가장 가까운 클러스터를 찾아내어 해당 클러스터에 클러스터링하는 방법이다. 따라서, 기존의 클러스터링 방법은 클러스터에 대용량의 데이터가 존재하는 경우, 연산량이 크게 증가하는 문제와, 산재한 데이터의 경우 클러스터링이 효율적으로 이루어 지지 않는 문제점이 존재한다. 그러나, 본 발명의 일 실시예에 따른 데이터 클러스터링 장치는 인덱스를 설정한 격자형 분할 구조의 클러스터를 이용하여 클러스터링에 필요한 연산량을 감소시키고 산재한 데이터도 효율적으로 클러스터링 할 수 있다.
도 8은 본 발명의 일 실시예에 따른 데이터 클러스터링 장치에 관한 블록도이다.
도 8을 참조하여 본 발명의 일 실시예에 따른 데이터 클러스터링 장치(800)에 관하여 설명한다. 도 8를 참조하면, 본 발명의 일 실시예에 따른 데이터 클러스터링 장치(800)는 수신부(110), 데이터 병합부(120), 표준화부(130), 클러스터 생성부(140), 인덱스 판정부(810) 및 클러스터링부(820)를 포함한다.
즉, 본 발명의 일 실시예에 따른 데이터 클러스터링 장치(800)는, 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 장치(100)를 이용하여 생성된 클러스터에 새로운 데이터가 입력된 경우, 상기 새로운 데이터를 클러스터링(Clustering)하는 장치에 관한 것이다. 따라서, 도 1 내지 도 7을 참조하여 설명한 수신부(110), 데이터 병합부(120), 표준화부(130) 및 클러스터 생성부(140)에 관한 자세한 설명은 생략하고, 인덱스 판정부(810) 및 클러스터링부(820)에 관하여 구체적으로 설명한다.
인덱스 판정부(810)는 생성된 클러스터에 새로운 데이터(새로운 순서쌍)이 입력되면, 상기 새로운 데이터가 입력된 구간의 인덱스를 판정한다. 상기 새로운 데이터는 데이터 병합부(120)에 의하여 생성된 순서쌍을 표준화부(130)가 정규화한 데이터일 수 있다.
입력되는 새로운 데이터는 수신부(110)에서 각 센서의 새로운 측정값을 수신하면, 새로운 측정값을 이용하여 데이터 병합부(120)가 순서쌍을 생성하고, 표준화부(130)가 상기 생성된 순서쌍을 표준화한 것을 의미한다.
구체적으로 인덱스 판정부(810)는 수학식 2와 수학식 3를 이용하여 입력된 새로운 데이터가 존재하는 구간의 인덱스를 판정할 수 있다.
[수학식 2]
Figure 112013048597900-pat00001
수학식 2는 Z-Score방법을 이용하여 입력된 새로운 데이터를 표준화한다. 수학식 2에서, z'는 새로운 데이터가 표준화된 값이고, x'는 입력된 새로운 데이터이다. E[x]는 클러스터에 저장된 각 순서쌍들에 대한 평균값이고, σ[x]는 클러스터에 저장된 각 순서쌍들에 대한 표준편차이다. z가 제1 축의 값 및 제2 축의 값으로 구성된 순서쌍일 경우, 제1 축 및 제2 축 각각의 값을 수학식 2를 이용하여 표준화하여 표준화된 순서쌍 z'를 산출한다. 수학식 2를 이용하여 새롭게 입력된 데이터의 표준화된 순서쌍을 산출하는 것은 표준화부(130)에서 수행할 수도 있다.
수학식 3과 수학식 2에서 산출된 표준화된 순서쌍 z'를 이용하여 새로운 데이터가 입력된 구간의 인덱스를 판정할 수 있다.
[수학식 3]
Figure 112013048597900-pat00002
수학식 3을 참조하면, Index는 표준화된 새로운 데이터의 인덱스를 나타낸다. z'는 입력된 새로운 데이터의 표준화된 값이며, min[z]는 클러스터에 저장된 각 축의 값들에 대한 최소값, max[z]는 클러스터에 저장된 각 축의 값들에 대한 최대값을 의미한다. grpNum은 각 축의 인덱스 개수 이다. ceiling은 실링(Celing)함수를 의미한다.
인덱스 판정부(810)는 z'의 순서쌍을 구성하는 각 축의 표준화된 값들마다 수학식 3을 적용하여 순서쌍의 인덱스 정보를 판정할 수 있다.
인덱스 판정부(810)가 새롭게 입력된 순서쌍 데이터의 인덱스를 판정하면, 클러스터링부(820)가 판정된 인덱스 정보를 이용하여 상기 새롭게 입력된 데이터의 클러스터를 결정한다.
구체적으로, 인덱스 판정부(810)가 인덱스를 판정하면, 클러스터링부(820)는 판정된 인덱스가 가리키는 구간에 클러스터가 생성되어 있는지, 클러스터가 생성된 경우 생성된 클러스터의 대표값 정보를 획득할 수 있다.
클러스터링부(820)는 판정된 인덱스가 가리키는 구간에 클러스터가 생성되어 있지 않는 경우, 판정된 인덱스가 가리키는 구간에 새롭게 입력된 순서쌍 데이터를 대표값으로 하여 새로운 클러스터를 생성할 수 있다.
또한, 클러스터링부(820)는 판정된 인덱스가 가리키는 구간에 클러스터가 생성되어 있는 경우, 생성되어 있는 클러스터에 새롭게 입력된 순서쌍 데이터를 포함시키고, 생성되어 있는 클러스터에 대표값을 새롭게 입력된 순서쌍 데이터를 이용하여 변경할 수 있다.
또한, 클러스터링부(820)는 인덱스 정보를 이용하여 새롭게 입력된 순서쌍 데이터의 입력 위치 주변의 인덱스에 해당하는 구간에 존재하는 대표값과의 거리 연산만으로 가장 가까운 위치에 존재하는 대표값을 파악할 수도 있다.
도 9는 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 방법에 관한 흐름도이다.
도 9를 참조하여 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 방법을 설명하면, 수신부(110)가 제1 센서에 의하여 측정된 제1 시계열 데이터 및, 상기 제1 센서와 서로 다른 종류의 센서인 제2 센서에 의하여 측정된 제2 시계열 데이터를 수신할 수 있다(S910 단계).
데이터 병합부(120)가 상기 제1 시계열 데이터와 상기 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성할 수 있다(S920 단계). 데이터 병합부가 생성하는 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함할 수 있다.
표준화부(130)가 상기 제1 시계열 데이터의 평균과 분산, 상기 제2 시계열 데이터의 평균과 분산을 산출하고, 상기 산출된 제1 시계열 데이터의 평균과 분산을 이용하여 상기 제1 시계열 데이터를 표준화(Normalization)하고, 상기 산출된 제2 시계열 데이터의 평균과 분산을 이용하여 상기 제2 시계열 데이터를 표준화할 수 있다(S930 단계).
데이터 병합부(120)가 생성하는 순서쌍 세트는 상기 표준화된 제1 시계열 데이터와 상기 표준화된 제2 시계열 데이터를 이용할 수도 있으며, 데이터 병합부(120)에 의하여 생성된 순서쌍 세트를 표준화부(130)에서 표준화된 순서쌍 세트를 생성할 수도 있다.
인덱스 설정부(142)가 상기 표준화된 제1 시계열 데이터 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 시계열 데이터 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 상기 격자형 분할 좌표계를 생성하고, 상기 각 격자형 분할 좌표계마다 서로 다른 인텍스(Index)를 설정할 수 있다(S940 단계).
대표값 설정부가 상기 표준화된 제1 시계열 데이터의 측정값을 가리키는 상기 제1 축 및 상기 표준화된 제2 시계열 데이터의 측정값을 가리키는 상기 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 표준화된 순서쌍 세트를 이용하여 클러스터를 생성하고, 상기 생성된 클러스터에 존재하는 상기 표준화된 순서쌍을 이용하여 상기 생성된 클러스터의 대표값을 설정할 수 있다(S950 단계).
도 10은 본 발명의 일 실시예에 따른 데이터 클러스터링 방법에 관한 흐름도이다.
도 10을 참조하여 본 발명의 일 실시예에 따른 데이터 클러스터링 방법을 설명하면, 본 발명의 일 실시예에 따른 이종 데이터 클러스터 생성 방법에 의하여 생성된 격자 형태로 분할된 구간 중 어느 한 구간에 새로운 데이터가 입력되면(S1010 단계), 인덱스 판정부(810)는 상기 새로운 데이터가 입력된 구간의 인덱스를 판정할 수 있다(S1020 단계). 격자 형태로 분할된 구간은 축이 제1 축 및 제2 축으로 2개인 경우에 형성되는 구간을 분할한 것을 의미하나, 이에 한정되는 것은 아니며, 축이 3개 이상인 경우, 3개의 축으로 형성되는 공간을 분할한 것을 포함하여 해석할 수 있다. 새로운 데이터는 수신부(100)에서 각 센서로부터 새롭게 수신된 값을 데이터 병합부(120)에서 순서쌍으로 생성한 데이터가 될 수 있으며, 표준화부(130)에서 표준화된 순서쌍을 의미할 수 있다.
또한, 클러스터링부(820)는 판정된 인덱스가 가리키는 구간에 클러스터가 생성되어 있는 경우, 생성되어 있는 클러스터에 새롭게 입력된 순서쌍 데이터를 포함시키고, 생성되어 있는 클러스터에 대표값을 새롭게 입력된 순서쌍 데이터를 이용하여 변경할 수 있다(S1020, S1040 단계).
클러스터링부(820)는 판정된 인덱스가 가리키는 구간에 클러스터가 생성되어 있지 않는 경우, 판정된 인덱스가 가리키는 구간에 새롭게 입력된 순서쌍 데이터를 대표값으로 하여 새로운 클러스터를 생성할 수 있다(S1030, S1050 단계).
클러스터링부(820)는 인덱스 정보를 이용하여 새롭게 입력된 순서쌍 데이터의 입력 위치 주변의 인덱스에 해당하는 구간에 존재하는 대표값과의 거리 연산만으로 가장 가까운 위치에 존재하는 대표값을 파악할 수도 있다.
도 1, 6 및 8의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (22)

  1. 제1 센서에 의하여 측정된 제1 시계열 데이터 및 제2 센서에 의하여 측정된 제2 시계열 데이터를 수신하는 수신부;
    상기 제1 시계열 데이터와 상기 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함하여 생성하는 데이터 병합부; 및
    상기 제1 시계열 데이터의 측정값를 가리키는 제1 축 및 상기 제2 시계열 데이터의 측정값를 가리키는 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 순서쌍 세트를 이용하여 클러스터를 생성하는 클러스터 생성부를 포함하는 데이터 분석 장치.
  2. 제 1 항에 있어서,
    상기 제2 센서에 의하여 측정된 데이터의 단위는 상기 제1 센서에 의하여 측정된 데이터의 단위와 상이한 것을 특징으로 하는, 데이터 분석 장치.
  3. 제 1 항에 있어서,
    상기 클러스터 생성부는,
    상기 제1 시계열 데이터 중 최소값과 최대값을 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 제2 시계열 데이터 중 최소값과 최대값을 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 격자형 분할 좌표계를 생성하고, 상기 격자형 분할 좌표계의 격자형 분할 구간마다 서로 다른 인텍스(Index)를 설정하는 인덱스 설정부를 더 포함하는 데이터 분석 장치.
  4. 제 1 항에 있어서,
    상기 데이터 분석 장치는,
    상기 제1 시계열 데이터의 평균과 분산, 상기 제2 시계열 데이터의 평균과 분산을 산출하고, 상기 산출된 제1 시계열 데이터의 평균과 분산을 이용하여 상기 제1 시계열 데이터를 표준화(Normalization)하고, 상기 산출된 제2 시계열 데이터의 평균과 분산을 이용하여 상기 제2 시계열 데이터를 표준화하는 표준화부; 및
    상기 표준화된 제1 시계열 데이터 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 시계열 데이터 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 격자형 분할 좌표계를 생성하고, 상기 격자형 분할 좌표계의 격자형 분할 구간마다 서로 다른 인텍스(Index)를 설정하는 인덱스 설정부를 더 포함하는 데이터 분석 장치.
  5. 제 4 항에 있어서,
    상기 데이터 병합부는 상기 표준화된 제1 시계열 데이터와 상기 표준화된 제2 시계열 데이터를 이용하여 표준화된 순서쌍 세트를 생성하되, 상기 표준화된 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값을 표준화한 값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 표준화한 값으로 구성된 표준화된 순서쌍을 하나 이상 포함하여 생성하며,
    상기 클러스터 생성부는 상기 표준화된 제1 시계열 데이터의 측정값을 가리키는 상기 제1 축 및 상기 표준화된 제2 시계열 데이터의 측정값을 가리키는 상기 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 표준화된 순서쌍 세트를 이용하여 클러스터를 생성하는 데이터 분석 장치.
  6. 제 5 항에 있어서,
    상기 클러스터 생성부는,
    상기 격자형 분할 좌표계 중 상기 위치를 기준으로 대응되는 표준화된 순서쌍이 존재하는 영역을 클러스터로 생성하고, 상기 생성된 클러스터에 존재하는 상기 표준화된 순서쌍을 이용하여 상기 생성된 클러스터의 대표값을 설정하는 대표값 설정부를 포함하는 데이터 분석 장치.
  7. 제 6 항에 있어서,
    상기 대표값 설정부는, 상기 클러스터에 존재하는 표준화된 순서쌍이 하나인 경우, 상기 하나의 표준화된 순서쌍을 상기 대표값으로 설정하고, 상기 클러스터에 존재하는 표준화된 순서쌍이 둘 이상인 경우, 상기 둘 이상의 표준화된 순서쌍의 평균값을 상기 대표값으로 설정하는 데이터 분석 장치.
  8. 제 1 항에 있어서,
    상기 특정 시각에 대응되는 측정값은, 상기 수신부에서 수신한 상기 시계열 데이터 중 상기 특정 시각에 측정된 데이터이며, 상기 특정 시각에 측정된 데이터가 존재하지 않는 경우,
    상기 특정 시각에 대응되는 측정값은, 상기 특정 시각 이전에 측정된 상기 시계열 데이터에서 상기 특정 시각과의 시간 차이가 최소인 시각에 측정된 측정값인 것을 특징으로 하는 데이터 분석 장치.
  9. 제 1 항에 있어서,
    상기 특정 시각에 대응되는 측정값은, 상기 수신부에서 수신한 상기 시계열 데이터 중 상기 특정 시각에 측정된 데이터이며, 상기 특정 시각에 측정된 데이터가 존재하지 않는 경우,
    상기 특정 시각에 대응되는 측정값은, 상기 특정 시각 이전 및 이후에 측정된 상기 시계열 데이터에서 상기 특정 시각과의 시간 차이가 최소인 시각에 측정된 측정값인 것을 특징으로 하는 데이터 분석 장치.
  10. 제 1 항에 있어서,
    상기 특정 시각은 상기 제1 센서 또는 상기 제2 센서의 측정 시각과 동일한 시간이거나, 특정 주기(T0)를 가진 시각인 것을 특징으로 하는 데이터 분석 장치.
  11. 제 1 항에 있어서,
    상기 수신부는 제3 센서에 의하여 측정된 제3 시계열 데이터를 더 수신하고,
    상기 데이터 병합부는 상기 제3 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 포함하여 상기 순서쌍이 하나 이상 포함된 상기 순서쌍 세트를 생성하는 데이터 분석 장치.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 데이터 분석 장치가 제1 센서에 의하여 측정된 제1 시계열 데이터 및 제2 센서에 의하여 측정된 제2 시계열 데이터를 수신하는 수신단계;
    상기 데이터 분석 장치가 상기 제1 시계열 데이터와 상기 제2 시계열 데이터를 이용하여 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값으로 구성된 순서쌍을 하나 이상 포함하여 생성하는 데이터 병합단계; 및
    상기 데이터 분석 장치가 상기 제1 시계열 데이터의 측정값를 가리키는 제1 축 및 상기 제2 시계열 데이터의 측정값를 가리키는 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 순서쌍 세트를 이용하여 클러스터를 생성하는 클러스터 생성단계를 포함하는 데이터 분석 방법.
  16. 제 15 항에 있어서,
    상기 제2 센서에 의하여 측정된 데이터의 단위는 상기 제1 센서에 의하여 측정된 데이터의 단위와 상이한 것을 특징으로 하는, 데이터 분석 방법.
  17. 제 15 항에 있어서,
    상기 데이터 분석 방법은,
    상기 데이터 분석 장치가 상기 제1 시계열 데이터의 평균과 분산, 상기 제2 시계열 데이터의 평균과 분산을 산출하고, 상기 산출된 제1 시계열 데이터의 평균과 분산을 이용하여 상기 제1 시계열 데이터를 표준화(Normalization)하고, 상기 산출된 제2 시계열 데이터의 평균과 분산을 이용하여 상기 제2 시계열 데이터를 표준화하는 표준화단계; 및
    상기 데이터 분석 장치가 상기 표준화된 제1 시계열 데이터 중 최소값과 최대값을 각각 상기 제1 축의 최소값과 최대값으로 설정하고, 상기 표준화된 제2 시계열 데이터 중 최소값과 최대값을 각각 상기 제2 축의 최소값과 최대값으로 설정하고, 기 설정된 민감도(Sensitivity)에 의하여 상기 제1 축과 상기 제2 축을 포함하여 구성되는 좌표계를 분할하여 격자형 분할 좌표계를 생성하고, 상기 격자형 분할 좌표계의 격자형 분할 구간마다 서로 다른 인텍스(Index)를 설정하는 인덱스 설정단계를 더 포함하는 데이터 분석 방법.
  18. 제 17 항에 있어서,
    상기 데이터 병합단계는 상기 표준화된 제1 시계열 데이터와 상기 표준화된 제2 시계열 데이터를 이용하여 표준화된 순서쌍 세트를 생성하되, 상기 순서쌍 세트는 상기 제1 시계열 데이터의 특정 시각에 대응되는 측정값을 표준화한 값 및 상기 제2 시계열 데이터의 상기 특정 시각에 대응되는 측정값을 표준화한 값으로 구성된 표준화된 순서쌍을 하나 이상 포함하여 생성하며,
    상기 클러스터 생성단계는 상기 표준화된 제1 시계열 데이터의 측정값을 가리키는 상기 제1 축 및 상기 표준화된 제2 시계열 데이터의 측정값을 가리키는 상기 제2 축을 포함하여 구성되는 좌표계 상 위치를 기준으로 대응되는, 상기 표준화된 순서쌍 세트를 이용하여 클러스터를 생성하는 데이터 분석 방법.
  19. 제 17 항에 있어서,
    상기 클러스터 생성단계는,
    상기 격자형 분할 좌표계 중 상기 위치를 기준으로 대응되는 상기 표준화된 순서쌍이 존재하는 영역을 클러스터로 생성하고, 상기 생성된 클러스터에 존재하는 상기 표준화된 순서쌍을 이용하여 상기 생성된 클러스터의 대표값을 설정하는 대표값 설정단계를 포함하는 데이터 분석 방법.
  20. 삭제
  21. 삭제
  22. 삭제
KR1020130062415A 2013-05-31 2013-05-31 데이터 분석 장치 및 방법 KR101560274B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020130062415A KR101560274B1 (ko) 2013-05-31 2013-05-31 데이터 분석 장치 및 방법
CN201410239436.6A CN104216941B (zh) 2013-05-31 2014-05-30 数据分析装置和方法
US14/291,855 US9454595B2 (en) 2013-05-31 2014-05-30 Data analysis apparatus and method
US15/239,199 US9842159B2 (en) 2013-05-31 2016-08-17 Data analysis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130062415A KR101560274B1 (ko) 2013-05-31 2013-05-31 데이터 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20140141101A KR20140141101A (ko) 2014-12-10
KR101560274B1 true KR101560274B1 (ko) 2015-10-14

Family

ID=51986347

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130062415A KR101560274B1 (ko) 2013-05-31 2013-05-31 데이터 분석 장치 및 방법

Country Status (3)

Country Link
US (2) US9454595B2 (ko)
KR (1) KR101560274B1 (ko)
CN (1) CN104216941B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180046984A (ko) * 2016-10-28 2018-05-10 주식회사 포스코아이씨티 전후공정의 데이터 연계를 위한 데이터의 정렬 방법 및 정렬 시스템

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10142362B2 (en) * 2016-06-02 2018-11-27 Zscaler, Inc. Cloud based systems and methods for determining security risks of users and groups
US10565513B2 (en) * 2016-09-19 2020-02-18 Applied Materials, Inc. Time-series fault detection, fault classification, and transition analysis using a K-nearest-neighbor and logistic regression approach
KR101995419B1 (ko) * 2016-11-08 2019-07-02 한국전자통신연구원 데이터 분석 시스템 및 그 방법
WO2019229943A1 (ja) * 2018-05-31 2019-12-05 三菱電機株式会社 作業分析装置
US10747119B2 (en) * 2018-09-28 2020-08-18 Taiwan Semiconductor Manufacturing Co., Ltd. Apparatus and method for monitoring reflectivity of the collector for extreme ultraviolet radiation source
CN109582741B (zh) * 2018-11-15 2023-09-05 创新先进技术有限公司 特征数据处理方法和装置
CN109866222B (zh) * 2019-02-26 2020-09-01 杭州电子科技大学 一种基于天牛须优化策略的机械臂运动规划方法
CN109949181B (zh) * 2019-03-22 2021-05-25 华立科技股份有限公司 基于knn临近算法的电网类型判断方法和装置
KR102337155B1 (ko) * 2020-01-21 2021-12-09 (주)심플랫폼 IoT 데이터 형상화를 통한 모니터링 시스템 및 방법
US11675799B2 (en) 2020-05-05 2023-06-13 International Business Machines Corporation Anomaly detection system
US11243833B2 (en) 2020-05-05 2022-02-08 International Business Machines Corporation Performance event troubleshooting system
CN113949673B (zh) * 2021-10-15 2024-06-18 维沃移动通信有限公司 传感器数据处理方法、装置、穿戴式电子设备及存储介质
KR102551105B1 (ko) * 2022-08-01 2023-07-05 (주)엔텔스 이종 데이터 기반의 메타데이터 획득 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099702A1 (en) * 2001-01-19 2002-07-25 Oddo Anthony Scott Method and apparatus for data clustering
US20120296906A1 (en) * 2011-05-17 2012-11-22 Cheng-Fa Tsai Grid-based data clustering method

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7081095B2 (en) * 2001-05-17 2006-07-25 Lynn Lawrence A Centralized hospital monitoring system for automatically detecting upper airway instability and for preventing and aborting adverse drug reactions
US7758503B2 (en) * 1997-01-27 2010-07-20 Lynn Lawrence A Microprocessor system for the analysis of physiologic and financial datasets
US20130060110A1 (en) * 1997-01-27 2013-03-07 Lawrence A. Lynn System and method for automatic detection of a plurality of spo2 time series pattern types
GB9706797D0 (en) * 1997-04-03 1997-05-21 Sun Electric Uk Ltd Wireless data transmission
US6122628A (en) 1997-10-31 2000-09-19 International Business Machines Corporation Multidimensional data clustering and dimension reduction for indexing and searching
US7224642B1 (en) * 2006-01-26 2007-05-29 Tran Bao Q Wireless sensor data processing systems
KR101394338B1 (ko) * 2007-10-31 2014-05-30 삼성전자주식회사 무선 센서 네트워크의 토폴로지 정보 표시 방법 및 장치 및이를 위한 시스템
GB0907870D0 (en) * 2009-05-07 2009-06-24 Univ Catholique Louvain Systems and methods for the autonomous production of videos from multi-sensored data
US8798840B2 (en) * 2011-09-30 2014-08-05 Irobot Corporation Adaptive mapping with spatial summaries of sensor data
EP2626802B1 (en) * 2012-02-10 2016-11-16 Tata Consultancy Services Limited Assembly of metagenomic sequences
US9129428B2 (en) * 2012-05-31 2015-09-08 Apple Inc. Map tile selection in 3D
US20130326494A1 (en) * 2012-06-01 2013-12-05 Yonesy F. NUNEZ System and method for distributed patch management
US9684149B2 (en) * 2012-08-07 2017-06-20 Carl Zeiss Industrielle Messtechnik Gmbh Coordinate measuring machine and method for determining spatial coordinates on a measurement object

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099702A1 (en) * 2001-01-19 2002-07-25 Oddo Anthony Scott Method and apparatus for data clustering
US20120296906A1 (en) * 2011-05-17 2012-11-22 Cheng-Fa Tsai Grid-based data clustering method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180046984A (ko) * 2016-10-28 2018-05-10 주식회사 포스코아이씨티 전후공정의 데이터 연계를 위한 데이터의 정렬 방법 및 정렬 시스템

Also Published As

Publication number Publication date
CN104216941A (zh) 2014-12-17
US20160357848A1 (en) 2016-12-08
CN104216941B (zh) 2017-10-03
US20140358924A1 (en) 2014-12-04
KR20140141101A (ko) 2014-12-10
US9454595B2 (en) 2016-09-27
US9842159B2 (en) 2017-12-12

Similar Documents

Publication Publication Date Title
KR101560274B1 (ko) 데이터 분석 장치 및 방법
US20210365823A1 (en) Capacity evaluation method and device based on historical capacity similarity characteristic
US11048729B2 (en) Cluster evaluation in unsupervised learning of continuous data
US11275357B2 (en) Event analyzing device, event analyzing system, event analyzing method, and non-transitory computer readable storage medium
KR101560277B1 (ko) 데이터 클러스터링 장치 및 방법
US10346758B2 (en) System analysis device and system analysis method
KR102215690B1 (ko) 시계열의 데이터를 모니터링 하는 방법 및 그 장치
EP3045889B1 (en) Information processing system, information processing method, and program
CN107908533B (zh) 一种数据库性能指标的监测方法、装置、计算机可读存储介质及设备
KR20150057322A (ko) 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
EP2963552B1 (en) System analysis device and system analysis method
CN116909339B (zh) 基于人工智能的智能家居安全预警方法及系统
US20230388202A1 (en) Methods and systems for inferred information propagation for aircraft prognostics
Chou A weighted linear combination ranking technique for multi-criteria decision analysis
US10311172B2 (en) System analysis device and system analysis method
KR102059112B1 (ko) 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템
KR100987394B1 (ko) 센서 노드의 클러스터링 방법 및 장치
CN111476316B (zh) 一种基于云计算下电力负荷特征数据均值聚类的方法及系统
JP5781005B2 (ja) データ管理装置及びプログラム
CN117931932A (zh) 一种云机器人平台数据关联规则的挖掘方法和系统
CN112784896A (zh) 基于马尔可夫过程的时间序列流数据异常检测方法
de Sousa et al. SID: Calculating the intrinsic dimension of data streams
Dini et al. Optimizing Parameters of Prioritized Data Reduction in Sensor Networks
JP2005107621A (ja) データ分析方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 5