KR102215690B1 - 시계열의 데이터를 모니터링 하는 방법 및 그 장치 - Google Patents

시계열의 데이터를 모니터링 하는 방법 및 그 장치 Download PDF

Info

Publication number
KR102215690B1
KR102215690B1 KR1020150188589A KR20150188589A KR102215690B1 KR 102215690 B1 KR102215690 B1 KR 102215690B1 KR 1020150188589 A KR1020150188589 A KR 1020150188589A KR 20150188589 A KR20150188589 A KR 20150188589A KR 102215690 B1 KR102215690 B1 KR 102215690B1
Authority
KR
South Korea
Prior art keywords
time series
series data
data
cluster
measurement
Prior art date
Application number
KR1020150188589A
Other languages
English (en)
Other versions
KR20170078252A (ko
Inventor
권순환
김형찬
김성희
오규삼
서범준
이민형
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020150188589A priority Critical patent/KR102215690B1/ko
Publication of KR20170078252A publication Critical patent/KR20170078252A/ko
Application granted granted Critical
Publication of KR102215690B1 publication Critical patent/KR102215690B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)

Abstract

시계열 데이터 모니터링 방법이 제공 된다. 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 방법은 트레이닝 기간 동안의 측정치 시계열 데이터 및 환경 데이터에 대한 분석 결과에 따라, 예측 기간의 환경 데이터로부터 상기 예측 기간의 측정치 시계열 데이터의 클러스터를 예측하는 단계, 상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터의 시점 별 변동성에 따라, 각 시점 별 관리 범위를 설정하는 단계, 및 상기 예측 기간의 실제 측정치 시계열 데이터가 상기 각 시점 별 관리 범위를 만족하는지 모니터링 하는 단계를 포함한다.

Description

시계열의 데이터를 모니터링 하는 방법 및 그 장치{Method and apparatus for time series data monitoring}
본 발명은 시계열의 데이터를 모니터링 하는 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 과거의 일정 기간 동안 발생된 시계열 데이터를 트레이닝 한 결과를 이용하여, 특정 기간 동안의 시계열 데이터를 예측 하고, 그 결과를 바탕으로, 실제의 시계열 데이터를 모니터링 하는 방법 및 그 장치에 관한 것이다.
시계열 데이터(time series data)는 일정 기간에 대해 시간의 함수로 표현되는 데이터를 가리킨다. 이러한 시계열 데이터는, 과거의 시계열 데이터에 대한 분석을 통하여 예측될 수 있다. 실제 발생 된 시계열 데이터와 예측 된 시계열 데이터의 차이가 기 지정 된 한계치를 초과하거나, 전문가에 의하여 지정 된 규칙(rule)에 위배되는 지 여부가 모니터링 될 수 있다.
전문가에 의존한 시계열 데이터 모니터링 규칙은, i) 기존의 Rule이 센서의 시점 값이나 변화량, 통계치에 국한되어 적용 되므로, 공정 시계열 변화나 기동 모드의 시계열 변화 등의 복잡한 패턴을 반영하지 못하는 문제, ii) 정상으로 보는 관리 범위가 각 관리 시점 별로 동일하여, 그 신뢰성에 의문이 제기 되는 문제, iii) 실제 측정치 시계열 데이터가 관리 범위 이내에 위치하더라도, 작은 변화들이 빈번하게 발생하는 유형의 비정상은 감지하기 어려운 문제를 가진다.
한국공개특허 제1998-7002852호 한국공개특허 제2009-0073937호
본 발명이 해결하고자 하는 기술적 과제는, 트레이닝 기간 동안의 측정치 시계열 데이터의 시점 별 변동성에 따라, 각 시점 별 관리 범위를 동적으로 설정하는 시계열 데이터 모니터링 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 미세한 비정상들이 축적되어 한계치를 초과하는 경우 전반적 비정상(global anomaly)으로 판정할 수 있는 시계열 데이터 모니터링 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는, 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 미세한 비정상들이 축적되어 한계치를 초과하는 경우, 그 원인 시점을 표시해 줄 수 있는 시계열 데이터 모니터링 방법 및 그 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 방법은 트레이닝 기간 동안의 측정치 시계열 데이터 및 환경 데이터에 대한 분석 결과에 따라, 예측 기간의 환경 데이터로부터 상기 예측 기간의 측정치 시계열 데이터의 클러스터를 예측하는 단계와, 상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터의 시점 별 변동성에 따라, 각 시점 별 관리 범위를 설정하는 단계와, 상기 예측 기간의 실제 측정치 시계열 데이터가 상기 각 시점 별 관리 범위를 만족하는지 모니터링 하는 단계를 포함한다.
일 실시예에서, 상기 예측 기간은 제1 시점 및 상기 제1 시점 이후의 제2 시점을 포함하고, 상기 각 시점 별 관리 범위를 설정하는 단계는, 상기 제1 시점의 관리 범위와 상기 제2 시점의 관리 범위를 서로 다른 값으로 설정하는 단계를 포함한다. 이 때, 상기 제1 시점의 관리 범위와 상기 제2 시점의 관리 범위를 서로 다른 값으로 설정하는 단계는, 상기 제1 시점의 상기 변동성이 상기 제2 시점의 상기 변동성 보다 큰 경우, 상기 제1 시점의 관리 범위를 상기 제2 시점의 관리 범위보다 더 큰 값으로 설정하는 단계를 포함한다.
일 실시예에서, 상기 시계열 데이터 모니터링 방법은 상기 예측 된 클러스터를 위한 회귀 모델을 이용하여, 상기 예측 기간의 상기 측정치 시계열 데이터를 예측하는 단계를 더 포함한다. 이 때, 상기 모니터링 하는 단계는 각 시점의 상기 실제 측정치 시계열 데이터와 상기 예측 된 측정치 시계열 데이터 사이의 차이 값이, 상기 각 시점 별 관리 범위 이내인지 여부를 판정하는 단계를 포함한다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 방법은, 트레이닝 기간 동안의 측정치 시계열 데이터 및 환경 데이터에 대한 분석 결과에 따라, 예측 기간의 환경 데이터로부터 상기 예측 기간의 측정치 시계열 데이터의 클러스터를 예측하는 단계, 상기 예측 된 클러스터를 위한 회귀 모델을 이용하여, 상기 예측 기간의 상기 측정치 시계열 데이터를 예측하는 단계, 상기 예측 기간의 실제 측정치 시계열 데이터를 수신하는 단계, 상기 예측 된 클러스터의 대표 시계열 데이터를 얻는 단계, 및 상기 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 차이가 상기 대표 시계열 데이터를 바탕으로 얻어진 한계치(threshold)를 초과하는 경우, 전반적 비정상(global anomaly)으로 판정 하는 단계를 포함한다.
일 실시예에서, 상기 전반적 비정상으로 판정 하는 단계는, 상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터와 상기 대표 시계열 데이터 사이의 DTW(Dynamic Time Warping) 거리의 히스토그램을 생성하는 단계, 및 상기 히스토그램 상에서 기 지정 된 요건을 만족하는 DTW 거리를 상기 한계치로 결정하는 단계를 포함할 수 있다. 이 때, 상기 히스토그램 상에서 기 지정 된 요건을 만족하는 DTW 거리를 상기 한계치로 결정하는 단계는, 상기 클러스터에 속한 전체 측정치 시계열 데이터 중 DTW 거리의 오름 차순으로 기 지정된 비율이 포함 되도록 하는 DTW 거리를 한계치로 결정하는 단계를 포함하거나, 상기 히스토그램 상의 DTW 거리의 평균 값 및 표준 편차를 이용하여 상기 한계치를 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 전반적 비정상으로 판정 하는 단계는, 상기 예측된 측정치 시계열 데이터와 상기 실제 측정치 시계열 데이터의 각 시점 별 데이터 차이 값을 가리키는 로컬 코스트 매트릭스를 생성하는 단계와, 상기 로컬 코스트 매트릭스 상에서 최소 비용 경로를 탐색하는 단계와, 상기 최소 비용 경로를 이용하여, 각 시점 별 비정상 영향도를 생성하는 단계를 포함한다. 이 때, 상기 각 시점 별 비정상 영향도를 생성하는 단계는, 상기 예측된 측정치 시계열 데이터의 각 시점을 기준으로, 상기 최소 비용 경로에 속하는 데이터 차이 값을 합산하여, 상기 비정상 영향도를 생성하는 단계를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 장치는 트레이닝 기간 동안의 측정치 시계열 데이터를 분석하여 예측 기간의 상기 측정치 시계열 데이터를 예측하기 위한 컴퓨터 프로그램을 로드 하는 메모리, 상기 메모리에 로드된 상기 컴퓨터 프로그램을 실행하는 프로세서, 네트워크 인터페이스, 상기 네트워크 인터페이스를 통하여 수신 된 측정치 시계열 데이터, 상기 환경 데이터 및 상기 컴퓨터 프로그램에 의하여 조회 되는 데이터를 저장하는 스토리지를 포함한다. 상기 컴퓨터 프로그램은 트레이닝 로직, 예측 로직 및 모니터링 로직을 포함하고, 상기 트레이닝 로직은, 트레이닝 기간 동안의 기 지정된 주기 단위의 측정치 시계열 데이터를 복수의 클러스터로 클러스터링 하는 오퍼레이션, 상기 트레이닝 기간 동안의 복수의 환경 데이터를 수집하는 오퍼레이션, 상기 복수의 환경 데이터 중 적어도 일부를 인자(factor)로 하여, 상기 측정치 시계열 데이터의 클러스터를 최적으로 분류하는 최적 분류 모델을 생성하는 오퍼레이션을 포함하고, 상기 예측 로직은, 상기 최적 분류 모델을 이용하여, 상기 예측 기간의 상기 측정치 시계열 데이터의 클러스터를 예측 하는 오퍼레이션, 상기 예측 된 클러스터를 위한 회귀 모델을 이용하여, 상기 예측 기간의 상기 측정치 시계열 데이터를 예측하는 오퍼레이션을 포함하고, 상기 모니터링 로직은, 상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터의 시점 별 변동성에 따라, 각 시점 별 관리 범위를 설정하는 오퍼레이션, 및 상기 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 차이가 상기 대표 시계열 데이터를 바탕으로 얻어진 한계치(threshold)를 초과하는 경우, 전반적 비정상(global anomaly)으로 판정 하는 오퍼레이션을 포함한다.
도 1은 본 발명의 일 실시예에 따른 시계열 데이터 예측 및 모니터링 시스템 구성도이다.
도 2 내지 도 4는 본 발명의 일 실시예에 따른 시계열 데이터 예측 및 모니터링 방법의 순서도이다.
도 5는 본 발명의 몇몇 실시예들에서 참조되는 측정치 시계열 데이터를 설명하기 위한 도면이다.
도 6은 도 5의 측정치 시계열 데이터를 클러스터링 하고, 각 클러스터의 대표 시계열 데이터를 생성한 결과를 설명하기 위한 도면이다.
도 7은 본 발명의 몇몇 실시예들에서, 트레이닝 기간 동안 수집 된 측정치 시계열 데이터에 대하여 클러스터링을 수행한 결과의 저장 형태를 설명하기 위한 도면이다.
도 8은 본 발명의 몇몇 실시예들에서 참조되는 다차원 측정치 시계열 데이터를 설명하기 위한 도면이다.
도 9는 본 발명의 몇몇 실시예들에서 시계열 데이터를 클러스터링 할 때 클러스터의 개수를 결정하는 과정을 설명하기 위한 도면이다.
도 10은 본 발명의 몇몇 실시예들에서 참조되는 환경 데이터 중 다차원 환경 시계열 데이터를 설명하기 위한 도면이다.
도 11은 본 발명의 몇몇 실시예들에서 참조되는 환경 데이터 중 일자 속성을 설명하기 위한 도면이다.
도 12는 본 발명의 몇몇 실시예들에서 환경 데이터가 클러스터링 되는 것을 설명하기 위한 도면이다.
도 13은 본 발명의 몇몇 실시예들에서 참조되는 환경 데이터 중 특정 환경을 대표하는 대표 값을 설명하기 위한 도면이다.
도 14는 본 발명의 몇몇 실시예들에서 환경 데이터 중 환경 시계열 데이터를 클러스터링을 수행한 결과의 저장 형태를 설명하기 위한 도면이다.
도 15 및 도 16은 본 발명의 몇몇 실시예들에서 참조되는 분류 모델을 설명하기 위한 도면이다.
도 17은 본 발명의 몇몇 실시예들에서, 예측 기간의 측정치 시계열 데이터를 예측 하기 위한 회귀 모델이 각 측정치 시계열 데이터 클러스터 별로 지정 되는 것을 설명하기 위한 도면이다.
도 18 내지 도 19는 본 발명의 몇몇 실시예들에서, 특정 측정치 시계열 데이터 클러스터에 속한 각 측정치 시계열 데이터들의 시점 별 변동성이 평가 되는 것을 설명하기 위한 도면이다.
도 20은 본 발명의 일 실시예에 따라, 각 시점 별 관리 범위가 설정되는 것을 설명하기 위한 도면이다.
도 21은 본 발명의 일 실시예에 따라, 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 비정상 판정이 필요한 이유를 설명하기 위한 도면이다.
도 22는 본 발명의 일 실시예에 따라 전반적 비정상(global anomaly)을 판정하기 위한 한계치가 설정 되는 것을 설명하기 위한 도면이다.
도 23 내지 도 25는 본 발명의 일 실시예에 따라 전반적 비정상이 판정 될 때, 각 시점 별 비정상 영향도를 평가하여 문제의 원인이 되는 시점을 표시하는 것을 설명하기 위한 도면이다.
도 26은 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 장치의 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
이해의 편의를 위하여, 본 발명의 실시예를 본격적으로 설명하기 전에, 본 명세서에 사용된 용어들의 의미를 설명한다.
측정치 시계열 데이터: 센서 등에 의하여 측정 된 측정치의 시계열 데이터를 가리킨다. 측정치 시계열 데이터는 기 지정 된 주기(예를 들어, 24시간)로 분리 된 것일 수 있다. 상기 센서는, 예를 들어 빌딩 관리 시스템에 연결 된 온도 센서, 밝기 센서, 전력 사용량 센서 등이거나, 생산 설비에 구비된 온도, 압력 센서 등이거나, 컴퓨팅 장치에 구비된 온도 센서, cpu 사용량 센서, 메모리 사용량 센서, 스토리지 I/O 부하 센서, 네트워크 사용량 센서 등일 수 있다. 측정치 시계열 데이터를 생성할 수 있는 상기 센서는 상기 예시 된 이외의 다른 측정 장치를 포함할 수 있음을 물론이다.
환경 데이터: 상기 측정치 시계열 데이터에 영향을 끼칠 수 있는 다양한 환경에 대한 데이터이다. 상기 환경 데이터는 i) 환경 시계열 데이터 ii) 환경 대표 값 iii) 환경 속성값으로 구분 될 수 있다. 예를 들어, 24시간 동안의 온도 시계열 데이터, 24시간 동안의 습도 시계열 데이터 등이 상기 환경 시계열 데이터에 해당하고, 각 날짜 별 평균 온도, 평균 습도 등이 상기 환경 대표 값에 해당하며, 각 날짜 별 휴일/평일 여부가 상기 환경 속성값에 해당한다.
트레이닝 기간: 시계열 데이터의 예측을 위하여, 과거 일정 기간 동안의 데이터를 수집하여 기계 학습 등의 기술을 통하여 학습할 필요가 있다. 트레이닝 기간은, 학습 대상이 되는 과거의 일정 기간을 가리킨다. 트레이닝 기간의 만료 시점은 현재일 수도 있다. 즉, 현재의 데이터가 수집됨과 동시에 학습 대상이 될 수 있다. 트레이닝 기간 동안의 측정치 시계열 데이터 및 환경 데이터 중 환경 시계열 데이터가 학습을 통하여 클러스터링 될 수 있다.
예측 기간: 트레이닝 기간 동안의 학습 결과를 이용하여, 특정 기간의 측정치 시계열 데이터가 예측 될 수 있다. 본 명세서에서는 측정치 시계열 데이터의 예측 대상 기간을 예측 기간으로 지칭한다. 예측 기간은 미래의 특정 기간일 수도 있고, 지나간 기간에 대한 진단을 위하여 과거의 특정 기간일 수도 있다.
시계열 데이터 모니터링 시스템
이하, 도 1을 참조하여, 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 시스템의 구성 및 동작을 설명한다. 본 실시예에 따른 시계열 데이터 모니터링 시스템은 측정 장치(10) 및 측정치 모니터링 장치(20)를 포함할 수 있다.
측정 장치(10)는 측정치 시계열 데이터를 생성하는 장치이다. 측정 장치(10)는 생성된 측정치 시계열 데이터를 네트워크를 통하여 측정치 모니터링 장치(20) 및 단말 장치(40)에 송신할 수 있다. 이미 언급한 바와 같이, 측정 장치(10)는, 예를 들어 빌딩 관리 시스템에 연결 된 온도 센서, 밝기 센서, 전력 사용량 센서 등이거나, 생산 설비에 구비된 온도, 압력 센서 등이거나, 컴퓨팅 장치에 구비된 온도 센서, CPU 사용량 센서, 메모리 사용량 센서, 스토리지 I/O 부하 센서, 네트워크 사용량 센서 등일 수 있다.
환경 데이터 관리 장치(30)는 상기 측정치 시계열 데이터에 영향을 미칠 수 있는 환경 데이터를 생성하거나, 수집하여 측정치 모니터링 장치(20)에 제공한다.
측정치 모니터링 장치(20)는 트레이닝 기간 동안의 상기 측정치 시계열 데이터 및 상기 환경 데이터를 학습하고, 상기 학습 결과를 이용하여 예측 기간 동안의 상기 측정치 시계열 데이터를 예측한다.
이하, 측정치 모니터링 장치(20)의 데이터 학습 관련 동작을 설명한다.
트레이닝 기간 동안의 데이터에 대한 학습의 결과로, 기 지정된 주기 단위의 측정치 시계열 데이터가 복수의 클러스터로 클러스터링 되고, 각각의 측정치 시계열 데이터의 대표 시계열 데이터가 결정 될 수 있다.
또한, 트레이닝 기간 동안의 데이터에 대한 학습의 결과로, 기 지정된 주기 단위의 환경 시계열 데이터가 복수의 클러스터로 클러스터링 되고, 각각의 환경 시계열 데이터의 대표 시계열 데이터가 결정 될 수 있다. 상기 측정치 시계열 데이터와 상기 환경 시계열 데이터는 동일한 방식으로 클러스터링 되는 것이 바람직하다.
또한, 트레이닝 기간 동안의 데이터에 대한 학습의 결과로, 환경 데이터를 입력 받아 상기 측정치 시계열의 클러스터를 출력하는 최적 분류 모델이 생성 될 수 있다. 상기 최적 분류 모델은 i) 수집된 복수의 환경 데이터 중 적어도 일부를 인자(factor)로 선택하고, ii) 상기 인자를 가리키는 축들로 구성되는 공간 또는 평면 상에서 상기 측정치 시계열 데이터의 클러스터를 최적으로 분류하는 분류 모델을 생성하고, iii) 상기 생성된 분류 모델의 성능 지표 값을 결정하고, iv) 상기 복수의 환경 데이터 중 적어도 일부를 인자로 선택하는 것, 상기 분류 모델을 생성하는 것 및 상기 성능 지표 값을 결정하는 것을, 상기 인자의 선택을 변경해 가면서 반복하여, 상기 성능 지표 값을 기준으로 상기 생성된 분류 모델 중 최적 분류 모델을 선정하는 것을 통하여 생성 될 수 있다.
또한, 트레이닝 기간 동안의 데이터에 대한 학습의 결과로, 각각의 측정치 시계열 클러스터 별로, 환경 데이터로부터 상기 측정치 데이터를 예측하기 위한 회귀 모델이 구축 될 수 있다. 상기 회귀 모델은, 예를 들어 MARS(Multivariate Adaptive Regression Splines)나, 다항 회귀 모델(polynomial regression) 등 다양한 회귀 모델 중 어느 하나 일 수 있다. 회귀 모델 또는 회귀 분석에 대하여는, 다양한 논문 등의 자료가 공개 되어 있으므로, 회귀 모델에 대한 자세한 설명은 생략하기로 한다. 예를 들어, 웹 사이트(https://en.wikipedia.org/wiki/Regression_analysis)를 참조할 수 있다.
이하, 측정치 모니터링 장치(20)의 측정치 시계열 데이터 예측 관련 동작을 설명한다.
측정치 모니터링 장치(20)는, 상기 최적 분류 모델에 상기 예측 기간의 환경 데이터 예측치를 입력하여, 예측 기간의 측정치 시계열 데이터 클러스터를 예측한다. 상기 예측 기간의 환경 데이터 예측치는, 평균 온도, 평균 습도, 평균 풍속 등의 기상 예보 정보일 수 있다. 측정치 모니터링 장치(20)는 상기 예측 기간의 환경 데이터 예측치를 환경 데이터 관리 장치(30)로부터 제공 받을 수 있다.
측정치 모니터링 장치(20)는 상기 예측된 측정치 시계열 데이터 클러스터에 대한 대표 시계열 데이터 등의 정보를 네트워크를 통하여 단말 장치(40)에 송신할 수 있다.
상기 최적 분류 모델의 인자에 환경 데이터 시계열이 포함되어 있다면, 측정치 모니터링 장치(20)는 예측 기간의 상기 환경 데이터 시계열 예측치(예를 들어, 일간 온도 시계열 예측치)가 상기 트레이닝 기간 동안의 학습 결과로 얻어진 각각의 환경 데이터 시계열 클러스터 중 어디에 속하는지 결정한다. 이 때, 각 환경 데이터 시계열 클러스터의 대표 시계열 데이터와 상기 환경 데이터 시계열 예측치를 비교함으로써, 클러스터를 신속하게 결정할 수 있다. 측정치 모니터링 장치(20)는 상기 결정된 환경 데이터 시계열 클러스터의 식별자(예를 들어, 인덱스 값)를 상기 최적 분류 모델에 입력하여, 예측 기간의 측정치 시계열 데이터 클러스터를 예측한다.
측정치 모니터링 장치(20)는, 상기 예측된 측정치 시계열 데이터의 클러스터를 위한 회귀 모델을 이용하여, 예측 기간의 측정치 시계열 데이터를 예측한다. 상기 회귀 모델은 인자(factor)로 제1 환경(예를 들어, 온도)에 대한 시계열 데이터를 입력 받아, 그 경우의 측정치 시계열 데이터를 출력한다. 상기 회귀 모델은 제2 환경(예를 들어, 습도)에 대한 시계열 데이터 클러스터 식별자, 제3 환경(예를 들어, 일사량)에 대한 대표 값 및 환경 속성(예를 들어, 평일/휴일 여부) 중 적어도 하나를 추가로 입력 받을 수 있다.
측정치 모니터링 장치(20)는 예측 된 측정치 시계열 데이터(예를 들어, 내일의 24시간 동안의 에너지 소모량 시계열 데이터 예측치)를 네트워크를 통하여 단말 장치(40)에 송신할 수 있다.
이하, 측정치 모니터링 장치(20)의 데이터 모니터링 관련 동작을 설명한다.
측정치 모니터링 장치(20)는 상기 예측된 측정치 시계열 데이터의 클러스터에 속한 각 측정치 시계열 데이터의 시점 별 변동성에 따라, 각 시점 별 관리 범위를 설정한다. 예를 들어, 트레이닝 기간 동안의 상기 클러스터에 속한 측정치 시계열 데이터들의 분석 결과, 오전 10시 보다 오후 3시에 상기 변동성이 더 큰 경우, 측정치 모니터링 장치(20)는 오전 10시 보다 오후 3시에 관리 범위를 더 넓게 설정한다. 트레이닝 기간 동안의 학습 결과가 오전 10시에 비하여 오후 3시에 데이터의 편차가 더 컸다는 사실을 가리키므로, 오전 10시에 비하여 오후 3시에 관리 범위를 더 넓게 설정해야, 불필요하게 알람 상황이 발생 되는 것을 방지할 수 있을 것이다.
측정치 모니터링 장치(20)는 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 차이가 상기 대표 시계열 데이터를 바탕으로 얻어진 한계치(threshold)를 초과하는 경우, 전반적 비정상(global anomaly)으로 판정 할 수 있다. 본 실시예에 따르면, 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 미세한 비정상들이 축적되어 한계치를 초과하는 경우 전반적 비정상으로 판정해 줌으로써, 시계열 데이터를 관리하는 관리자가 종래 기술에 비하여 미세한 데이터 모니터링을 수행할 수 있도록 한다.
도 1에는 측정치 모니터링 장치(20)와 환경 데이터 관리 장치(30)가 서로 물리적으로 분리 된 것으로 도시되어 있으나, 몇몇 실시예에서는, 환경 데이터 관리 장치(30)가 대용량 파일 생성 시스템(300) 내부의 한 모듈로서 구성될 수도 있다.
시계열 데이터 모니터링 방법
이하, 도 2 내지 도 25를 참조하여, 본 발명의 일 실시예에 따른 시계열 데이터 모니터링 방법을 설명한다. 본 실시예에 따른 시계열 데이터 모니터링 방법은 컴퓨팅 장치에 의하여 실행 될 수 있는데, 예를 들어, 도 1을 참조하여 설명된 측정치 모니터링 장치(20)에 의하여 실행 될 수 있다.
본 실시예에 따른 시계열 데이터 모니터링 방법은 트레이닝 기간의 데이터를 학습하는 동작, 상기 학습의 결과를 이용하여 예측 기간의 측정치 시계열 데이터를 예측 하는 동작 및 실제 측정치 시계열 데이터가 수신하여 모니터링 하는 동작을 포함한다. 도 2 내지 도 3을 참조하여 트레이닝 기간의 데이터를 학습하는 동작을 설명한 후, 도 4를 참조하여 예측 기간의 측정치 시계열 데이터를 예측 하는 동작 및 실제 측정치 시계열 데이터를 모니터링 하는 동작을 설명한다.
도 2를 참조하면, 트레이닝 기간의 측정치 시계열 데이터 및 복수의 환경 데이터를 수신한다(S100, S102). 복수의 환경 데이터는, 제1 환경(예를 들어, 온도)을 가리키는 시계열 데이터 또는 대표값 및 제2 환경(예를 들어, 습도)를 가리키는 시계열 데이터 또는 대표값, 환경 속성(예를 들어, 휴일/평일 여부)을 가리키는 값을 포함할 수 있다. 수신된 측정치 시계열 데이터 및 환경 데이터 중 환경 시계열 데이터는 트레이닝 과정에서 유사한 것들끼리 클러스터링 된다(S104, S106). 이하, 클러스터링 과정(S104, S106)에 대하여 자세히 설명한다.
수신된 측정치 시계열 데이터는 기 지정 된 주기를 단위로 하여 처리 된다. 예를 들어, 상기 주기가 24시간 인 경우, 상기 측정치 시계열 데이터는 0시를 기준으로 분리 될 수 있다. 상기 주기는 각 측정치 시계열 데이터에 따라 서로 다른 값으로 설정될 수 있다. 예를 들어, 건물 내 에너지 소비량 시계열 데이터는 24시간을 기준으로 분리되고, 건물 내부 엘리베이터 운행 거리 데이터는 일주일을 기준으로 분리될 수 있을 것이다.
각 주기의 측정치 시계열 데이터는 클러스터링을 통하여 복수의 클러스터 중 어느 하나로 분류 된다. 도 5는, 24시간 단위로 분리된 에너지 사용량 시계열 데이터를 겹쳐서 표시한 것이다. 도 5에 도시된 것과 같은 시계열 데이터는 k-평균(k-means) 로직과 같이 널리 알려진 클러스터링 로직에 의하여 클러스터링 될 수 있다. k-평균 로직은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. k-평균 로직은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. 이 알고리즘은 EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다. k-평균 로직은 시계열 데이터에 대한 클러스터링에 뛰어난 성능을 보여주기 때문에, 본 실시예는 k-평균 로직을 활용한 클러스터링을 수행하는 것에 의하여 클러스터링 품질을 향상시키는 효과를 가져온다.
한편, 다른 실시예에 따르면, k-평균 로직 뿐만 아니라, 다양한 클러스터링 로직이 활용 될 수도 있다. 클러스터링 로직과 관련된 정보는 웹 문서 'https://en.wikipedia.org/wiki/Cluster_analysis'를 참조할 수 있다.
일 실시예에서, 클러스터링을 수행한 후, 시계열 평균화 로직을 이용하여 각 클러스터에 속한 시계열 데이터들의 대표 시계열 데이터를 선정할 수 있다. 예를 들어, DTW Barycenter Averaging(DBA) 등 널리 알려진 다양한 시계열 평균화 로직이 활용될 수 있다. DBA 로직에 대하여는 'F. Petitjean, A. Ketterlin, P. Gancarski, A global averaging method for dynamic time warping, with applications to clustering' 등의 널리 알려진 논문을 참조할 수 있다. 도 6에는, 총 5개의 클러스터로 도 5의 측정치 시계열 데이터가 클러스터링 되었고, 각 클러스터의 대표 시계열 데이터가 각각 추출 된 것이 표시 되어 있다.
DBA 로직은 k-평균 로직에 의하여 클러스터링 된 클러스터 내에서 대표 시계열 데이터를 효과적으로 추출한다. 본 실시예에서는 k-평균 로직을 이용한 클러스터링과 DBA 로직을 이용한 클러스터 내 대표 시계열 데이터 추출의 조합을 통하여, 최적의 클러스터링 및 클러스터 대표 시계열 데이터 추출의 효과를 제공한다.
도 7은 24시간 주기의 측정치 시계열 데이터가 각 일자 별로 저장되는 형태를 도시한다. 도 7에 도시된 바와 같이, 각 주기 별 측정치 시계열 데이터는, 클러스터의 식별자 역할을 하는 클러스터 인덱스와 함께 저장될 수 있다. 추가적으로, 각 클러스터의 대표 시계열 데이터가 클러스터링의 결과로서 저장될 수 있다. 한편, 수집 된 측정치 시계열 데이터는, 도 8에 도시된 것과 같이 n개(n>=2)의 서로 다른 측정치 시계열 데이터로 구성 된 다차원 시계열 데이터일 수 있다.
시계열 데이터에 대한 클러스터링을 수행함에 있어서, 몇 개의 클러스터로 클러스터링 할 것인지가 문제 된다. 클러스터의 개수를 너무 적게 하면 각 클러스터에 속한 시계열 데이터의 낮은 동질성이 문제되고, 클러스터의 개수를 너무 많게 하면, 클러스터링의 효율이 떨어지기 때문이다. 따라서, 적절한 클러스터 개수를 결정하는 것이 클러스터링의 품질을 높이는데 중요하다. 본 발명의 일 실시예에서는, 각 클러스터 별 대표 시계열 데이터와, 각 클러스터에 속한 각 주기의 측정치 시계열 데이터 사이의 유사도 합산치 를 기준으로 클러스터의 개수를 최종 결정한다. 상기 유사도 합산치는, 예를 들어 DTW distance 등 다양한 시계열 데이터 사이의 차이 값 연산 로직을 이용하여 산출 될 수 있다.
도 9에 도시된 케이스의 경우, 클러스터의 개수를 1에서 5까지 증가시킴에 따라, 각 클러스터 별 대표 시계열 데이터와, 각 클러스터에 속한 각 주기의 측정치 시계열 데이터 사이의 DTW distance 합산치가 급격히 감소하다가, 클러스터의 개수가 5이상 되면 DTW distance 합산치의 감소폭이 미미해진다. 즉, 도 9에 도시된 케이스의 경우, 클러스터 개수는 5 이상으로 증가시키더라도 클러스터링의 품질에 별 영향을 미치지 않는다. 따라서, 일 실시예에서, 클러스터의 개수가 1에서 k까지는 클러스터의 개수가 증가함에 따라 상기 DTW distance 합산치의 감소폭이 기준치 이상이나, 클러스터의 개수가 k를 초과하여 증가함에 따라 상기 DTW distance 합산치의 감소폭이 기준치 미만인 경우, 클러스터의 개수는 k개로 최종 결정 될 수 있다.
한편, 측정치 시계열 데이터가 2이상의 개별 측정치 시계열으로 구성 된 다차원 시계열 데이터인 경우, 각 클러스터 별 대표 시계열과, 각 클러스터에 속한 각 주기의 측정치 시계열 데이터 사이의 MD-DTW(Multi-Dimensional Dynamic Time Warping) 로직에 따른 유사도(예를 들어, DTW distance)의 합산치를 기준으로 클러스터의 개수가 최종 결정 될 수 있다. 본 발명에 따른 시계열 데이터 모니터링 방법은, 시계열 데이터가 다차원 데이터이더라도 1차원 시계열 데이터와 동일하게 클러스터링 및 각 클러스터의 대표 시계열 데이터를 생성할 수 있으므로, 다차원 시계열 데이터에 대한 확장성을 제공한다. 즉, 본 실시예에서는, 다차원 시계열 데이터도 예측 기간의 측정치 시계열 데이터의 클러스터를 예측하기 위한 인자(factor)로 사용할 수 있도록 지원한다.
이미 언급한 것과 같이, 환경 데이터 중 시계열 데이터도 측정치 시계열 데이터의 클러스터링 방법과 동일한 방법으로 클러스터링 되고, 각 클러스터의 대표 시계열 데이터가 추출 된다. 도 12에는, 여름과 겨울의 온도 시계열 데이터를 클러스터링 하고, 각 클러스터의 대표 시계열 데이터를 추출한 결과가 도시 되어 있다.
환경 데이터 중 시계열 데이터를 클러스터링 하는 이유는, 시계열 데이터의 특성 상 완전히 동일한 데이터가 발생할 가능성이 낮기 때문이다. 따라서, 측정치 시계열 데이터의 클러스터를 예측하기 위한 인자(factor)로서 환경 데이터의 시계열 데이터가 포함 될 수 있도록, 환경 데이터를 클러스터링 한다. 각 클러스터의 식별자(예를 들어, 인덱스)가 측정치 시계열 데이터의 클러스터를 예측하기 위한 최적 분류 모델의 인자로서 사용될 수 있다. 최적 분류 모델에 관한 자세한 사항은, 도 3, 도 15 및 도16을 참조하여 추후 자세히 설명한다.
도 10은 다차원 환경 시계열 데이터를 표시한다. 예를 들어, n개의 서로 다른 환경 시계열 데이터를 포함하는 n차원 환경 시계열 데이터의 경우, n개의 1차원 환경 시계열 데이터로 분리하여 클러스터링 하는 것보다, 1개의 n차원 환경 시계열 데이터로서 클러스터링 하는 것이, 매일의 환경을 보다 효과적으로 클러스터링 하는 것일 수 있다. 따라서, 다차원 환경 시계열 데이터 역시 상기 최적 분류 모델의 인자로서 사용될 필요가 있다. 이미 설명한 다차원 측정치 시계열 데이터에 대한 클러스터링 및 대표 시계열 데이터 추출 방법과 동일한 방법을 이용하여, 다차원 환경 시계열 데이터도 클러스터링 및 대표 시계열 데이터 추출이 가능하다.
이미 언급한 바와 같이, 본 발명의 몇몇 실시예들에서 수집 되고 학습 되는 환경 데이터는 시계열 데이터가 아닌 데이터도 포함한다. 예를 들어, 환경의 속성 값을 가리키는 데이터(예를 들어, 도 11의 일자 별 토요일/평일/휴일 여부) 또는 각 환경의 대표 값을 가리키는 데이터(예를 들어, 도 13의 일자 별 온도/습도/기압 평균 값)도 환경 데이터에 포함될 수 있다. 일 실시예에 따르면, 시계열 데이터가 아닌 환경 데이터도 널리 알려진 클러스터링 방법에 의하여 클러스터링 되고, 각 클러스터의 대표 값도 추출 될 수 있다.
도 14는 24시간 주기의 환경 시계열 데이터가 각 주기 별로 저장되는 형태를 도시한다. 도 14에 도시된 바와 같이, 각 주기 별 환경 시계열 데이터는, 클러스터의 식별자 역할을 하는 클러스터 인덱스와 함께 저장될 수 있다. 추가적으로, 각 클러스터의 대표 시계열 데이터가 클러스터링의 결과로서 저장될 수 있다.
다시 도 2로 돌아와서, 클러스터링 이후의 동작을 설명한다. 클러스터링이 완료 되면, 측정치 시계열 데이터의 클러스터를 얻기 위한 최적의 모델을 생성한다(S108). 상기 모델은, 수신 된 복수의 환경 데이터 중 적어도 일부가 각각의 축이 되어 구성 된 평면 또는 공간 상에서, 상기 측정치 시계열 데이터의 클러스터를 가장 잘 분류 하는 최적 분류 모델을 가리킨다.
예를 들어, 제1 축이 온도 시계열 데이터 클러스터이고, 제2 축이 습도 시계열 데이터 클러스터인 경우, 상기 제1 축 및 상기 제2 축이 구성하는 평면 상에 트레이닝 기간 동안의 상기 측정치 시계열 데이터를 표시할 때, 상기 평면 상에서 상기 측정치 시계열 데이터의 클러스터를 가장 잘 분류 하는 하나의 기준선이 표시 될 수 있을 것이다. 이 때, 상기 기준선을 이용하면, 예측 기간의 온도 시계열 데이터 클러스터 및 습도 시계열 데이터 클러스터를 입력하는 것으로, 측정치 시계열 데이터의 클러스터를 알 수 있다. 따라서, 측정치 시계열 데이터의 클러스터를 얻기 위한 최적의 모델은, 수신 된 복수의 환경 데이터 중 적어도 일부가 각각의 축이 되어 구성 된 평면 또는 공간 상에서, 상기 측정치 시계열 데이터의 클러스터를 가장 잘 분류하는 최적 분류 모델이다.
도 3을 참조하여, 상기 최적 분류 모델을 생성하는 동작(S108)을 보다 자세히 설명한다.
먼저, 복수의 환경 데이터 중 인자(factor)로 사용할 환경 데이터를 선택한다. 예를 들어, 수집 된 환경 데이터가 3가지 종류(A, B, C)라고 하면, 선택의 가지 수는 7 가지이다(A, B, C, AB, AC, BC, ABC). 측정치 시계열 데이터가 하나의 환경 데이터에만 의존 관계가 있지는 않을 것으로 가정한다. 2개의 환경 데이터를 인자로 사용하는 것으로 선택했다면, 2개의 인자로 구성 된 평면이 구성되고, 이 평면 상에 트레이닝 기간 동안의 각 주기의 측정치 시계열 데이터를 표시할 수 있을 것이다.
도 15는 2개의 환경 시계열 데이터가 선택 된 경우, 제1 환경 시계열 데이터의 클러스터 인덱스를 가리키는 제1 축과, 제2 환경 시계열 데이터의 클러스터 인덱스를 가리키는 제2 축으로 구성 된 평면 상에, 트레이닝 기간 동안의 각 주기의 측정치 시계열 데이터를, 그 클러스터의 인덱스 번호로 표시한 것이다. 아래의 표 1과 같이 트레이닝 기간의 데이터가 처리 된 경우, 도 15와 같이 측정치 시계열 데이터의 클러스터가 표시 될 수 있을 것이다.
주기 제1 환경 시계열 데이터
클러스터 인덱스
제2 환경 시계열 데이터
클러스터 인덱스
측정치 시계열 데이터
클러스터 인덱스
1 1 1 1
2 2 1 1
3 1 2 1
4 2 2 1
5 3 1 1
6 4 1 2
7 3 2 2
8 1 3 2
9 2 3 2
10 3 3 2
11 4 2 2
12 5 1 2
13 6 1 2
14 5 2 2
15 4 3 2
16 5 3 2
17 6 3 2
18 6 2 2
도 15에 도시 된 평면 상에서, 측정치 시계열 데이터의 클러스터를 최적으로 분류하는 문제는, SVM(Support Vector Machine) 로직, decision tree 로직 등 다양한 분류(classification) 로직을 활용하여 솔루션을 얻을 수 있다. 즉, 본 발명의 실시예는, 예를 들어, 웹 문서 ' https://en.wikipedia.org/wiki/Statistical_classification'를 통하여 소개 된 다양한 분류 로직을 사용하여, 환경 데이터가 구성하는 평면 또는 공간 상에서, 각 주기의 측정치 시계열 데이터의 클러스터를 최적으로 분류하는 모델을 생성하는 것으로 확장 가능하다. 다만, 이하 이해의 편의를 위하여 SVM 로직을 활용하는 실시예를 설명한다.
도 16은 환경 시계열 데이터 하나(온도 시계열 데이터), 환경 대표값(평균 습도) 데이터 하나가 각각 인자로서 선택된 경우를 도시한다. 이미 설명한 바와 같이, 환경 시계열 데이터의 경우 그대로는 축상에 표시할 수 없으므로, 제1 축은 환경 시계열 데이터의 클러스터 인덱스를 가리킨다. SVM 로직을 수행하면, 평면 상에서 2개의 이질적인 데이터(제1 클러스터의 측정치 시계열 데이터 및 제2 클러스터의 측정치 시계열 데이터)를 최적으로 구별할 수 있는 초평면(hyperplane)(63)이 구해진다. 이 때 최대 여백(margin)은, 초평면(63)에 가장 가까운 데이터를 지나면서 초평면에 평행한 두개의 벡터(61, 62) 사이의 거리이다.
도 16과 같이 2개의 인자를 선택한 상황에서는, 도 16에 도시된 초평면(63)이 최적의 분류 모델이다. 하지만, 다른 인자 선택을 고려하면, 제1 클러스터의 측정치 시계열 데이터 및 제2 클러스터의 측정치 시계열 데이터를 더 잘 분류할 수 있는 분류 모델이 생성될 수도 있다. 일 실시예에서, 분류 모델의 성능 지표는 상기 SVM 로직에 따라 생성 되는 초평면(hyperplane)에 따른 최대 여백(margin) 값으로, 상기 최대 여백이 클 수록 상기 성능 지표도 좋은 것이다.
따라서, 상기 측정치 시계열 데이터의 클러스터를 가장 잘 분류하는 최적 분류 모델을 구하기 위하여는, 수집 된 복수의 환경 데이터를 다양하게 조합해 보면서, 상기 최대 여백 값이 가장 큰 경우를 찾으면 될 것이다.
다시 도 3으로 돌아와 설명하면, 복수의 환경 데이터 중 인자로 사용할 환경 데이터를 선택하고(S180), 선택된 인자를 가리키는 축들로 구성된 공간(3개 이상의 인자가 선택 된 경우) 또는 평면(2개의 인자가 선택 된 경우) 상에서의 분류 모델을 생성하며(S182), 상기 분류 모델의 성능 지표값(SVM 로직을 사용한 경우, 최대 여백 값)을 결정한다(S184). 아직 검토 되지 않은 인자의 선택 케이스가 존재하지 않을 때까지(S186), 인자의 선택을 변경하고(S188), 선택된 인자를 이용하여 분류 모델을 생성하며(S182), 생성된 분류 모델의 성능 지표 값을 결정(S184)하는 동작이 반복된다.
인자의 선택 시, 복수의 환경 데이터 중 적어도 일부를 선택하는 모든 케이스가 다 가능하거나, 선택 가능한 인자 개수의 범위를 지정 하거나, 선택 가능한 데이터의 타입을 특정 타입으로 제한할 수 있다(예를 들어, 환경 시계열 데이터 및 환경 대표 값으로 제한).
모든 인자 선택 케이스를 다 검토한 후, 각 인자 선택 케이스에서 생성 된 분류 모델의 성능 지표 값을 비교하여, 가장 높은 성능 지표 값을 가지는 분류 모델을 최적 분류 모델로 선정한다(S189).
다음으로, 트레이닝 작업의 일환으로, 각각의 측정치 시계열 클러스터 별로, 그 측정치 시계열 데이터에 속한 주기의 환경 데이터를 입력 받아 측정치 시계열 데이터를 출력하는 회귀 모델(regression model)을 구축한다. 즉 상기 회귀 모델을 구축하는 단계는, 제2 측정치 시계열 데이터 클러스터로 클러스터링 된 주기의 데이터는 이용하지 않고 제1 측정치 시계열 데이터 클러스터로 클러스터링 된 주기의 데이터 만을 이용하여, 상기 제1 측정치 시계열 데이터 클러스터에 대응하는 회귀 모델을 구축하는 단계를 포함한다. 예를 들어, 표 1에 표시된 케이스에서, 측정치 시계열 데이터 클러스터 1번에 대응 되는 회귀 모델을 구축할 때, 주기 1 내지 5까지의 환경 데이터만 이용된다.
상기 회귀 모델의 구축은 웹 문서 'https://en.wikipedia.org/wiki/Regression_analysis' 등을 통하여 제시된, 다양한 로직을 적용하여 수행 될 수 있다. 예를 들어 MARS(Multivariate Adaptive Regression Splines)나, 다항 회귀 모델(polynomial regression) 등 다양한 회귀 모델 중 어느 하나 일 수 있다.
상기 회귀 모델은 상기 환경 데이터 중 제1 환경 시계열 데이터를 제1 독립 변수로 가진다. 측정치 시계열 데이터를 출력하기 위해서는, 시간의 흐름에 따라 변하는 시계열 데이터가 적어도 하나는 입력 되어야 하기 때문이다.
상기 회귀 모델은, 상기 제1 환경 시계열 데이터와 다른 제2 환경 시계열 데이터의 클러스터 식별자, 상기 환경 데이터 중 각 주기의 특정 환경을 대표하는 대표값(예를 들어, 평균 온도) 및 환경의 속성을 가리키는 데이터(예를 들어, 평일/휴일 여부) 중 적어도 하나를 추가적인 독립 변수로 가질 수 있다.
이하, 도 4를 참조하여 예측 기간의 측정치 시계열 데이터를 예측 하고 모니터링 하는 동작을 설명한다.
예측 기간의 환경 데이터를 수신한다(S200). 상기 수신 된 환경 데이터는 예측치일 수 있다. 상기 환경 데이터는 예를 들어, 기상 예보 정보 일 수 있다. 상기 기상 예보 정보는, 예를 들어 예측 기간의 평균 온도, 평균 습도, 시간에 따른 온도 시계열 예측 데이터 등을 포함할 수 있다. 상기 환경 데이터는, 예측의 대상인 시계열 데이터에 대한 상기 최적 분류 모델의 인자로 포함 된 데이터를 모두 포함하는 것이 바람직하다.
상기 최적 분류 모델의 인자로 환경 시계열 데이터가 포함되었다면, 상기 환경 시계열 데이터로 예측 된 시계열 데이터가, 상기 환경 시계열 데이터의 클러스터들 중 어디에 가장 가까운지 결정된다(S202).
상기 환경 시계열 데이터의 클러스터링 시(S106), 각 클러스터의 대표 시계열 데이터가 추출 되는 점을 이미 설명한 바 있다. 예측 기간의 환경 시계열 데이터에 대응되는 클러스터를 결정할 때(S202), 예측 기간의 환경 시계열 데이터를 각 클러스터에 속한 모든 데이터와 비교하는 것이 아니라, 각 클러스터의 대표 시계열 데이터와 비교하기만 하면 된다. 즉, 상기 예측 기간의 환경 시계열 데이터와 상기 환경 시계열 데이터의 각 클러스터 별 대표 시계열 사이의 차이값 연산 로직에 따른 유사도를 기준으로, 상기 예측 기간의 환경 시계열 데이터가 속하는 상기 환경 시계열 데이터의 클러스터를 선정한다.
상기 유사도는, 예를 들어, 예측 기간의 환경 시계열 데이터와 환경 시계열 데이터의 각 클러스터 별 대표 시계열 데이터 사이의 DTW(Dynamic Time Warping) 차이값 연산 로직 등, 시계열 데이터 사이의 차이 값을 연산하는 다양한 로직에 의하여 구해 질 수 있다.
예를 들어, 클러스터의 개수가 10개라면, 클러스터의 결정(S202) 과정에서 10번의 DTW 값 비교만 수행하면 되기 때문에, 본 실시예는 예측 기간의 환경 시계열 데이터에 대응되는 클러스터를 신속하게 결정할 수 있는 효과를 가진다.
상기 최적 분류 모델의 인자에 예측 기간의 환경 데이터를 입력함으로써, 상기 예측 기간의 측정치 시계열 데이터의 클러스터가 예측 된다(S204). 이미 언급한 바와 같이, 상기 최적 분류 모델의 인자에 환경 시계열 데이터가 포함 된 경우, 환경 시계열 데이터 자체가 아니라, 환경 시계열 데이터의 클러스터 식별자(예를 들어, 클러스터 인덱스)가 입력 된다.
상기 예측 된 측정치 시계열 데이터의 클러스터에 대응된 회귀 모델에 예측 기간의 환경 데이터를 입력하면, 예측 기간의 측정치 시계열 데이터를 얻을 수 있다(S206). 도 17에 도시된 바와 같이, 본 실시예에 따르면 측정치 시계열 데이터 클러스터가 다르면, 적용되는 회귀 모델도 달라진다. 예를 들어, 에너지 사용량이 예측 대상 측정치 시계열 데이터인 경우, 예측 기간의 에너지 사용량 데이터 클러스터가 #1으로 예측 된 경우, 회귀 모델은 MARS(Multivariate Adaptive Regression Splines) 모델 형식의 1번 모델이 사용될 수 있다. 예측 기간의 에너지 사용량 데이터 클러스터가 #2으로 예측 된 경우, 회귀 모델은 2번 모델로 달라진다.
한편, 예측 대상 측정치 시계열 데이터가 달라지면, 다른 모델 형식의 회귀 모델이 적용 될 수도 있다. 예를 들어, 도 17에는 용수 사용량 시계열 데이터에 대하여는 다항 회귀 모델(polynomial regression)이 사용되는 점이 도시 되어 있다.
이하, 실제 측정치 시계열 데이터의 모니터링 관련 동작을 설명한다.
단계 S204에서 예측 된 측정치 시계열 데이터의 클러스터에 속한 각 측정치 시계열 데이터들의 각 시점 별 변동성이 평가된다(S208). 도 18에는 특정 측정치 시계열 데이터(에너지 사용량)의 클러스터에 속한 각 측정치 시계열 데이터들이 겹쳐서 표시 되어 있다. 변동성의 평가 시에, 각 시점 별로, 그 클러스터에 속한 각 측정치 시계열 데이터의 분산 또는 표준편차가 연산 된다. 즉, 이 경우에는 분산 또는 표준편차가 각 시점 별 변동성이 된다. 도 19에는 도 18의 데이터에 대하여 각 시점(시각) 별로 연산 된 표준 편차가 표시 되어 있다. 도 19에는 6시에 표준편차가 최저(60)인 점, 9시에 표준편차가 최대(71)인 점이 도시 되어 있다.
다음으로, 각 시점 별 변동성 평가(S208)의 결과를 이용하여, 시점 별 관리 정보가 생성 된다(S210). 예를 들어, 아래와 같이 시점 별 관리 정보가 생성 될 수 있다.
U(t) = P(t) + ασ(t)
L(t) = P(t) - ασ(t)
상기 수식에서, U(t)는 시점 t에서의 상방 한계 값이고, α는 관리자에 의하여 설정 될 수 있는 계수이며, σ(t)는 변동성 평가(S208)의 결과 얻어진, 예측 된 측정치 시계열 데이터의 클러스터에 속한 각 측정치 시계열 데이터들의 시점 t에서의 표준편차 값이다.
도 20에는, 도 19에 도시 된 변동성 평가(S208)의 결과가 반영 된 시점 별 관리 정보 생성 결과가 도시 되어 있다. 도 20에 도시 된 바와 같이, 트레이닝 기간 동안에 변동성이 가장 낮았던 6시에는 관리 범위(72)가 가장 협소하게 설정 되고, 변동성이 가장 높았던 9시에는 관리 범위가(73)가 가장 넓게 설정 된다. 도 20과 같이 관리 범위가 설정 된 후, 실제 측정치 시계열 데이터가 수신 되면(S214), 각 시점의 상기 실제 측정치 시계열 데이터와 상기 예측 된 측정치 시계열 데이터 사이의 차이 값이, 상기 각 시점 별 관리 범위 이내인지 여부가 판정됨으로써, 각 시점 별 비정상 패턴 모니터링(S216)이 수행 될 것이다.
본 실시예에 따라, 트레이닝 기간 동안의 학습 결과를 반영하여, 시점 별로 서로 다른 관리 범위를 설정함으로써, 관리 범위의 정확도를 높일 수 있고, 결과적으로 비정상적인 실제 측정치 시계열 데이터가 발생했을 때 정확하게 이를 감지할 수 있는 효과가 있다.
한편, 도 20과 같이 각 시점 별로 동적인 관리 범위를 설정함으로써 관리 범위의 정확도를 높이더라도, 실제 측정치 시계열 데이터가 상기 관리 범위를 이탈하지 않는다면, 비정상 패턴으로 판정되지 않는다. 도 21에 도시 된 실제 측정치 시계열 데이터(78)도 상방 관리 범위 한계선(76) 및 하방 관리 범위 한계선(77) 사이에 지속적으로 위치하므로, 비정상 패턴으로 판정되지 않을 것이다. 그러나, 도 21에 도시 된 실제 측정치 시계열 데이터(78)는, 낮 시간 동안 지속적으로 예측된 측정치 시계열 데이터(75)를 초과(79)하고 있음을 알 수 있다.
본 발명의 일 실시예에 따르면, 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 차이가 상기 대표 시계열 데이터를 바탕으로 얻어진 한계치(threshold)를 초과하는 경우, 전반적 비정상(global anomaly)으로 판정한다. 전반적 비정상 판정을 위하여, 전반적 비정상 범위 정보의 생성(S212)이 필요하다. 상기 전반적 비정상 범위 정보는 상기 한계치를 의미할 수 있다. 이하, 상기 한계치를 설정하는 방법에 대하여 도 22를 참조하여 설명한다.
상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 거리는, 널리 알려진 시계열 데이터 사이의 차이 값 연산 로직을 활용하여 얻을 수 있다. 예를 들어, DTW 거리나, 각 시점의 유클리디안 거리의 합 등 다양한 방법을 이용하여 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 거리를 얻을 수 있다. 이 때, 상기 한계치 역시 상기 DTW 거리 또는 상기 각 시점의 유클리디안 거리의 합을 기준으로 설정 될 수 있다. 이하, 이해의 편의를 위하여, DTW 거리를 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 거리로 사용하는 경우를 전제하여 설명한다.
상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터와 상기 대표 시계열 데이터 사이의 DTW(Dynamic Time Warping) 거리의 히스토그램을 생성하고, 상기 히스토그램 상에서 기 지정 된 요건을 만족하는 DTW 거리를 상기 한계치로 결정할 수 있다.
특정 클러스터에 속한 측정치 시계열 데이터들의 상기 클러스터의 대표 시계열 데이터와의 DTW 거리는 대부분 도 22와 같이 분포 한다. 즉, 상기 클러스터의 대표 시계열 데이터와의 DTW 거리의 빈도 그래프(81)는 0으로부터 점차 증가하다가 감소하는 패턴을 가질 것이다. 상기 한계치는 도 22에 도시된 것과 같은 히스토그램 상에서 기 지정 된 요건을 만족하는 DTW 거리로 결정된다. 실제 측정치 시계열 데이터가 수신되고(S214), 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터 사이의 DTW 거리가 상기 한계치를 초과하면 이상(anomaly) 판정이 내려지고, 반대의 경우에는 정상 판정이 내려질 수 있을 것이다(S216).
상기 기 지정 된 요건은, 상기 클러스터에 속한 전체 측정치 시계열 데이터 중 DTW 거리의 오름 차순으로 기 지정된 비율이 포함 되도록 하는 것일 수 있다. 예를 들어, 클러스터에 속한 측정치 시계열 데이터가 1000개 인 경우, 총 1000의 빈도 중 99%인 990의 빈도가 상기 히스토그램 상에서 포함 되도록 하는 DTW 거리가 상기 한계치로 결정 될 수 있다.
상기 기 지정 된 요건은, 상기 히스토그램 상의 평균 DTW 거리 및 표준 편차를 연산한 후, 상기 평균 DTW 거리에 기 지정 된 배수의 표준 편차를 합산한 것일 수도 있다.
일 실시예에서, 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 전반적 비정상(global anomaly)으로 판정된 경우, 어느 시점의 시계열 데이터에 그 원인이 있는지에 대한 정보가 추가적으로 제공 될 수 있다.
도 23에 도시 된 바와 같이, 예측된 측정치 시계열 데이터(82)가 존재하는 상황에서 실제 측정치 시계열 데이터(83)가 입력 된 경우를 가정하자. 도 24에는 예측된 측정치 시계열 데이터(82)와 실제 측정치 시계열 데이터(83)의 각 시점 별 데이터 차이 값(예를 들어, 절대 값)을 가리키는 로컬 코스트 매트릭스가 도시 되어 있다. 도 23에 도시된 바와 같이 시점은 총 10개인데, 상기 매트릭스에서 (제1 시점, 제1 시점)에서 (제10 시점, 제10 시점)까지, 상기 차이 값이 가장 작은 인접 셀으로 이동하는 방식에 의하여, 최소 비용 경로가 탐색 될 수 있다.
상기 최소 비용 경로의 탐색이 완료 된 후, 예측된 측정치 시계열 데이터(82)의 각 시점을 기준으로, 상기 최소 비용 경로에 속하는 데이터 차이 값을 합산하여, 상기 비정상 영향도를 생성할 수 있다. 예를 들어, 제1 시점의 경우에는 (제1 시점, 제1 시점)의 차이 값이 '1'으로 비정상 영향도가 연산되고, 제5 시점의 경우 총 4개 데이터 차이 값이 최소 비용 경로에 속하기 때문에, 그 데이터 차이 값인 4, 5, 0, 1을 각각 합산한 '10'을 비정상 영향도가 연산된다. 즉, 각 시점 별로 전반적 비정상으로 판정되는 데 영향을 주는 정도인 비정상 영향도는 제1 시점 부터 제10 시점의 순서로 '1, 3, 7, 3, 10, 2, 3, 6, 9, 6)이 된다.
상기 비정상 영향도는 도 25에 도시된 것과 같이 관리자의 단말 장치에 표시 되어, 어느 시점이 문제인지 관리자가 직관적으로 파악할 수 있도록 할 수 있다. 상기 비정상 영향도가 클수록, 더 강하게 표시하거나, 더 강조하여 표시하거나, 음향 등의 추가적인 알람 수단이 동원 될 수 있다.
지금까지 도 2 내지 도 25를 참조하여 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.
상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.
시계열 데이터 모니터링 장치
이하, 도 26을 참조하여, 본 발명의 또 다른 실시예에 따른 시계열 데이터 모니터링 장치의 구성 및 동작을 설명한다.
도 26에 도시된 바와 같이, 본 실시예에 따른 시계열 데이터 모니터링 장치(20)는 프로세서(200), 메모리(206), 네트워크 인터페이스(204), 스토리지(208) 및 시스템 버스(202)를 포함한다. 프로세서(200), 네트워크 인터페이스(204), 스토리지(208) 및 메모리(206)는 시스템 버스(202)를 통하여 데이터를 송수신한다. 메모리(206)는 트레이닝 기간 동안의 측정치 시계열 데이터를 분석하여 예측 기간의 상기 측정치 시계열 데이터를 예측하기 위한 컴퓨터 프로그램을 로드한다. 프로세서(200)는 메모리에 로드 된 컴퓨터 프로그램을 실행한다.
네트워크 인터페이스(204)는, 복수의 센서 및 환경 데이터 관리 장치에 연결된 네트워크를 통하여 트레이닝 기간의 측정치 시계열 데이터 및 환경 데이터를 수신하고, 예측 기간의 환경 데이터 및 실제 측정치 시계열 데이터를 수신하며, 예측 기간의 측정치 시계열 데이터의 클러스터 정보 또는 예측 기간의 측정치 시계열 데이터의 예측 결과 또는 측정치 시계열 데이터의 모니터링 결과를 네트워크 인터페이스(204)를 통하여 단말 장치에 송신한다.
스토리지(208)는 네트워크 인터페이스(204)를 통하여 수신 된 측정치 시계열 데이터, 상기 환경 데이터 및 상기 컴퓨터 프로그램에 의하여 조회 되는 측정치 시계열 클러스터링 결과 데이터(280), 환경 시계열 클러스터링 결과 데이터(282), 측정치 시계열 데이터 클러스터 별 회귀 모델(284), 시점 별 관리 범위 정보(286) 및 전반적인 비정상 범위 정보(288)을 저장할 수 있다.
측정치 시계열 클러스터링 결과 데이터(280)는 트레이닝 기간 동안의 측정치 시계열 데이터를 클러스터링 한 결과와 각 클러스터의 대표 시계열 데이터를 포함한다.
환경 시계열 클러스터링 결과 데이터(282)는 트레이닝 기간 동안의 환경 시계열 데이터를 클러스터링 한 결과와 각 클러스터의 대표 시계열 데이터를 포함한다.
측정치 시계열 데이터 클러스터 별 회귀 모델(284)은, 각 측정치 시계열 데이터의 클러스터 별 회귀 모델의 구성 정보를 포함한다. 상기 회귀 모델의 구성 정보는, 회귀 모델 타입 정보 및 인자 리스트(factor list)를 포함할 수 있다.
시점 별 관리 범위 정보(286)는, 각각의 측정치 시계열 데이터 클러스터 별로 그 클러스터에 속한 트레이닝 기간 동안의 측정치 시계열 데이터의 각 시점 별 표준 편차를 포함할 수 있다.
전반적인 비정상(global anomaly) 범위 정보(288)는, 각각의 측정치 시계열 데이터 클러스터 별로 그 클러스터의 대표 시계열 데이터와의 DTW 거리 값을 가리키는 한계치를 포함할 수 있다.
스토리지(208)에는 각 측정치 시계열 데이터 별로, 상기 최적 분류 모델에 대한 정보가 더 저장될 수 있다.
상기 컴퓨터 프로그램은 트레이닝 로직(260), 예측 로직(262) 및 모니터링 로직(264)을 포함한다.
트레이닝 로직(260)은, 트레이닝 기간 동안의 기 지정된 주기 단위의 측정치 시계열 데이터를 복수의 클러스터로 클러스터링 하는 오퍼레이션과, 상기 트레이닝 기간 동안의 복수의 환경 데이터를 수집하는 오퍼레이션과, 상기 복수의 환경 데이터 중 적어도 일부를 인자(factor)로 선택하는 오퍼레이션과, 상기 인자를 가리키는 축들로 구성되는 공간 또는 평면 상에서 상기 측정치 시계열 데이터의 클러스터를 최적으로 분류하는 분류 모델을 생성하는 오퍼레이션과, 상기 생성된 분류 모델의 성능 지표 값을 결정하는 오퍼레이션과, 상기 인자로 선택하는 단계, 상기 분류 모델을 생성하는 단계 및 상기 성능 지표 값을 결정하는 단계를, 상기 인자의 선택을 변경해 가면서 반복하여, 상기 성능 지표 값을 기준으로 상기 생성된 분류 모델 중 최적 분류 모델을 선정하는 오퍼레이션을 포함한다.
예측 로직(262)은, 상기 최적 분류 모델을 이용하여, 상기 예측 기간의 상기 측정치 시계열 데이터의 클러스터를 예측 하는 오퍼레이션과, 상기 예측 된 측정치 시계열 데이터의 클러스터를 위한 회귀 모델을 이용하여, 상기 예측 기간의 상기 측정치 시계열 데이터를 예측하는 오퍼레이션을 포함한다.
모니터링 로직(264)은, 상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터의 시점 별 변동성에 따라, 각 시점 별 관리 범위를 설정하는 오퍼레이션과, 상기 실제 측정치 시계열 데이터가 관리 범위 내에 위치하더라도, 상기 실제 측정치 시계열 데이터와 상기 예측된 측정치 시계열 데이터의 차이가 상기 대표 시계열 데이터를 바탕으로 얻어진 한계치(threshold)를 초과하는 경우, 전반적 비정상(global anomaly)으로 판정 하는 오퍼레이션을 포함한다.
본 명세서에서, 상기 오퍼레이션은, 프로세서(200)에 의하여 해석되고 실행 될 수 있으며, 특정 기능을 수행하는 일련의 이상의 명령어로 구성 된다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.

Claims (11)

  1. 트레이닝 기간 동안의 측정치 시계열 데이터 및 환경 데이터에 대한 분석 결과에 따라, 예측 기간의 환경 데이터로부터 상기 예측 기간의 측정치 시계열 데이터의 클러스터를 예측하는 단계;
    상기 예측 된 클러스터에 속한 복수의 측정치 시계열 데이터를 기초로 상기 예측 기간의 제1 시점에서의 상기 복수의 측정치 시계열 데이터의 변동성을 산출하고, 상기 산출된 변동성에 기초하여 상기 제1 시점의 관리 범위를 설정하는 단계; 및
    상기 예측 기간의 실제 측정치 시계열 데이터가 상기 제1 시점의 관리 범위를 만족하는지 모니터링하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  2. 제1 항에 있어서,
    상기 예측 기간은 상기 제1 시점 및 상기 제1 시점 이후의 제2 시점을 포함하고,
    상기 제1 시점의 관리 범위를 설정하는 단계는, 상기 제1 시점의 관리 범위와 상기 제2 시점의 관리 범위를 서로 다른 값으로 설정하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  3. 제2 항에 있어서,
    상기 제1 시점의 관리 범위와 상기 제2 시점의 관리 범위를 서로 다른 값으로 설정하는 단계는,
    상기 복수의 측정치 시계열 데이터의 변동성이 상기 제2 시점보다 상기 제1 시점에서 더 큰 경우, 상기 제1 시점의 관리 범위를 상기 제2 시점의 관리 범위보다 더 큰 값으로 설정하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  4. 제1 항에 있어서,
    상기 예측 된 클러스터를 위한 회귀 모델을 이용하여, 상기 예측 기간의 측정치 시계열 데이터를 예측하는 단계를 더 포함하되,
    상기 모니터링하는 단계는,
    각 시점의 상기 실제 측정치 시계열 데이터와 상기 예측 된 측정치 시계열 데이터 사이의 차이 값이, 상기 각 시점 별 관리 범위 이내인지 여부를 판정하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  5. 제1 항에 있어서,
    상기 실제 측정치 시계열 데이터가 상기 제1 시점의 관리 범위를 만족하더라도, 상기 실제 측정치 시계열 데이터와 상기 예측 기간의 예측된 측정치 시계열 데이터의 차이가 상기 예측된 클러스터의 대표 시계열 데이터를 바탕으로 얻어진 한계치(threshold)를 초과하는 경우, 비정상으로 판정 하는 단계를 더 포함하는,
    시계열 데이터 모니터링 방법.
  6. 제5 항에 있어서,
    상기 비정상으로 판정 하는 단계는,
    상기 예측 된 클러스터에 속한 트레이닝 기간 동안의 각 측정치 시계열 데이터와 상기 대표 시계열 데이터 사이의 시계열 간 거리의 히스토그램을 생성하는 단계; 및
    상기 히스토그램 상에서 기 지정 된 요건을 만족하는 상기 시계열 간 거리를 상기 한계치로 결정하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  7. 제6 항에 있어서,
    상기 히스토그램 상에서 기 지정 된 요건을 만족하는 상기 시계열 간 거리를 상기 한계치로 결정하는 단계는,
    상기 클러스터에 속한 전체 측정치 시계열 데이터 중 상기 시계열 간 거리의 오름 차순으로 기 지정된 비율이 포함 되도록 하는 상기 시계열 간 거리를 한계치로 결정하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  8. 제6 항에 있어서,
    상기 히스토그램 상에서 기 지정 된 요건을 만족하는 상기 시계열 간 거리를 상기 한계치로 결정하는 단계는,
    상기 히스토그램 상의 상기 시계열 간 거리의 평균 값 및 표준 편차를 이용하여 상기 한계치를 결정하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  9. 제5 항에 있어서,
    상기 비정상으로 판정 하는 단계는,
    상기 예측된 측정치 시계열 데이터와 상기 실제 측정치 시계열 데이터의 각 시점 별 데이터 차이 값을 가리키는 로컬 코스트 매트릭스를 생성하는 단계;
    상기 로컬 코스트 매트릭스 상에서 최소 비용 경로를 탐색하는 단계; 및
    상기 최소 비용 경로를 이용하여, 각 시점 별 비정상 영향도를 생성하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  10. 제9 항에 있어서,
    상기 각 시점 별 비정상 영향도를 생성하는 단계는,
    상기 예측된 측정치 시계열 데이터의 각 시점을 기준으로, 상기 최소 비용 경로에 속하는 데이터 차이 값을 합산하여, 상기 비정상 영향도를 생성하는 단계를 포함하는,
    시계열 데이터 모니터링 방법.
  11. 트레이닝 기간 동안의 측정치 시계열 데이터를 분석하여 예측 기간의 상기 측정치 시계열 데이터를 예측하기 위한 컴퓨터 프로그램을 로드 하는 메모리;
    상기 메모리에 로드된 상기 컴퓨터 프로그램을 실행하는 프로세서;
    네트워크 인터페이스; 및
    상기 트레이닝 기간 동안의 측정치 시계열 데이터, 환경 데이터 및 상기 컴퓨터 프로그램에 의하여 조회 되는 데이터를 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    상기 트레이닝 기간 동안의 측정치 시계열 데이터 및 상기 환경 데이터에 대한 분석 결과에 따라, 상기 예측 기간의 측정치 시계열 데이터의 클러스터를 예측하는 오퍼레이션;
    상기 예측 된 클러스터에 속한 복수의 측정치 시계열 데이터를 기초로 상기 예측 기간의 제1 시점에서의 상기 복수의 측정치 시계열 데이터의 변동성을 산출하고, 상기 산출된 변동성에 기초하여 상기 제1 시점의 관리 범위를 설정하는 오퍼레이션; 및
    상기 예측 기간의 실제 측정치 시계열 데이터가 상기 제1 시점의 관리범위를 만족하는지 모니터링하는 오퍼레이션을 포함하는,
    시계열 데이터 모니터링 장치.
KR1020150188589A 2015-12-29 2015-12-29 시계열의 데이터를 모니터링 하는 방법 및 그 장치 KR102215690B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150188589A KR102215690B1 (ko) 2015-12-29 2015-12-29 시계열의 데이터를 모니터링 하는 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150188589A KR102215690B1 (ko) 2015-12-29 2015-12-29 시계열의 데이터를 모니터링 하는 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20170078252A KR20170078252A (ko) 2017-07-07
KR102215690B1 true KR102215690B1 (ko) 2021-02-16

Family

ID=59353814

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150188589A KR102215690B1 (ko) 2015-12-29 2015-12-29 시계열의 데이터를 모니터링 하는 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102215690B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102071071B1 (ko) * 2018-02-06 2020-03-03 동국대학교 산학협력단 회귀 분석을 위한 리레이블링 방법
KR102448431B1 (ko) * 2018-04-23 2022-09-28 주식회사 엔씨소프트 비정상 이벤트 탐지 방법 및 장치
US11494618B2 (en) * 2018-09-04 2022-11-08 Nec Corporation Anomaly detection using deep learning on time series data
JP2020114570A (ja) * 2019-01-17 2020-07-30 株式会社明電舎 操作値算出装置
CN110032495B (zh) * 2019-03-28 2023-08-25 创新先进技术有限公司 数据异常检测方法和装置
CN110532297A (zh) * 2019-08-01 2019-12-03 河海大学 一种基于层次聚类的符号化水文时间序列异常模式检测方法
KR102140012B1 (ko) * 2019-11-20 2020-07-31 한국건설기술연구원 건물의 에너지 사용 패턴 분석 방법 및 그 장치
KR102624317B1 (ko) * 2020-02-27 2024-01-12 주식회사 케이티 대상 건물의 에너지 소비를 감지하는 서버, 방법 및 컴퓨터 프로그램
EP4002041B1 (en) * 2020-11-19 2023-04-12 Endress+Hauser Group Services AG Method of predictive monitoring of a variable of a medium and of a measurement accuracy of a measurement device measuring this variable
KR102541782B1 (ko) * 2021-03-22 2023-06-12 대한민국 (관리부서 : 환경부 국립환경과학원장) 제작자동차 배출가스 인증시험 데이터를 이용한 임의설정 분석 프로그램이 기록된 컴퓨터 판독매체 및 분석방법
CN116860562B (zh) * 2023-09-04 2023-11-24 湖南中青能科技有限公司 一种用于数据中台数据质量的监控方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076091A (ja) 2013-10-09 2015-04-20 富士通株式会社 時系列予測アンサンブル
US20150112900A1 (en) 2013-10-23 2015-04-23 Honda Motor Co., Ltd. Time-series data prediction device, time-series data prediction method, and program
JP2015088079A (ja) 2013-11-01 2015-05-07 株式会社日立パワーソリューションズ 異常診断システム及び異常診断方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06187030A (ja) * 1992-12-17 1994-07-08 Hitachi Ltd 時系列モデルによる制御系異常診断方法、及び表示方法
KR20090073937A (ko) 2007-12-31 2009-07-03 강환일 유전자알고리즘과 퍼지시스템을 이용한단기전력부하예측방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076091A (ja) 2013-10-09 2015-04-20 富士通株式会社 時系列予測アンサンブル
US20150112900A1 (en) 2013-10-23 2015-04-23 Honda Motor Co., Ltd. Time-series data prediction device, time-series data prediction method, and program
JP2015088079A (ja) 2013-11-01 2015-05-07 株式会社日立パワーソリューションズ 異常診断システム及び異常診断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문(2014.03.31)*

Also Published As

Publication number Publication date
KR20170078252A (ko) 2017-07-07

Similar Documents

Publication Publication Date Title
KR102215690B1 (ko) 시계열의 데이터를 모니터링 하는 방법 및 그 장치
KR102340258B1 (ko) 시계열의 데이터를 예측 하는 방법 및 그 장치
KR102159692B1 (ko) 빅데이터 분석을 통한 태양광 발전량 예측 장치 및 방법
CN108734355B (zh) 一种应用于电能质量综合治理场景的短期电力负荷并行预测方法及系统
Wang et al. Short-term wind power prediction based on multidimensional data cleaning and feature reconfiguration
Xiao et al. Data mining in building automation system for improving building operational performance
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
Huang et al. An effective fault diagnosis method for centrifugal chillers using associative classification
CN110750524A (zh) 一种有源配电网故障特征的确定方法及系统
Sengar et al. Ensemble approach for short term load forecasting in wind energy system using hybrid algorithm
CN115270986A (zh) 数据异常检测方法、装置和计算机设备
CN114462623B (zh) 基于边缘计算的数据分析方法、系统及平台
CN113408548A (zh) 变压器异常数据检测方法、装置、计算机设备和存储介质
Li et al. Deep spatio-temporal wind power forecasting
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN114781520A (zh) 基于改进lof模型的天然气行为异常检测方法及系统
CN111159900A (zh) 风机风速的预测方法及装置
KR102009290B1 (ko) 건물 분석 장치 및 방법
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN112508278A (zh) 一种基于证据回归多模型的多联供系统负荷预测方法
Naoui et al. Integrating iot devices and deep learning for renewable energy in big data system
CN114330875A (zh) 环境信息确定方法、装置、电子设备及存储介质
Ghebriout et al. Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices
CN113344073A (zh) 一种基于融合进化算法的日负荷曲线聚类方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant