KR102428867B1 - 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법 - Google Patents

시계열 데이터의 변화 추세를 고려한 유사도 분석 방법 Download PDF

Info

Publication number
KR102428867B1
KR102428867B1 KR1020200157443A KR20200157443A KR102428867B1 KR 102428867 B1 KR102428867 B1 KR 102428867B1 KR 1020200157443 A KR1020200157443 A KR 1020200157443A KR 20200157443 A KR20200157443 A KR 20200157443A KR 102428867 B1 KR102428867 B1 KR 102428867B1
Authority
KR
South Korea
Prior art keywords
time series
data
series data
value
similarity
Prior art date
Application number
KR1020200157443A
Other languages
English (en)
Other versions
KR20220070667A (ko
Inventor
김학철
한혁
진성일
Original Assignee
주식회사 리얼타임테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 리얼타임테크 filed Critical 주식회사 리얼타임테크
Priority to KR1020200157443A priority Critical patent/KR102428867B1/ko
Priority to PCT/KR2020/017229 priority patent/WO2022107975A1/ko
Publication of KR20220070667A publication Critical patent/KR20220070667A/ko
Application granted granted Critical
Publication of KR102428867B1 publication Critical patent/KR102428867B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0235Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold

Abstract

본 발명은 시계열 데이터의 유사도를 분석하는 것에 관한 것으로, 특히, 시계열 데이터의 변화 추세를 고려한 유사도값을 산출하여 비교대상 시계열 데이터간의 유사정도를 정확하게 평가할 수 있는 기술에 관한 것이다.
본 발명에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법은, 유사도 분석장치에서 각 시간대별 데이터값을 갖는 다수의 시계열 데이터를 수집하고, 수집된 시계열 데이터간의 동일 시간대별 데이터 차이값을 산출하는 제1 단계와, 유사도 분석장치에서 각 시간대별 현재 시간 데이터 차이값과 이전 시간 데이터 차이값인 추세 차이값을 산출하는 제2 단계 및, 유사도 분석장치에서 각 시간대별 추세 차이값의 절대값을 산출하고, 산출된 절대값들의 평균값을 해당 시계열 데이터간의 유사도값으로 결정하는 제3 단계를 포함하여 구성되는 것을 특징으로 한다.

Description

시계열 데이터의 변화 추세를 고려한 유사도 분석 방법{METHOD FOR ANALYSING SIMILITY OF TIME-SERIES DATA CONSIDERING THE CHANGE TREND}
본 발명은 시계열 데이터의 유사도를 분석하는 것에 관한 것으로, 특히, 시계열 데이터의 변화 추세를 고려한 유사도값을 산출하여 비교대상 시계열 데이터간의 유사정도를 정확하게 평가할 수 있는 기술에 관한 것이다.
산업의 발전과 전산화를 통해 다양한 형태의 시계열 데이터가 생성되고 방대하고 다양한 종류의 시계열에 대해 복합적인 연관성 분석 필요성이 증가하고 있다.
이상 탐지 방법은 각 시계열 변수 별로 시계열 데이터의 특징을 분석하고, 분석 결과에 따라 공정의 이상 유무를 예측하는 방식이었다. 즉, 다수의 시계열 변수를 모니터링하고 있음에도, 단일 시계열 변수를 기준으로 상호 독립적으로 이상 탐지를 위한 분석이 수행되었다. 이에 따라, 시계열 변수 간의 상관 관계가 이상 탐지 과정에 반영되지 못했고, 그 결과로 이상 탐지의 정확도가 떨어지는 문제가 있었다.
기존의 단일 시계열 분석 방법을 이용한 한계를 해결하기 위해 다중 시계열 데이터 패턴 추출 및 연관성 분석과 같이 확장성을 가지는 효율적인 시계열 데이터 분석 방법이 필요하다.
일반적으로 종래 시계열 데이터의 유사도는 단순히 시계열 데이터 간의 차이값을 근거로 산출한다.
그러나, 시계열 데이터간의 차이값을 이용하여 유사도를 평가하는 방법은 유사한 추세를 나타내는 시계열 데이터에 대해서 서로 다른 유사도 값을 도출하는 문제가 있다.
도1에 도시된 바와 같은 서로 다른 시계열 데이터를 이용하여 시계열 데이터1(시계열1)에 대한 시계열 데이터2(시계열2)와 시계열 데이터3(시계열3)의 유사도를 산출하고자 하는 경우, 도2에 도시된 바와 같이 각 시간대별 두 시계열 데이터의 차이값(De)을 이용한다. 도2는 도1의 시계열 데이터1과 시계열 데이터2에 대한 데이터 차이값(De)을 나타낸 것으로, 도2에서 v1,1 은 시계열 데이터1의 T1시간의 데이터값이고, v2,1 은 시계열 데이터2의 T1시간의 데이터값이며, v1,10 은 시계열 데이터1의 T10시간의 데이터값이고, v2,10 은 시계열 데이터2의 T10시간의 데이터값이다.
예컨대, 시계열 데이터i 와 시계열 데이터 j 간 유사도는 하기 수학식1을 통해 산출될 수 있다.
Figure 112020125424666-pat00001
여기서, vt,i, vt,j는 각각 "t" 시간에서의 시계열 데이터i 및 시계열 데이터j의 데이터 값이다.
수학식1을 이용한 도1의 시계열 데이터1과 시계열 데이터2 간의 유사도값은 "29.15476"이고, 시계열 데이터1과 시계열 데이터3간의 유사도값은 "61.09828"이다. 이때, 유사도값이 낮을수록 비교 대상 시계열 데이터간 유사도가 높은 것으로 평가된다.
즉, 수학식1에 의해 산출된 유사도값들에 의하면, 시계열 데이터2가 시계열 데이터3 보다 시계열 데이터1과의 유사도가 일정 이상 높은 것으로 평가된다.
그러나, 시계열 데이터1과 시계열 데이터2 및 시계열 데이터3을 시각화하여 살펴보면, 도3에 도시된 바와 같이, 시계열 데이터3도 시계열 데이터2와 마찬가지로 그 차이값의 정도만 다를 뿐 시계열 데이터1과 유사한 추세를 나타내는 것을 알 수 있다.
이와 같이 시계열 데이터들을 그 차이값으로만 유사도를 산출하여 유사정도를 평가하는 경우, 차이값의 정도 차이로 인해 유사도가 다르게 평가되는 오류가 발생할 수 있다.
1. 한국공개특허 제10-2019-0013038호 (명칭 : 다중 특징 추출기법을 이용한 다중 시계열 데이터 추세 예측 시스템 및 예측 방법) 2. 한국공개특허 제10-2019-0009687호 (명칭 : 시계열 데이터의 연관성 분석 장치 및 방법)
이에, 본 발명은 상기한 사정을 감안하여 창출된 것으로, 시계열 데이터의 각 시간대에서의 현재 시간대 데이터 차이값과 이전 시간대 데이터 차이값간의 차이값의 평균치를 이용하여 시계열 데이터 유사도를 산출함으로써, 시계열 데이터간의 데이터 차이값의 정도는 물론 데이터값의 증감추세를 고려하여 보다 정확한 유사도를 평가할 수 있도록 해 주는 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 제공함에 그 기술적 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 일측면에 따르면, 유사도 분석장치에서 각 시간대별 데이터값을 갖는 다수의 시계열 데이터를 수집하고, 수집된 시계열 데이터간의 동일 시간대별 데이터 차이값을 산출하는 제1 단계와, 유사도 분석장치에서 각 시간대별 현재 시간 데이터 차이값과 이전 시간 데이터 차이값인 추세 차이값을 산출하는 제2 단계 및, 유사도 분석장치에서 각 시간대별 추세 차이값의 절대값을 산출하고, 산출된 절대값들의 평균값을 해당 시계열 데이터간의 유사도값으로 결정하는 제3 단계를 포함하여 구성되고, 상기 제1 단계는 각 시간대별 추세 데이터값에서 기 설정된 기준 차이값 이상의 데이터 차이값이 나타나는 이상 구간이 존재하고, 이 이상 구간의 각 시간대별 데이터 차이값의 증감상태가 동일한 경우 해당 구간의 각 시계열 데이터 데이터값을 일정 시간 단위의 평균값으로 갱신하여 시계열 데이터의 데이터값의 변화 정도를 다운시킴으로서 시계열 데이터간 유사도가 보다 높게 평가되도록 하며, 상기 제2 단계는 각 시간대별 추세 데이터값에서 "0"이 아닌 추세 데이터값을 갖는 변동 구역이 존재하는 경우, 각 시계열 데이터에서 변동 구역 시간대의 데이터값 증감상태가 상이한 조건을 만족하면, 변동 구역의 추세 차이값에 기 설정된 추세 가중치를 적용하여 변동 구역 시간대의 추세 차이값을 보다 큰 값으로 갱신하여 시계열 데이터간 유사도가 보다 낮게 평가되도록 하는 것을 특징으로 하는 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법이 제공된다.
또한, 상기 유사도 분석장치는 이상 구간에 해당하는 시간 단위의 평균값으로 시계열 데이터의 데이터값을 다운시키는 것을 특징으로 하는 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법이 제공된다.
삭제
삭제
본 발명에 의하면, 시계열 데이터간의 데이터 차이값의 정도는 물론 데이터값의 증감추세를 고려하여 보다 정확하게 비교 대상 시계열 데이터간 유사도를 평가할 수 있다.
도1 내지 도3은 종래 시계열 데이터간 유사도 산출방법을 설명하기 위해 예시한 도면.
도4는 본 발명이 적용되는 시계열 데이터의 변화 추세를 고려한 유사도 분석시스템의 개략적인 구성을 도시한 도면.
도5는 본 발명의 제1 실시예에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명하기 위한 흐름도.
도6과 도7은 도5의 시계열 데이터간 유사도 산출방법을 설명하기 위해 예시한 도면.
도8은 본 발명의 제2 실시예에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명하기 위한 흐름도.
도9는 도8의 시계열 데이터간 유사도 산출방법을 설명하기 위해 예시한 도면.
도10은 본 발명의 제3 실시예에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명하기 위한 흐름도.
도11과 도12는 도10의 시계열 데이터간 유사도 산출방법을 설명하기 위해 예시한 도면.
본 발명에 기재된 실시예 및 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 표현하는 것은 아니므로, 본 발명의 권리범위는 본문에 설명된 실시예 및 도면에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도4는 본 발명이 적용되는 시계열 데이터의 변화 추세를 고려한 유사도 분석시스템의 개략적인 구성을 도시한 도면이다.
도4를 참조하면, 본 발명에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 시스템은, 데이터 소스(101 내지 10N), 수집 장치(50) 및 유사도 분석 장치(100)를 포함할 수 있다. 이때, 수집 장치(50)와 유사도 분석 장치(100)는 동일한 물리적 컴퓨팅 장치 내의 서로 다른 로직(logic)의 형태로 구현될 수 있다.
적어도 하나의 데이터 소스(101 내지 10N)는 분석 대상이 되는 시계열 데이터(시계열데이터1 내지 시계열데이터N)를 제공하는 장치 또는 저장소이다. 예를 들어, 분석 대상 데이터가 온도, 습도 등에 관한 측정 값인 경우, 데이터 소스(101 내지 10N)는 상기 측정 값을 제공하는 각종 센서가 될 수 있고, 분석 대상 데이터가 환율, 주가지수 등의 금융 데이터인 경우, 데이터 소스(101 내지 10N)는 상기 금융 데이터를 제공하는 저장소 또는 장치가 될 수 있다.
상기 수집 장치(50)는 적어도 하나의 데이터 소스(101 내지 10N)로부터 다중 시계열 데이터를 수집하는 장치이다. 예컨대, 수집 장치(50)는 제1 데이터 소스(101)로부터 제1 시계열 데이터를 수집하고, 제2 데이터 소스(102)로부터 제2 시계열 데이터를 수집할 수 있으며, 다중 시계열 데이터를 수집하는 방식은 어떠한 방식이 되더라도 무방하다.
유사도 분석 장치(100)는 각 시간대에서의 시계열 데이터의 데이터 값의 차이를 산출하고, 각 데이터 차이값의 절대값의 평균값을 비교대상 시계열 데이터간의 유사도값으로 결정하여 해당 비교대상 시계열 데이터간의 유사도를 평가한다.
이러한 유사도 분석 장치(100)는 유사도 분석 기능이 구비된 컴퓨팅 장치로서, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다.
이어, 본 발명에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명한다.
도5는 본 발명의 제1 실시예에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명하기 위한 흐름도이다.
먼저, 유사도 분석 장치(100)는 수집 장치(50)로부터 다수의 시계열 데이터를 제공받아 저장하고, 기 설정된 조건에 따라 적어도 둘 이상의 유사도 분석 대상인 시계열 데이터들을 선택한다. 본 실시예에서는 도1에 도시된 시계열 데이터1과 시계열 데이터2를 예시하여 설명한다.
상기한 상태에서, 유사도 분석 장치(100)는 비교 대상 시계열 데이터1과 시계열 데이터2 간의 각 시간대별 데이터 차이값을 산출한다(ST100). 도6은 시계열 데이터1(a)과, 시계열 데이터 2(b) 및, 데이터 차이값(c)을 시계열적으로 표현한 도면이다.
이어, 유사도 분석 장치(100)는 각 시간대별 현재 시간의 데이터 차이값과 이전 시간의 데이터 차이값간의 차이값을 추세 차이값으로 산출한다(ST200). 즉, 도6에 도시된 데이터 차이값(c)으로부터 추세 차이값이 산출되는 바, T1~T10의 추세 차이값은 "0,0,-2,-1,0,0,0,0,0"으로 산출된다.
그리고, 유사도 분석 장치(100)는 추세 차이값의 절대값의 평균값을 시계열 데이터의 유사도값으로 결정한다(ST300). 즉, ST200 에서 산출된 각 추세 차이값의 절대값을 합산한 값은 "3"이고, 이의 평균값은 "3÷9=0.33"으로, 시계열 데이터1과 시계열 데이터2 간의 유사도값은 "0.33"으로 결정된다. 이때, 유사도값이 작을수록 비교 대상 시계열 데이터간의 유사도가 높은 것으로 판단되는 바, 시계열 데이터1과 시계열 데이터2 간의 유사도값은 "1" 미만으로 상호간 유사도가 높은 것으로 평가된다.
즉, 도6의 (d) 구간에서 추세 패턴의 변동이 발생된 것으로, 변동 구간(d)의 기울기는 이전 시간 대비 변경 정도를 나타낸다.
한편, 도1에 도시된 시계열 데이터1과 시계열 데이터3을 도5와 같은 본 발명의 유사도값 산출방법에 적용하여 보면,
T1~T10의 추세 차이값은 "0,0,-2,2,-1,1,0,-2,0"으로 산출되고, 그 절대값의 평균값은 "0.77"로 산출되는 바, 시계열 데이터1과 시계열 데이터3 간의 유사도값 또한 "1" 미만으로 상호간 유사도가 매우 높은 것으로 판단한다. 이때, 유사도의 높고 낮음의 판단 기준은 유사도값 "3" 으로 설정될 수 있다.
즉, 종래 시계열 데이터간의 차이값만을 이용하여 유사도값을 산출하는 경우에는 시계열 데이터1과 시계열 데이터2 간의 유사도값은 "29.15476"이고, 시계열 데이터1과 시계열 데이터3 간의 유사도값은 "61.09828"로, 비교 대상간 유사도에 상당한 차이가 있는 것으로 판단되었으나, 본 발명과 같은 유사도값 산출방법을 적용한 경우, 시계열 데이터1과 시계열 데이터2 간의 유사도값은 "0.33"이고, 시계열 데이터1과 시계열 데이터3 간의 유사도값은 "0.77"로 두 비교대상 모두 상호간 유사도가 매우 높은 것으로 평가할 수 있다.
이와 대비하여, 유사도가 상이한 경우를 예시하면 보면,
도7과 같은 시계열 데이터1(a)과 시계열 데이터2(b)를 비교 대상으로 하는 경우, T1~T10의 추세 차이값(c)은 "8,-9,2,-1,2,5,-7,2,-3"으로 산출되고, 그 절대값의 평균값은 "39÷9=4.33"으로 산출되는 바, 시계열 데이터1과 시계열 데이터2 간의 유사도값은 "3" 이상으로 상호간 유사도가 낮은 것으로 판단한다. 이는 도7의 (a)와 (b)의 시각적 패턴에서 시간대별 기울기 변화가 큰 것으로 변동 비율이 높은 것으로 인지되며, 이에 대응되게 그 유사도값도 높은 값으로 산출되는 바, 비교대상 시계열 데이터간 유사도가 낮은 것으로 평가할 수 있다.
또한, 본 발명에 있어서는 서로 다른 두 시계열 데이터간의 유사도를 분석함에 있어서는, 증가 추세 또는 감소 추세를 반영하도록 실시할 수 있다.
도8은 본 발명의 제2 실시예에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명하기 위한 흐름도로서, 도9에 도시된 시계열 데이터1과 시계열 데이터2간의 유사도값 산출 방법을 예시하여 설명한다.
도8을 참조하면, 유사도 분석 장치(100)에서 각 시간대별 시계열 데이터1과 시계열 데이터2 간의 데이터 차이값이 산출하고(ST100), 각 시간대별 현재 시간의 데이터 차이값과 이전 시간의 데이터 차이값간의 차이값을 추세 차이값으로 산출한다(ST200). 이때, 도9의 시계열 데이터1과 시계열 데이터2의 추세 차이값은 "0,-5,3,1,0,0,0,0,0"으로 산출된다.
이어, 유사도 분석 장치(100)는 ST200 단계에서 산출된 각 시간대별 추세 차이값에서 변동 구역이 존재하는지를 판단한다(ST410). 즉, 유사도 분석 장치(100)는 추세 차이값이 "0"이 아닌 추세 차이값이 존재하는지를 판단한다. 도9의 경우, 추세 차이값이 "-5,3,1"인 "T2~T5" 구간을 변동 구역으로 판단할 수 있다.
유사도 분석 장치(100)는 ST410 단계에서 변동 구역이 존재하는 경우, 해당 변동 구역에서의 각 시계열 데이터들의 증감상태를 확인하여 증감상태가 동일한지를 판단한다(ST420). 도9에서 변동 구역에 해당하는 T2~T3 에서의 시계열 데이터1(시계열 1)은 증가상태(a)이고, 시계열 데이터2(시계열 2)은 감소상태(b)인 것을 확인할 수 있다. 또한, 도9에서 변동 구역에 해당하는 T3~T4 에서의 시계열 데이터1(시계열 1)은 유지상태이고, 시계열 데이터2(시계열 2)은 증가상태이며, 변동 구역에 해당하는 T4~T5 에서의 시계열 데이터1(시계열 1)과 시계열 데이터2(시계열 2)는 모두 증가상태인 것을 확인할 수 있다.
유사도 분석 장치(100)는 ST420 단계에서 변동 구역에서의 각 시계열 데이터들의 증감상태가 동일하지 않다고 판단되면, 해당 변동 구역에 대응되는 추세 차이값에 기 설정된 추세 가중치를 적용하여 해당 추세 차이값을 갱신한다(ST430). 이때, 유사도 분석 장치(100)는 변동 구역에서 시계열 데이터 중 하나는 증가 상태이고, 나머지 하나는 감소 상태인 시간대의 추세 차이값에 추세 가중치를 적용할 수 있으며, 추세 가중치는 "1"을 초과하는 값, 예컨대 "1.5"로 설정하여 유사도가 멀어지도록 설정한다. 즉, 도9에서 T2~T3 에 해당하는 추세 차이값인 '-5"에 가중치 "1.5"를 적용하여 "-7.5"로 추세 차이값을 갱신한다. 이에 따라, 도9의 시계열 데이터1과 시계열 데이터2의 추세 차이값은 "0,-7.5,3,1,0,0,0,0,0"으로 갱신된다.
이후, 유사도 분석 장치(100)는 추세 차이값의 절대값의 평균값을 시계열 데이터의 유사도값으로 결정한다(ST300).
즉, 도9의 시계열 데이터1과 시계열 데이터2의 원본 추세 차이값은 "0,-5,3,1,0,0,0,0,0" 으로 그 유사도값은 "9÷9= 1"로 산출되나, 상기 ST430 단계에서 갱신된 추세 차이값은 "0,-7.5,3,1,0,0,0,0,0"로서 그 유사도값은 "11.5÷9=1.39"로 산출된다. 비교 대상 시계열 데이터의 증감 추세가 반대로 나타남에 따라 유사도값을 "1"보다 큰 "1.39"로 산출함으로써, 비교대상 시계열 데이터간의 유사도를 보다 낮게 평가하게 된다.
상기 제2 실시예에 의하면, 비교 대상 시계열 데이터간의 증감 추세를 반영하여 유사도값을 산출함으로써, 비교 대상 시계열 데이터간의 보다 정확한 유사도 분석이 가능하다.
또한, 본 발명에 있어서는 서로 다른 두 시계열 데이터간의 유사도를 분석함에 있어서는, 시간대별 증감 추세는 유사하지만 특정 구간의 짧은 시간 동안만 특이값이 나타남으로 인해 유사도가 일정 이하로 낮게 분석되는 것을 보완하도록 실시할 수 있다.
도10은 본 발명의 제3 실시예에 따른 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법을 설명하기 위한 흐름도로서, 도11에 도시된 시계열 데이터1과 시계열 데이터2간의 유사도 산출 방법을 예시하여 설명한다.
도10을 참조하면, 먼저 유사도 분석 장치(100)에서 각 시간대별 시계열 데이터1과 시계열 데이터2 간의 데이터 차이값이 산출한다(ST100).
유사도 분석 장치(100)는 상기 각 시간대별 데이터 차이값에서 데이터 차이값이 기준 차 이상인 이상 구간이 있는지를 판단한다(ST510). 이때, 유사도 분석 장치(100)는 데이터 차이값이 기준 차 이상인 이상 구간의 각 시계열 데이터의 증감상태를 확인하여 증감상태가 동일한 경우에 한하여 이상 구간을 확정한다. 도11의 시계열 데이터1과 시계열 데이터2의 데이터 차이값은 T2~T10 에서 "10,10,20,20,9,9,9,9,9,9"로 산출되고, 유사도 분석 장치(100)는 데이터 차이값이 기 설정된 기준 차이값, 예컨대 "5" 이상인 "T3 ~ T4" 구간(도11의 (a) 구간)을 이상 구간으로 판단한다.
이어, 유사도 분석 장치(100)는 ST510 단계에서 이상 구간이 존재하는 것으로 판단되면, 기 설정된 다운 구간 단위의 데이터 평균값을 이용하여 각 시계열 데이터를 다운 스케일링한다(ST520). 이때, 다운 구간 단위는 상기 ST510 단계에서 산출된 이상 구간과 동일한 범위로 설정할 수 있다. 도11에서 이상 구간이 "T3 ~ T4" 구간으로 두 개 시간(T3,T4) 범위인 바, 다운 구간 단위로 2개 시간 범위로 설정된다. 즉, 유사도 분석 장치(100)는 다운 구간 단위의 평균값으로 시계열 데이터를 다운 스케일링한다. 도11에서 다운 구간 단위는 "2"로서, Ti에서의 다운 데이터값은 Ti-2 ~ Ti 구간의 평균값으로 산출되는 바, 시계열 데이터1의 다운 데이터값은 " 3.33,4.33,4.33,3.33,4,5,6,6.33" 으로 생성되고, 시계열 데이터2의 다운 데이터값은 " 16.66,21,20.66,16,13,14,15,15.66"으로 생성된다. 도12는 시계열 데이터1(a)의 다운 데이터값(c)과 시계열 데이터2(b)의 다운 데이터값(d)을 시각적으로 표현한 것으로, 다운 데이터값들이 원본 시계열 데이터의 데이터값에 비해 기울기가 완화됨을 알 수 있다.
이어 유사도 분석 장치(100)는 상기 ST520 단계에서 생성된 각 시간대별 시계열 데이터1의 다운 데이터값과 시계열 데이터2의 다운 데이터값을 이용하여 추세 차이값을 산출하고(ST200), 각 시간대별 추세 차이값의 절대값을 산출한 후, 그 절대값들의 평균값을 해당 시계열 데이터간 유사도값으로 결정한다(ST300).
즉, 도12의 원본 시계열 데이터(a,b)간의 데이터 차이값은 " 10,10,20,20,9,9,9,9,9,9"로, 추세 데이터는 "0,10,0,-11,0,0,0,0,0"로 산출되고, 이 추세 데이터를 이용하여 산출된 유사도값은 "21÷9=2.33"이다.
한편, 도12의 다운 시계열 데이터(c,d)간의 데이터 차이값은 "13.33,16.66,16.33,12.66,9,9,9,9"로, 추세 차이값은 "3.33,-0.33,-3.66,-3.66,0,0,0"으로 산출되고, 이 추세 차이값을 이용하여 산출된 유사도값은 "10.98÷7 = 1.57"이다.
즉, 상기 실시예에 의하면 특정 짧은 구간에서 일시적인 데이터 차이값으로 인해 유사도가 높게 산출되어 비교 대상 시계열 데이터간의 유사도가 낮게 판단되는 것을 보완할 수 있다.
한편, 본 발명에 있어서는 상기 도10에서 이상 구간에 대해 시계열 데이터를 다운 스케일링하여 추세 차이값을 산출한 이후, 도8의 추세 차이값에서 변동 구역이 존재하는지를 판단하고, 변동 구역에서의 각 시계열 데이터의 증감상태가 동일하지 않는 경우 해당 변동 구역의 추세 차이값이 추세 가중치를 적용하는 동작(ST410 내지 ST430)을 추가하여 실시할 수 있다.
10 : 데이터 소스, 50 : 수집장치,
100 : 유사도 분석장치.

Claims (4)

  1. 유사도 분석장치에서 각 시간대별 데이터값을 갖는 다수의 시계열 데이터를 수집하고, 수집된 시계열 데이터간의 동일 시간대별 데이터 차이값을 산출하는 제1 단계와,
    유사도 분석장치에서 각 시간대별 현재 시간 데이터 차이값과 이전 시간 데이터 차이값인 추세 차이값을 산출하는 제2 단계 및,
    유사도 분석장치에서 각 시간대별 추세 차이값의 절대값을 산출하고, 산출된 절대값들의 평균값을 해당 시계열 데이터간의 유사도값으로 결정하는 제3 단계를 포함하여 구성되고,
    상기 제1 단계는 각 시간대별 추세 데이터값에서 기 설정된 기준 차이값 이상의 데이터 차이값이 나타나는 이상 구간이 존재하고, 이 이상 구간의 각 시간대별 데이터 차이값의 증감상태가 동일한 경우 해당 구간의 각 시계열 데이터 데이터값을 일정 시간 단위의 평균값으로 갱신하여 시계열 데이터의 데이터값의 변화 정도를 다운시킴으로서 시계열 데이터간 유사도가 보다 높게 평가되도록 하며,
    상기 제2 단계는 각 시간대별 추세 데이터값에서 "0"이 아닌 추세 데이터값을 갖는 변동 구역이 존재하는 경우, 각 시계열 데이터에서 변동 구역 시간대의 데이터값 증감상태가 상이한 조건을 만족하면, 변동 구역의 추세 차이값에 기 설정된 추세 가중치를 적용하여 변동 구역 시간대의 추세 차이값을 보다 큰 값으로 갱신하여 시계열 데이터간 유사도가 보다 낮게 평가되도록 하는 것을 특징으로 하는 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 유사도 분석장치는 이상 구간에 해당하는 시간 단위의 평균값으로 시계열 데이터의 데이터값을 다운시키는 것을 특징으로 하는 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법.
  4. 삭제
KR1020200157443A 2020-11-23 2020-11-23 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법 KR102428867B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200157443A KR102428867B1 (ko) 2020-11-23 2020-11-23 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법
PCT/KR2020/017229 WO2022107975A1 (ko) 2020-11-23 2020-11-30 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200157443A KR102428867B1 (ko) 2020-11-23 2020-11-23 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법

Publications (2)

Publication Number Publication Date
KR20220070667A KR20220070667A (ko) 2022-05-31
KR102428867B1 true KR102428867B1 (ko) 2022-08-03

Family

ID=81709264

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200157443A KR102428867B1 (ko) 2020-11-23 2020-11-23 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법

Country Status (2)

Country Link
KR (1) KR102428867B1 (ko)
WO (1) WO2022107975A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640983B1 (ko) * 2022-12-21 2024-02-23 재단법인차세대융합기술연구원 극단치와 증감 추세를 반영하여 시계열 데이터를 기호화하는 분석 서버 및 그것의 데이터 분석 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012247991A (ja) * 2011-05-27 2012-12-13 Kddi Corp 類似度評価装置及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015000A (ja) * 2000-06-29 2002-01-18 Toshiba Corp 多変数時系列データ類似度判定装置
KR101785547B1 (ko) * 2016-07-08 2017-10-17 한양대학교 산학협력단 주기성 시계열 데이터의 변동 추정 장치 및 방법
KR20190009687A (ko) 2017-07-19 2019-01-29 한국전자통신연구원 시계열 데이터의 연관성 분석 장치 및 방법
KR20190013038A (ko) 2017-07-31 2019-02-11 주식회사 빅트리 다중 특징 추출기법을 이용한 다중 시계열 데이터 추세 예측 시스템 및 예측 방법
KR102471871B1 (ko) * 2018-10-25 2022-11-28 삼성에스디에스 주식회사 시계열 데이터 세그먼테이션 방법 및 그 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012247991A (ja) * 2011-05-27 2012-12-13 Kddi Corp 類似度評価装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640983B1 (ko) * 2022-12-21 2024-02-23 재단법인차세대융합기술연구원 극단치와 증감 추세를 반영하여 시계열 데이터를 기호화하는 분석 서버 및 그것의 데이터 분석 방법

Also Published As

Publication number Publication date
WO2022107975A1 (ko) 2022-05-27
KR20220070667A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
Chen et al. Condition-based maintenance using the inverse Gaussian degradation model
Wang et al. A two-stage data-driven-based prognostic approach for bearing degradation problem
US10852357B2 (en) System and method for UPS battery monitoring and data analysis
JP6536295B2 (ja) 予測性能曲線推定プログラム、予測性能曲線推定装置および予測性能曲線推定方法
JP6141235B2 (ja) 時系列データにおける異常を検出する方法
KR101872342B1 (ko) 개선된 RTC(Real-time contrasts) 기법을 이용한 지능형 이상 진단 방법 및 장치
US8874409B2 (en) Multi-step time series prediction in complex instrumented domains
CN103279837A (zh) 一种生产数据分析方法及系统
JP6247627B2 (ja) 異常値検出装置およびその動作方法
KR102470763B1 (ko) 데이터 이상치 탐색 장치 및 방법
Chew et al. The variable sampling interval run sum X‾ control chart
KR102428867B1 (ko) 시계열 데이터의 변화 추세를 고려한 유사도 분석 방법
JP6739622B2 (ja) 計測−収率の相関性の分析方法及びシステム
US8793106B2 (en) Continuous prediction of expected chip performance throughout the production lifecycle
Martakis et al. A semi-supervised interpretable machine learning framework for sensor fault detection
JP6623784B2 (ja) 設定支援装置及びプログラム
McKenna et al. Event detection from water quality time series
Movaffagh et al. Monotonic change point estimation in the mean vector of a multivariate normal process
Tian et al. Statistical process control for multistage processes with non-repeating cyclic profiles
Nabeel et al. Robust proportional hazard‐based monitoring schemes for reliability data
Kovářík et al. Implementing control charts to corporate financial management
Pełech-Pilichowski et al. A two-level algorithm of time series change detection based on a unique changes similarity method
Turkoglu et al. Application of data mining in failure estimation of cold forging machines: An industrial research
Bauer et al. Measuring cause and effect between process variables
Kang et al. Real-time process quality control for business activity monitoring

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right