KR102557151B1 - 시계열 데이터의 품질을 개선하는 장치 및 방법 - Google Patents
시계열 데이터의 품질을 개선하는 장치 및 방법 Download PDFInfo
- Publication number
- KR102557151B1 KR102557151B1 KR1020220154168A KR20220154168A KR102557151B1 KR 102557151 B1 KR102557151 B1 KR 102557151B1 KR 1020220154168 A KR1020220154168 A KR 1020220154168A KR 20220154168 A KR20220154168 A KR 20220154168A KR 102557151 B1 KR102557151 B1 KR 102557151B1
- Authority
- KR
- South Korea
- Prior art keywords
- time
- window
- learning
- series data
- data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 28
- 230000036962 time dependent Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 230000007613 environmental effect Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
시계열 데이터의 품질을 개선하는 장치는 기설정된 복수의 시점별로 시계열 데이터를 관측 윈도우로 구성하는 윈도우 구성부, 기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하고, 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성하는 정상 범위 밴드 생성부 및 정상 범위 밴드를 이용하여 시계열 데이터를 보정하여 시계열 데이터의 품질을 개선하는 품질 개선부를 포함할 수 있다.
Description
본 발명은 시계열 데이터의 품질을 개선하는 장치 및 방법에 관한 것이다.
순차적인 시간 흐름을 갖는 사건들의 관측값들로 구성된 시계열 데이터들은 데이터에 대한 거시적인 추세와 반복적인 특성, 세부적인 패턴 등을 기반으로 다가올 미래의 패턴을 예측하는데 이용된다.
예를 들어, IoT 기반 시계열 데이터는 미래 예측 서비스를 제공할 때 활용되고, 산업 전반에서 활용되는 시계열 데이터는 현 상태의 정확한 분석과 미래 상태의 예측을 통해 객관적인 의사결정 판단의 자료로 활용되고 있다.
한편, 정확한 의사결정을 위한 고신뢰도의 예측모델을 구축하기 위해서는 학습데이터(시계열 데이터)의 품질이 적정 수준 이상 확보되어야 한다. 하지만, 대부분의 IoT 기기에서 생산되는 시계열 데이터에는 결측값 및 이상값이 다수 포함되고 있어 이러한 저품질의 시계열 데이터를 활용하여 예측모델을 생성하는 경우 신뢰도가 낮은 예측 결과를 도출하게 된다.
이에 기반한 예측모델의 신뢰도를 높이기 위해서 시계열 데이터에 대한 품질 개선이 요구된다. 시계열 데이터에 대한 품질문제는 관리 소홀 및 미측정 등으로 인해 발생하는 결측값과 기기 불량 및 비정상적인 상황에서 측정되는 이상값들에 기인한다. 결측값은 정보의 손실과 불완전한 패턴의 학습으로 인해 예측 패턴의 구조를 훼손해서 예측모델 자체의 생성을 어렵게 할 수 있다. 이상값은 학습의 결과로서 정보의 오차와 비정상적인 패턴을 생성하여 예측모델의 품질을 낮추게 한다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 시계열 데이터의 정상 범위 밴드를 생성하고, 생성된 정상 범위 밴드를 이용하여 시계열 데이터를 보정함으로써 시계열 데이터의 품질을 개선하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 시계열 데이터의 품질을 개선하는 장치는 기설정된 복수의 시점별로 상기 시계열 데이터를 관측 윈도우로 구성하는 윈도우 구성부; 기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하고, 상기 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성하는 정상 범위 밴드 생성부; 및 상기 정상 범위 밴드를 이용하여 상기 시계열 데이터를 보정하여 상기 시계열 데이터의 품질을 개선하는 품질 개선부를 포함할 수 있다.
본 발명의 제 2 측면에 따른 데이터 품질 개선 장치에 의해 수행되는 시계열 데이터의 품질을 개선하는 방법은 기설정된 복수의 시점별로 상기 시계열 데이터를 관측 윈도우로 구성하는 단계; 기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하고, 상기 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성하는 단계; 및 상기 정상 범위 밴드를 이용하여 상기 시계열 데이터를 보정하여 상기 시계열 데이터의 품질을 개선하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 시계열 데이터의 정상 범위 밴드를 생성하고, 생성된 정상 범위 밴드를 이용하여 시계열 데이터를 보정함으로써 시계열 데이터의 품질을 개선할 수 있다.
이를 통해, 본 발명은 시계열 데이터의 품질 개선을 통한 학습 데이터를 구축할 수 있다. 또한, 본 발명은 시계열 데이터의 품질을 향상시킴으로써 질 좋은 학습 데이터를 통해 정확도가 높은 실시간 예측 시스템 개발에 기여할 수 있다.
도 1a 내지 1c는 본 발명의 일 실시예에 따른, 데이터의 품질을 개선하는 방법을 개괄적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른, 데이터 품질 개선 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른, 관측 윈도우 및 예측 윈도우를 구성하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 시계열을 예측하는 생성자를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른, 정상 범위 밴드를 생성하는 방법을 설명하기 위한 도면이다.
도 6a 내지 6b는 본 발명의 일 실시예에 따른, 관측 윈도우 및 미래 윈도우의 구성과 품질 개선에 따른 성능에 대한 결과를 비교한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 시계열 데이터의 품질을 개선하는 방법을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른, 데이터 품질 개선 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른, 관측 윈도우 및 예측 윈도우를 구성하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 시계열을 예측하는 생성자를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른, 정상 범위 밴드를 생성하는 방법을 설명하기 위한 도면이다.
도 6a 내지 6b는 본 발명의 일 실시예에 따른, 관측 윈도우 및 미래 윈도우의 구성과 품질 개선에 따른 성능에 대한 결과를 비교한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 시계열 데이터의 품질을 개선하는 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
도 1a는 본 발명의 일 실시예에 따른, 데이터의 품질을 개선하는 방법을 개괄적으로 설명하기 위한 도면이다.
도 1a를 참조하면, 데이터 품질 개선 장치(100)는 데이터의 품질 개선을 위해서 입력된 시계열 데이터(110)를 전처리할 수 있다.
데이터 품질 개선 장치(100)는 기설정된 복수의 시점별로 시계열 데이터를 관측 윈도우로 구성할 수 있다.
데이터 품질 개선 장치(100)는 시계열 데이터(110)로부터 시간 종속적 관계 및 특성 간의 상관관계를 분석할 수 있다.
데이터 품질 개선 장치(100)는 시계열 데이터(110)로부터 데이터의 특징과 지역적인 패턴을 종합적으로 고려해서 분석할 수 있다.
데이터 품질 개선 장치(100)는 분석 결과에 기초하여 정상적인 값들이 등장하게 될 정상 범위 밴드를 생성할 수 있다.
데이터 품질 개선 장치(100)는 기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하고, 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성할 수 있다. 여기서, 학습 모델은 타임밴드(TIMEBAND) 기법이 적용된 LSTM-GAN 기반의 적대적 생성 구조를 갖는 학습 모델이다.
데이터 품질 개선 장치(100)는 정상 범위 밴드를 이용하여 시계열 데이터에 포함된 비정상적 값들을 보정하여 시계열 데이터의 품질을 개선할 수 있다.
도 1b는 타임밴드 기법의 LSTM-GAN의 아키텍처를 나타낸 도면이고, 1c는 타임밴드 기법의 정상 범위 밴드를 나타낸 도면이다. 도 1b를 참조하면, 입력되는 시계열 데이터는 3개의 은닉층으로 구성된 인코더(Encoder)를 거쳐 컨텍스트 공간(Context Space)으로 형성된다. 여기서, 컨텍스트 공간은 1개의 은닉층으로 구성된 디코더(Decoder) 거쳐 품질 개선의 대상이 되는 목적변수들을 출력하며 시계열 데이터의 입출력 구조로 구성된다.
데이터 품질 개선 장치(100)는 입력된 시계열 데이터에서 각 특징(Feature)에 대한 결측값이 존재하는지를 확인하여 레이블링(Labeling) 작업을 수행할 수 있다.
데이터 품질 개선 장치(100)는 시계열 데이터를 컨텍스트 공간에 할당하기 위해 데이터의 특성에 맞게 사전에 정규화 및 적절한 전처리 작업을 수행할 수 있다.
데이터 품질 개선 장치(100)는 예측값에 대한 시차 및 시간 의존성을 고려하여 하나의 단일 시점이 아닌 전후의 고정된 범위를 포괄하는 슬라이딩 윈도우(Sliding Window) 기법을 통해 전처리된 시계열 데이터를 조회할 수 있다.
데이터 품질 개선 장치(100)는 전처리된 시계열 데이터에 대하여 각 시점 t에서 m개의 과거 관측값들로 이루어진 관측 윈도우와 다가올 n개의 미래 관측값들로 이루어진 미래 윈도우를 구성할 수 있다.
학습 모델은 입력 x(관측 윈도우의 값)를 LSTM-GAN의 생성자(G)에 입력하여 정답 출력 y(미래 윈도우의 값)와 유사한 예측 윈도우(, G(x))를 생성한다. 이 때, 출력 (예측 윈도우의 값)는 판별자(D)에게 정답 출력 y와 차이를 최소화하도록 생성자(G)와 판별자(D)가 경쟁학습이 진행된다.
이 과정을 통해서 시점 t에서 입력 x는 차츰 과거의 패턴, 시간적인 특성 및 변수 간 상관관계를 고려한 출력 를 생성하며, 이는 결국 각 시점 t에 대한 미래 윈도우 가 예측될 수 있음을 의미한다.
도 1c를 참조하면, 데이터 품질 개선 장치(100)는 예측값(황색 실선)과 정상 값으로 기대되는 정상 범위 밴드(청색 영역)를 생성할 수 있다. 학습 모델의 학습이 진행되면서 매 시점 t에서 관측 윈도우 의 패턴을 보고 미래 윈도우 에서 데이터 패턴이 예측될 수 있다. 이러한 정상 범위 밴드는 데이터의 전체 패턴 및 시점 t의 시간적 특성, 관측 윈도우의 값 x와 다른 변수와의 관계를 고려하여 생성될 수 있다.
즉, 데이터 품질 개선 장치(100)는 정상값으로 예측되는 예측 윈도우 들의 중심값을 기준으로, 관측 윈도우의 값 x의 실제 표준편차와 예측 윈도우 의 예측 표준편차를 이용하여, 추정 정상값의 분포 범위인 정상 범위 밴드를 생성할 수 있다.
데이터 품질 개선 장치(100)는 정상 범위 밴드가 올바르게 생성되었다는 가정 하에, 시계열 데이터 내 결측값 영역은 밴드 내 특정 시점의 대푯값으로 채워질 수 있고, 정상 범위 밴드를 벗어나는 값들은 이상값으로 탐지할 수 있다.
데이터 품질 개선 장치(100)는 시계열 데이터 내에서 탐지된 결측값과 이상값에 대한 복원 및 보정 작업을 수행한다. 정상 범위 밴드 외부에 존재하는 이상값들은 무시되어 학습 과정에 활용되지 않거나 정상 범위 밴드의 경계지점인 임계값으로 대체될 수 있다. 결측값 영역은 복원을 위해서 밴드의 상·하단 경계선의 중앙값으로 대체될 수 있다.
도 2는 본 발명의 일 실시예에 따른, 데이터 품질 개선 장치(100)의 블록도이다.
도 2를 참조하면, 데이터 품질 개선 장치(100)는 결측 정보 추출부(200), 데이터 전처리부(210), 윈도우 구성부(220), 학습부(230), 정상 범위 밴드 생성부(240) 및 품질 개선부(250)를 포함할 수 있다. 다만, 도 2에 도시된 데이터 품질 개선 장치(100)는 본 발명의 하나의 구현 예에 불과하며, 도 2에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.
이하에서는 도 3 내지 도 5를 함께 참조하여 도 2를 설명하기로 한다.
결측 정보 추출부(200)는 학습 시계열 데이터가 입력된 시간 간의 시간 간격 정보를 이용하여 학습 시계열 데이터로부터 결측 정보가 포함된 결측 구간을 추출할 수 있다. 여기서, 결측 구간은 불완전한 정보가 포함된 구간으로 판정되고, 이후 정상적인 패턴에 대한 학습에서 확인된 결측 구간은 평가에서 제외하기 위한 마스크(mask)의 용도로 활용될 수 있다.
데이터 전처리부(210)는 학습 시계열 데이터가 학습 모델의 학습에 적합하도록 학습 시계열 데이터를 전처리할 수 있다.
데이터 전처리부(210)는 학습 시계열 데이터가 학습 모델의 학습에 적합하도록 정보를 보전하면서 세부 속성의 특성에 맞춰 학습 시계열 데이터를 변환할 수 있다. 예를 들어, 데이터 전처리부(210)는 학습 시계열 데이터로부터 시간 정보(예컨대, 연, 월, 일, 요일 등의 정보)를 추출하여 새로운 속성 정보를 추가할 수 있다. 예를 들어, 데이터 전처리부(210)는 학습 시계열 데이터에 범주형(Categorical) 변수가 포함된 경우, 범주형 변수에 원-핫 인코딩을 적용하여 표현하고자 하는 단어의 인덱스에 0과 1의 값을 부여할 수 있다. 예를 들어, 데이터 전처리부(210)는 학습 시계열 데이터에 수치형 변수가 포함된 경우, 수치형 변수 중 최댓값과 최솟값의 정보를 활용하여 수학식 1의 Min-Max 정규화를 거쳐 (-1, 1) 사이의 값으로 조정할 수 있다.
[수학식 1]
윈도우 구성부(220)는 학습 시계열 데이터에서의 예측값에 대한 시차 및 시간 의존 정보를 고려하여 기설정된 복수의 시점별로 학습 시계열 데이터를 특정 시점 이전에 관측된 값들로 이루어진 학습 관측 윈도우와, 특정 시점 이후에 관측된 값들로 이루어진 학습 미래 윈도우로 구성할 수 있다.
여기서, 학습 관측 윈도우 및 학습 미래 윈도우는 전후 시점의 고정된 범위를 포괄하는 슬라이딩 윈도우를 이용하여 기정의된 시간 간격만큼 이동하면서 복수의 데이터 값을 표현할 수 있다.
예를 들어, 도 3을 참조하면, 윈도우 구성부(220)는 학습 시계열 데이터(300)에서 기설정된 각 시점 t에 대해서 m개의 과거 관측값들의 집합으로 이루어진 학습 관측 윈도우(310)와 다가올 n개의 미래 관측값들의 집합으로 이루어진 학습 미래 윈도우(320)를 구성할 수 있다.
학습 관측 윈도우(310) 및 학습 미래 윈도우(320)는 사전에 정의된 시간 스텝()만큼 움직이면서 전체 데이터를 표현하는 슬라이딩 윈도우 기법을 적용하여 전체 학습 시계열 데이터(300)를 표현할 수 있다. 슬라이딩 윈도우 기법을 통해서 학습 관측 윈도우(310) 및 학습 미래 윈도우(320)는 이후의 학습 모델의 학습에서 시간 순에 따라서 각 구간에 대한 데이터를 순차적으로 학습할 수 있게 해준다.
다시 도 2로 돌아오면, 학습부(230)는 학습 관측 윈도우를 학습 모델에 입력하여 학습 모델을 통해 학습 관측 윈도우의 이후에 등장할 예측 윈도우를 생성하고, 생성된 예측 윈도우가 학습 미래 윈도우와 유사해지도록 학습 모델을 학습시킬 수 있다.
여기서, 학습 모델은 LSTM-GAN 기반의 적대적 생성 구조를 갖는 학습 모델이다. 학습 모델은 학습 관측 윈도우 다음에 등장할 예측 윈도우를 생성하는 생성자와, 생성된 예측 윈도우 및 학습 미래 윈도우 사이의 정보를 판별하는 판별자를 포함할 수 있다.
도 4는 시계열을 예측하는 생성자를 나타낸 도면이다. 도 4를 참조하면, 학습 모델은 시계열 데이터를 보전하면서 학습 관측 윈도우의 관측값 다음에 등장할 예측 윈도우의 값을 예측하는 생성자(400, LSTM Generator Cell)와 예측 윈도우의 예측값 및 학습 미래 윈도우의 실제값이 유사해지도록 적대적 학습하는 GAN 구조가 결합된 모델이다.
생성자(400)는 시계열 데이터의 장기전달을 담당하는 3개의 LSTM 레이어와 입력되는 목적, 시간, 보조 속성들을 모두 포함하는 학습 관측 윈도우의 차원을 목적이 되는 예측 윈도우와 같은 차원으로 변환하는 DNN 레이어로 구성된다.
생성자(400)는 입력된 학습 관측 윈도우()를 바탕으로 학습 미래 윈도우()와 유사한 예측 윈도우()를 출력할 수 있다.
GAN 구조는 생성자(G)-판별자(D) 간의 적대적 학습을 담당한다. 학습 모델의 학습은 학습 관측 윈도우(x)를 바탕으로 생성된 예측 윈도우(, G(x))와 학습 미래 윈도우(y) 사이를 손실함수와 손실함수를 기반으로 비교 평가하는 방식으로 이루어진다.
반복적인 학습과 평가결과를 바탕으로 생성자(400)는 더욱 실제와 유사한 값을 생성하고 판별자는 실제와 유사하지 않은 값을 생성하지 못하게 하면서 학습을 진행한다. 이를 통해서 생성자(400)와 판별자는 생성자(400)를 통한 시점 t에 대한 가 실제 데이터와 유사해지도록 학습하게 된다.
학습 모델의 학습 과정의 개념을 정리하자면, 전체 데이터의 특성을 잘 반영하면서, 지역적인 관측에 따른 후속 값이 실제와 분간하기 어려운 데이터는 현실을 상당히 유사하게 반영한 데이터를 학습한다는 것을 의미한다.
다시 도 2로 돌아오면, 윈도우 구성부(220)는 기설정된 복수의 시점별로 시계열 데이터를 관측 윈도우로 구성할 수 있다.
정상 범위 밴드 생성부(240)는 기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하고, 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성할 수 있다.
여기서, 정상범위 밴드는 기설정된 시점에 대해서 이전 관측 정보, 해당 시점의 시간적 특성, 다른 변수들과의 상관관계 등을 고려할 때, 해당 시점에 정상적인 데이터가 지닐 수 있는 범위를 의미한다.
정상범위 밴드는 정상적인 맥락과 상황에서 정상적인 데이터들이 분포할 것으로 추정되는 범위일 수 있다.
도 5를 참조하면, 정상 범위 밴드 생성부(240)는 슬라이딩 윈도우 방식을 바탕으로 각 시점들에 대해서 순차적으로 관측 윈도우들을 학습 모델의 입력값으로 입력하고, 학습 모델을 통해 각 관측 윈도우 다음의 예측 윈도우를 생성할 수 있다.
이 때, 각 시점에 대해서 중첩적으로 데이터들이 생성되는데, 정상 범위 밴드 생성부(240)는 각 시점의 예측 윈도우의 값을 이용하여 시점별 중앙값 및 분산을 이용하여 정상 범위 밴드를 생성할 수 있다.
품질 개선부(250)는 정상 범위 밴드를 이용하여 시계열 데이터를 보정하여 시계열 데이터의 품질을 개선할 수 있다.
품질 개선부(250)는 시계열 데이터에서 정상 범위 밴드의 외부에 존재하는 값을 이상값으로 탐지하고, 정상 범위 밴드의 경계 지점을 이용하여 이상값을 조정하거나 이상값으로 판정된 구간을 제외할 수 있다.
품질 개선부(250)는 시계열 데이터에서 관측되지 않은 결측값을 정상 범위 밴드의 중앙값으로 대체하여 시계열 데이터를 보정할 수 있다.
한편, 당업자라면, 결측 정보 추출부(200), 데이터 전처리부(210), 윈도우 구성부(220), 학습부(230), 정상 범위 밴드 생성부(240) 및 품질 개선부(250) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 6a 내지 6b는 본 발명의 일 실시예에 따른, 데이터의 품질을 개선하는 실시예를 도시한 도면이다.
도 6a를 참조하면, 데이터 품질 개선 장치(100)는 환경 센서로부터 수집된 환경 센서 데이터들의 시속성 필드로부터 시간 정보를 추출하고, 각 필드의 패턴 학습에서 제외하기 위한 결측 구간을 추출할 수 있다.
데이터 품질 개선 장치(100)는 각 환경 센서 데이터에 대한 Min-Max 정규화 작업을 수행할 수 있다.
데이터 품질 개선 장치(100)는 슬라이딩 윈도 기법을 통해 환경 센서 데이터들(RT08.S1~RT08.S5)을 관측 윈도우 및 미래 윈도우 쌍으로 구성할 수 있다.
데이터 품질 개선 장치(100)는 (RT08.S1, RT08.S1), (RT08.S2, RT08.S2), (RT08.S3, RT08.S3), (RT08.S4, RT08.S4), (RT08.S5, RT08.S5)와 같이 5개의 (관측 윈도우의 값, 미래 윈도우의 값)으로 구성할 수 있다.
데이터 품질 개선 장치(100)는 학습 모델의 생성자에 입력된 관측 윈도우(x)를 바탕으로 후속으로 등장할 예측 윈도우()의 값을 생성할 수 있다.
이후, 학습 모델은 실제 미래 윈도우()의 값과 생성된 예측 윈도우() 사이의 정보를 판별하는 판별자와 생성자 사이의 적대적 학습 과정을 통해서 생성자가 생성하는 데이터가 점차 실제 정상 데이터와 유사한 분포를 이루도록 과정을 반복할 수 있다.
데이터 품질 개선 장치(100)는 생성된 예측 윈도우의 각 시점의 중앙값과 편차를 이용하여 정상 범위 밴드를 생성할 수 있다.
데이터 품질 개선 장치(100)는 정상 범위 외부에 존재하는 값들을 이상값으로 추정 후, 정상 범위 밴드의 경계로 값을 조정하고 결측값들을 정상 범위 밴드의 중앙값으로 대체하는 과정을 통해서 환경 센서 데이터들의 품질을 개선할 수 있다.
도 6b를 참조하면, 환경 센서로부터 수집된 환경 센서 데이터의 품질을 개선한 데이터 셋과 원본 데이터 셋 각각을 학습 모델의 입력 데이터로 하여 품질 개선의 효과를 비교하고자 한다. 향후 24시간 동안의 실제 대기 환경 지표를 예측하는 신뢰도를 [수학식 2]의 NMAE 스코어를 이용하여 실제값 와 예측값 사이의 오차 비율을 측정하여 품질 개선의 효과를 비교할 수 있다.
[수학식 2]
실험 결과는 학습 모델에 원본 데이터를 적용하였을 때의 평균 오차율(NMAE Score)은 0.6201로 나타나지만, 본 발명을 통해 개선된 데이터를 사용하였을 때의 평균 오차율(NMAE Score)은 0.4331로 오차율이 크게 개선됨을 확인할 수 있다.
도 7은 본 발명의 일 실시예에 따른, 시계열 데이터의 품질을 개선하는 방법을 나타낸 흐름도이다.
도 7을 참조하면, 단계 S701에서 데이터 품질 개선 장치(100)는 기설정된 복수의 시점별로 시계열 데이터를 관측 윈도우로 구성할 수 있다.
단계 S703에서 데이터 품질 개선 장치(100)는 기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력할 수 있다.
단계 S705에서 데이터 품질 개선 장치(100)는 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성할 수 있다.
단계 S707에서 데이터 품질 개선 장치(100)는 정상 범위 밴드를 이용하여 시계열 데이터를 보정하여 시계열 데이터의 품질을 개선할 수 있다.
상술한 설명에서, 단계 S701 내지 S707은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 데이터 품질 개선 장치
200: 결측 정보 추출부
210: 데이터 전처리부
220: 윈도우 구성부
230: 학습부
240: 정상 범위 밴드 생성부
250: 품질 개선부
200: 결측 정보 추출부
210: 데이터 전처리부
220: 윈도우 구성부
230: 학습부
240: 정상 범위 밴드 생성부
250: 품질 개선부
Claims (9)
- 시계열 데이터의 품질을 개선하는 장치에 있어서,
기설정된 복수의 시점별로 상기 시계열 데이터를 관측 윈도우로 구성하는 윈도우 구성부;
기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하고, 상기 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성하는 정상 범위 밴드 생성부; 및
상기 정상 범위 밴드를 이용하여 상기 시계열 데이터를 보정하여 상기 시계열 데이터의 품질을 개선하는 품질 개선부
를 포함하는 것인, 데이터 품질 개선 장치.
- 제 1 항에 있어서,
상기 윈도우 구성부는 학습 시계열 데이터에서의 예측값에 대한 시차 및 시간 의존 정보를 고려하여 기설정된 복수의 시점별로 상기 학습 시계열 데이터를 특정 시점 이전에 관측된 값들로 이루어진 학습 관측 윈도우와, 상기 특정 시점 이후에 관측된 값들로 이루어진 학습 미래 윈도우로 구성하는 것인, 데이터 품질 개선 장치.
- 제 2 항에 있어서,
상기 학습 관측 윈도우 및 상기 학습 미래 윈도우는 전후 시점의 고정된 범위를 포괄하는 슬라이딩 윈도우를 이용하여 기정의된 시간 간격만큼 이동하면서 복수의 데이터 값을 표현하는 것인, 데이터 품질 개선 장치.
- 제 2 항에 있어서,
상기 학습 관측 윈도우를 학습 모델에 입력하여 상기 학습 모델을 통해 상기 학습 관측 윈도우의 이후에 등장할 예측 윈도우를 생성하고, 상기 생성된 예측 윈도우가 상기 학습 미래 윈도우와 유사해지도록 상기 학습 모델을 학습시키는 학습부를 더 포함하는 것인, 데이터 품질 개선 장치.
- 제 4 항에 있어서,
상기 학습 모델은 LSTM-GAN 기반의 적대적 생성 구조를 갖는 학습 모델이고,
상기 LSTM-GAN 기반의 적대적 생성 구조를 갖는 학습 모델은 상기 학습 관측 윈도우 다음에 등장할 예측 윈도우를 생성하는 생성자와, 상기 생성된 예측 윈도우 및 상기 학습 미래 윈도우 사이의 정보를 판별하는 판별자를 포함하는 것인, 데이터 품질 개선 장치.
- 제 1 항에 있어서,
상기 정상 범위 밴드 생성부는 상기 각 시점의 예측 윈도우의 값을 이용하여 시점별 중앙값 및 분산을 이용하여 정상 범위 밴드를 생성하는 것인, 데이터 품질 개선 장치.
- 제 1 항에 있어서,
상기 품질 개선부는 상기 시계열 데이터에서 상기 정상 범위 밴드의 외부에 존재하는 값을 이상값으로 탐지하고, 상기 정상 범위 밴드의 경계 지점을 이용하여 상기 이상값을 조정하거나 상기 이상값으로 판정된 구간을 제외하는 것인, 데이터 품질 개선 장치.
- 제 1 항에 있어서,
상기 품질 개선부는 상기 시계열 데이터에서 관측되지 않은 결측값을 상기 정상 범위 밴드의 중앙값으로 대체하여 상기 시계열 데이터를 보정하는 것인, 데이터 품질 개선 장치.
- 데이터 품질 개선 장치에 의해 수행되는 시계열 데이터의 품질을 개선하는 방법에 있어서,
기설정된 복수의 시점별로 상기 시계열 데이터를 관측 윈도우로 구성하는 단계;
기설정된 복수의 시점별 관측 윈도우를 순차적으로 기학습된 학습 모델에 입력하는 단계;
상기 기학습된 학습 모델을 통해 생성된 각 시점의 관측 윈도우 다음에 예측되는 예측 윈도우의 값을 이용하여 정상 범위 밴드를 생성하는 단계; 및
상기 정상 범위 밴드를 이용하여 상기 시계열 데이터를 보정하여 상기 시계열 데이터의 품질을 개선하는 단계
를 포함하는 것인, 데이터 품질 개선 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220154168A KR102557151B1 (ko) | 2022-11-17 | 2022-11-17 | 시계열 데이터의 품질을 개선하는 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220154168A KR102557151B1 (ko) | 2022-11-17 | 2022-11-17 | 시계열 데이터의 품질을 개선하는 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102557151B1 true KR102557151B1 (ko) | 2023-07-19 |
Family
ID=87425659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220154168A KR102557151B1 (ko) | 2022-11-17 | 2022-11-17 | 시계열 데이터의 품질을 개선하는 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102557151B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102635946B1 (ko) * | 2023-08-25 | 2024-02-13 | 서울시립대학교 산학협력단 | 이상 데이터 보정 장치 및 방법 |
CN117829754A (zh) * | 2023-11-23 | 2024-04-05 | 长春建业集团股份有限公司 | 基于bim、gis的工程建设全过程数智化管理方法和平台 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019069044A (ja) * | 2017-10-10 | 2019-05-09 | 日本電信電話株式会社 | 瞬時心拍の時系列データの補完装置、補完方法及びそのプログラム |
KR102011689B1 (ko) * | 2019-03-06 | 2019-08-19 | 주식회사 위엠비 | 시계열 데이터의 모니터링 방법, 모니터링 시스템 및 컴퓨터 프로그램 |
KR20200030303A (ko) | 2018-09-12 | 2020-03-20 | 삼성에스디에스 주식회사 | 데이터의 결측치 보정 방법 및 장치 |
KR20200058161A (ko) * | 2018-11-19 | 2020-05-27 | 주식회사 엑셈 | 팔로워의 경계 설정과 시계열 데이터에 기반하여 비정상 데이터 탐지가 가능한 정상 밴드를 생성하는 방법 및 이를 구현하는 정상 밴드 생성 장치 |
KR20210063866A (ko) * | 2019-11-25 | 2021-06-02 | 주식회사 엑셈 | 시계열 데이터의 결측과 노이즈를 처리하여 비정상 데이터를 탐지하는 방법 및 이를 구현하는 시스템 |
-
2022
- 2022-11-17 KR KR1020220154168A patent/KR102557151B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019069044A (ja) * | 2017-10-10 | 2019-05-09 | 日本電信電話株式会社 | 瞬時心拍の時系列データの補完装置、補完方法及びそのプログラム |
KR20200030303A (ko) | 2018-09-12 | 2020-03-20 | 삼성에스디에스 주식회사 | 데이터의 결측치 보정 방법 및 장치 |
KR20200058161A (ko) * | 2018-11-19 | 2020-05-27 | 주식회사 엑셈 | 팔로워의 경계 설정과 시계열 데이터에 기반하여 비정상 데이터 탐지가 가능한 정상 밴드를 생성하는 방법 및 이를 구현하는 정상 밴드 생성 장치 |
KR102011689B1 (ko) * | 2019-03-06 | 2019-08-19 | 주식회사 위엠비 | 시계열 데이터의 모니터링 방법, 모니터링 시스템 및 컴퓨터 프로그램 |
KR20210063866A (ko) * | 2019-11-25 | 2021-06-02 | 주식회사 엑셈 | 시계열 데이터의 결측과 노이즈를 처리하여 비정상 데이터를 탐지하는 방법 및 이를 구현하는 시스템 |
Non-Patent Citations (1)
Title |
---|
QuFa - Data Quality & Fairness, "LSTM-GAN 기반 시계열 데이터 품질 개선 기법", https://www.youtube.com/watch?v=VyHjPU0gNgU (2021.12.28.)* * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102635946B1 (ko) * | 2023-08-25 | 2024-02-13 | 서울시립대학교 산학협력단 | 이상 데이터 보정 장치 및 방법 |
CN117829754A (zh) * | 2023-11-23 | 2024-04-05 | 长春建业集团股份有限公司 | 基于bim、gis的工程建设全过程数智化管理方法和平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102557151B1 (ko) | 시계열 데이터의 품질을 개선하는 장치 및 방법 | |
US11921566B2 (en) | Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model | |
CN110164128B (zh) | 一种城市级智能交通仿真系统 | |
CN109492830B (zh) | 一种基于时空深度学习的移动污染源排放浓度预测方法 | |
US20190392252A1 (en) | Systems and methods for selecting a forecast model for analyzing time series data | |
Petty et al. | Streamflow hydrology estimate using machine learning (SHEM) | |
JP2021531529A (ja) | ニューラル・ネットワークを使用した時系列データ間の依存関係の動的検出 | |
JP2020017952A (ja) | 警告するための方法と装置 | |
CN115440032B (zh) | 一种长短期公共交通流量预测方法 | |
US20210349897A1 (en) | Anomaly detection system | |
CN114285728B (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
US20230418958A1 (en) | Scalable, data-driven digital marketplace providing a standardized secured data system for interlinking sensitive risk-related data, and method thereof | |
KR20200052806A (ko) | 딥러닝 기반 기후 변화 예측 시스템의 동작 방법 | |
Butenuth et al. | Infrastructure assessment for disaster management using multi-sensor and multi-temporal remote sensing imagery | |
WO2020086355A1 (en) | Graph-based predictive maintenance | |
CN117319223A (zh) | 一种基于数字孪生技术的领导驾驶舱可视化方法及系统 | |
Legrand et al. | Study of autoencoder neural networks for anomaly detection in connected buildings | |
CN115184993A (zh) | 基于多层主动传递熵的微震数据的分析与判识方法 | |
CN118228030A (zh) | 基于星地协同的灾害性天气预测方法及系统 | |
Zhang et al. | Data imputation in iot using spatio-temporal variational auto-encoder | |
US11989626B2 (en) | Generating performance predictions with uncertainty intervals | |
US20240054154A1 (en) | Dynamic acoustic signature system with sensor fusion for illegal logging in rainforest | |
KR102119891B1 (ko) | 미세 변화 데이터 및 공간 데이터를 기초로 한 인공신경망을 이용한 비정상 데이터 구분 장치 | |
Green et al. | Applied Bayesian structural health monitoring: Inclinometer data anomaly detection and forecasting | |
CN118585967B (zh) | Qar数据动态还原分析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |