KR101271694B1 - 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법 - Google Patents

시계열데이터의 연속적 결측값 대체 시스템 및 그 방법 Download PDF

Info

Publication number
KR101271694B1
KR101271694B1 KR1020120002509A KR20120002509A KR101271694B1 KR 101271694 B1 KR101271694 B1 KR 101271694B1 KR 1020120002509 A KR1020120002509 A KR 1020120002509A KR 20120002509 A KR20120002509 A KR 20120002509A KR 101271694 B1 KR101271694 B1 KR 101271694B1
Authority
KR
South Korea
Prior art keywords
time series
series data
parameter
hidden variable
unit
Prior art date
Application number
KR1020120002509A
Other languages
English (en)
Inventor
양형정
녹안 웬티
김선희
김수형
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020120002509A priority Critical patent/KR101271694B1/ko
Application granted granted Critical
Publication of KR101271694B1 publication Critical patent/KR101271694B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/725Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 시계열데이터에 랜덤하게 연속적으로 발생되는 결측값을 대체하기 위해 칼만필터의 선형동적 시스템을 이용하여 적합한 은닉변수를 생성하고, 적합한 매개변수를 갱신함으로써, 시계열데이터의 결측값을 대체하는 시계열 데이터의 연속적 결측값 대체 시스템 및 그 방법에 관한 것이다.
이러한 기술적 과제를 달성하기 위한 본 발명은, 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터에 적합한 은닉변수를 생성하는 은닉변수생성부; 상기 은닉변수생성부에서 생성된 은닉변수를 사용하여, 기존의 시계열데이터에서 새로운 시계열데이터로 대체하는 시계열데이터대체부; 상기 은닉변수생성부에서 생성된 은닉변수와 상기 시계열데이터대체부에서 대체된 시계열데이터를 이용하여 기존의 매개변수에서 새로운 매개변수로 갱신하는 매개변수갱신부; 및 기존의 매개변수와 상기 매개변수갱신부에서 갱신된 매개변수를 비교하여 새로운 매개변수 갱신의 반복여부를 결정하는 매개변수 비교부; 를 포함한다.

Description

시계열데이터의 연속적 결측값 대체 시스템 및 그 방법{System For Alternating Long-Interval Consecutive Missing Value Of Time Series Data And Method Thereof}
본 발명은 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 시계열데이터에 랜덤하게 연속적으로 발생되는 결측값을 대체하기 위해 칼만필터의 선형동적 시스템을 이용하여 적합한 은닉변수를 생성하고, 적합한 매개변수를 갱신함으로써, 시계열데이터의 결측값을 대체하는 시계열 데이터의 연속적 결측값 대체 시스템 및 그 방법에 관한 것이다.
시계열데이터의 대표적인 예라고 할 수 있는 시계열 뇌파데이터는 인간 뇌의 두피에 전극을 부착하고 뇌에서 발생되는 전기활동을 전극을 통해 수집하는 정보이다. 이러 시계열 뇌파데이터는 두뇌활동에 대한 동적 측면들의 특성을 기술하기 위한 직접적인 척도를 제공한다. 그런 뇌파 신호들은 다차원의 데이터 형태로 다중시공간 자료로 형성된다.
이러한 시계열데이터의 결측값은 일반적으로 전극들의 전송에러나 끊김으로 인해 발생한다. 특히 시계열 뇌파데이터에 이러한 결측값이 존재하는 경우, 데이터의 왜곡 및 편향을 야기하거나, 심지어 분석을 위해 적용되는 알고리즘의 성능을 저하시키는 문제를 야기하기도 한다. 한편, 대부분의 뇌파 분석을 위한 종래의 방법론들은 결측값이 포함되지 않은 완전한 자료만을 분석데이터로 사용하였으나, 보다 정확한 데이터 분석을 위해서 결측값에 대한 정확하고 신뢰성 있는 대체 접근법이 요구되었다.
종래의 결측값 대체 방법으로는 데이터의 평균값을 계산하는 것과 같은 단순한 방법을 이용하여 각각의 결측 변수를 대체하는 방법과, 선형 보간법, 스플라인 보간법 등을 이용하여 결측값을 대체하였다. 이러한 방법들은 곡선 맞춤(curve fitting)을 활용하여 결측 요소들을 처리하는 방법과 관련이 있는데, 이러한 방법 역시 결측값들이 연속적으로 발생하여 간격이 클 때, 결측값을 대체하기 어렵다는 문제점을 가지고 있었으며, 시간변화에 다른 변수들 사이의 상관성을 고려하지 않는다는 문제가 있었다.
종래 일본공개특허 제2010-057658호(검출장치 및 검출방법 프로그램)은 필터를 통한 뇌파를 검출하는 것을 특징으로 하는데, 검출해야할 신호에 대응하는 인공적 참조신호를 이용하고, 최소 이승법에 의하여 정규화되는 검출 신호의 특징을 연산하고 있으나, 이 역시 처리속도가 느리고, 연속적인 결측값이 존재하는 경우는 좋은 효과를 발휘하지 못하는 문제가 있었다.
본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, 시계열 데이터에서 발생되는 long-interval 결측값을 칼만필터를 기반으로 한 선형동적시스템을 이용하여 결측값을 자동으로 탐지하고, 이를 대체할 수 있으며 대체정확율을 보장하는 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법을 제공함에 있다.
그리고, 시계열데이터의 연속적 결측값을 대체하기 위한 적합한 은닉변수들을 자동적으로 탐지하는데 있어서 효과적이며, 연속적으로 랜덤하게 발생되는 결측값 사이의 역학관계를 간결하게 묘사할 수 있는 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법을 제공함에 있다.
이러한 기술적 과제를 달성하기 위한 본 발명은, 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터에 적합한 은닉변수를 생성하는 은닉변수생성부; 상기 은닉변수생성부에서 생성된 은닉변수를 사용하여, 기존의 시계열데이터에서 새로운 시계열데이터로 대체하는 시계열데이터대체부; 상기 은닉변수생성부에서 생성된 은닉변수와 상기 시계열데이터대체부에서 대체된 시계열데이터를 이용하여 기존의 매개변수에서 새로운 매개변수로 갱신하는 매개변수갱신부; 및 기존의 매개변수와 상기 매개변수갱신부에서 갱신된 매개변수를 비교하여 새로운 매개변수 갱신의 반복여부를 결정하는 매개변수 비교부; 를 포함한다.
또한, 초기값으로 임의의 매개변수와 시계열데이터를 결정하는 단계; 결정된 값을 이용하여, 은닉변수생성부가 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터에 적합한 은닉변수를 생성하는 단계; 생성된 은닉변수를 이용하여, 시계열데이터대체부가 새로운 시계열데이터로 대체하는 단계; 및 매개변수갱신부가 상기 단계에서 생성된 은닉변수와 상기 단계에서 대체된 시계열데이터를 이용하여 결측값과 관측값 특성을 포함한 새로운 매개변수로 갱신하는 단계; 를 포함한다.
상기와 같은 본 발명에 따르면, 시계열 데이터에서 발생되는 long-interval 결측값을 칼만필터를 기반으로 한 선형동적시스템을 이용하여 결측값을 자동으로 탐지하고, 이를 대체할 수 있으며 대체정확율을 보장할 수 있다.
또한, 시계열데이터의 연속적 결측값을 대체하기 위한 적합한 은닉변수들을 자동적으로 탐지하는데 있어서 효과적이며, 연속적으로 랜덤하게 발생되는 결측값 사이의 역학관계를 간결하게 묘사할 수 있다.
도 1 은 시계열 데이터의 연속적 결측값 대체 시스템의 블록 구성도
도 2 는 본 발명의 일실시예에 따른 은닉변수 생성방법에 대한 일예시도
도 3 은 본 발명의 일실시예에 따른 시계열 데이터의 연속적 결측값 대체 방법에 대한 흐름도
본 발명의 구체적 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명한다.
본 발명은 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법에 관한 것으로서, 도 1 내지 도 3 를 참조하여 설명하면 다음과 같다.
도 1 은 시계열 데이터의 연속적 결측값 대체 시스템의 블록 구성도로서, 본 발명은 은닉변수생성부(100), 시계열데이터대체부(200), 매개변수갱신부(300) 및 매개변수비교부(400)를 포함한다.
은닉변수생성부(100)는 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터의 연속적 결측값 패턴특징을 포함하는 은닉변수를 생성한다.
시계열데이터는 시간의 변화를 가진 데이터로서, 일실시예를 예로 들면, 시간을 변수로 하는 시계열데이터는 Y={y1,y2,y3,…,yT}로 표시되며(T는 시간), 이때 yi은 m개의 electrode를 포함하는바, Y는 T×m 차원을 가지는 행렬로 표시할 수 있다.
은닉변수(hidden valuable)는 상기 시계열데이터의 연속적 결측값의 패턴의 특징을 포함하고, 이러한 연속적 결측값을 대체하기 위한 패턴의 역학관계를 나타낸다. 따라서 은닉변수 역시 시간의 변화를 가진 데이터로서, 상기 시계열데이터 Y에 적합한 은닉변수를 예로 들면, 은닉변수는 Z={z1,z2,z3,…,zT}로 표시되어(T는 시간), 상기 시계열 데이터와 동일한 T차원을 가지나, y의 특징부만을 포함하기 때문에, Z는 T×n 차원을 가지는 행렬로 표시할 수 있다.
은닉변수생성부(100)는 같은 시간에서의 관찰값과 결측값의 상관관계를 모형화하고, 시간의 연속성을 고려함으로써 은닉변수를 생성하는데, 여기서는 통상의 SVD 방법을 사용한다. 은닉변수생성부(100)는 상관관계모델링모듈(110)과 시간적 연속성모델링모듈(120)을 포함한다.
시계열 데이터의 경우 이전 시점들로부터 관측된 데이터는 다음 시점에 관측될 데이터와의 시간적 의존성이 존재한다고 가정하기 때문에, 상관관계 및 시간적 연속성과 같은 속성을 통해 해당 시계열 데이터에 적합한 은닉변수 set(zn)을 생성할 수 있다.
상관관계(correlation)모델링모듈(110)은 완전한 관측값과 결측값이 모두 포함된 데이터 시퀀스를 이용하여 각각의 시점에서 투영된 선형행렬 C를 통해 일련의 은닉변수 zn을 생성한다. 은닉변수 zn 생성시, 일부가 데이터가 결측되었다고 하더라도 결측값은 차원들 사이의 상관관계를 발견함으로써 추론될 수 있다.
여기서 선형행렬 C는 m×H 행렬로, 후술할 일종의 매개변수행렬이다. C는 처음에는 임의의 m×H 행렬을 사용하나, 여러번의 시스템 반복을 통해 해당 시계열데이터에 적합한 행렬로 계속적으로 갱신된다. 여기는 H는 임의의 숫자이다.
시간적 연속성(temporal continuity)모델링모듈(120)은 이전시점에서 결정된 값을 선형전이행렬 A를 통해 다음시점의 은닉변수 상태를 추론하여, 일련의 은닉변수 zn을 생성한다. 시계열데이터가 이전시점은 반드시 다음시점과 연계성이 있다는 전제하에 해당 시계열데이터의 적합한 은닉변수 zn을 생성할 수 있다.
선형전이행렬 A는 상태 시간 경과에 따라 전방으로 이동하는 방식을 설명하는 행렬로서, 시간의 경과가 은닉변수의 상태 전이와 관련이 있다는 사실을 의미한다. 여기서 선형전이행렬 A는 H×H 행렬로, 후술할 일종의 매개변수행렬이다. A는 처음에는 임의의 H×H 행렬을 사용하나, 여러번의 시스템 반복을 통해 해당 시계열데이터에 적합한 행렬로 계속적으로 갱신된다. 여기는 H는 임의의 숫자이다.
도 2 는 본 발명의 일실시예에 따른 은닉변수 생성방법에 대한 일예시도이다. 은닉변수를 생성하는 방법은 관측 매개변수 및 현-매개변수에 근거하여 은닉변수를 추정함으로써 가능하다. EM알고리즘과 칼판평활화방정식을 사용한다.
EM알고리즘이란 Expectation-Maximization 알고리즘으로, Expectation 단계에서는 전방-후방 절차를 통한 은닉변수들의 조건 기대-값을 계산하고, Maximization 단계에서는 log-likelihood를 극대화한다.
먼저 매개변수 set
Figure 112012002085394-pat00001
와 시계열데이터 를 임의로 결정한다. 이때, 매개변수
Figure 112012002085394-pat00002
과 시계열데이터
Figure 112012002085394-pat00003
를 이용한 가우스 분포
Figure 112012002085394-pat00004
를 예측한다.
결측값을 갖는 시계열데이터
Figure 112012002085394-pat00005
가 주어진 경우, filled method를 이용하여 결측값을 최소화한 후에 은닉상태 변수들에 대한 주변분포를 확인한다. 그 모형 상의 이전의 분포와 조건 분포 모두는 가우스 분포를 이루며, 현재 측정 시점까지의 사후 분포 역시 가우스 분포를 나타내기 때문에 이러한 추측이 가능하다.
Figure 112012002085394-pat00006
은 수학식 1을 통해 구할 수 있다.
Figure 112012002085394-pat00007
상술한 바와 같이
Figure 112012002085394-pat00008
를 예측하고 나면 전방-후방 전파방정식을 이용하여 추가적인 매개변수를 계산한다. 이때 추가적인 매개변수란
Figure 112012002085394-pat00009
를 말하는데, 상기
Figure 112012002085394-pat00010
등은 은닉변수의 조건 기댓값을 계산하기 위해 사용되는 것일 뿐 최종적인 매개변수
Figure 112012002085394-pat00011
와 관계없는바, 자세한 설명은 생략한다. 전후방 방정식은 수학식 2와 같다.
Figure 112012002085394-pat00012
상기 수학식 1과 수학식 2의 초기값은 수학식 3과 같다.
Figure 112012002085394-pat00013
상기 계산된 매개변수를 이용하여, 은닉변수의 조건 기댓값을 계산한다.
은닉변수
Figure 112012002085394-pat00014
의 조건 기댓값은
Figure 112012002085394-pat00015
으로 표현되는데, 그 값은 다음의 수학식 4와 같다.
Figure 112012002085394-pat00016
상기 수학식에서
Figure 112012002085394-pat00017
은 다음 수학식 5와 같다.
Figure 112012002085394-pat00018
은닉변수의 조건 기댓값을 구하는 방법은 칼만 평활화 방정식을 사용한다. 평활화방법은 초기의 forward recursion 후에 이어지는 backward recursion이 포함되는데, forward recursion 단계에서 칼만필터방정식의 값이 저장되고, backward recursion 단계에서의 값은 칼만 평활화 방정식을 초기화 하기 위해 사용된다. 이러한 방정식이 상술한 수학식 5와 같으며, 이를 통해서 수학식 4의 은닉변수
Figure 112012002085394-pat00019
의 조건 기댓값은
Figure 112012002085394-pat00020
를 계산할 수 있다.
상기 계산된 은닉변수
Figure 112012002085394-pat00021
의 조건 기댓값을 이용하여, 마르코프 속성을 활용하여 은닉변수
Figure 112012002085394-pat00022
을 생성한다. 이는 수학식 6을 통해 구할 수 있다.
Figure 112012002085394-pat00023
여기서
Figure 112012002085394-pat00024
은 시간 T에서 데이터가 없는 결측값을 의미하고,
Figure 112012002085394-pat00025
은 시간 T에서 데이터가 있는 관측값을 의미한다.
수학식 6을 통해 생성된 은닉변수
Figure 112012002085394-pat00026
은 시계열데이터
Figure 112012002085394-pat00027
의 관측값과 결측값에 대한 모든 특성을 포함한다.
시계열데이터대체부(200)는 상기 은닉변수생성부(100)에서 생성된 은닉변수를 사용하여, 새로운 시계열데이터로 대체한다.
먼저 매개변수 set
Figure 112012002085394-pat00028
Figure 112012002085394-pat00029
으로 임의로 결정한다. 이미
Figure 112012002085394-pat00030
은 은닉변수생성부(100)에서 결정되었다.
해당 시계열데이터
Figure 112012002085394-pat00031
은 결측값(
Figure 112012002085394-pat00032
)과 관측값(
Figure 112012002085394-pat00033
)을 포함하는데, 결측값은 시간 T에서 데이터가 없는 경우를 의미하고, 관측값은 시간 T에서 데이터가 있는 경우를 의미한다.
상기 은닉변수생성부(100)에서 생성한 은닉변수 set
Figure 112012002085394-pat00034
를 사용하면, 수학식 7을 통해
Figure 112012002085394-pat00035
,
Figure 112012002085394-pat00036
Figure 112012002085394-pat00037
의 결합분포를 알 수 있다.
Figure 112012002085394-pat00038
상기 단계에서 결정된 매개변수 set
Figure 112012002085394-pat00039
과 상기 은닉변수 생성부에서 생성된 은닉변수 set
Figure 112012002085394-pat00040
를 사용하면, 결측값과 관측값을 포함한 시계열데이터
Figure 112012002085394-pat00041
을 구할 수 있는데, 이는 칼만필터의 선형동적시스템을 이용한다.
칼만필터는 잡음이 포함된 선형 역학계의 상태를 추적하는 재귀 필터로, 물체의 측정값에 확률적인 오차가 포함되고, 또한 물체의 특정 시점에서의 상태는 이전 시점의 상태와 선형적인 관계를 가지고 있는 경우 적용될 수 있다. 칼만필터는 이산 시간 선형 동적 시스템을 기반으로 하고 있으며, 각 시간에서의 상태 벡터는 이전 시간의 벡터들에 대해서만 관계된다는 마르코프 연쇄를 가정하고 있다.
수학식 8는 칼만필터에 따른 시계열데이터
Figure 112012002085394-pat00042
를 구하는 식이다.
Figure 112012002085394-pat00043
S210 단계에서 이미
Figure 112012002085394-pat00044
을 결정하였고, 은닉변수
Figure 112012002085394-pat00045
는 상기 은닉변수생성부(100)에서 결정되었는바, 상기 수학식 8를 사용하면, 시계열데이터
Figure 112012002085394-pat00046
를 구할 수 있다.
이때,
Figure 112012002085394-pat00047
은 노이즈로서,
Figure 112012002085394-pat00048
이며,
Figure 112012002085394-pat00049
을 의미한다.
상기 수학식 8를 통해 계산된 시계열데이터
Figure 112012002085394-pat00050
는 이전 시계열데이터
Figure 112012002085394-pat00051
를 대체된다. 시계열데이터
Figure 112012002085394-pat00052
와 시계열데이터
Figure 112012002085394-pat00053
간의 차이점은
Figure 112012002085394-pat00054
에 비해
Figure 112012002085394-pat00055
는 은닉변수생성부(100)를 통해 결측값과 관측값의 특징을 가지고 있는 은닉변수
Figure 112012002085394-pat00056
를 이용하였기 때문에, 이에 적합한 결측값과 관측값을 포함한 시계열데이터라는 점이다.
매개변수갱신부(300)는 이전시점의 매개변수를 상기 은닉변수생성부(100)에서 생성된 은닉변수와 상기 시계열데이터대체부(200)에서 대체된 시계열데이터를 이용하여 결측값과 관측값 특성을 포함한 새로운 매개변수로 갱신한다.
매개변수갱신부(300)에서는 EM알고리즘의 maximization 과정을 사용한다. 즉, 극대화 과정에서 일부 충분한 통계치를 활용하여 기대 log-likelihood 값을 극대화함으로써 매개변수를 갱신한다.
새로운 매개변수
Figure 112012002085394-pat00057
는 결측값과 관측값 특성을 모두 포함한 값으로, 이는 최대우도
Figure 112012002085394-pat00058
를 만족해야 한다.
Figure 112012002085394-pat00059
를 구하는 식은 다음 수학식 9를 통해 구할 수 있다.
Figure 112012002085394-pat00060
상기 수학식 9에서
Figure 112012002085394-pat00061
의 최대값을 구해야 가장 적합한 매개변수
Figure 112012002085394-pat00062
를 구할 수 있는데, 상기 수학식 9를 미분하여 그 값이 0이 되는 즉,
Figure 112012002085394-pat00063
를 만족하는
Figure 112012002085394-pat00064
를 구하면, 새로운 매개변수
Figure 112012002085394-pat00065
를 구할 수 있다. 새로운 매개변수는 수학식 10과 같다.
Figure 112012002085394-pat00066
매개변수 비교부(400)는 상기 은닉변수생성부(100)에서 임의로 정한 매개변수와 상기 매개변수갱신부(300)에서 갱신된 매개변수를 비교한다. 비교한 경우, 상이한 경우는 다시 은닉변수생성부(100)에서 새로운 은닉변수를 생성함으로써, 다시 새로운 매개변수를 갱신하게한다.
한편, 비교한 결과, 동일한 경우에는 더 이상 새로운 은닉변수를 생성하지 아니하고, 시스템은 종료된다.
은닉변수생성부(100)에서 임의로 정한 매개변수와 상기 매개변수갱신부(300)에서 갱신된 매개변수가 동일하다는 의미는 해당 시계열데이터 Y에 가장 적합한 매개변수가 갱신되었다는 의미이므로, 결측값을 대체할 수 있는 매개변수가 생성되었기 때문에, 시스템을 종료할 수 있는 것이다. 즉, 적합한 매개변수가 생성될 때까지 본 시스템은 계속적으로 반복되도록 되어있다.
도 3 은 본 발명의 일실시예에 따른 시계열 데이터의 연속적 결측값 대체 방법에 대한 흐름도이다.
시계열 데이터의 연속적-결측값을 대체하기 위해 먼저 초기값으로, 매개변수 set
Figure 112012002085394-pat00067
와 시계열데이터
Figure 112012002085394-pat00068
를 임의로 결정한다(S100).
상기 S100에서
Figure 112013013327183-pat00069
,
Figure 112013013327183-pat00070
값이 결정되면, 은닉변수생성부(100)는 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터의 연속적 결측값 패턴특징을 포함하는 은닉변수를 생성한다(S200).
세부단계로 먼저, 상기 매개변수
Figure 112012002085394-pat00071
과 시계열데이터
Figure 112012002085394-pat00072
를 이용한 가우스 분포
Figure 112012002085394-pat00073
를 예측한다(S210). 이때,
Figure 112012002085394-pat00074
은 상술한 수학식 1을 통해 구할 수 있다.
S210 단계에서
Figure 112012002085394-pat00075
를 예측하고 나면 전방-후방 전파방정식을 이용하여 몇가지 매개변수를 계산한다(S220). 전후방 방정식은 상술한 수학식 2와 같으며, 상술한 수학식 1 내지 3을 이용하여, 필요한 몇가지 매개변수를 구한다.
상기 S220 단계에서 계산된 매개변수를 이용하여, 은닉변수의 조건 기댓값을 계산한다(S230).
은닉변수
Figure 112012002085394-pat00076
의 조건 기댓값은
Figure 112012002085394-pat00077
로 표현되는데, 수학식 4 내지 5를 통해 구할 수 있다.
상기 S230 단계에서 계산된 은닉변수
Figure 112012002085394-pat00078
의 조건 기댓값을 이용하여, 마르코프 속성을 활용하여 은닉변수
Figure 112012002085394-pat00079
을 생성한다(S240). 이는 수학식 6을 통해 구할 수 있다.
상기 S240 단계를 통해 생성된 은닉변수
Figure 112012002085394-pat00080
은 시계열데이터
Figure 112012002085394-pat00081
의 관측값과 결측값에 대한 모든 특성을 포함한다.
상기 S200 단계에서 은닉변수가 생성되면, 상기 생성된 은닉변수를 사용하여, 새로운 시계열데이터로 대체한다(S300). 이는 상술한 수학식 8을 통해 가능하다.
상기 S300단계에서 새로운 시계열데이터로 대체되면, 매개변수 생성부(300)는 S100 단계에서의 매개변수를 상기 S200 단계에서 생성된 은닉변수와 상기 S200단계에서 대체된 시계열데이터를 이용하여 결측값과 관측값 특성을 포함한 새로운 매개변수로 갱신한다(S400). 갱신하는 방법은 EM알고리즘의 Maximization 단계로, 최대우도값을 사용하여 구한다. 상술한 수학식 10을 통해 구할 수 있다.
상기 S400 단계에서 갱신된 매개변수를 이용하여, 매개변수 비교부(400)는 상기 S100 단계에서의 매개변수와 상기 S400 단계에서 갱신된 매개변수를 비교한다(S500).
S500 단계 판단결과, 상기 S100 단계에서의 매개변수와 상기 S400 단계에서 갱신된 매개변수가 동일하지 않다고 판단되는 경우, S100단계로 절차를 이행하되, 이때
Figure 112012002085394-pat00082
는 S400 단계에서 갱신된 새로운 매개변수
Figure 112012002085394-pat00083
를 사용한다(S600).
한편, 상기 S100 단계에서의 매개변수와 상기 S400 단계에서 갱신된 매개변수가 동일하다고 판단되는 경우, 절차를 종료한다(S700).
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
100; 은닉변수생성부
110; 상관관계모델링모듈
120; 시간적 연속성 모델링모듈
200; 시계열데이터대체부
300; 매개변수갱신부
400; 매개변수비교부

Claims (9)

  1. 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터의 연속적 결측값 패턴특징을 포함하는 은닉변수를 생성하는 은닉변수생성부(100);
    상기 은닉변수생성부(100)에서 생성된 은닉변수를 사용하여, 기존의 시계열데이터에서 새로운 시계열데이터로 대체하는 시계열데이터대체부(200);
    상기 은닉변수생성부(100)에서 생성된 은닉변수와 상기 시계열데이터대체부(200)에서 대체된 시계열데이터를 이용하여 기존의 매개변수에서 새로운 매개변수로 갱신하는 매개변수갱신부(300); 및
    기존의 매개변수와 상기 매개변수갱신부(300)에서 갱신된 매개변수를 비교하여 새로운 매개변수 갱신의 반복여부를 결정하는 매개변수 비교부(400); 를 포함하는 시계열데이터의 연속적 결측값 대체 시스템.
  2. 제 1 항에 있어서,
    상기 은닉변수생성부는,
    시계열데이터간의 상관관계 및 시간적 연속성을 고려하되, EM알고리즘을 통하여 은닉변수의 기댓값을 예측하고, 칼만필터와 마르코프 속성을 활용하여 상기 연속적 결측값 패턴특징을 포함하는 은닉변수를 생성하는 것을 특징으로 하는 시계열데이터의 연속적 결측값 대체 시스템.
  3. 제 1 항에 있어서,
    상기 시계열데이터대체부(200)는,
    칼만필터기반의 선형동적함수에 상기 은닉변수생성부(100)에서 생성된 은닉변수를 대입하여, 결측값이 반영된 시계열데이터를 생성함으로써, 기존의 시계열데이터를 대체하는 것을 특징으로 하는 시계열데이터의 연속적 결측값 대체 시스템.
  4. 제 3 항에 있어서,
    상기 칼만필터기반의 선형동적함수는,
    아래 수식을 사용하는 것을 특징으로 하는 시계열데이터의 연속적 결측값 대체 시스템.

    Figure 112012002085394-pat00084

    여기서,
    Figure 112012002085394-pat00085
    는 은닉변수,
    Figure 112012002085394-pat00086
    은 시계열데이터,
    Figure 112012002085394-pat00087
    ,
    Figure 112012002085394-pat00088
    은 노이즈, A와 C는 칼만필터를 적용하기 위해 선형행렬이다.
  5. 제 1 항에 있어서,
    매개변수갱신부(300)는,
    상기 은닉변수생성부(100)에서 생성된 은닉변수와, 상기 시계열데이터대체부(200)에서 대체된 시계열데이터를 이용하여 결측값과 관측값 특성을 포함한 매개변수를 구하여, 이를 새로운 매개변수로 갱신하는 것으로 특징으로 하는 시계열데이터의 연속적 결측값 대체 시스템.
  6. (a) 초기값으로 임의의 매개변수와 시계열데이터를 결정하는 단계;
    (b) 상기 (a) 단계에서 결정된 값을 이용하여, 은닉변수생성부(100)가 연속적 결측값을 포함한 시계열데이터간의 상관관계를 고려하여 상기 시계열데이터의 연속적 결측값 패턴특징을 포함하는 은닉변수를 생성하는 단계;
    (c) 상기 (b) 단계에서 생성된 은닉변수를 이용하여, 시계열데이터대체부(200)가 새로운 시계열데이터로 대체하는 단계; 및
    (d) 매개변수갱신부(300)가 상기 (b) 단계에서 생성된 은닉변수와 상기 (c) 단계에서 대체된 시계열데이터를 이용하여 결측값과 관측값 특성을 포함한 새로운 매개변수로 갱신하는 단계; 를 포함하는 시계열데이터의 연속적 결측값 대체방법.
  7. 제 6 항에 있어서,
    상기 (d) 단계 이후에
    (e) 매개변수 비교부(400)가 상기 (d) 단계에서 갱신된 매개변수와 상기 (a) 단계에서 갱신된 매개변수를 비교하는 단계; 및
    (f) 상기 (e) 단계 비교결과, (d) 단계에서 갱신된 매개변수와 상기 (a) 단계에서 갱신된 매개변수가 상이한 경우, 상기 (c) 단계의 시계열데이터와 상기 (d) 단계의 매개변수를 상기 (a) 단계의 매개변수와 시계열데이터로 보고 상기 (a) 단계로 절차를 이행하는 시계열데이터의 연속적 결측값 대체방법.
  8. 제 6 항에 있어서,
    상기 (d) 단계 이후에
    (e) 매개변수 비교부(400)가 상기 (d) 단계에서 갱신된 매개변수와 상기 (a) 단계에서 갱신된 매개변수를 비교하는 단계; 및
    (f') 상기 (e) 단계 비교결과, (d) 단계에서 갱신된 매개변수와 상기 (a) 단계에서 갱신된 매개변수가 동일한 경우, 절차를 종료하는 시계열데이터의 연속적 결측값 대체방법.
  9. 제 6 항에 있어서,
    상기 (b) 단계는,
    (b-1) 은닉변수생성부(100)가 상기 (a) 단계에서 결정한 매개변수와 시계열데이터를 이용하여 가우스 분포
    Figure 112012002085394-pat00089
    를 예측하는 단계;
    (b-2) 은닉변수생성부(100)가 전방-후방 전파방정식과 EM 알고리즘을 이용하여 은닉변수의 기대값을 계산하는 단계;
    (b-3) 은닉변수생성부(100)가 상기 (b-2) 단계에서 계산된 은닉변수의 기대값을 이용하여, 칼만필터와 마르코프 속성을 적용하여 새로운 은닉변수를 생성하는 단계; 를 포함하는 시계열데이터의 연속적 결측값 대체방법.
KR1020120002509A 2012-01-09 2012-01-09 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법 KR101271694B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120002509A KR101271694B1 (ko) 2012-01-09 2012-01-09 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120002509A KR101271694B1 (ko) 2012-01-09 2012-01-09 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR101271694B1 true KR101271694B1 (ko) 2013-06-05

Family

ID=48866319

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120002509A KR101271694B1 (ko) 2012-01-09 2012-01-09 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101271694B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9684872B2 (en) 2014-06-25 2017-06-20 International Business Machines Corporation Method and apparatus for generating data in a missing segment of a time data sequence
KR101789078B1 (ko) 2017-02-16 2017-10-23 전남대학교산학협력단 고차원 시계열 모델링을 위한 은닉 특징 추출 시스템 및 방법
KR101829560B1 (ko) * 2015-04-03 2018-02-14 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 칼만 필터를 기반으로 하는 용량 예측 방법, 시스템 및 컴퓨터 장치
CN111309973A (zh) * 2020-01-21 2020-06-19 杭州安脉盛智能技术有限公司 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法
KR20210065751A (ko) 2019-11-27 2021-06-04 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
KR102598101B1 (ko) * 2022-06-27 2023-11-02 경북대학교 산학협력단 딥 뉴럴 네트워크 기반 실시간 중환자실 환자 상태 분석 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003446A (ja) 1998-06-15 2000-01-07 Ricoh Co Ltd 欠測値推定方法、三次元データ入力装置、及び、記録媒体
KR20030052401A (ko) * 2001-12-21 2003-06-27 주식회사 케이티 대용량 트래픽 데이터의 결측치 보정방법
US6745150B1 (en) 2000-09-25 2004-06-01 Group 1 Software, Inc. Time series analysis and forecasting program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003446A (ja) 1998-06-15 2000-01-07 Ricoh Co Ltd 欠測値推定方法、三次元データ入力装置、及び、記録媒体
US6745150B1 (en) 2000-09-25 2004-06-01 Group 1 Software, Inc. Time series analysis and forecasting program
KR20030052401A (ko) * 2001-12-21 2003-06-27 주식회사 케이티 대용량 트래픽 데이터의 결측치 보정방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9684872B2 (en) 2014-06-25 2017-06-20 International Business Machines Corporation Method and apparatus for generating data in a missing segment of a time data sequence
KR101829560B1 (ko) * 2015-04-03 2018-02-14 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 칼만 필터를 기반으로 하는 용량 예측 방법, 시스템 및 컴퓨터 장치
US10437942B2 (en) 2015-04-03 2019-10-08 Baidu Online Network Technology (Beijing) Co. Ltd. Kalman filter based capacity forecasting method, system and computer equipment
KR101789078B1 (ko) 2017-02-16 2017-10-23 전남대학교산학협력단 고차원 시계열 모델링을 위한 은닉 특징 추출 시스템 및 방법
KR20210065751A (ko) 2019-11-27 2021-06-04 강릉원주대학교산학협력단 결측값 대체 시스템 및 결측값 대체 방법
CN111309973A (zh) * 2020-01-21 2020-06-19 杭州安脉盛智能技术有限公司 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法
CN111309973B (zh) * 2020-01-21 2024-01-05 杭州安脉盛智能技术有限公司 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法
KR102598101B1 (ko) * 2022-06-27 2023-11-02 경북대학교 산학협력단 딥 뉴럴 네트워크 기반 실시간 중환자실 환자 상태 분석 시스템 및 방법

Similar Documents

Publication Publication Date Title
KR101271694B1 (ko) 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법
AU2016286280B2 (en) Combined method for detecting anomalies in a water distribution system
Orguner A variational measurement update for extended target tracking with random matrices
US8600917B1 (en) Coupling time evolution model with empirical regression model to estimate mechanical wear
Pillonetto A new kernel-based approach to hybrid system identification
Lippe et al. Pde-refiner: Achieving accurate long rollouts with neural pde solvers
Burke et al. Planet Detection Metrics: Per-Target Detection Contours for Data Release 25
KR101852527B1 (ko) 기계학습 기반의 동적 시뮬레이션 파라미터 교정 방법
CN113037577B (zh) 网络流量预测方法、装置和计算机可读存储介质
Ali-Eldin et al. Measuring cloud workload burstiness
Landon et al. A Markov modulated Poisson model for software reliability
Karunasingha et al. Enhancement of chaotic hydrological time series prediction with real-time noise reduction using Extended Kalman Filter
CN111160666B (zh) 强噪声与非周期状态监测的健康状态与可靠性评估方法
KR101741248B1 (ko) 복수의 변수를 이용한 인과관계 추정 방법 및 장치
Antonacci et al. Estimating brain connectivity when few data points are available: Perspectives and limitations
JP2013061768A (ja) 最適モデル推定装置、方法、及びプログラム
Wu et al. Multi-step prediction of chaotic time-series with intermittent failures based on the generalized nonlinear filtering methods
US8031628B2 (en) Optimal probing for unicast network delay tomography
Mohammadi et al. Distributed posterior Cramér-Rao lower bound for nonlinear sequential Bayesian estimation
JP6642431B2 (ja) 流量予測装置、混合比推定装置、方法およびコンピュータ読み取り可能記録媒体
Kuhi et al. Using probabilistic models for missing data prediction in network industries performance measurement systems
Van Der Kwast et al. Remote sensing data assimilation in modeling urban dynamics: Objectives and methodology
Apputhurai et al. Accounting for uncertainty in extremal dependence modeling using Bayesian model averaging techniques
CN114511088A (zh) 一种用于结构损伤识别的贝叶斯模型更新方法及系统
JP2013149203A (ja) 最適モデル推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160405

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170508

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 6