KR102525561B1

KR102525561B1 - 시계열 추론 데이터 생성 장치 및 그 방법

Info

Publication number: KR102525561B1
Application number: KR1020210064385A
Authority: KR
Inventors: 김동우; 최승윤; 신기범
Original assignee: 한전케이디엔주식회사
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-04-24
Also published as: KR20220156388A

Abstract

본 발명의 시계열 추론 데이터 생성 장치는 시계열 로우(Raw) 데이터를 입력받아서, 이동평균(Moving Average)을 통해 데이터의 증강을 수행하는 데이터 증강기; 상기 데이터 증강기에서 출력되는 데이터를 미리 설정된 구간(Step) 별로 정리하는 구간별 데이터 정리기; 상기 구간별 데이터 정리기에서 정리된 구간별 데이터를 정상성 데이터로 변환한 후 대응된 구간의 대푯값을 추출하는 구간별 대푯값 추출기; 상기 구간별 대푯값 추출기에서 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정하는 상태 점검기; 상기 상태 점검기에서 정상성을 만족하는 시계열 데이터를 이용하여 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론하는 시계열 추론기; 및 상기 시계열 추론기에서 추론된 미래 데이터를 저장/관리하는 AI 분석 및 예측용 데이터 저장부를 포함함으로써, 확보되지 않은 데이터로 인해 발생한 일정 대역폭의 변화량을 제거하거나 최소화함으로써, 데이터 트랜드의 왜곡을 방지할 수 있는 장점이 있다.

Description

시계열 추론 데이터 생성 장치 및 그 방법{APPARATUS AND METHOD FOR GENERATING TIME SERIES INFERRED DATA}

본 발명은 시계열 추론 데이터 생성 장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 통계적 분석 및 AI 예측의 품질을 향상시키기 위해 규칙성이 없는 시계열 데이터를 일정한 규칙을 갖는 상태로 변경하여 시계열 추론 데이터를 생성하는 시계열 추론 데이터 생성 장치 및 그 방법에 관한 것이다.

데이터 마이닝 분야에서는, 대량의 시계열 데이터가 분석되어야 한다.

오늘날 시계열 데이터는 주식시장의 변동이나 동적 처리 과정 및 과학실험, 의학실험, 센서 네트워크의 판독내용, 위치기반 서비스의 이동체의 위치 갱신 등 다양한 분야에서 전례가 없는 추세로 발생하고 있다.

이와 같이 발생한 시계열(time series) 데이터들은 다차원 데이터가 될 수도 있고, 예전에 관찰되었거나 관찰되지 않은 패턴이 하나 또는 그 이상 발생할 수도 있다. 이러한 패턴들은 때때로 일반적이면서도 어떠한 모델이나 규칙도 형성하지 못하는 경우가 대부분이다. 예를 들어, 데이터 그 자체가 종종 비정상적인 경우도 있고, 계적이나 단기 변화에 따라 반주기적(semi-periodic)인 경우도 있다. 빅데이터 셋에서 잉여 데이터를 제거하거나 패턴을 세그먼트화하는 것은 유사성 기반 추출, 분류, 클러스터링 및 기타 시계열 마이닝 기법에 대단히 유용하다.

그런데, 획득된 데이터를 정상적인 패턴과 비정상적인 패턴으로 수동 분석하는 것은 장시간이 소요되는 만만치 않은 작업이다. 비정상(anomaly)의 정의가 모호하고, 응용 예에 따라 각양각색이기 때문이다. 또한, 이러한 신호들은 일반적으로 시간적으로 불규칙하기 때문에, 단시간 패턴/이벤트의 시점과 종점을 정확하게 탐지하기가 곤란하고, 나아가 다양한 내부 및 외부 잡음원으로 인한 잡음의 존재는 데이터에 대한 양호한 해석을 획득함에 있어서 상당한 장애가 된다.

따라서 이러한 시계열 데이터의 처리를 위한 종래 기술로서, 한국등록특허 제 10-2205215 호에는, 딥 러닝을 기반으로 한 자원 가격 예측 방법이 개시되어 있다. 상기 특허에는, 인터넷망을 통하여 수집한 전문 칼럼, 뉴스 및 경제지표를 혼합하여, 형태소 분석기술과 뉴스의 의미적 중요도 추정 기술과 심층 신경망(Deep learning) 기술을 순차적으로 연결하여 특정 자원의 가격변화를 예측하는 방법에 것으로, 자원사전 장치에 의해 전문 칼럼으로부터 특정 자원 가격에 영향을 주는 핵심 어휘를 도출하고, 도출된 어휘를 카테고리 별 분류를 통해 단어 분류로 취급할 수 있도록 하는 자원사전 구축단계와; 연관뉴스지표 장치에 의해 자원사전 구축 단계를 통하여 도출된 핵심 어휘 및 단어 분류가 뉴스에서 다뤄진 중요도를 시기별로 계산하고, 시기별로 계산된 중요도를 벡터화하는 가중치 단계와; 연관경제지표 장치에 의해 경제지표 중 특정 자원의 가격과 연관성이 높은 경제 지표를 선택하는 지표선정 단계와; 시계열예측 장치에 의해 과거의 특정 자원 가격 변화를 시간에 따른 패턴으로 학습하여 예측모델을 수립하고, 상기 예측모델을 시계열 예측 장치에 탑재하여, 특정 자원 가격의 변화를 예측하는 결과 예측 단계를 포함하는 기술이 개시되어 있다.

상기 특허에 의하면, 수집 가능한 뉴스와 경제지표를 혼합하여, 형태소 분석, 뉴스의 의미적 중요도 추정, 심층신경망 학습 과정을 수행하는 시계열 데이터의 처리를 통해, 수개월 이후의 가격 변화를 예측할 수 있는 특징이 있다.

하지만, 상기 특허는, 하루 단위 데이터를 이용하여 상기 가격 변화를 예측함으로써, 특정 지표(예컨대, 석유 가격 등)의 하루 단위 변화폭을 설명할 수 없는 문제가 있으며, 통계적 정상성을 확보하지 않은 상태에서 시계열 예측을 수행함으로써, 그 정확도가 떨어지는 문제가 있다.

한국 등록특허번호 제 10-2205215 호

따라서 본 발명은 시계열적 데이터 증강을 통한 대역폭 제거 기술을 이용하여, 확보되지 않은 데이터로 인해 발생한 일정 대역폭의 변화량을 제거하거나 최소화함으로써, 데이터 트랜드의 왜곡을 방지할 수 있는 시계열 추론 데이터 생성 장치 및 그 방법을 제공하고자 한다.

또한, 본 발명은 시계열 데이터의 구간(step) 분할 방법을 이용하여, 통계적 특성이 일정한 데이터 구간을 구간(step) 단위로 생성함으로써, 시계열 데이터에 대한 통계적 정상성을 확보하고, 예측이 가능한 미래 데이터 범위를 추정할 수 있도록 하는 시계열 추론 데이터 생성 장치 및 그 방법을 제공하고자 한다.

또한, 본 발명은 시계열 추론 방법을 활용하되, 전방추론, 후방추론, 이동 추론 중 어느 하나를 이용하여 추론 데이터를 호출함으로써, 추가적인 전처리 없이 AI 분석 및 예측용 데이터를 생성할 수 있는 시계열 추론 데이터 생성 장치 및 그 방법을 제공하고자 한다.

상기 목적을 달성하기 위해, 본 발명에서 제공하는 시계열 추론 데이터 생성 장치는 시계열 로우(Raw) 데이터를 입력받아서, 이동평균(Moving Average)을 통해 데이터의 증강을 수행하는 데이터 증강기; 상기 데이터 증강기에서 출력되는 데이터를 미리 설정된 구간(Step) 별로 정리하는 구간별 데이터 정리기; 상기 구간별 데이터 정리기에서 정리된 구간별 데이터를 정상성 데이터로 변환한 후 대응된 구간의 대푯값을 추출하는 구간별 대푯값 추출기; 상기 구간별 대푯값 추출기에서 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정하는 상태 점검기; 상기 상태 점검기에서 정상성을 만족하는 시계열 데이터를 이용하여 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론하는 시계열 추론기; 및 상기 시계열 추론기에서 추론된 미래 데이터를 저장/관리하는 AI 분석 및 예측용 데이터 저장부를 포함하는 것을 특징으로 한다.

바람직하게, 상기 구간별 데이터 정리기는 소정 시간을 구간으로 설정하고, 상기 구간 동안 발생하는 연속적인 측정값을 하나의 데이터로 정리할 수 있다.

바람직하게, 상기 구간별 대푯값 추출기는 차분, 2차 차분, 및 로그 변환 중 어느 하나의 방법으로 상기 대푯값을 추출하고, 상기 상태 점검기로부터 정상성을 만족하지 않는 시계열 데이터를 전달받아 구간별 대푯값 추출을 재실행할 수 있다.

바람직하게, 상기 상태 점검기는 KPSS 검증, 및 ADF 검증 중 어느 하나의 방법으로 상기 구간별 대푯값의 정상성 만족 여부를 결정할 수 있다.

바람직하게, 상기 시계열 추론기는 상기 정상성을 만족하는 시계열 데이터의 미래 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의한 후, 상기 연장구간의 미래 데이터를 추론하여 시계열 추론 데이터를 생성할 수 있다.

바람직하게, 상기 시계열 추론기는 추론 용도에 따라 전방추론, 후방추론, 및 이동추론 중 어느 하나의 추론 방법을 적용하여 추론 데이터를 호출하고, 상기 호출된 데이터를 상기 저장부에 저장할 수 있다.

한편, 상기 목적을 달성하기 위해, 본 발명에서 제공하는 시계열 데이터의 전처리 방법은, 시계열 로우(Raw) 데이터를 일정한 규칙을 갖는 상태로 변경하여 시계열 추론 데이터를 생성하는 시계열 추론 데이터 생성 장치를 이용한 시계열 추론 데이터 생성 방법에 있어서, 상기 시계열 로우(Raw) 데이터에 대하여, 이동평균(Moving Average)을 통해 데이터의 증강을 수행하는 데이터 증강단계; 상기 증강된 데이터를 미리 설정된 구간(Step) 별로 정리하는 구간별 데이터 정리단계; 상기 구간별 데이터 정리단계에서 정리된 구간별 데이터를 정상성 데이터로 변환한 후 대응된 구간의 대푯값을 추출하는 구간별 대푯값 추출단계; 상기 구간별 대푯값 추출단계에서 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정하는 상태 점검단계; 상기 상태 점검단계에서 정상성을 만족하는 시계열 데이터를 이용하여, 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론하는 시계열 추론단계; 및 상기 시계열 추론단계에서 추론된 미래 데이터를 저장/관리하는 AI 분석 및 예측용 데이터 저장단계를 포함하는 것을 특징으로 한다.

바람직하게, 상기 구간별 데이터 정리단계는 소정 시간을 구간으로 설정하고, 상기 구간 동안 발생하는 연속적인 측정값을 하나의 데이터로 정리할 수 있다.

바람직하게, 상기 구간별 대푯값 추출단계는 차분, 2차 차분, 및 로그 변환 중 어느 하나의 방법으로 상기 대푯값을 추출하고, 상기 상태 점검단계에서 정상성을 만족하지 않는 것으로 결정된 시계열 데이터를 전달받아, 해당 구간의 구간별 대푯값 추출을 재실행할 수 있다.

바람직하게, 상기 상태 점검단계는 KPSS 검증, 및 ADF 검증 중 어느 하나의 방법으로 상기 구간별 대푯값의 정상성 만족 여부를 결정할 수 있다.

바람직하게, 상기 시계열 추론단계는 상기 정상성을 만족하는 시계열 데이터의 미래 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의한 후, 상기 연장구간의 미래 데이터를 추론하여 시계열 추론 데이터를 생성할 수 있다.

바람직하게, 상기 시계열 추론단계는 추론 용도에 따라 전방추론, 후방추론, 및 이동추론 중 어느 하나의 추론 방법을 적용하여 데이터를 호출하고, 상기 호출된 데이터를 외부 저장소에 저장할 수 있다.

본 발명의 시계열 추론 데이터 생성 장치 및 그 방법은 시계열적 데이터 증강을 통한 대역폭 제거 기술을 이용하여, 확보되지 않은 데이터로 인해 발생한 일정 대역폭의 변화량을 제거하거나 최소화함으로써, 데이터 트랜드의 왜곡을 방지할 수 있는 장점이 있다. 또한, 본 발명은 시계열 데이터의 구간(step) 분할 방법을 이용하여, 통계적 특성이 일정한 데이터 구간을 구간(step) 단위로 생성함으로써, 시계열 데이터에 대한 통계적 정상성을 확보하고, 예측이 가능한 미래 데이터 범위를 추정할 수 있는 장점이 있다. 또한, 본 발명은 시계열 추론 방법을 활용하여, 전방추론, 후방추론, 이동 추론 중 어느 하나를 이용하여 추론 데이터를 호출함으로써, 추가적인 전처리 없이 AI 분석 및 예측용 데이터 마트를 생성할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시 예에 따른 시계열 추론 데이터 생성 장치에 대한 개략적인 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 시계열 추론 데이터 생성 장치에 입력되는 시계열 로우(Raw) 데이터의 예를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 데이터 증강기의 데이터 증강 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 데이터 정리기의 구간(Step)별 데이터 정리 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 대푯값 추출기의 구간(Step) 별 대푯값 추출 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 상태 점검기의 정상성 여부 결정 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시 예에 따른 시계열 추론기의 연장구간 정의 과정을 설명하기 위한 도면이다.
도 8 내지 도 10은 본 발명의 일 실시 예에 따른 시계열 추론기의 추론 데이터 호출 방법의 예를 도시한 도면들이다.
도 11은 본 발명의 일 실시 예에 따른 시계열 추론 데이터 생성 방법에 대한 개략적인 처리 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 설명하되, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 상세히 설명한다.

그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 한편 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한 상세한 설명을 생략하여도 본 기술 분야의 당업자가 쉽게 이해할 수 있는 부분의 설명은 생략하였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시 예에 따른 시계열 추론 데이터 생성 장치에 대한 개략적인 블록도이다. 도 1을 참조하면, 본 발명의 일 실시 예에 따른 시계열 추론 데이터 생성 장치(100)는 시계열 로우(Raw) 데이터(10)를 입력으로 받아 시계열 추론 데이터를 생성하여 AI 분석/예측용 데이터 저장부(200)에 저장하며, 데이터 증강기(110)와, 데이터 정리기(120)와, 대푯값 추출기(130)와, 상태 점검기(140)와, 시계열 추론기(150)를 포함한다.

데이터 증강기(110)는 입력 데이터를 증강하여 출력한다. 이 때, 데이터 증강기(110)로 입력되는 데이터는 경제지표, 복잡시스템, 자연계 관측 결과 등으로부터 생성된 시간적 순서로 구성된 데이터(예컨대, 시계열 로우(Raw) 데이터)로서, 통계적 특성이 일정하지 않은 비정상성(Non-Stationary) 상태의 데이터를 대상으로 한다. 한편, 상기 시계열 로우(Raw) 데이터는 특정 주기로 생성되는 데이터로서, 상기 데이터의 생성주기는 1초/1분/1일 등 다양할 수 있으며, 도 2에 예시된 바와 같이, 1st 측정값, 2nd 측정값, 3rd 측정값 등으로 표현할 수 있다.

상기 시계열 로우(Raw) 데이터는 상기 예시한 바와 같은 데이터 생성주기별로 일정한 대역폭 내에서 미시적인 변동폭이 발생하며, 대역폭이 큰 시계열 데이터는 분석 과정에서 주요한 트렌드를 희석시키는 악영향을 줄 수 있는데, 이로 인해, 주요한 트렌드를 보존하기 위한 대책으로, 데이터 증강기(110)에서는 상기 시계열 로우(Raw) 데이터를 증강하며, 도 3에 예시된 바와 같이, 이동 평균(Moving Average)의 방법으로 증강할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 데이터 증강기의 데이터 증강 과정을 설명하기 위한 도면으로서, 도 3의 (a)는 원본 데이터(즉, 측정값)를 나타내고, 도 3의 (b)는 상기 원본 데이터를 이동평균 3MA로 증강한 예를 나타내고, 도 3의 (c)는 상기 원본 데이터를 이동평균 4MA로 증강한 예를 나타내고, 도 3의 (d)는 도 3의 (a)에 예시된 원본데이터들 각각에 대하여, 데이터 증강이 수행된 결과를 나타낸다. 한편, 데이터 증강기(110)는 이동평균(Moving Average)의 방법으로 연속적인 수 개의 측정값의 평균값으로 새로운 데이터를 생성하며, 이를 위해, 수학식 1에 예시된 식에 의해 상기 이동평균(MA, Moving Average)을 산출할 수 있다.

이와 같이, 데이터 증강기(110)는 데이터의 증강을 수행하되, 원본 시계열 데이터의 이동평균을 계산함으로써, 관리되지 않은 데이터에 의해 발생한 변화폭을 최소화하여 대역폭이 최소화할 수 있다. 이로 인해, 본 발명의 시계열 추론 데이터 생성 장치는 주요한 트렌드를 강화하는 효과를 얻을 수 있다.

데이터 정리기(120)는 데이터 증강기(110)에서 출력되는 데이터를 미리 설정된 구간(Step) 별로 정리한다. 이 때, 구간(Step)은 연속적인 측정값을 하나의 단위로 취급하는 측정 단위를 말하는 것으로서, 예를 들어, 백만분의 1초(Millisecond) 마다 생성되는 데이터에 대하여 1초마다 한 묶음으로 할 때, 백만 개의 데이터를 하나의 데이터로 취급할 수 있으며, 이 때, 구간 크기(Step-size)는 1,000,000이다. 즉, 데이터 정리기(120)는 소정 시간을 구간으로 설정하고, 상기 구간 동안 발생하는 연속적인 측정값을 하나의 데이터로 정리하며, 그 처리 과정의 예가 도 4에 예시되어 있다.

도 4는 본 발명의 일 실시 예에 따른 데이터 정리기의 구간(Step)별 데이터 정리 과정을 설명하기 위한 도면으로서, 도 4의 (a)는 구간 크기(Step size)가 1인 경우 데이터 정리 결과의 예를 나타내고, 도 4의 (b)는 구간 크기(Step size)가 2인 경우 데이터 정리 결과의 예를 나타내고, 도 4의 (c)는 구간 크기(Step size)가 3인 경우 데이터 정리 결과의 예를 나타내고, 도 4의 (d)는 구간 크기(Step size)가 N인 경우 데이터 정리 결과의 예를 나타낸다. 도 4를 참조하면, 구간 크기(Step size)에 따라 해당 구간의 정리 대상 데이터가 다르게 선택되며, 예를 들어, 구간 크기(Step size)가 2인 경우, 1구간(Step)의 정리 대상 데이터는 1st 측정값과, 2nd 측정값이고, 2구간(Step)의 정리 대상 데이터는 2nd 측정값과 3rd 측정값이다.

대푯값 추출기(130)는 데이터 정리기(120)에서 정리된 구간(Step)별 데이터를 정상성(Stationary) 데이터로 변환한 후 대응된 구간의 대푯값을 추출한다. 이 때, 대푯값 추출기(130)는, 상기 대푯값을 추출하기 위해, 차분, 2차 차분, 및 로그 변환 등의 방법을 사용할 수 있으며, 상기 대푯값 추출 과정은 도 5에 예시된 바와 같다. 도 5는 본 발명의 일 실시 예에 따른 대푯값 추출기의 구간(Step) 별 대푯값 추출 과정을 설명하기 위한 도면으로서, 도 5의 (a)는 구간 크기(Step size)가 1인 경우 대푯값 추출 결과의 예를 나타내고, 도 5의 (b)는 구간 크기(Step size)가 2인 경우 대푯값 추출 결과의 예를 나타내고, 도 5의 (c)는 구간 크기(Step size)가 3인 경우 대푯값 추출 결과의 예를 나타내고, 도 5의 (d)는 구간 크기(Step size)가 N인 경우 대푯값 추출 결과의 예를 나타낸다.

한편, 대푯값 추출기(130)는 후술될 상태 점검기(140)로부터 전달된 시계열 데이터에 대하여, 구간별 대푯값을 재추출할 수 있는데, 이 때, 상태 점검기(140)로부터 전달된 시계열 데이터는 상태 점검기(140)의 점검 결과, 정상성을 만족하지 않는 것으로 결정된 시계열 데이터이다. 즉, 대푯값 추출기(130)는 상태 점검기(140)로부터 정상성을 만족하지 않는 시계열 데이터를 전달받고, 그 시계열 데이터에 대하여 구간별 대푯값 추출 과정을 다시 수행한다. 이 때, 대푯값 추출기(130)는 상기 대푯값 추출 방법을 다르게 적용한다. 즉, 대푯값 추출기(130)가 최초에 차분에 의한 대푯값 추출을 수행한 경우, 2차 수행시에는 상기 차분과는 다른 방법(예컨대, 2차 차분 또는 로그 변환 등)에 의해 대푯값을 추출한다.

상태 점검기(140)는 대푯값 추출기(130)에서 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정한다. 상태 점검기(140)는 KPSS 검증(Kitawoski-Phillips-Schmidt-Shin Test), 및 ADF 검증(Augmented Dickey-Fuller Test) 등을 적용하여 상기 시계열 데이터의 정상성 여부를 결정할 수 있으며, 상기 상태 점검 과정은 도 6에 예시된 바와 같다. 도 6은 본 발명의 일 실시 예에 따른 상태 점검기의 정상성 여부 결정 과정을 설명하기 위한 도면으로서, 도 6의 (a)는 구간 크기(Step size)가 1인 경우 구간별 대푯값들에 대한 시계열 데이터의 예를 나타내고, 도 6의 (b)는 구간 크기(Step size)가 2인 경우 구간별 대푯값들에 대한 시계열 데이터의 예를 나타내고, 도 6의 (c)는 구간 크기(Step size)가 3인 경우 구간별 대푯값들에 대한 시계열 데이터의 예를 나타내고, 도 6의 (d)는 구간 크기(Step size)가 N인 경우 구간별 대푯값들에 대한 시계열 데이터의 예를 나타낸다. 특히, 도 6은 KPSS 검증 방법에 의해 정상성 검사를 수행하는 예를 도시하고 있다.

이 때, 정상성 여부는 KPSS 테스트를 통해 데이터가 일정한 통계적 특성이 있는지 여부를 판단하여 결정할 수 있다. 예를 들어, KPSS 테스트의 P-VALUE가 0.05 보다 클 경우 정상성 상태로 판단할 수 있다.

시계열 추론기(150)는 상태 점검기(140)로부터 정상성을 만족하는 시계열 데이터를 전달받아 미래 데이터를 추론한다. 즉, 시계열 추론기(150)는 상태 점검기(140)로부터 전달된 정상성 데이터를 이용하여 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론하되, 상기 정상성을 만족하는 시계열 데이터의 미래 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의한 후, 상기 연장구간의 미래 데이터를 추론하여 시계열 추론 데이터를 생성한다. 이 때, 상기 연장구간을 정의하는 과정은 도 7에 예시된 바와 같다. 도 7은 본 발명의 일 실시 예에 따른 시계열 추론기의 연장구간 정의 과정을 설명하기 위한 도면으로서, 도 7의 (a)는 구간 크기(Step size)가 1인 경우, 대응된 구간의 구간별 대푯값들에 대한 시계열 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의하는 예를 나타내고, 도 7의 (b)는 구간 크기(Step size)가 2인 경우, 대응된 구간의 구간별 대푯값들에 대한 시계열 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의하는 예를 나타내고, 도 7의 (c)는 구간 크기(Step size)가 3인 경우, 대응된 구간의 구간별 대푯값들에 대한 시계열 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의하는 예를 나타내고, 도 7의 (d)는 구간 크기(Step size)가 N인 경우, 대응된 구간의 구간별 대푯값들에 대한 시계열 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의하는 예를 나타낸다. 특히, 도 7의 (a) 내지 (d)에서, A 구간은 정상성이 확인된 과거 데이터를 나타내는 구간이고, B 구간은 정상성이 연장될 미래 데이터를 나타내는 구간이다.

한편, 시계열 추론기(150)는 정상성(Stationary)이 확보된 시계열 데이터에 대해서 시계열 추론데이터를 생성하며, 이와 같이 시계열 추론데이터를 생성한 후에는, 데이터의 분석 및 AI 예측에 활용할 수 있는 추론 용도에 따라 순서대로 추론 데이터를 호출한다.

즉, 시계열 추론기(150)는 추론 용도에 따라 전방추론, 후방추론, 및 이동추론 중 어느 하나의 추론 방법을 적용하여 추론 데이터를 호출할 수 있다. 도 8 내지 도 10은 본 발명의 일 실시 예에 따른 시계열 추론기의 추론 데이터 호출 방법의 예를 도시한 도면들로서, 도 8은 전방 추론을 적용하여 추론 데이터를 호출하는 예를 도시하고, 도 9는 후방 추론을 적용하여 추론 데이터를 호출하는 예를 도시하고, 도 10은 이동 추론을 적용하여 추론 데이터를 호출하는 예를 도시하고 있다.

도 8을 참조하면, 전방 추론을 적용하는 경우, 시계열 추론기(150)는 도 8에 예시된 상단의 화살표 방향부터 순서대로 데이터를 누적한다. 즉, 전방 추론을 적용하는 경우, 시계열 추론기(150)는 81번 화살표부터 84번 화살표까지 순차적으로 데이터를 누적한다.

도 9를 참조하면, 후방 추론을 적용하는 경우, 시계열 추론기(150)는 도 9에 예시된 상단의 화살표 방향부터 순서대로 데이터를 누적한다. 즉, 후방 추론을 적용하는 경우, 시계열 추론기(150)는 91번 화살표부터 94번 화살표까지 순차적으로 데이터를 누적한다.

도 10을 참조하면, 이동 추론을 적용하는 경우, 시계열 추론기(150)는 도 10에 예시된 상단의 화살표 방향부터 순서대로 데이터를 누적한다. 즉, 이동 추론을 적용하는 경우, 시계열 추론기(150)는 101번 화살표부터 103번 화살표까지 순차적으로 데이터를 누적한다.

상기한 3가지 방법에 의해 호출된 데이터는 시스템 외부로 반환될 수 있다. 즉, 시계열 추론기(150)는 상기 방법들에 의해 호출된 데이터를 AI 분석/예측용 데이터 저장부(200)에 저장할 수 있다.

이 때, AI 분석/예측용 데이터 저장부(200)는 시계열 추론기에서 추론된 미래 데이터를 저장/관리하며, 도 1에 예시된 바와 같이, 시계열 추론 데이터 생성장치(100) 외부에 위치할 수 있다.

도 11은 본 발명의 일 실시 예에 따른 시계열 추론 데이터 생성 방법에 대한 개략적인 처리 흐름도이다. 도 1 및 도 11을 참조하면, 시계열 로우(Raw) 데이터를 일정한 규칙을 갖는 상태로 변경하여 시계열 추론 데이터를 생성하는 시계열 추론 데이터 생성 장치(100)를 이용한 시계열 추론 데이터 생성 방법은, 다음과 같다.

먼저, 단계 S105 및 단계 S110에서는, 데이터 증강기(110)가 시계열 로우(Raw) 데이터를 수집하고, 상기 수집된 시계열 로우(Raw) 데이터에 대하여 데이터 증강을 실시하되, 이동평균(Moving Average)을 통해 데이터를 증강한다.

단계 S115에서는, 데이터 정리기(120)가, 상기 증강된 데이터를 미리 설정된 구간(Step) 별로 정리한다. 이를 위해, 단계 S115에서, 데이터 정리기(120)는, 소정 시간을 구간으로 설정하고, 상기 구간 동안 발생하는 연속적인 측정값을 하나의 데이터로 정리할 수 있다.

단계 S120에서는, 대푯값 추출기(130)가, 상기 단계 S115에서 정리된 구간별 데이터를 정상성 데이터로 변환한 후 대응된 구간의 대푯값을 추출한다. 이를 위해, 단계 S120에서, 대푯값 추출기(130)는, 차분, 2차 차분, 및 로그 변환 중 어느 하나의 방법으로 상기 대푯값을 추출할 수 있다.

단계 S125 및 단계 S130에서는, 상태 점검기(140)가, 상기 단계 S120에서, 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정한다. 이를 위해, 단계 S125에서, 상태 점검기(140)는, KPSS 검증, 및 ADF 검증 중 어느 하나의 방법으로 상기 구간별 대푯값의 정상성 만족 여부를 결정할 수 있다.

단계 S130의 판단 결과, 상기 시계열 데이터가 정상성을 만족하지 않는 경우 상태 점검기(140)는, 상기 시계열 데이터를 다시 대푯값 추출기(130)로 전달하고, 단계 S120에서는, 대푯값 추출기(130)가 상기 시계열 데이터에 대하여, 대푯값 추출 연산을 달리하여 대푯값을 추출하는 과정을 다시 수행한다.

한편, 단계 S130의 판단 결과, 상기 시계열 데이터가 정상성을 만족하는 경우, 단계 S135에서는, 시계열 추론기(150)가, 상기 정상성을 만족하는 시계열 데이터를 이용하여, 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론한다. 이를 위해, 단계 S135에서, 시계열 추론기(150)는, 상기 정상성을 만족하는 시계열 데이터의 미래 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의한 후, 상기 연장구간의 미래 데이터를 추론하여 시계열 추론 데이터를 생성할 수 있다.

이 때, 단계 S120 내지 단계 S135의 처리 과정들은, 단계 S115에서 정리된 구간이 종료될 때까지 반복 수행한다. 즉, 단계 S140에서 구간의 종료 여부를 판단하여, 구간이 종료되지 않은 경우, 대푯값 추출기(130), 상태점검기(140) 및 시계열 추출기(150) 각각은, 단계 S145에서 다음 구간을 선택한 후, 상기 단계 S120 내지 단계 S135를 반복 수행한다.

그리고, 단계 S140에서 구간이 종료된 것으로 결정된 경우, 단계 S150에서, 시계열 추론기(150)는, 추론 용도에 따라 전방추론, 후방추론, 및 이동추론 중 어느 하나의 추론 방법을 적용하여 추론 데이터를 호출하고, 상기 호출된 데이터를 외부 저장소(즉, AI 분석/예측용 데이터 저장부(200))에 저장할 수 있다.

이와 같이, 본 발명은 시계열적 데이터 증강을 통한 대역폭 제거 기술을 이용하여, 확보되지 않은 데이터로 인해 발생한 일정 대역폭의 변화량을 제거하거나 최소화함으로써, 데이터 트랜드의 왜곡을 방지할 수 있는 장점이 있고, 시계열 데이터의 구간(step) 분할 방법을 이용하여, 통계적 특성이 일정한 데이터 구간을 구간(step) 단위로 생성함으로써, 시계열 데이터에 대한 통계적 정상성을 확보하고, 예측이 가능한 미래 데이터 범위를 추정할 수 있는 장점이 있고, 시계열 추론 방법을 활용하여, 전방추론, 후방추론, 이동 추론 중 어느 하나를 이용하여 추론 데이터를 호출함으로써, 추가적인 전처리 없이 AI 분석 및 예측용 데이터 마트를 생성할 수 있는 장점이 있다.

이상에서는 본 발명의 실시 예를 설명하였으나, 본 발명의 권리범위는 이에 한정되지 아니하며 본 발명이 실시 예로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 용이하게 변경되어 균등한 것으로 인정되는 범위의 모든 변경 및 수정을 포함한다.

100: 데이터 생성 장치 110: 데이터 증강기
120: 데이터 정리기 130: 대푯값 추출기
140: 상태 점검기 150: 시계열 추론기

Claims

시계열 로우(Raw) 데이터를 입력받아서, 관리되지 않은 데이터에 의해 발생한 변화폭을 최소화하여 대역폭을 최소화하기 위해 이동평균(Moving Average)을 통한 데이터의 증강을 수행하는 데이터 증강기;
상기 데이터 증강기에서 출력되는 데이터를 미리 설정된 구간(Step) 별로 정리하는 구간별 데이터 정리기;
상기 구간별 데이터 정리기에서 정리된 구간별 데이터를 정상성 데이터로 변환한 후 대응된 구간의 대푯값을 추출하는 구간별 대푯값 추출기;
상기 구간별 대푯값 추출기에서 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정하는 상태 점검기;
상기 상태 점검기에서 정상성을 만족하는 시계열 데이터를 이용하여 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론하는 시계열 추론기; 및
상기 시계열 추론기에서 추론된 미래 데이터를 저장/관리하는 AI 분석 및 예측용 데이터 저장부를 포함하는 것을 특징으로 하는 시계열 추론 데이터 생성 장치.
제1항에 있어서, 상기 구간별 데이터 정리기는
소정 시간을 구간으로 설정하고, 상기 구간 동안 발생하는 연속적인 측정값을 하나의 데이터로 정리하는 것을 특징으로 하는 시계열 추론 데이터 생성 장치.
제1항에 있어서, 상기 구간별 대푯값 추출기는
차분, 2차 차분, 및 로그 변환 중 어느 하나의 방법으로 상기 대푯값을 추출하고,
상기 상태 점검기로부터 정상성을 만족하지 않는 시계열 데이터를 전달받아 구간별 대푯값 추출을 재실행하는 것을 특징으로 하는 시계열 추론 데이터 생성 장치.
제1항에 있어서, 상기 상태 점검기는
KPSS 검증, 및 ADF 검증 중 어느 하나의 방법으로 상기 구간별 대푯값의 정상성 만족 여부를 결정하는 것을 특징으로 하는 시계열 추론 데이터 생성 장치.
제1항에 있어서, 상기 시계열 추론기는
상기 정상성을 만족하는 시계열 데이터의 미래 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의한 후, 상기 연장구간의 미래 데이터를 추론하여 시계열 추론 데이터를 생성하는 것을 특징으로 하는 시계열 추론 데이터 생성 장치.
제5항에 있어서, 상기 시계열 추론기는
추론 용도에 따라 전방추론, 후방추론, 및 이동추론 중 어느 하나의 추론 방법을 적용하여 추론 데이터를 호출하고, 상기 호출된 데이터를 상기 저장부에 저장하는 것을 특징으로 하는 특징으로 하는 시계열 추론 데이터 생성 장치.
시계열 로우(Raw) 데이터를 일정한 규칙을 갖는 상태로 변경하여 시계열 추론 데이터를 생성하는 시계열 추론 데이터 생성 장치를 이용한 시계열 추론 데이터 생성 방법에 있어서,
상기 시계열 로우(Raw) 데이터에 대하여, 관리되지 않은 데이터에 의해 발생한 변화폭을 최소화하여 대역폭을 최소화하기 위해 이동평균(Moving Average)을 통한 데이터의 증강을 수행하는 데이터 증강단계;
상기 증강된 데이터를 미리 설정된 구간(Step) 별로 정리하는 구간별 데이터 정리단계;
상기 구간별 데이터 정리단계에서 정리된 구간별 데이터를 정상성 데이터로 변환한 후 대응된 구간의 대푯값을 추출하는 구간별 대푯값 추출단계;
상기 구간별 대푯값 추출단계에서 추출된 구간별 대푯값들로 구성된 시계열 데이터를 생성하고, 상기 시계열 데이터가 정상성을 만족하는 지 여부를 결정하는 상태 점검단계;
상기 상태 점검단계에서 정상성을 만족하는 시계열 데이터를 이용하여, 아직 관측되지 않은 구간의 데이터인 미래 데이터를 추론하는 시계열 추론단계; 및
상기 시계열 추론단계에서 추론된 미래 데이터를 저장/관리하는 AI 분석 및 예측용 데이터 저장단계를 포함하는 것을 특징으로 하는 시계열 추론 데이터 생성 방법.
제7항에 있어서, 상기 구간별 데이터 정리단계는
소정 시간을 구간으로 설정하고, 상기 구간 동안 발생하는 연속적인 측정값을 하나의 데이터로 정리하는 것을 특징으로 하는 시계열 추론 데이터 생성 방법.
제7항에 있어서, 상기 구간별 대푯값 추출단계는
차분, 2차 차분, 및 로그 변환 중 어느 하나의 방법으로 상기 대푯값을 추출하고,
상기 상태 점검단계에서 정상성을 만족하지 않는 것으로 결정된 시계열 데이터를 전달받아, 해당 구간의 구간별 대푯값 추출을 재실행하는 것을 특징으로 하는 시계열 추론 데이터 생성 방법.
제7항에 있어서, 상기 상태 점검단계는
KPSS 검증, 및 ADF 검증 중 어느 하나의 방법으로 상기 구간별 대푯값의 정상성 만족 여부를 결정하는 것을 특징으로 하는 시계열 추론 데이터 생성 방법.
제7항에 있어서, 상기 시계열 추론단계는
상기 정상성을 만족하는 시계열 데이터의 미래 데이터에 대하여 동일한 정상성이 연장될 연장구간을 정의한 후, 상기 연장구간의 미래 데이터를 추론하여 시계열 추론 데이터를 생성하는 것을 특징으로 하는 시계열 추론 데이터 생성 방법.
제11항에 있어서, 상기 시계열 추론단계는
추론 용도에 따라 전방추론, 후방추론, 및 이동추론 중 어느 하나의 추론 방법을 적용하여 데이터를 호출하고, 상기 호출된 데이터를 외부 저장소에 저장하는 것을 특징으로 하는 시계열 추론 데이터 생성 방법.