KR102643592B1

KR102643592B1 - 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치

Info

Publication number: KR102643592B1
Application number: KR1020210054296A
Authority: KR
Inventors: 최준균; 이경호; 한재섭
Original assignee: 한국과학기술원
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-03-06
Also published as: KR20220147315A

Abstract

에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치가 제시된다. 본 발명에서 제안하는 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 장치는 단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 유사 패턴 검색부, 상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 복원 데이터 최적화부 및 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 복원 데이터 선정부를 포함한다.

Description

에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치{IoT Missing Data Imputation Management and Control in Edge Computing Environment}

본 발명은 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치에 관한 것이다.

사물 인터넷(Internet of Things; IoT)의 급속한 발전과 함께 엄청난 양의 무선 IoT 장치는 스마트 헬스케어 시스템, 스마트 시티, 스마트 홈 및 스마트 모니터링 시스템과 같은 다양한 영역에서 보다 지능적이고 구조화된 IoT 애플리케이션을 촉진한다[1-9]. 이러한 IoT 기반 시스템에서는 대규모 데이터베이스에서 방대한 양의 시계열 데이터가 생성, 수집 및 처리되며 수집된 데이터를 통해 다양한 중요한 정보를 지능적으로 결정할 수 있다. 빅데이터 시대에는 종종 결측값(missing value)의 양으로 측정하는 수집된 데이터의 품질을 사전에 적절히 다루어 의미 있고 신뢰할 수 있는 정보를 확보해야 한다[10]. 결측값의 존재는 잠재적으로 빅 데이터 분석에 심각한 부작용을 초래하여 광범위한 가치 있는 정보를 잃게 할 수 있다[11]. 그리고 그러한 불완전성은 어떠한 갭(gaps) 없이 지표 행렬이 필요한 다양한 알고리즘에서 마이닝과 학습의 성능을 악화시킨다[12-14]. 실제 도메인에서 시계열의 결측값은 특히 무선 IoT 장치가 배터리가 부족하거나 기본 게이트웨이에 대한 연결이 끊어질 수 있기 때문에 공통 모드 고장과 통신/전송 문제로 인해 환경 모니터링 프로세스에 걸쳐 나타난다. 많은 경우, 삭제 또는 무시라는 널리 알려져 있고 계산적으로 간단한 결측값 처리 방법이 사용된다. 하지만, 종래기술[15, 16]은 목록별 삭제법(Listwise Deletion; LD)을 사용하여 단순히 결측값을 생략하는 것의 위험을 밝혔다. 특히 값이 서로 의존하는 시계열의 경우 일부 편향되고 신뢰할 수 없는 결과를 쉽게 생성할 수 있다. 또한 결측값은 평균/중간값 또는 전역 상수로 다음으로 자주 사용되는 접근법으로 귀속될 수 있지만, 이 접근법은 데이터의 분포를 완전히 고려하지 않기 때문에 특징 간의 기존 관계를 무시한다[11]. 따라서, 이러한 문제를 해결하기 위해 일변량 시계열 내에서 큰 결측 간격에 대한 결측치 보정 알고리즘을 필요로 한다.

본 발명이 이루고자 하는 기술적 과제는 에지 노드에서 Mpdist 기반으로 한 누락데이터 관리 방법 및 장치를 제공하는데 있다. IoT 단말에서 전송되는 실시간 정보들의 경우, 네트워크 트래픽, 통신장애, 배터리 방전 등으로 인해 일정 부분의 데이터가 누락되는 경우가 자주 발생하기 때문에 이를 효율적으로 관리하고 누락데이터를 복원하는 방안을 제안한다. 본 발명에서는 기존의 거리 측정(distance-measure)으로 사용되고있는 유클리디안 거리(Euclidean Distance) 또는 DTW(Dynamic-Time-Warping) 대신에 새로운 거리 측정 방법인 Mpdist를 활용한다.

일 측면에 있어서, 본 발명에서 제안하는 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 장치는 단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 유사 패턴 검색부, 상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 복원 데이터 최적화부 및 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 복원 데이터 선정부를 포함한다.

상기 유사 패턴 검색부는 일변량 시계열 데이터에 대한 거리 측정 방식인 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 이용하여 시계열 데이터 간 유사도를 측정하고, 측정된 유사도에 따라 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴(subsequences)을 과거데이터로부터 찾는다.

상기 MP-BMDI 알고리즘은 복수의 유사 패턴에 대한 시계열 데이터의 순서에 관계없이 복수의 유사 패턴이 공유되는 경우 두 개의 유사 패턴을 유사한 시계열 데이터로 찾는다.

상기 복원 데이터 최적화부는 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터에 관한 복수의 유사 패턴 각각에 해당하는 다음 패턴(imputation subsequence)을 최적의 높이(height)에 맞게 조정한다.

상기 다음 패턴의 초기 데이터와 터미널 데이터 포인트, 및 누락 구간의 초기 데이터와 터미널 데이터 포인트를 이용하여 최적의 높이를 계산하고, 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 계산된 최적의 높이에 따라 해당 다음 패턴을 이동시킨다.

상기 복원 데이터 선정부는 상기 조정된 복수의 다음패턴과 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 RMSE를 계산하고, 복수의 유사 패턴의 벡터와 조정된 복수의 다음패턴의 벡터 간의 RMSE를 계산하여 복원 데이터를 선정한다.

상기 PSF는 상기 조정된 복수의 다음패턴에서 각각의 서브시퀀스와 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 유사도를 나타내는 패턴 점수를 이용하고, 가장 작은 패턴 점수를 나타내는 서브시퀀스를 가장 유사한 서브시퀀스로 정의한 후, 다음패턴에 적용하여 누락구간을 대체한다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법은 단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하는 단계, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 단계, 상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 단계 및 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 단계를 포함한다.

본 발명의 실시예들에 따른 에지 노드에서 Mpdist 기반으로 한 누락데이터 관리 방법 및 장치는 네트워크 트래픽, 통신장애, 배터리 방전 등으로 인해 IoT 단말에서 전송되는 일정 부분의 데이터가 누락되는 것을 효율적으로 관리하고 복원할 수 있다. 본 발명의 실시예들에 따르면 새로운 거리 측정 방법인 Mpdist를 활용하여 누락 발생 시점 바로 이전 데이터 패턴(query)과 가장 유사한 k-개의 최적의 유사 패턴(subsequences)을 과거데이터로부터 찾고, 각 해당 패턴의 다음패턴(imputation subsequence)을 최적의 높이(height)에 맞게 조정함으로써 다음패턴과 누락 전후 데이터 간의 시간적 상관관계를 반영할 수 있다. 최적의 높이로 이동한 k-개의 다음패턴 중 하나를 선정하여 누락구간을 대체하며, 이때 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성된 제안하는 PSF(pattern score function)(r)를 활용함으로써, 누락 구간의 사이즈가 클수록 더욱 우수한 성능을 나타낼 수 있고, 시간 복잡도(time-complexity) 측면에서도 매우 효과적이다.

도 1은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리를 위한 시스템의 개략도이다.
도 2는 본 발명의 일 실시예에 따른 Mpdist 측정 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 장치의 구성을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 유사 패턴을 찾는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 복원 데이터를 최적화하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 복원 데이터를 선정하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 알고리즘을 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 각 데이터셋에 대한 평균 RMSE 측정과 결측 간격 사이의 관계를 나타내는 그래프이다.
도 10은 본 발명의 일 실시예에 따른 결측 간격에 따른 각 데이터셋의 결과를 나타내는 도면이다.

일반적으로 결측 데이터에 대한 보정의 성능은 불완전한 데이터의 유형뿐만 아니라 적절한 보정 접근법의 선택에 크게 좌우된다. 데이터 유형에 따라 결측 데이터의 보정 방법은 다변량 시계열 보정과 일변량 시계열 보정의 두 범주로 분류할 수 있다.

머신 러닝 기법을 활용하여, 다양한 다변량 시계열 보정 방식은 주로 전체 데이터셋의 데이터 상관 구조에 초점을 맞춰 결측 데이터을 추정한다[18-23]. 종래기술[20]은 체인 방정식(Multivariate Imputation by Chained Equations; MICE) 방법에 의한 랜덤 포레스트(random forest) 기반 다변량 보정을 제시했으며 현실적으로 복잡한 데이터셋에서 합리적인 보정 성능을 보여주었다. 종래기술[21]에서는 양방향 장단기 메모리(Long Short Term-Memory; LSTM)와 DAE(Denoising Autoencoder)를 적응시켜 변수 간 시간 정보와 상관 관계를 모두 학습함으로써 다변량 시계열의 새로운 보정 방법을 제시했다.

또한 종래기술[18, 19, 22, 23]에는 여러 k-NN(k-Nearest Neighbor) 기반 보정 기술도 도입되었다. 종래기술[18]는 기존의 k-NN 보정 접근법을 이용하여 현상 데이터에 대한 최적의 보정 방법을 개발하기 위한 자체 훈련 선택(Self-Training Selection; STS) 체계를 제안했다. 다음으로, 종래기술[19]은 k-NN과 푸리에 변환을 모두 통합하여 변수들 사이의 시간 지연 상관 관계를 통합하는 새로운 보정 방법을 제시하였다. 종래기술[22]는 가중 분산과 가중 유클리드 거리를 활용하는 공간적 시간적 누락 데이터 보정 접근법을 개발했다. 마지막으로 종래기술[23]은 k-NN을 기반으로 한 유사한 데이터 패턴을 활용하는 학습 기반 적응 보정 방법을 제안했다.

속성 간 상관 관계에 주로 의존하는 다변량 시계열 보정 방식과 달리, 일변량 보정 접근법은 단일 시간 종속 변수를 포함하는 시계열 데이터를 대상으로 한다. 종래기술[24]는 시간 의존성을 사용하기 위해 일변량 시계열 보정이 필요하기 때문에 일변량 시계열 데이터에서 결측값을 채우는 것은 예외적으로 어려운 과제라고 지적했다. 일변량 시계열 보정에 일반적으로 사용되는 접근법은 비교적 간단하며 이러한 방법은 평균/중간, 선형/스플라인 보간 및 locf(last observation carried forward)이다[25]. 이러한 방법은 대부분 작은 결측 간격(즉, 작은 연속 결측값)에 유리하지만 결측 간격이 커지면 더 이상 신뢰할 수 있는 보정 성능을 생성할 수 없다. 따라서 종래기술[26]는 관측치의 통계적 특성을 고려하여 고전적인 자동 회귀 통합 이동 평균(Auto-Regressive Integrated Moving Average; ARIMA)과 SARIMA(Seasonal ARIMA)를 사용하여 일변량 시계열에서 결측치 보정을 연구했다. 또한 종래기술[27]은 일변량 시계열을 다변량 시계열로 변환하여 결측값을 완성하기 위한 머신 러닝 기반 일변량 시계열 보정(Machine Learning-based Univariate Time Series Imputation; MLBUI)을 제안하였다. 그러나 머신 러닝 또는 통계 도구가 지원하는 이러한 보정 알고리즘은 데이터셋의 변칙 값에 의해 심각하게 영향을 받는다. 따라서 종래기술[28]은 시계열의 패턴이 반복된다는 가정 하에 고정 시간 범위에서 사용할 수 있는 이전 값으로 결측값을 귀속시키는 데 중점을 두었다. 여기서, 형상 특징 추출 알고리즘[29]과 DTW(Dynamic Time Warping) 거리 측정[30]을 결합하여 일변량 시계열의 큰 결측 격차를 보정시키는 동적 시간 왜곡 기반 보정(Dynamic Time Warping-based Imputation; DTWBI) 접근법을 제안하였다. 그러나 DTWBI의 단점은 높은 계산 복잡성 문제로 인해 존재한다. DTW 거리 측정과 관련된 높은 계산 비용 문제를 해결하기 위해 종래기술[17]은 MPdist 측정을 제안했다. 여기서, DTW 측정이 노이즈, 관련 없는 데이터, 정렬 오류 등에 강력하지 않으며 MPdist은 DTW 측정보다 두 시계열 데이터를 더 빨리 비교할 수 있도록 효율적으로 계산될 수 있다고 주장한다.

본 발명에서는 결측 간격이 큰 일변량 시계열의 새로운 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 제시한다. 본 발명은 IoT 기반 어플리케이션에서 빅데이터 분석을 지원하기 위한 높은 보정 성능을 보장하는 MP-BMDI라는 새로 개발된 알고리즘을 제안한다. 본 발명의 실시예에 따르면, k-유사 패턴을 찾고, 효율적으로 계산하기 위해 ED(Euclidean Distance)나 DTW(dynamic time warping)이 아닌 MP-BMDI 알고리즘에서 MPdist [17]의 원리를 활용한다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리를 위한 시스템의 개략도이다.

도 1과 같이 데이터 구동 IoT 모니터링 시스템에는 4가지 핵심 요구사항이 있다: 데이터를 생성하는 IoT 센서 노드(110), 일변량 시계열 데이터의 결측값을 보정하여 의사 결정 프로세스에 대한 신뢰성을 확보하기 위한 제안하는 MP-BMDI 모듈(다시 말해, 제안하는 누락데이터 관리 장치)(121)을 포함하는 에지노드(120), IoT 통신 프로토콜을 통해 데이터를 전송 및 저장할 수 있는 클라우드(예를 들어, Amazon AWS Cloud(DynamoDB))(130), 및 결측 간격의 비율과 결측 간격이 채워진 완전히 복원된 데이터와 관련된 실시간 대시보드(131)이다. 이러한 시스템은 간단하며 IoT 기반 어플리케이션에 실제로 사용할 수 있다.

무선 IoT 센서노드(110)를 통해 수집된 데이터는 IoT 통신 프로토콜을 통해 에지 노드(120)에 전송된다. 에지 노드(120)는 제안하는 MP-BMDI 모듈(121)을 포함하고, MP-BMDI 모듈(121)을 통해 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 누락 발생 시점 이전 데이터 패턴과 가장 유사한 복수의 유사 패턴을 과거데이터로부터 찾는다. 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하기 위해 상기 과거데이터로부터 찾은 복수의 유사 패턴에 대하여 각각의 패턴에 해당하는 다음패턴을 최적의 높이(height)에 맞게 조정한다. 이후, 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 최적의 높이로 이동된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체한다. 이와 같이 복원된 데이터는 에지 노드(120)를 통해 클라우드(130)로 전송되고, 실시간 대시보드(131)를 통해 데이터를 시각화할 수 있다.

도 2는 본 발명의 일 실시예에 따른 Mpdist 측정 방법[17]을 설명하기 위한 도면이다.

현재 대표적인 시계열 데이터에 대한 거리 측정(Distance-measure)은 DTW(Dynamic Time Warping) 및 ED(Euclidean distance)이 있다. 하지만, 이러한 종래기술의 거리 측정 방식은 노이즈, 관련 없는 데이터, 정렬 오류 등에 약하다는 단점이 있다.

따라서, 본 발명에서는 본 발명에서는 결측 간격이 큰 일변량 시계열의 새로운 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 제시한다. 본 발명의 실시예에 따르면, IoT 기반 어플리케이션에서 빅데이터 분석을 지원하기 위한 높은 보정 성능을 보장하는 MP-BMDI라는 새로 개발된 알고리즘을 제안한다. 제안하는 MP-BMDI는 시계열 데이터 간 k-유사 패턴을 찾고, 효율적으로 계산하기 위해 ED(Euclidean Distance)나 DTW(dynamic time warping)이 아닌 MP-BMDI 알고리즘에서의 MPdist [17]의 원리를 활용하여 누락된 데이터를 복원한다.

본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법 및 장치에 대하여 설명하기 위해 다음과 같은 정의를 이용한다:

정의 1. 일변량 시계열 X는 실수의 시퀀스 이며, 여기서 T는 일변량 시계열의 길이이다.

정의 2. X의 서브시퀀스 은 X의 위치 i에서 시작하여 길이 l인 값의 연속 부분 집합이다; 일 때 이다.

결측 서브시퀀스가 포함된 경우 일변량 시계열 X를 불완전하다고 한다.

정의 3. X의 결측 시퀀스 은 길이 m인 결측값 NA의 연속 부분 집합으로, X의 위치 i에서 i+m-1까지의 범위이다.

정의 4. 길이 n의 쿼리 은 결측 시퀀스 이전의 연속된 값의 부분 집합을 포함하는 시퀀스이다; .

정의 5. 슬라이딩 윈도우 : 주어진 시계열에서 실현 가능한 모든 서브시퀀스는 스텝 크기 s를 가진 l 크기의 윈도우를 슬라이딩하여 얻을 수 있다.

정의 6. 모든 서브시퀀스 집합(A)은 주어진 시계열 X의 모든 잠재적 시퀀스 집합으로, 스텝 사이즈 s을 갖는 l 크기의 윈도우를 슬라이딩하여 추출한다. 서브시퀀스의 수는 이다.

본 발명의 실시예에 따르면, 먼저 MPdist 기반 유사 쿼리(다시 말해, 복수의 유사 패턴)을 검색한다. MPdist를 사용하여 쿼리 과 가장 유사한 시퀀스를 찾는다.

이후, 복수의 유사 패턴 각각에 해당하는 다음패턴을 조정하기 위해 최적의 높이로 이동을 수행하다. y-축을 따르는 집합 에서 의 다음 순서를 이동하기 위해 정리 1을 적용한다.

마지막으로, PSF(pattern score function) 기반하여 조정된 복수의 다음패턴 중 최종 보정 서브시퀀스를 선택한다. 다시 말해, PSF(r)를 사용하여 결측 시퀀스를 대체하기 위한 최적의 시퀀스를 선택한다.

도 3은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 장치의 구성을 나타내는 도면이다.

제안하는 누락데이터 관리 장치(300)는 유사 패턴 검색부(310), 복원 데이터 최적화부(320) 및 복원 데이터 선정부(330)를 포함한다. 본 발명의 실시예에 따른 누락데이터 관리 장치(300)는 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리에 적용될 수 있다. 이러한 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리는 일 실시예일뿐, 이 외에도 다양한 데이터 전송 시스템 상에서의 누락데이터 관리에 제안하는 누락데이터 관리 장치(300)가 적용될 수 있다.

본 발명의 실시예에 따르면, 복수의 IoT 센서를 통해 센서 데이터를 수집하고, 수집된 센서 데이터를 IoT 통신 프로토콜을 통해 IoT 노드로부터 에지 노드로 전송한다.

에지 노드는 수집된 센서 데이터를 입력 받아 누락 데이터에 대한 일변량 시계열 데이터의 결측값을 보정하여 데이터를 복원하고, 서버는 복원된 데이터를 에지 노드로부터 수신하여 데이터를 시각화할 수 있다.

에지 노드는 수집된 센서 데이터를 입력 받아 누락 데이터에 대한 일변량 시계열 데이터의 결측값을 보정하여 데이터를 복원하기 위해 제안하는 누락데이터 관리 장치(300)(다시 말해, 상술된 MP-BMDI 모듈)를 포함할 수 있다.

도 4는 본 발명의 일 실시예에 따른 유사 패턴을 찾는 과정을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 유사 패턴 검색부(310)는 단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는다.

유사 패턴 검색부(310)는 일변량 시계열 데이터에 대한 거리 측정 방식인 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 이용하여 시계열 데이터 간 유사도를 측정한다. 측정된 유사도에 따라 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴(subsequences)을 과거데이터로부터 찾는다.

본 발명에서는 종래의 거리 측정 방식으로 사용한 ED(Euclidean Distance) 또는 DTW(Dynamic Time Warping) 대신에 새로운 거리 측정 방식인 MPdist를 활용하여 유사 패턴을 찾는다. 제안하는 방식은 시복잡성(time-complexity) 측면에서 우수함과 동시에, 종래의 두 거리 측정 방식보다 성능이 우수하다. 다시 말해, 누락 발생 시점 이전의 일정 크기를 지닌 데이터(Query)와 가장 유사한 k-개의 최적의 유사 패턴(subsequences)을 과거데이터로부터 찾을 수 있다.

본 발명의 실시예에 따르면, MPdist 거리 측정 방식이 ED 또는 DTW 대신 적용된다. MPdist 거리 측정 방식은 일치하는 서브시퀀스의 순서에 관계없이 유사한 서브시퀀스가 여러 개 공유되는 경우 두 개의 서브시퀀스를 유사한 시계열로 간주한다[17]. ED 또는 DTW[17]보다 노이즈, 정렬 오류 등에 더 강한 MPdist는 p, mpdist 시퀀스 길이(MPdist_p 로 나타내는)라고 하는 특정 파라미터를 필요로 한다. 여기서 이다. n = p인 특별한 경우, MPdist는 고전적인 유클리드 거리로 변한다. 다음의 거리 프로파일은 모든 서브시퀀스 집합(All-Subsequence Set)(A)에서 과 각 서브시퀀스 사이의 MPdist_p 를 계산함으로써 얻을 수 있다.

정의 7. 일변량 시계열 X의 거리-프로파일 D는 쿼리 과 모든 서브시퀀스 집합(A)의 각 시퀀스 간의 모든 MPdist 거리의 집합이다; 이고, 여기서 이다.

의 결측값에 대한 참 값은 식별할 수 없기 때문에, 쿼리 이라고 불리는 결측값 발생 이전의 데이터는 주어진 X에서 가장 유사한 시퀀스가 발견되는 한 다른 서브시퀀스와 비교된다. 이후, 다음 서브시퀀스로 결측값을 바꾼다. 이를 위해 먼저 다음 집합을 식별해야 한다.

정의 8. 거리 프로파일 D를 오름차순으로 정렬하면 크기 k의 탑-인덱스 집합(Top-Index Set)(B_k)를 얻을 수 있다; 여기서 g_k는 정렬된 D의 k번째 최소 인덱스를 나타낸다; 그리고 일 때 이다.

정의 9. X의 탑-유사 서브시퀀스 집합(Top-Similar Subsequence Set)(C_k)은 쿼리 과 가장 유사한 k 서브시퀀스 집합이다; .

일변량 시계열 X에서 쿼리 과 가장 유사한 k 서브시퀀스를 찾는 전체 프로세스는 다음과 같이 간략하게 요약된다.

1. 결측 서브시퀀스 을 확인한다.

2. 쿼리 을 선택한다.

3. 스텝 사이즈 s를 갖는 l 크기의 윈도우를 슬라이딩하여 가능한 모든 서브시퀀스 집합 A를 찾는다.

4. 과 A 사이의 MPdist를 계산하여 거리-프로파일 D를 획득한다.

5. 탑-인덱스 집합(B_k)를 활용하여 가장 유사한 일련의 k 서브시퀀스 집합, C_k를 결정한다.

도 5는 본 발명의 일 실시예에 따른 복원 데이터를 최적화하는 과정을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 복원 데이터 최적화부(320)는 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정한다.

복원 데이터 최적화부(320)는 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴 각각에 해당하는 다음 패턴(imputation subsequence)을 최적의 높이(height)에 맞게 조정한다.

아래에서, 정의한 보정 서브시퀀스(다시 말해, 다음 패턴(imputation subsequence))를 최적으로 전환하는 방법을 더욱 상세히 설명한다.

정의 10. 보정 서브시퀀스 집합(C'_k)는 탑-유사 서브시퀀스 집합(Top-Simal Subsequence Set) C_k; 의 의 서브시퀀스로 구성된다. 여기서 이고 이며, 또한 및 이다. C'_k 의 전체 구성요소는 보정 서브시퀀스로 불린다.

i는 누락된 서브시퀀스가 처음 시작되는 위치를 나타내고 쿼리와 유사한 후보로 선택된 특정 서브시퀀스가 현재 C_k에 있다고 가정한다. 길이 m의 다음 서브시퀀스 중 하나(보정 서브시퀀스라고 함)를 그대로 가져오고 누락된 서브시퀀스 에 대체한 경우 과 사이의 시간적 상관 관계뿐만 아니라 및 이 반영되지 않아야 하므로 복원 데이터의 높은 정확도를 보장할 수 없다. 아래에서 제안된 접근 방식은 각 보정 서브시퀀스를 y축을 따라 최적의 위치로 이동할 수 있도록 하여 제안된 터미널 단계에 도달하기 전에 상관 관계 문제를 해결한다. 문제는 다음과 같이 설정된다:

문제1.

여기서, 은 센서의 측정 범위를 나타내고, 상기 수식(1)은 보정 서브시퀀스가 내에 속하도록 보장한다.

문제 1에서 도출된 최적 는 정리 1에 요약되어 있다.

정리1.

증명. 문제 1은 목적함수 이 에 관한 제곱함수이기 때문에 해결될 수 있다. 따라서 목적함수 의 1차 도함수는 다음과 같다:

상기 수식(1)을 고려하여 다음과 같은 문제 1의 솔루션을 얻을 수 있다:

도 6은 본 발명의 일 실시예에 따른 복원 데이터를 선정하는 과정을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 복원 데이터 선정부(330)는 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체한다.

복원 데이터 선정부(330)는 상기 조정된 복수의 다음패턴과 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 RMSE를 계산하고, 복수의 유사 패턴의 벡터와 조정된 복수의 다음패턴의 벡터 간의 RMSE를 계산하여 복원 데이터를 선정한다.

마지막 단계에서 패턴 점수 함수 PSF(r)를 사용하여 누락된 서브시퀀스를 재구성하기 위한 최종 보정 서브시퀀스(다시 말해, 최종 복원 데이터)를 구한다. 이 패턴 점수 함수는 두 개의 RMSE 계산을 기반으로 계산된다. 한편, 최적 이동 은 C_k의 서브시퀀스 패턴들이 쿼리 의 패턴과 유사한 발생을 방지하기 위해 보정 시퀀스 집합(C'_k)뿐만 아니라 탑-유사 서브시퀀스(C_K)에도 적용되지만, 서로 다르다고 판단한다.

I. 첫 번째 RMSE는 ( 적용된)과 쿼리 간의 RMSE를 계산한다.

II. 두 번째 RMSE는 두 벡터 및 간의 RMSE를 계산한다.

가장 작은 패턴 점수를 갖는 서브시퀀스 는 본 발명에서 쿼리 과 가장 유사한 서브시퀀스로 정의된다. 그런 다음, 후속 서브시퀀스 에 을 적용하여 누락된 서브시퀀스 을 대체한다.

정의 11. 패턴 점수 함수 PSF(r)은 C_k에서 각 서브시퀀스 과 누락된 데이터 복원을 위한 쿼리 사이의 유사성을 나타내는 값(패턴 점수라고 함)을 반환한다. 이는 다음과 같이 나타낼 수 있다:

여기서 는 가중치이고 l의 길이는 본 발명에서 n의 길이와 같다.

도 7은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법을 설명하기 위한 흐름도이다.

제안하는 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 방법은 단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하는 단계(710), 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 단계(720), 상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 단계(730) 및 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 단계(740)를 포함한다.

단계(710)에서, 단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인한다.

단계(720)에서, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는다.

본 발명의 실시예에 따른 유사 패턴 검색부는 일변량 시계열 데이터에 대한 거리 측정 방식인 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 이용하여 시계열 데이터 간 유사도를 측정한다. 측정된 유사도에 따라 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴(subsequences)을 과거데이터로부터 찾는다.

단계(730)에서, 상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정한다.

본 발명의 실시예에 따른 복원 데이터 최적화부는 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정한다.

복원 데이터 최적화부는 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴 각각에 해당하는 다음 패턴(imputation subsequence)을 최적의 높이(height)에 맞게 조정한다.

단계(740)에서, 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체한다.

본 발명의 일 실시예에 따른 복원 데이터 선정부는 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체한다.

복원 데이터 선정부는 상기 조정된 복수의 다음패턴과 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 RMSE를 계산하고, 복수의 유사 패턴의 벡터와 조정된 복수의 다음패턴의 벡터 간의 RMSE를 계산하여 복원 데이터를 선정한다.

도 8은 본 발명의 일 실시예에 따른 에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 알고리즘을 나타내는 도면이다.

본 발명의 실시예에 따른 MP-BMDI라고 하는 제안된 알고리즘의 의사 코드는 도 8에 도시된 알고리즘 1과 같다.

도 9는 본 발명의 일 실시예에 따른 각 데이터셋에 대한 평균 RMSE 측정과 결측 간격 사이의 관계를 나타내는 그래프이다.

본 발명에서, 길이 m의 누락된 서브시퀀스에 대한 쿼리 길이 n의 변화율을 쿼리 속도(n/m)라고 한다. 제안하는 알고리즘의 전체적인 데이터 복원 성능에 대한 쿼리 속도의 영향을 입증하기 위해, 표 1과 같이 모든 데이터셋에 대해 몇 가지 다른 쿼리 속도를 조사한다.

<표 1>

각 데이터셋에 대한 평균 RMSE 측정과 결측 간격 사이의 관계는 각각 도 9에 나타내었다. 결측 간격이 커짐에 따라, 2.0의 쿼리 속도는 평균 RMSE 측정 측면에서 대부분 다른 것보다 성능이 우수함을 확인할 수 있다. 각 데이터셋에 대한 24시간 결측 간격에서 쿼리 속도 2.0은 쿼리 속도 0.25와 비교하여 평균 RMSE를 19%, 36%, 39% 감소시킨다. 도 9를 참조하면, 작은 쿼리 속도는 결측 간격의 크기에 관계없이 정보가 적기 때문에 패턴 모양을 파악하는 능력이 떨어진다. 따라서 이러한 결과는 적절한 쿼리 속도 선택의 중요성을 강조한다.

도 10은 본 발명의 일 실시예에 따른 결측 간격에 따른 각 데이터셋의 결과를 나타내는 도면이다.

표 2는 결측값 재구성에 대한 쿼리 속도 2.0에서 지표에 대한 총 6가지 방법의 정량적 결과를 다룬다.

<표 2>

CO2 데이터셋에 대한 결과에 따르면, 도 10(a)와 표 2 모두 MP-BMDI가 6시간, 9시간, 12시간, 18시간, 24시간의 결측 간격과 지표에서 기존 방법을 능가한다는 것을 보여준다. MP-BMDI와 다른 방법 사이의 이러한 지표의 차이는 상당히 크다. 반대로, 10(b)과 10(c)와 같이, 제안하는 알고리즘은 온도 및 습도 데이터셋에 대해 18시간과 24시간의 결측 간격에서 우수함을 보여준다. 이는 CO2 데이터셋이 계절성 요소가 더 명확하기 때문에 시계열 내에 안정적이고 반복적인 패턴이 있다는 것을 의미한다. 이 외에도, 이러한 모든 데이터셋은 여름에 수집되기 때문에 온도 및 습도 데이터셋은 특히 상당히 불안정하다. 결과적으로, 제안하는 알고리즘은 온도 및 습도 데이터셋보다 CO2 데이터셋에서 더 나은 성능을 보인다. 또한 모든 데이터셋에서 na.spline의 성능이 가장 나쁜 것으로 확인되어 스플라인 방법이 이 작업을 완료하기에 적합하지 않음을 보여준다. 이러한 이유로, na.spline의 결과는 다른 기존 방법의 결과와 가깝지 않으며, 따라서 이러한 결과는 10(b)과 10(c)에 반영되어 보이지 않는다.

10(d)는 MP-BMDI의 보정값과 18시간 간격의 누락이 있는 위치 132700에서 실제 값을 가진 다른 기술의 시각적 비교를 보여준다. 10(d)에서 알 수 있듯이 MP-BMDI에서 비롯되는 보정값의 패턴 모양은 실제 값의 패턴과 더 밀접하게 대응될 뿐이다. na.approx, na.locf, na.aggregate, na.spline과 같은 기술은 큰 격차를 처리할 때 특히 낮은 성능을 발생시킨다. DTWBI의 보정값도 10(d)의 실제 값과 완전히 일치하지 않는다. 따라서 기존 기술은 제안된 알고리즘만큼 효과적이지 않다. 이 결과에서 MP-BMDI가 안정적인 시계열의 더 나은 옵션임을 추가로 확인할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

<참고 문헌>

[1] P. Asghari, A. M. Rahmani, H. H. S. Javadi, Internet of things applications: A systematic review, Computer Networks 148 (2019) 241 - 261. URL: http://www.sciencedirect.com/science/article/pii/S1389128618305127. doi:https://doi.org/10.1016/j.comnet.2018. 12.008.

[2] B. L. Risteska Stojkoska, K. V. Trivodaliev, A review of internet of things for smart home: Challenges and solutions, Journal of Cleaner Production 140 (2017) 1454 - 1464. URL: http://www.sciencedirect. com/science/article/pii/S095965261631589X. doi:https://doi.org/10. 1016/j.jclepro.2016.10.006.

[3] T. hoon Kim, C. Ramos, S. Mohammed, Smart city and iot, Future Generation Computer Systems 76 (2017) 159 - 162. URL: http: //www.sciencedirect.com/science/article/pii/S0167739X17305253. doi:https://doi.org/10.1016/j.future.2017.03.034.

[4] M. Al-Kuwari, A. Ramadan, Y. Ismael, L. Al-Sughair, A. Gastli, M. Benammar, Smart-home automation using iot-based sensing and monitoring platform, in: 2018 IEEE 12th International Conference on Compatibility, Power Electronics and Power Engineering (CPEPOWERENG 2018), 2018, pp. 1-6. doi:10.1109/CPE.2018.8372548.

[5] V. Mighali, L. Patrono, M. L. Stefanizzi, J. J. P. C. Rodrigues, P. Solic, A smart remote elderly monitoring system based on iot technologies, in: 2017 Ninth International Conference on Ubiquitous and Future Networks (ICUFN), 2017, pp. 43-48. doi:10.1109/ICUFN.2017. 7993745.

[6] M. Alaa, A. Zaidan, B. Zaidan, M. Talal, M. Kiah, A review of smart home applications based on internet of things, Journal of Network and Computer Applications 97 (2017) 48 - 65. URL: http: //www.sciencedirect.com/science/article/pii/S1084804517302801. doi:https://doi.org/10.1016/j.jnca.2017.08.017.

[7] H. Liu, H. Ning, Q. Mu, Y. Zheng, J. Zeng, L. T. Yang, R. Huang, J. Ma, A review of the smart world, Future Generation Computer Systems 96 (2019) 678 - 691.

[8] A. R. Al-Ali, I. A. Zualkernan, M. Rashid, R. Gupta, M. Alikarar, A smart home energy management system using iot and big data analytics approach, IEEE Transactions on Consumer Electronics 63 (2017) 426-434. doi:10.1109/TCE.2017.015014.

[9] A. P. Plageras, K. E. Psannis, C. Stergiou, H. Wang, B. Gupta, Efficient iot-based sensor big data collection-processing and analysis in smart buildings, Future Generation Computer Systems 82 (2018) 349 - 357. URL: http://www.sciencedirect.com/science/article/ pii/S0167739X17314127. doi:https://doi.org/10.1016/j.future.2017. 09.082.

[10] A. Karkouch, H. Mousannif, H. Al Moatassime, T. Noel, Data quality in internet of things: A state-of-the-art survey, Journal of Network and Computer Applications 73 (2016) 57-81.

[11] A. M. Sefidian, N. Daneshpour, Estimating missing data using novel correlation maximization based methods, Applied Soft Computing 91 (2020) 106249. URL: http://www.sciencedirect.com/science/article/pii/S1568494620301897. doi:https://doi.org/10.1016/j.asoc. 2020.106249.

[12] C. Ye, H. Wang, J. Li, H. Gao, S. Cheng, Crowdsourcing-enhanced missing values imputation based on bayesian network, in: S. B. Navathe, W. Wu, S. Shekhar, X. Du, X. S. Wang, H. Xiong (Eds.), Database Systems for Advanced Applications, Springer International Publishing, Cham, 2016, pp. 67-81.

[13] C. Wang, N. Shakhovska, A. Sachenko, M. Komar, A new approach for missing data imputation in big data interface, Inf. Technol. Control. 49 (2020) 541-555.

[14] C.-F. Tsai, F.-Y. Chang, Combining instance selection for better missing value imputation, Journal of Systems and Software 122 (2016) 63 - 71. URL: http://www.sciencedirect.com/science/article/pii/S0164121216301583. doi:https://doi.org/10.1016/j.jss.2016.08.093.

[15] D. B. Rubin, Multiple imputation for nonresponse in surveys, volume 81, John Wiley & Sons, 2004.

[16] R. J. Little, D. B. Rubin, Statistical analysis with missing data, volume 793, John Wiley & Sons, 2019.

[17] S. Gharghabi, S. Imani, A. Bagnall, A. Darvishzadeh, E. Keogh, An ultra-fast time series distance measure to allow data mining in more complex real-world deployments, Data Mining and Knowledge Discovery 34 (2020). doi:10.1007/s10618-020-00695-8.

[18] S. G. Liao, Y. Lin, D. D. Kang, D. Chandra, J. Bon, N. Kaminski, F. C. Sciurba, G. C. Tseng, Missing value imputation in high-dimensional phenomic data: imputable or not, and how?, BMC bioinformatics 15 (2014) 346.

[19] S. A. Rahman, Y. Huang, J. Claassen, N. Heintzman, S. Kleinberg, Combining fourier and lagged k-nearest neighbor imputation for biomedical time series data, Journal of biomedical informatics 58 (2015) 198-207.

[20] A. D. Shah, J. W. Bartlett, J. Carpenter, O. Nicholas, H. Hemingway, Comparison of random forest and parametric imputation models for imputing missing data using mice: a caliber study, American journal of epidemiology 179 (2014) 764-774.

[21] J. Zhang, P. Yin, Multivariate time series missing data imputation using recurrent denoising autoencoder, in: 2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), IEEE, 2019, pp. 760-764.

[22] Y. Li, L. E. Parker, Nearest neighbor imputation using spatialtemporal correlations in wireless sensor networks, Information Fusion 15 (2014) 64 - 79. Special Issue: Resource Constrained Networks.

[23] M. Kim, S. Park, J. Lee, Y. Joo, J. K. Choi, Learning-based adaptive imputation methodwith knn algorithm for missing power data, Energies 10 (2017) 1668.

[24] S. Moritz, A. Sarda, T. Bartz-Beielstein, M. Zaefferer, J. Stork, Comparison of different methods for univariate time series imputation in r, arXiv preprint arXiv:1510.03924 (2015).

[25] N. Bokde, M. W. Beck, F. Mart

nez Alvarez, K. Kulat, A novel im putation methodology for time series based on pattern sequence forecasting, Pattern Recognition Letters 116 (2018) 88 - 96. URL: http: //www.sciencedirect.com/science/article/pii/S0167865518306500. doi:https://doi.org/10.1016/j.patrec.2018.09.020.

[26] Y. Walter, J. Kihoro, K. Athiany, H. Kibunja, Imputation of incomplete non-stationary seasonal time series data, Math. Theory Model 3 (2013) 142-154.

[27] P. Thi-Thu-Hong, Machine learning for univariate time series imputation, 2020 International Conference on Multimedia Analysis and Pattern Recognition (MAPR) (2020).

[28] E. P. Caillault, A. Lefebvre, A. Bigand, et al., Dynamic time warpingbased imputation for univariate time series data, Pattern Recognition Letters (2017).

[29] E. P. Caillault, A. Bigand, et al., Comparative study on supervised learning methods for identifying phytoplankton species, in: 2016 IEEE Sixth International Conference on Communications and Electronics (ICCE), IEEE, 2016, pp. 283-288.

[30] H. Sakoe, S. Chiba, Dynamic programming algorithm optimization for spoken word recognition, IEEE transactions on acoustics, speech, and signal processing 26 (1978) 43-49.

[31] A. Zeileis, G. Grothendieck, zoo: S3 infrastructure for regular and irregular time series, Journal of Statistical Software 14 (2005) 1-27. doi:10.18637/jss.v014.i06.

Claims

단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 유사 패턴 검색부;
상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 복원 데이터 최적화부; 및
두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 복원 데이터 선정부
를 포함하고,
상기 유사 패턴 검색부는,
일변량 시계열 데이터에 대한 거리 측정 방식인 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 이용하여 시계열 데이터 간 유사도를 측정하고, 측정된 유사도에 따라 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴(subsequences)을 과거데이터로부터 찾는
누락데이터 관리 장치.
제1항에 있어서,
상기 MP-BMDI 알고리즘은 복수의 유사 패턴에 대한 시계열 데이터의 순서에 관계없이 복수의 유사 패턴이 공유되는 경우 두 개의 유사 패턴을 유사한 시계열 데이터로 찾는
누락데이터 관리 장치.
제1항에 있어서,
상기 복원 데이터 최적화부는,
데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터에 관한 복수의 유사 패턴 각각에 해당하는 다음 패턴(imputation subsequence)의 높이(height)를 조정하는
누락데이터 관리 장치.
제3항에 있어서,
상기 다음 패턴의 초기 데이터와 터미널 데이터 포인트, 및 누락 구간의 초기 데이터와 터미널 데이터 포인트를 이용하여 상기 높이를 계산하고, 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 계산된 상기 높이에 따라 해당 다음 패턴을 이동시키는
누락데이터 관리 장치.
단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 유사 패턴 검색부;
상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 복원 데이터 최적화부; 및
두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 복원 데이터 선정부
를 포함하고,
상기 복원 데이터 선정부는,
상기 조정된 복수의 다음패턴과 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 RMSE를 계산하고, 복수의 유사 패턴의 벡터와 조정된 복수의 다음패턴의 벡터 간의 RMSE를 계산하여 복원 데이터를 선정하는
누락데이터 관리 장치.
제5항에 있어서,
상기 PSF는 상기 조정된 복수의 다음패턴에서 각각의 서브시퀀스와 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 유사도를 나타내는 패턴 점수를 이용하고, 가장 작은 패턴 점수를 나타내는 서브시퀀스를 가장 유사한 서브시퀀스로 정의한 후, 다음패턴에 적용하여 누락구간을 대체하는
누락데이터 관리 장치.
단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하는 단계;
거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 단계;
상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 단계; 및
두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 단계
를 포함하고,
상기 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 단계는,
일변량 시계열 데이터에 대한 거리 측정 방식인 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 이용하여 시계열 데이터 간 유사도를 측정하고, 측정된 유사도에 따라 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴(subsequences)을 과거데이터로부터 찾는
누락데이터 관리 방법.
제7항에 있어서,
상기 MP-BMDI 알고리즘은 복수의 유사 패턴에 대한 시계열 데이터의 순서에 관계없이 복수의 유사 패턴이 공유되는 경우 두 개의 유사 패턴을 유사한 시계열 데이터로 찾는
누락데이터 관리 방법.
제7항에 있어서,
상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 단계는,
데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터에 관한 복수의 유사 패턴 각각에 해당하는 다음 패턴(imputation subsequence)의 높이(height)를 조정하는
누락데이터 관리 방법.
제9항에 있어서,
상기 다음 패턴의 초기 데이터와 터미널 데이터 포인트, 및 누락 구간의 초기 데이터와 터미널 데이터 포인트를 이용하여 상기 높이를 계산하고, 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 계산된 상기 높이에 따라 해당 다음 패턴을 이동시키는
누락데이터 관리 방법.
단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하는 단계;
거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 단계;
상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 단계; 및
두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 단계
를 포함하고,
상기 두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 단계는,
상기 조정된 복수의 다음패턴과 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 RMSE를 계산하고, 복수의 유사 패턴의 벡터와 조정된 복수의 다음패턴의 벡터 간의 RMSE를 계산하여 복원 데이터를 선정하는
누락데이터 관리 방법.
제11항에 있어서,
상기 PSF는 상기 조정된 복수의 다음패턴에서 각각의 서브시퀀스와 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터의 패턴 간의 유사도를 나타내는 패턴 점수를 이용하고, 가장 작은 패턴 점수를 나타내는 서브시퀀스를 가장 유사한 서브시퀀스로 정의한 후, 다음패턴에 적용하여 누락구간을 대체하는
누락데이터 관리 방법.
삭제
삭제
복수의 IoT 센서를 통해 센서 데이터를 수집하고, 수집된 센서 데이터를 IoT 통신 프로토콜을 통해 에지 노드로 전송하는 IoT 노드;
수집된 센서 데이터를 입력 받아 누락 데이터에 대한 일변량 시계열 데이터의 결측값을 보정하여 데이터를 복원하는 에지 노드; 및
복원된 데이터를 에지 노드로부터 수신하여 데이터를 시각화하는 서버
를 포함하고,
상기 에지 노드는,
단말로부터 수집된 데이터를 입력 받아 누락 데이터의 존재 여부를 확인하고, 누락 데이터가 존재하는 경우, 거리 측정 방법을 활용하여 데이터의 누락 발생 시점 이전 데이터 패턴에 관한 복수의 유사 패턴을 과거데이터로부터 찾는 유사 패턴 검색부;
상기 과거데이터로부터 찾은 복수의 유사 패턴 각각에 해당하는 다음패턴에 관하여 상기 다음패턴과 누락 발생 시점 전후 데이터 간의 시간적 상관관계를 반영하도록 상기 다음패턴을 조정하는 복원 데이터 최적화부; 및
두 개의 가중치-RMSE(weighted-RMSE) 값으로 구성되는 PSF(pattern score function)를 활용하여 상기 조정된 복수의 다음패턴 중 하나를 선정하여 누락구간을 대체하는 복원 데이터 선정부
를 포함하고,
상기 유사 패턴 검색부는,
일변량 시계열 데이터에 대한 거리 측정 방식인 MP-BMDI(MPdist-based Missing Data Imputation) 알고리즘을 이용하여 시계열 데이터 간 유사도를 측정하고, 측정된 유사도에 따라 데이터의 누락 발생 시점 이전의 미리 정해진 크기를 갖는 데이터(query)에 관한 복수의 유사 패턴(subsequences)을 과거데이터로부터 찾는
에지 컴퓨팅 환경에서의 IoT 누락데이터 관리 시스템.