KR102356346B1

KR102356346B1 - 센서기반 미세먼지 정보 처리 고도화를 위한, 보간 및 이상데이터 탐지 및 수정 시스템

Info

Publication number: KR102356346B1
Application number: KR1020190150834A
Authority: KR
Inventors: 김성렬; 박진수
Original assignee: 순천향대학교 산학협력단
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-01-26
Also published as: KR20210062513A

Abstract

최근 인공 지능(AI) 관련 기술의 발전으로, 다양한 개인 모니터링 장치에 의해 획득된 미세 먼지 데이터는 장래의 미세 먼지 농도를 예측하고 사람들에게 잠재적 위험을 경고하기 위한 트레이닝 데이터로서 가치가 있다. 그러나 이러한 장치들에서 얻은 미세 먼지 데이터의 대부분에는 센서 오작동, 전송 오류 또는 저장 오류와 같은 다양한 요인으로 인해 누락(결측)되거나 비정상적인 이상 데이터가 포함된다. 본 발명에서는 PM2.5 시계열 데이터에서 누락된 데이터를 보간하고 이상 여부를 탐지하는 방법을 제안한다. PM2.5 모니터링 데이터를 사용하여 기존 방법과의 비교 성능을 검증하였으며, 본 발명에서 제안된 보간법이 대부분의 기존 방법보다 RMSE(Root Mean Squared Error)에서 25% 이상의 개선된 결과를 보여주었고, 제안된 이상 감지 방법은 불규칙하고 급변하는 미세 먼지 데이터의 경우에도 상당히 정확한 결과를 나타낸다. 따라서, 본 발명의 제안된 방법은 데이터의 신뢰성 향상에 크게 기여할 것으로 기대된다.

Description

센서기반 미세먼지 정보 처리 고도화를 위한, 보간 및 이상데이터 탐지 및 수정 시스템{Improved Interpolation and Anomaly Detection for Personal PM2.5 Measurement}

본 발명은 센서기반 미세먼지 정보 처리 고도화를 위한, 보간 및 이상데이터 탐지 및 수정 방법에 대한 것이다.

한국은 미세 먼지 노출로 인해 심각한 환경 건강 문제를 겪고 있다. 따라서 공무원을 비롯한 많은 이해 관계자들이 환경 문제에 대한 해결책을 찾기 위해 노력하고 있다. 이러한 노력의 일환으로, 미래의 노출 수준을 예측하고 일상 생활에서 PM2.5에 대한 실시간 노출을 줄이는 방법으로 다양한 인공 지능(AI) 기반 기술이 주목 받고 있다. PM 데이터는 오늘날 많은 연구자들로부터 많은 관심을 받고 있는 연구 분야인, 개인화된 의료 서비스 및 예방 의학과 밀접한 관련이 있다. 개인화된 의료 서비스는 개별 활동 패턴과 관련된 데이터를 수집해야 하는 예측 분석 기술을 개발하도록 유도하였다. 이러한 데이터는, 기존의 수 많은 시청자를 대상으로 한 방송형 환경 정보 서비스에 사용되는 데이터와는 다른 피코(pico) 스케일 데이터로 볼 수 있다. 피코 스케일 데이터는 일반적으로 각 개별 센서 장치에서 수집된다. 안타깝게도, 인체에 부착된 센서는 사람의 활동 패턴, 기상 조건 또는 설치된 장치 또는 센서 자체의 오작동에 의해 크게 영향을 받기 때문에, 이러한 데이터는 고정 센서로부터 수집된 데이터보다 불완전 할 가능성이 높다. 이러한 종류의 불완전한 데이터는 데이터로 인해 잘못된 알고리즘 결정을 호출할 수 있기 때문에 잘못된 서비스를 제공할 수 있다. 이러한 불완전한 데이터에는 일반적으로 누락되거나 비정상적인 데이터가 포함된다. 양질의 환경 정보 서비스를 제공하기 위해서는 이 두 가지 문제에 대한 연구를 하는 것이 불가피하다.

위에서 언급한 두 가지 문제에 대해 많은 연구가 수행되었다. 이러한 연구의 대부분은 다음과 같이 누락되거나 이상한 데이터만을 탐지하는 데 초점을 맞추는 경향이 있다. 시계열(time-series) 데이터에서 누락된 데이터의 대입과 관련된 종래 기술에는, 랜덤 포레스트(random forest), 최대 가능성 추정, 기대치의 최대화 또는 최 근접법과 같은 기계 학습 기반 방법이 포함된다. 이상 데이터 탐지에 속하는 기술에는 예측 기반, 거리 기반, 확률 기반 및 선형 모델이 포함된다. 두 기술을 다루는 연구에는 모두 기계 학습 기술을 이용하는 것이 포함된다. 지금까지 살펴본 바와 같이, 이 두 가지 문제를 동시에 해결하는 연구는 거의 없다.

따라서, 본 발명에서는 개인 휴대용 센서에서 얻은 PM2.5 데이터에 포함된 데이터 누락 및 이상 데이터의 두 가지 문제를 다루는 데이터 마이닝(data-mining) 기술 접근 방식을 제시한다. 특히, 본 발명에서는 커널(Kernel) 회귀를 기반으로 하는 보간과 비정상 테이터 탐지 방법을 실제 개인용 PM2.5 측정 데이터에 적용한 것을 나타내고 있다. 본 발명은 버스트성(busty) PM2.5 데이터를 보간하기 위해 간단한 선형 보간 방법을 통합한 잘 알려진 보간 방법을 확장하려고 한다. 제안된 방법의 성능은 기존 보간 방법과 비교하여 제공된다.

본 발명은 센서기반 미세먼지 정보 처리 고도화를 위한, 보간 및 이상데이터 탐지 및 수정 시스템에 대한 것으로, 인공 지능 (AI) 관련 기술의 발전과 더불어, 다양한 개인 모니터링 장치에 의해 획득된 미세 먼지 데이터는 미래의 미세 먼지 농도를 예측하고 사람들에게 잠재적인 위험을 혁신적으로 경고하기 위한 트레이닝 데이터로서 큰 가치가 있다. 그러나 이러한 장치에서 얻은 미세먼지 데이터의 대부분에는 센서 오작동, 전송 오류 또는 저장 오류와 같은 다양한 요인으로 인해 누락되거나 비정상적인 데이터가 포함되어 있다.

상술한 과제를 해결하기 위한 수단으로서, 본 발명에서는, PM2.5 시계열 데이터에서 누락된 데이터를 보간하고 이상치를 탐지 수정하는 방법을 제시하고 있다.

본 발명에 따른 보건법에 따르면 PM2.5 모니터링 데이터에 대하여 종래 기술에 비교하여 RMSE에서 25 % 이상의 개선된 결과를 얻을 수 있으며, 본 발명에 따른 제안된 이상 감지 방법은 고분량의 미세먼지 데이터의 경우에도 상당히 정확한 결과를 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 보간 및 이상 탐지의 흐름도이다.
도 2는 2019년 1월 25일부터 2019년 1월 31일 사이에 6일 동안 수집된 데이터 세트를 도시한 그래프이다.
도 3은 대역폭을 작은 것에서 큰 것으로 증가시킴으로써 추정의 RMSE를 계산하고 해당 RMSE가 최소값인 대역폭 값을 조사한 것을 나타낸 그래프이다.
도 4는 누락된 값은 보간되어 있고, 적색으로 표시된 그래프이다.
도 5는 비정상이 적색으로 표시된 것을 나타낸 그래프이다.
도 6은 2019년 1월 25일부터 2019년 2월 1일 사이에 8일 동안 수집된 데이터 세트 2를 나타낸 그래프이다.
도 7은 이 데이터 세트의 최적 대역폭이 19개로 선택된 것을 나타낸 그래프이다.
도 8은 누락된 데이터가 보간되어 있고, 적색으로 표시된 그래프이다.
도 9는 이상이 탐지되고 적색으로 표시되며, (a)는 전체 데이터 세트에 대한 이상치가 도시된 그래프이고, (b)는 2,750과 4,000 사이의 데이터 세트 부분에 대해 확대된 이상치가 표시된 그래프이다.

본 발명에서는, 커널 회귀를 기반으로 하는 보간 방법과 후속 비정상 데이터 탐지 방법의 두 가지 알고리즘을 제시한다. 본 발명에서 제시된 알고리즘은 도 1에 도시된 순서대로 수행된다. 먼저, 전체 데이터에서 누락된 데이터가 없는 부분을 선택하고(S101), 선택된 데이터 부분에 대한 대역폭을 추정한다(S102). 여기서, 대역폭은 KRBI (Kernel Regression-based interpolation) (도 1의 점선)에 사용할 값으로 다음 하위 섹션에서 설명된다. 그 후, 전체 데이터 세트에 대한 누락 데이터를 조사한다(S103). 누락된 데이터가 있는 경우 선형 보간을 이용하여 누락된 데이터를 보간한다(S104). 이후, KRBI 알고리즘을 적용하여 보간을 다시 수행한다(S105). 이 경우, 이전에 얻은 최적의 대역폭 값을 이용한다. 누락된 데이터가 없는 경우, 전체 데이터 세트에 대해 비정상 데이터 탐지가 시작된다(S106).

2.2. LOOCV (Leave One Out Cross-Validation) 기반 최적 대역폭 선택

적절한 대역폭을 계산하기 위해 모든 데이터를 교육(training) 및 검증 데이터로 분할하였다. 대역폭이 작은 값으로부터 큰 값으로 변경됨에 따라 트레이닝 데이터를 이용하여 검증 데이터 값을 예측하였다. 마지막으로, 실제 검증 데이터 값으로 추정 오차를 계산하였다. 본 발명에서는, 이용된 데이터에 대한 적절한 대역폭으로서, 알고리즘이 오류가 최소로 되는 대역폭 값을 이용하도록 프로그래밍 하였다. 해당 의사 코드(pseudo-code)를 이용할 수 있다. 대역폭 선택 프로세스는 실험 섹션에서 설명한다.

2.3. 선형 보간을 이용한 커널 회귀 기반 보간

본 발명에서 제안한 방법은 커널 회귀(Kernel Regression)를 기반으로 하지만 선형 보간법(Linear Interpolation method)의 장점을 취하였다. 선형 보간법은 특히 시계열 추세가 분명할 때 적절하게 이용될 수 있다. 예를 들어, 시계열 패턴이 상승 또는 감소하는 것처럼 보일 때, 해당 데이터 패턴의 보간에 보다 적절하게 선형 보간법을 적용할 수 있다. 본 발명에서는 KRBI 방법의 성능을 향상시키기 위해 선형 보간법의 이 속성을 이용하였다. 즉, 버스트성 누락 데이터에 대해 선형 보간법을 선험적으로 이용한 다음 누락 데이터의 최종 보간을 위해 KRBI 방법을 적용하였다.

커널 회귀 알고리즘은 다음과 같이 요약할 수 있다. 먼저, 본 발명에서는 시계열 데이터를 (t_i, y_i)로 정의하였고, 여기서 t_i, y_i는 시간과 시간 t_i에서의 데이터의 측정 값을 나타낸다. 커널 회귀는 yi의 대표 값

를 설정하는 것으로, 여기서

이며, 대역폭 h는

로 정의된다. 이 경우, 대표 값

는 가우시안(Gaussian) 또는 균일 분포와 같이 잘 알려진 통계 모델에 따라 가중치 W_i를 생성할 수 있는 W_iy_i의 가중 평균값으로 계산될 수 있다. 알고리즘은 다음과 같이 수학적으로 표현될 수 있다.

여기서,

는 가중치이다.

KRBI 방법을 적용하기 위해서는 적절한 대역폭 계산이 이루어져야 한다. 이를 위해 데이터 보간을 위한 적절한 대역폭을 추정하기 위해 누락된 데이터가 없는 데이터의 일부를 이용하였다. 자세한 설명은 다음 섹션에 제공된다.

2.4. 상황 인식 이상 탐지

본 발명에서는, 보간 및 최적 대역폭을 위한 대역폭 선택을 마친 후, 시계열 데이터에서 비정상을 감지하기 위한 또 다른 알고리즘을 개발하였다. 다양한 기술을 사용하여 이상을 탐지하기 위한 많은 기술이 제시되었다. 본 발명에서 이상을 매우 짧은 시간 내에 값이 크게 변하는 데이터로 정의하였다. 예를 들어, 10초마다 측정된 PM2.5 농도가 10초 동안 현저한 하락 또는 상승을 보인 경우(예를 들어, 상자 수염(box-and-whisker) 플롯에서 Q1-1.5IQR 이하 또는 Q3+1.5IQR 이상으로 되는 관측치), PM2.5 농도의 변화량이 매우 짧은 시간 내에 안정적이거나 유사하다고 가정하기 때문에 값이 비정상이라고 간주하였다. 그러나, 이 규칙은 이상치(outliers)을 탐지하는 데 적절한 기준이 아니었는 데, 그 이유는 너무 많은 데이터가 이 범주에 속하기 때문이고, 데이터 컨텍스트를 고려할 때 모두 이상 값이라고 생각하기 어려웠다. 따라서, 본 발명에서는 다음 조건이 충족될 때 데이터를 이상으로 규정하였다. 실제로 PM2.5 농도는 대부분의 경우 크게 변하지 않는다. 이 현상은 시계열 데이터 분석에서 이상 감지에 반영된다.

즉, d_i(인접 y_i의 차이)가 특정 임계 값(th)을 초과하면, y_i가 이상 값이 될 수 있다. 임계 값은 현재 PM 데이터의 특성에 따라 육안 검사로 선택된다. 자세한 내용은 실험 섹션에서 확인할 수 있다.

3. 실험 테스트

3.1. 실제 데이터 세트에 대한 부트스트랩(bootstrap) 시뮬레이션

본 섹션에서는, 본 발명의 제안된 보간 방법의 효과를 확인하였다. 유효성을 확인하기 위해, 본 발명에서는 (1) 실제 데이터의 일부를 무작위로 제거하고, (2) 알고리즘을 기반으로 제거된 데이터를 보간한 다음, (3) 다른 알려진 방법을 이용하여 결과를 적용하는 비교를 포함하여 특정 성능 기준 측면에서 이들을 서로 비교하였다. 3가지 상이한 시나리오에서 주어진 데이터를 이용하여 부트스트래핑 테스트를 기반으로 실험을 수행하였다. 시계열 데이터의 원호 모양은 일반적으로 상승, 하강, 평탄의 3가지 다른 패턴으로 분류될 수 있다고 가정하였다. 이 가정을 기초로, 각 모양 패턴에 속하는 데이터에 대해서만 방법의 유효성을 평가할 수 있다. 본 발명에서, 각 모양 패턴에 속하는 선택된 데이터 세트에 대해 부트스트래핑 테스트를 이용하였다. 데이터의 각 패턴 섹션으로부터의 샘플을 무작위로 선택한 다음 의도적으로 삭제하였다. 그 다음, 삭제된 데이터에 대한 보간 값을 추정하고 실제 값과 추정된 보간 값 간의 오류 율을 비교하였다. 이 유효성 검사 작업에 대한 시계열 데이터는 아래 도 6에 나와있다. 데이터에 대한 철저한 조사를 감안할 때, 다음 시간 지수에 해당하는 데이터가 특별히 선택되었는데, 그 이유는 데이터가 다음 3가지 일반적인 모양 패턴과 일치하는 것으로 보이며 패턴에 누락된 값이 없기 때문이다: 상승 경사의 경우 3,600~4,600, 하강 경사의 경우 3,250~3,500, 평탄한 패턴의 경우 19,000~20,000. 본 발명의 부트스트래핑 테스트에서는, 40, 60, 80, 100개의 데이터 포인트를 무작위로 삭제하여 누락된 데이터를 생성하고, 삭제된 데이터에 대한 보간 결과는 RMSE (Root Mean Squared Error) 측면에서 원래 데이터와 비교하여 평가하였다.

본 발명에서 제안한 방법의 성능은 Locf(Last Observation Carried Forward), Agg(aggregate) 및 스플라인(Spline) 방법의 성능과 비교되었다. Locf 방법은 자신보다 가장 최근의 값을 이용한다. Agg 방법은 몇 가지 이전 값의 평균을 이용한다. 스플라인 방법은 기본 R과 함께 제공되는 평활화(smoothing) 기법이고 누락된 데이터의 보간에 이용되었다. 이 4가지 방법을 비교한 결과는 표 1에 나와 있는데, 이는 본 발명에서 제안한 방법이 4가지 방법 모두의 RMSE가 통계적으로 다르지 않은 평탄한 패턴을 제외하고는 기존의 3가지 방법보다 낮은 RMSE를 나타냈다.

[표 1]은 본 발명의 실시간 개인 모니터링 데이터에 적용된 4가지 보간 방법의 RMSE를 나타내고 있다.

(Data pattern: 데이터 패턴, Interpolation method: 보간 방법, Number of missing data : 누락 데이터의 수, Up slope : 상승 경사, Down slope : 하강 경사, Flat : 평탄, Proposed : 제안, Spline : 스플라인)

실제 데이터 세트 실험에서 입증된 바와 같이, 본 발명에서 제안한 방법은 기존 방법보다 더 잘 작동했지만, 평탄한 패턴과 같은 몇 가지 경우에 대해 매우 유사한 결과가 있었다. 이러한 실험 결과를 기반으로, 본 발명에서는 마지막으로 제안된 방법을 누락된 값의 나머지 경우에 적용하였다.

3.2. 최적의 대역폭 선택

데이터 보간을 수행하기 전에 보간 방법에 이용되는 대역폭 값을 결정할 필요가 있었다. 이 작업을 위해, 데이터 세트에 대한 최적의 대역폭을 추정하기 위해 누락된 데이터가 없는 데이터의 전체 부분을 무작위로 선택하였다. 그 다음, 전체 데이터를 교육 및 검증을 위해 2개의 상이한 세트로 분할하였다. 트레이닝 데이터 세트를 이용하여 커널 회귀 모델을 설정한 다음, 나머지 데이터 세트에 대해 유효성 검사를 수행하였다. 이 대역폭 선택 단계에서는, 보간 절차에 적용될 수 있는 가장 적은 오류를 제공하는 대역폭을 찾기 위해 대역폭을 1에서 100으로 증가시켰다. 이 대역폭 추정 단계는 실제로 데이터의 특성에 따라 달라질 수 있다. 즉, 추정 결과는 데이터 패턴의 형태에 따라 크게 다를 수 있기 때문에, 3가지 데이터 패턴 각각에 대해 서로 다른 대역폭을 추정하여 본 발명에서 이용하였다. 그러나, 시계열 데이터에서 이렇게 서로 다른 데이터 패턴의 변화 지점을 탐지하기 어려웠기 때문에, 다음 2가지 실제 데이터 실험에서 평탄한 데이터 패턴에 대해 추정된 대역폭을 이용하였다. 향후 데이터 패턴에 따라 적절한 대역폭을 자동으로 계산하기 위한 추가 연구가 필요하다.

3.3. 실제 세계 개인 데이터를 이용한 보간 및 이상 탐지

본 발명에서는 누락된 데이터가 포함된 분리된 PM2.5 데이터 세트에 위에서 설명한 방법을 적용하였다. 이러한 PM2.5 데이터는 피험자에게 부착된 휴대용 개인 PM2.5 모니터에서 10초 간격으로 수집되었다. 데이터는 2019년 1월 25일부터 2019년 2월 1일 사이에 측정되었다.

3.3.1. 실제 세계 개인 데이터 세트 1로 보간 및 이상 탐지 방법 적용

도 2에서 볼 수 있듯이, PM2.5 수준은 안정적이었으며, 이는 피험자가 갑작스러운 활동 변화를 최소화 하면서 상대적으로 차분함을 의미한다. 데이터 세트의 길이는 10초 간격으로 59,422 이었지만, 총 17,968개의 누락된 데이터 포인트가 있었다. 이상을 탐지하기 전에, 먼저 이전에 했던 것처럼 데이터 세트에 대한 최적의 대역폭을 선택하였다.

도 3에 도시된 바와 같이, 데이터 세트에 대한 최적의 대역폭을 결정한 후, 앞에서 언급한 알고리즘을 기반으로 누락된 값을 보간하였다. 해당 결과를 도 4에 나타냈다.

도 4는 실제 데이터에 중첩된 보간 데이터(적색 점)를 나타낸다. 누락된 데이터가 작거나 큰 집합 형태로 나타났음을 보여준다. 특히 시간 지수에 따라 40,000~60,000 사이에 데이터 손실이 많이 발생하였음을 알 수 있다. 원시 데이터를 확인한 후, 아마도 오후의 다양한 활동 때문에 오후 1시부터 오후 4시 사이에 대규모 데이터 손실이 발생하였음을 확인하였다. 너무 많이 누락된 데이터는 선형 보간 이외의 방법으로 보간하기가 매우 어려울 수 있다. 이러한 경우에는 본 발명의 방법과 같이 선형 보간을 이용하여 초기 보간을 수행한 후 다른 방법을 적용하여 결과를 개선하는 것이 바람직하다. 도면에 도시된 바와 같이, 보간은 데이터의 전체 패턴과 잘 어울린다.

다음 단계로, 전체 데이터 세트에 대해 방법 섹션에 설명된 방법을 기반으로 데이터 세트에서 이상을 탐지하였다. 인접한 PM2.5 값의 차이가 특정 임계 값(본 실험에서는 200)을 초과하는 경우, 이를 이상으로 간주하였다. 해당 이상은 도 5에서 적색으로 표시되며, 이는 육안 검사로 감지된 8개의 이상이 있음을 보여주며, 상단에 있는 4개의 적색 점이 실제 이상 값인 것으로 보인다. 하단의 다른 적색 점은 실제 이상치처럼 보이지 않지만, PM 농도가 이전 상태로부터 10초 만에 200 ㎍/m³ 이상 크게 떨어졌기 때문에 이상치로 간주할 수 있으며, 이는 정상 정도의 변화로 받아들일 수 없다. 이 결과는 제안된 이상치 탐지 방법이 매우 변덕스러운 환경에서도 어느 정도 상당히 신뢰할 수 있는 결과를 생성함을 설명한다.

3.3.2. 실제 세계 개인 데이터 세트 2를 이용한 보간 및 이상 탐지 적용

이 데이터 세트는 2019년 1월 25일부터 2019년 2월 1일까지 8일 동안 수집되었다. 데이터 세트의 길이는 62,878이며, 총 74개의 누락된 데이터 포인트가 있다. 이전 실험에서 이용한 데이터 세트 1은 데이터 수집 기간 동안 PM 데이터 분포가 대부분 100 ㎍/m³ 미만이었기 때문에 매우 안정적이었다. 그러나 데이터 세트 2의 PM 데이터는 10초 간격으로 2,000~8,000 ㎍/m³에 이르렀고, PM 데이터 분포에 보다 동적인 변화를 보였으며, 이는 피험자가 다양한 활동을 하였거나, 또는 상승, 하강 및 안정적인 PM2.5 농도의 모든 데이터 분포 패턴을 포함하는 다양한 환경 조건에 노출되었음을 의미한다.

또한 이전에 설명한대로 동일한 대역폭 추정 단계도 수행되었다. 도 7은 시간 지수에서 33,000 내지 33,600의 데이터의 평탄한 부분에 대해 추정된 20개의 선택된 대역폭을 나타낸다. 보간된 누락 데이터는 전체 데이터 세트에 중첩된 도 8에서 적색으로 표시되어 있다.

도 8은 특성이 다른 두 데이터 세트를 나타내고; 앞 부분에서는 데이터가 크게 변동하지만 뒷 부분에서는 데이터가 비교적 안정적이다. 특히, 전반 데이터는 오후 2시부터 오후 6시 사이에 생성되었으며, 아마도 다양한 움직임에 의한 것일 것이다. 이전 데이터 세트 1과는 달리, 동적 이동 조건에서도 데이터 손실이 상대적으로 적고, 따라서 매우 안정적인 성능 센서를 사용할 수 있다. 데이터 후반부의 경우, 앞부분보다 데이터 손실이 더 많이 발생하는 것으로 보이지만 실제로 손실되는 데이터는 많지 않다. 전반적으로 상당히 안정적인 보간 결과를 볼 수 있다.

마지막으로, 도 9에서 이상은 적색으로 표시된다. 전체적으로 8개의 이상이 육안 검사로 탐지된 것 같다. 데이터의 확대된 부분(전체 데이터 세트 중 2,750 내지 4,000)을 살펴보면, 해당 PM 농도가 10초 내에 크게 변경되기 때문에 탐지된 이상치가 실제 이상치로 허용될 수 있음을 알 수 있다. 이 실험 세트에서는 임계 값 1,000이 이상치를 탐지하는 기준으로 이용되었다.

4. 논의

본 발명은 PM2.5 노출 수준 예측, 예측을 기반으로 한 경보 제공 등과 같이 인공 지능 환경 정보 서비스와 관련된 두 가지 중요한 기술에 대한 연구 결과를 제시하였다. 대부분의 환경 데이터에는 필연적으로 누락된 데이터와 센서 오작동, 전송 오류 또는 저장 오류와 같은 다양한 요인으로 인한 이상이 포함된다. 이러한 불완전한 데이터는 데이터 기반 분석의 오산으로 이어질 수 있으므로 데이터 분석에 이용하기 전에 적절하게 처리되어야 한다. 관련 연구의 대부분은 보간 또는 비정상 데이터 문제만 다루는 경향이 있다. 그러나 실행 가능한 데이터 기반 서비스를 위해 보간 및 비정상 데이터를 함께 처리하는 것이 바람직하다. 따라서 본 발명에서는, 이 두 가지 문제에 대한 연구를 동시에 수행하였다.

첫 번째 기술은 보간 방법으로서, 이는 다양한 센서에서 손실된 데이터에 대처하는 기술이라고 할 수 있다. 데이터는 주로 시계열 데이터에서 누락되는 경향이 있으며, 이는 3가지 주요 형태로 발생하는 것으로 알려져 있다: 무작위로 완전 누락(MCAR), 무작위로 누락(MAR), 무작위로 누락되지 않음(NMAR). 특히 MAR 유형은 대부분의 미세 먼지 시계열 데이터에서 누락된 데이터를 설명하는 데 적합한 모델 형식이다. 이 모델은 시계열 데이터의 패턴이 특정 수학적 생성 모델에 의해 설명될 수 있다고 가정하고, 누락된 데이터 문제를 해결하기 위해 다변량(multivariate) 환경에서 상관 정보를 활용하려고 시도한다. 센서가 특정 물체에 고정되어 있는 고정된 환경에서는 생성 모델을 이용하여 데이터를 분석할 수 있다. 그러나, 휴대용의 착용 가능한 장치에서 데이터를 수집하는 단일 변량(univariate)의 경우에는, 이용할 속성의 수가 매우 제한되어 있고 많은 양의 데이터가 누락될 가능성이 높기 때문에, 누락된 데이터를 추정하기가 매우 어렵다. 이러한 경우 특정 활동에 대한 데이터 분포 패턴 또는 대표 값을 설명하기 위해 수학적 생성 모델을 적용하는 것은 매우 어렵다. 단일 변량 시계열 데이터에 대한 보간 방법을 다루는 기사는 거의 없다. 전닌넨(Junninen)의 기사에서는 2004년에 단일 변량 알고리즘을 연구하였지만 시계열 측면을 고려하지 않았다. 저자들은 단일 변량 모델 보간을 위해 ARIMA (Auto Regressive Integrated Moving Average)와 SARIMA (Seasonal Autoregressive Integrated Moving Average) 모델을 적용하고 비교 결과를 제공하였다. 성능 비교는 R에 내장된 보간 방법을 이용하여 제공된다. 선형 보간과 같은 간단한 오류 복구 방법으로 한 순간 또는 단시간의 데이터 손실을 쉽게 보간할 수 있다. 그러나, 이 간단한 보간 방법은 센서에서 제공하는 데이터의 긴 버스트성 손실에 적합하지 않을 수 있다. 이러한 긴 버스트성 데이터 손실이 발생하는 경우, 예측 기법을 이용한 보간 방법이 더 적절할 수 있다.

또한, 데이터 분포 특성에서 벗어나는 데이터를 탐지하기 위해서는 이상 데이터 탐지 기술을 적용해야 한다. 이상 현상은 환경 및 금융 분야를 포함한 다양한 산업에서 흔히 볼 수 있다. 이상 시계열 데이터는 시간 흐름을 기본으로 한 데이터의 연속성을 방해하는 데이터로 간주될 수 있다. 이상을 탐지하는 대부분의 기술은 데이터 라벨(label)의 유무에 따라 감시(supervised) 및 비 감시법으로 분류될 수 있다. 감시법은 데이터에 라벨을 붙일 때 학습 알고리즘을 통해 비정상 데이터를 탐지하는 기술이다. 비 감시법은 데이터에 라벨이 없을 때 이용될 수 있으며, 데이터 라벨을 이용할 수 없는 경우가 많기 때문에 감시법보다 유연하게 이용될 수 있다. 또 다른 분류 범주로서, 점-이상(point-anomalous) 데이터 탐지 기술은 많은 정상 데이터 중에서 비정상적인 특성을 가진 하나의 데이터 포인트를 탐지한다. 반면에 통계적 방법은 포인트 방법을 확장한 것으로, 특정 값 범위 내외에 해당하는 데이터를 탐지하여 이상을 찾아내는 기술이다. 이러한 기술의 단점은 이러한 값의 대부분이 수동으로 설정된다는 것이다. 최근에는 많은 컨텍스트 기반(context-based) 방법이 연구되었다. 이는 상황의 맥락에 따라 비정상 데이터를 식별하는 기술로 볼 수 있다. 본 발명에서는, 시간으로 측정한 중요한 증가 또는 감소 변화를 보여주는 비정상 데이터를 탐지하는 방법을 제안하였다.

제안된 알고리즘의 우수성은 실험을 통해 입증되었지만, 본 발명에서는 본 연구를 수행하는 데 있어 한계를 해결한다. 먼저, 본 발명의 보간 알고리즘에 대한 참조 데이터가 없었기 때문에, 보간 방법의 우수성을 증명하기 위해 부트스트래핑 테스트를 이용하였다. 그러나, 이러한 상황에서 본 발명에서는 부트스트래핑 테스트가 보안 데이터 세트에서 무작위로 누락된 값 데이터 세트를 생성하기 위한 최선의 선택이라고 가정하였다. 또한, 본 발명에서는 제안된 방법의 성능을 평가하기 위해 3가지 시나리오-특이적 실험을 수행하였으며, 이는 단순화 된 접근 방식으로 간주될 수 있다. 데이터 배포 패턴은 더 복잡할 수 있다. 이 연구에서는 데이터 분포 패턴을 고려하지 않았기 때문에 데이터 유형에 따라 일부 다른 방법이 더 잘 작동할 수 있다. 또한, 본 발명에서는 평탄한 데이터 패턴에 대해 추정된 동일한 대역폭을 전체 데이터 세트에 적용하여 보간을 수행하였다. 앞으로는 데이터 패턴마다 상이한 대역폭 값을 자동으로 적용하는 연구를 수행할 필요가 있다. 마지막으로, 본 연구에서 제안된 방법은 상황 인식 기반의 탐지 방법이기 때문에, 본 발명에서는 이전에 제안한 다른 방법이 완전히 상이한 결과를 얻을 수 있음을 인정한다. 또한 임계 값은 현재 육안 검사를 통해 선택되었지만, 본 발명에서는 자동으로 값을 선택하는 정교한 알고리즘을 개발할 필요가 있다. 본 발명에서는 가까운 장래 연구에서 그러한 자동 방법을 도입할 수 있다.

본 연구의 한계에도 불구하고, 개인 휴대 단말기에서 수집된 미세 먼지 데이터의 보간 및 비정상 데이터 문제에 대한 해결책을 제시한다는 점에서 학문적으로 매우 중요한 의미를 갖는다. 본 발명자들은 이러한 기술이 가까운 장래에 개인화된 환경 데이터 서비스의 초석이 될 것이라고 믿는다. 또한, 향후 연구에는 기계 학습 기술을 기반으로 한 실내 및 실외 환경의 PM 데이터 농도 예측이 포함된다.

5. 결론

본 발명에 따르면 개별 센서에서 얻어진 환경 데이터의 불완전성을 극복하고 보다 신뢰성 있는 데이터 분석을 위한 기반을 제공할 수 있다. 본 발명에 따른 알고리즘을 더욱 개선하면, 개인화된 의료 및 예방 의학 연구 발전에 많은 기여를 할 수 있을 것이다.

Claims

센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법에 있어서,
센서기반으로 획득된 미세먼저의 전체 데이터에서 누락된 데이터가 없는 부분을 선택하는 단계;
상기 선택된 데이터 부분에 대한 대역폭을 추정하는 단계;
상기 전체 데이터의 세트에 대해 누락 데이터를 조사하는 단계;
상기 조사 결과 누락된 데이터가 있는 경우에 선형 보간을 이용하여 누락된 데이터를 보간하는 단계;
상기 추정된 대역폭 값을 이용하여 KRBI(Kernel Regression-based interpolation) 알고리즘을 적용하여 보간을 수행하는 단계;
상기 보간 이후 누락된 데이터가 없는 경우에, 상기 전체 데이터 세트에 대해 비정상 데이터를 탐지하는 단계를 수행하는 것을 특징으로 하는 센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법.
제 1 항에 있어서,
상기 대역폭을 추정하는 단계는,
LOOCV(Leave One Out Cross-Validation) 기반으로 추정되는 대역폭 중에서 추정 오차가 가장 최소가 되는 대역폭을 최적의 대역폭으로 계산하는 것을 특징으로 하는 센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법.
제 2 항에 있어서,
상기 대역폭을 추정하는 단계는,
상기 선택된 데이터를 교육(training) 데이터 및 검증(verification) 데이터로 분할하는 단계;
상기 대역폭을 작은 값으로부터 큰 값으로 변경하면서 상기 트레이닝 데이터를 이용하여 상기 검증 데이터 값을 예측하는 단계;
상기 예측된 검증 데이터 값을 실제 검증 데이터 값과 비교하여 추정 오차를 계산하는 단계를 더 포함하는 것을 특징으로 하는 센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법.
제 1 항에 있어서,
선형 보간을 이용하여 누락된 데이터를 보간하는 단계는,
버스트성(bursty) 누락 데이터에 대해 선형 보간을 먼저 실시하고,
상기 KRBI 알고리즘을 적용하여 보간을 수행하는 단계는,
상기 누락 데이터의 최종 보간을 위해 KRBI 보간을 적용하여 보간 성능을 향상시키는 것을 특징으로 하는 센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법.
제 4 항에 있어서,
상기 KRBI 알고리즘은 시계열 데이터를 (t_i, y_i)로 정의하고(여기서 t_i, y_i는 시간과 시간 t_i에서의 데이터의 측정 값을 나타냄),
상기 KRBI 알고리즘은 yi의 대표 값
를 설정하는 것으로
이며, 대역폭 h는
로 정의되며, 이때 대표값
는 가우시안(Gaussian) 또는 균일 분포 통계 모델에 따라 가중치 W_i를 생성할 수 있는 W_iy_i의 가중 평균값으로 계산되고, 하기의 수학식 1으로 표현되는 것을 특징으로 하는 센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법.
[수학식 1]

(이때,
는 가중치(weight)임.)
제 1 항에 있어서,
상기 비정상 데이터를 탐지하는 단계는,
하기의 수학식 2를 이용해 탐지하는 것을 특징으로 하는 센서기반 미세먼지 정보 처리 고도화를 위한 보간 및 이상데이터 탐지 방법.
[수학식 2]

(이때, y_i는 시간 t_i에서의 데이터의 측정값이고, y_i-1은 시간 t-1에서의 데이터의 측정값이고, d_i는 y_i와 y_i-1의 차이이고, th는 입계값임.)
삭제