KR102493719B1 - 통합 공기질 예측 시스템 - Google Patents

통합 공기질 예측 시스템 Download PDF

Info

Publication number
KR102493719B1
KR102493719B1 KR1020220059472A KR20220059472A KR102493719B1 KR 102493719 B1 KR102493719 B1 KR 102493719B1 KR 1020220059472 A KR1020220059472 A KR 1020220059472A KR 20220059472 A KR20220059472 A KR 20220059472A KR 102493719 B1 KR102493719 B1 KR 102493719B1
Authority
KR
South Korea
Prior art keywords
data
air quality
value
carbon dioxide
fine dust
Prior art date
Application number
KR1020220059472A
Other languages
English (en)
Inventor
조흔우
강지훈
김세훈
Original Assignee
주식회사 에어콕
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에어콕 filed Critical 주식회사 에어콕
Priority to KR1020220059472A priority Critical patent/KR102493719B1/ko
Application granted granted Critical
Publication of KR102493719B1 publication Critical patent/KR102493719B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2219/00Indexing scheme relating to application aspects of data processing equipment or methods
    • G06F2219/10Environmental application, e.g. waste reduction, pollution control, compliance with environmental legislation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B30/00Energy efficient heating, ventilation or air conditioning [HVAC]
    • Y02B30/70Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Mathematical Analysis (AREA)
  • Development Economics (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)

Abstract

통합 공기질 예측 시스템이 개시된다. 이산화탄소 데이터, 미세먼지 데이터, 습도 데이터, 및 온도 데이터를 포함하는 공기질 데이터 셋을 구성하고, 상기 공기질 데이터 셋을 기초로 학습된 딥러닝 기반 예측 모델을 통해 이전 데이터를 기초로 타겟 시점의 이산화탄소, 미세먼지, 습도, 및 온도를 포함하는 공기질 수치를 예측할 수 있다.

Description

통합 공기질 예측 시스템{INTEGRATED AIR QUALITY PREDICTION SYSTEM}
아래의 설명은 실내 공기질 수치를 예측하는 기술에 관한 것이다.
환경오염이 심각해짐에 따라 미세먼지 경보발생의 빈도가 높고, 이로 인하여 현대인의 건강을 심각히 위협하고 있다.
한편, 최근에는 실외의 환경상태 뿐만 아니라 실내와의 온도차, 습도차 등도 건강을 유지하고 증진시키기 위해 고려되어야 할 매우 중요한 요소로 인식되고 있으며, 이를 위해 실내 환경 상태를 측정하고, 그 측정 결과를 이용하여 실내 환경을 개선함으로써 사용자의 건강을 유지하고 증진하고자 하는 시스템에 대한 연구가 활발히 이루어지고 있다.
또한, 최근에는 도서관이나 박물과, 병원, 백화점, 영화관, 학원, 학교, 어린이집 등의 다중이용시설에 실내 공기질 관리법이 시행됨에 따라 법령에 맞는 실내공기 진단 장비의 개발과 보급의 필요성이 대두되고 있다.
공기질은 눈으로 쉽게 파악할 수 없어 실제적인 관리가 어려우며, 실내 공기의 오염은 실내 거주자들의 생명을 위협할 정도는 아닐지라도 분명히 건강에 악영향을 미치고 있다.
그러나, 대부분의 사람들은 실내 오염에 의한 인체 영향이 실외의 대기오염 보다 더욱 심각하다는 사실을 거의 인식하지 못하고 있으며, 실내 오염물질의 성질과 농도에 대해서도 파악하지 못하고 있는 실정이다.
1. 한국등록특허 제10-2029994호 (실내 공기질 정보 및 모니터링 시스템, 등록일: 2019년 10월 01일)
실내 공간의 주기적인 특정 패턴을 고려하여 해당 공간의 이산화탄소(CO2), 미세먼지(PM), 습도, 및 온도를 포함한 통합 공기질 수치를 예측할 수 있는 시스템을 제공한다.
컴퓨터 장치로 구현되는 통합 공기질 예측 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이산화탄소 데이터, 미세먼지 데이터, 습도 데이터, 및 온도 데이터를 포함하는 공기질 데이터 셋을 구성하는 과정; 및 상기 공기질 데이터 셋을 기초로 학습된 딥러닝 기반 예측 모델을 통해 이전 데이터를 기초로 타겟 시점의 이산화탄소, 미세먼지, 습도, 및 온도를 포함하는 공기질 수치를 예측하는 과정을 처리하는 통합 공기질 예측 시스템을 제공한다.
일 측면에 따르면, 상기 적어도 하나의 프로세서는, 이산화탄소, 미세먼지, 습도, 및 온도 각각에 대하여 서로 다른 조건의 학습 데이터 셋을 이용하여 복수 개의 예측 모델을 학습하고, 상기 복수 개의 예측 모델 중에서 앙상블(Ensemble) 학습을 기반으로 선정된 적어도 하나의 모델을 통해 상기 타겟 시점의 이산화탄소, 미세먼지, 습도, 및 온도를 예측할 수 있다.
다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 최소-최대 스케일러(Min Max scaler)를 이용하여 상기 이산화탄소 데이터, 상기 미세먼지 데이터, 상기 습도 데이터, 및 상기 온도 데이터를 정해진 스케일로 변환함으로써 정규화할 수 있다.
또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 서로 다른 조건의 데이터 셋으로 학습된 복수 개의 예측 모델 중에서 RMSE(root mean square error)와 MAE(mean absolute error) 중 적어도 하나를 기준으로 선정된 적어도 하나의 예측 모델을 통해 상기 공기질 수치를 예측할 수 있다.
또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 상기 타겟 시점에 따라 해당 시점의 이전 데이터를 이용하여 자기보수 알고리즘인 ABC(Automatic Background Calibration) 알고리즘에 기반한 가중평균을 통해 공기질 예측 값을 보정할 수 있다.
또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 상기 타겟 시점에 따라 해당 시점의 이전 데이터를 이용하여 ARIMA(autoregressive integrated moving average) 알고리즘에 기반한 가중평균을 통해 최소값 미만 예측 값과 최대값 초과 예측 값 중 적어도 하나를 보정할 수 있다.
또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, 다중 선형 회귀(Multi Linear Regression) 모델에 기반한 가중평균을 통해 공기질 예측 값을 보정할 수 있다.
본 발명의 실시예들에 따르면, 실내 공간의 주기적인 특정 패턴을 고려하여 해당 공간의 이산화탄소, 미세먼지, 습도, 및 온도를 포함한 통합 공기질 수치를 예측함으로써 예측 오류를 최소화하여 예측 성능을 향상시킬 수 있다.
본 발명의 실시예들에 따르면, 통합 공기질 예측을 통해 실내 공간의 행동강령에 대해 직관적인 가이드를 제공할 수 있고, 공기질 향상에 적용할 수 있는 홈 오토메이션의 자동화 제어 시스템과 연동할 수 있다.
도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 통합 공기질 예측 시스템의 전체 구조의 일례를 도시한 것이다.
도 3은 본 발명의 일실시예에 있어서 공기질 데이터를 수집 및 정제하는 전처리 과정의 일례를 설명하기 위한 도면이다.
도 4 내지 도 5는 본 발명의 일실시예에 있어서 이산화탄소 예측 모델을 학습하는 과정의 일례를 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 있어서 이산화탄소 예측 모델에 이용되는 LSTM(Long Short-Term Memory) 레이어 구조 예시를 도시한 것이다.
도 7은 본 발명의 일실시예에 있어서 미세먼지와 습도 및 온도 데이터를 예측하는 모델을 학습하는 과정의 일례를 설명하기 위한 도면이다.
도 8은 본 발명의 일실시예에 있어서 미세먼지와 습도 및 온도 예측 모델에 이용되는 LSTM 레이어 구조 예시를 도시한 것이다.
도 9는 본 발명의 일실시예에 있어서 이산화탄소 수치를 예측하는 후처리 과정의 일례를 설명하기 위한 도면이다.
도 10은 본 발명의 일실시예에 있어서 ADF(Augmented Dickey-Fuller) 결과 예시를 도시한 것이다.
도 11은 본 발명의 일실시예에 있어서 미세먼지/습도 수치를 예측하는 후처리 과정의 일례를 설명하기 위한 도면이다.
도 12는 본 발명의 일실시예에 있어서 온도 수치를 예측하는 후처리 과정의 일례를 설명하기 위한 도면이다.
도 13은 본 발명의 일실시예에 있어서 온도 예측 모델에 이용되는 상관계수를 도시한 것이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 실내 공간의 공기질 수치를 예측하는 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 실내 공간의 주기적인 특정 패턴을 고려하여 해당 공간의 이산화탄소, 미세먼지, 습도, 및 온도를 포함한 통합 공기질 수치를 예측할 수 있고, 공기질 예측 결과를 행동강령 가이드를 제공하거나 공조 시스템을 제어하는 데에 활용할 수 있다.
도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 통합 공기질 예측 시스템은 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.
도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 통합 공기질 예측 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.
메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.
프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
본 발명의 실시예들에 따른 통합 공기질 예측 시스템은 클라이언트-서버 모델(client-server model) 구조로 구현될 수 있으며, 서비스 요청자인 클라이언트로부터 필요한 데이터를 수신하여 서비스 자원의 제공자인 서버 측에서 이산화탄소 수치를 예측할 수 있다.
이하의 통합 공기질 예측 방법은 서버에서 수행될 수 있으며, 실시예에 따라서는 통합 공기질 예측 방법에 포함하는 적어도 하나 이상의 단계가 클라이언트에서 수행되는 것 또한 가능하다.
도 2는 본 발명의 일실시예에 있어서 통합 공기질 예측 시스템의 전체 구조의 일례를 도시한 것이다. 도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이다.
컴퓨터 장치(100)의 프로세서(120)는 이후 설명될 통합 공기질 예측 방법을 수행하기 위한 구성요소로서 도 2에 도시된 바와 같이, 전처리부(210), 학습부(220), 및 후처리부(230)를 포함할 수 있다. 실시예에 따라 프로세서(120)의 구성요소들은 선택적으로 프로세서(120)에 포함되거나 제외될 수도 있다. 또한, 실시예에 따라 프로세서(120)의 구성요소들은 프로세서(120)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
이러한 프로세서(120) 및 프로세서(120)의 구성요소들은 이후 설명될 통합 공기질 예측 방법이 포함하는 단계들을 수행하도록 컴퓨터 장치(100)를 제어할 수 있다. 예를 들어, 프로세서(120) 및 프로세서(120)의 구성요소들은 메모리(110)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
여기서, 프로세서(120)의 구성요소들은 컴퓨터 장치(100)에 저장된 프로그램 코드가 제공하는 명령에 따라 프로세서(120)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 컴퓨터 장치(100)가 이산화탄소 데이터를 수집 및 정제하도록 상술한 명령에 따라 컴퓨터 장치(100)를 제어하는 프로세서(120)의 기능적 표현으로서 전처리부(210)가 이용될 수 있다.
프로세서(120)는 컴퓨터 장치(100)의 제어와 관련된 명령이 로딩된 메모리(110)로부터 필요한 명령을 읽어들일 수 있다. 이 경우, 상기 읽어들인 명령은 프로세서(120)가 이후 설명될 통합 공기질 예측 방법을 실행하도록 제어하기 위한 명령을 포함할 수 있다.
일반적으로 공기질 예측을 위해서는 재실자 수, 환기 횟수 등을 사용할 수 있으나, 이러한 데이터를 지속적으로 체크하는 것은 현실적으로 힘들다. 해당 데이터 셋을 생성하더라도 장기간에 걸친 데이터 셋이 아니기 때문에 학습 시 특정 기간에만 예측율이 좋을 가능성이 크다.
공기질 수치는 계절, 재실자, 환기 횟수, 공간 면적 등에 따라 큰 편차를 보이기 때문에, 특정 공간에 모델을 적용하기 이전 패턴에 관련된 정보를 수집하는 작업이 추가되어야 한다.
기존 연구의 공기질 예측 모델은 각기 공통의 입력 데이터들이 있지만 추가적으로 삽입된 데이터로 인해 해당 환경에 최적화된 모델들만 제공하고 있다.
본 실시예들은 실내 공간의 주기적인 특정 패턴을 고려하여 해당 공간의 이산화탄소, 미세먼지, 습도, 및 온도를 포함한 공기질 수치를 예측할 수 있는 기술을 제공한다.
도 3은 본 발명의 일실시예에 있어서 공기질 데이터를 수집 및 정제하는 전처리 과정의 일례를 설명하기 위한 도면이다.
도 3을 참조하면, 전처리부(210)는 이산화탄소, 미세먼지, 습도, 및 온도를 측정하는 디바이스(예를 들어, IoT 기기 등)로부터 데이터 셋을 수집하여 정제하는 역할을 할 수 있다. 전처리부(210)는 일정 시간(예를 들어, 5분)을 주기로 저장된 데이터 셋을 수집 및 정제할 수 있다.
이산화탄소 데이터를 수집 및 정제하는 전처리 과정은 다음과 같다.
전처리부(210)는 데이터 증강(data augmentation)을 통해 샘플 데이터를 생성할 수 있다. 일례로, 전처리부(210)는 복수 개의 학습 데이터 셋을 서로 다른 조건으로 구성할 수 있으며, 예를 들어 데이터 셋을 전체 데이터 셋, 주중 근무시간대(예를 들어, 09:00~20:30) 데이터 셋, 근무시간대 제외 주중공휴일 데이터 셋, 이산화탄소 수치 600이상의 데이터 셋, 이산화탄소 수치 600이하의 데이터 셋, 총 5가지로 나누어 5개 예측 모델의 샘플 데이터를 생성할 수 있다.
전처리부(210)는 샘플 데이터의 변경 및 해석을 통해 학습 데이터를 구축할 수 있다. 학습 데이터는 전체 데이터 셋 51,806개, 주중 근무시간대 데이터 셋 18,115개, 근무시간대 제외 주중공휴일 데이터 셋 33,691개, 이산화탄소 수치 600이상의 데이터 셋 13,917개, 이산화탄소 수치 600이하의 데이터 셋 37,889개를 이용한다. 각 데이터 셋의 밸리데이션(validation)으로 20%를 사용할 수 있다.
전처리부(210)는 학습 데이터 x를 range(t-150, t)로, 학습 데이터 y를 range(t, t+12)로 샘플링한 후 1차 차분을 거쳐 range(t-149, t), range(t+1, t+12)의 (n, 1, 150), (n, 1, 12)의 형태로 변환할 수 있다.
상기한 과정들을 통해 데이터의 기본적인 패턴 분석 작업을 통한 인사이트(Insight)를 도출할 수 있다. 상기 전처리 과정들은 학습 모델을 만들기 이전에 같은 데이터를 값과 날짜로 각 구간을 나누어 새로운 모델을 도출할 수 있도록 한다.
전처리부(210)의 1차 차분 과정은
Figure 112022051460004-pat00001
방식으로 차분을 진행하게 되면 n번째 데이터는 n-1의 데이터에만 유의미한 영향을 주기 때문에 차후 출력에서도 예측된 결과값들 간의 상관관계가 아닌 가장 마지막 실제 수치인
Figure 112022051460004-pat00002
의 영향을 받게 하기 위함이다. 1차 차분은 수학식 1과 같이 정의될 수 있다.
[수학식 1]
Figure 112022051460004-pat00003
수학식 1은 중간 값을 0으로 바꾸고 증감 구간에 대해 더 민감하게 반응하는 것을 의도한다.
데이터 셋 기준 사분범위 IQR=219의 경우 실제 데이터임에도 이상점(outlier) 개수가 1662개로 계산됨. 예를 들어, lower bound=66.5, upper bound=942.5일 때, lower bound=-384.5, upper bound=491.5와 같다.
학습 데이터 x에서는 n-150번째 데이터를 기준으로 이후 149개의 데이터의 차를 구하고, 학습 데이터 y는 n번째 데이터를 기준으로 이후 12개의 데이터의 차를 구하여 사용할 수 있다.
전처리부(210)는 최소-최대 스케일(Min Max scale)을 통해 데이터 정규화를 수행할 수 있다. 이산화탄소는 재실자 수 등 여러 요인에 의해 급등락 가능한 데이터이므로 해당 수치가 이상점으로 탐지될 수 있다. 이때, 전처리부(210)는 최소-최대 스케일러를 사용하여 매우 다른 스케일의 범위를 0과 1사이로 변환함으로써 학습 데이터를 정규화할 수 있다.
미세먼지 데이터를 수집 및 정제하는 전처리 과정은 다음과 같다.
전처리부(210)는 데이터 증강을 통해 샘플 데이터를 생성할 수 있다. 일례로, 전처리부(210)는 복수 개의 학습 데이터 셋을 서로 다른 조건으로 구성할 수 있으며, 예를 들어 데이터 셋을 전체 데이터 셋, 주중 근무시간대(예를 들어, 09:00~20:30) 데이터 셋, 근무시간대 제외 주중공휴일 데이터 셋, 총 3가지로 각각 데이터 셋을 나누고 각 데이터 셋을 이용하여 앙상블을 위한 3개의 모델을 생성할 수 있다.
실제 센서는 디바이스가 설치된 물리적 환경과 디바이스 구조에 의해 값에 결측이나 이상치가 발견되는 경우가 있다. 따라서, 이상점을 없애기 위한 데이터 정제 과정이 필요하다. 해당 디바이스가 설치된 국가 측정망 실외 미세먼지 데이터를 기반으로 실내 미세먼지 데이터를 정제하는데, 해당 정제 방식은 특정 범위의 데이터를 삭제하는 의사 코드를 활용할 수 있다.
* 실외 미세먼지 데이터: outdoor_pm25
* 실내 미세먼지 데이터: indoor_pm25
If indoor_pm25<40
indoor_pm25 = (outdoor_pm25*0.4 <= indoor_pm25 <= outdoor_pm25*3.8)
Else
indoor_pm25 = outdoor_pm25*0.55 <= indoor_pm25 <= outdoor_pm25*2.5
전처리부(210)는 샘플 데이터의 변경 및 해석을 통해 학습 데이터를 구축할 수 있다. 학습 데이터는 전체 데이터 셋 83,273개, 주중 근무시간대 데이터 셋 20,760개, 근무시간대 제외 주중공휴일 데이터 셋 52,509개를 이용한다. 각 데이터 셋의 밸리데이션으로 20%를 사용할 수 있다.
전처리부(210)는 학습 데이터 x를 range(t-72, t)로, 학습 데이터 y를 range(t, t+12)로 샘플링 후 1차 차분을 거쳐 range(t-71, t), range(t+1, t+12)의 (n, 1, 72), (n, 1, 12)의 형태로 변환할 수 있다.
상기한 과정들을 통해 데이터의 기본적인 패턴 분석 작업을 통한 인사이트를 도출할 수 있다.
전처리부(210)는 최소-최대 스케일을 통해 데이터 정규화를 수행할 수 있다. 이산화탄소와 마찬가지로 미세먼지 데이터는 재실자 수 등 여러 요인에 의해 급등락 가능한 데이터이므로 해당 수치가 이상점으로 탐지될 수 있다. 이때, 전처리부(210)는 최소-최대 스케일러를 사용하여 매우 다른 스케일의 범위를 0과 1사이로 변환함으로써 학습 데이터를 정규화할 수 있다.
습도 데이터와 온도 데이터에 대한 전처리 과정은 다음과 같다.
전처리부(210)는 데이터 증강을 통해 샘플 데이터를 생성할 수 있다. 일례로, 전처리부(210)는 복수 개의 학습 데이터 셋을 서로 다른 조건으로 구성할 수 있으며, 예를 들어 데이터 셋을 전체 데이터 셋, 주중 근무시간대(예를 들어, 09:00~20:30) 데이터 셋, 근무시간대 제외 주중공휴일 데이터 셋, 총 3가지로 각각 데이터 셋을 나누고 각 데이터 셋을 이용하여 앙상블을 위한 3개의 모델을 생성할 수 있다.
전처리부(210)는 샘플 데이터의 변경 및 해석을 통해 학습 데이터를 구축할 수 있다. 학습 데이터는 전체 데이터 셋 84,968개, 주중 근무시간대 데이터 셋 23,029개, 근무시간대 제외 주중공휴일 데이터 셋 61,940개를 이용한다. 각 데이터 셋의 밸리데이션으로 20%를 사용할 수 있다.
전처리부(210)는 학습 데이터 x를 range(t-120, t)로, 학습 데이터 y를 range(t, t+12)로 샘플링한 후 1차 차분을 거쳐 range(t-119, t), range(t+1, t+12)의 (n, 1, 120), (n, 1, 12)의 형태로 변환할 수 있다.
상기한 과정들을 통해 데이터의 기본적인 패턴 분석 작업을 통한 인사이트를 도출할 수 있다.
전처리부(210)는 최소-최대 스케일을 통해 데이터 정규화를 수행할 수 있다. 전처리부(210)는 최소-최대 스케일러를 사용하여 매우 다른 스케일의 범위를 0과 1사이로 변환함으로써 학습 데이터를 정규화할 수 있다.
도 4는 본 발명의 일실시예에 있어서 이산화탄소 예측 모델을 학습하는 과정의 일례를 설명하기 위한 도면이다.
학습부(220)는 매뉴얼 검색(Manual Search)을 통해 하이퍼 파라미터들을 최적화할 수 있다. 학습부(220)는 이산화탄소 예측을 위한 학습 모델로서 도 4와 도 5에 도시한 바와 같이 순차 모델(Sequential Model) 구조를 가진 DNN 기반 학습 모델을 구축할 수 있다.
Layer
LSTM Units = 9
Input shape = (150, 1)
Activation function = relu
Return sequences = False
Compile Optimizer = Adam(norm=1)Loss function = MSE
Fit Epochs = 200batch_size = 32
validation_split = 0.2
Callbacks = [early_stop(patience=5), checkpoint]
예를 들어, LSTM(Long Short-Term Memory) 레이어 구조는 도 6과 같다.유닛(Units)(601)은 다음 타임 스텝으로 갈 때 생기는 노드의 개수로, 예를 들어 9로 결정될 수 있다.
입력 형태(Input shape)는 RNN이라는 순환 신경망에 기반하여 만들어진 LSTM을 이전의 데이터가 다음에 나올 데이터에 연관이 있다는 것을 의미한다. 따라서 해당 변수는 몇 개까지 떨어진 입력 데이터가 영향을 미치는지에 대한 것을 지정하는 부분이다. 현재 이전 150개의 데이터를 사용하므로 150으로 설정할 수 있다.
활성화 함수(Activation Function)는 인공신경망 구조에서 순전파라는 과정을 통해 최종 결론에 도달하기까지 계수를 곱하여 값을 조정한다. 이때 계수는 가중치라고 표현되며 이를 산출하기 위한 활성화 함수를 지정한다. 일반적으로 LSTM에서는 탄젠트(tanh)를 사용하지만 유닛 수가 많지 않기 때문에 relu를 사용한다.
반환 시퀀스(Return Sequence)는 각 유닛을 거칠 때마다 그 값에 대한 결과를 도출할 때 사용된다. 본 실시예에서는 가장 마지막에만 결과를 도출하기 위해 반환 시퀀스를 False로 지정한다. 반환 시퀀스가 False인 이유는 학습 모델을 다대일(many to one0 구조로 구현하기 위함이다.
드롭아웃(Dropout)은 의도적으로 신공 신경망의 노드 연결을 끊어주는 역할을 한다. 0.2는 전체의 20% 노드의 연결을 끊어주는 것을 의미하고 이러한 과정을 통해 현재 학습시킨 데이터에 해당 모델이 치중되어 새로운 데이터에 대해선 유연함이 떨어지는 과적합(overfitting) 문제를 방지한다.
덴스 레이어(Dense layer)는 마지막 출력 레이어에서 출력의 개수를 설정하는 역할을 한다. 이산화탄소 예측 모델은 150개의 입력을 통해 12개의 출력을 산출하는 모델이다. 반환 시퀀스가 False임에 따라 다대다(many-to-many) 구조를 사용하지 않고 다대일 구조의 모델을 사용하며 마지막에만 12개의 결과를 받도록 설정된다.
최적화기(Optimizer)는 L1 norm을 사용하여 Adam이라는 모델을 사용한다. 이는 순전파 이후 역전파를 통해 인공신경망에서 다시 한 번 가중치를 갱신하는 과정에서 사용되는 방식을 지정한다.
손실 함수(Loss Function)는 입력에서 신경망을 지나 출력으로 도달한 후 예측된 값과 실제 값에 대한 차이를 표현하는 방식이다. 즉, 오류에 대해 어떤 방식으로 계산할 것인가에 대한 방식인데 MAE(Mean Absolute Error)보다는 MSE(mean square error)를 이용해 오차 값을 확대하여 가중치를 재조정하는 방식을 사용한다.
얼마만큼의 에포크(epoch)를 사용하여야 하는지 알 수 없으므로 적합 레이어(Fit layer)를 통해 검증 손실(validation loss)이 특정 값 이하로 더 이상 감소하지 않으면 과적합을 방지하기 위해 학습을 중단하고 결론을 도출한다. 일례로, 5번의 페이션스(patience)를 적용할 수 있다.
다시 말해, 학습부(220)는 이산화탄소 예측 모델을 학습하기 위해 하이퍼 파라미터를 조정할 수 있으며, 배깅(bagging) 전에 결과를 먼저 전처리하는 과정, 노이즈가 포함된 이전 데이터(previous data)를 정제하는 과정을 포함할 수 있다. 또한, 예측 모델을 구축하는 과정에서 이전 데이터의 영향을 줄이기 위해 전처리를 통해 유의미한 패턴의 길이를 더 명확하게 설정하여 신경망 성능을 개선할 수 있고 단방향의 다대일 LSTM 구조를 적용할 수 있다.
도 7은 본 발명의 일실시예에 있어서 미세먼지와 습도 및 온도 데이터를 예측하는 모델을 학습하는 과정의 일례를 설명하기 위한 도면이다.
학습부(220)는 매뉴얼 검색을 통해 하이퍼 파라미터들을 최적화할 수 있다. 학습부(220)는 이산화탄소 이외에 나머지 공기질 데이터(미세먼지와 습도 및 온도) 예측을 위한 학습 모델로서 도 7과 도 8에 도시한 바와 같이 순차 모델 구조를 가진 DNN 기반 학습 모델을 구축할 수 있다.
미세먼지 데이터의 경우 모델에 데이터 삽입 전 원본 값 500이상인 행을 제거할 수 있다(Output dimension=12, Input dimension=72). 한편, 습도와 온도 데이터의 경우 모델에 데이터 삽입 전 원본 값 100이상인 행을 제거할 수 있다(Output dimension=12, Input dimension=120).
LSTM 레이어 구조는 도 6과 유사하나, 미세먼지 데이터의 입력 형태는 72개로 설정하고 습도 및 온도 데이터의 입력 형태는 120개로 설정한다.
도 9는 본 발명의 일실시예에 있어서 이산화탄소 수치를 예측하는 후처리 과정의 일례를 설명하기 위한 도면이다.
도 9를 참조하면, 후처리부(230)는 학습 모델을 통해 타겟 시간대의 이전 데이터를 이용하여 해당 시점의 이산화탄소 수치를 예측할 수 있다.
후처리부(230)는 타겟 데이터에 대해 앙상블(Ensemble)의 배깅(Bagging) 방식을 통해 각 모델 별 예측 값을 투표 또는 평균하여 최종 예측 값을 획득할 수 있다. n번째 이후 타겟 개수의 데이터를 예측한다고 가정한다(예를 들어, target point = 12).
후처리부(230)는 5가지의 모델을 각각 이용하여 예측한 결과를 반환할 수 있으며, 이때 반환된 결과 값은 이산화탄소 수치가 아닌 t시점의 기준 값과의 차이 값이므로 t 시점의 값과 각각 더해주어 t+1 시점 이후의 값을 적용한다.
후처리부(230)는 상기 과정에서 나온 12개의 데이터 중 1~6번째 데이터와 현재 시점으로부터 과거인range(t-5, t)번째의 데이터간 RMSE(root mean square error) 값과 MAE값을 산출한다. RMSE값을 우선으로 오름차순 정렬하고 RMSE값이 동일할 때 MAE값으로 2차 오름차순 정렬을 수행한다. 5개의 모델 중 상위 a개의 후보 모델(예를 들어, 상위 1개)의 평균값을 선출하여 1차 적용할 수 있다.
다시 말해, 후처리부(230)는 서로 다른 조건의 데이터 셋으로 학습된 5개의 예측 모델에서 산출된 결과(e.g. 1시간 데이터-12개라 가정)를 현재 시점(t)보다 과거(t-30분- 6개라 가정)부터 도출되도록 설계하여 예측된 결과가 실제 데이터의 추세와 값을 비교할 수 있는 지점(window)을 만들어 해당 겹치는 부분을 RMSE와 MAE를 기준으로 선정된 하나 이상의 예측 모델을 통한 예측 값을 보정하고 재귀적으로 해당 과정을 수행하여 한정되지 않은 미래(약 3시간, 24시간 등) 값까지 도달할 수 있다.
후처리부(230)는 자기보수 알고리즘인 ABC(Automatic Background Calibration) 알고리즘에 기반한 가중평균을 통해 시간에 영향을 많이 받는 이산화탄소의 특성을 고려할 수 있다. 예를 들어, 타겟이 되는 예측일이 토, 일, 월이라면 전주 해당 요일의 데이터, 공휴일이라면 이전 공휴일의 데이터, 화~금요일이라면 전날의 동시간대의 데이터를 참조할 수 있다.
[수학식 2]
Figure 112022051460004-pat00004
[수학식 3]
Figure 112022051460004-pat00005
여기서,
Figure 112022051460004-pat00006
일 때, 최소값 미만 예측값에 대한 보정은
Figure 112022051460004-pat00007
)), 최대값 초과 예측값에 대한 보정은 (
Figure 112022051460004-pat00008
))으로 가중평균 보정을 수행하고 각각 해당 범위에 벗어나는 값의 개수가 증가하면
Figure 112022051460004-pat00009
Figure 112022051460004-pat00010
를 1씩 증가하여 더 미래의 예측점에는 이전 데이터의 영향을 많이 받도록 한다.
다시 말해, 후처리부(230)는 타겟 시간대의 예측 값을 이전 데이터를 이용한 가중 평균을 통해 보정할 수 있다.
후처리부(230)는 ARIMA(자기회귀 누적 이동평균 모델) 기반 가중평균(예를 들어, ARIMA parameter: p=1, d=1, q=8)을 통해 타겟 시간대의 예측 값을 보정할 수 있다. 추세에 대한 보정이 추가적으로 필요하므로 ARIMA 모델을 사용하여 예측 값에 가중평균을 사용하여 해당 수치를 보정할 수 있다(예를 들어, ARIMA ratio=3).
이산화탄소는 정상성 데이터가 아니므로 ADF(Augmented Dickey-Fuller) 테스트를 이용하여 1차 차분을 통해 정상성 데이터로 변경할 수 있다. 원본을 1차 차분한 ADF 결과는 도 10과 같다. p-값이 0.05 이하이므로 비정상성 데이터라는 귀무가설이 기각되고 정상성이라는 대체가설을 채택할 수 있다. 여기서, 1차 차분 또한 기존의 1차 차분이 아닌 전처리 과정에서 설명한 차분 알고리즘을 사용한다.
후처리부(230)는 타겟 데이터에 대해 앙상블의 부스팅(boosting) 원리를 통해 이전 학습에 대해 잘못 예측된 데이터 가중치를 부여하여 데이터를 보정할 수 있다. 부스팅 과정을 통해 1차적으로 range(t+1, t+6)에 값을 적용하고 다음 예측은 range(t-143, t+6)을 입력으로 사용하여 다음 range(t+7, t+12)까지의 값을 산출하는 재귀적 방식으로 후처리 과정을 반복 수행하여 타겟 포인트(e.g. 1시간, 2시간 등) 도달까지 반복한다.
후처리부(230)는 이산화탄소 예측 과정과 유사한 방식을 통해 타겟 시간대의 이전 데이터를 이용하여 해당 시점의 나머지 공기질(미세먼지와 습도 및 온도) 수치를 예측할 수 있다. 후처리부(230)는 나머지 공기질(미세먼지와 습도 및 온도) 예측의 경우 3가지의 모델을 각각 이용하여 예측한 결과를 반환할 수 있다.
도 11은 본 발명의 일실시예에 있어서 미세먼지/습도 수치를 예측하는 후처리 과정의 일례를 설명하기 위한 도면이다.
도 11을 참조하면, 후처리부(230)는 타겟 데이터에 대해 앙상블의 배깅 방식을 통해 n번째 이후 타겟 개수의 데이터를 예측한다고 가정한다(예를 들어, target point=12)
후처리부(230)는 3가지의 모델을 각각 이용하여 예측한 결과를 반환할 수 있으며, 상기 과정에서 나온 12개의 데이터 중 1~6번째 데이터와 현재 시점으로부터 과거인range(t-5, t)번째의 데이터 간 RMSE 값과 MAE값을 산출한다. RMSE값을 우선으로 오름차순 정렬하고 RMSE값이 동일할 때 MAE값으로 2차 오름차순 정렬을 수행한다. 3개의 모델 중 상위 a개의 후보 모델(예를 들어, 상위 1개)의 평균값을 선출하여 1차 적용할 수 있다.
후처리부(230)는 ARIMA 기반 가중평균(예를 들어, ARIMA parameter: p=1, d=1, q=8)을 통해 타겟 시간대의 예측 값을 보정할 수 있다. 추세에 대한 보정이 추가적으로 필요하므로 ARIMA 모델을 사용하여 예측 값에 가중평균을 사용하여 해당 수치를 보정할 수 있다(예를 들어, 미세먼지 데이터의 경우 ARIMA ratio=3, 습도 데이터의 경우 ARIMA ratio=5).
후처리부(230)는 미세먼지/습도 데이터에 대해 ADF 테스트를 이용하여 정상성 데이터 검사를 수행할 수 있다. 이산화탄소와 미세먼지 예측 ARIMA 모델 보정 시 입력 데이터 개수는 DNN 모델과 동일한 한편, 습도 예측 모델은 DNN 입력 데이터 길이의 2배를 대입하여 산출할 수 있다.
후처리부(230)는 미세먼지/습도 데이터에 대한 딥러닝 예측 결과 및 ARIMA 가중평균 데이터의 이상점을 제거할 수 있다. 해당 과정을 통해 나온 결과물에 0(MIN Value)보다 작은 값이 있다면 해당 값을 제외하고 예측 결과물의 평균으로 대치할 수 있다. 미세먼지 데이터의 경우, 150(MAX Value)보다 큰 값이 있다면 해당 값을 제외한 예측 결과물의 평균값과 1:5 비율로 가중평균을 수행하고 만약 값이 250(일반적인 실내 상황에서 발견하기 힘든 수치-변경가능) 이상이라면 1:99 비율로 가중평균을 수행한다. 습도 데이터의 경우 100(MAX Value)보다 큰 값이 있다면 해당 값을 제외한 예측 결과물의 평균값과 1:99 비율로 가중평균을 수행한다.
후처리부(230)는 미세먼지 데이터에 대해 앙상블의 부스팅 과정을 통해 1차적으로 range(t+1, t+6)에 값을 적용하고 다음 예측은 range(t-65, t+6)을 입력으로 사용하여 후처리 과정을 반복 수행하여 타겟 포인트 도달까지 반복한다. 한편, 습도 데이터의 경우 앙상블의 부스팅 과정을 통해1차적으로 range(t+1, t+6)에 값을 적용하고 다음 예측은 range(t-113, t+6)을 입력으로 사용하여 후처리 과정을 반복 수행하여 타겟 포인트 도달까지 반복한다.
도 12는 본 발명의 일실시예에 있어서 온도 수치를 예측하는 후처리 과정의 일례를 설명하기 위한 도면이다.
도 12를 참조하면, 후처리부(230)는 타겟 데이터에 대해 앙상블의 배깅 방식을 통해 n번째 이후 타겟 개수의 데이터를 예측한다고 가정한다(예를 들어, target point=12)
후처리부(230)는 3가지의 모델을 각각 이용하여 예측한 결과를 반환할 수 있으며, 상기 과정에서 나온 12개의 데이터 중 1~6번째 데이터와 현재 시점으로부터 과거인range(t-5, t)번째의 데이터간 RMSE 값과 MAE값을 산출한다. RMSE값을 우선으로 오름차순 정렬하고 RMSE값이 동일할 때 MAE값으로 2차 오름차순 정렬을 수행한다. 3개의 모델 중 상위 a개의 후보 모델(예를 들어, 상위 1개)의 평균값을 선출하여 1차 적용할 수 있다.
후처리부(230)는 ARIMA 기반 가중평균(예를 들어, ARIMA parameter: p=2, d=1, q=5)을 통해 타겟 시간대의 예측 값을 보정할 수 있다. 추세에 대한 보정이 추가적으로 필요하므로 ARIMA 모델을 사용하여 예측 값에 가중평균을 사용하여 해당 수치를 보정할 수 있다(예를 들어, ARIMA ratio=5).
후처리부(230)는 온도 데이터에 대해 ADF 테스트를 이용하여 정상성 데이터 검사를 수행할 수 있다. 이산화탄소와 미세먼지 예측 ARIMA 모델 보정 시 입력 데이터 개수는 DNN 모델과 동일하나, 온도 예측 모델은 DNN 입력 데이터 길이의 2배를 대입하여 산출할 수 있다.
후처리부(230)는 온도 데이터에 대한 딥러닝 예측 결과 및 ARIMA 가중평균 데이터의 이상점을 제거할 수 있다. 해당 과정을 통해 나온 결과물에 0(MIN Value)보다 작은 값이 있다면 해당 값을 제외하고 예측 결과물의 평균으로 대치할 수 있다. 만약, 40(MAX Value)보다 큰 값이 있다면 해당 값을 제외한 예측 결과물의 평균값과 1:99 비율로 가중평균을 수행한다.
후처리부(230)는 온도 데이터에 대해 앙상블의 부스팅 과정을 통해 1차적으로 range(t+1, t+6)에 값을 적용하고 다음 예측은 range(t-113, t+6)을 입력으로 사용하여 후처리 과정을 반복 수행하여 타겟 포인트 도달까지 반복한다.
특히, 온도 데이터에 대한 후처리부(230)는 다중 선형 회귀(Multi Linear Regression, MLR) 모델을 포함할 수 있다. 기존에 서버에 저장되고 있는 미세먼지와 습도 예측 모델의 데이터를 기반으로 다중 선형 회귀 방정식에 대입하여 값을 산출할 수 있다. 이전 미세먼지 데이터(독립 변수), 습도 데이터(독립 변수), 온도 데이터(종속 변수) 7만개를 기반으로 계수(coefficient)와 절편(intercept)을 추출할 수 있다. 외부 데이터 의존도를 낮추기 위해 상관계수 기반 디바이스 데이터만 활용할 수 있고, 다만 차후 다른 센서나 독립변수가 추가되어도 바로 적용할 수 있다는 장점이 있다.
도 13에 도시한 바와 같이, 상관계수는 -1~1사이의 수치로 표현되며 0에 가까울수록 연관성이 떨어지고 1또는 -1에 가까울수록 비례 또는 반비례하는 추세를 띈다는 의미로 해석될 수 있다.
방정식(독립 변수=[현재 적용된 가중평균을 통해 Ensemble(boosting)])의 반복적 수행을 통해 최종적으로 산출된 마지막 12개의 값(이하, 'result'로 표기)과 MLR 결과를 계산할 수 있다.
[수학식 4]
result:MLR=3:2
독립 변수=[미세먼지, 습도], 종속 변수=[온도]라 할 때, 예를 들어 온도는 [temperature=0.01012219pm+0.23527068humidity+20.76193274]와 같다.
후처리부(230)는 로깅(logging) 기능을 추가할 수 있다. 일례로, 최소 값 이하의 값이 후처리 과정 중 도출되면 로그 파일을 남길 수 있으며, 이때 로그 레벨은 에러로 설정된다.
후처리부(230)는 이상 수치 판단 근거를 기준으로 ARIMA 이상 값(최소 값)을 보정한다. ARIMA 모델 사용 시 딥러닝 특성 상 이동평균에 좀더 치중하여 보정하는 방식을 선택할 수 있다. 예를 들어, 최소값보다 ARIMA 값이 작게 나올 경우 1차 후보정(앙상블 학습법) 값을 대입하고 가중평균 비율에 패널티를 주어 해결할 수 있다. 1차 후보정에서 이전 데이터가 없거나(None) 결측값(missing value)일 경우 앙상블 값의 평균으로 대체될 수 있다.
후처리부(230)는 특정 구간 n에서 n-1과 n+1에 비해 신뢰할 수 없을 만큼 큰 차이를 반환하는 경우 ARIMA 이상 값(최대 값)을 보정한다. ARIMA에 대입할 입력 값 중 최근 2개의 값의 합에 max_ratio(default=1.2)를 곱한 값보다 큰 ARIMA 결과 값이 예상치 못하게 나올 때 이를 이상점이라 규정한다. 최대값 이상을 초과하는 ARIMA 값이 나오는 경우 또한 이상점이라 규정한다. 이때, ARIMA 방법론 내에서 해당 부분은 0으로 값을 대치하여 이후 예측 방법론에서 1차 후보정(앙상블 학습법) 값을 해당 인덱스에 교체하고 가중평균 비율에 패널티를 주어 해결할 수 있다.
본 실시예에서는 이전 데이터를 이용한 예측 데이터를 다양한 방식으로 활용할 수 있다. 일례로, 수치 예측을 수치 범위 분류 문제로 변경한다. 공기질 예측 모델 및 누수, 유량 등을 예측하는 모델들은 수치의 범위화(예를 들어, 400~500구간, 500~600구간…)하여 분류 문제로 변환할 수 있고, 증감 여부로 이진 분류 문제로 관점을 변경할 수 있다. RMSE, MAE로 수치의 유사도를 측정하는 방식보다 사용자들에게 보다 친밀한 수치로 표현할 수 있다(예를 들어, 정확도 90%). 또한, 행동강령에 대해 직관적인 가이드를 제공할 수 있으며, 예를 들어, "앞으로 수치가 증가할 것"임을 알려 줄 수 있다. 다른 예로, 프로세서(120)는 디지털 트윈 기술에서 공기질 예측 결과를 활용할 수 있다. 무기물을 눈에 보이지 않기 때문에 장비가 설치된 공간에 2차원 디지털 트윈을 통해 예측 공기질 수치를 가상 히트맵으로 제공할 수 있다. 수치를 비주얼하게 확인할 수 있어 수치만 확인할 때 보다 행동강령에 대해 더 수긍할 가능성이 있다. 또 다른 예로, 프로세서(120)는 이전 데이터를 이용한 공기질 예측 정보를 클라이언트 상에 설치된 전용 어플리케이션 또는 컴퓨터 장치(100)와 관련된 웹/모바일 사이트를 통해 제공할 수 있다. 또 다른 예로, 공기질 예측 데이터를 공기질 향상에 적용할 수 있는 홈 오토메이션의 자동화 제어시스템에 사용될 수 있다. 예를 들어, 공조 시스템과의 연동을 통해 공기질 예측 데이터를 이용하여 공조 설비를 자동 제어할 수 있으며, 어드민(admin)이나 각종 인터페이스를 통해 공기질 예측 데이터와 관련된 알림을 제공할 수 있다.
본 실시예들은 실내 공간의 이산화탄소, 미세먼지, 습도, 및 온도를 포함한 통합 공기질 수치를 예측하는 것으로, 이산화탄소 예측 모델, 미세먼지 예측 모델, 습도 예측 모델, 및 온도 예측 모델을 포함할 수 있다.
데이터 정제 과정에서 데이터 별로 각 데이터의 특성에 따라 이상점을 제거하여 정제할 수 있다. 예를 들어, 미세먼지 예측 모델의 경우 실외 미세먼지 데이터를 기반으로 이상점을 제거할 수 있다.
공기질 예측을 위해 이산화탄소 예측 모델은 이전 150개의 데이터를 사용하는 한편, 미세먼지 예측 모델은 이전 72개의 데이터를 사용하고 습도와 온도 예측 모델은 이전 120개의 데이터를 사용한다.
5가지의 데이터 셋을 이용하여 5개의 모델을 생성하는 이산화탄소 예측 모델과 달리, 미세먼지와 습도 및 온도 예측 모델은 3가지의 데이터 셋을 이용하여 3개의 모델을 생성한다.
실시예에 따라 미세먼지와 습도 및 온도 예측 모델은 전처리 시 데이터 차분 과정과 후처리 시 이전 데이터를 이용한 보정 과정을 생략할 수 있다.
미세먼지와 습도 및 온도 예측 모델은 딥러닝 모델의 히든 레이어 구성이 이산화탄소 예측 모델과 일부 다를 수 있고, 이산화탄소와 미세먼지 예측 모델의 ARIMA 입력 데이터 개수는 DNN의 입력 데이터와 동일하나 습도 및 온도 예측 모델은 DNN 입력 데이터의 2배가 입력될 수 있다.
이산화탄소와 미세먼지의 경우 디바이스에 의해 이상점이 자주 탐지되는 반면, 습도와 온도는 일정하므로 실시예에 따라서는 데이터 마이닝 과정에서 이상점을 제거하지 않고 로우 데이터를 바로 사용할 수 있다.
온도 예측 모델은 이산화탄소, 미세먼지, 습도 예측 모델과 달리 MLR 모델을 통해 산출된 방정식에 이미 완성된 신뢰도가 90%에 가까운 예측 모델의 데이터를 입력 데이터로 넣어 결과를 도출한 후 가중평균을 통한 추가 보정을 수행할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 실내 공간의 주기적인 특정 패턴을 고려하여 해당 공간의 이산화탄소, 미세먼지, 습도, 및 온도를 포함한 통합 공기질 수치를 예측함으로써 예측 오류를 최소화하여 예측 성능을 향상시킬 수 있다. 더 나아가, 본 발명의 실시예들에 따르면, 통합 공기질 예측을 통해 실내 공간의 행동강령에 대해 직관적인 가이드를 제공할 수 있고, 공기질 향상에 적용할 수 있는 홈 오토메이션의 자동화 제어 시스템과 연동할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (7)

  1. 컴퓨터 장치로 구현되는 통합 공기질 예측 시스템에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 프로세서
    를 포함하고,
    상기 프로세서는,
    이산화탄소 데이터, 미세먼지 데이터, 습도 데이터, 및 온도 데이터를 포함하는 공기질 데이터 셋을 구성하는 전처리부; 및
    상기 공기질 데이터 셋을 기초로 학습된 딥러닝 기반 예측 모델을 통해 이전 데이터를 기초로 타겟 시점의 이산화탄소, 미세먼지, 습도, 및 온도를 포함하는 공기질 수치를 예측하는 후처리부
    를 포함하고,
    상기 전처리부는,
    최소-최대 스케일러(Min Max scaler)를 이용하여 상기 이산화탄소 데이터, 상기 미세먼지 데이터, 상기 습도 데이터, 및 상기 온도 데이터를 정해진 스케일로 변환함으로써 정규화하고,
    상기 딥러닝 기반 예측 모델은 이산화탄소, 미세먼지, 습도, 및 온도 각각에 대하여 서로 다른 조건의 데이터 셋을 이용하여 학습된 복수 개의 예측 모델을 포함하고,
    상기 후처리부는,
    상기 딥러닝 기반 예측 모델을 통해 상기 타겟 시점의 공기질 수치를 예측하는 것으로,
    상기 복수 개의 예측 모델 중에서 앙상블(Ensemble) 학습 과정을 통해 산출된 RMSE(root mean square error)와 MAE(mean absolute error) 중 적어도 하나를 기준으로 선정된 적어도 하나의 모델을 통해 상기 타겟 시점의 이산화탄소, 미세먼지, 습도, 및 온도를 예측하고,
    상기 후처리부는,
    상기 타겟 시점과 대응되는 이전 시점의 공기질 데이터를 이용하여 ARIMA(autoregressive integrated moving average) 알고리즘에 기반한 가중평균을 통해 상기 타겟 시점의 예측 값을 보정하고,
    상기 타겟 시점의 예측 값 중 이산화탄소의 경우, 자기보수 알고리즘인 ABC(Automatic Background Calibration) 알고리즘을 통해 가중평균을 사용하여 최소값 미만 예측 값과 최대값 초과 예측 값을 보정하고,
    상기 타겟 시점의 예측 값 중 온도의 경우, 다중 선형 회귀(Multi Linear Regression) 알고리즘을 통해 가중평균을 사용하여 온도 예측 값을 보정하고,
    상기 딥러닝 기반 예측 모델을 통한 예측 결과와 상기 ARIMA 알고리즘을 통한 가중평균 데이터의 이상점을 제거하는 과정이 포함되는 것
    을 특징으로 하는 통합 공기질 예측 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
KR1020220059472A 2022-05-16 2022-05-16 통합 공기질 예측 시스템 KR102493719B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220059472A KR102493719B1 (ko) 2022-05-16 2022-05-16 통합 공기질 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220059472A KR102493719B1 (ko) 2022-05-16 2022-05-16 통합 공기질 예측 시스템

Publications (1)

Publication Number Publication Date
KR102493719B1 true KR102493719B1 (ko) 2023-02-06

Family

ID=85223814

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220059472A KR102493719B1 (ko) 2022-05-16 2022-05-16 통합 공기질 예측 시스템

Country Status (1)

Country Link
KR (1) KR102493719B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117190370A (zh) * 2023-09-07 2023-12-08 昆山先捷精密电子有限公司 一种压延铜箔处理装置、方法及存储介质
KR102641807B1 (ko) * 2023-08-22 2024-02-27 에스케이에코플랜트(주) 센서보정장치 및 센서보정장치의 동작 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101591735B1 (ko) * 2015-05-29 2016-02-11 주식회사 나인에코 실내공기질의 예측을 통한 오염 정보 제공 방법
KR102029994B1 (ko) 2018-12-28 2019-10-08 이종한 실내 공기질 경보 및 모니터링 시스템
KR20200003664A (ko) * 2018-07-02 2020-01-10 주식회사 케이티 공기질 데이터의 보정 로직을 생성하는 장치 및 방법
KR102134545B1 (ko) * 2019-12-30 2020-07-15 주식회사 에어콕 미세먼지 및 초미세먼지 측정 정확도 향상을 위한 센서 자동보정 방법
KR20210108826A (ko) * 2020-02-26 2021-09-03 조선대학교산학협력단 미세먼지 농도 예측 방법, 컴퓨터 프로그램 및 시스템과 공기 정화 장치
KR20220036737A (ko) * 2020-09-16 2022-03-23 주식회사 참좋은넷 실내 공기질 모니터링 시스템 및 이를 통한 공기질 수준 예측방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101591735B1 (ko) * 2015-05-29 2016-02-11 주식회사 나인에코 실내공기질의 예측을 통한 오염 정보 제공 방법
KR20200003664A (ko) * 2018-07-02 2020-01-10 주식회사 케이티 공기질 데이터의 보정 로직을 생성하는 장치 및 방법
KR102029994B1 (ko) 2018-12-28 2019-10-08 이종한 실내 공기질 경보 및 모니터링 시스템
KR102134545B1 (ko) * 2019-12-30 2020-07-15 주식회사 에어콕 미세먼지 및 초미세먼지 측정 정확도 향상을 위한 센서 자동보정 방법
KR20210108826A (ko) * 2020-02-26 2021-09-03 조선대학교산학협력단 미세먼지 농도 예측 방법, 컴퓨터 프로그램 및 시스템과 공기 정화 장치
KR20220036737A (ko) * 2020-09-16 2022-03-23 주식회사 참좋은넷 실내 공기질 모니터링 시스템 및 이를 통한 공기질 수준 예측방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102641807B1 (ko) * 2023-08-22 2024-02-27 에스케이에코플랜트(주) 센서보정장치 및 센서보정장치의 동작 방법
CN117190370A (zh) * 2023-09-07 2023-12-08 昆山先捷精密电子有限公司 一种压延铜箔处理装置、方法及存储介质
CN117190370B (zh) * 2023-09-07 2024-04-12 昆山先捷精密电子有限公司 一种压延铜箔处理装置、方法及存储介质

Similar Documents

Publication Publication Date Title
KR102493719B1 (ko) 통합 공기질 예측 시스템
Yang et al. Modeling personalized occupancy profiles for representing long term patterns by using ambient context
Guthke Defensible Model Complexity: A Call for Data-Based and Goal-Oriented Model Choice.
Clements et al. Factors influencing the detectability of early warning signals of population collapse
KR102225370B1 (ko) 학습을 통한 파라미터 개선 기반의 예측 시스템 및 방법
Dutta et al. OccupancySense: Context-based indoor occupancy detection & prediction using CatBoost model
CN107644194A (zh) 提供监控数据的系统和方法
JP6679086B2 (ja) 学習装置、予測装置、学習方法、予測方法、およびプログラム
JP6985833B2 (ja) データ処理装置、制御システム、データ処理方法及びプログラム
Koukaras et al. Introducing a novel approach in one-step ahead energy load forecasting
Parzinger et al. Comparison of different training data sets from simulation and experimental measurement with artificial users for occupancy detection—Using machine learning methods Random Forest and LASSO
CN116679577A (zh) 智能家庭感知和控制终端
CN117572534A (zh) 一种基于多源数据和人工智能的能见度短临预报方法
CN115856204A (zh) 基于三维回声状态网络的掘进工作面瓦斯浓度预测方法
KR102410275B1 (ko) 이산화탄소 예측 시스템
Chitu et al. Assessment of occupancy estimators for smart buildings
CN116701875A (zh) 一种特高压交流输电线路可听噪声概率预测方法及系统
JP2010049392A (ja) Pidコントローラのチューニング装置、pidコントローラのチューニング用プログラムおよびpidコントローラのチューニング方法
Aman et al. Influence-driven model for time series prediction from partial observations
Kazemi et al. Estimating the drift time for processes subject to linear trend disturbance using fuzzy statistical clustering
Tsyganov et al. Metaheuristic algorithms for identification of the convection velocity in the convection-diffusion transport model
JP6871352B1 (ja) 学習装置、学習方法および学習プログラム
WO2022059183A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Einbeck et al. Online monitoring with local smoothing methods and adaptive ridging
CN118426318B (zh) 基于过程挖掘的物联网服务自适应系统

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant