KR102598352B1

KR102598352B1 - Pmv 예측 모델 생성 시스템 및 방법

Info

Publication number: KR102598352B1
Application number: KR1020230081664A
Authority: KR
Inventors: 김길태; 곽병창; 김성용; 지원길; 박경용
Original assignee: 한국토지주택공사
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-11-03

Abstract

실시예에 따른 PMV(Predicted Mean Vote) 예측 모델 생성 장치는 PMV 예측 모델 구현을 위한, 트레이닝 데이터 셋을 구축하는 데이터셋 구축부; PMV 예측 모델에서 각 매개변수의 중요도를 산출하여, PMV 예측을 위한 최적 변수(Best Subset)를 선택하는 변수 선택부; 선택된 최적 변수를 입력하여 PMV 예측 모델을 생성하고, 생성한 PMV 예측 모델을 통해, PMV를 획득하는 모델 생성부; 생성된 PMV 예측 모델 별 정확성을 산출하고 비교하는 검증부; 를 포함한다.

Description

PMV 예측 모델 생성 시스템 및 방법{PMV ESTIMATION MODEL GENERATION SYSTEM AND METHOD}

본 개시는 PMV 예측 모델 생성 시스템 및 방법에 관한 것으로 구체적으로, 딥러닝 뉴럴 네트워크를 트레이닝 데이터 셋으로 학습시켜, PMV예측 모델을 구현하고 PMV를 획득하는 PMV 예측 모델 생성 시스템 및 방법에 관한 것이다.

본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.

PMV(Predicted Mean Vote)란, 실내 환경 설계에서 인간의 주관적인 불쾌감을 예측하는 데 사용되는 지표이다. PMV는 사람의 체감 온도를 고려하여, 실내 온도, 상대 습도, 대기 속도, 온도 분포, 옷차림 등의 요인을 종합적으로 고려하여 계산된다.

PMV는 ASHRAE(미국 난방, 냉방 및 공조 엔지니어 협회) 및 ISO(국제 표준화 기구)에서 공식적으로 인정되어 있으며, 건물 설계 및 HVAC(난방, 환기, 공조) 시스템 설계에서 중요한 역할을 한다. 도 1에 도시된 바와 같이, PMV 값은 -3에서 3까지의 범위를 갖으며, 0에 가까울수록 적절한 환경으로 간주된다. PMV를 통해 인간의 체감 온도를 고려한 실내 환경 설계가 가능하며, 이를 통해 에너지 효율성을 향상시키고 건물 내부의 편안한 환경을 유지할 수 있다.

한편, 건물은 HVAC(Heating, Ventilation, and Air conditioning)을 통해 실내 재실자에게 적절한 온도, 습도 등을 제공하며, 이때 건물 에너지가 소요되기 때문에 에너지 절감을 위해 재실자의 적절한 온열감각에 대한 판단이 필요하다. 미국냉난방공조학회(ASHRAE, American Society Heating Refrigerating, and Air-conditioning Engineering)에서는 도 1의 표(table)에 도시된 바와 같이 7점 척도로 온열감각을 판단한다. 공간의 온열감각을 예측하기 위해 P.O. Fanger의 PMV(Predicted Mean Vote)를 대표적인 지표로 사용하고 있으며 이는 실내온도, 상대습도, 기류속도, 평균복사온도(MRT), 착의량(Clo), 활동량(혹은 대사량, Met) 등 6가지 지표로 계산된다.

그러나 경우에 따라 실내 공간 내에서 6가지 매개변수를 모두 측정하는 것은 어렵고, PMV 추정에 필수적인 착의량(Clo) 또는 활동량(혹은 대사량, Met) 등의 매개변수는 정확도에서 큰 편차를 보이는 경향이 있다. 다수의 매개변수 측정 어려움과 매개변수 측정 오차에 의해, PMV를 추정하는 모델은 정확도가 크게 떨어지는 문제가 있다.

1. 한국 특허공개 제10-2014-0093861호 (2014.07.29) 2. 한국 특허등록 제10-1110217호 (2012.01.19)

실시예에 따른 PMV 예측 모델 생성 시스템 및 방법은 기계 학습을 이용하여 PMV 예측을 위한 매개변수의 크기를 줄인다. 실시예에서는 트레이닝 데이터 셋으로 최적 서브셋(Best Subset)을 추출한다. 실시예에서는 추출된 학습데이터를 통해 기계학습을 수행해여 PMV 예측 모델을 생성하고, 검증데이터를 통해 모델의 예측성능을 비교한다.

이상에서와 같은 PMV 예측 모델 생성 시스템 및 방법은 추출된 최적 서브셋으로 딥러닝 뉴럴 네트워크를 학습시켜 예측 정확도가 높은 PMV를 빠르게 산출할 수 있도록 한다.

또한, 검증데이터를 통해, PMV 예측 모델의 예측 성능을 비교하고 피드백하여 PMV 예측 모델의 정확성을 지속적으로 개선시킬 수 있도록 한다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 PMV 값을 나타낸 도면
도 2는 실시예에 따른 PMV 예측 모델 생성 시스템을 나타낸 도면
도 3은 실시예에 따른 서버(200)의 데이터 처리 구성을 나타낸 도면
도 4는 실시예에 따른 데이터셋 구축과정을 나타낸 도면
도 5는 실시예에 따른 최적 변수 선택을 위한 PMV예측을 위한 최적의 요소추출 방법과, 예측모델 검증을 위한 실험 조합을 나타낸 도면
도 6은 실시예에 따른 PCA 분석결과를 나타낸 도면
도 7은 실시예에 따른 최적 변수(best subset) 분석결과를 나타낸 도면
도 8은 실시예에서 랜덤 포레스트에 의한 지니 중요도 산출 결과를 나타낸 도면
도 9는 요소추출 방법에 따라 선택된 주요 변수를 나타낸 도면
도 10 및 도 11은 실시예에 따른 모델 별 예측 결과를 나타낸 도면
도 12는 실시예에 따른 PMV 예측 모델 생성 방법의 데이터 처리 흐름을 나타낸 도면

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 2는 실시예에 따른 PMV 예측 모델 생성 시스템을 나타낸 도면이다.

도 2를 참조하면, 실시예에 따른 PMV 예측 모델 생성 시스템은 서버(100) 및 단말(200)을 포함하여 구성될 수 있다.

서버(100)는 PMV 예측 모델을 생성한다. 실시예에서 서버(100)는 기계 학습을 이용하여 PMV 예측을 위한 매개변수의 크기를 줄이고, 실시예에서는 트레이닝 데이터 셋으로 최적 서브셋(Best Subset)을 추출한다. 실시예에서는 추출된 학습데이터를 통해 기계학습을 수행해여 PMV 예측 모델을 생성하고, 검증데이터를 통해 모델의 예측성능을 비교한다.

PMV 예측 모델은 학습된 인공지능 학습모델로서, 예로, 신경망 (Neural Network)을 기반으로 하는 모델일 수 있다. 인공지능 학습모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 또한, 문서 요약 모델은, 일 예로, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 문서 요약 모델의 예에는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 등이 있을 수 있으나 이에 한정되지 않는다.

실시예에서 서버(200)는 휴대성과 이동성이 보장되는 무선 통신 장치와 컴퓨터 장치를 포함할 수 있다. 실시예에서 무선 통신 장치는 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 태블릿 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 장치를 포함할 수 있다.

단말(200)은 PMV 예측 모델에 의해 산출된 PMV를 출력한다. 실시예에서 단말(200)은 건물 관리자 단말 및 사용자의 스마트 단말을 포함할 수 있다.

도 3은 실시예에 따른 서버(200)의 데이터 처리 구성을 나타낸 도면이다.

도 3을 참조하면, 서버(200)는 데이터셋 구축부(110), 변수 선택부(120), 모델 생성부(130) 및 검증부(140)를 포함하여 구성될 수 있다. 본 명세서에서 사용되는 '부' 라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.

데이터셋 구축부(110)는 PMV 예측 모델 구현을 위한, 트레이닝 데이터 셋을 구축한다. 데이터셋 구축부(110)는 필수데이터를 확보한 데이터를 선택하여, 트레이닝 데이터 셋을 구축한다. 실시예에서 필수데이터는 PMV 계산에 반드시 필요한 데이터로서, 실내온도, 상대습도, 기류속도, 평균복사온도(MRT), 착의량(Clo), 활동량, 지표를 포함한다. 이후 데이터셋 구축부(110)는 필수데이터를 모두 확보한 데이터를 선택하여 데이터셋을 구축하고, 구축된 데이터셋을 학습데이터와 검증데이터로 구분한다. 데이터셋 구축부(110)는 PMV 예측을 위한 입력 변수를 학습 데이터 및 테스트 데이터를 설정하기 위해 선택한다.

실시예에서 데이터셋 구축부(110)는 ASHRAE에서 제공하는 ASHRAE global thermal comfort database II를 이용하여 데이터 셋을 구축할 수 있다.

변수 선택부(120)는 PMV 모델에서 각 매개변수의 중요도를 산출하여, PMV 예측을 위한 최적 변수(Best Subset)를 선택한다. 실시예에서 변수 선택부(120)는 평균복사온도(MRT, Mean Radiant Temperature) 착의량, 활동량을 최적 변수(best subset)로 선택하고, 모델 종류에 따라 온도를 최적 변수에 추가한다.

변수 선택부(120)는 설정한 데이터를 바탕으로 각 변수의 중요도를 평가하여 적절한 입력변수를 선택한다. 실시예에서는 PMV에 적합한 변수선택방법을 찾기 위해 PCA(principal component analysis), 최적 서브셋(Best Subset), 지니 중요도(Gini Importance)를 계산하고 비교한다.

모델 생성부(130)는 선택된 최적 변수를 입력하여 PMV 예측모델을 생성한다. 또한, 모델 생성부(130)는 생성한 PMV 예측 모델을 통해, PMV를 획득한다. 실시예에서 모델 생성부(130)는 변수 선택부(120)에서 도출한 입력 변수를 이용하여 PMV 예측을 위한 최적의 기계 학습 모델을 찾는다. 실시예에서 모델 생성부(130)는 PMV 예측에 적합한 기계 학습 알고리즘을 찾기 위해 ANN, LSTM(Long Short-Term Memory), 랜덤 포레스트(Random Forest)를 이용하여 예측 모델을 생성하고, 결과를 서로 비교한다.

또한, 실시예에서 모델 생성부(130)는 DNN(Deep Neural Network), CNN(Convolutional Neural Network) RNN(Recurrent Neural Network) 및 BRDNN(Bidirectional Recurrent Deep Neural Network) 중 적어도 하나를 포함하는 딥러닝 뉴럴 네트워크를 트레이닝 데이터 셋에서 추출된 최적 변수로 학습시켜 PMV 예측 모델을 구현한다.

실시예에서 모델 생성부(130)는 각 기준에 따라 선정된 주요 변수를 입력변수로 하여 ANN, LSTM, 랜덤 포레스트(Random Forest)를 통해 예측모델을 생성한다. 이후, 검증부(140)는 생성된 PMV 예측 모델의 성능을 검증한다. 예컨대 검증부(140)는 생성된 PMV 예측 모델 별 정확성을 산출하고 비교하여 모델 성능을 검증한다. 구체적으로, 검증부(140)는 변수 선택 방법과 예측 모델의 종류에 따라 달라지는 모델 계산 시간과 예측 정확도를 기준으로 비교 분석하여 모델 성능을 검증할 수 있다.

실시예에서 검증부(140)는 모델의 성능을 정확도와 계산 시간 측면에서 분석한다. 실시예에서 검증부(140)는 모델의 정확도를 생성된 예측 모델에서 파생된 예측(y_predict) 및 테스트 값(y_test)에 대한 R², MAPE(Mean Absolute Percentage Error) 및 cvRMSE 값으로 평가할 수 있다. R²는 일반적으로 예측 정확도의 지표로 사용되는 반면, MAPE와 cvRMSE는 예측값과 측정값 간의 오차에 관련된 지표이다.

실시예에서 검증부(140)는 MAPE (Mean Absolute Percentage Error) 값을 산출하여 모델의 성능을 분석할 수 있다. MAPE는 평균 절대 백분율 오차를 나타내는 지표로서, MAPE는 예측값과 실제값 간의 백분율 차이를 평균화하여 나타낸 값이다. 실시예에서, 검증부(140)는 MAPE 값을 수학식 1을 통해 산출할 수 있다.

수학식 1

수학식 1에서, y_pred는 예측 데이터이고, y_real은 실제 데이터이고, N은 데이터의 수이다.

실시예에서 검증부(140)는 RMSE(Root Mean Squared Error)값을 산출한다. RMSE 평균 제곱근 오차를 나타내는 지표로서, RMSE는 예측값과 실제값 간의 오차를 제곱한 값의 평균의 제곱근으로 산출된다. 실시예에서 검증부(140)는 수학식 2를 통해, RMSE를 산출할 수 있다.

수학식 2

수학식 2에서 y_pred는 예측 데이터이고, y_real은 실제 데이터이고, N은 데이터의 수이다.

RMSE는 예측값과 실제값 간의 차이를 수치화한 지표로, 검증부(140)는 차이가 작을수록 모델의 예측 성능이 높은 것으로 판단한다. RMSE는 예측값과 실제 값의 차이를 제곱하여 계산하기 때문에 큰 오차에 더욱 민감하다.

또한, 실시예에서 검증부(140)는 수학식 3을 통해, cvRMSE(coefficient of variation Root Mean Squared Error) 값을 산출한다.

수학식 3

실시예에서 cvRMSE는 교차 검증을 통해 계산된 RMSE를 나타내는 지표이다. 교차 검증은 데이터셋을 여러 개로 나누어 한 부분은 훈련에, 나머지 부분은 검증에 사용하는 방법으로, cvRMSE는 이러한 교차 검증 기법을 사용하여 모델의 예측 성능을 평가하는 데 사용될 수 있다.

또한, 실시예에서 검증부(140)는 결정 계수(coefficient of determination)인 R²를 산출한다. 결정 계수는 예측 모델이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표인 지표이다. 실시계에서 검증부(140)는 결정계수를 수학식 4를 통해 산출할 수 있다.

수학식 4

R² = 1 - (SSres / SStot)

수학식 4에서 SSres는 잔차 제곱합(residual sum of squares)이고, SStot은 총 변동 제곱합(total sum of squares)이다. 결정계수인 R²는 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다는 의미이다. 즉, R²는 예측 모델이 설명하지 못한 데이터의 변동을 총 변동에서 차지하는 비율을 나타내는 것이다. 따라서 R² 값이 1에 가까울수록 모델이 데이터를 잘 설명하고 있으며, 0에 가까울수록 모델이 데이터를 설명하지 못하고 있음을 나타낸다.

도 4는 실시예에 따른 데이터셋 구축과정을 나타낸 도면이다.

도 4를 참조하면, 실시예에서 데이터셋 구축부(110)는 구축된 총 81,846개의 데이터 중 PMV 계산에 필수적인 필수데이터를 완전히 확보한 25,261개의 데이터를 선택하여 데이터셋을 구축한다. 실시예에서 필수 데이터는 6가지 지표를 포함한다. 이후, 데이터셋 구축부(110)은 데이터 셋을 학습데이터와 검증데이터로 구분한다.

실시예에서 데이터셋 구축부(110)는 랜덤 분할(Random Splitting)을 통해, 데이터셋을 무작위로 학습데이터와 검증데이터로 나눌 수 있다. 실시예에서는 전체 데이터의 일정 비율(예컨대, 70퍼센트)를 학습데이터로 사용하고, 전체 데이터셋에서 학습데이터를 제외한 나머지 비율(예컨대, 30 퍼센트)의 데이터셋은 검증데이터로 구분할 수 있다.

또한, 실시예에서 데이터셋 구축부(110)는 시간 기반 분할(Time-based Splitting) 방법을 통해, 구축된 데이터셋을 학습데이터와 검증데이터로 분류할 수 있다. 실시예에서 데이터셋 구축부(110)는 시계열 데이터와 같이 시간 순서가 있는 데이터에서는 일정 시간 이전 데이터를 학습데이터로, 일정 시간 이후 데이터를 검증데이터로 구분할 수 있다. 또한, 실시예에서 데이터셋 구축부(110)는 그룹 기반 분할(Group-based Splitting)을 통해, 데이터 셋을 구분할 수 있다. 예컨대, 데이터셋 구축부(110)는 데이터셋에서 특정 그룹을 변수 별로 구분하여 학습데이터와 검증데이터를 나눌 수 있다. 또한, 실시예에서 데이터셋 구축부(110)는 교차 검증(Cross-validation)을 통해, 데이터 셋을 구분할 수 있다. 교차 검증은 데이터셋을 여러 개의 폴드로 나누어 각각에 대해 학습과 검증을 수행하는 방법이다.

도 5는 실시예에 따른 최적 변수 선택을 위한 PMV예측을 위한 최적의 요소추출 방법과, 예측모델 검증을 위한 실험 조합을 나타낸 도면이다.

여러 변수를 기반으로 한 예측 모델 개발 과정에서 노이즈의 간섭으로 인해 정확도가 낮은 모델이 도출되거나 중복되고 불필요한 데이터로 인해 예측 모델이 무거워질 위험이 있다. 이에 따라 변수 선택부(120)는 기계 학습을 이용한 예측 모델에서는 핵심 변수를 추출한다. 기존에는 PMV를 계산하는 데 6개의 변수가 사용된다. 반면, 실시예에서 변수 선택부(120)는 변수의 중요도를 산출한다. 실시예에서 변수 선택부(120)는 변수 차원을 줄이기 위해 PCA, 최적 서브셋(Best Subset) 및 지니 중요도(Gini Importance)를 사용하여 변수의 중요도를 계산한다. 또한, 변수 선택부(120)는 통계분석 프로그램, 기계학습 어플리케이션, C언어 처리기 등을 사용한다.

실시예에서 변수 선택부(120)는 PCA를 통해, 최적 변수를 선택할 수 있다.

PCA(Principal Component Analysis)는 다변량 데이터에서 가장 중요한 변수를 찾아내는 기법으로, 변수들 간의 상관관계를 이용하여 원래 데이터를 설명할 수 있는 새로운 축을 찾아내는 방법이다. 실시예에서 변수 선택부(120)는 PCA를 통해 주성분(Principal Component)을 추출하여, 최적 변수 선택에 이용한다. 주성분은 원래 데이터에서 가장 많은 정보를 가진 변수들이고, 변수 선택부(120)는 주성분을 이용하여 데이터를 축소하거나 변환할 수 있다.

주성분 분석은 특정 변수 간의 상관관계를 이용해 변수들 간의 선형결합을 통해 새로운 축을 찾는 것으로, 이를 통해 데이터의 분산을 최대화하는 방향으로 축을 설정한다. 이렇게 구한 주성분들은 서로 직교하는 성질을 가지며, 차원을 축소할 때는 주성분들 중 상위 몇 개의 주성분을 선택하여 이용한다. 즉, 변수 선택부(120)는 데이터를 분산이 최대인 축으로 변환하여 주성분을 형성하고 이때 분산이 작은 성분을 제거하여 치수와 노이즈를 줄일 수 있다. 이에 따라 변수 선택부(120)에서 선택되는 최적 변수(Best Subset) 역시 통계변수 선택 방법으로 예측을 위한 회귀식에서 입력변수의 가능한 모든 부분집합 중에서 최적의 모델을 찾아 생성된다. 또한, 실시예에서 변수 선택부(120)는 랜덤 포레스트(Random Forest) 모델에서 예측을 위해 계산된 지니 중요도(Gini Importance)를 사용하여 변수 선택을 수행한다. 지니 중요도(Gini Importance)는 랜덤 포레스트(Random Forest)의 지니 불순도(Gini impurity)를 고려하여 0에서 1까지 표현되는 숫자이다. 1에 가까울수록 더 중요한 변수이므로, 실시예에서 변수 선택부(120)는 지니 불순도(Gini impurity)를 기반으로 입력 변수의 중요도를 결정하고, 결정된 중요도에 따라 3개의 서로 다른 데이터 세트를 최적 변수로 구성한다. 실시예에서 변수 선택부(120)눈 선정된 데이터셋을 이용하여 다양한 머신러닝 기법에 따른 예측모델을 생성하기 위한 입력변수로 선택한다.

도 6은 실시예에 따른 PCA 분석결과를 나타낸 도면이다.

도 6을 참조하면, 실시예에서는 PCA, 최적 서브셋(Best Subset), 지니 중요도(Gini Importance)를 이용하여 주요 변수를 선정한다. PCA 분석 결과 PC4의 누적 값이 전체 고유 값의 91%를 차지하는 것으로 나타난다. 일반적으로 1 이하의 고유 값을 주요 변수로 판단하지만 실시예에서는 Jolliffe가 제안한 대로 0.7을 기준으로 Ta, Tg, Clo, Met 4개의 변수를 주요 변수로 선정한다. 도 6에 도시된 테이블(Table)은 PCA에 대한 고유분석 결과이다.

도 7은 실시예에 따른 최적 변수(best subset) 분석결과를 나타낸 도면이다.

실시예에서 선택한 최적 서브셋(Best Subset) 결과는 도 7의 테이블(Table) 과 같다. 입력 변수의 개수에 따라 R² 값이 달라지는 것을 알 수 있으며, 특히 입력 변수의 개수가 2개에서 3개로 증가할수록 정확도가 크게 증가함을 알 수 있다. 3개의 입력 변수 중 Tg, Clo, Met를 사용한 경우 R² 값이 87.4%로 가장 높아 Tg, Clo, Met를 주요 변수로 선정한다

도 8은 실시예에서 랜덤 포레스트에 의한 지니 중요도 산출 결과를 나타낸 도면이다. 도 8을 참조하면, tg에 대한 지니 중요도는 3, rh는 2, clo는 2, ta는 0.15, met은 0.15, vel은 0.05로 나타난 것을 알 수 있다.

도 9는 요소추출 방법에 따라 선택된 주요 변수를 나타낸 도면이다.

도 9를 참조하면, 실시예에서는 PMV(Predicted Mean Vote) 계산에 사용되는 6개의 입력 변수의 차원을 축소하고, 기계 학습 과정을 통해 예측 모델을 생성한다. 이후, 예측 모델의 성능을 분석한다. 실시예에서는 변수를 선택하여 입력 변수의 수를 5개에서 3개로 줄였다. 전반적으로 Tg, Clo 및 Met가 PMV 예측에 더 중요하게 작용하며, RH와 Vel의 중요도는 비교적 낮은 것으로 확인되었다. 또한, RH가 단일 위치에서 측정되더라도 값이 Ta와 Vel의 동적인 영향을 받아 센서 값이 변동하는 경향이 있음이 확인되었다. 또한 입력 변수의 수가 중요도에 따라 줄어들면, 예측 모델의 계산 속도가 결정되는 것으로 나타났다.

도 10 및 도 11은 실시예에 따른 모델 별 예측 결과를 나타낸 도면이다.

도 10 및 도 11을 참조하면, 각 그래프의 X축은 6개의 지표로 계산된 Fanger의 PMV이며, Y축은 인공지능 예측모델이 예측한 PMV 값이다

도 10 및 도 11에 도시된 바와 같이, 실시예에서 분류된 9개의 경우 중 입력 변수가 PCA에 의해 선택된 ANN 예측 모델인 케이스 1이 89.70%의 가장 높은 정확도를 보였다. 그러나 또 다른 성능 지표인 작동 속도 측면에서는 입력 변수가 최적 서브셋(Best Subset)으로 선택된 랜덤 포레스트(Random Forest) 모델인 케이스 8이 가장 빠른 작동 속도를 보였다. 전반적으로 ANN 모델은 정확도가 높지만 작동 속도가 느리고, 변수 중 최적 변수(Best Subset)가 입력 변수의 수에 비해 높은 정확도를 보였다. 또한, 랜덤 포레스트(Random Forest)는 다른 예측 모델에 비해 상대적으로 낮은 정확도를 보였지만, 입력 변수 선택 방법에 따른 정확도 변화가 적었고 계산 시간도 가장 짧았다. 이러한 분석 결과, PMV 예측을 위한 다른 방법들과 비교했을 때 ANN은 정교한(sophistication) 면에서 강점을 가지고 있고, 랜덤 포레스트(Random Forest)는 안정성 면에서 강점을 가진 모델로 검증되었다. 도 11은 예측 모델의 계산 시간과 성능을 나타낸 그래프로서, 전반적으로 계산 시간과 정확도는 직접 비례하는 것으로 나타났다. 결론적으로, 최적 서브셋(Best Subset)으로 선별된 3가지 데이터(MRT, 착의량, 활동량) 만으로도 LSTM을 통해 87.97%의 정확도를 갖는 예측을 할 수 있었으며, 온도 데이터를 추가한 케이스(PCA-ANN)을 통해 90%에 가까운(89.70%) 예측이 가능함을 확인하였다.

이하에서는 PMV 예측 모델 생성 방법에 대해서 차례로 설명한다. 실시예에 따른 PMV 예측 모델 생성 방법의 작용(기능)은 PMV 예측 모델 생성 시스템의 기능과 본질적으로 같은 것이므로 도 1 내지 도 11과 중복되는 설명은 생략하도록 한다.

도 12는 실시예에 따른 PMV 예측 모델 생성 방법의 데이터 처리 흐름을 나타낸 도면이다.

도 12를 참조하면, S100 단계에서는 데이터셋 구축부에서 PMV 모델 구현을 위한, 트레이닝 데이터 셋을 구축한다. S200 단계에서는 변수 선택부에서 PMV 모델에서 각 매개변수의 중요도를 산출하여, PMV 예측을 위한 최적 변수(Best Subset)를 선택한다. S300 단계에서는 모델 생성부에서 선택된 최적 변수를 입력하여 PMV 예측모델을 생성한다. S400 단계에서는 검증부에서 생성된 PMV 예측 모델 별 정확성을 산출하고 비교한다.

개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.

Claims

PMV(Predicted Mean Vote) 예측 모델 생성 장치에 있어서,
PMV 예측 모델 구현을 위한, 트레이닝 데이터 셋을 구축하는 데이터셋 구축부;
PMV 예측 모델에서 각 매개변수의 중요도를 산출하여, PMV 예측을 위한 최적 변수(Best Subset)를 선택하는 변수 선택부;
선택된 최적 변수를 입력하여 PMV 예측 모델을 생성하고, 생성한 PMV 예측 모델을 통해, PMV를 획득하는 모델 생성부;
생성된 PMV 예측 모델 별 정확성을 산출하고 비교하는 검증부; 를 포함하고
상기 데이터셋 구축부; 는
구축된 트레이닝 데이터 셋에서 PMV 계산에 필요한 실내온도, 상대습도, 기류속도, 평균복사온도(MRT), 착의량(Clo), 활동량 지표를 모두 확보한 데이터를 선택하여 트레이닝 데이터셋을 구축하고,
구축된 트레이닝 데이터 셋 중 시계열 데이터는 시간 기반 분할(Time-based Splitting) 방법을 통해, 일정 시간 이전 데이터를 학습데이터로, 일정 시간 이후 데이터를 검증데이터로 구분하고,
상기 변수 선택부; 는
평균복사온도(MRT), 착의량, 활동량를 최적 변수(best subset)으로 선택하고, PMV 예측 모델의 종류에 따라 온도를 상기 최적 변수에 추가하고,
PCA(principal component analysis) 및 지니 중요도(Gini Importance) 중 적어도 하나를 사용하여 변수의 중요도를 계산하고,
PCA를 통해 변수의 중요도를 산출하는 경우, 변수 차원을 줄이기 위해 가장 많은 정보를 가진 변수인 주성분(Principal Component)을 분산을 기준으로 추출하여, 추출된 주성분을 최적 변수 선택에 이용하고,
상기 검증부는
모델의 정확도를 예측 모델에서 파생된 예측(y_predict) 및 테스트 값(y_test)에 대한 R2, MAPE(Mean Absolute Percentage Error) 및 cvRMSE 값을 포함하는 정확성 검증 지표를 PMV 예측 모델 별로 산출하고, 상기 정확성 검증 지표로 모델 별 계산 시간과 예측 정확도를 비교하여 모델 성능을 검증하는 PMV 예측 모델 생성 장치.
삭제
제1항에 있어서, 상기 모델 생성부; 는
데이터셋 구축부에 의해 구축된 학습데이터를 통해 PMV 예측모델 구현을 위한 기계학습을 수행하는 것을 특징으로 하는 PMV 예측모델 생성 장치.
삭제
삭제
PMV 예측 모델 생성 방법에 있어서,
(A) 데이터셋 구축부에서 PMV 예측 모델 구현을 위한, 트레이닝 데이터 셋을 구축하는 단계;
(B) 변수 선택부에서 PMV 예측 모델에서 각 매개변수의 중요도를 산출하여, PMV 예측을 위한 최적 변수를 선택하는 단계;
(C) 모델 생성부에서 선택된 최적 변수를 입력하여 PMV 예측모델을 생성하고, 생성한 PMV 예측 모델을 통해 PMV를 획득하는 단계;
(D) 검증부에서 생성된 PMV 예측 모델 별 정확성을 산출하고 비교하는 단계; 를 포함하고
상기 (A)의 단계; 는
구축된 트레이닝 데이터 셋에서 PMV 계산에 필요한 실내온도, 상대습도, 기류속도, 평균복사온도(MRT), 착의량(Clo), 활동량 지표를 모두 확보한 데이터를 선택하여 트레이닝 데이터셋을 구축하고,
구축된 트레이닝 데이터 셋 중 시계열 데이터는 시간 기반 분할(Time-based Splitting) 방법을 통해, 일정 시간 이전 데이터를 학습데이터로, 일정 시간 이후 데이터를 검증데이터로 구분하고,
상기 (B)의 단계; 는
평균복사온도(MRT), 착의량, 활동량를 최적 변수(best subset)으로 선택하고, PMV 예측 모델의 종류에 따라 온도를 상기 최적 변수에 추가하고,
PCA(principal component analysis및 지니 중요도(Gini Importance) 중 적어도 하나를 사용하여 변수의 중요도를 계산하고,
PCA를 통해 변수의 중요도를 산출하는 경우, 변수 차원을 줄이기 위해 가장 많은 정보를 가진 변수인 주성분(Principal Component)을 분산을 기준으로 추출하여, 추출된 주성분을 최적 변수 선택에 이용하고,
상기 (D)의 단계; 는
모델의 정확도를 예측 모델에서 파생된 예측(y_predict) 및 테스트 값(y_test)에 대한 R2, MAPE(Mean Absolute Percentage Error) 및 cvRMSE 값을 포함하는 정확성 검증 지표를 PMV 예측 모델 별로 산출하고, 상기 정확성 검증 지표로 모델 별 계산 시간과 예측 정확도를 비교하여 모델 성능을 검증하는 것을 특징으로 하는 PMV 예측 모델 생성 방법.
삭제
제6항에 있어서, 상기 (C)의 단계; 는
데이터셋 구축부에 의해 구축된 학습데이터를 통해 PMV 예측모델 구현을 위한 기계학습을 수행하는 것을 특징으로 하는 PMV 예측모델 생성 방법.
삭제
삭제
PMV 예측 모델 생성 시스템에 있어서,
PMV 예측 모델을 생성하는 서버; 및
상기 PMV 예측 모델에 의해 산출된 PMV를 출력하는 단말; 을 포함하고,
상기 서버; 는
PMV 모델 구현을 위한, 트레이닝 데이터 셋을 구축하는 데이터셋 구축부;
PMV 모델에서 각 매개변수의 중요도를 산출하여, PMV 예측을 위한 최적 변수(Best Subset)를 선택하는 변수 선택부;
선택된 최적 변수를 입력하여 PMV 예측모델을 생성하고, 생성한 PMV 예측 모델을 통해, PMV를 획득하는 모델 생성부;
생성된 PMV 예측 모델 별 정확성을 산출하고 비교하는 검증부; 를 포함하고
상기 데이터셋 구축부; 는
구축된 트레이닝 데이터 셋에서 PMV 계산에 필요한 실내온도, 상대습도, 기류속도, 평균복사온도(MRT), 착의량(Clo), 활동량 지표를 모두 확보한 데이터를 선택하여 트레이닝 데이터셋을 구축하고,
구축된 트레이닝 데이터 셋 중 시계열 데이터는 시간 기반 분할(Time-based Splitting) 방법을 통해, 일정 시간 이전 데이터를 학습데이터로, 일정 시간 이후 데이터를 검증데이터로 구분하고,
상기 변수 선택부; 는
평균복사온도(MRT), 착의량, 활동량를 최적 변수(best subset)으로 선택하고, PMV 예측 모델의 종류에 따라 온도를 상기 최적 변수에 추가하고,
PCA(principal component analysis) 및 지니 중요도(Gini Importance) 중 적어도 하나를 사용하여 변수의 중요도를 계산하고,
PCA를 통해 변수의 중요도를 산출하는 경우, 변수 차원을 줄이기 위해 가장 많은 정보를 가진 변수인 주성분(Principal Component)을 분산을 기준으로 추출하여, 추출된 주성분을 최적 변수 선택에 이용하고,
상기 검증부는
모델의 정확도를 예측 모델에서 파생된 예측(y_predict) 및 테스트 값(y_test)에 대한 R2, MAPE(Mean Absolute Percentage Error) 및 cvRMSE 값을 포함하는 정확성 검증 지표를 PMV 예측 모델 별로 산출하고, 상기 정확성 검증 지표로 모델 별 계산 시간과 예측 정확도를 비교하여 모델 성능을 검증하는 것을 특징으로 하는 PMV 예측 모델 생성 시스템.
삭제