KR101119983B1

KR101119983B1 - 지엠디에이치 알고리즘을 이용한 물수요 예측방법

Info

Publication number: KR101119983B1
Application number: KR1020090022306A
Authority: KR
Inventors: 이정우; 김민수; 이재인; 최수원; 김원기
Original assignee: 주식회사 비츠로시스
Priority date: 2009-03-16
Filing date: 2009-03-16
Publication date: 2012-03-15
Also published as: KR20100104118A

Abstract

본 발명은 통상의 물 수요 예측 방법에 있어서, 수운영 시스템에서 수요변동, 기상여건, 계절별 요인 등에 의하여 통상적인 변동사항을 반영하여 취수장, 정수장 및 가압장을 합리적으로 연계 운영함으로서 안정된 공급량을 확보하기 위해 지엠디에이치 알고리즘을 활용한 물 수요예측의 지능형 모델을 구축하는 단계, 지능형 모델을 토대로 지엠디에이치 모델기반 예측제어 기법을 활용하여 예측대상의 물수요를 산출하는 수요예측 소프트웨어를 상위 컴퓨터에 구성하는 단계, 수운영 시스템의 호스트 컴퓨터, 기상정보를 가지고 있는 데이터베이스 등과 LAN 네트워크를 통해 연결하는 단계, 수요예측 소프트웨어는 시스템으로부터 수집된 운영 데이터, 기상 DB의 데이터를 토대로 역전파 학습 알고리즘을 이용하여 수요예측 지엠디에이치 모델을 구축하는 단계 및 지능형 모델로부터 지엠디에이치 모델기반 예측제어 알고리즘을 이용하여 현재의 수요 및 기상 상태에서의 예측 수요량을 결정하는 단계로 이루어진 것을 특징으로 하는 지엠디에이치 알고리즘을 이용한 물수요 예측방법을 제공한다.

물수요 예측방법, 수운영 시스템, 지엠디에이치 알고리즘

Description

지엠디에이치 알고리즘을 이용한 물수요 예측방법{Method for predicting water demand using Group Method of Data Handling algorithm}

본 발명은 지엠디에이치 알고리즘을 이용한 물수요 예측방법에 관한 것이다.

일반적으로 상수도 시설은 도시생활을 영위하는 모든 사람에게 이용되는 것으로 매일의 일상생활과 도시의 제반활동을 유지해주는 중요한 시설이며 도시의 인구집중, 생활수준의 향상, 경제성장 등에 상응하는 라이프라인(life line)으로 안전한 양질의 물을 안정적으로 공급할 수 있도록 요구되고 있다.

이를 유지하기 위해서는 배수제어를 기초로 하는 상수도의 총괄적 유지관리 계획인 물관리 운영(이하, "수운영"이라 한다)이 중요한 과제로 남게 된다.

수운영을 지원하는 시스템은 정수장에서 수요자까지의 모든 수도 시설을 제어, 감시하여 수량, 수압, 수질측면에서 안전한 물을 효율적으로 공급하기 위한 것이며, 따라서 일 또는 시간 단위에 있어서 상수 수요량의 정확한 예측이 필요하게 되고 이 예측으로 인하여 상수도의 운영계획이 수립되어 합리적인 송배수 펌프의 운전과 밸브의 조정 그리고 배수지 수위의 설정 등을 원활히 할 수 있다.

따라서 배수시설의 최적운영을 위해서는 대상지역의 특성을 충분히 고려한 물수요량의 수요구조를 파악하는 동시에 정확한 수요를 예측하는 것이 필요하다.

국내의 물관리 기술(이하, "수운영시스템"이라 한다)은 1990년대부터 대기업을 중심으로 일본 등 선진국의 시스템을 참조모델로 하여 본격적으로 개발, 설치, 운영되고 있으며, 일반적인 물수요예측 및 그 결과의 활용단계는 다음과 같다. ①각종수요예측 기법을 적용하여 계통별로 일별 수요량 예측을 수행하고, ②이를 토대로 상대시간계수(일명 : 데이터 Granulization기법의 수요패턴 모의)를 이용한 수요패턴 해석에 의한 시간별 예측수요량을 산출한다. ③산출된 시간별 수요예측량은 경제적 운영이 이루어지도록 분기점별 송수량을 산출하여 운영계획수립 정보를 제공하게 되며, ④예측수요량에 전력요금 등을 고려하여 시간대별 펌프절체테이블을 작성하여 운영자에게 제공한다.

일반적으로 시간별 예측수요량 산출시 사용하는 데이터 Granulization기법은 보편적으로 사용되고 있으나, 일별수요량 예측시 사용되는 모델로는 중회귀, ARIMA, 칼만필터 모델 기법 등이 다양하게 사용되고 있는 실정이다.

이러한 다양한 수요예측 모델 중에 가장 신뢰성이 높고 가용성이 우수한 수요예측 기법의 개발이 절실하다.

본 발명의 목적은, 수운영 시스템의 안정된 운영을 위해 어떠한 비선형 시스템에 대한 모델링과 예측에 강점을 보이는 지엠디에이치 알고리즘을 활용하여 최적의 예측 수요량을 산출하는 물 수요예측 방법을 제공하고, 예측 수요량과 실제 수 요량과의 평균 %오차를 10% 이하로 설정되도록 하는 출력예측 정밀도 목표를 달성할 수가 있는 지엠디에이치 알고리즘을 이용한 물수요 예측방법을 제공하는데에 있다.

본 발명의 다른 목적은, 간접 정보인 수운영 대상분기의 과거운영데이터를 수요예측의 기준 및 안정화의 목표로 선정하여 최적 수요예측의 온라인 설정에 의한 운영을 수행하도록 하여 수요예측의 자동화에 의한 인력절감 및 수운영의 효율화를 수행하는 지엠디에이치 알고리즘을 이용한 물수요 예측방법을 제공하는데에 있다.

이러한 목적을 달성하기 위하여 본 발명은 통상의 물 수요 예측 방법에 있어서, 수운영 시스템에서 수요변동, 기상여건, 계절별 요인 등에 의하여 통상적인 변동사항을 반영하여 취수장, 정수장 및 가압장을 합리적으로 연계 운영함으로서 안정된 공급량을 확보하기 위해 지엠디에이치 알고리즘을 활용한 물 수요예측의 지능형 모델을 구축하는 단계, 지능형 모델을 토대로 지엠디에이치 모델기반 예측제어 기법을 활용하여 예측대상의 물수요를 산출하는 수요예측 소프트웨어를 상위 컴퓨터에 구성하는 단계, 수운영 시스템의 호스트 컴퓨터, 기상정보를 가지고 있는 데이터베이스 등과 LAN 네트워크를 통해 연결하는 단계, 수요예측 소프트웨어는 시스템으로부터 수집된 운영 데이터, 기상 DB의 데이터를 토대로 역전파 학습 알고리즘을 이용하여 수요예측 지엠디에이치 모델을 구축하는 단계, 및 지능형 모델로부터 지엠디에이치 모델기반 예측제어 알고리즘을 이용하여 현재의 수요 및 기상 상태에 서의 예측 수요량을 결정하는 단계로 이루어진 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 수운영 시스템의 안정된 운영을 위해 지능형 모델링과 비선형 모델 예측제어 기법을 활용하여 최적의 예측 수요량을 결정하되, 호스트 컴퓨터 외에 지엠디에이치 알고리즘 등의 지능형 모델링 기법을 활용한 최적의 수요예측 모델의 구축과 지능형 공정 모델을 토대로 비선형 모델 예측제어 기법을 활용하여 최적의 예측수요를 결정하는 공정 시뮬레이터를 상위 컴퓨터에 구성하는 것을 특징으로 한다.

상기한 바와 같이 이루어진 본 발명의 지엠디에이치 알고리즘을 이용한 물수요 예측방법에 따르면, 다음과 같은 효과를 얻을 수 있다.

첫째, 수운영 시스템의 안정된 운영을 위해 어떠한 비선형 시스템에 대한 모델링과 예측에 강점을 보이는 지엠디에이치 알고리즘을 활용하여 최적의 예측 수요량을 산출하는 물 수요예측 방법을 제공하고, 예측 수요량과 실제 수요량과의 평균 %오차를 10% 이하로 설정되도록 하는 출력예측 정밀도 목표를 달성할 수 있는 효과가 있다.

둘째, 간접 정보인 수운영 대상분기의 과거운영데이터를 수요예측의 기준 및 안정화의 목표로 선정하여 최적 수요예측의 온라인 설정에 의한 운영을 수행하도록 하여 수요예측의 자동화에 의한 인력절감 및 수운영의 효율화를 수행할 수 있는 다른 효과가 있다.

이하에서는 첨부된 도면을 참고로 하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.

<실시예>

도 1은 수운영 시스템의 개요를 보인 도면이고, 도 2는 일 수요예측의 주요 기능에 대한 운영 흐름도이다.

도 3은 시스템의 상태를 순차적으로 추정한 칼만 필터 모델의 개념도이고, 도 4는 칼만 필터의 이산형 동적 선형시스템을 나타낸 도면이며, 도 5는 지엠디에이치 구조의 구성도이다.

먼저, 수운영이란 상수도 시설기준('97.12) 제9장 4.1 총칙의 "상수도에 있어서 계측제어의 적용범위를 대별하면 취수장, 정수장 및 배수지등 개개의 시설을 대상으로 하는 플랜트(Plant) 제어와 수원에서 배수시설까지 상수도 시설 전체를 통합적으로 일체화하여 운전관리하는 계통운영제어가 있다"에서의 계통운영제어와 동일한 의미이다.

즉, 취수에서 정수, 배수까지 각각의 사업장이나 시설을 개별 운영관리하는 것이 아니라 상수도 모든 시설 전체를 통합 운영관리하는 것을 말한다.

이러한 수운영을 실현하기 위한 수운영 시스템에서는 수도의 3대 목표인 수질, 수량, 압력 3가지를 만족시키기 위한 운영데이터를 생성하고 다양한 정책을 산출하게 되는데, 분산 운영되는 상수도 시설에 대하여 수운영시스템을 구축하여 수요의 변화 등에 대응하여 과학적이고 경제적으로 시설을 운영하고, 상수도시설 사 고의 조기발견, 복구의 신속화 및 갈수기 취수원의 연계운영에 의하여 각 급수구역에 균등한 급수가 이루어지도록 하며, 취수장, 정수장, 가압장 및 배수지 등 개개의 수질을 종합적으로 관리하여 음용수 수질기준내의 수질을 확보 및 유지한다.

즉, 과학적이고 합리적인 운영으로 수요예측과 균등급수를 통한 안정된 용수공급 등 상수도 업무 전반에 대한 업무의 질적 향상을 궁극적인 목표로 한다.

도 1 내지 도 4에 도시된 바와 같이, 효율적인 용수공급조절체계 구축을 위해서는 수용가의 용수 사용량 예측이 핵심이며 수요자의 용수 사용량을 예측하고 이를 기반으로 안정적인 공급량을 계획하고 공급량을 제어하는 것이 중요하다.

즉, 수요자의 용수 사용에 불편함이 없으면서 배수지나 정수지의 시설용량을 최대한 활용하여 공급량을 결정하고 결정된 유량만큼만 공급되도록 제어하는 것이 경제적 운영의 기반이 되는 것이다. 따라서 각 수용가(분기점)로 유입되는 유량을 수용자 시설물 운영 현황을(배수지 수위 또는 정수지 수위) 고려하여 공급되도록 분기점 밸브를 조절하여야 한다. 수용가(분기점)의 공급유량이 결정되면 이를 기반으로 사업장(정수장, 취수장, 가압장)의 시설 현황, 전력요금, 운영조건 등의 특성을 고려하여 유입량 및 유출량이 결정되고, 펌프장은 사업장 유량 계획치와 펌프 특성을 고려하여 최적 펌프운전 대수가 결정된다.

물 수요예측 급수 구역별 일별(단기 예측) 용수 수요량 예측을 수행하고, 이를 토대로 배수 패턴 해석에 의한 시간별 수요예측량 산출을 기본적인 기능으로 수행한다. 단, 장기 예측은 월 단위로 수행하며, 산출된 시간별 수요 예측량은 전력요금, 배수지 수위, 정수지 수위, 생산량, 각 급수 구역별 유량, 유입량 평활화를 고려하여 경제적인 운영이 이루어지도록 급수구역별 송수량을 산출하여 2일분의 운영 계획을 수립하여 호스트 컴퓨터로 전송하며, 수요 예측 오차, 사고 등에 기인한

배수지 수위가 운영 폭을 벗어나는 경우나 계획 수위가 허용 오차를 벗어나는 경우에 대하여 이를 보상하는 배수지 운용계획 기능이 수행되어야 한다. 또한 수요예측을 위한 외부 자료(날씨, 기후 등)는 자동으로 입력되어야 한다.

수요 예측 모델 구축을 위해서 적절한 기법이 적용되어야 하며, 수요 예측 모델은 일반적으로 1) 과거의 실적 배수량 2) 익일의 낮 예상 최고 기온, 3) 날씨, 4) 요일(평일/휴일/특이일) 등의 항목을 고려하여 수요 예측량을 산출한다. 배수 패턴 해석은 1) 계절, 2) 요일(평일/휴일/특이일), 3) 날씨 항목들을 고려한 적절한 기법이 이용된다.

일 수요예측의 주요 기능에 대한 운영 흐름은 도 2에 도시된 바와 같으며, 그 기능은 급수 구역별 1~2일치 일 수요량을 예측하여 지 운용계획 및 가압장, 정수장, 취수장의 도 송수 계획 수립을 위한 수요량을 산출하는 기능이다. 매일 일정 시각의 Time Triggering 또는 운전자의 수동 기동에 의해 호스트 컴퓨터의 데이터베이스로부터 수집된 과거 실적 배수량과 익일의 날씨 정보(기후, 낮 예상 최고 기온 등)와 날짜 정보(xxxx년 xx월 xx일 x요일)를 수집하여 익일의 배수량을 예측한다. 예측은 연산 모델인 중회귀모델, 칼만 필터법 및 퍼지 예측 모델 등의 기법을 사용하며, 이러한 예측 기법은 예측 오차에 따라 예측 모델의 파라미터를 바꾸어 가는 적응형 기법으로 입력 조건들의 변동에 따라 자동적으로 대응한다.

기존 수운영시스템에서 일 수요예측시 사용되는 일일 물수요량 예측방법은 여러 가지 있으나 중회귀모델과 전이함수 ARIMA, 칼만필터 기법이 일반적으로 사용된다. 중회귀모델은 외부요인(과거 수일간의 실적 배수량, 익일의 낮 예상 최고 기온, 날씨, 요일(평일/휴일/특이일) 등)들의 직접적인 영향을 수식화하는 가장 일반적인 선형모델이며, 전이함수 ARIMA는 외부요인(과거 수일간의 실적 배수량, 익일의 낮 예상 최고 기온, 날씨, 요일(평일/휴일/특이일) 등)들의 직접적인 영향 이외에도 간접적인 영향과 시간이 지체되어 나타나는 효과까지도 고려한 선형모델이다. 칼만필터 모델은 외부요인들의 영향요인(과거 수일간의 실적 배수량, 익일의 낮 예상 최고 기온, 날씨, 요일(평일/휴일/특이일) 등)을 비선형적인 관계로 표현한 함수이다.

중회귀 모델은 일일물수요에 영향을 미친다고 생각되는 인자들을 독립변수로 하고, 물수요량을 종속변수로 하여 일단위의 물수요량 예측모델을 개발하는 것으로, 하나의 출력계열에 여러 개의 입력계열이 선형적으로 유의한 영향을 미치는 경우, 출력계열과 여러 개의 입력계열을 선형적으로 결합한 것을 중회귀 모델이라 한다. 여기서 출력계열을 목적변수(종속변수)라 하고, 입력계열을 설명변수(독립변수)라 한다. 이를 식으로 표현하면 수학식(1)과 같다.

<수학식 1>

중회귀 모델은 매우 다양한 분야에 응용되고 있는 보편적인 식으로 모델을 성립을 위해서 세 단계의 검증을 거치게 된다.

첫째는 독립변수에 대한 것으로 독립변수로서 타당한가와 서로간에 통계적으로 독립인가를 검증받게 된다. 독립변수로서 타당한가에 대해서는 95%유의수준의 t-검정을 통해 검증되며, 독립변수간에 서로 독립인가에 대해서는 분산팽창인자를

통해 검증받게 된다. 두 번째는 모델에 의해 발생하는 잔차가 랜덤하게 발생하는 오차인가에 대한 것으로 잔차의 자기상관성을 나타내는 더빈왓슨 통계량을 통해 검증된다. 세 번째는 모델의 예측값이 정확한가로서 상관계수와 절대평균오차를 통해 검증받게 된다.

전이함수 ARIMA모델이란 동적시스템에서 입력계열에 의해 출력계열이 선형적으로 영향을 받는 함수로서, 두 부분으로 구성된다. 하나는 전이함수 모델로 입력계열의 영향이 교차상관분석, 사전백색화과정을 거쳐 모델화된다. 다른 하나는 입

력계열이외의 영향과 입출력 계열의 지체를 표현한 항으로서, ARIMA로 모델화된다. 과정은 상호상관분석을 한 후에, 모델의 차수추정 및 모수추정으로 이어지며, 기본식은 수학식(2)과 같다.

<수학식 2>

전이함수 모델과 ARIMA모델을 전체 식으로 나타내면 수학식(3)과 같다.

<수학식 3>

환경분야에서 전이함수 ARIMA모델을 이용한 연구는 교통소음량, 일일 물수요량의 예측등으로 다양하다. 이러한 전이함수 ARIMA모델은 각 모수의 선택과 차수의 결정, 모수의 추정과정을 거쳐 모델의 유의도를 통계학적으로 검증하게 된다.

이 중 가장 최적의 모델을 선택하는 지표에는 다음과 같이 카이제곱 검정과 AIC, SBC를 통해 검증하게 된다. 카이제곱검정은 모델잔차의 자기상관성을 검증하는 것이며, AIC, SBC는 최소한의 모수로 최대한 정확한 예측을 하도록 하는 것이 다.

카이제곱 검정값은 잔차가 모델에서 가정한 백색잡음을 따르는가를 판단하는 것으로 수학식(4)의 포트만토 검정값으로 판단된다.

<수학식 4>

위의 포트만토 검정값이 자유도(K-p-q; p: AR과정 차수, q: MA과정 차수)의 카이제곱 검정량에 근사한다는 것에 기초한 것으로, 위의 포트만토 검정값 Q가 카이검정 제곱량 95% 유의수준을 만족하는 가로 판단한다. 따라서, 카이제곱 통계량의 값이 0.05이상이면 유의하다.

AIC(Akaike information criterion)와 SBC(Schwartz's Bayesian criterion)의 값은 각각 수학식(5), (6)와 같다.

<수학식 5>

AIC = -2 ×최대로그우도 + 2 ×적합모수의 수

<수학식 6>

여기에서, n : 시계열의 유효길이

AIC와 SBC는 두 부분으로 되어 있다. 하나는 최대로서 모델의 정확성을 나타내며 음의 값을 갖는다. 다른 하나는 적합모수의 수로서 양의 값을 갖도록 되어 있다. 이는 최소의 적합모수로 정확한 예측값을 갖도록 모델을 절충시킨 것으로, 값이 작을수록 우수한 모델이다.

일반적으로 시스템은 제어입력값과 외란을 받으며, 시스템의 상태는 관측장치를 통하여 관측된다. 관측 값은 잡음에 흩어져서 직접적으로 관측되지 않는 것도 많다. 이와 같은 상황에서 칼만 필터모델은 관측 자료로부터 시스템의 상태에 관한

정보를 추출하는 것이다. 이 방법은 시계열 출력을 생성하는 시스템의 동적 특성에 주목하여 잡음의 통계적 성질을 가정하여, 초기값 정보와 시간마다 관측된 자료를 이용하여 시스템의 상태를 순차적으로 추정하는 것으로 도 3에 도시된 바와 같다.

이 칼만 필터는 이산형 동적 선형시스템(Discrete Linear Dynamical System)에서 시간 t일 때의 입출력 변수의 관측자료를 기초로 하여 t에서의 상태량을 최적으로 추정하는 방법으로 수학식(7), (8)과 같은 차분방정식에 의해 기술된다.

<수학식 7>

<수학식 8>

여기서, 수학식(7)은 상태방정식, 수학식(8)은 관측방정식이라 불리며, 도 4와 같이 표현된다. 여기서 Xk는 시각 tk의 시스템 상태를 표현하는 것으로, 상태 벡터라고 한다. 시스템의 z-1은 단계지체연산자를 표현하며, Xk+1을 한 시점 앞으로 변환시켜준다.(Xk=z-1Xk+1) 시스템의 과정은 가우스과정에 따른다고 가정되며, 1시점 앞의 상태 Xk+1은 k시점에서의 시스템 행렬 Bk와 시스템의 잡은 Wk를 입력자료로 하는 동적 선형시스템으로 표현된다.

<수학식 9>

<수학식 10>

<수학식 11>

위의 칼만필터 모델에서 상태값 Xk의 변화를 표시하는 행렬 Bk와 시스템의 입출력관계를 표현하는 관측행렬 Ak는 모델의 적용대상의 물리적 구조를 기본으로 설정되며, 관측값 Xk를 도 4의 루프를 통하여 상태량 Qk를 추정한다.

본 발명에서 말하는 지엠디에이치 알고리즘은 기존의 예측기법에 비하여 Data의 효율적인 활용과 정확성에서 보다 우수한 특성을 보인다. 지엠디에이치 알고리즘은 신경망과 달리 매 셀마다 적자생존원칙을 적용하여 필요한 셀들로만 모델링을 진행하기 때문에 상대적으로 더 많은 데이터를 처리 할 수 있다는 장점이 있 다.

지엠디에이치는 <표 1>과 같이 준비된 자료에서 독립변수 X₁, X₂, …, X_m 로써 종속변수 Y^{^}를 근사하게 표현하는 함수 Y=f(X₁, X₂, …, X_m) 를 탐색적으로 찾는 방법이다.

<표 1>은 (X₁, X₂, …, X_m : Y) 데이터 레크드가 N개 세트 준비된 것을 Training set과 Test set으로 두 개로 나누어서 활용하는 것을 보여준다. Training set은 적합한 함수를 찾는데 활용하고, Test set은 찾아진 함수를 평가하는데 활용한다.

지엠디에이치 방법에서는 우선 독립변수를 두개 씩 쌍을 조합하여 종속변수 값을 근사하게 표현하는 함수모형을 만든다. 그 함수모형으로써 종속 변수 값을 가깝게 추정하는 쌍(즉, 그 함수모형)은 생존시키고 그렇지 못한 쌍은 도태시키는 적자생존(the fittest survives)을 적용한다. 적자생존의 기준은 별도로 정한다. 살아남은 각각의 쌍으로 표현되는 함수는 그 다음 세대(또는 간단히 후손)를 형성한다. 다음 번 반복에서는 이 후손들로써 다시 각 두 개씩 쌍을 조합하여 종속 변수값을 추정하는 함수를 만든다. 이렇게 세대를 거듭하면서 생존과 도태를 계속하여 종속변수 값을 추정해 나가되, 더 이상 개선이 이루어지지 않으면 세대교체를 중단하게 된다. 이러한 과정을 세대교체, 적자생존의 평가기준과 Stopping Rule, 이바넨코 다항식(Ivakhnenko polynomial)으로 나누어 설명한다.

<표 1>

현 세대에서 다음세대로 진저하기 위해서 종속변수 Y를 다음과 같은 '기본식

Primitive equations)'으로 추정한다. 여기서 X_g, X_h 는 현 세대에서 조합한 임의의 두 개 변수이고, 계수 A, B, C, D, E, F 는 에러 자승합을 최소화하는 최소자승법(Least Square Method)으로 구한다.(이를 '이바넨코 계수'로 부른다.) 최소자승법을 적용할 때에는 Training set 속의 자료를 이용한다.

Y^{^}= A + BX_gCX_h + DX² _g + EX² _h + FX_g * X_h

이렇게 추정한 식에 의한 Y^{^}의 값들은 부모 세대의 X_g와 X_h 값들보다는 Y값에 더 근접하게 될 것으로 추측할 수 있다. 따라서 Y^{^}들로서 다시 한번 더 Y 추정하는 식을 함수로 찾으면 더 근접한 것을 얻을 수 있을 것으로 기대할 수 있다. 그래서 Y^{^}로서 새오운 세대(제2세대)를 형성하고, 그 다음 세대(제 3세대)를 찾는 세대교체를 반복한다. <표 2>에서 Y^{^}를 다음 세대에서 Z_i으로 표현하였다.

제 1세대의 변수가 m개라면, 제2세대에는 최대 mC2 = m(m-1)/2 개수만큼의 후손을 생성하게 된다. 따라서 세대교체를 계속할수록 후손은 기하급수적으로 증가하게 된다. 세대교체를 반복하면서 더 이상 개선이 없을 때에는 세대교체를 중단하고 현재까지의 후손 중에서 최적의 것을 선택한다.

세대 교체를 반복하는 과정에서 부적합한 후손은 도태시켜서 더 이상 후손을 생성하지 못하게 한다. 이때, 후손의 생존과 도태 여부를 평가(the test of goodness of fit)하기 위해서 다음 식과 같은 평가기준(Regularity Criterion)을 사용한다. 임의의 기준값 R을 미리 설정하고 생성된 후손 Z_i에서 계산한 r² _i가 r² _i ≤ R 이면 생존시키고, r² _i ＞ R 이면 도태시킨다.

<표 2>

지엠디에이치의 제 1세대에서 제 2세대로 세대교체

<수학식 12>

j = 1, 2, …, : 새롭게 생성된 세대내의 각 후손들을 나타내는 첨자

I = nt + 1, nt + 2, …… N : Test set 첨자

z_ij : 같은 세대 안에서 j번째 생성된 후손의 i 번째 원소값

한편, 현 세대 k의 각각의 후손들에게서 계산한 평가값 r_j 중에서 최소인 값 RMINk은 <그래프 1>과 같이 점점 감소하다가 다시 증가하게 된다. RMINk 값이 최소에 이른 세대에서 r_j 값이 최소인 후손이 최적의 후손이 된다.

자료를 Training set과 Test set으로 나누었기 때문에 RMINk은 계속 감소하지 않고 어느 순간 다시 증가하게 되어 과다 모형화(over-fitting 또는 over-specification)를 방지하게 된다.

<그래프 1>

최적 후손을 위한 세대교체의 중단점

최적 후손에는 기본식이 여러 번 중첩되어 내재되어 있다. <표 3>에서 보듯이 X_i와 X_j가 하나의 후손 U를 낳고, X_k와 X_i가 또 하나의 후손 V를 낳은 후, 그 후손 U와 V가 짝을 이루어 후손 W를 낳는 경우, W가 최적의 후손이라고 해보자. 그러면 W는 U와 V로 표현되지만, 실제로는 X_i, X_j, X_k, X_l로 이루어진 다항식을 갖게 된다. 이처럼 기본식이 여러 번 중첩된 것을 독립변수의 다항식으로 표현한 것을 이바넨코 다항식(Ivakhnenko Polynomial)이라고 부른다.

<표 3>

기본식의 중첩과 이바넨코 다항식

지엠디에이치는 신경망과도 매우 유사하다. 앞에서 설명한 기본식(primitive equation)은 두 개가 투입노드와 하나의 산출 노드를 가진 신경망으로 표현할 수 있다. (중간 노드는 임의의 개수 만큼 있음.) 지엠디에이치에 의한 모형은 신경망 모형을 압축한 형태가 된다. 또, 신경망으로 표현되는 함수는 모두 지엠디에이치로도 구축할 수 있다.

일반적으로 차분 방정식(difference equation)에 의한 비선형 다이내믹 시스템의 상태 방정식은 다음과 같다.

x( k + 1 ) = Ф[ x ( k ), u ( k ) ]

y( k ) = ψ[ x ( k ) ]

이때, x( k ), y( k ), u( k )는 각각 상태, 출력, 입력을 Ф[?]와 ψ[?]는 비선형 함수를 나타낸다. 이와 같은 비선형 차분 방정식을 재구성하면 다음과 같은 식으로 나타낼 수 있다. 이때, f[?]는 비선형 함수이다.

y( k + 1 ) = f[ y ( k ), y ( k - 1 ), …, y ( k - n + 1 ), u( k ), … u( k - m + 1 ) ]

지엠디에이치는 입력 노드(input node)들의 집합으로 이루어져 있으며, 이 입력 노드들로부터 출력을 얻기 위하여 중간층들을 거치게 된다. 각 층에서의 노드들은 바로 전단계 층의 노드들의 출력들로부터 두개씩을 취하여 출력을 만들어낸다. 지엠디에이치의 구성도를 도 5에 나타내었다. 도 5에서 z_s _,t는 s번째 층과 t번째 노드의 출력을 나타내며 m은 입력의 개수다. 두 번째 층은 i개의 노드들로 구성되어 있는데,

이고,

이다. 이 부등식들이 성립하는 이유는 뒤에서 언급할 데이터 선택 기준에 의해 영향이 적은 데이터를 버리기 때문이다. 최종적으로 하나의 출력을 얻게 되는 과정도 데이터 선택 기준의 최소값에 의해 결정된다. 모든층과 각각의 노드들의 출력은 다음 식과 같이 2차 방정식의 형태를 취하게 된다.

z_s _,t = a _s, _tz² _(s-1),u + b_s _, _tz² _(s-1),v + c_s _, _tz_(s-1),u + d_s _, _tz_(s-1),v + e_s _, _tz_(s-1),u^z _(s-1),v + f_s _,t

이때, a _s,t, b_s _,t, c_s _,t, d_s _,t, e_s _,t, f_s _,t는 노드의 연결강도(connection weight)이고, 아래첨자 u와 v는 임의의 u번째와 v번째 노드를 가리킨다.

다시 말해서, 지엠디에이치의 원리는 예를 들어 3번째 층으로 들어오는 i개의 입력들의 조합의 수(ci2)에 의해서 다음 층의 노드 수가 결정되고 난 후, 이 노드들의 출력이 계산식에 의해 각가 계산되며, 계산된 출력의 적합성 여부를 성능 기준에 의하여 판별한다는 것이다. 이처럼 각각의 층에서의 적합치 못한 노드들을 판별하기 위해서는, 다음과 같이 원하는 최종 출력과 실제 노드 출력들 사이의 에러를 계산하는 것이다.

여기서 ( z_s _,t)_n은 s번째 층과 t번째 노드의 출력인 z_s _,t벡터의 마지막 요소인 n번째 요소를 의미한다. 이 에러의 크기를 구하여 큰 에러를 가진 노드는 없애고 에러가 작은 노드들만을 가지거 앞서 설명한 과정들을 원하는 출력을 얻을 때까지 반복하게 되는 것이다. 그리고 이 알고리즘은 일반적으로 사용되고 있는 신경망 구조와는 달리 중간층의 수와 노드들의 수가 미리 정해지는 것이 아니다.

일반적인 지엠디에이치 알고리즘에서는 데이터를 취사선택하는 기준으로서 미리 정한 일정한 값 R을 에러 r_s _,t와 비교하여 r_s _,t가 R보다 작으면 그 노드의 출력을 취하고 r_s _,t가 R보다 크면 그 노드의 출력은 버린다. 그러나 이러한 방식을 사용하면, 층이 증가함에 따라서 노드의 출력이 실제의 출력에 점점 가까워지기 때문에 잔존하는 노드의 수가 점점 증가한다. 따라서 알고리즘의 계산량이 증가하는 단점 이 발생한다. 그러므로 본 발명에서는 기준 R을 순차적으로 감소시킴으로써 계산량의 과다를 방지하는 방법을 사용한다.

우선 알고리즘의 종료 방법을 설명하면 각 층에서의 에러의 최소값 IN_s (s=1, 2, …)를 구하여 이 IN_s가 최소가 되는 층에서 알고리즘을 종료한다. 이 과정을 <그래프 2>에 나타내었다. <그래프 2>에서 점으로 표시된 것이 IN_s 이다. 그러므로 s층에서 최소의 에러를 갖는 노드의 출력이 실제의 출력의 추정치가 된다.

<그래프 2>

알고리즘의 종료 방법

<그래프 2>에서 알 수 있듯이 일반적인 지엠디에이치 알고리즘에서는 에러가 R보다 작은 노드들이 모두 선택되며 층이 증가함에 따라서 IN_s 와 R 사이의 간격이 커지므로 노드의 수가 크게 증가한다. 따라서 본 발명에서는 노드의 수가 크게 증가하는 것을 막기 위해 <그래프 2>에 표시했듯이 다음 <수학식 13>과 같은 기준을 선정한다.

<수학식 13>

Rs = IN_s + δ

여기서 δ는 미리 정한 일정한 값이다. 선택 기준을 위의 식과 같이 정함으로써 노드의 수가 크게 증가하는 것을 막을 뿐만 아니라 데이터를 IN_s 에 대하여 균등하게 선택할 수 있다는 것을 알 수 있다.

<수학식 13>으로 나타낸 비선형 시스템을 모델링하기 위한 지엠디에이치 알고리즘을 다음과 같이 3 단계로 나누어 설명할 수 있다.

단계 1. 변수벡터의 구성

<수학식 13>에 의하여 k 순간에서 s층의 t번째 노드의 출력 z_s _,t(k)를 다음 식과 같이 간단하게 표현할 수 있다.

z_s _,t(k) = X_s _-1θ_s

이때, X_s _-1 = [z² _(s-1),u(k) z² _(s-1),v(k) z_(s-1),u(k) z_(s-1),v(k) z_(s-1),u(k) z_(s-1),v(k)]

θ_s = [a_s _,t b_s _,t c_s _,t d_s _,t e_s _,t f_s _,t]^T

여기서 X_s _-1은 차수가 n×6인 데이터 벡터로서 두 벡터 입력 z_(s-1),u(k)와 z_{(s- 1),v}(k)를 합성한 것이다. (k+1)인 순간에 첫번째 층의 입력과 출력은 <표 4>와 같다. 지엠디에이치로 비선형 다이내믹 시스템을 모델링할 때 인가되는 입력 벡터는 (m+n)개이다. 각 벡터의 요소는 p개이며 임의로 정해진다. P의 크기에 따라서 인가되는 데이터의 양이 결정된다. 이때 z_s _,t(k) 를 얻기 위해서는, 계수 벡터인 연결강도 θ_s 를 얻어야 한다. 각 노드의 출력 z_s _,t(k) 가 최종적으로 시스템의 출력 y(k)가 되도록 하는 것이 이 알고리즘의 목적이므로 그 일반식은 다음과 같다.

θ_s = (X^T _s _-1X_s _-1)^-1X^T _s _-1y(k)

단계 2. 영향이 적은 데이터의 제거

단계 1에서 구해진 모든 노드들의 출력들이 다음 층으로 전달되는 것은 아니다. 즉 적자 생존의 원칙을 적용해야 한 다. 일반적인 지엠디에이치에서는 출력과 새로 생성된 데이터를 훈련 부분과 검사 부분으로 나누어야 한다. 그래서 출력과 생성된 데이터의 훈련부분 과정에서 구해진 평균제곱 에러에 의해 필요없는 노드들을 제거한다. 이를 수행하는 방법들에는 여러 가지가 제시되고 있으나 본 발명에서는 비선형 시스템을 동적으로 모델링하고자 하므로 <표 4>의 모든 데이터를 훈련 부분에서 사용하고 데이터 벡터의 마지막 요소를 검사 부분으로 사용하였다.

r_s _,t 값의 증가순으로 s층의 모든 z_s _,t(k)를 다시 정렬시킨다. 그리고 기준값 R_s보다 큰 값을 갖는 노드들을 제거한다. 그리고 제거되지 않은 변수 z_s _,t(k)들을 (s+1)층의 입력으로 사용한다.

단계 3. 최적성의 시험

이 단계에서는 훈련을 계속할지를 판별하기 위하여, 단계 2에서 계산된 r_s _,t들의 최소값 IN_s를 전 단계의 IN_s _-1과 비교하는 것이다. 그 중에서 최소값 IN_s 를 구하여 R_s를 구한다. <그래프 2>와 같이 IN_s＜ IN_s _- ₁ 이면 단계 1과 2를 반복하고, IN_s ≥ IN_s _- ₁ 이면 RNIN_s _-1에 해당하는 z_(s-1),t(k)를 출력의 추정치 ^{^}y(k)로 보고 모든 훈련을 끝내게 되는 것이다. 그러면 이 z_(s-1),t(k) 는 Ivakhnenko 다항식이 된다.

<표 4>

지엠디에이치의 입력과 출력

이상에서 설명한 바와 같이 본 발명에 따른 지엠디에이치 알고리즘을 이용한 물 수요예측 방법에 의하면, 수운영 시스템의 안정된 운영을 위해 지능형 모델링과 비선형 모델 예측제어 기법을 활용하여 최적의 에측 수요량을 결정하는 효과가 있다.

또한, 지능형 모델의 예측수요량과 실제 수요량과의 평균 오차를 10%이하로 설정되도록 하며, 간접 정보인 수운영 대상분기의 과거운영데이터를 수요예측의 기준 및 안정화의 목표로 선정하여 최적 수요예측의 온라인 설정에 의한 운영을 수행하도록 하여 수요예측의 자동화에 의한 인력절감 및 수운영의 효율화 및 경제성 향상을 수행할 수 있다.

또한, 본 발명에서는 수요예측 공정의 지엠디에이치 모델링과 비선형 모델 예측제어 기법에 의해 최적의 예측수요량을 결정함과 아울러, 수요예측공정의 고효율성과 안정성이 필수적인 수운영 시스템의 비선형 공정 최적화, Auto Tuning 등 수운영 S/W의 최적 구조와 파마메터 탐색을 구현하고, 시스템의 신뢰성 향상과 유지보수, 표준화, 기술력 확보에 도움을 줄 뿐만 아니라, 고도제어기술에 의해 수운영 시스템의 전체 효율과 기능의 향상이 달성될 수 있는 효과가 있다.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예는 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

도 1은 수운영 시스템의 개요를 보인 도면이다.

도 2는 일 수요예측의 주요 기능에 대한 운영 흐름도이다.

도 3은 시스템의 상태를 순차적으로 추정한 칼만 필터 모델의 개념도이다.

도 4는 칼만 필터의 이산형 동적 선형시스템을 나타낸 도면이다.

도 5는 지엠디에이치 구조의 구성도이다.

Claims

수운영 시스템에 제공된 데이터 입력 및 저장부를 이용하여 수요변동과 기상여건 및 계절별 요인중 적어도 하나에 의한 변동사항을 반영하여 취수장과 정수장 및 가압장을 연계 운영함으로써, 안정된 물의 공급량을 확보하도록 지엠디에이치 알고리즘을 활용한 물 수요예측의 지능형 모델을 구축하는 지능형 모델 구축 단계와;

상기 수운영 시스템에 제공된 데이터 처리 과정부를 이용하여 상기 지능형 모델 구축 단계를 통해 구축된 상기 지능형 모델을 토대로 일 배수량 데이터와 시간별 배수량 데이터 및 시간별 분기 유입량 데이터와 사업장별 유출 유입량 데이터 및 취송수 데이터와 수압 조정 데이터중 적어도 하나의 데이터에 해당하는 현재의 물 수요량 및 기상 상태에서의 물 수요 예측량을 결정하여 산출하는 물 수요예측 소프트웨어를 상기 수운영 시스템에 제공된 컴퓨터에 구성하여 해당 데이터를 처리하는 데이터 처리 과정 단계; 및

상기 수운영 시스템에 제공된 데이터 처리 결과부를 이용하여 상기 데이터 처리 과정 단계를 통해 처리된 해당 데이터를 LAN 네트워크를 통해 연결된 상기 수운영 시스템의 호스트 컴퓨터 및 기상정보를 가지고 있는 데이터베이스에 전송하는 데이터 처리 결과 단계를 포함하는 지엠디에이치 알고리즘을 이용한 물수요 예측방법.
삭제