KR101155712B1 - Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법 - Google Patents

Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법 Download PDF

Info

Publication number
KR101155712B1
KR101155712B1 KR1020090134756A KR20090134756A KR101155712B1 KR 101155712 B1 KR101155712 B1 KR 101155712B1 KR 1020090134756 A KR1020090134756 A KR 1020090134756A KR 20090134756 A KR20090134756 A KR 20090134756A KR 101155712 B1 KR101155712 B1 KR 101155712B1
Authority
KR
South Korea
Prior art keywords
algorithm
ridge regression
variable
rating
optimal
Prior art date
Application number
KR1020090134756A
Other languages
English (en)
Other versions
KR20110078043A (ko
Inventor
오경주
박준홍
이기현
노도영
안재준
김민식
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020090134756A priority Critical patent/KR101155712B1/ko
Publication of KR20110078043A publication Critical patent/KR20110078043A/ko
Application granted granted Critical
Publication of KR101155712B1 publication Critical patent/KR101155712B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Tourism & Hospitality (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Algebra (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)

Abstract

본 발명은 지하수오염 취약성 등급평가 방법에 있어서, 입력변수인 DRASTIC 영향인자에 대한 데이터를 확보하고, 오염물질 변화량 중 하나 이상을 종속변수로 선정하는 S1 단계; 상기 입력변수와 종속변수를 표준 회귀모형에 적용하는 S2 단계;능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)를 획득하는 S3 단계; MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, 상기 DRASTIC 7개 영향인자 중 하나 이상의 영향인자를 선택하여 유전자알고리즘(GA)에 적용시키는 S4 단계; 유전자알고리즘(GA)을 적용하여 DRASTIC 영향인자가 선택되는 각 조건하에서의 최적 MSE(MSE')와 k값(k')를 탐색하여 최적 입력변수를 선정하는 S5 단계; 및 S5 단계에서 선정된 최적 입력변수를 등급평가 알고리즘에 적용하여 등급평가를 수행하는 S6 단계를 포함하는 것을 특징으로 하는 GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법에 관한 것이다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 실제 환경적 특성을 반영시켜 정확한 등급평가가 수행되는 효과가 있다. 그리고 능형회귀 알고리즘과 유전자알고리즘을 결합하여 최적 영향인자를 선정할 수 있는 효과가 있다.
지하수오염취약성, 등급평가, DRASTIC, GA-RIDGE REGRESSION 알고리즘

Description

GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법{ASSESSMENT METHOD FOR RATING UNDERGROUNDWATER CONTAMINATION VULNERABILITY USING OPTIMUM INPUT VARIABLE SELECTED BY GA-RIDGE REGRESSION}
본 발명은 지하수 오염취약성 등급평가 분야에 관한 기술이다. 구체적으로 실제 환경적 요인을 정확히 반영하기 위하여 RASTIC 7개 영향인자 중 최적 영향인자를 GA-RIDGE REGRESSION 알고리즘으로 선정하여 지하수 오염취약성 등급평가를 하는 것에 관한 것이다.
종래기술은 지하수 오염취약성을 평가하기 위하여DRASTIC 모델을 이용해 왔다. DRASTIC 모델은 1987년 미국 EPA에서 개발한 모델로 현재 전 세계적으로 널리 사용되고 있는 모델이다.
DRASTIC 7개 영향인자에 있어서, 지하수면의 깊이(D)는 ‘Depth of water’의미하고, 순수 충진량(R)은 ‘net Recharge’를 의미하고, 대수층 매질(A)은 ‘Aquifer’를 의미하고, 토양 매질(S)은 ‘Soil media’를 의미하고, 지형 혹은 경사(T)는 ‘Topography or slop’를 의미하고, 비포화대 매질(I)은 ‘Impact of vadose zone Conductivity’를 의미하고, 수리 전도도(C)는 ‘hydraulic Conductiyity’를 의미한다.
하지만 이러한 DRASTIC 모델은 미국 토양 매질에 최적화 된 모델이다. 따라서 각 나라별로 토양매질의 특성이나 수질의 특성과는 정확하게 부합되지 않는 부분이 발생하는 문제점이 있다.
즉 실제 환경하에서는 7개 영향인자 중 영향력이 큰 영향인자도 있을 수 있고, 영향력이 없는 영향인자도 있을 수 있는데, 종래기술은 7개 영향인자를 모두 적용시키는 것에 의해 실제 환경적 특성과 부합되지 않는 문제점을 내포하고 있는 것이다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 다음과 같은 해결과제를 목적으로 한다.
첫째, 지하수 오염취약성 등급평가시에 실제 환경적 특성을 반영시켜 정확한 등급평가가 이루어 지게 하고자 한다.
둘째, 최적 영향인자를 선정하기 위해 통계기법과 인공지능기법을 결합하고자 한다.
본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해 되어질 수 있을 것이다.
본 발명은 지하수오염 취약성 등급평가 방법에 관한 것으로서, GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법에 관한 것이다.
본 발명은 입력변수인 DRASTIC 영향인자에 대한 데이터를 확보하고, 오염물질 변화량 중 하나 이상을 종속변수로 선정하는 S1 단계를 포함한다.
본 발명은 입력변수와 종속변수를 표준 회귀모형에 적용하는 S2 단계를 포함한다.
본 발명은 능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)를 획득하는 S3 단계를 포함한다.
본 발명은 MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, DRASTIC 7개 영향인자 중 하나 이상의 영향인자를 선택하여 유전자알고리즘(GA)에 적용시키는 S4 단계를 포함한다.
본 발명은 유전자알고리즘(GA)을 적용하여 DRASTIC 영향인자가 선택되는 각 조건하에서의 최적 MSE(MSE')와 k값(k')를 탐색하여 최적 입력변수를 선정하는 S5 단계를 포함한다.
본 발명은 S5 단계에서 선정된 최적 입력변수를 등급평가 알고리즘에 적용하여 등급평가를 수행하는 S6 단계를 포함한다.
본 발명에 따른 S1 단계의 경우, DRASTIC 영향인자는 지하수면의 깊이(D), 순수 충진량(R), 대수층 매질(A), 토양 매질(S), 지형 혹은 경사(T), 비포화대 매질(I) 및 수리 전도도(C) 중 적어도 하나의 값인 것이 바람직하다.
본 발명에 따른 S1 단계의 종속변수로 선정되는 오염물질 변화량은 트리클로로에틸렌(TCE) 농도 변화율인 것이 가능하다.
본 발명에 따른 S2 단계의 표준 회귀모형은 아래 수학식인 것이 바람직하다.
[수학식]
Figure 112009081878342-pat00001
여기서,
Figure 112009081878342-pat00002
은 입력변수 값,
Figure 112009081878342-pat00003
는 종속변수 값,
Figure 112009081878342-pat00004
는 입력변수별 회귀계수 값,
Figure 112009081878342-pat00005
는 오차값이다.
본 발명에 따른 S3 단계에서 능형회귀계수는 아래 수학식으로 추출되는 것이바람직하다.
[수학식]
Figure 112009081878342-pat00006
여기서,
Figure 112009081878342-pat00007
는 능형회귀계수,
Figure 112009081878342-pat00008
는 능형회귀계수의 추정치,
Figure 112009081878342-pat00009
는 i번째 예측변수와 j번째 예측변수와의 상관계수,
Figure 112009081878342-pat00010
는 i번째 예측변수와 반응변수
Figure 112009081878342-pat00011
사이의 상관계수이다.
본 발명에 따른 S5 단계의 경우, 유전자 알고리즘으로 탐색된 최적 MSE값(MSE')과 k값(k')이 아래의 수학식을 만족할 때까지 유전자 알고리즘을 수행하는 것이 바람직하다.
[수학식]
Figure 112009081878342-pat00012
본 발명에 따른 S6 단계의 등급평가 알고리즘은 ANN, DT, MLR 및 CBR 중 어느 하나 이상인 것이 바람직하다.
본 발명에 따른 GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템은 최초 입력변수인 DRASTIC 영향인자에 관한 데이터를 확보하고, 오염물질 변화량 중 하나 이상을 종속변수로 선정하는 변수선정부; 최초 입력변수와 종속변수를 표준 회귀모형에 대입하여 계산하는 변수계산부; 능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)를 획득하는 계수획득부; MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, DRASTIC 영향인자 중 적어도 하나를 선택하여 유전자알고리즘(GA)에 적용시키는 유전자알고리즘 작동부; 유전자 알고리즘을 적용하여 각 조건하에서의 최적 MSE(MSE')와 k값(k')를 탐색하여 최적의 입력변수를 선정하는 최적입력변수 선정부; 선정된 최적 입력변수를 등급평가 알고리즘에 적용하여 등급평가가 수행되는 등급평가부; 및 산출된 등급평가가 출력되는 출력부를 포함하는 것이 바람직하다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 실제 환경적 특성을 반 영시켜 정확한 등급평가가 수행되는 효과가 있다. 그리고 능형회귀 알고리즘과 유전자알고리즘을 결합하여 최적 영향인자를 선정할 수 있는 효과가 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해 되어질 수 있을 것이다.
이하에서는 본 발명에 따른 지하수 오염취약성 등급평가 방법에 관하여 구체적으로 설명하겠다.
본 발명은 지하수 오염취약성의 최적 영향인자 선정을 위해 통계적 기법과 인공지능 기법을 결합한 앙상블 모델에 관한 것이다.
본 발명은 실제 환경적 특성을 정확히 반영하기 위해서는 종래 DRASTIC 7개 영향인자를 환경특성과 무관하게 항상 모두 사용하는 것이 부적절하다는 문제인식에 기반하여 도출된 것이다.
또한 본 발명은 사람의 주관적인 판단을 배제하고, 철저히 계산되고 시스템 분석에 의해 최적 변수를 골라낼 수 있도록 하기 위해 인공지능 기법을 적용한 것이다.
본 발명자는 이를 위해 GA-RIDGE REGRESSION 알고리즘을 새로이 개발하였다. GA-RIDGE REGRESSION 알고리즘이란 대표적인 통계기법인 선형회귀분석의 다중공선성 문제를 보완한 능형 회귀분석 (Ridge Regression)으로 예측한 값과 종속변수의 오차를 최소화 시킬 수 있도록 영향인자들을 인공지능 방법론 중 대표적인 최적화 기법인 유전자알고리즘(Genetic Algorithm; GA)을 이용하여 선정하는 방법을 말한다.
본 발명에 따른 GA-RIDGE REGRESSION 알고리즘은 유전자알고리즘과 능형회귀분석을 결합한 변수최적화 모델이다.
본 발명은 원주의 우산공단을 조사대상지역으로 선정하여, 본 발명에 따른 지하수 오염취약성 등급평가를 실제로 수행하였다. 우산공단의 경우, 발암성 물질인 트리클로로에틸렌(TCE; trichloroethylene)의 농도 변화율을 종속변수로 선정하였다.
즉 본 발명에 따른 지하수 오염취약성 등급평가 방법에 있어서, 종속변수는 sample 지역으로 선정한 우산공단 지역의 TCE 농도의 변화량으로 설정하며, 입력변수는 DRASTIC 7인자를 대상으로 하였다.
DRASTIC 7개 영향인자에 있어서, 지하수면의 깊이(D)는 ‘Depth of water’의미하고, 순수 충진량(R)은 ‘net Recharge’를 의미하고, 대수층 매질(A)은 ‘Aquifer’를 의미하고, 토양 매질(S)은 ‘Soil media’를 의미하고, 지형 혹은 경사(T)는 ‘Topography or slop’를 의미하고, 비포화대 매질(I)은 ‘Impact of vadose zone Conductivity’를 의미하고, 수리 전도도(C)는 ‘hydraulic Conductiyity’를 의미한다.
DRASTIC 7개 영향인자는 해당 조사지역의 관정(管井)별로 데이터가 확보되는 것이 일반적이다.
종속변수인 오염물질 변화량은 해당 조사지역에서 문제가 되는 오염물질을 선택하는 것이 일반적이다. 오염물질은 1개가 선택될 수도 있으며, 2개 이상이 선택될 수도 있다.
유전자 알고리즘(Genetic Algorithm)은 J. H. Holland(1975)에 의해 처음 개발된 최적화 기법으로서, 인간 유전자의 변천과정을 본뜬 인공지능기법을 말한다. 인간의 유전자가 선택(selection), 교차(crossover) 및 돌연변이(mutation) 과정을 거친다는 것에 착안하여 설계되었으며, 이러한 과정을 거치면서 적합도함수(fitness function)를 이용하여 최적화가 이루어진다. 기본단위인 유전자(chromosome)로 구성되는 집단(population)을 대상으로 하여, 그 곳에 속한 각 유전자 및 이들이 변환된 유전자가 주어진 문제를 가장 잘 만족시키는 해(near-optimal solution)일 수 있다고 가정한다. 각 염색체가 선택, 교차 및 돌연변이 과정을 통해 각 유전자에 대한 적합도 함수 값이 가장 만족스러운 상황에 이를 때까지 반복적인 학습을 진행하는 것이다.
능형회귀분석(Ridge Regression)은 예측변수들이 상당히 공선적일 때 사용될 수 있는 또 다른 추정방법이다. 능형회귀분석은 공선성의 탐색과 회귀계수의 추정을 동시에 처리해 주는 방법이다. 이 때의 회귀계수들의 능형 추정량들은 편향되어 있으나, 일반적으로 최소자승법(ordinary least square; OLS) 추정량 보다 더 작은 최소제곱오차를 가지는 경향이 있는 것으로 알려져 있다.
도 1은 본 발명에 따른 지하수 오염취약성 등급평가 방법에 관한 개요도이다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 입력변수인 DRASTIC 7개 영향인자에 대한 데이터를 확보하고, 오염물질 변화량 중 하나 이상을 종속변수로 선정하는 S1 단계를 포함한다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 입력변수와 종속변수를 표준 회귀모형에 적용하는 S2 단계를 포함한다.
본 발명에 따른 S1 단계의 경우, DRASTIC 7개 영향인자는 지하수면의 깊이(D), 순수 충진량(R), 대수층 매질(A), 토양 매질(S), 지형 혹은 경사(T), 비포화대 매질(I) 및 수리 전도도(C)를 의미한다.
본 발명에 따른 S1 단계의 종속변수인 오염물질 변화량은 트리클로로에틸렌(TCE) 농도 변화율이 선정될 수 있다.
본 발명에 따른 S2 단계의 표준 회귀모형에는 아래 수학식 1이 적용될 수 있다
Figure 112009081878342-pat00013
여기서,
Figure 112009081878342-pat00014
은 입력변수 값,
Figure 112009081878342-pat00015
는 종속변수 값,
Figure 112009081878342-pat00016
는 입력변수별 회귀계수 값,
Figure 112009081878342-pat00017
는 오차값이다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)를 추출하는 S3 단계를 포함한다.
본 발명에 따른 S3 단계에서 능형회귀계수는 아래 수학식 2로 추출될 수 있다.
Figure 112009081878342-pat00018
여기서,
Figure 112009081878342-pat00019
는 능형회귀계수,
Figure 112009081878342-pat00020
는 능형회귀계수의 추정치,
Figure 112009081878342-pat00021
는 i번째 예측변수와 j번째 예측변수와의 상관계수,
Figure 112009081878342-pat00022
는 i번째 예측변수와 반응변수
Figure 112009081878342-pat00023
사이의 상관계수이다.
수학식 2의 해인 식(2)의 해,
Figure 112009081878342-pat00024
는 능형회귀계수의 추정치가 된다.
능형회귀가 OLS와 다른 점은 k에 있다. k=0 이면
Figure 112009081878342-pat00025
은 OLS 추정치가 된다. 이 때 모수 k를 편향모수(bias parameter) 혹은 능형모수(ridge parameter)라 부르며, k가 0으로부터 증가하게 되면 추정치의 편향도 증가하게 된다. 반면, 전체분산은 다음 수학식 3과 같이 k의 감소함수이다.
Figure 112009081878342-pat00026
수학식 3은 회귀의 능형 추정량의 전체 분산에 대한 능형모수 k의 영향을 보여주고 있다. k를 무한히 계속 증가시키면 회귀계수의 추정치는 모두 0으로 접근하는 경향이 있다. 능형회귀의 아이디어는 편의를 증가시키지 않으면서 전체 분산을 감소시키는 적절한 k를 찾는 것이다.
이제 GA-RIDGE REGRESSION 알고리즘을 이용한 최적 변수선정에 대해 살펴본다.
상기 수학식 1에서 입력변수를 의미하는
Figure 112009081878342-pat00027
에 DRASTIC 7인자 data 를 대입하고 출력변수를 의미하는
Figure 112009081878342-pat00028
에 TCE농도 변화율 data를 대입하면 다음과 같은 TCE농도 예측 회귀식인 수학식 4로 나타낼 수 있다.
Figure 112009081878342-pat00029
본 발명에 따른 지하수 오염취약성 등급평가 방법은 MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, 상기 DRASTIC 7개 영향인자 중 하나 이상의 영향인자를 선택하여 유전자알고리즘(GA)에 적용시키는 S4 단계를 포함한다.
본 발명은 능형회귀 알고리즘을 이용하여 예측된
Figure 112009081878342-pat00030
와 실제 값인 Y의 오차의 제곱합을 의미하는 평균제곱오차(MSE)가 가장 작아지는 능형회귀계수인 k값을 찾는다. 여기서 MSE값과 k값을 각각 MSE0,
Figure 112009081878342-pat00031
이라 하겠다.
그 후 목적함수가 MSE값을 최소화 시키는 것으로 설정하고 k값을 0부터 아주 작은 수의 범위(예를 들면, 0.00001)까지, 그리고 7개 변수를 모두 사용하는 것부터 1가지 변수만 사용하는 범위 내에서 다양하게 탐색하는 것을 조정 파라미터로 설정하여 GA 알고리즘을 적용시킨다.
본 발명에 따른 지하수 오염취약성 등급평가 방법은 유전자알고리즘(GA)을 적용하여 DRASTIC 영향인자가 선택되는 각 조건하에서의 최적 MSE(MSE')와 k값(k')를 탐색하여 최적 입력변수를 선정하는 S5 단계를 포함한다.
GA 알고리즘을 이용해 탐색된 최적 MSE값과 k값을 각각 MSE', k'라고 하면, 다음과 같은 수학식 5 조건이 만족할 때 까지 충분히 많은 횟수만큼 GA알고리즘을 수행하여 그 때 선정된 최적의 입력변수들을 선택하게 된다.
Figure 112009081878342-pat00032
본 발명에 따른 지하수 오염취약성 등급평가 방법은 S5 단계에서 선정된 최적 입력변수를 등급평가 알고리즘에 적용하여 등급평가를 수행하는 S6 단계를 포함한다.
본 발명에 따른 등급평가 알고리즘은 ANN(Artifitial Neural Network), DT(Decision Tree), MLR(Multinomial Logistics Regression) 및 CBR(Case based reasoning) 중 어느 하나 이상인 것이 바람직하다. 즉 하나의 알고리즘을 이용하여 평가하는 것도 가능하고, 2개의 알고리즘을 이용하여 평가하는 것도 가능하다.
본 발명에 따라 인공지능 알고리즘을 통해 오염취약성 등급을 구분하는 데 있어서, 우선 기존의 DRASTIC 7인자를 모두 사용하는 <입력변수 그룹1 >과 GA_Ridge Regression을 이용하여 주요 영향인자를 선정한 <입력변수 그룹2>를 비교하면 다음 표 1과 같다.
<입력변수 그룹1 >
기존의 DRASTIC 7인자
D(지하수면깊이), R(순수충진량), A(토양매질), S(대수층매질),
T(지형,경사), I(비포화대 매질), C(수리전도도)
<입력변수 그룹2 >
GA_Ridge Regression을 이용하여 선정한 주요 영향인자
D(지하수면깊이), R(순수충진량), T(지형,경사), I(비포화대 매질)
이렇게 두 그룹의 변수를 입력변수로 하여 Test-Bed 지역의 데이터를 이용하여 통계적 기법을 통한 지하수 취약성 등급 산정을 하며 ANN, DT, MLR 과 CBR을 이용하여 지하수오염취약성 등급평가를 하여 정 분류율(Hit rate)을 기준으로 가장 효과적인 분석 기법을 도출해보았다.
결과를 비교하는데 있어서 training sample의 정분류율과 testing sample의 정분류율의 차이가 크지 않으며, 정분류율의 성과 수치를 판단기준으로 하여 결과를 분석해 보면 다음 표 2와 같음을 알 수 있다.
ANN DT MLR CBR
training testing training testing training testing training testing
입력변수 그룹1 0.57 0.44 0.63 0.43 0.55 0.40 0.65 0.50
입력변수 그룹2 0.56 0.47 0.61 0.61 0.54 0.47 0.68 0.59
결과를 분석해보면 네 가지 기법 중 DT와 CBR이 비교적 성과가 좋게 나타나 가장 적합한 알고리즘으로 판단된다. 하지만 이 네가지 알고리즘 모두 정분류율이 기존 국내 DRATIC 7인자 평가모델의 정분류율의 기존 값이 33%보다 월등히 우수함으로써, 본 연구에서 개발된 지하수오염취약성 등급 평가 모델의 현장 적용이 유용하다고 판단된다.
또한 전체적으로 그룹1을 입력변수로 사용하였을 때 보다 그룹 2를 입력변수로 사용하였을 경우 성과가 약간 더 좋아지는 것을 볼 수 있다. 특히 그룹2를 입력 사용하였을 경우 그룹 1을 입력변수로 사용하였을 경우 보다 네 가지 알고리즘 모두 training sample의 정분류율과 testing sample의 정분류율의 차이가 크지 않으므로 안정적인 모델을 만들기 위해 그룹 2가 입력변수로 더욱 적합한 것으로 나타남을 관찰할 수 있었다. 따라서 본 발명의 효과를 재확인 할 수 있다.
한편, 본 발명에 따른 GA-RIDGE REGRESSION 알고리즘이 적용된 등급평가 시스템 즉 장치로 구현되는 것도 가능하다. 본 시스템은 출력부를 가져 등급평가결과가 출력부를 통해 출력되는 것이 가능하다. 출력형태는 주지의 다양한 형태가 가능할 것이다. 출력부 이외의 다른 구성요소는 지하수 오염취약성 등급평가 방법과 기본적으로 동일하므로 중복된 설명은 생략하고자 한다.
본 발명에 따른 GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템은, 최초 입력변수인 DRASTIC 영향인자에 관한 데이터를 확보하고, 오염물질 변화량 중 하나 이상을 종속변수로 선정하는 변수선정부; 최초 입력변수와 종속변수를 표준 회귀모형에 대입하여 계산하는 변수계산부; 능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)를 획득하는 계수획득부; MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, DRASTIC 영향인자 중 적어도 하나를 선택하여 유전자알고리즘(GA)에 적용시키는 유전자알고리즘 작동부; 유전자 알고리즘을 적용하여 각 조건하에서의 최적 MSE(MSE')와 k값(k')를 탐색하여 최적의 입력변수를 선정하는 최적입력변수 선정부; 선정된 최적 입력변수를 등급평가 알고리즘에 적용하여 등급평가가 수행되는 등급평가부; 및 산출된 등급평가가 출력되는 출력부를 포함하는 것이 바람직하다.
본 실시예 및 본 명세서에 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시 예는 모두 본 발명의 권리범위에 포함되는 것이 자명하다고 할 것이다.
도 1은 본 발명에 따른 지하수 오염취약성 등급평가 방법의 순서를 나타내는 개념도이다.

Claims (14)

  1. 지하수오염 취약성 평가 시스템에서 지하수오염 취약성 등급평가 방법에 있어서,
    입력변수인 DRASTIC 영향인자에 대한 데이터가 확보되고, 오염물질 변화량 중 하나 이상의 종속변수가 선정되는 S1 단계;
    상기 입력변수와 종속변수가 표준 회귀모형에 적용되는 S2 단계;
    능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)가 획득되는 S3 단계;
    MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, 상기 DRASTIC 영향인자 중 하나 이상의 영향인자가 선택되여 유전자알고리즘(GA)에 적용되는 S4 단계;
    유전자알고리즘(GA)을 적용하여 DRASTIC 영향인자가 선택되는 각 조건하에서의 최적 MSE(MSE')와 k값(k')이 탐색되어 최적 입력변수가 선정되는 S5 단계; 및
    S5 단계에서 선정된 최적 입력변수가 등급평가 알고리즘에 적용되어 등급평가가 수행되는 S6 단계를 포함하는 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
  2. 제1항에 있어서,
    상기 S1 단계의 경우, DRASTIC 영향인자는 지하수면의 깊이(D), 순수 충진량(R), 대수층 매질(A), 토양 매질(S), 지형 혹은 경사(T), 비포화대 매질(I) 및 수리 전도도(C) 중 적어도 하나의 값인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
  3. 제1항에 있어서,
    상기 S1 단계의 종속변수로 선정되는 오염물질 변화량은 트리클로로에틸렌(TCE) 농도 변화율인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
  4. 제1항에 있어서,
    상기 S2 단계의 표준 회귀모형은 아래 수학식인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
    [수학식]
    Figure 112009081878342-pat00033
    여기서,
    Figure 112009081878342-pat00034
    은 입력변수 값,
    Figure 112009081878342-pat00035
    는 종속변수 값,
    Figure 112009081878342-pat00036
    는 입력변수별 회귀계수 값,
    Figure 112009081878342-pat00037
    는 오차값이다.
  5. 제1항에 있어서,
    상기 S3 단계에서 상기 능형회귀계수는 아래 수학식으로 추출되는 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
    [수학식]
    Figure 112009081878342-pat00038
    여기서,
    Figure 112009081878342-pat00039
    는 능형회귀계수,
    Figure 112009081878342-pat00040
    는 능형회귀계수의 추정치,
    Figure 112009081878342-pat00041
    는 i번째 예측변수와 j번째 예측변수와의 상관계수,
    Figure 112009081878342-pat00042
    는 i번째 예측변수와 반응변수
    Figure 112009081878342-pat00043
    사이의 상관계수이다.
  6. 제1항에 있어서,
    상기 S5 단계의 경우, 유전자 알고리즘으로 탐색된 최적 MSE값(MSE')이 아래의 수학식을 만족할 때까지 유전자 알고리즘을 수행하는 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
    [수학식]
    Figure 112011028925215-pat00044
  7. 제1항에 있어서,
    상기 S6 단계의 등급평가 알고리즘은 DT, MLR 및 CBR 중 어느 하나 이상인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법.
  8. 지하수오염 취약성 등급평가 시스템에 있어서,
    최초 입력변수인 DRASTIC 영향인자에 관한 데이터를 확보하고, 오염물질 변화량 중 하나 이상을 종속변수로 선정하는 변수선정부;
    상기 최초 입력변수와 종속변수를 표준 회귀모형에 대입하여 계산하는 변수계산부;
    능형회귀 알고리즘을 이용하여 평균제곱오차(MSE0)가 최소화되는 능형회귀계수(k0)를 획득하는 계수획득부;
    MSE 값을 최소화하도록 k값을 가변적용하는 조건하에서, 상기 DRASTIC 영향인자 중 적어도 하나를 선택하여 유전자알고리즘(GA)에 적용시키는 유전자알고리즘 작동부;
    유전자 알고리즘을 적용하여 각 조건하에서의 최적 MSE(MSE')와 k값(k')를 탐색하여 최적의 입력변수를 선정하는 최적입력변수 선정부;
    선정된 최적 입력변수를 등급평가 알고리즘에 적용하여 등급평가가 수행되는 등급평가부; 및
    산출된 등급평가가 출력되는 출력부를 포함하는 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
  9. 제8항에 있어서,
    상기 변수선정부의 경우, DRASTIC 영향인자는 지하수면의 깊이(D), 순수 충진량(R), 대수층 매질(A), 토양 매질(S), 지형 혹은 경사(T), 비포화대 매질(I) 및 수리 전도도(C) 중 적어도 하나의 값인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
  10. 제8항에 있어서,
    상기 변수선정부의 경우, 종속변수로 선정되는 오염물질 변화량은 트리클로로에틸렌(TCE) 농도 변화율인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
  11. 제8항에 있어서,
    상기 변수계산부의 표준 회귀모형은 아래 수학식인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
    [수학식]
    Figure 112009081878342-pat00045
    여기서,
    Figure 112009081878342-pat00046
    은 입력변수 값,
    Figure 112009081878342-pat00047
    는 종속변수 값,
    Figure 112009081878342-pat00048
    는 입력변수별 회귀계수 값,
    Figure 112009081878342-pat00049
    는 오차값이다.
  12. 제8항에 있어서,
    상기 계수획득부의 경우, 상기 능형회귀계수는 아래 수학식으로 획득되는 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
    [수학식]
    Figure 112009081878342-pat00050
    여기서,
    Figure 112009081878342-pat00051
    는 능형회귀계수,
    Figure 112009081878342-pat00052
    는 능형회귀계수의 추정치,
    Figure 112009081878342-pat00053
    는 i번째 예측변수와 j번째 예측변수와의 상관계수,
    Figure 112009081878342-pat00054
    는 i번째 예측변수와 반응변수
    Figure 112009081878342-pat00055
    사이의 상관계수이다.
  13. 제8항에 있어서,
    상기 최적입력변수 선정부의 경우, 유전자 알고리즘으로 탐색된 최적 MSE값(MSE')이 아래의 수학식을 만족할 때까지 유전자 알고리즘을 수행하는 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
    [수학식]
    Figure 112011028925215-pat00056
  14. 제8항에 있어서,
    상기 등급평가부의 등급평가 알고리즘은 DT, MLR 및 CBR 중 어느 하나이상인 것을 특징으로 하는
    GA-RIDGE REGRESSION 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 시스템.
KR1020090134756A 2009-12-30 2009-12-30 Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법 KR101155712B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090134756A KR101155712B1 (ko) 2009-12-30 2009-12-30 Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090134756A KR101155712B1 (ko) 2009-12-30 2009-12-30 Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법

Publications (2)

Publication Number Publication Date
KR20110078043A KR20110078043A (ko) 2011-07-07
KR101155712B1 true KR101155712B1 (ko) 2012-06-12

Family

ID=44917558

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090134756A KR101155712B1 (ko) 2009-12-30 2009-12-30 Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법

Country Status (1)

Country Link
KR (1) KR101155712B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102266838B1 (ko) * 2020-08-28 2021-06-18 대한민국 현장센서 및 머신러닝을 이용한 매몰지 침출수 감시기법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100105117A (ko) * 2009-03-20 2010-09-29 부경대학교 산학협력단 지시크리깅을 이용한 지하수 오염가능성 평가 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100105117A (ko) * 2009-03-20 2010-09-29 부경대학교 산학협력단 지시크리깅을 이용한 지하수 오염가능성 평가 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102266838B1 (ko) * 2020-08-28 2021-06-18 대한민국 현장센서 및 머신러닝을 이용한 매몰지 침출수 감시기법

Also Published As

Publication number Publication date
KR20110078043A (ko) 2011-07-07

Similar Documents

Publication Publication Date Title
CN108897977B (zh) 一种基于大区域水文模拟的径流演变不确定归因方法
Ines et al. Inverse modelling in estimating soil hydraulic functions: a Genetic Algorithm approach
Minasny et al. The neuro‐m method for fitting neural network parametric pedotransfer functions
Cao et al. Using Maxent to model the historic distributions of stonefly species in Illinois streams: the effects of regularization and threshold selections
Fijani et al. Optimization of DRASTIC method by supervised committee machine artificial intelligence to assess groundwater vulnerability for Maragheh–Bonab plain aquifer, Iran
Vyas et al. Prediction of asphalt pavement condition using FWD deflection basin parameters and artificial neural networks
Sutcliffe et al. Modelling the benefits of farmland restoration: methodology and application to butterfly movement
CN106529818B (zh) 基于模糊小波神经网络的水质评价预测方法
CN106056127A (zh) 一种带模型更新的gpr在线软测量方法
JP4719893B2 (ja) 制御装置、制御方法、及びそのプログラム
CN111915058B (zh) 基于长短时记忆网络和迁移学习的洪水预测方法与装置
Roffler et al. Identification of landscape features influencing gene flow: How useful are habitat selection models?
Salehnia et al. Climate data clustering effects on arid and semi-arid rainfed wheat yield: a comparison of artificial intelligence and K-means approaches
Ni et al. Evolutionary modeling for streamflow forecasting with minimal datasets: a case study in the West Malian River, China
Naseri et al. Evolutionary and swarm intelligence algorithms on pavement maintenance and rehabilitation planning
Dumedah Formulation of the evolutionary-based data assimilation, and its implementation in hydrological forecasting
Guo et al. A weighted multi-output neural network model for the prediction of rigid pavement deterioration
Miháliková et al. Capability of different interpolation models and pedotransfer functions to estimate soil hydraulic properties in Büyükçay Watershed
KR101155712B1 (ko) Ga-ridge regression 알고리즘으로 선정된 최적 입력변수를 이용한 지하수 오염취약성 등급평가 방법
CN117037432B (zh) 基于多方法协同的风险评价地质灾害预警方法
CN113887119B (zh) 一种基于sarima-lstm的河流水质预测方法
CN113283161A (zh) 一种改进bp神经网络的滑坡形变位移预测方法
Van Griensven et al. Dealing with unidentifiable sources of uncertainty within environmental models
Talebizadeh et al. APEXSENSUN: An Open‐Source Package in R for Sensitivity Analysis and Model Performance Evaluation of APEX
Wang et al. A fuzzy intelligent system for land consolidation–a case study in Shunde, China

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150612

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160714

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170605

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee