KR20240028036A - 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법 - Google Patents

적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법 Download PDF

Info

Publication number
KR20240028036A
KR20240028036A KR1020220106047A KR20220106047A KR20240028036A KR 20240028036 A KR20240028036 A KR 20240028036A KR 1020220106047 A KR1020220106047 A KR 1020220106047A KR 20220106047 A KR20220106047 A KR 20220106047A KR 20240028036 A KR20240028036 A KR 20240028036A
Authority
KR
South Korea
Prior art keywords
dataset
model
appropriate
training
unit
Prior art date
Application number
KR1020220106047A
Other languages
English (en)
Inventor
박준홍
김자연
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020220106047A priority Critical patent/KR20240028036A/ko
Publication of KR20240028036A publication Critical patent/KR20240028036A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측시스템으로서, 예측 대상지역의 환경 데이터(D)를 취득하는 데이터 취득부(110) 및 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 데이터 분리부(120)가 구비된 데이터 관리부(100); 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하는 데이터세트 적용부(210) 및 기계학습 모델의 성능을 평가하는 성능 평가부(220)를 통해, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 후보모델 선정부(200); 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 적정모델 선정부(300); 상기 적정모델(M2)에 테스트 데이터세트를 적용하는 데이터세트 적용부(410) 및 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 최종모델 결정부(400); 및 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 녹조발생 예측부(500)를 포함한다.

Description

적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법{Machine Learning-Based Cyanobacterial Bloom Prediction System and Method having Appropriate Training-validation Dataset Selecting Unit}
본 발명은 녹조발생 예측시스템 및 예측방법에 관한 것이다. 구체적으로는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법에 관한 것이다.
남세균(藍細菌) 또는 남조세균(藍藻細菌)은 광합성을 통해 산소를 만드는 세균을 일컬으며, 시아노박테리아(Cyanobacteria)라고 한다. 종래에는 남조류(藍藻類, Blue-green algae)라고 불리기도 하였다.
물 환경의 녹조(남세균)는 기후변화에 따라 발생이 증가하여 생태계 및 인체에 위협적으로 작용될 수 있다. 녹조발생에 미치는 환경인자로는 수온, 기상, 수질(영양염류) 등이 있다.
녹조에 효율적으로 대응하려면 예측이 필수적인데, 예측을 위해 기계학습 방법이 활용될 수 있다.
기계학습은 관측된 데이터(훈련 데이터세트)를 통해 모델이 학습하여 유도된 규칙(독립변수와 종속변수 간의 관계)으로 관찰되지 않은 종속변수를 예측할 수 있도록 한다.
기계학습 모델의 예측성능은 훈련 데이터세트에 영향을 받게 되는데, 종래에는 사용자에 따라 훈련 데이터세트가 임의로 설정되는 문제점이 있다.
녹조와 같은 생태학적 환경 현상의 원인으로는 여러 환경인자가 있는데, 기후변화와 오염원의 변화에 따라 그 인자들이 영향을 받게 된다. 녹조 예측의 기계학습 훈련을 위해 충분한 양의 데이터 수집이 필요하다. 그런데, 기후변화와 오염원 변화에 따라 장기간의 데이터 수집이 기계학습 모델의 학습 능력에 부정적인 영향을 주어 예측 성능(정확도)을 저하시키는 문제점이 있다.
(문헌 1) 한국등록특허공보 제10-1774871호 (2017.08.30)
본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법은 다음과 같은 해결과제를 가진다.
첫째, 원 데이터로부터 복수의 훈련-검증 데이터세트를 자가 생성하고, 적정 훈련-검증 데이터세트를 자가 선정하는 알고리즘을 제공하고자 한다.
둘째, 선정된 적정 훈련-검증 데이터세트로 적정모델을 생성시켜, 기계학습 모델의 예측력을 증대시키고자 한다.
셋째, 테스트 데이터세트를 활용하여 생성된 적정모델 중에서 최종모델을 결정하여, 남세균 예측 정확도를 향상시키고자 한다.
넷째, 자동화 프로그램을 통해 데이터 수집 및 최신화부터 상기의 과정들을 거쳐 남세균 예측 정확도를 자가로 향상하고 시간이 지남에 따라 자동 갱신하는 기계학습 모델을 구현하고자 한다.
자동화 프로그램으로 구현하여, 기계학습 모델의 남세균 예측 정확도를 자가 향상 시키고자 한다.
본 발명의 해결과제는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명은 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측시스템으로서, 예측 대상지역의 환경 데이터(D)를 취득하는 데이터 취득부 및 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 데이터 분리부가 구비된 데이터 관리부; 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하는 데이터세트 적용부 및 기계학습 모델의 성능을 평가하는 성능 평가부를 통해, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 후보모델 선정부; 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 적정모델 선정부; 상기 적정모델(M2)에 테스트 데이터세트를 적용하는 데이터세트 적용부 및 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 최종모델 결정부; 및 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 녹조발생 예측부를 포함한다.
본 발명에 있어서, 상기 데이터 관리부의 데이터세트 분리부는 수집된 데이터에서 결측지 및 이상치를 제거하고, K-fold 교차검증을 통해 훈련 데이터세트와 검증 데이트세트를 분리할 수 있다.
본 발명에 있어서, 상기 후보모델 선정부에서의 기 설정된 복수의 기계학습 모델은 선형회귀(linear regression), 의사결정나무(decision tree), 서포트 벡터 머신(support vector machine) 및 인공신경망(ANN; Artificial Neural Network) 중 둘 이상을 포함할 수 있다.
본 발명에 있어서, 상기 후보모델 선정부의 성능 평가부는 정확도지표인 결정계수(R2) 값을 상기 기계학습모델 별로 산출하고, 결정계수(R2) 값이 기 설정값 이상인 모델을 후보모델(M1)로 선정할 수 있다.
본 발명에 있어서, 상기 후보모델 선정부의 성능 평가부는 상기 기계학습모델의 각 결정계수(R2) 값이 모두 기 설정값 이하이면 성능 평가를 중단하고, 데이터 취득부에서 추가 데이터를 취득하도록 할 수 있다.
본 발명에 있어서, 상기 적정모델 선정부는 상기 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하는 데이터세트 적용부; 후보모델(M1)의 성능을 평가하는 성능 평가부; 후보모델(M1)의 성능 평가를 통해 타 훈련-검증 데이터세트(D2) 중에서 복수개의 적정 훈련-검증 데이터세트(D3)를 선정하는 적정 데이터세트 선정부; 상기 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용하여 적정모델(M2)을 생성시키는 적정모델 생성부; 및 상기 적정모델(M2)의 하이퍼파라미터를 미세조정하는 하이퍼파라미터 미세조정부를 가질 수 있다.
본 발명에 있어서, 상기 적정모델 선정부의 성능 평가부는 각각의 타 훈련-검증 데이터세트(D2)이 적용된 후보모델(M1)의 오차지표인 평균제곱오차(MSE) 값을 산출할 수 있다.
본 발명에 있어서, 상기 적정 데이터세트 선정부는 상기 성능 평가부(320)에서 산출한 평균제곱오차(MSE) 값이 기 설정값 이하인 데이터세트를 적정 훈련-검증 데이터세트(D3)로 선정할 수 있다.
본 발명에 있어서, 상기 적정모델 생성부는 선정된 각 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용시켜, 각 적정 훈련-검증 데이터세트(D3) 별로 적정모델(M2)을 생성할 수 있다.
본 발명에 있어서, 상기 최종모델 결정부는 상기 적정모델(M2)의 정확도지표인 결정계수(R2) 값과, 오차지표인 평균제곱오차(MSE) 값을 상기 테스트 데이터세트를 활용하여 산출하고, 기 설정된 기준값을 충족하는 적어도 하나의 최종모델(M3)을 결정할 수 있다.
본 발명에 있어서, 상기 녹조발생 예측부는 상기 최종모델(M3)이 복수개 이면, 각 최종모델(M3)의 예측값의 평균을 선택할 수 있다.
본 발명은 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측방법으로서, 제어서버는 데이터 관리부가, 데이터 취득부를 통해 예측 대상지역의 환경 데이터(D)를 취득하고, 데이터 분리부를 통해 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 S100 단계; 후보모델 선정부가, 데이터세트 적용부를 통해 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하고, 성능 평가부를 통해 기계학습 모델의 성능을 평가하여, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 S200 단계; 적정모델 선정부가, 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 S300 단계; 최종모델 결정부가, 데이터세트 적용부를 통해 상기 적정모델(M2)에 테스트 데이터세트를 적용하고, 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 S400 단계; 및 녹조발생 예측부가 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 S500 단계를 포함한다.
본 발명에 있어서, S300 단계는 데이터세트 적용부가 상기 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하는 S310 단계; 성능 평가부가 후보모델(M1)의 성능을 평가하는 S320 단계; 적정 데이터세트 선정부가 후보모델(M1)의 성능 평가를 통해 타 훈련-검증 데이터세트(D2) 중에서 복수개의 적정 훈련-검증 데이터세트(D3)를 선정하는 S330 단계; 적정모델 생성부가 상기 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용하여 적정모델(M2)을 생성시키는 S340 단계; 및 하이퍼파라미터 미세조정부가 상기 적정모델(M2)의 하이퍼파라미터를 미세조정하는 S350 단계를 포함할 수 있다.
본 발명에 있어서, S320 단계는 각각의 타 훈련-검증 데이터세트(D2)이 적용된 후보모델(M1)의 오차지표인 평균제곱오차(MSE) 값을 산출할 수 있다.
본 발명에 있어서, S330 단계는 S320 단계에서 산출한 평균제곱오차(MSE) 값이 기 설정값 이하인 데이터세트를 적정 훈련-검증 데이터세트(D3)로 선정할 수 있다.
본 발명에 있어서, S340 단계는 선정된 각 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용시켜, 각 적정 훈련-검증 데이터세트(D3) 별로 적정모델(M2)을 생성할 수 있다.
본 발명은 하드웨어와 결합되어, 본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법을 컴퓨터에 의해 실행시키기 위하여 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법은 다음과 같은 효과를 가진다.
첫째, 원 데이터로부터 복수의 훈련-검증 데이터세트를 자가 생성하고, 적정 훈련-검증 데이터세트를 자가 선정하는 알고리즘을 제공하는 효과가 있다.
둘째, 선정된 적정 훈련-검증 데이터세트로 적정모델을 생성시켜, 기계학습 모델의 예측력을 증대시키는 효과가 있다.
셋째, 테스트 데이터세트를 활용하여 생성된 적정모델 중에서 최종모델을 결정하여, 남세균 예측 정확도를 향상시키는 효과가 있다.
넷째, 자동화 프로그램을 통해 데이터 수집 및 최신화부터 상기의 과정들을 거쳐 남세균 예측 정확도를 자가로 향상하고 시간이 지남에 따라 자동 갱신하는 기계학습 모델을 구현시키는 효과가 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템의 구성도이다.
도 2는 본 발명에 따른 적정모델 선정부의 세부 구성도이다.
도 3은 10-fold 교차검증에 대한 일 실시예를 나타낸다.
도 4는 데이터 수집기간과 데이터세트 크기에 따른 46+40개의 훈련데이터 세트가 생성되는 일 실시예를 나타낸다.
도 5a는 데이터 수집기간과 예측 시차에 따른 오차의 일 실시예를 나타내고, 도 5b는 데이터세트 크기와 예측시차에 따른 오차의 일 실시예를 나타내고, 도 5c는 데이터 수집기간과 예측 시차에 따른 정확도의 일 실시예를 나타내고, 도 5d는 데이터세트 크기와 예측시차에 따른 정확도의 일 실시예를 나타낸다.
도 6은 각 훈련 데이터세트 별 최적의 하이퍼파라미터 조합의 실시예를 나타낸다.
도 7은 2020년 12월 31일 까지의 데이터를 수집하여 모델을 훈련/최적화 하고, 미래의 2021년 데이터를 별도로 수집하여 앞 단계에서 선정된 후보 모델을 테스트하여 최종 최적모델을 결정하는데에 사용되는 실시예를 나타낸다.
도 8은 본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법의 순서도이다.
도 9는 본 발명에 따른 녹조발생 예측방법을 모델과 데이터세트의 관점에서 정리한 순서도이다.
이하, 첨부한 도면을 참조하여, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 설명한다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 이해할 수 있는 바와 같이, 후술하는 실시예는 본 발명의 개념과 범위를 벗어나지 않는 한도 내에서 다양한 형태로 변형될 수 있다. 가능한 한 동일하거나 유사한 부분은 도면에서 동일한 도면부호를 사용하여 나타낸다.
본 명세서에서 사용되는 전문용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지는 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.
본 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외시키는 것은 아니다.
본 명세서에서 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.
본 명세서에서 사용되는 방향에 관한 표현, 예를 들어 전/후/좌/우의 표현, 상/하의 표현, 종방향/횡방향의 표현은 도면에 개시된 방향을 참고하여 해석될 수 있다.
이하에서는 도면을 참고하여 본 발명을 설명하고자 한다. 참고로, 도면은 본 발명의 특징을 설명하기 위하여, 일부 과장되게 표현될 수도 있다. 이 경우, 본 명세서의 전 취지에 비추어 해석되는 것이 바람직하다.
도 1은 본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템의 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 녹조발생 예측시스템은 데이터 관리부(100), 후보모델(M1) 선정부(200), 적정모델(M2) 선정부(300), 최종모델(M3) 선정부(400), 및 녹조발생 예측부(500)를 포함한다.
보다 구체적으로, 본 발명은 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측시스템으로서, 예측 대상지역의 환경 데이터(Data)를 취득하는 데이터 취득부(110) 및 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 데이터 분리부(120)가 구비된 데이터 관리부(100); 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하는 데이터세트 적용부(210) 및 기계학습 모델의 성능을 평가하는 성능 평가부(220)를 통해, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 후보모델 선정부(200); 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 적정모델 선정부(300); 상기 적정모델(M2)에 테스트 데이터세트를 적용하는 데이터세트 적용부(410) 및 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 최종모델 결정부(400); 및 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 녹조발생 예측부(500)를 포함한다.
먼저, 본 발명에 따른 데이터 관리부(100)를 설명하고자 한다.
본 발명에 따른 데이터 관리부(100)는 예측 대상지역의 환경 데이터(Data)를 취득하는 데이터 취득부(110) 및 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트(training-validation dataset)로 분리하는 데이터세트 분리부(120)를 구비할 수 있다.
데이터 취득부(110)는 예측 대상지역 및 예측 대상지역에 대한 데이터를 설정하고, 예측대상인 종속변수(남세균)를 설정하고, 예측에 사용될 인자인 독립변수를 설정할 수 있다.
예측 대상지역을 정하고, 그 지역에서 얻을 수 있는 공개데이터, 예를 들어 물환경정보시스템의 수질, 남세균 측정값 등을 활용하거나 직접 데이터를 측정할 수 있다. 데이터 중에서 무엇을 예측할지(종속변수-output variable), 예측에 사용될 인자(독립변수-input variable)는 무엇인지 등을 설정할 수 있다.
본 발명에 따른 종속변수는 남세균데이터가 될 수 있고, 독립변수는 수질데이터, 유속데이터, 기상데이터 등이 될 수 있다.
녹조는 물환경의 가장 대표적인 현상이며 환경오염과 기후변화의 영향을 받게 된다. 따라서, 녹조와 같은 환경인자(수질, 미세먼지 등)는 시간이 지날 수록 환경오염과 기후변화에 따라 그 발생 패턴의 변동성이 더욱 커지게 되기 마련이다. 환경인자 중에서도 특히 기온 또는 수온에 영향을 주요하게 받는 녹조는 시간의 흐름에 따라 기후변화(기온, 수온 상승), 환경오염(영양염류 유입-녹조 발생 요인)에 영향을 받아, 데이터 수집 기간이 길어질수록 데이터세트가 기계학습 훈련 성능에 악영향을 미칠 것으로 예상된다.
녹조(남세균) 데이터는 현미경으로 세포수를 일일이 계수하기 때문에 데이터를 많이 모으기 위해서는 몇 년의 시간이 소요됨으로 이러한 장기간의 데이터 수집기간이 예측을 위한 기계학습에 악영향을 줄 것을 고려하는 것이 필요하다. 또한, 녹조가 발생하는 하천 환경은 다양한 토목공사(예로, 보 건설)로 인해서, 인위적인 그리고/또는 시간이 지남에 따른 자연적인 하천의 물리적 변화가 일어날 수 있다. 이러한 점도 데이터 수집기간을 고려하는 것이 필요한 이유이다.
본 발명은 이러한 데이터를 일련의 자동화 과정으로 취득할 수 있다. 자동화 과정은 여러 공개데이터베이스에 흩어져있는 데이터를 취득하는 과정으로서, 예를 들어 남세균 데이터(종속변수)는 물환경정보시스템의 조류정보방에, 수질 데이터는 물환경정보시스템의 수질측정망에, 기상 데이터는 기상정보포탈의 종관기상관측망에, 유속데이터는 국가수자원관리종합정보시스템에 있는 데이터를 취득할 수 있다.
데이터세트 분리부(120)는 수집된 데이터에서 결측지 및 이상치를 제거하고, K-fold 교차검증(cross-validation)을 통해 훈련 데이터세트와 검증 데이트세트를 분리하고, 나아가 기계학습 모형의 성능을 평가할 수 있다.
본 발명은 데이터 중 결측치를 제거하거나 대치(imputation)하고, 예측시차(forecast lead time, 얼마의 시간 뒤를 예측할 것인지; 7일 이내 권장)를 설정하여 데이터프레임을 만들 수 있다,
취득된 데이터를 데이터베이스에 저장하는 경우, 예를 들어 일단위, 주단위 또는 월단위로 새로운 데이터를 저장할 수 있고, 만약 기 설정된 기간(예로, 20년)이 넘는 데이터가 있으면 제거 할 수 있다.
K-fold 교차검증은 데이터의 양이 아주 크지 않을 때 신뢰성 있는 모델 성능을 평가하기 위해 사용되는 방법이다. 데이터가 방대하다면(예로, 20년 동안 모인 녹조 데이터), 교차검증의 대안으로 최근 4년 데이터를 검증 데이터 세트로 이용할 수도 있다.
도 3은 10-fold 교차검증에 대한 일 실시예를 나타낸다.
10-fold 교차검증은 데이터세트의 90%를 모델 훈련(train)에 사용하고 나머지 10%를 검증 데이터 세트로 사용하는 방식을 10번 반복하여 훈련된 모델의 정확도를 평가하는 방법이다. 예를 들어 데이터세트가 [1,2,3,4,5,6,7,8,9,10] 이라면 1회차에는 [1-9]로 훈련하여 [10]의 데이터를 잘 예측하는지 확인하고, 2회차에서는 [1,3-10] 훈련 - [2] 예측, 3회차 [1,2,4-10] 훈련, [3] 예측 ... 계속하여 10회차 까지 하면 10번의 정확도가 나오게 된다. 이 10번의 정확도를 평균하면 최종 교차검증 정확도가 산출될 수 있다.
다음으로, 본 발명에 따른 후보모델 선정부(200)를 설명하고자 한다.
본 발명에 따른 후보모델 선정부(200)는 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하는 데이터세트 적용부(210) 및 기계학습 모델의 성능을 평가하는 성능 평가부(220)를 통해, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정할 수 있다.
후보모델 선정부(200)에서의 기 설정된 복수의 기계학습 모델은 선형회귀(linear regression), 의사결정나무(decision tree), 서포트 벡터 머신(support vector machine) 및 인공신경망(ANN; Artificial Neural Network) 중 둘 이상을 포함할 수 있다.
후보모델 선정부(200)의 성능 평가부(220)는 정확도지표인 결정계수(R2) 값을 상기 기계학습모델 별로 산출하고, 결정계수(R2) 값이 기 설정값 이상인 모델을 후보모델(M1)로 선정할 수 있다.
결정계수(R2)는 독립변수가 종속변수를 어느 정도 설명하는 지를 가리키는 척도로서, 아래 수식 1로 계산될 수 있다.
[수식 1]
여기서, 는 i 번째 참값(종속변수), 는 i번째 예측값(종속변수), 의 평균값을 나타낸다.
후보모델 선정부(200)의 성능 평가부(220)는 상기 기계학습모델의 각 결정계수(R2) 값이 모두 기 설정값 이하이면 성능 평가를 중단하고, 결정계수를 높일 수 있도록, 데이터 취득부(110)에서 추가 데이터를 취득하게 할 수 있다.
일 실시예로서, 결정계수값을 각 기계학습모델(예로, 모델 A,B,C,D) 별로 산출할 때, 예를 들어, 모델 A,B는 결정계수값이 기 설정값(예로, 50%)을 초과하는데, 모델 C,D는 결정계수값이 기 설정값 이하인 경우에는 모델 C,D는 후보모델이 되지 못할 것이다.
이는 정확도가 너무 낮으면 예측을 신뢰할 수 없고 활용도가 높지 않기 때문에, 최소한의 정확도 커트라인을 기 설정값으로 삼아서 뒤따르는 과정을 통해 정확도를 향상시켰을 때 유의미한 정확도를 가질 수 있는 후보모델을 선별하는 것이 바람직하다.
다른 실시예로서, 만약 모델 A,B,C,D 모두 결정계수값이 기 설정값(예로, 50%)이하인 경우에는 데이터에 문제가 있을 것으로 생각될 수 있다. 따라서, 다시 데이터 취득부로 돌아가서, 더 많은 양의 데이터를 모으거나, 예측 성능을 높일 수 있는 새로운 독립변수 (input)를 수집할 필요가 있게 된다. 하지만, 적어도 한 개의 모델이 50%가 넘는다면 돌아갈 필요 없이 다음 단계를 진행할 수 있을 것이다.
후보모델 선정부(200)에서는 각 모델의 상호 비교가 목적이기에 ‘하이퍼파라미터’는 기본값 또는 적은 조합으로 설정할 수 있다. 따라서, 검토되는 모델의 하이퍼파라미터는, 당해 모델의 기본 하이퍼파라미터를 사용할수 있다.
예를 들어, 인공신경망의 경우 1가지 학습률(learning rate, 0.001)로 각 은닉층마다 20개의 뉴런(neuron)을 가진 1, 2, 3 개의 은닉층 (hidden layer)만 비교 (3개의 조합)하여 최고 성능을 보이는 하이퍼파라미터를 선택할 수 있다.
다음으로, 본 발명에 따른 적정모델 선정부(300)를 설명하고자 한다.
본 발명에 따른 적정모델 선정부(300)는 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성할 수 있다.
적정모델 선정부(300)는 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하는 데이터세트 적용부(310); 후보모델(M1)의 성능을 평가하는 성능 평가부(320); 후보모델(M1)의 성능 평가를 통해 타 훈련-검증 데이터세트(D2) 중에서 복수개의 적정 훈련-검증 데이터세트(D3)를 선정하는 적정 데이터세트 선정부(330); 상기 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용하여 적정모델(M2)을 생성시키는 적정모델 생성부(340); 및 상기 적정모델(M2)의 하이퍼파라미터를 미세조정하는 하이퍼파라미터 미세조정부(350)를 가질 수 있다.
적정모델 선정부(300)의 데이터세트 적용부(310)는 상기 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용할 수 있다.
여기서의 타 훈련-검증 데이터세트(D2)는 원 데이터에서 도출된 것이나, 후보모델 선정부(200)의 데이터세트 적용부(210)에 적용되는 일 훈련-검증 데이터세트(D1)과는 다른 것이다.
도 4는 데이터 수집기간과 데이터세트 크기에 따른 46+40개의 훈련데이터 세트가 생성되는 일 실시예를 나타낸다.
타 훈련-검증 데이터세트(D2)는 다음의 사항에 따라 여러가지로 구분될 수 있다.
데이터 수집 기간의 관점에서, 예를 들어, 원래 데이터세트의 처음 데이터가 2013년 4월이고 끝 데이터가 2021년 3월이면 수집 기간은 8년인데, 이 데이터세트를 1년, 2년, 3년, 4년, 5년, 6년, 7년 기간을 가진 데이터세트로 나눌 수 있다.
또한, 예를 들어 8년 기간의 원래 데이터세트에서 7년 기간을 가진 데이터세트를 추출하게 되면 2013년 4월부터 2020년 3월까지, 2013년 8월부터 2020년 7월까지, 2014년 4월부터 2021년 3월까지 총 세개의 7년 기간 데이터세트를 만들 수 있다.
데이터세트 크기의 관점에서, 예를 들어, 8년간의 데이터 수집기간에서 데이터 측정주기가 1주 (1주 1회 측정)라면 이 데이터세트의 크기는 416개의 데이터를 가질 수 있다. 데이터 수집 기간을 조정하면 이 데이터세트 크기도 변화하지만, 데이터 수집 기간을 고정해놓고 데이터세트 크기를 변화시킬 수도 있다.
또한, 예를 들어 8년 기간의 데이터세트에서 1년, 2년, 3년, 4년, 5년, 6년, 7년 기간과 동일한 크기(각각 52, 104, 156, 208, 260, 312, 364)를 가진 데이터세트를 무작위 추출을 통해 생성할 수 있다.
예측 시차의 관점에서, 예를 들어, 7일 뒤를 예측할 것인가, 14일 뒤를 예측할 것인가에 관한 것도 데이터프레임을 만드는 과정에서 조정할 수 있다. 훈련데이터 세트에서 종속변수의 시점이 독립변수의 시점보다 T일 만큼 앞선다면 이 훈련데이터로 학습한 모델은 예측시차(forecast lead time) 가 T일 즉, T일 뒤를 예측하는 것이 된다. 따라서 예측 시차도 이 단계에서 1,2,3, ..., 30일로 변화시켜가며 비교할 수 있다.
적정모델 선정부(300)의 성능 평가부(320)는 각각의 타 훈련-검증 데이터세트(D2)이 적용된 후보모델(M1)의 오차지표인 평균제곱오차(MSE) 값을 산출할 수 있다.
평균제곱오차(MSE)는 오차의 제곱을 평균으로 나눈 것으로서, MSE가 0에 가까울수록 추측한 값이 원본에 가까운 것이기 때문에 정확도가 높다고 할 수 있다.
평균제곱오차(MSE)는 다음 수식 2를 통해 산출될 수 있다.
[수식 2]
여기서, 는 i 번째 참값(종속변수), 는 i번째 예측값(종속변수)을 나타낸다.
적정 데이터세트 선정부(330)는 상기 성능 평가부(320)에서 산출한 평균제곱오차(MSE) 값이 기 설정값 이하인 데이터세트를 적정 훈련-검증 데이터세트(D3)로 선정할 수 있다.
또한, 평균제곱오차(MSE) 값을 정렬하여, 순차적으로 기 설정된 개수(예로, 12개)를 선정할 수도 있다.
적정모델 생성부(340)는 선정된 각 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용시켜, 각 적정 훈련-검증 데이터세트(D3) 별로 적정모델(M2)을 생성할 수 있다.
도 5는 훈련 데이터세트에 따른 정확도와 오차를 나타낸 실시 예이다. 도 5a는 데이터 수집기간과 예측 시차에 따른 오차의 일 실시예를 나타내고, 도 5b는 데이터세트 크기와 예측시차에 따른 오차의 일 실시예를 나타내고, 도 5c는 데이터 수집기간과 예측 시차에 따른 정확도의 일 실시예를 나타내고, 도 5d는 데이터세트 크기와 예측시차에 따른 정확도의 일 실시예를 나타낸다.
도 5의 실시 예에서는, 전체 데이터세트(8년), 데이터수집기간(7년), 데이터세트 크기(6년) 및 예측시차(7, 14, 21, 28일)의 조건에서, 정확도(R2)가 높고 오차(MSE)가 낮은 적정 훈련-검증 데이터세트(D3)를 총 12개 선정하여, 12개의 적정 모델(M2)을 생성하였다.
하이퍼파라미터 미세조정부(350)는 적정모델(M2)의 하이퍼파라미터를 미세조정할 수 있다.
선정된 적정모델(M2)에는 여러가지 하이퍼파라미터가 있는데, 적정 훈련-검증 데이터세트(D3)를 선정하고, 여러가지 하이퍼파라미터를 미세하게 조정하는 과정이다.
전술한 후보모델 선정부(200)에서는 각 모델의 상호 비교가 목적이기에 하이퍼파라미터는 기본값 또는 적은 조합으로 설정하는 것이 바람직하였다.
반면에, 적정모델 선정부(300)에서는 더 다양한 하이퍼파라미터를 비교하는 것이 적절하다. 인공신경망의 일 실시예로서, 3가지 학습률 (0.001, 0.005, 0.0005) 각 은닉층마다 10, 20, 30, 40, 50개의 뉴런을 가진 1, 2, 3 개의 은닉층 구조를 가진 모델을 비교(375개 조합)하여 최고의 성능을 모이는 구조를 선택할 수 있다.
예를 들어, 12개의 적정모델(M2)이 선정된 경우, 이들 모두 전술한 375개의 조합을 비교하여 최고 성능을 가진 최종모델(M3)을 찾게 된다.
도 6은 각 훈련 데이터세트 별 최적의 하이퍼파라미터 조합의 실시예를 나타낸다.
다음으로, 본 발명에 따른 최종모델 결정부(400)를 설명하고자 한다.
본 발명에 따른 최종모델 결정부(400)는 적정모델(M2)에 테스트(test) 데이터세트를 적용하는 데이터세트 적용부(410) 및 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정할 수 있다.
상기 테스트 데이터세트는 모델의 훈련-검증에 사용되지 않은 새로운 ('unseen') 데이터를 의미한다. 원 데이터(D)에 해당될 수도 있고, 원데이터가 아닌 새로운 데이터(D')일수도 있다.
일 실시예로서, 2020년 12월 31일 까지의 데이터를 수집하여 모델을 훈련/최적화 하고, 미래의 2021년 데이터를 별도로 수집하여 앞 단계에서 선정된 후보 모델을 테스트하여 최종 최적모델을 결정하는데에 사용될 수 있다.
적정모델 선정부(300)에서 적정 훈련-검증 데이터세트(D3)들과 함께 적정모델(M2)의 하이퍼파라미터를 선정(candidate models) 했다면, 최종모델 결정부(400)에서는 모델을 테스트(test 또는 verification) 하여 최종모델(M3)을 결정하게 된다.
모델 테스트는 이전 훈련-검증에 사용하지 않은 데이터(테스트 데이터세트)를 통해 이루어진다. 예를 들어, 훈련-검증에 이용한 데이터가 2013년 4월부터 2021년 3월이라면 테스트 데이터세트는 2021년 4월부터 2022년 3월까지 수집된 데이터가 될 수 있다. 이러한 테스트 데이터는 한국의 경우, 7, 8월을 포함하여 최소 6개월 동안 수집되는 것이 적절하다. 왜냐하면, 녹조발생이 가장 심한 여름을 포함하여 연속적인 녹조발생을 예측할 수 있는지 확인할 수 있어야 하기 때문이다. 테스트 데이터세트를 이용하면, 적정 훈련-검증 데이터세트(D3)와 그에 맞게 미세조정된 하이퍼파라미터를 갖는 여러 적정모델(M2)의 정확도 지표를 산출할 수 있게 된다. 그리고, 여러가지 적정모델(M2) 중 가장 높은 테스트 데이터세트 예측 정확도를 보이는 모델을 최종모델(M3)로 결정할 수 있다.
최종모델 결정부(400)는 상기 적정모델(M2)의 정확도지표인 결정계수(R2) 값과, 오차지표인 평균제곱오차(MSE) 값을 상기 테스트 데이터세트를 활용하여 산출하고, 기 설정된 기준값을 충족하는 적어도 하나의 최종모델(M3)을 결정할 수 있다.
녹조발생 예측부(500)는 상기 최종모델(M3)이 1개이면, 당해 최종모델(M3)의 예측값을 선택할 수 있다.
녹조발생 예측부(500)는 상기 최종모델(M3)이 복수개 이면, 각 최종모델(M3)의 예측값의 평균을 선택할 수 있다.
다음으로, 본 발명에 따른 녹조발생 예측부(500)를 설명하고자 한다.
본 발명에 따른 녹조발생 예측부(500)는 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측할 수 있다.
즉, 결정된 최종모델(M3)에 실제 데이터세트(독립변수들)을 입력하여, 예측값인 독립변수(남세균데이터)를 산출하여 녹조발생을 예측할 수 있다. 예측값은 시간이 경과된 후 측정되는 실제값과 비교될 것이다.
또한, 모델을 구축하는 과정에서 알게된 정보를 처음 데이터 준비 단계에 반영할 수 있다. 예를 들어 모델을 구축하게 되면 변수중요도를 알 수 있는데, 중요하지 않은 변수는 데이터 준비 단계에 반영하여 그 변수는 수집 대상에서 제외할 수 있다. 그리고 최적 데이터 수집 기간과 데이터 세트 크기에 따른 모델 성능을 비교하면 현장 데이터 측정 주기도 최적화 할 수 있다. 예를 들어 데이터세트의 데이터 수집 기간이 8년인 것보다 7년인 것이 더 좋은 성능을 보이고, 7년간의 데이터세트에서 데이터세트 크기가 커질수록 좋은 성능을 보인다면, 데이터 측정주기를 더 짧게하여 6-7년의 기간동안 더 많은 데이터를 수집하는 것이 좋다는 결론을 낼 수 있을 것이다.
한편, 본 발명은 녹조발생 예측방법 발명으로 구현될 수 있다. 구체적으로 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법으로 구현될 수 있다.
이러한 방법발명은 전술한 시스템발명과 발명의 카테고리는 상이하나, 실질적으로 동일한 발명에 해당된다. 따라서, 시스템발명과 공통되는 구성은, 전술한 설명으로 대체하기로 하며, 이하에서는 본 방법발명의 요지 위주로 설명하고자 한다.
본 발명은 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측방법으로서, 제어서버는 데이터 관리부(100)가, 데이터 취득부(110)를 통해 예측 대상지역의 환경 데이터(Data)를 취득하고, 데이터 분리부(120)를 통해 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 S100 단계; 후보모델 선정부(200)가, 데이터세트 적용부(210)를 통해 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하고, 성능 평가부(220)를 통해 기계학습 모델의 성능을 평가하여, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 S200 단계; 적정모델 선정부(300)가, 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 S300 단계; 최종모델 결정부(400)가, 데이터세트 적용부(410)를 통해 상기 적정모델(M2)에 테스트 데이터세트를 적용하고, 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 S400 단계; 및 녹조발생 예측부(500)가 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 S500 단계를 포함한다.
본 발명에 따른 S100 단계에서, 상기 데이터 관리부(100)의 데이터세트 분리부(120)가 수집된 데이터에서 결측지 및 이상치를 제거하고, K-fold 교차검증을 통해 훈련 데이터세트와 검증 데이트세트를 분리할 수 있다.
본 발명에 따른 S200 단계에서, 상기 후보모델 선정부(200)에서의 기 설정된 복수의 기계학습 모델은 선형회귀(linear regression), 의사결정나무(decision tree), 서포트 벡터 머신(support vector machine) 및 인공신경망(ANN; Artificial Neural Network) 중 둘 이상을 포함할 수 있다.
본 발명에 따른 S200 단계에서, 상기 후보모델 선정부(200)의 성능 평가부(220)는 정확도지표인 결정계수(R2) 값을 상기 기계학습모델 별로 산출하고, 결정계수(R2) 값이 기 설정값 이상인 모델을 후보모델(M1)로 선정할 수 있다.
본 발명에 따른 S200 단계에서, 후보모델 선정부(200)의 성능 평가부(220)는 상기 기계학습모델의 각 결정계수(R2) 값이 모두 기 설정값 이하이면 성능 평가를 중단하고, 데이터 취득부(110)에서 추가 데이터를 취득할 수 있다.
본 발명에 있어서, S300 단계는 데이터세트 적용부(310)가 상기 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하는 S310 단계; 성능 평가부(320가 후보모델(M1)의 성능을 평가하는 S320 단계; 적정 데이터세트 선정부(330)가 후보모델(M1)의 성능 평가를 통해 타 훈련-검증 데이터세트(D2) 중에서 복수개의 적정 훈련-검증 데이터세트(D3)를 선정하는 S330 단계; 적정모델 생성부(340)가 상기 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용하여 적정모델(M2)을 생성시키는 S340 단계; 및 하이퍼파라미터 미세조정부(350)가 상기 적정모델(M2)의 하이퍼파라미터를 미세조정하는 S350 단계를 포함한다.
본 발명에 있어서, S320 단계는 각각의 타 훈련-검증 데이터세트(D2)이 적용된 후보모델(M1)의 오차지표인 평균제곱오차(MSE) 값을 산출할 수 있다.
본 발명에 있어서, S330 단계는 S320 단계에서 산출한 평균제곱오차(MSE) 값이 기 설정값 이하인 데이터세트를 적정 훈련-검증 데이터세트(D3)로 선정할 수 있다.
본 발명에 있어서, S340 단계는 선정된 각 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용시켜, 각 적정 훈련-검증 데이터세트(D3) 별로 적정모델(M2)을 생성할 수 있다.
본 발명에 따른 S400 단계에서, 상기 적정모델(M2)의 정확도지표인 결정계수(R2) 값과, 오차지표인 평균제곱오차(MSE) 값을 상기 테스트 데이터세트를 활용하여 산출하고, 기 설정된 기준값을 충족하는 적어도 하나의 최종모델(M3)을 결정할 수 있다.
본 발명에 따른 S500 단계에서, 상기 녹조발생 예측부(500)는 상기 최종모델(M3)이 복수개 이면, 각 최종모델(M3)의 예측값의 평균을 선택할 수 있다.
또한, 본 발명은 컴퓨터프로그램으로 구현될 수도 있다. 구체적으로 본 발명은 하드웨어와 결합되어, 본 발명에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법을 컴퓨터에 의해 실행시키기 위하여 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 명세서에서 설명되는 실시예와 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 예시적으로 설명하는 것에 불과하다. 따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아님은 자명하다. 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시 예는 모두 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 데이터 관리부 110 : 데이터 취득부
120 : 데이터세트 분리부 200 : 후보모델 선정부
210 : 데이터세트 적용부 220 : 성능 평가부
300 : 적정모델 선정부 310 : 데이터세트 적용부
320 : 성능 평가부 330 : 적정 데이터세트 선정부
340 : 적정모델 생성부 350 : 하이퍼파라미터 미세조정부
400 : 최종모델 결정부 410 : 테스트 데이터세트 적용부
420 : 성능 평가부 500 : 녹조발생 예측부

Claims (17)

  1. 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측시스템으로서,
    예측 대상지역의 환경 데이터(D)를 취득하는 데이터 취득부 및 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 데이터 분리부가 구비된 데이터 관리부;
    일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하는 데이터세트 적용부 및 기계학습 모델의 성능을 평가하는 성능 평가부를 통해, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 후보모델 선정부;
    원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 적정모델 선정부;
    상기 적정모델(M2)에 테스트 데이터세트를 적용하는 데이터세트 적용부 및 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 최종모델 결정부; 및
    상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 녹조발생 예측부를 포함하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  2. 청구항 1에 있어서,
    상기 데이터 관리부의 데이터세트 분리부는
    수집된 데이터에서 결측지 및 이상치를 제거하고,
    K-fold 교차검증을 통해 훈련 데이터세트와 검증 데이트세트를 분리하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  3. 청구항 1에 있어서,
    상기 후보모델 선정부에서의 기 설정된 복수의 기계학습 모델은
    선형회귀(linear regression), 의사결정나무(decision tree), 서포트 벡터 머신(support vector machine) 및 인공신경망(ANN; Artificial Neural Network) 중 둘 이상을 포함하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  4. 청구항 1에 있어서,
    상기 후보모델 선정부의 성능 평가부는
    정확도지표인 결정계수(R2) 값을 상기 기계학습모델 별로 산출하고,
    결정계수(R2) 값이 기 설정값 이상인 모델을 후보모델(M1)로 선정하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  5. 청구항 4에 있어서,
    상기 후보모델 선정부의 성능 평가부는
    상기 기계학습모델의 각 결정계수(R2) 값이 모두 기 설정값 이하이면 성능 평가를 중단하고,
    데이터 취득부에서 추가 데이터를 취득하도록 하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  6. 청구항 1에 있어서,
    상기 적정모델 선정부는
    상기 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하는 데이터세트 적용부;
    후보모델(M1)의 성능을 평가하는 성능 평가부;
    후보모델(M1)의 성능 평가를 통해 타 훈련-검증 데이터세트(D2) 중에서 복수개의 적정 훈련-검증 데이터세트(D3)를 선정하는 적정 데이터세트 선정부;
    상기 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용하여 적정모델(M2)을 생성시키는 적정모델 생성부; 및
    상기 적정모델(M2)의 하이퍼파라미터를 미세조정하는 하이퍼파라미터 미세조정부를 갖는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  7. 청구항 6에 있어서,
    상기 적정모델 선정부의 성능 평가부는
    각각의 타 훈련-검증 데이터세트(D2)이 적용된 후보모델(M1)의 오차지표인 평균제곱오차(MSE) 값을 산출하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  8. 청구항 7에 있어서,
    상기 적정 데이터세트 선정부는
    상기 성능 평가부(320)에서 산출한 평균제곱오차(MSE) 값이 기 설정값 이하인 데이터세트를 적정 훈련-검증 데이터세트(D3)로 선정하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  9. 청구항 8에 있어서,
    상기 적정모델 생성부는
    선정된 각 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용시켜,
    각 적정 훈련-검증 데이터세트(D3) 별로 적정모델(M2)을 생성하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  10. 청구항 1에 있어서,
    상기 최종모델 결정부는
    상기 적정모델(M2)의 정확도지표인 결정계수(R2) 값과, 오차지표인 평균제곱오차(MSE) 값을 상기 테스트 데이터세트를 활용하여 산출하고, 기 설정된 기준값을 충족하는 적어도 하나의 최종모델(M3)을 결정하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  11. 청구항 10에 있어서,
    상기 녹조발생 예측부는
    상기 최종모델(M3)이 복수개 이면, 각 최종모델(M3)의 예측값의 평균을 선택하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템.
  12. 데이터베이스 및 연산기능을 가진 제어서버에 의해 수행되는, 기계학습 기반의 녹조발생 예측방법으로서, 제어서버는
    데이터 관리부가, 데이터 취득부를 통해 예측 대상지역의 환경 데이터(D)를 취득하고, 데이터 분리부를 통해 취득된 원 데이터를 전처리하고, 훈련-검증 데이터세트로 분리하는 S100 단계;
    후보모델 선정부가, 데이터세트 적용부를 통해 일 훈련-검증 데이터세트(D1)를 기 설정된 복수의 기계학습 모델(Models)에 적용하고, 성능 평가부를 통해 기계학습 모델의 성능을 평가하여, 상기 복수의 기계학습 모델(Models)에서 적어도 하나의 후보모델(M1)을 선정하는 S200 단계;
    적정모델 선정부가, 원 데이터로부터 추출된 복수의 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하여 적정 훈련-검증 데이터세트(D3)를 선정하고, 적정 훈련-검증 데이터세트(D3)를 적용하여 적어도 하나의 적정 모델(M2)을 생성하는 S300 단계;
    최종모델 결정부가, 데이터세트 적용부를 통해 상기 적정모델(M2)에 테스트 데이터세트를 적용하고, 상기 적정모델(M2)의 성능을 평가하여 적어도 하나의 최종모델(M3)을 결정하는 S400 단계; 및
    녹조발생 예측부가 상기 최종모델(M3)에 실제 데이터세트를 적용하여 남세균 데이터를 예측하는 S500 단계를 포함하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법.
  13. 청구항 12에 있어서, S300 단계는
    데이터세트 적용부가 상기 타 훈련-검증 데이터세트(D2)를 상기 후보모델(M1)에 적용하는 S310 단계;
    성능 평가부가 후보모델(M1)의 성능을 평가하는 S320 단계;
    적정 데이터세트 선정부가 후보모델(M1)의 성능 평가를 통해 타 훈련-검증 데이터세트(D2) 중에서 복수개의 적정 훈련-검증 데이터세트(D3)를 선정하는 S330 단계;
    적정모델 생성부가 상기 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용하여 적정모델(M2)을 생성시키는 S340 단계; 및
    하이퍼파라미터 미세조정부가 상기 적정모델(M2)의 하이퍼파라미터를 미세조정하는 S350 단계를 포함하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법.
  14. 청구항 13에 있어서, S320 단계는
    각각의 타 훈련-검증 데이터세트(D2)이 적용된 후보모델(M1)의 오차지표인 평균제곱오차(MSE) 값을 산출하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법.
  15. 청구항 14에 있어서, S330 단계는
    S320 단계에서 산출한 평균제곱오차(MSE) 값이 기 설정값 이하인 데이터세트를 적정 훈련-검증 데이터세트(D3)로 선정하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법.
  16. 청구항 15에 있어서, S340 단계는
    선정된 각 적정 훈련-검증 데이터세트(D3)를 상기 후보모델(M1)에 적용시켜,
    각 적정 훈련-검증 데이터세트(D3) 별로 적정모델(M2)을 생성하는 것을 특징으로 하는 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법.
  17. 하드웨어와 결합되어, 청구항 12에 따른 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측방법을 컴퓨터에 의해 실행시키기 위하여 컴퓨터가 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
KR1020220106047A 2022-08-24 2022-08-24 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법 KR20240028036A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220106047A KR20240028036A (ko) 2022-08-24 2022-08-24 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220106047A KR20240028036A (ko) 2022-08-24 2022-08-24 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법

Publications (1)

Publication Number Publication Date
KR20240028036A true KR20240028036A (ko) 2024-03-05

Family

ID=90298250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220106047A KR20240028036A (ko) 2022-08-24 2022-08-24 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법

Country Status (1)

Country Link
KR (1) KR20240028036A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101774871B1 (ko) 2015-02-05 2017-09-05 (주)유엔이 환경 오염 예측 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101774871B1 (ko) 2015-02-05 2017-09-05 (주)유엔이 환경 오염 예측 시스템 및 방법

Similar Documents

Publication Publication Date Title
CN103730006B (zh) 一种短时交通流量的组合预测方法
CN108171379B (zh) 一种用电负荷预测方法
CN112288164B (zh) 一种计及空间相关性和修正数值天气预报的风功率组合预测方法
CN103105246A (zh) 一种基于遗传算法改进的bp神经网络的温室环境预测反馈方法
CN102831269A (zh) 一种流程工业过程工艺参数的确定方法
CN104091216A (zh) 基于果蝇优化最小二乘支持向量机的交通信息预测方法
CN110782658A (zh) 一种基于LightGBM算法的交通量预测方法
CN109143408B (zh) 基于mlp的动态区域联合短时降水预报方法
CN110765418B (zh) 一种流域水沙研究模型的智能集合评估方法和系统
CN106022954A (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN107122890A (zh) 个人信用得分优化评价方法
Gilbert et al. Probabilistic access forecasting for improved offshore operations
Ning et al. GA-BP air quality evaluation method based on fuzzy theory.
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN114169434A (zh) 一种负荷预测方法
CN115526108A (zh) 一种基于多源监测数据的滑坡稳定性智能动态预测方法
Wu et al. Use of a multi-objective correlation index to analyze the power generation, water supply and ecological flow mutual feedback relationship of a reservoir
KR20110034288A (ko) 중수로 압력관 반경방향 크립 예측 방법
KR20240028036A (ko) 적정 훈련-검증 데이터세트 선정부를 구비한 기계학습 기반의 녹조발생 예측시스템 및 예측방법
Noor et al. Prediction map of rainfall classification using random forest and inverse distance weighted (IDW)
CN105225015A (zh) 基于经济发展情况的城市电力系统电网饱和负荷预测方法
Velasco et al. Performance analysis of multilayer perceptron neural network models in week-ahead rainfall forecasting
Shi et al. Integration of fuzzy logic, particle swarm optimization and neural networks in quality assessment of construction project.
Geng et al. Study on index model of tropical cyclone intensity change based on projection pursuit and evolution strategy
Sahraei et al. Daily discharge forecasting using least square support vector regression and regression tree