KR101900570B1 - 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템 - Google Patents

기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템 Download PDF

Info

Publication number
KR101900570B1
KR101900570B1 KR1020160160571A KR20160160571A KR101900570B1 KR 101900570 B1 KR101900570 B1 KR 101900570B1 KR 1020160160571 A KR1020160160571 A KR 1020160160571A KR 20160160571 A KR20160160571 A KR 20160160571A KR 101900570 B1 KR101900570 B1 KR 101900570B1
Authority
KR
South Korea
Prior art keywords
mosquito
data
activity index
machine learning
module
Prior art date
Application number
KR1020160160571A
Other languages
English (en)
Other versions
KR20180060730A (ko
Inventor
신이레
이채연
Original Assignee
한국외국어대학교 연구산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국외국어대학교 연구산학협력단 filed Critical 한국외국어대학교 연구산학협력단
Priority to KR1020160160571A priority Critical patent/KR101900570B1/ko
Publication of KR20180060730A publication Critical patent/KR20180060730A/ko
Application granted granted Critical
Publication of KR101900570B1 publication Critical patent/KR101900570B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Environmental Sciences (AREA)
  • Ecology (AREA)
  • Primary Health Care (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Atmospheric Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템에 관한 것으로서, 본 발명의 일 실시예에 따른 모기활동성지수 산출 방법은, 슬라이딩 창 기법을 이용하여 예측하고자 하는 날 이전 최근의 소정 기간 동안 복수의 포집지점에서 측정한 모기개체자료, 각 해당 포집지점의 지표특성자료 및 기상자료를 포함하는 모델입력자료를 구축하는 단계; 기계학습모델에 상기 모델입력자료를 입력하여 기계학습을 수행하는 단계; 및 학습된 상기 기계학습모델에서 예측한 모기개체자료에 기초하여 예측하고자 하는 날의 모기활동성지수를 산출하는 단계;를 포함한다.

Description

기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템{METHOD AND SYSTEM FOR CALCULATING MOSQUITO ACTIVITY INDEX USING METEOROLOGICAL VARIABLES AND SURFACE CHARACTERISTICS}
본 발명은 모기 활동성 지수 산출 방법 및 시스템에 관한 것으로, 보다 상세하게는 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템에 관한 것이다.
최근 기후 온난화 및 환경변화로 인하여 도심지역에 모기의 서식지가 다양해지면서, 모기 개체와 인간과의 접촉 빈도가 증가하고 있다 (질병관리본부 2015, 도 1 참조). 모기 개체로부터 발생하는 피해가 점차 증가할 것으로 우려되는 가운데, 피해빈도를 감소시키고 매개 질병을 예방하기 위해서는 모기 개체에 대한 발생분포 및 발생밀도 감시가 필요하다. 모기 개체의 발생분포 및 발생밀도는 기상상황과 도시지표특성에 따라 달라진다(Ryan et al., 1999; Lee et al., 2015). 기상변수 중에 기온, 습도, 강우량은 모기 개체의 발생분포에 영향을 미치며, 도시 지표면의 구성요소인 인공적인 건축물과 자연적인 식생은 모기 개체 발생밀도에 영향을 미친다(Kim et al. 2013). 대표적인 사례로서 날씨가 화창한 여름날, 도시공원에서 산책하는 도시민은 모기들의 흡혈활동으로 인하여 불쾌감을 경험하는 반면, 도심 인공 건축물 사이로 지나가는 도시민들은 불쾌감을 상대적으로 적게 경험한다.
1. 질병관리본부 2014: 주요 감염병 매개모기 방제관리지침, 질병매개곤충과 연구 보고서 2. Kim, J. -H., Park S. -Y., 2013: The Impact of Land Use Structure and Vector Habitat Conditions on the Incidence of Malaria-A case Study in High-Incidence Areas. Journal of the Korean Association of Geographic Information Studies, 16 3. Kwon, Y. -S., Bae, M. -J., Chung, N., Lee, Y. -R., Hawng, S., Kim, S, -A, Choi, Y. J., Park, Y. -S,. 2015: Modeling Occurrence of Urban Mosquitos Based on Land Use Types and teorological Factors in Korea. International Journal of Enmental Research and Public Heath. 12, 13131- 13147.(3), 12-24. 4. Ryan, P. A., Do, K. A., Kay, B. H, 1999: Spatial temporal analysis of Ross River virus disease patterns at Maroochy Shire, Australia: Association between human morbidity and mosquito abundance. Journal of the Mdical Entomology. 36. 515-521
본 발명은 전술한 문제를 해결하기 위한 것으로, 모기 발생에 영향을 미치는 기상변수와 지표특성을 가지고 모기 개체에 대한 발생분포 및 발생밀도를 효과적으로 감시하고 예측할 수 있고, 또한, 매일의 기상상황에 따라 달라지는 모기 개체의 발생분포 및 발생밀도를 도시민이 체감할 수 있는 모기 활동성 지수로 산정하고, 올바른 시민행동요령 안내를 제공함으로써, 도시민들이 쾌적한 환경을 누리고 매개 질병을 예방할 수 있는 방법을 제공하고자 한다.
본 발명의 일 실시예에 따른 모기활동성지수 산출 방법은, 슬라이딩 창 기법을 이용하여 예측하고자 하는 날 이전 최근의 소정 기간 동안 복수의 포집지점에서 측정한 모기개체자료, 각 해당 포집지점의 지표특성자료 및 기상자료를 포함하는 모델입력자료를 구축하는 단계; 기계학습모델에 상기 모델입력자료를 입력하여 기계학습을 수행하는 단계; 및 학습된 상기 기계학습모델에서 예측한 모기개체자료에 기초하여 예측하고자 하는 날의 모기활동성지수를 산출하는 단계;를 포함한다.
본 발명의 일 실시예에 따르면, 상기 모기개체자료는 디지털모기포집장비(Digital Mosquito Monitoring System, DMS)가 해당 포집지점에서 포집한 모기 개체수에 기초하고, 상기 지표특성자료는 도시기후분석모델(Climate Analysis Seoul, CAS)을 이용하여, 서울지역의 3차원 구조 및 피복특성을 25m 해상도로 분석한 16개 변수를 사용하고, 상기 기상자료는 자동기상관측지점(Automated Weather Station)중에서 해당 포집지점과 가장 인접한 지점에서 측정한다.
본 발명의 일 실시예에 따르면, 상기 포집지점은 식생비, 수역비 및 인공피복비율에 기초하여 공원, 수변 및 주택가로 분류한다.
본 발명의 일 실시예에 따르면, 상기 모기활동성지수는 설정된 모기 개체 수 구간에 기초하여 4단계(쾌적, 관심, 주의, 불쾌)로 분류한다.
본 발명의 일 실시예에 따르면, 상기 기계학습모델은 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 또는 서포트벡터머신(Support Vector Machine, SVM)을 사용한다.
본 발명의 일 실시예에 따르면, 모델입력자료를 구축하는 단계는, 상기 모기개체자료, 지표특성자료 및 기상자료의 시공간적으로 매칭하는 단계; 및 종속변수로 설정되는 상기 모기개체자료를 업 샘플링하는 단계;를 포함한다.
본 발명의 일 실시예에 따르면, 상기 기상자료, 상기 모기개체자료 및 상기 지표특성자료를 시공간적으로 매칭하고 지형별 및 월별로 분류하는 단계; 및 분류된 자료를 이용하여 상기 기상자료의 각 기상변수와 종속변수인 모기개체자료의 상관계수를 구하는 단계;를 더 포함한다.
본 발명의 일 실시예에 따르면, 상기 상관계수에 기초하여 상기 모델입력자료의 기상변수 중 종속변수에 유의미한 중요변수를 선택하는 단계;를 더 포함한다.
본 발명의 일 실시예에 따르면, 선택된 상기 중요변수가 다른 중요변수와 상관성이 소정 값 이상이면 그 중요변수를 제거하는 단계;를 더 포함한다.
본 발명의 일 실시예에 따르면, 실제 예측하고자 하는 날에 측정한 모기개체자료에 기초하여 각 포집지점에 대해 산출된 상기 모기활동성지수의 정확도를 검증하는 단계;를 더 포함한다.
본 발명의 일 실시예에 따르면, 상기 기계학습을 수행하는 단계는, 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 및 서포트벡터머신(Support Vector Machine, SVM)을 각각 사용하여 수행되고, 상기 모기활동성지수를 산출하는 단계는, 검증된 상기 정확도가 가장 높은 기계학습모델을 선택하여 모기활동성지수를 산출한다.
본 발명의 일 실시예에 따르면, 산출된 상기 모기활동성지수에 기초하여 행정구별로 모기활동성지수를 산출하는 단계;를 더 포함한다.
본 발명의 일 실시예에 따른 매체에 저장된 컴퓨터 프로그램은, 하드웨어와 결합되어 제 1 항 내지 제 12 항 중 어느 한 항에 기재된 모기활동성지수 산출 방법의 각 단계를 실행시킨다.
본 발명의 일 실시예에 따른 모기활동성지수 산출 시스템은, 슬라이딩 창 기법을 이용하여 예측하고자 하는 날 이전 최근의 소정 기간 동안 복수의 포집지점에서 측정한 모기개체자료, 각 해당 포집지점의 지표특성자료 및 기상자료를 포함하는 모델입력자료를 구축하는 모듈; 기계학습모델에 상기 모델입력자료를 입력하여 기계학습을 수행하는 모듈; 및 학습된 상기 기계학습모델에서 예측한 모기개체자료에 기초하여 예측하고자 하는 날의 모기활동성지수를 산출하는 모듈;을 포함한다.
본 발명의 일 실시예에 따르면, 상기 모기개체자료는 디지털모기포집장비(Digital Mosquito Monitoring System, DMS)가 해당 포집지점에서 포집한 모기 개체수에 기초하고, 상기 지표특성자료는 도시기후분석모델(Climate Analysis Seoul, CAS)을 이용하여, 서울지역의 3차원 구조 및 피복특성을 25m 해상도로 분석한 16개 변수를 사용하고, 상기 기상자료는 자동기상관측지점(Automated Weather Station)중에서 해당 포집지점과 가장 인접한 지점에서 측정한다.
본 발명의 일 실시예에 따르면, 상기 포집지점은 식생비, 수역비 및 인공피복비율에 기초하여 공원, 수변 및 주택가로 분류한다.
본 발명의 일 실시예에 따르면, 상기 모기활동성지수는 설정된 모기 개체 수 구간에 기초하여 4단계(쾌적, 관심, 주의, 불쾌)로 분류한다.
본 발명의 일 실시예에 따르면, 상기 기계학습모델은 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 또는 서포트벡터머신(Support Vector Machine, SVM)을 사용한다.
본 발명의 일 실시예에 따르면, 모델입력자료를 구축하는 모듈은, 상기 모기개체자료, 지표특성자료 및 기상자료의 시공간적으로 매칭하는 모듈; 및 종속변수로 설정되는 상기 모기개체자료를 업 샘플링하는 모듈;을 포함한다.
본 발명의 일 실시예에 따르면, 상기 기상자료, 상기 모기개체자료 및 상기 지표특성자료를 시공간적으로 매칭하고 지형별 및 월별로 분류하는 모듈; 및 분류된 자료를 이용하여 상기 기상자료의 각 기상변수와 종속변수인 모기개체자료의 상관계수를 구하는 모듈;을 더 포함한다.
본 발명의 일 실시예에 따르면, 상기 상관계수에 기초하여 상기 모델입력자료의 기상변수 중 종속변수에 유의미한 중요변수를 선택하는 모듈;을 더 포함한다.
본 발명의 일 실시예에 따르면, 선택된 상기 중요변수가 다른 중요변수와 상관성이 소정 값 이상이면 그 중요변수를 제거하는 모듈;을 더 포함한다.
본 발명의 일 실시예에 따르면, 실제 예측하고자 하는 날에 측정한 모기개체자료에 기초하여 각 포집지점에 대해 산출된 상기 모기활동성지수의 정확도를 검증하는 모듈;을 더 포함한다.
본 발명의 일 실시예에 따르면, 상기 기계학습을 수행하는 모듈은, 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 및 서포트벡터머신(Support Vector Machine, SVM)을 각각 사용하여 수행되고, 상기 모기활동성지수를 산출하는 모듈은, 검증된 상기 정확도가 가장 높은 기계학습모델을 선택하여 모기활동성지수를 산출한다.
본 발명의 일 실시예에 따르면, 산출된 상기 모기활동성지수에 기초하여 행정구별로 모기활동성지수를 산출하는 모듈;을 더 포함한다.
본 발명의 일 실시예에 따르면 모기 발생에 영향을 미치는 기상변수와 지표특성을 가지고 모기 개체에 대한 발생분포 및 발생밀도를 효과적으로 감시하고 예측할 수 있고, 또한, 매일의 기상상황에 따라 달라지는 모기 개체의 발생분포 및 발생밀도를 도시민이 체감할 수 있는 모기 활동성 지수로 산정하고, 올바른 시민행동요령 안내를 제공함으로써, 도시민들이 쾌적한 환경을 누리고 매개 질병을 예방할 수 있다.
도 1은 질병관리본부가 2015년 밝힌 연 평균 기온, 집중 호우 발생일수, 모기발생밀도 및 환자 발생수를 나타내는 그래프.
도 2는 본 발명의 일 실시예에 따른 지형 별 모기개체수를 나타내는 그래프.
도 3 내지 5는 본 발명의 일 실시예에 따른 본원 발명의 일 실시예에 사용되는 모기포집자료, 도시지형·지표특성 자료 및 기상 관측 자료를 나타내는 도면.
도 6은 본 발명의 일 실시예에 따른 기상요인 및 지표특성에 따른 모기 개체 활동성의 상관분석을 나타내는 도면.
도 7은 본 발명의 일 실시예에 따른 슬라이딩 창 기법을 설명하는 개념도.
도 8 및 9는 본 발명의 일 실시예에 따른 모기활동성 지수 산출 모델의 흐름도.
도 10은 본 발명의 일 실시예에 따른 모기 개체 활동성 지수의 분류를 설명하는 도면.
도 11은 본 발명의 일 실시예에 따른 정확도 검증 결과를 나타내는 도면.
도 12 및 13은 본 발명의 일 실시예에 따른 자치구별 모기 개체 활동성 지수를 나타내는 도면.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일·유사한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 “모듈” 및 “부”는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
<자료>
본 발명의 일 실시예에서는 모기 활동성 지수를 산출하기 위하여 디지털모기포집장비(Digital Mosquito Monitoring System, DMS)에서 포집한 모기 개체수를 입력 자료로 사용한다(도 2 및 3 참조). DMS는 서울시 25개 자치구별 2개씩 운영되고 있으며, 본 출원인의 사업단에서도 3개 지점을 운영하고 있다. 모기 활동성 지수는 서울시에서 제공하고 있는 지수 정보를 기반으로 모기 개체구간을 산정하며, 총 4단계(쾌적, 관심, 주의, 불쾌)로 분류한다.
도시지표특성자료는 도시기후분석모델(Climate Analysis Seoul, CAS)을 이용하여, 서울지역의 3차원 구조 및 피복특성을 25m 해상도로 분석한 16개 변수를 사용한다(도 4 참조).
기상자료는 SKTechx에서 운영하고 있는 255개소의 자동기상관측지점(Automated Weather Station)중에서 모기포집지점과 가장 인접한 지점의 기온, 강우, 습도, 풍속, 기압 및 5일, 10일, 15일, 30일 적산량, 1일∼3일 시차 자료를 사용할 수 있다(도 5 참조).
<지형을 이용한 모기포집지점 분류>
모기 포집 지점을 그 지형에 따라 공원(산지), 수변(하수), 주택가로 분류할 수 있다. 본 발명의 일 실시예에서 서울 전체를 5m 기준으로 식생, 수역, 인공피복으로 분류하고 모기 포집 지점에서 300m 반경에 포함되어 있는 토지비율을 산정한다. 식생비, 수역비, 인공피복비율을 선정해서 만약 수역비가 존재하면 그 지점은 수변지역, 식생비율이 20% 이상이면 공원, 그 나머지 지점은 주택가로 분류한다.(도 2 및 도 3 참조)
또한, 본 발명의 일 실시예에서, 모기 포집 지점의 분류 값은 서울시 자치구의 CAS변수를 이용하여 산출되는 값이거나 또는 이미 지형(공원, 수변, 주택)적으로 분류된 지점의 값으로 산출될 수 있다.
<기상·지형과 모기 개체 수 간의 상관성 규명>
본 발명의 일 실시예에서 “상관성 규명”은 다음에 설명할 “통계/기계학습”을 수행하기 위한 기초통계 및 타당성을 나타내기 위한 목적으로 수행될 수 있다.
기상변수 및 지형자료가 모기 개체 수와 어떤 상관성을 가지는지 파악하여 이에 기초하여 이후의 모형 입력변수를 구성할 수 있다. 또한, 기상변수와 지형자료가 모기개체수와 상관성이 있다는 것을 보여줌으로써, 앞으로 수행하는 통계/기계학습 모형에 입력 자료로 타당하다는 것을 보여주기 위함입니다.
상관성 규명은 기상자료와 모기 개체자료, 지형자료를 시공간적으로 매칭을 수행하고 나서(아래의 2. 모델입력자료(전처리1)에 관한 설명 및 도 9 참조), 지형(공원, 수변, 주택)으로 분류하며, 월별(4월~10월)로 자료를 분류한다. 도 6에는, 월별, 지형별로 분류된 자료를 가지고 피어슨 상관계수를 구하고, 상관계수가 가장 높은 기상변수와 상관계수는 낮지만 의미가 있는 기상변수를 그래프로 나타내었다. 모형적합은 회귀모형을 이용하여 기상변수를 종합하여 나타내 보았을 때 얼마만큼 모형설명력을 가지는지를 보여준다.
도 6에 표시된 변수의 의미는 다음과 같다.
T=기온, H=습도, P=기압, W=바람, R=강수, avg=평균, max=최고, min=최저, lag=시차, lag1=1일전, lag2=2일전, avg20=20일 누적평균기온, ex. Tavg20=20일 누적평균기온
<모기 활동성 지수 산출 방법>
본 발명의 실시예들에서는 네 가지의 기계학습 기법을 사용하여 서울지역 53개소에 대해 일 단위 모기 활동성 지수를 산출할 수 있다. 본 발명의 실시예들에 사용된 기계학습 기법은 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 또는 서포트벡터머신(Support Vector Machine, SVM)을 사용한다.
모기 개체자료는 매 주기 마다 동일한 패턴이 반복되기 어렵기 때문에 이상치 검출 및 보정을 수행하고 또한 불안정한 패턴변화를 최소화하기 위해 슬라이딩 창(sliding window) 방식을 이용하여 분석을 수행한다. 슬라이딩 창 크기는 최근 추세를 고려할 수 있는 30일로 고정하였으며 매 슬라이딩 창의 다음 1일의 일별 모기 활동성 지수를 산출한다.
마지막으로 관측 자료(디지털모기포집장비(Digital Mosquito Monitoring System, DMS)에서 포집한 모기 개체수)와 정확도(Accuracy) 검증을 통해서 각 기법의 분류정확도 성능을 비교할 수 있다.
이하에서는 도 7 내지 9를 참조하여 모기 활동성 지수 산출 과정을 보다 상세히 설명한다.
1. 슬라이딩 창
슬라이딩 창 방식은 표본 내 샘플 기간의 크기를 일정하게 유지(고정) 한 채 시작점을 순차적으로 이동하면서 매 시점마다 모형의 계수를 새롭게 추정하는 방식이다(도 7 참조).
모기 개체자료는 매 주기(일주일, 한달) 마다 동일한 패턴이 반복되기 어렵기 때문에, 포집된 전체자료를 사용하지 않고 예측일자로부터 최근 기간의 샘플 크기를 정하여 학습 입력 자료로 사용한다. 샘플크기는 필요에 따라 임의로 정할 수 있으며, 본 실시예에서는 30일을 기준으로 한다. 만약 2015년 5월 5일을 예측하고자 한다면, 30일 전인 2015년 4월 5일부터 5월 4일 (30일) 최근 자료를 선택하게 되고, 만약 5월 6일을 예측한다고 하면 그 예측일자 기준으로 4월 6일부터 5월 5일까지 최근 자료를 선택하게 된다.
2. 모델입력자료(전처리1)
전술한 바와 같이 모델입력자료는 총 3가지(기상변수, 지형자료, 모기포집자료)로 구성된다. 입력자료는 시공간적으로 매칭이 되어야 하기 때문에 모델입력자료 구축을 위하여 3가지 변수의 시공간 매칭작업을 수행하게 되며, 학습을 하기 위한 종속변수 모기 활동성 지수 분류 등의 전처리 작업을 수행하게 된다(도 9의 모델입력자료 전 단계들 참조).
3. 업샘플링(전처리2)
전술한 2번 단계에서 모델입력자료가 학습모형에 입력할 수 있도록 종속변수를 설정하게 되는데, 이번 단계에서는 학습모델 예측성능을 높이기 위해 종속변수의 각 케이스가 균등하도록 부트스트랩 샘플링을 수행하는데 이를 업 샘플링이라 한다.
만약 A등급부터 D등급으로 종속변수가 구성되어있는데, D등급은 데이터 수가 많고 A등급은 상대적으로 매우 적어서 데이터가 균등하지 못할 때 A 등급 또한 D등급의 수와 동일해지도록 부트스트랩 샘플링을 수행한다.
4. 중요변수 선택
모델입력자료가 구축되었을 때, 모델입력자료에 있는 모든 설명변수를 모형에 입력하지 않고, 종속변수에 유의미한 입력변수(중요변수)를 선택해서 모형에 입력할 수 있다.
상관성 규명과 연관
5. 중복변수 제거
중요변수가 4번째 단계에서 선택되었을 때, 만약에 중요변수끼리 서로 상관성이 높아지게 되면, 모형예측성능이 떨어질 수 있다. 따라서 중요변수 중에서 서로 상관성이 높은 변수들을 제거할 수 있다.
6. 모델 빌딩/통계 기계학습
최종적으로 기계학습에 들어갈 모형 입력자료가 구축되며, 통계 기법, 기계학습 기법에 입력자료가 들어가면서 모델 빌딩(기계학습)이 수행된다.
7. 활동성 지수 분류
모형이 구축된 후에 예측하고자 하는 날의 입력자료를 모형에 입력하게 되면 구축된 모형 식(기계학습)에 의하여 예측하고자 하는 날의 모기 활동성 지수가 분류된다(도 10 참조).
8. 정확도 검증
예측하고자 하는 날의 예측된 모기 활동성 지수(예측값)와 실제 예측하고자 하는 날의 모기 포집자료(관측값)를 비교하여 각 지점에 대해 분류가 올바르게 되었는지 정확도 검증을 수행할 수 있다(도 11 참조).
9. 모형 선택
일 실시예에서 검증 결과에 기초하여 4가지 모형(RF, MLR, NN, SVM)에서 가장 정확도가 높은 모형을 선택할 수 있다.
10. 결과 산출
일 실시예에서 자치구별로 모기활동성 지수가 어떻게 분류되었는지 결과를 산출하게 된다(도 12 및 도 13 참조).
<분류정확도 결과>
본 발명의 일 실시예에서는 네 가지 기계학습 기법을 이용하여 2015년 5월 7일부터 10월 31일 총 153일간(미 관측일자 제외) 서울시 53개 모기 포집 지점에 대해 일 단위 모기 활동성 지수를 산출하였다. 산출된 모기 활동성 지수의 정확도를 검증하기 위하여 53개소에서 관측된 자료와 일 단위로 검증을 하였고, 정확도를 월별로 평균하여 살펴보았다 (표 1 참조). 가장 분류정확도가 높은 모델을 살펴본 결과 RF가 (0.66) 으로 가장 높았으며, 다음으로 SVM (0.61), MLR (0.57), NN (0.25) 순으로 높았다. 월별로 비교한 결과에서도 모든 월에 대하여 RF의 분류정확도가 가장 높았으며, 월에 따라 분류 정확도가 큰 차이 없이 꾸준한 성능을 보임을 확인하였다.
하기 [표 1]은 5 월에서 10 월까지 153 일 동안 RF, MLR, NN 및 SVM에서 유도된 일일 평균 정확도의 기능 점수 (기능 점수는 서울의 53 개 DMS 지점에서 계산되고 평균화 됨).
Figure 112016117095543-pat00001
<모기 활동성 지수 산출 결과>
본 발명의 일 실시예에 따르면, 모기 활동성 지수에 영향을 미치는 중요 기상변수는 기후·지표특성에 따라 다르게 나타남을 볼 수 있다. 5월 7일 사례의 경우 10일 누적 최저기온과 2일 시차 최저기온이 낮을수록 모기 활동성 지수는 쾌적, 관심 단계에 분포하고 있었으며, 증가할수록 주의, 불쾌 단계로 분포하였다. 또한, 지점 특성 관점으로 살펴보았을 때 수변, 산지, 비주택가의 경우 불쾌 단계가 발생할 확률이 비수변, 비산지, 주택가 지역에 비해 상대적으로 높음을 확인하였다.
전술한 본 발명은, 매체에 기록된 컴퓨터 프로그램 또는 애플리케이션으로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 단말기의 제어부를 포함할 수도 있다.
상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
T=기온, H=습도, P=기압, W=바람, R=강수, avg=평균, max=최고, min=최저, lag=시차, lag1=1일전, lag2=2일전, avg20=20일 누적평균기온, ex. Tavg20=20일 누적평균기온

Claims (25)

  1. 매체에 기록된 컴퓨터 프로그램 또는 애플리케이션을 구현하는 모듈들을 구비하고 상기 모듈들을 통해 하기 단계들을 수행하는 컴퓨터 단말기의 제어부에 의해 처리되는 모기활동성지수 산출 방법으로서,
    슬라이딩 창 기법을 이용하여 예측하고자 하는 날 이전 최근의 소정 기간 동안 복수의 포집지점에서 측정한 모기개체자료, 각 해당 포집지점의 지표특성자료 및 기상자료를 포함하는 모델입력자료를 구축하는 단계-여기서, 상기 모델입력자료를 구축하는 단계는 상기 기상자료, 상기 모기개체자료 및 상기 지표특성자료를 시공간적으로 매칭하고 지형별 및 월별로 분류하는 것을 포함함-;
    분류된 자료를 이용하여 상기 기상자료의 각 기상변수와 종속변수인 모기개체자료의 상관계수를 구하는 단계;
    상기 상관계수에 기초하여 상기 모델입력자료의 기상변수 중 종속변수에 유의미한 중요변수를 선택하는 단계;
    선택된 상기 중요변수가 다른 중요변수와 상관성이 소정 값 이상이면 그 중요변수를 제거하는 단계;
    상기 중요변수의 선택과 상기 중요변수의 제거가 반영된 모델입력자료를 기계학습모델에 입력하여 기계학습을 수행하는 단계; 및
    학습된 상기 기계학습모델에서 예측한 모기개체자료에 기초하여 상기 예측하고자 하는 날의 모기활동성지수를 산출하는 단계;를 포함하며,
    상기 기계학습모델은 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 또는 서포트벡터머신(Support Vector Machine, SVM)을 사용하는,
    모기활동성지수 산출 방법.
  2. 제 1 항에 있어서,
    상기 모기개체자료는 디지털모기포집장비(Digital Mosquito Monitoring System, DMS)가 해당 포집지점에서 포집한 모기 개체수에 기초하고,
    상기 지표특성자료는 도시기후분석모델(Climate Analysis Seoul, CAS)을 이용하여, 서울지역의 3차원 구조 및 피복특성을 25m 해상도로 분석한 16개 변수를 사용하고,
    상기 기상자료는 자동기상관측지점(Automated Weather Station)중에서 해당 포집지점과 가장 인접한 지점에서 측정되는, 모기활동성지수 산출 방법.
  3. 제 2 항에 있어서,
    상기 포집지점은 식생비, 수역비 및 인공피복비율에 기초하여 공원, 수변 및 주택가로 분류되는, 모기활동성지수 산출 방법.
  4. 제 1 항에 있어서,
    상기 모기활동성지수는 설정된 모기 개체 수 구간에 기초하여 4단계(쾌적, 관심, 주의, 불쾌)로 분류되는, 모기활동성지수 산출 방법.
  5. 삭제
  6. 제 1 항에 있어서,
    모델입력자료를 구축하는 단계는,
    상기 모기개체자료, 지표특성자료 및 기상자료의 시공간적으로 매칭하는 단계; 및
    종속변수로 설정되는 상기 모기개체자료를 업 샘플링하는 단계;를 포함하는, 모기활동성지수 산출 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제 1 항에 있어서,
    실제 예측하고자 하는 날에 측정한 모기개체자료에 기초하여 각 포집지점에 대해 산출된 상기 모기활동성지수의 정확도를 검증하는 단계;를 더 포함하는, 모기활동성지수 산출 방법.
  11. 제 10 항에 있어서,
    상기 모기활동성지수를 산출하는 단계는,
    상기 기계학습을 수행하는 단계에서 검증된 기계학습모델을 선택하여 모기활동성지수를 산출하는, 모기활동성지수 산출 방법.
  12. 제 1 항에 있어서,
    산출된 상기 모기활동성지수에 기초하여 행정구별로 모기활동성지수를 산출하는 단계;를 더 포함하는, 모기활동성지수 산출 방법.
  13. 컴퓨터 단말기를 포함한 하드웨어와 결합되어 상기 컴퓨터 단말기의 제어부에 의해 제 1 항 내지 제 4 항, 제 6 항 및 제 10 항 내지 제 12 항 중 어느 한 항에 기재된 모기활동성지수 산출 방법의 각 단계를 실행시키기 위한 컴퓨터 프로그램 또는 애플리케이션이 기록된 매체.
  14. 매체에 기록된 컴퓨터 프로그램 또는 애플리케이션을 구현하는 모듈들을 구비한 컴퓨터 단말기를 포함하는 모기활동성지수 산출 시스템으로서,
    상기 컴퓨터 단말기의 제어부에 의해 모기활동성지수를 산출하도록 수행되는 모듈들은,
    슬라이딩 창 기법을 이용하여 예측하고자 하는 날 이전 최근의 소정 기간 동안 복수의 포집지점에서 측정한 모기개체자료, 각 해당 포집지점의 지표특성자료 및 기상자료를 포함하는 모델입력자료를 구축하는 모듈-여기서, 상기 모델입력자료를 구축하는 모듈은 상기 기상자료, 상기 모기개체자료 및 상기 지표특성자료를 시공간적으로 매칭하고 지형별 및 월별로 분류하는 것을 포함함-;
    분류된 자료를 이용하여 상기 기상자료의 각 기상변수와 종속변수인 모기개체자료의 상관계수를 구하는 모듈;
    상기 상관계수에 기초하여 상기 모델입력자료의 기상변수 중 종속변수에 유의미한 중요변수를 선택하는 모듈;
    선택된 상기 중요변수가 다른 중요변수와 상관성이 소정 값 이상이면 그 중요변수를 제거하는 모듈;
    상기 중요변수의 선택과 상기 중요변수의 제거가 반영된 모델입력자료를 기계학습모델에 입력하여 기계학습을 수행하는 모듈; 및
    학습된 상기 기계학습모델에서 예측한 모기개체자료에 기초하여 상기 예측하고자 하는 날의 모기활동성지수를 산출하는 모듈;을 포함하며,
    상기 기계학습모델은 랜덤포레스트(Random Forest, RF), 다항로지스틱회귀모형(Multinomial Logistic Regression, MLR), 뉴럴네트워크(Neural Network NN) 또는 서포트벡터머신(Support Vector Machine, SVM)을 사용하는,
    모기활동성지수 산출 시스템.
  15. 제 14 항에 있어서,
    상기 모기개체자료는 디지털모기포집장비(Digital Mosquito Monitoring System, DMS)가 해당 포집지점에서 포집한 모기 개체수에 기초하고,
    상기 지표특성자료는 도시기후분석모델(Climate Analysis Seoul, CAS)을 이용하여, 서울지역의 3차원 구조 및 피복특성을 25m 해상도로 분석한 16개 변수를 사용하고,
    상기 기상자료는 자동기상관측지점(Automated Weather Station)중에서 해당 포집지점과 가장 인접한 지점에서 측정되는, 모기활동성지수 산출 시스템.
  16. 제 15 항에 있어서,
    상기 포집지점은 식생비, 수역비 및 인공피복비율에 기초하여 공원, 수변 및 주택가로 분류되는, 모기활동성지수 산출 시스템.
  17. 제 14 항에 있어서,
    상기 모기활동성지수는 설정된 모기 개체 수 구간에 기초하여 4단계(쾌적, 관심, 주의, 불쾌)로 분류되는, 모기활동성지수 산출 시스템.
  18. 삭제
  19. 제 14 항에 있어서,
    모델입력자료를 구축하는 모듈은,
    상기 모기개체자료, 지표특성자료 및 기상자료의 시공간적으로 매칭하는 모듈; 및
    종속변수로 설정되는 상기 모기개체자료를 업 샘플링하는 모듈;을 포함하는, 모기활동성지수 산출 시스템.
  20. 삭제
  21. 삭제
  22. 삭제
  23. 제 14 항에 있어서,
    실제 예측하고자 하는 날에 측정한 모기개체자료에 기초하여 각 포집지점에 대해 산출된 상기 모기활동성지수의 정확도를 검증하는 모듈;을 더 포함하는, 모기활동성지수 산출 시스템.
  24. 제 23 항에 있어서,
    상기 모기활동성지수를 산출하는 모듈은,
    상기 기계학습을 수행하는 모듈을 통해 검증된 기계학습모델을 선택하여 모기활동성지수를 산출하는, 모기활동성지수 산출 시스템.
  25. 제 14 항에 있어서,
    산출된 상기 모기활동성지수에 기초하여 행정구별로 모기활동성지수를 산출하는 모듈;을 더 포함하는, 모기활동성지수 산출 시스템.

KR1020160160571A 2016-11-29 2016-11-29 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템 KR101900570B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160160571A KR101900570B1 (ko) 2016-11-29 2016-11-29 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160160571A KR101900570B1 (ko) 2016-11-29 2016-11-29 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20180060730A KR20180060730A (ko) 2018-06-07
KR101900570B1 true KR101900570B1 (ko) 2018-09-20

Family

ID=62622059

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160160571A KR101900570B1 (ko) 2016-11-29 2016-11-29 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101900570B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102443741B1 (ko) * 2020-08-18 2022-09-15 고려대학교 산학협력단 해석 가능한 단기 일사량 예측 장치 및 방법
GR1010544B (el) * 2022-11-10 2023-09-14 Οικοαναπτυξη Ανωνυμη Εταιρια, Συστημα και μεθοδος προβλεψης παρουσιας/απουσιας για τα τρια γενη προνυμφων (culex, aedes, anopheles) στις εστιες αναπαραγωγης

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101118245B1 (ko) * 2009-11-16 2012-03-19 디비비전(주) 과수재배 현장에서 촬영된 이미지로부터 해충의 종류 및 분포를 분석하는 병해충 관리 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101118245B1 (ko) * 2009-11-16 2012-03-19 디비비전(주) 과수재배 현장에서 촬영된 이미지로부터 해충의 종류 및 분포를 분석하는 병해충 관리 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문1*
뉴스기사*

Also Published As

Publication number Publication date
KR20180060730A (ko) 2018-06-07

Similar Documents

Publication Publication Date Title
Sharma et al. Forecasting daily global solar irradiance generation using machine learning
Bacanli et al. Adaptive neuro-fuzzy inference system for drought forecasting
CN111027175B (zh) 基于耦合模型集成模拟的洪水对社会经济影响的评估方法
Adham et al. Assessing the impact of climate change on rainwater harvesting in the Oum Zessar watershed in Southeastern Tunisia
Homer et al. Forecasting sagebrush ecosystem components and greater sage-grouse habitat for 2050: Learning from past climate patterns and Landsat imagery to predict the future
Mango et al. Hydro-meteorology and water budget of the Mara River Basin under land use change scenarios
Sun et al. Analyzing urban ecosystem variation in the City of Dongguan: A stepwise cluster modeling approach
Chilkoti et al. Multi-objective autocalibration of SWAT model for improved low flow performance for a small snowfed catchment
Hagen et al. Development and evaluation of flood forecasting models for forecast-based financing using a novel model suitability matrix
KR20190027567A (ko) 데이터마이닝과 공간분석에 기반한 하천수 클로로필-a 농도 예측 방법
KR101900570B1 (ko) 기상변수와 지표특성을 이용한 모기 활동성 지수 산출 방법 및 시스템
CN115082250B (zh) 个体移动与生态空间的网络关系分析方法、装置及终端
Franco et al. Virtual weather stations for meteorological data estimations
Shin et al. Driven to the edge: Species distribution modeling of a Clawed Salamander (Hynobiidae: Onychodactylus koreanus) predicts range shifts and drastic decrease of suitable habitats in response to climate change
Zambrano et al. The scale dependency of trait‐based tree neighborhood models
Kasiviswanathan et al. Implications of uncertainty in inflow forecasting on reservoir operation for irrigation
Sahalu Analysis of urban land use and land cover changes: A case study in Bahir Dar, Ethiopia
Muluye Implications of medium-range numerical weather model output in hydrologic applications: Assessment of skill and economic value
Chu et al. Mapping and forecasting of rice cropping systems in central China using multiple data sources and phenology-based time-series similarity measurement
Lim et al. Downscaling large-scale NCEP CFS to resolve fine-scale seasonal precipitation and extremes for the crop growing seasons over the southeastern United States
Benavidez Understanding the effect of changing land use on floods and soil erosion in the Cagayan de Oro catchment
Srivastava et al. Unveiling an Environmental Drought Index and its applicability in the perspective of drought recognition amidst climate change
CN109635490B (zh) 基于clue-s模型的胡杨春尺蠖发生蔓延过程的动态模拟方法
Lakshmaiah et al. Application of referential ensemble learning techniques to predict the density of rainfall
Kumar et al. Development and evaluation of seasonal rainfall forecasting (SARIMA) model for Kumaon region of Uttarakhand

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)