KR101874994B1 - Device and method for predicting chances of norovirus infectious disease outbreak - Google Patents

Device and method for predicting chances of norovirus infectious disease outbreak Download PDF

Info

Publication number
KR101874994B1
KR101874994B1 KR1020170044360A KR20170044360A KR101874994B1 KR 101874994 B1 KR101874994 B1 KR 101874994B1 KR 1020170044360 A KR1020170044360 A KR 1020170044360A KR 20170044360 A KR20170044360 A KR 20170044360A KR 101874994 B1 KR101874994 B1 KR 101874994B1
Authority
KR
South Korea
Prior art keywords
model
data
predicting
unit
norovirus
Prior art date
Application number
KR1020170044360A
Other languages
Korean (ko)
Inventor
강주현
김진휘
주인선
이정수
Original Assignee
동국대학교 산학협력단
대한민국(관리청: 특허청장, 승계청: 식품의약품안전처장)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 대한민국(관리청: 특허청장, 승계청: 식품의약품안전처장) filed Critical 동국대학교 산학협력단
Priority to KR1020170044360A priority Critical patent/KR101874994B1/en
Application granted granted Critical
Publication of KR101874994B1 publication Critical patent/KR101874994B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/005Assays involving biological materials from specific organisms or of a specific nature from viruses
    • G01N2333/08RNA viruses

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The present invention relates to a device and a method for predicting the incidence of a norovirus infectious disease. More specifically, the present invention relates to a device and a method for predicting the incidence of a norovirus infectious disease to predict the regional incidence of a norovirus infectious disease by using past norovirus incidence history data and spatial data. By developing a spatial model capable of accurately predicting the future regional incidence of a norovirus infectious disease by utilizing a national infectious disease incidence history database together with spatial data related to a natural and social-economic environmental factor, a dangerous area for an infectious disease can be verified, and a prevention can be performed in advance.

Description

노로바이러스 감염병 발병 확률 예측 장치 및 방법{DEVICE AND METHOD FOR PREDICTING CHANCES OF NOROVIRUS INFECTIOUS DISEASE OUTBREAK}TECHNICAL FIELD [0001] The present invention relates to a device and a method for predicting the incidence of a Norovirus infection,

본 발명은 노로바이러스 감염병 발병 확률 예측 장치 및 방법에 관한 것으로, 더욱 상세하게는 공간 데이터 및 과거 노로바이러스 발병이력 데이터를 이용하여 단위지역별 노로바이러스 감염병 발병확률을 예측하기 위한 노로바이러스 감염병 발병 확률 예측 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for predicting the onset of Norovirus infection, and more particularly, to an apparatus and method for predicting the onset of Norovirus infection by predicting the incidence of Norovirus infection by unit area using spatial data and past Norovirus onset history data And methods.

노로바이러스는 겨울철 식중독을 일으키는 주요 원인으로, 전체 식중독의 약 30-50%정도를 차지할 정도로 세계적으로도 많은 사회경제적 손실을 유발하고 있다. 노로바이러스는 매우 감염성이 큰 외가닥 RNA 바이러스로서 감염 시 구토와 설사를 유발한다. 특히 노로바이러스는 다양한 환경매체에서 안정적으로 생존하며, 감염자의 구토물이나 분변을 통해 경구로 전파되거나, 감염된 음식이나 물을 통해 전파될 수 있다. 노로바이러스는 강우패턴이나, 기온, 습도와 풍속 등의 기상학적 요인들과 생존율과 전염율에 있어 연관성이 크며, 특히 기온과 습도가 낮을 수록 생존율이 높다고 알려져 있다. 또한 노로바이러스는 염분에 강하여 해수나 굴과 같은 바다 양식 어종에서도 자주 발견되어, 겨울철 식중독의 주요 원인으로 작용하고 있다. 노로바이러스는 사람과 사람 사이에서의 직접적인 감염뿐만 아니라 감염자의 분변과 구토로부터 오염된 물, 토양, 또는 시설로부터 2차 감염을 일으킬 수 있다. 따라서 노로바이러스는 기상학적 요인 이외에 인구밀도와 시기별 유동인구, 위생시설이나 환경기초시설 현황 등 인위적 요인의 공간적 특성에도 영향을 받는 것으로 보고되고 있다. 이렇듯 노로바이러스는 매우 높은 전염율로 많은 사회경제적 손실을 발생시키고 있으나 이에 대한 관련당국의 대처는 감염병 발병 후 사후 역학조사를 통한 오염원 규명과 방역에 의존하고 있어 감염병 발병에 대한 효과적인 사전대책은 미흡한 실정이다. Norovirus is a major cause of winter food poisoning, accounting for about 30-50% of total food poisoning, causing global socioeconomic losses. Norovirus is a highly infectious, single-stranded RNA virus that causes vomiting and diarrhea when infected. In particular, norovirus survives in a variety of environmental media and can be transmitted orally through the vomit or feces of an infected person, or through infected food or water. Norovirus is highly correlated with survival rate and transmission rate with meteorological factors such as rainfall patterns, temperature, humidity and wind speed, and it is known that the lower the temperature and humidity, the higher the survival rate. In addition, norovirus is resistant to salinity and is often found in marine fish species such as seawater and oysters, and is a major cause of winter food poisoning. Norovirus can cause secondary infections from contaminated water, soil, or facilities from the feces and vomit of infected people, as well as direct infections between humans and humans. In addition to meteorological factors, Norovirus is also reported to be influenced by the spatial characteristics of anthropogenic factors such as population density, seasonal flow population, sanitation facilities, and the status of infrastructure facilities. As described above, Norovirus causes a lot of socioeconomic losses with a very high infection rate. However, the related authorities are dealing with the identification and prevention of pollution through the post-epidemiological survey after the onset of the infectious disease, to be.

본 발명의 배경기술은 대한민국 공개특허 제2014-0070268호 (2014년 6월 10일 공개)에 개시되어 있다.The background art of the present invention is disclosed in Korean Patent Publication No. 2014-0070268 (published on June 10, 2014).

본 발명은 노로바이러스의 생존율과 전달율에 영향을 미치는 자연적 및 사회 경제적 환경요인에 관련된 공간데이터와 함께 국가 감염병 발병이력 데이터베이스를 함께 활용하여 지역별 향후 노로바이러스 감염병 발병 확률을 정확히 예측할 수 있는 노로바이러스 감염병 발병 확률 예측 장치 및 방법을 제공한다.The present invention relates to a method for preventing norovirus infection which can accurately predict the probability of occurrence of future Norovirus infection by utilizing a database of history of infection with a national infectious disease together with spatial data related to natural and socioeconomic environmental factors influencing the survival rate and transmission rate of Norovirus A probability prediction apparatus and method are provided.

본 발명은 광범위한 공간데이터를 토대로 정확도가 검증된 수학적 모델을 구축하고, 실시간 기상예보자료를 모델의 입력자료로 활용하여, 예보적 관점에서 발병 확률을 산정하고 제공할 뿐만 아니라 행정구역 단위의 높은 공간적 해상도의 발병률 예측결과를 제공하는 노로바이러스 감염병 발병 확률 예측 장치 및 방법을 제공한다.The present invention constructs a mathematical model that is verified with accuracy based on a wide range of spatial data and utilizes real-time weather forecast data as model input data to estimate and provide a probability of onset from a predictive viewpoint, The present invention provides an apparatus and method for predicting the incidence of the Norovirus infection.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood from the following description.

본 발명의 일 측면에 따르면, 노로바이러스 감염병 발병 확률 예측 장치가 제공된다.According to an aspect of the present invention, there is provided an apparatus for predicting the incidence of Norovirus infection.

본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 장치는 공간 자료 및 감염병 통계 자료를 수집하는 데이터 수집부, 수집한 공간 자료 및 감염병 통계 자료를 이용하여 예측 모델 구축을 위한 데이터 세트를 생성하는 데이터 전처리부, 생성한 데이터 세트를 이용하여 선형 모델 및 비선형 모델을 구축하고 구축한 선형 모델 및 비선형 모델 중 최적 모델 형식을 선정하고, 교차 검증(Cross Validation) 방법을 이용하여 선정된 모델을 최적화하는 모델 선정부 및 최적화된 모델에 기상 예보 자료를 입력하고, 지역별 노로바이러스 감염병 발병확률을 산출하는 발병확률 산출부를 포함할 수 있다. The apparatus for predicting the incidence of the Norovirus infection according to an embodiment of the present invention generates a data set for constructing a prediction model using a data collection unit for collecting spatial data and infectious disease statistics data, collected spatial data, and infectious disease statistics data The data preprocessing unit constructs a linear model and a nonlinear model using the generated data set, selects the optimal model form from the constructed linear model and the nonlinear model, and optimizes the selected model by using the cross validation method A model selection unit, and an optimized model, and may include an onset probability calculation unit for calculating the probability of developing the Norovirus infection disease in each region.

본 발명의 다른 일 측면에 따르면, 노로바이러스 감염병 발병 확률 예측 방법 및 이를 실행하는 컴퓨터 프로그램이 제공된다.According to another aspect of the present invention, there is provided a method for predicting the incidence of the Norovirus infection and a computer program for executing the method.

본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 방법 및 이를 실행하는 컴퓨터 프로그램은 공간 자료 및 감염병 통계 자료를 수집하는 단계, 수집된 공간 자료 및 감염병 통계 자료로부터 요인 변수를 선정하고 각 요인 변수에 대한 단위 지역 별 단위 시간 별 대표 값을 추출하는 단계, 추출한 각종 요인변수를 단위지역별 대표 값을 독립변수로, 단위시간 별 감염병 발병유무 또는 횟수를 종속변수로 설정한 데이터 세트를 생성하는 단계, 생성한 데이터 세트를 이용하여 선형 모델 및 비선형 모델을 구축하는 단계, 구축한 선형 모델 및 비선형 모델 중 최적 모델 형식을 선정하는 단계, 교차 검증(Cross Validation) 방법을 이용하여 선정된 모델을 최적화하는 단계; 및 최적화된 모델에 기상 예보 자료를 입력하고, 지역별 노로바이러스 감염병 발병확률을 산출하는 단계를 포함할 수 있다. The method for predicting the incidence of the Norovirus infection according to an embodiment of the present invention and the computer program for executing the same include the steps of collecting spatial data and statistics on infectious diseases, selecting factor parameters from collected spatial data and infectious disease statistics, Generating a data set in which a representative value for each of the extracted factor variables is set as an independent variable and the presence or absence of the infectious disease outbreak per unit time or the number of times is set as a dependent variable; A step of constructing a linear model and a nonlinear model using the generated data set, a step of selecting an optimal model form among the constructed linear model and a nonlinear model, and a step of optimizing a selected model using a cross validation method ; And inputting the weather forecast data to the optimized model and calculating the probability of occurrence of the regional Norovirus infection disease.

본 발명은 자연적 및 사회경제적 환경요인에 관련된 공간데이터와 함께 국가 감염병 발병이력 데이터베이스를 활용하여 지역별 향후 노로바이러스 감염병 발병 확률을 정확히 예측할 수 있는 공간모델을 개발함으로써 감염병 위험지역에 대한 파악 및 사전예방적 대처를 할 수 있다. The present invention utilizes spatial data related to natural and socioeconomic environmental factors and develops a spatial model capable of accurately predicting the probability of occurrence of future Norovirus infection by utilizing the history database of the National Infectious Diseases, I can cope.

도 1 내지 도 3은 본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 장치를 설명하기 위한 도면들.
도 4 내지 도 15은 본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 방법을 설명하기 위한 도면들.
1 to 3 are diagrams for explaining an apparatus for predicting the incidence of the Norovirus infection according to an embodiment of the present invention.
4 to 15 are diagrams for explaining a method for predicting the incidence of norovirus infection according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명하도록 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 또한, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. Also, when a part is referred to as "including " an element, it does not exclude other elements unless specifically stated otherwise.

도 1 내지 도 3은 본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 장치를 설명하기 위한 도면들이다.1 to 3 are diagrams for explaining an apparatus for predicting the onovirus infection risk probability according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 장치는 데이터 수집부(100), 데이터 전처리부(200), 모델 선정부(300), 발병확률 산출부(400) 및 공간 시각화부(500)를 포함한다.1, an apparatus for predicting the onovirus infection disease incidence probability according to an embodiment of the present invention includes a data collecting unit 100, a data preprocessing unit 200, a model selecting unit 300, an onset probability calculating unit 400, And a spatial visualization unit 500.

데이터 수집부(100)는 공간 자료 및 감염병 통계 자료를 수집한다. 여기서, 공간 자료는 공간 정보 관련 오픈 소스 및 국가 통계 자료를 이용할 수 있다. 감염병 통계 자료는 과거 노로바이러스의 행정구역별, 월별 발병이력 자료로서 국가의 유관기관 (예를 들면, 식품의약안전처)에서 매월 조사 기록하고 공개하는 자료를 이용할 수 있으며, 이용되는 월별 발병율 자료는 해당 월에 발병 또는 미발병 유무로 나타낼 수 있는 이진자료(binary data)일 수 있다.The data collection unit 100 collects spatial data and infectious disease statistics data. Here, spatial data is available for open source and national statistics on spatial information. The statistics on infectious diseases can be used as data on the monthly incidence history of Norovirus in the past by the relevant administrative agencies of the country (for example, the Food and Drug Administration), and the monthly incidence data used are available It can be binary data that can be expressed as the presence or absence of the disease in the month.

데이터 전처리부(200)는 수집한 공간 자료 및 감염병 통계 자료를 이용하여 예측 모델 구축을 위한 데이터 세트를 생성한다. The data preprocessing unit 200 generates a data set for constructing a predictive model using the collected spatial data and infectious disease statistics.

도 2를 참조하면, 데이터 전처리부(200)는 요인변수 설정부(210), 대표 값 추출부(220) 및 데이터 세트 생성부(230)를 포함한다.Referring to FIG. 2, the data preprocessing unit 200 includes a factor variable setting unit 210, a representative value extracting unit 220, and a data set generating unit 230.

요인변수 설정부(210)는 노로바이러스 감염병에 미칠 수 있는 요인변수를 설정한다. 여기서, 요인변수는 노로바이러스 감염병에 영향을 미칠 수 있는 변수로 예를 들면, 지형 특성 정보, 기상 조건 정보, 인구 특성 정보, 환경 기초 시설 정보, 토지 이용 특성 정보 및 인문 사회 특성 정보 중 적어도 하나를 포함할 수 있다.The factor variable setting unit 210 sets a factor variable that may affect the Norovirus infection. Here, the factor is a variable that may affect the Norovirus infection, for example, at least one of topographical characteristic information, weather condition information, population characteristic information, environmental basic facility information, land use characteristic information, .

대표 값 추출부(220)는 설정된 요인변수에 대한 단위 지역 별 단위 시간 별 대표 값을 추출한다. 여기서, 단위 지역은 예를 들면 행정 구역일 수 있으며, 단위 시간은 예를 들면, 월 단위일 수 있다. The representative value extracting unit 220 extracts a representative value by unit time for each unit area of the set factor. Here, the unit area may be, for example, an administrative area, and the unit time may be, for example, a monthly unit.

데이터 세트 생성부(230)는 추출한 각종 요인별수의 단위 지역별 단위 시간 별 대표 값을 독립변수로 단위 시간 별 감염병 발병유무 또는 횟수를 종속변수로 데이터 세트를 생성한다. 데이터 세트 생성부(230)는 단위 지역 별 인구수에 따라 도시화 지역 그룹 및 비도시화 지역 그룹으로 분류하여 데이터 세트를 생성할 수 있다.The data set generating unit 230 generates a data set with the representative value of each extracted factor of each unit time unit time as an independent variable as a dependent variable. The data set generating unit 230 may generate the data set by classifying the data into the urbanized area group and the non-urbanized area group according to the number of the population by the unit area.

모델 선정부(300)는 생성한 데이터 세트를 이용하여 선형 모델 및 비선형 모델을 구축하고 구축한 선형 모델 및 비선형 모델 중 최적 모델 형식을 선정하고, 선정한 최적 모델 형식을 검증하여 최적화한다. The model selection unit 300 constructs a linear model and a nonlinear model using the generated data set, selects an optimal model format among the constructed linear models and nonlinear models, and optimizes the selected optimal model formats to optimize them.

도 3을 참조하면, 모델 선정부(300)는 선형 모델 구축부(310), 비선형 모델 구축부(320), 최적 모델 형식 선정부(330) 및 교차 검증 최적화부(340)을 포함한다. 3, the model selection unit 300 includes a linear model construction unit 310, a nonlinear model construction unit 320, an optimal model form selection unit 330, and a cross validation optimization unit 340.

선형 모델 구축부(310)는분류된 그룹의 데이터 세트를 이용하여 노로바이러스 감염병 발병 확률 예측을 위한 선형 모델을 구축한다. 여기서, 선형 모델은 예를 들면, 통계적 회귀 모델일 수 있으며, 통계적 회귀 모델인 경우 순차적 후진 변수소거법 (Stepwise backward variable elimination)기법을 사용하여 관련성이 낮은 변수를 순차적으로 제거하여 모델의 정확도를 높일 수 있다. 선형 모델 구축부(310)는 도시화 지역 및 비도시화 지역을 분류하여 노로바이러스 감염병 발병 확률 예측을 위한 선형 모델을 구축할 수 있다. The linear model building unit 310 constructs a linear model for predicting the incidence of the Norovirus infection by using the data set of the classified group. Here, the linear model may be, for example, a statistical regression model. In the case of the statistical regression model, the stepwise backward variable elimination technique is used to sequentially remove the low-relevance variables to increase the accuracy of the model have. The linear model building unit 310 may classify the urbanized area and the non-urbanized area to construct a linear model for predicting the incidence of the Norovirus infection.

비선형 모델 구축부(320)는 분류된 그룹의 데이터 세트를 이용하여 노로바이러스 감염병 발병 확률 예측을 위한 비선형 모델을 구축한다. 여기서, 비선형 모델은 예를 들면, 인공 신경망 모델일 수 있으며, 인공 신경망 모델인 경우 은닉 층(Hidden layer)의 개수의 변화에 따른 모델의 정확도를 계산하여 최적의 은닉 층을 결정할 수 있다. 비선형 모델 구축부(320)는 도시화 지역 및 비도시화 지역을 분류하여 노로바이러스 감염병 발병 확률 예측을 위한 비선형 모델을 구축할 수 있다. The nonlinear model building unit 320 constructs a nonlinear model for predicting the incidence of the Norovirus infection by using the data set of the classified group. Here, the nonlinear model may be, for example, an artificial neural network model, and in the case of the artificial neural network model, the optimal concealment layer can be determined by calculating the accuracy of the model according to the change of the number of hidden layers. The nonlinear model building unit 320 can classify the urbanized area and the non-urbanized area to construct a nonlinear model for predicting the incidence of the Norovirus infection.

최적 모델 형식 선정부(330)는 선형 모델 및 비선형 모델의 정확도를 비교 평가하여 최적의 모델 형식을 선정한다. 최적 모델 형식 선정부(330)는 ROC(Receiver Operating Characteristics) 곡선의 면적(AUC)을 기준으로 구축된 선형 모델 및 비선형 모델의 정확도를 평가하고 정확도가 높은 모델을 최적의 모델 형식으로 선정할 수 있다. The optimal model form selection unit 330 selects an optimal model form by comparing and evaluating the accuracy of the linear model and the nonlinear model. The optimal model form selection unit 330 evaluates the accuracy of the linear model and the nonlinear model constructed based on the area (AUC) of the ROC (Receiver Operating Characteristics) curve, and selects the model with the highest accuracy as the optimal model format .

교차 검증 최적화부(340)는 교차 검증(Cross Validation) 방법을 이용하여 선정된 모델을 최적화한다. 교차 검증 최적화부(340)는 전체 데이터 세트를 무작위 비반복 추출을 통해 미리 설정된 수의 서브데이터 세트로 분류하고, n개(n은 자연수, n은 예를 들면, 1일 수 있음)의 서브데이터 세트는 선정된 모델의 검증 데이터 세트로, 나머지 서브데이터 세트는 하나의 데이터 세트로 묶어 모델식 유도를 위한 구축데이터 세트로 사용하여 선정된 모델을 최적화할 수 있다. The cross validation optimization unit 340 optimizes the selected model using a cross validation method. The cross validation optimization unit 340 classifies the entire data set into a predetermined number of sub data sets through random non-iterative extraction, and generates n (n is a natural number, n may be 1, for example) The set can be used as a set of validation data for the selected model, and the remaining subdatasets can be grouped together into one dataset to be used as a build dataset for model derivation to optimize the selected model.

발병확률 산출부(400)는 최적화된 모델에 기상 예보 자료를 입력하고, 지역별 노로바이러스 감염병 발병확률을 산출한다. 여기서, 기상 예보 자료는 노로바이러스의 감염병 발병 확률을 예측하고자 하는 지역과 시점에서의 전국단위의 기상 측정 망 자료일 수 있으며, 기상 측정 망 자료에 대한 공간 보간 및 공간 대표 값을 추출하여 이용될 수 있다. The onset probability calculating unit 400 inputs the weather forecast data to the optimized model and calculates the probability of developing the Norovirus infection disease in each region. Here, the weather forecast data can be the meteorological measurement network data of the whole country at the region and the point in time when the probability of occurrence of the infectious disease of the Norovirus is predicted, and the spatial interpolation and spatial representative value of the meteorological measurement network data can be extracted and used have.

공간 시각화부(500)는 산출한 지역별 노로바이러스 감염병 발병확률을 지도에 매핑하여 출력한다. 공간 시각화부(500)는 발병확률의 정도는 색깔 등을 이용하여 표시할 수 있다. The spatial visualization unit 500 maps the probability of occurrence of the region-specific norovirus infection disease to the map and outputs the map. The spatial visualization unit 500 can display the degree of the onset probability using colors or the like.

도 4 내지 도 15는 본 발명의 일 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 방법을 설명하기 위한 도면들이다.4 to 15 are diagrams for explaining a method for predicting the incidence of the Norovirus infection according to an embodiment of the present invention.

도 4를 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 일련의 연산과정에서 필요한 공간분석(공간데이터베이스 구축, 공간보간 및 평균값 추출, 시각화)은 공간 분석 프로그램을 사용할 수 있으며 상세 모델 구축 및 비교평가는 통계 프로그램을 사용할 수 있다. 공간 분석 프로그램은 예를 들면, ArcGIS를 이용할 수 있으며, 통계 분석은 R을 사용할 수 있다. 노로바이러스 감염병 발병 확률 예측 장치는 공간 분석 및 통계 프로그램 간 연동을 통해 일련 과정을 모듈화 하여 계산 및 시각화 과정을 자동화 함으로써 사용자의 편의를 높일 수 있다.Referring to FIG. 4, the apparatus for predicting the incidence of the Norovirus infection can use a spatial analysis program for spatial analysis (spatial database construction, spatial interpolation and average value extraction, visualization) necessary for a series of arithmetic operations, Statistical programs can be used. The spatial analysis program can use, for example, ArcGIS, and statistical analysis can use R. The device for predicting the onset of Norovirus infection can improve the convenience of users by automating the calculation and visualization process by modularizing the sequence process through interworking between spatial analysis and statistical programs.

단계 S410에서 노로바이러스 감염병 발병 확률 예측 장치는 공간 자료 및 감염병 통계 자료를 수집한다. 여기서, 공간 자료는 공간 정보 관련 오픈 소스 및 국가 통계 자료를 이용할 수 있으며 공간 데이터베이스에 저장될 수 있다. 감염병 통계 자료는 과거 노로바이러스의 행정구역별, 월별 발병이력 자료로서 국가의 유관기관 (예를 들면, 식품의약안전처)에서 매월 조사 기록하고 공개하는 자료를 이용할 수 있으며, 이용되는 월별 발병율 자료는 해당 월에 발병 또는 미발병 유무로 나타낼 수 있는 이진자료(binary data)일 수 있다. 노로바이러스 감염병 발병 확률 예측 장치는 공간자료 및 감염병 통계자료를 지속적으로 갱신 가능하며, 이에 따라 추후 구축되는 발병확률 예측 모델 구축에 사용되는 자료도 지속적으로 증가하므로 시간이 지남에 따라 모델의 정확도도 지속적으로 향상될 수 있다. In step S410, the apparatus for predicting the incidence of the Norovirus infection collects spatial data and statistics on infectious diseases. Here, spatial data is available for open source and national statistical data on spatial information and can be stored in a spatial database. The statistics on infectious diseases can be used as data on the monthly incidence history of Norovirus in the past by the relevant administrative agencies of the country (for example, the Food and Drug Administration), and the monthly incidence data used are available It can be binary data that can be expressed as the presence or absence of the disease in the month. The prediction system for the incidence of the Norovirus infection can continuously update the spatial data and the infectious disease statistics data, and accordingly, the data used for constructing the prediction probability model to be constructed later will be continuously increased. Therefore, . ≪ / RTI >

단계 S420에서 노로바이러스 감염병 발병 확률 예측 장치는 구축된 공간데이터베이스로부터 각 요인 변수 및 각 요인 변수에 대한 단위 지역 별 단위 시간 별 대표 값을 추출한다. 여기서, 단위 지역은 행정구역일 수 있으며, 단위 시간은 월 단위일 수 있다.In step S420, the apparatus for predicting the incidence of the Norovirus infection disease extracts representative values for each factor and each factor by unit time from the constructed spatial database. Here, the unit area may be an administrative area, and the unit time may be a monthly unit.

아래 표 1을 참조하면, 요인 변수는 노로바이러스 감염병에 영향을 미칠 수 있는 변수로 예를 들면, 지형 특성 정보, 기상 조건 정보, 인구 특성 정보, 환경 기초 시설 정보, 토지 이용 특성 정보 및 인문 사회 특성 정보 중 적어도 하나를 포함할 수 있다. As shown in Table 1 below, the factor is a variable that may affect the Norovirus infection. For example, it may include topographic characteristics information, weather condition information, demographic characteristic information, environmental basic facility information, And / or information.

표. 1 공간데이터베이스를 구성하는 요인변수 공간자료table. 1 Factors that constitute a spatial database Spatial data 분류Classification 요인변수Factor 약어Abbreviation 단위unit 모델구축시 사용값Value used in model construction 지형특성Topography 경사slope SLOPESLOPE -- 공간평균Space average 고도Altitude ELEVELEV mm 공간평균Space average 기상조건Weather conditions 기온Temperatures TEMPTEMP oCoC 월평균Monthly average 강우량fall RAINRAIN mm 월총량Total Monthly 절대습도Absolute humidity HUMHUM kg/kgkg / kg 월평균Monthly average 일사량Irradiation amount RADRAD J/m2J / m2 월총량Total Monthly 인구특성Population characteristics 총인구Total population POPPOP PersonPerson 월평균Monthly average 공공상수도미보급 인구 비율Public water supply ratio Unpublished population ratio POP_WSPOP_WS %% 공공하수도미보급 인구 비율Proportion of public sewerage unserved population POP_NTPOP_NT %% 정화조 처리인구 비율Septic tank treatment population ratio POP_FECPOP_FEC %% 환경기초시설Environmental foundation facility 단위면적당 합류식관거 연장Extension of merged channels per unit area CSSCSS m/km2m / km2 공공하수처리장 갯수(처리용량 ≥500m3/d)Number of public sewage treatment plants (treatment capacity ≥500 m3 / d) STP_WWSTP_WW -- 공공하수처리장에서의 총 하수처리량 Total sewage throughput at the public sewage treatment plant STP_WW_TRSTP_WW_TR m3m3 마을하수처리장 갯수 (처리용량 <500m3/d)Number of sewage treatment plants in the village (treatment capacity <500m3 / d) STP_SSSTP_SS -- 마을하수처리장에서의 총 하수처리량Total sewage throughput at the village sewage treatment plant STP_SS_TRSTP_SS_TR m3m3 분뇨처리장 갯수Number of manure treatment plants STP_FECSTP_FEC -- 총 분뇨처리량Total manure throughput STP_FEC_TRSTP_FEC_TR m3m3 축산폐수처리장 갯수Livestock wastewater treatment plant number STP_STOCKSTP_STOCK -- 토지이용특성Land use characteristics 겨울철 리조트(스키장) 갯수Number of winter resort (ski resort) RESORTRESORT -- 주거지역 면적 비Residential area area ratio RESRES %% 공업지역 면적 비Industrial Area Area Ratio INDIND %% 상업지역 면적 비Commercial Area Area Ratio COMCOM %% 교통지역 면적 비Traffic Area Area Ratio TRANTRAN %% 공공시설 면적 비Public facility area ratio PUBPUB %% 농업지역 면적 비Agricultural Area Area Ratio AGRAGR %% 산림지역 면적 비Forest area area ratio FORFOR %% 수계지역 면적 비Area of water area ratio WATWAT %% 인문사회특성Humanities and social characteristics 행정구역도Administrative district map -- -- --

여기서, 지형 특성 정보는 경사 정보 및 고도 정보 중 적어도 하나, 기상 조건 정보로 기온 정보, 강우량 정보, 절대습도 정보 및 일사량 정보 중 적어도 하나, 인구 특성 정보로 총인구 정보, 공공 상수도 미보급 인구 비율 정보, 공공 하수구 미보급 인구 비율 정보 및 정화조 처리 인구 비율 정보 중 적어도 하나, 환경 기초 시설 정보로 단위면적당 합류식 관거 연장 정보, 공공 하수처리장 개수 정보, 공공 하수처리장에서의 총 하수 처리량 정보, 마을 하수 처리장 개수 정보, 분뇨처리장 개수 정보, 총 분뇨처리량 정보 및 축산 폐수 처리장 개수 정보 중 적어도 하나, 토지 이용 특성 정보는 리조트 개수 정보, 주거지역 면적 비 정보, 공업지역 면적 비 정보, 상업지역 면적 비 정보, 교통지역 면적 비 정보, 공공시설 면적 비 정보, 농업지역 면적 비 정보, 산림지역 면적 비 정보 및 수계지역 면적 비 정보 중 적어도 하나 및 인문 사회 특성 정보로 행정 구역도 정보를 포함할 수 있다.Here, the terrain characteristic information includes at least one of the slope information and the altitude information, at least one of temperature information, rainfall information, absolute humidity information and radiation amount information as weather condition information, total population information, Public sewer unoccupied population ratio information, and purified water tank treated population ratio information, environmental basic facility information, combined sewer system extension information per unit area, public sewage treatment plant number information, total sewage treatment amount information at public sewage treatment plant, , At least one of the manure processing plant number information, the total manure processing amount information, and the animal wastewater treatment plant number information, and the land use characteristic information includes at least one of resort count information, residential area area ratio information, industrial area area ratio information, Non-information, public facility area ratio information, agricultural area area ratio information, Forest area by local non-aqueous information and local area information and at least one non-humanities and social characteristics of the administrative districts also may include information.

도 5를 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 공간 분석 도구를 이용하여 공간 평균치(spatial average)를 추출할 수 있다. 노로바이러스 감염병 발병 확률 예측 장치는 전국적으로 지정된 기상 측정 망에서의 측정자료이므로 공간적 이산자료인 기상 조건 정보는 예를 들면, 크리깅(Kriging) 기법 또는 역거리 가중법 등 공간 보간법을 이용하여 자료를 공간적으로 보간한 후 평균치를 산정하여 단위 지역별 대표 값을 산출할 수 있다. Referring to FIG. 5, the device for predicting the incidence of the Norovirus infection may extract a spatial average using a spatial analysis tool. Since the device for predicting the incidence of the Norovirus infection is a measurement data in the meteorological network designated nationwide, the weather condition information, which is a spatial discrete data, can be obtained by using spatial interpolation method such as Kriging method or inverse distance weighting method, And the average value can be calculated to calculate the representative value per unit area.

단계 S430에서 노로바이러스 감염병 발병 확률 예측 장치는 예측 모델 구축을 위한 데이터 세트를 생성한다. In step S430, the apparatus for predicting the onovirus infection risk probability generates a data set for constructing a predictive model.

도 6을 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 추출한 각종 요인변수를 단위지역별 대표 값을 독립변수 (또는 설명변수)로, 단위시간 별 감염병 발병유무 또는 횟수를 종속변수(또는 대응변수)로 설정한 데이터 세트를 생성한다. 모델의 신뢰도 향상을 위하여 데이터 세트의 개수는 독립변수의 개수에 비해 충분히 많아야 한다 (약 2~3배 이상). Referring to FIG. 6, the apparatus for predicting the incidence of the Norovirus infection predicts the extracted various factor variables as independent variables (or explanatory variables) according to the unit regions, and the presence or absence of the infectious diseases or the number of times per unit time as dependent variables And generates the set data set. In order to improve the reliability of the model, the number of data sets should be sufficiently larger than the number of independent variables (about 2 to 3 times or more).

단계 S440에서 노로바이러스 감염병 발병 확률 예측 장치는 구축된 데이터 세트를 미리 설정된 그룹으로 분류한다. In step S440, the apparatus for predicting the onovirus infection risk probability classifies the established data sets into a predetermined group.

도 7을 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 단위지역 내 미리 설정된 인구수 예를 들면, 총 인구수 10만을 기준으로 도시화 지역(고인구 지역) 및 비도시화 지역(저인구 지역)으로 그룹 분류할 수 있다. 이는 인구 집적 정도가 행정구역 내 거주하는 시민의 생활환경에 영향을 주며, 이러한 생활환경의 차이는 노로바이러스 감염병 발병패턴에 영향을 줄 수 있기 때문이다. 7, the apparatus for predicting the incidence of the Norovirus infection is classified into the urbanization area (high population area) and the non-urbanization area (low population area) based on the preset population number in the unit area, for example, . This is because the degree of population accumulation affects the living environment of the citizens living in the administrative districts, and the difference in the living environment may affect the pattern of occurrence of Norovirus infection.

단계 S450에서 노로바이러스 감염병 발병 확률 예측 장치는 분류된 그룹에 대해 데이터 세트를 이용하여 선형모델인 통계적 회귀모델(로지스틱 모델)과 비선형 모델인 인공신경망 모델을 각각 구축한다. In step S450, the apparatus for predicting the onovirus infection disease probability constructs a statistical regression model (logistic model), which is a linear model, and an artificial neural network model, which is a nonlinear model, using the data set for the classified group.

도 8 및 도 9를 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 통계적 회귀모델의 경우 순차적 후진 변수소거법 (Stepwise backward variable elimination)기법을 사용하여 관련성이 낮은 변수를 순차적으로 제거하여 모델의 정확도를 높일 수 있으며, 인공신경망 모델의 경우 은닉 층(Hidden layer)의 개수의 변화에 따른 모델의 정확도를 계산하여 최적의 은닉 층을 결정할 수 있다. 8 and 9, in the case of the statistical regression model, the apparatus for predicting the incidence of the Norovirus infection may sequentially remove the less relevant variables using the stepwise backward variable elimination technique to increase the accuracy of the model In the case of the artificial neural network model, the optimal concealment layer can be determined by calculating the accuracy of the model according to the change of the number of hidden layers.

도 10을 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 행정구역 그룹별(고인구 및 저인구)로 도출된 로지스틱 회귀모형을 구축할 수 있다. 여기서, 로지스틱 회귀모델의 형태는

Figure 112017033477680-pat00001
이며 여기서 x는 각 독립변수, β는 회귀계수, 그리고 α는 offset값으로 인구수이다.Referring to FIG. 10, the apparatus for predicting the incidence of Norovirus infection can construct a logistic regression model derived from administrative district groups (high population and low population). Here, the form of the logistic regression model is
Figure 112017033477680-pat00001
, Where x is each independent variable, β is the regression coefficient, and α is the population number by offset.

도 11을 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 인공신경망 모델 구축과정에서 은닉 층(Hidden layer) 내의 노드 개수를 최적화할 수 있다. 노로바이러스 감염병 발병 확률 예측 장치는 무작위 추출법에 의해 데이터의 75%는 학습 세트(training set), 나머지 25%는 검증 세트(validation set)로 하여 인공신경망 모델을 구축할 수 있고, 각각의 데이터 포인트는 같은 노드 개수 조건에서 30개 앙상블런(ensemble run)을 통해 얻어진 AUC값의 평균값이다. Referring to FIG. 11, the device for predicting the incidence of the Norovirus infection can optimize the number of nodes in the hidden layer during the construction of the ANN model. By using random sampling, 75% of the data can be constructed as a training set and the remaining 25% can be constructed as a validation set, and each data point It is the mean value of AUC value obtained through 30 ensemble runs in the same node count condition.

단계 S460에서 노로바이러스 감염병 발병 확률 예측 장치는 선형 모델 및 비선형 모델의 정확도를 비교 평가하여 최적의 모델 형식을 선정한다. In step S460, the apparatus for predicting the incidence of Norovirus infection selects an optimal model format by comparing and evaluating the accuracy of the linear model and the nonlinear model.

도 12를 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 ROC(Receiver Operating Characteristics) 곡선의 면적(AUC)을 기준으로 모델의 정확도를 평가하고, 정확도가 높은 모델을 최적의 모델 형식으로 선정할 수 있다.Referring to FIG. 12, the apparatus for predicting the incidence of the Norovirus infection can evaluate the accuracy of the model based on the area (AUC) of the ROC (Receiver Operating Characteristics) curve and select the model with the highest accuracy as the optimal model format .

단계 S470에서 노로바이러스 감염병 발병 확률 예측 장치는 교차 검증(Cross Validation) 방법을 이용하여 선정된 모델을 최적화한다. In step S470, the apparatus for predicting the onovirus infection risk probability optimizes the selected model using a cross validation method.

노로바이러스 감염병 발병 확률 예측 장치는 먼저 전체 데이터 세트를 무작위 비반복 추출을 통해 미리 설정된 수의 서브데이터 세트로 분류한다. 여기서, 미리 설정된 수는 5일 수 있으나 이에 한정되지 않는다. 노로바이러스 감염병 발병 확률 예측 장치는 1개의 서브데이터 세트는 선정된 모델의 검증 데이터 세트(Dataset for model validation)로, 나머지 서브데이터 세트는 하나의 데이터 세트로 묶어 모델식 유도를 위한 구축데이터 세트(data set for model development)로 사용할 수 있다. 노로바이러스 감염병 발병 확률 예측 장치는 각각의 서브데이터 세트를 순차적으로 검증데이터 세트로 설정하고, 나머지 데이터 세트를 구축데이터 세트로 하여 각 경우에 대하여 구축된 모델의 정확도를 비교 평가하고 최종적으로 가장 정확도가 높은 모델을 선정할 수 있다. The apparatus for predicting the incidence of Norovirus infection first classifies the entire data set into a predetermined number of sub data sets through random non-repeated extraction. Here, the preset number may be 5, but is not limited thereto. In the apparatus for predicting the occurrence probability of the Norovirus infection, one sub data set is a data set for a selected model (Dataset for model validation), the remaining sub data sets are grouped into one data set, and a construction data set set for model development). The apparatus for predicting the onset of Norovirus infection sequentially sets each sub data set as a verification data set and sets the rest of the data set as a construction data set to compare and evaluate the accuracy of the constructed model for each case, A high model can be selected.

도 13을 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 최적의 모델로 평가된 로지스틱 회귀모형을 모델 최적화 과정을 통해 최종적으로 얻어진 예측모델 결과로 설정할 수 있다. 13, the apparatus for predicting the incidence of the Norovirus infection can set a logistic regression model evaluated as an optimal model as a prediction model result finally obtained through a model optimization process.

단계 S480에서 노로바이러스 감염병 발병 확률 예측 장치는 최적화된 모델에 기상 예보 자료를 입력하고, 단위지역별 노로바이러스 감염병 발병확률을 산출한다. 여기서, 기상 예보 자료는 노로바이러스의 감염병 발병 확률을 예측하고자 하는 지역과 시점에서의 기상 예보 자료이며 기온, 습도 및 일사량 자료 중 적어도 하나를 포함할 수 있다. 기상 예보 자료는 전국적인 감염병 확률 분포를 산정하기 위해서는 전국단위의 기상 측정 망 자료일 수 있으며, 입력자료로 사용하기 위하여 사용한 공간 보간 및 공간 대표 값 추출과정을 거쳐야 한다. In step S480, the device for predicting the onset of the Norovirus infection enters the weather forecast data into the optimized model and calculates the probability of occurrence of the Norovirus infection according to the unit area. Here, the weather forecast data is weather forecast data at an area and a time point for predicting the probability of occurrence of the infectious disease of Norovirus, and may include at least one of temperature, humidity and radiation data. The weather forecast data may be national meteorological network data to estimate the nationwide probability of infectious disease distribution, and the spatial interpolation and spatial representative value extraction process used for the input data should be performed.

단계 S490에서 노로바이러스 감염병 발병 확률 예측 장치는 산출한 지역별 노로바이러스 감염병 발병확률을 지도에 시각화하여 출력한다. In step S490, the apparatus for predicting the onset of the Norovirus infection visualizes the calculated probability of the onset of the Norovirus infection by the regional map.

도 14를 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 산출된 확률 값을 지도에 매핑하여 공간분포를 표출할 수 있다.Referring to FIG. 14, the device for predicting the incidence of the Norovirus infection may map the calculated probability value to a map to express a spatial distribution.

도 15를 참조하면, 노로바이러스 감염병 발병 확률 예측 장치는 각 환경 요인 변수의 민감도 경향을 출력하여 노로바이러스 감염병에 관련된 중요한 영향인자를 파악할 수 있다. Referring to FIG. 15, the apparatus for predicting the incidence of the Norovirus infection may output the sensitivity trends of the respective environmental factor variables to identify important influencing factors related to the Norovirus infection.

본 발명의 다양한 실시 예에 따른 노로바이러스 감염병 발병 확률 예측 방법은 다양한 서버 등의 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현될 수 있다. 또한, 본 발명에 따른 노로바이러스 감염병 발병 확률 예측 방법을 실행하는 프로그램은 컴퓨터 수단에 설치되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. The method for predicting the incidence of norovirus infection according to various embodiments of the present invention can be implemented in the form of a program command that can be executed through various means such as servers. In addition, a program for executing the method for predicting the incidence of norovirus infection according to the present invention may be installed in a computer means and recorded in a computer-readable medium. The computer readable medium may include program instructions, data files, data structures, and the like, alone or in combination. Program instructions to be recorded on a computer-readable medium may be those specially designed and constructed for the present invention or may be available to those skilled in the computer software arts. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 다만, 전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The embodiments of the present invention have been described above. It will be understood by those skilled in the art that the foregoing description of the present invention has been presented for illustrative purposes and that those skilled in the art will readily understand that various changes in form and details may be made therein without departing from the spirit and scope of the invention. It will be possible. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. The scope of the present invention is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention.

Claims (15)

노로바이러스 감염병 발병 확률 예측 장치에 있어서,
상기 노로바이러스 감염병 발병 확률 예측 장치는,
공간 자료 및 감염병 통계 자료를 수집하는 데이터 수집부;
수집한 공간 자료 및 감염병 통계 자료를 이용하여 예측 모델 구축을 위한 데이터 세트를 생성하는 데이터 전처리부;
생성한 데이터 세트를 이용하여 선형 모델 및 비선형 모델을 구축하고 구축한 선형 모델 및 비선형 모델 중 최적 모델 형식을 선정하고, 교차 검증 방법을 이용하여 선정된 모델을 최적화하는 모델 선정부; 및
최적화된 모델에 기상 예보 자료를 입력하고, 지역별 노로바이러스 감염병 발병확률을 산출하는 발병확률 산출부를 포함하며,
상기 데이터 전처리부는,
노로바이러스 감염병에 미칠 수 있는 요인변수를 설정하는 요인변수 설정부;
- 상기 요인변수 설정부는 지형 특성 정보, 기상 조건 정보, 인구 특성 정보, 환경 기초 시설 정보, 토지 이용 특성 정보 및 인문 사회 특성 정보를 포함함,
설정된 요인변수에 대한 단위 지역 별, 단위 시간 별, 대표 값을 추출하는 대표 값 추출부; 및
추출한 요인변수의 단위 지역별, 단위 시간 별 대표 값을 독립변수로 하고, 단위 시간 별 감염병 발병유무 또는 횟수를 종속변수로 하여, 데이터 세트를 생성하는 데이터 세트 생성부를 포함하는 것을 특징으로 하고,
상기 데이터 세트 생성부는,
단위 지역 별 인구수에 따라 총인구수 10만을 기준으로 도시화 지역 그룹 및 비도시화 지역 그룹으로 분류하여 각각의 데이터 세트를 생성하는 것을 특징으로 하며,
상기 발병확률 산출부는,
노로바이러스의 감염병 발병 확률을 예측하고자 하는 지역과 시점에서의 전국단위의 기상 측정 망 자료를 상기 기상 예보 자료로 입력하되, 상기 기상 측정 망 자료에 대해 공간 보간 및 공간 대표 값을 추출하여 이용하는 것을 특징으로 하는 노로바이러스 감염병 발병 확률 예측 장치.
An apparatus for predicting the incidence of Norovirus infection,
The apparatus for predicting the onovirus infection risk,
A data collection unit for collecting spatial data and infectious disease statistics data;
A data preprocessing unit for generating a data set for constructing a prediction model using the collected spatial data and the infectious disease statistics data;
Model which selects and builds a linear model and a nonlinear model using the generated data set and selects the optimal model form from the constructed linear model and nonlinear model and optimizes the selected model by using the cross validation method; And
And an onset probability calculation unit for inputting weather forecast data into the optimized model and calculating the probability of developing the Norovirus infection disease in each region,
The data pre-
A factor setting unit for setting a factor variable that may affect the Norovirus infection;
- The factor parameter setting section includes the terrain characteristic information, the weather condition information, the population characteristic information, the environment basic facility information, the land use characteristic information, and the human and social characteristic information,
A representative value extraction unit for extracting a unit value, a unit time, and a representative value of a set factor; And
And a data set generation unit for generating a data set by using representative values of the extracted factor variables by unit area and by unit time as independent variables and using the presence or absence of the infectious disease incidence or the number of times by unit time as dependent variables,
Wherein the data set generation unit comprises:
The data set is classified into the urbanized area group and the non-urbanized area group based on the total population of 100,000 according to the number of the population of each unit area,
The onset probability calculating section calculates,
The meteorological forecast data of the nationwide unit at the region and the time point for predicting the probability of occurrence of the infectious disease of Norovirus is inputted as the weather forecast data and the spatial interpolation and the spatial representative value are extracted and used for the meteorological measurement network data To predict the incidence of Norovirus infection.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 선형 모델 구축부는
통계적 회귀 모델을 구축하고 순차적 후진 변수소거법 (Stepwise backward variable elimination)기법을 사용하여 관련성이 낮은 변수를 순차적으로 제거하여 모델의 정확도를 높이는 노로바이러스 감염병 발병 확률 예측 장치.
The method according to claim 1,
The linear model building unit
An apparatus for predicting the incidence of Norovirus infection by constructing a statistical regression model and using sequential backward variable elimination techniques to sequentially remove the less relevant variables to increase the accuracy of the model.
제1항에 있어서,
상기 비선형 모델 구축부는
인공 신경망 모델을 구축하고, 은닉 층(Hidden layer)의 개수의 변화에 따른 모델의 정확도를 계산하여 최적의 은닉 층을 결정하는 노로바이러스 감염병 발병 확률 예측 장치.
The method according to claim 1,
The nonlinear model building unit
An apparatus for predicting the onset of Norovirus infection by constructing an artificial neural network model and determining the optimal concealment layer by calculating the accuracy of the model according to the change of the number of hidden layers.
제1항에 있어서,
상기 최적 모델 형식 선정부는
ROC(Receiver Operating Characteristics) 곡선의 면적(AUC)을 기준으로 구축된 선형 모델 및 비선형 모델의 정확도를 평가하고 정확도가 높은 모델을 최적의 모델 형식으로 선정하는 노로바이러스 감염병 발병 확률 예측 장치.
The method according to claim 1,
The optimal model type selection unit
An apparatus for predicting the incidence of Norovirus infection by evaluating the accuracy of a linear model and a nonlinear model built on the basis of the area (AUC) of the Receiver Operating Characteristics (ROC) curve and selecting a model with high accuracy as an optimal model format.
제1항에 있어서,
상기 교차 검증 최적화부는
전체 데이터 세트를 무작위 비반복 추출을 통해 미리 설정된 수의 서브데이터 세트로 분류하고, n(n은 자연수)개의 서브데이터 세트는 선정된 모델의 검증 데이터 세트로, 나머지 서브데이터 세트는 하나의 데이터 세트로 묶어 모델식 유도를 위한 구축데이터 세트로 사용하여 선정된 모델을 최적화하는 노로바이러스 감염병 발병 확률 예측 장치.
The method according to claim 1,
The cross validation optimizer
The whole data set is classified into a predetermined number of sub data sets through random non-repeating extraction, and n (n is a natural number) sub data sets are used as verification data sets of the selected model, and the remaining sub data sets are used as one data set To optimize the selected model by using as a construction data set for model expression induction.
삭제delete 제1항에 있어서,
산출한 지역별 노로바이러스 감염병 발병확률을 지도에 매핑하여 출력하는 공간 시각화부를 더 포함하는 노로바이러스 감염병 발병 확률 예측 장치.
The method according to claim 1,
And a spatial visualization unit for mapping the probability of onset of the Norovirus infection disease to the map and outputting the map.
노로바이러스 감염병 발병 확률 예측 장치가 노로바이러스 감염병 발병 확률 예측 방법에 있어서,
상기 노로바이러스 감염병 발병 확률 예측 방법은,
공간 자료 및 감염병 통계 자료를 수집하는 단계;
수집된 공간 자료 및 감염병 통계 자료로부터 노로바이러스 감염병에 미칠 수 있는 요인 변수를 설정하는 단계 및 각 요인 변수에 대한 단위 지역 별 단위 시간 별 대표 값을 추출하는 단계;
- 상기 요인변수 설정단계는 지형 특성 정보, 기상 조건 정보, 인구 특성 정보, 환경 기초 시설 정보, 토지 이용 특성 정보 및 인문 사회 특성 정보를 포함함,
추출한 각 요인변수를 단위지역별 대표 값을 독립변수로, 단위시간 별 감염병 발병유무 또는 횟수를 종속변수로 설정한 데이터 세트를 생성하는 단계;
생성한 데이터 세트를 이용하여 선형 모델 및 비선형 모델을 구축하고, 구축한 선형 모델 및 비선형 모델 중 최적 모델 형식을 선정하며, 교차 검증 방법을 이용하여 선정된 모델을 최적화하는 단계; 및
최적화된 모델에 노로바이러스의 감염병 발병 확률을 예측하고자 하는 지역과 시점에서의 전국단위의 기상 측정 망 자료를 기상 예보 자료로 입력하되, 상기 기상 측정 망 자료에 대해 공간 보간 및 공간 대표 값을 추출하여 이용하여 지역별 노로바이러스 감염병 발병확률을 산출하는 단계를 포함하는 것을 특징으로 하며,
상기 데이터 세트를 생성하는 단계는,
상기 공간자료 및 감염병 통계자료를 지속적으로 갱신하는 단계를 더 포함하되, 상기 최적화된 모델 구축에 사용되는 자료가 지속적으로 증가하는 것에 의하여, 모델의 정확도도 지속적으로 향상하는 것을 특징으로 하며,
구축된 데이터 세트를 미리 설정된 그룹으로 분류하는 단계를 더 포함하되,
상기 그룹은 단위지역 내 미리 설정된 인구수에 의해 그룹으로 분류되는 노로바이러스 감염병 발병 확률 예측 방법.
A method for predicting the incidence of Norovirus infection in a device for predicting the incidence of Norovirus infection,
The method for predicting the onovirus infection disease probability comprises:
Collecting spatial data and infectious disease statistics;
A step of setting factor variables that may affect the Norovirus infection from collected spatial data and infectious disease statistics data, and extracting representative values by unit time for each factor;
- The above factor setting step includes the terrain characteristic information, the weather condition information, the population characteristic information, the environment basic facility information, the land use characteristic information, and the human and social characteristic information,
Generating a data set in which each of the extracted factor variables is set as a representative value for each region as an independent variable and the presence or absence of the infection disease or the number of times of infection per unit time is set as a dependent variable;
Constructing a linear model and a nonlinear model using the generated data set, selecting an optimal model form among the constructed linear model and nonlinear model, and optimizing the selected model using the cross validation method; And
In the optimized model, the meteorological network data of the nationwide unit at the region and the time point for predicting the infection probability of the Norovirus are inputted as the weather forecast data, and the spatial interpolation and spatial representative value are extracted from the meteorological measurement network data And calculating the probability of occurrence of the Norovirus infection disease in each region using the method,
Wherein generating the data set comprises:
And continuously updating the spatial data and the infectious disease statistics data. However, since the data used for constructing the optimized model continuously increases, the accuracy of the model is continuously improved,
Further comprising classifying the established data sets into a preset group,
Wherein the group is classified into groups by a preset number of people in a unit area.
삭제delete 삭제delete 삭제delete 제11항의 노로바이러스 감염병 발병 확률 예측 방법을 실행하는 컴퓨터 프로그램이 기록된 컴퓨터가 판독 가능한 기록 매체.11. A computer-readable recording medium on which a computer program for executing the method for predicting the incidence of the norovirus infection according to claim 11 is recorded.
KR1020170044360A 2017-04-05 2017-04-05 Device and method for predicting chances of norovirus infectious disease outbreak KR101874994B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170044360A KR101874994B1 (en) 2017-04-05 2017-04-05 Device and method for predicting chances of norovirus infectious disease outbreak

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170044360A KR101874994B1 (en) 2017-04-05 2017-04-05 Device and method for predicting chances of norovirus infectious disease outbreak

Publications (1)

Publication Number Publication Date
KR101874994B1 true KR101874994B1 (en) 2018-08-02

Family

ID=63251793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170044360A KR101874994B1 (en) 2017-04-05 2017-04-05 Device and method for predicting chances of norovirus infectious disease outbreak

Country Status (1)

Country Link
KR (1) KR101874994B1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562862A (en) * 2020-12-15 2021-03-26 杭州市余杭区疾病预防控制中心(杭州市余杭区卫生检测检验中心、杭州市余杭区健康教育所、杭州市余杭区职业病防治中心) Epidemic situation information identification method, device and equipment
CN113053536A (en) * 2021-01-15 2021-06-29 中国人民解放军军事科学院军事医学研究院 Infectious disease prediction method, system and medium based on hidden Markov model
KR102273063B1 (en) * 2020-10-19 2021-07-05 충남대학교산학협력단 System for monitoring dead tree and pest using probability map and image learning of orthoimage
CN113140325A (en) * 2020-01-20 2021-07-20 柳州市人民医院 Method for establishing prediction model of incidence probability of Marneffei pannieri disease of HIV patient
CN113270202A (en) * 2021-06-11 2021-08-17 上海海事大学 Virus propagation prediction method based on field theory
KR20220050505A (en) * 2020-10-16 2022-04-25 (주)미소정보기술 Biosurveillance integration management system and method for responding to the public health crisis
KR20220105206A (en) * 2021-01-18 2022-07-27 동국대학교 산학협력단 Method and system for optimizing sewage monitoring network for infectious diseases and predicting infection scale
KR102590753B1 (en) * 2023-07-26 2023-10-20 주식회사 위즈아이 High resolution device for predicting heat illness occurrence probability based on detailed weather observation and weather numerical model information and method thereof
KR20240007061A (en) 2022-07-07 2024-01-16 고려대학교 산학협력단 Apparatus and method for predicting influenza spread based on distance correlation coefficient

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150088491A (en) * 2014-01-24 2015-08-03 인터로젠 (주) System for providing safety forecast using weather information
KR20160127487A (en) * 2015-04-27 2016-11-04 주식회사 이큐스앤자루 Boiling-Point Prediction Model based on Quantitive Structure-Activity Relationships with Linear and Non linear Machine Learning Methods
JP2016218807A (en) * 2015-05-21 2016-12-22 日本電信電話株式会社 Model learning method and method and device for descriptive text evaluation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150088491A (en) * 2014-01-24 2015-08-03 인터로젠 (주) System for providing safety forecast using weather information
KR20160127487A (en) * 2015-04-27 2016-11-04 주식회사 이큐스앤자루 Boiling-Point Prediction Model based on Quantitive Structure-Activity Relationships with Linear and Non linear Machine Learning Methods
JP2016218807A (en) * 2015-05-21 2016-12-22 日本電信電話株式会社 Model learning method and method and device for descriptive text evaluation

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140325A (en) * 2020-01-20 2021-07-20 柳州市人民医院 Method for establishing prediction model of incidence probability of Marneffei pannieri disease of HIV patient
KR102440409B1 (en) * 2020-10-16 2022-09-06 (주)미소정보기술 Biosurveillance integration management system and method for responding to the public health crisis
KR20220050505A (en) * 2020-10-16 2022-04-25 (주)미소정보기술 Biosurveillance integration management system and method for responding to the public health crisis
KR102273063B1 (en) * 2020-10-19 2021-07-05 충남대학교산학협력단 System for monitoring dead tree and pest using probability map and image learning of orthoimage
CN112562862A (en) * 2020-12-15 2021-03-26 杭州市余杭区疾病预防控制中心(杭州市余杭区卫生检测检验中心、杭州市余杭区健康教育所、杭州市余杭区职业病防治中心) Epidemic situation information identification method, device and equipment
CN113053536A (en) * 2021-01-15 2021-06-29 中国人民解放军军事科学院军事医学研究院 Infectious disease prediction method, system and medium based on hidden Markov model
CN113053536B (en) * 2021-01-15 2023-11-24 中国人民解放军军事科学院军事医学研究院 Infectious disease prediction method, system and medium based on hidden Markov model
KR20220105206A (en) * 2021-01-18 2022-07-27 동국대학교 산학협력단 Method and system for optimizing sewage monitoring network for infectious diseases and predicting infection scale
KR102509851B1 (en) * 2021-01-18 2023-03-15 동국대학교 산학협력단 Method and system for optimizing sewage monitoring network for infectious diseases and predicting infection scale
CN113270202A (en) * 2021-06-11 2021-08-17 上海海事大学 Virus propagation prediction method based on field theory
CN113270202B (en) * 2021-06-11 2024-01-23 上海海事大学 Virus propagation prediction method based on field theory
KR20240007061A (en) 2022-07-07 2024-01-16 고려대학교 산학협력단 Apparatus and method for predicting influenza spread based on distance correlation coefficient
KR102590753B1 (en) * 2023-07-26 2023-10-20 주식회사 위즈아이 High resolution device for predicting heat illness occurrence probability based on detailed weather observation and weather numerical model information and method thereof

Similar Documents

Publication Publication Date Title
KR101874994B1 (en) Device and method for predicting chances of norovirus infectious disease outbreak
Lai et al. Flood risk zoning using a rule mining based on ant colony algorithm
Shirmohammadi et al. Forecasting of meteorological drought using Wavelet-ANFIS hybrid model for different time steps (case study: southeastern part of east Azerbaijan province, Iran)
Vasenev et al. Projection of urban expansion and related changes in soil carbon stocks in the Moscow Region
Dumedah et al. Selecting model parameter sets from a trade-off surface generated from the non-dominated sorting genetic algorithm-II
CN115374714B (en) Ecological safety pattern construction method based on habitat suitability
Babapour et al. Forest road profile optimization using meta-heuristic techniques
CN109919819B (en) Construction, evaluation and optimization method of regional ecological network
Kar et al. Rain gauge network design for flood forecasting using multi-criteria decision analysis and clustering techniques in lower Mahanadi river basin, India
Kessler et al. Impacts of invasive plants on Sandhill Crane (Grus canadensis) roosting habitat
CN115641718B (en) Short-time traffic flow prediction method based on bayonet flow similarity and semantic association
CN116011731A (en) Factory, net and river joint scheduling method based on machine learning algorithm and rainfall flood numerical model
Kim et al. Development of hazard capacity factor design model for net-zero: Evaluation of the flood adaptation effects considering green-gray infrastructure interaction
CN117332909B (en) Multi-scale urban waterlogging road traffic exposure prediction method based on intelligent agent
Momeni et al. Pattern‐based calibration of cellular automata by genetic algorithm and Shannon relative entropy
CN117113038B (en) Urban water and soil loss Huang Nishui event tracing method and system
Girardello et al. Identifying important areas for butterfly conservation in Italy
CN115983522B (en) Rural habitat quality assessment and prediction method
Khanghah et al. Modeling potential habitats and predicting habitat connectivity for Leucanthemum vulgare Lam. in northwestern rangelands of Iran
CN113191568B (en) Meteorological-based urban operation management big data analysis and prediction method and system
KR101944797B1 (en) Device and method for predicting norovirus detection location
Detenbeck et al. Watershed-based survey designs
CN112860767A (en) Urban and rural transition zone identification based on time sequence data
CN113239502A (en) Artificial intelligence image processing-based urban sewage pipe network simulation construction method
Jin et al. Using Machine Learning to Identify and Optimize Sensitive Parameters in Urban Flood Model Considering Subsurface Characteristics

Legal Events

Date Code Title Description
GRNT Written decision to grant