KR101925506B1 - Method and apparatus for predicting the spread of an infectious disease - Google Patents

Method and apparatus for predicting the spread of an infectious disease Download PDF

Info

Publication number
KR101925506B1
KR101925506B1 KR1020170170011A KR20170170011A KR101925506B1 KR 101925506 B1 KR101925506 B1 KR 101925506B1 KR 1020170170011 A KR1020170170011 A KR 1020170170011A KR 20170170011 A KR20170170011 A KR 20170170011A KR 101925506 B1 KR101925506 B1 KR 101925506B1
Authority
KR
South Korea
Prior art keywords
data
infectious disease
time series
disease
series data
Prior art date
Application number
KR1020170170011A
Other languages
Korean (ko)
Inventor
김주현
안인성
한영만
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020170170011A priority Critical patent/KR101925506B1/en
Application granted granted Critical
Publication of KR101925506B1 publication Critical patent/KR101925506B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • G06F17/27
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Epidemiology (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Provided is a method for predicting a spread of an infectious disease. The method for predicting a spread of an infectious disease according to an embodiment of the present invention includes the following steps: selecting a disease, which is detected in article data for a predetermined number of times or more, as a target infectious disease in which the disease is included in a disease list; collecting text data related to the target infectious disease from the article data, and extracting an infectious disease keyword from the collected text data; generating a cumulative number of infectious disease keywords for each specific period as first time series data from a first timing to a second timing; analyzing a pattern of the first time series data and a pattern of previously stored second time series data; and determining that the target infectious disease is a spreading infectious disease when a common pattern is detected between the pattern of the first time series data and the pattern of the second time series data, based on the result of the analysis.

Description

감염병 확산 예측 방법 및 장치{METHOD AND APPARATUS FOR PREDICTING THE SPREAD OF AN INFECTIOUS DISEASE}[0001] METHOD AND APPARATUS FOR PREDICTING THE SPREAD OF AN INFECTIOUS DISEASE [0002]

본 발명은 감염병 확산 예측 방법 및 장치에 관한 것이다. 보다 자세하게는, 감염병과 관련된 기사 데이터를 이용하여 대상 감염병이 확산될지 여부를 판정하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for predicting the spread of an infectious disease. More particularly, the present invention relates to a method and an apparatus for determining whether or not a target infectious disease is to spread using article data related to an infectious disease.

급격한 기후 변화 및 인구의 활발한 이동 등의 요인으로 인하여 신종 감염병 또는 재출현 감염병의 발생 및 확산이 증가하는 추세이다. 이와 같은 감염병이 확산되면, 사회적, 경제적 측면에서 피해가 막대하기 때문에, 정부나 보건 당국은 감염병이 확산되기전에 이에 대한 대비책을 마련하기 위하여 많은 노력을 한다.Rapid development of climate change, and active migration of the population, the incidence and spread of new and emerging infectious diseases are increasing. Since the spread of these infectious diseases is damaging from the social and economic point of view, the government and the health authorities make a lot of efforts to prepare measures against infectious diseases before they spread.

그러나, 상기와 같은 감염병의 출현 전조를 사람이나 정부 기관이 일일이 판단하는 것은 용이하지 않은 실정이며, 빅데이터를 이용하여 감염병의 확산 여부를 판단하기 위해서는 데이터를 선별적으로 수집할 수 있는 구체적인 수단이 존재하지 않는 것이 현실이다.However, it is not easy for a person or a government agency to judge the outbreak of the infectious disease as described above. In order to judge the spread of the infectious disease by using Big Data, a specific means for collecting data selectively It is a reality that does not exist.

다만, 최근에는 정보통신기술의 발전과 인터넷 서비스의 확산 등으로 인하여 수많은 데이터가 웹 상에 존재하기 때문에, 이를 수집하고 관리 및 분석하는 과정을 구체화한다면, 감염병의 확산을 효과적으로 예측할 수 있는 여지가 있다.However, in recent years, due to the development of information and communication technologies and the spread of Internet services, a large amount of data exists on the web, so if the process of collecting, managing, and analyzing such data is specified, there is room for effectively predicting the spread of infectious diseases .

한국공개특허 제10-2013-0010789호Korean Patent Publication No. 10-2013-0010789

본 발명이 해결하고자 하는 기술적 과제는, 가까운 과거로부터 미래까지 이슈가 될 만한 감염병을 탐지하는 방법 및 장치를 제공하는 것이다.SUMMARY OF THE INVENTION The present invention provides a method and apparatus for detecting an infectious disease that may become an issue from the past to the future.

본 발명이 해결하고자 하는 다른 기술적 과제는, 이슈가 될 만한 감염병을 질병 리스트에 갱신하는 방법 및 장치를 제공하는 것이다.Another technical problem to be solved by the present invention is to provide a method and apparatus for updating an infectious disease to be an issue on a disease list.

본 발명이 해결하고자 하는 또 다른 기술적 과제는, 상기 탐지된 감염병이 확산될 지 여부를 판단하는 방법 및 장치를 제공하는 것이다.It is another object of the present invention to provide a method and an apparatus for determining whether or not the detected infectious disease is spread.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical objects of the present invention are not limited to the above-mentioned technical problems, and other technical subjects not mentioned can be clearly understood by those skilled in the art from the following description.

상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 감염병 확산 예측 방법은, 기사 데이터에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정하되, 상기 질병은 질병 리스트내에 포함되는 것인 단계, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계, 상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계, 상기 분석 결과, 상기 제1 시계열 데이터의 패턴과 상기 제2 시계열 데이터 패턴 간의 공통된 패턴이 감지되면, 상기 대상 감염병이 확산 감염병인 것으로 판정하는 단계를 포함할 수 있다.According to an aspect of the present invention, there is provided a method for predicting the spread of an infectious disease according to an embodiment of the present invention, comprising: selecting a disease detected as a predetermined number of times or more from article data as a target infectious disease, , Collecting text data on the target infectious disease from the article data, extracting an infectious disease keyword from the collected text data, calculating a cumulative number of infectious disease keywords by a specific period from a first point to a second point Analyzing a pattern of the first time-series data and a pattern of the second time-series data previously stored; and analyzing a pattern of the first time-series data and a second time- And if so, determining that the target infectious disease is a spreading infectious disease All.

일 실시예에서, 기사 데이터에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정하는 단계는, 상기 질병이 상기 기사 데이터에서 감지되지 않은 경우, 상기 질병을 상기 질병 리스트에 갱신하는 단계를 포함할 수 있다.In one embodiment, selecting a disease detected as a target infectious disease for a predetermined number of times or more in the article data may include updating the disease to the disease list if the disease is not detected in the article data have.

일 실시예에서, 감염병 확산 예측 방법의 텍스트 데이터는, 적어도 2이상의 데이터 소스로부터 수집된 것일 수 있다.In one embodiment, the textual data of the infectious disease spread prediction method may be collected from at least two or more data sources.

일 실시예에서, 감염병 확산 예측 방법의 특정 기간은, 24시간을 단위로 하는 것 일 수 있다.In one embodiment, the specific duration of the infectious disease spread predicting method may be in units of 24 hours.

일 실시예에서, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는, 상기 기사 데이터에서 날짜 데이터, 제목 데이터 및 내용 데이터를 추출하여 분류화 하는 단계를 포함할 수 있다.In one embodiment, the step of collecting the text data on the target infectious disease from the article data and extracting the infectious disease keyword from the collected text data includes extracting date data, title data and content data from the article data, . ≪ / RTI >

일 실시예에서, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는, 상기 대상 감염병에 대하여 유사도가 최고 값인 감염병 키워드를 메인 키워드로 특정하는 단계를 포함하고, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계는, 상기 메인 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계를 포함할 수 있다.In one embodiment, the step of collecting the text data on the target infectious disease from the article data and extracting the infectious disease keyword from the collected text data may include the step of retrieving the infectious disease keyword having the highest degree of similarity for the target infectious disease, Wherein the step of generating the infectious disease keyword as the first time series data from the first time point to the second time point by accumulating the cumulative number of the infectious disease keyword by a specific period comprises the steps of: And generating the first time series data up to two time points.

일 실시예에서, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는, 상기 대상 감염병에 대하여 기 설정된 임계치 이상인 유사도를 가지는 감염병 키워드를 서브 키워드로 특정하는 단계를 포함하고, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계는, 상기 서브 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계를 포함할 수 있다.In one embodiment, the step of collecting the text data on the target infectious disease from the article data and extracting the infectious disease keyword from the collected text data may include the step of: providing an infectious disease keyword having a degree of similarity equal to or greater than a predetermined threshold value Wherein the step of generating the first time series data from the first time point to the second time point by accumulating the cumulative number of the infectious disease keyword by a specific period comprises the steps of: And generating the first time series data from the time point to the second time point.

일 실시예에서, 상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계는, 상기 제1 시계열 데이터를 분석하여 특정 패턴이 감지되는 제1 구간을 도출하는 단계, 상기 제2 시계열 데이터를 분석하여 제2 구간을 도출하는 단계를 포함하되, 상기 제2 구간은, 상기 제2 시계열 데이터 상의 특정 패턴이 시작되는 시점부터 과거 감염병 확산 시점 사이의 기간일 수 있다.In one embodiment, the step of analyzing the pattern of the first time series data and the pattern of the previously stored second time series data includes the steps of: deriving a first section in which a specific pattern is detected by analyzing the first time series data; 2 time-series data to derive a second interval, wherein the second interval may be a period between a time point at which a specific pattern on the second time series data starts and a time point at which the past infectious disease spreads.

일 실시예에서, 상기 제1 구간 및 상기 제2 구간이 같은 기간으로 판정된 경우, 상기 제1 시계열 데이터 상의 특정 시점에서 제1 구간에 해당하는 기간 이후인 시점을 실제 감염병 확산 시점으로 판정하는 단계를 더 포함할 수 있다.In one embodiment, when the first period and the second period are determined to be the same period, the time point after the period corresponding to the first period at the specific time point on the first time series data is determined as the actual time of the infectious disease spreading As shown in FIG.

상술한 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 전자 장치는, 하나 이상의 인스트럭션이 저장되는 메모리, 상기 저장된 인스트럭션을 실행하는 프로세서를 포함하되, 상기 프로세서는, 질병 리스트에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정하고, 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하고, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하고, 상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하고, 상기 분석 결과, 상기 제1 시계열 데이터의 패턴과 상기 제2 시계열 데이터의 패턴 간의 공통된 패턴이 감지되면, 상기 대상 감염병이 확산 감염병인 것으로 판정하는 것일 수 있다.According to another aspect of the present invention, there is provided an electronic device including a memory in which one or more instructions are stored, a processor for executing the stored instructions, Collecting text data on the target infectious disease, extracting an infectious disease keyword from the collected text data, calculating an accumulated number of infectious disease keywords for each specific period from a first time point to a second time point The first time series data and the second time series data are analyzed to analyze the pattern of the first time series data and the previously stored second time series data, When a common pattern is detected, it is determined that the target infectious disease is a spreading infectious disease It may be to.

상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 감염병 확산 예측 컴퓨터 프로그램은, 컴퓨팅 장치와 결합하여, 질병 리스트에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정하는 단계, 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계, 상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계, 상기 분석 결과, 상기 제1 시계열 데이터의 패턴과 상기 제2 시계열 데이터의 패턴 간의 공통된 패턴이 감지되면, 상기 대상 감염병이 확산 감염병인 것으로 판정하는 단계를 실행시키도록 기록 매체에 저장될 수 있다.According to another aspect of the present invention, there is provided a computer program for predicting an infectious disease spread according to another embodiment of the present invention, the infectious disease prognostic computer program comprising the steps of: selecting a disease detected in a disease list for a predetermined number of times or more, Collecting text data on an infectious disease, extracting an infectious disease keyword from the collected text data, generating an accumulated number of infectious disease keywords by a specific period from first to second time series data, Analyzing a pattern of the first time series data and a pattern of pre-stored second time series data; if a common pattern is detected between the pattern of the first time series data and the pattern of the second time series data as a result of the analysis, Is determined to be a spreading infectious disease. .

도 1은 본 발명의 일 실시예에 따른 감염병 확산 예측 시스템의 구성도이다.
도 2는 본 발명의 몇몇 실시예에서 참조되는 제1 시계열 데이터를 설명하기 위한 도면이다.
도 3은 본 발명의 몇몇 실시예에서 참조되는 제2 시계열 데이터를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 감염병 확산 예측 방법의 순서도이다.
도 5는 도 4에 도시된 감염병 확산 예측 방법을 구성하는 세부 단계(S100)를 설명하기 위한 상세 순서도이다.
도 6은 도 4에 도시된 감염병 확산 예측 방법을 구성하는 세부 단계(S200)를 설명하기 위한 상세 순서도이다.
도 7은 도 4에 도시된 감염병 확산 예측 방법을 구성하는 세부 단계(S400)를 설명하기 위한 상세 순서도이다.
도 8 내지 도 11은 본 발명의 몇몇 실시예에서 참조되는, 3차원 키워드 모델 스트럭쳐를 설명하기 위한 도면이다.
도 12는 도 8 내지 도 11에 도시된 3차원 키워드 모델 스트럭쳐의 세부 구성 요소를 설명하기 위한 도면이다.
도 13 내지 도 16은 본 발명의 몇몇 실시예에서 참조되는 시계열 데이터를 설명하기 위한 도면이다.
도 17은 도 13 내지 도 16에 도시된 시계열 데이터의 실험값 등을 설명하기 위한 도면이다.
1 is a configuration diagram of an infection disease spread prediction system according to an embodiment of the present invention.
2 is a diagram for explaining first time series data referred to in some embodiments of the present invention.
3 is a diagram for explaining second time series data referred to in some embodiments of the present invention.
4 is a flowchart of a method for predicting the spread of an infectious disease according to an embodiment of the present invention.
FIG. 5 is a detailed flowchart for explaining the detailed step S100 constituting the infectious disease spread prediction method shown in FIG.
FIG. 6 is a detailed flowchart for explaining detailed steps (S200) constituting the infectious disease spread prediction method shown in FIG.
FIG. 7 is a detailed flowchart for explaining detailed steps (S400) constituting the infectious disease spread prediction method shown in FIG.
Figures 8-11 illustrate three-dimensional keyword model structures, which are referenced in some embodiments of the present invention.
FIG. 12 is a view for explaining the detailed components of the three-dimensional keyword model structure shown in FIGS. 8 to 11. FIG.
13 to 16 are diagrams for explaining time-series data referred to in some embodiments of the present invention.
FIG. 17 is a diagram for explaining experimental values of the time series data shown in FIGS. 13 to 16. FIG.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention, and the manner of achieving them, will be apparent from and elucidated with reference to the embodiments described hereinafter in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. To fully disclose the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. Like reference numerals refer to like elements throughout the specification.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless defined otherwise, all terms (including technical and scientific terms) used herein may be used in a sense commonly understood by one of ordinary skill in the art to which this invention belongs. Also, commonly used predefined terms are not ideally or excessively interpreted unless explicitly defined otherwise. The terminology used herein is for the purpose of illustrating embodiments and is not intended to be limiting of the present invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification.

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.It is noted that the terms "comprises" and / or "comprising" used in the specification are intended to be inclusive in a manner similar to the components, steps, operations, and / Or additions.

본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.Prior to the description of the present specification, some terms used in this specification will be clarified.

본 명세서에서, 시계열 데이터란, 감염병이 확산되는지 여부를 판정하기 위하여 상기 감염병에 관련된 키워드에 시간적 요소를 반영하여 생성한 데이터를 가리킨다. 구체적으로, 웹 상에 존재하는 감염병에 관련된 기사 데이터를 수집하고, 상기 기사 데이터에서 감염병과 연관된 키워드를 추출한다. 키워드가 추출되면 상기 키워드의 출현 빈도를 특정 기간 별로 나타내고 이는 임의의 기간인 제1 시점부터 제2 시점까지의 시계열 데이터로 생성될 수 있다.In the present specification, time series data refers to data generated by reflecting a temporal factor on a keyword related to the infectious disease to determine whether or not the infectious disease is spread. Specifically, article data related to an infectious disease existing on the web is collected, and keywords associated with the infectious disease are extracted from the article data. When the keyword is extracted, the appearance frequency of the keyword is expressed by a specific period, and it can be generated as time series data from a first time point to a second time point which are arbitrary periods.

상기 시계열 데이터를 시간에 흐름에 따라 2차원 그래프로 도시하면, 제1 시점부터 제2 시점까지 구간에서 특정한 패턴을 감지할 수 있을 것이다. 본 발명의 몇몇 실시예에서는 상기 특정한 패턴을 감지하여 대상 감염병이 확산되는지 여부를 판단하는 것이다.If the time-series data is plotted in a two-dimensional graph according to time, a specific pattern can be detected in a section from the first point to the second point. In some embodiments of the present invention, the specific pattern is detected to determine whether the target infectious disease is spread.

한편, 상기 시계열 데이터를 구성하는 세부 구성 요소에 대한 정의는 첨부된 도면을 설명하는 과정에서 필요에 따라 도입함과 동시에 개별적으로 설명하도록 한다.Meanwhile, the definitions of the sub-components constituting the time-series data will be introduced as necessary and explained separately in the process of describing the accompanying drawings.

이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 감염병 확산 예측 시스템의 구성도이다. 이하, 도 1을 참조하여 본 실시예에 따른 감염병 확산 예측 시스템의 세부 구성 및 동작을 설명한다.1 is a configuration diagram of an infection disease spread prediction system according to an embodiment of the present invention. Hereinafter, the detailed configuration and operation of the infectious disease spread prediction system according to the present embodiment will be described with reference to FIG.

감염병 확산 예측 시스템은 제1 시계열 데이터 DB, 제2 시계열 데이터 DB, 사용자 단말(200) 및 확산 예측 서버(100)를 포함할 수 있다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 구성 요소가 추가되거나 삭제될 수 있음은 물론이다. 또한, 도 1에 도시된 감염병 확산 예측 시스템의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 적어도 하나의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다.The infectious disease spread prediction system may include a first time series data DB, a second time series data DB, a user terminal 200, and a diffusion prediction server 100. However, it should be understood that the present invention is not limited to the above-described embodiments, and that various changes and modifications may be made without departing from the scope of the present invention. Also, it is noted that each component of the infectious disease spread prediction system shown in FIG. 1 represents functional elements that are functionally separated, and that at least one component may be integrated in a physical environment.

확산 예측 서버(100)는 제1 시계열 데이터 및 제2 시계열 데이터를 분석하여 사용자 단말(200)에 감염병 확산 여부에 대한 정보를 제공할 수 있다.The diffusion prediction server 100 may analyze the first time series data and the second time series data and provide the user terminal 200 with information on the spread of the infectious disease.

한편, 확산 예측 서버(100)는 질병 사전 DB 에서 수집된 질병에 관련한 데이터를 이용하여 질병 리스트를 생성할 수 있다. 질병의 일종인 감염병의 확산 여부를 판단하기에 앞서서, 미리 질병 리스트에서 이슈가 될 만한 감염병을 질병 리스트에서 추출 또는 갱신하여 감염병 확산 여부를 판단하는 시간을 단축할 수 있다.Meanwhile, the diffusion prediction server 100 can generate a disease list using data related to diseases collected in the disease dictionary DB. Prior to determining the spread of an infectious disease, which is a kind of disease, it is possible to shorten the time for judging the spread of an infectious disease by extracting or renewing an infectious disease which may become an issue from the disease list in advance from the disease list.

확산 예측 서버(100)가 제1 시계열 데이터를 생성하기 위하여, 감염병과 관련된 기사 데이터를 수집한다. 상기 기사 데이터를 수집하는 수단을 예로 들면, 크롤러(Clrawler) 모듈이 사용될 수 있다.The diffusion prediction server 100 collects article data related to the infectious disease to generate the first time series data. As an example of means for collecting the article data, a crawler module may be used.

또한, 상기 수집된 기사 데이터에서 날짜, 제목 및 내용 등의 내용을 추출할 수 있다. 상기 추출된 날짜, 제목 및 내용 등에 관한 데이터가 제1 시계열 데이터에 반영된다. 예를 들어, 상기 기사 데이터에서 날짜, 제목 및 내용 등의 내용을 추출하기 위하여 파서(Parser) 모듈이 사용될 수 있다.In addition, contents such as date, title and contents can be extracted from the collected article data. Data relating to the extracted date, title and contents are reflected in the first time series data. For example, a parser module may be used to extract content such as date, title, and content from the article data.

확산 예측 서버(100)가 질병 사전 DB 및 기사 DB에서 추출된 데이터를 이용하여 제1 시계열 데이터를 생성하면, 제2 시계열 데이터 DB(2000)에 기 저장된 제2 시계열 데이터와 비교 분석하여 대상 감염병이 확산될 지 여부를 판정한다. 상기 확산 판정에 대한 자세한 로직은 도 4를 참조하여 자세히 설명한다. 예를 들어, 상기 제2 시계열 데이터는 질병 관리 본부와 같은 기관이 실제 확산된 감염병에 관한 분석 내용을 시간에 따라 데이터 베이스화 한 데이터에 해당한다.When the diffusion prediction server 100 generates the first time series data using the data extracted from the disease dictionary DB and the article DB, the second time series data stored in the second time series data DB 2000 is compared with the second time series data, It is determined whether or not to be diffused. Detailed logic for the spreading determination is described in detail with reference to FIG. For example, the second time series data corresponds to data obtained by time-based analysis of the analysis results of an actual infected disease caused by an institution such as a disease management headquarters.

확산 예측 서버(100)는 제1 시계열 데이터와 제2 시계열 데이터의 공통된 패턴을 감지하여 대상 감염병이 확산되는지 여부를 판단하고, 사용자 단말(200)에 제공할 수 있다. 또한, 상기 대상 감염병에 관련된 키워드를 3차원 키워드 스트럭쳐로 시각화 하여 사용자 단말(200)을 통하여 사용자에게 제공할 수 있다.The diffusion prediction server 100 may sense a common pattern of the first time series data and the second time series data to determine whether the target infectious disease is spread and provide the same to the user terminal 200. [ In addition, the keyword related to the target infectious disease can be visualized as a three-dimensional keyword structure and provided to the user through the user terminal 200.

도 2는 본 발명의 몇몇 실시예에서 참조되는 제1 시계열 데이터를 설명하기 위한 도면이다. 이하, 도 2를 참조하여 제1 시계열 데이터의 세부 구성 요소를 설명한다.2 is a diagram for explaining first time series data referred to in some embodiments of the present invention. Hereinafter, the detailed components of the first time series data will be described with reference to FIG.

제1 시계열 데이터는, 웹 상의 기사 데이터에서 추출된 감염병에 관련된 키워드에 시계열적 요소를 반영하여, 제1 시계열 데이터 DB(1000)에 저장된다. 예를 들어, 질병 사전 DB에서 제공되는 질병 리스트에 포함된 감염병을 특정하고, 상기 감염병에 관한 기사 데이터를 수집한다. 상기 수집된 기사 데이터는 기사 DB에 저장된다.The first time series data is stored in the first time series data DB 1000 by reflecting the time series elements in the keywords related to the infectious disease extracted from the article data on the web. For example, an infectious disease included in the disease list provided in the disease dictionary database is specified, and article data on the infectious disease is collected. The collected article data is stored in the article DB.

예를 들어 제1 시계열 데이터는, 웹 상에 존재하는 ProMED mail, World Health Organization, CIRAP, Centre for Health Protection 등의 데이터 소스에서 수집된 기사 데이터를 이용하여 생성될 수 있다. 이는, 다양한 데이터 소스를 이용하여 감염병에 관련된 키워드를 충분히 수집할 수 있도록 한다.For example, the first time series data may be generated using article data collected from a data source such as ProMED mail, World Health Organization, CIRAP, Center for Health Protection existing on the web. This allows the collection of keywords related to infectious diseases using a variety of data sources.

도 3은 본 발명의 몇몇 실시예에서 참조되는 제2 시계열 데이터를 설명하기 위한 도면이다. 이하, 도 3을 참조하여 제2 시계열 데이터의 세부 구성 요소를 설명한다.3 is a diagram for explaining second time series data referred to in some embodiments of the present invention. Hereinafter, the detailed components of the second time series data will be described with reference to FIG.

제2 시계열 데이터는, 실제 감염병이 확산된 경우, 확산되기 이전의 텍스트 데이터에서 감염병에 관련된 키워드를 추출하고, 상기 키워드에 시계열적 요소를 반영하여 생성된 데이터를 가리킨다. 상기 제2 시계열 데이터는 제2 시계열 데이터 DB(2000)에 저장된다.The second time series data indicates the data generated by extracting the keyword related to the infectious disease from the text data before spreading when the actual infectious disease is diffused and reflecting the time series element to the keyword. The second time series data is stored in the second time series data DB 2000.

예를 들어, 제2 시계열 데이터는, 질병 관리 본부 또는 사설 기관의 DB에 저장된 데이터를 가리킬 수 있다. 제2 시계열 데이터에는, 과거 실제로 확산된 감염병의 명칭 및 날짜가 포함되어 있고, 감염병이 확산되기 전조의 패턴이 제2 시계열 데이터에 반영되어 있다.For example, the second time series data may indicate data stored in a DB of a CDC or a private agency. The second time series data includes the name and date of the actually infected infectious disease in the past, and the pattern of the infectious disease spreading is reflected in the second time series data.

도 4는 본 발명의 일 실시예에 따른 감염병 확산 예측 방법의 순서도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다. 이하, 도 4를 참조하여 본 실시예에 따른 감염병 확산 예측 방법을 설명한다.4 is a flowchart of a method for predicting the spread of an infectious disease according to an embodiment of the present invention. However, it should be understood that the present invention is not limited thereto and that some steps may be added or deleted as needed. Hereinafter, a method for predicting an infectious disease spread according to the present embodiment will be described with reference to FIG.

이하, 본 발명의 실시예에 따른 감염병 확산 예측 방법의 각 단계는, 전자 장치에 의해 수행될 수 있다. 예를 들어, 상기 전자 장치는 감염병 확산 예측 장치일 수 있다. 다만, 설명의 편의를 위해, 상기 감염병 확산 예측 방법에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다. 또한, 감염병 확산 예측 방법 방법의 각 단계는 감염병 확산 예측 방법 소프트웨어가 프로세서에 의해 실행됨으로써, 감염병 확산 예측 방법 장치에서 수행되는 인스트럭션일 수 있다.Hereinafter, each step of the method for predicting the spread of an infectious disease according to an embodiment of the present invention may be performed by an electronic device. For example, the electronic device may be an infectious disease spread prediction device. However, for the sake of convenience of description, description of the operation subject of each step included in the infection spread prediction method may be omitted. In addition, each step of the method for predicting the spread of an infectious disease may be an instruction executed in the infectious disease spread prediction method apparatus by the infectious disease spread prediction method software being executed by the processor.

기사 데이터에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정한다(S100). 이는, 최근 들어서 자주 언급된 질병을 감염병으로 간주하고, 상기 감염병의 확산 여부를 판정을 하기 위함이다.A disease detected more than a predetermined number of times in the article data is selected as a target infectious disease (S100). This is for the purpose of judging whether the infectious disease has spread or not by considering infectious diseases as a disease frequently mentioned recently.

상기 감지된 질병은 질병 리스트 내에 포함된 것일 수 있다. 이는 질병 사전 DB를 통하여 질병 리스트를 생성하고, 상기 질병 리스트에 포함된 질병이 기사 제목 또는 기사 내용에서 자주 언급되면 상기 질병을 대상 감염병으로 선정할 수 있다.The detected disease may be contained in a disease list. This creates a disease list through the disease dictionary DB, and if the disease contained in the disease list is mentioned frequently in the article title or article content, the disease can be selected as the target infectious disease.

기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출한다(S200).The text data on the target infectious disease is collected from the article data, and the infectious disease keyword is extracted from the collected text data (S200).

S200 단계에서는, 대상 감염병과 관련된 키워드를 추출하기 위하여, 웹 상에 존재하는 기사 데이터에서 텍스트에 대한 데이터를 수집한다. 예를 들어, 수집된 텍스트 데이터에서 텍스트 마이닝 기법을 통하여 대상 감염병에 관련된 단어를 추출할 수 있다.In step S200, in order to extract a keyword related to the target infectious disease, data on text is collected from article data existing on the web. For example, words related to the target infectious disease can be extracted from the collected text data through a text mining technique.

일 실시예에서, 상기 텍스트 데이터는 적어도 2 이상의 데이터 소스로부터 수집된 것일 수 있다. 추출되는 키워드의 다양성 및 정확성을 향상 시키기 위해 여러 가지의 데이터 소스에서 텍스트 데이터를 수집할 필요가 있다. 예를 들어, 상기 데이터 소스는 ProMED mail, World Health Organization, CIRAP, Centre for Health Protection 등의 다양한 질병의 관련 기사를 접할 수 있는 웹 상에 존재하는 빅 데이터에 해당할 수 있다.In one embodiment, the textual data may be collected from at least two or more data sources. In order to improve the diversity and accuracy of extracted keywords, it is necessary to collect text data from various data sources. For example, the data source may correspond to big data existing on the web that can receive articles related to various diseases such as ProMED mail, World Health Organization, CIRAP, and Center for Health Protection.

감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성한다(S300). 제1 시점부터 제2 시점까지 구간 내에서 시간에 따른 특정 패턴을 도출하기 위하여 상기 감염병 키워드에 시적 요소를 반영할 수 있다.The cumulative number of infectious disease keywords for each specific period is generated as first time series data from the first time point to the second time point (S300). A poetic element may be reflected in the infectious disease keyword to derive a specific pattern over time from the first time point to the second time point.

일 실시예에서, 상기 특정 기간은 24시간을 단위로 하는 것일 수 있다. 상기 특정 기간은 사용자의 설정 등에 의하여 조정이 가능할 수 있으나, 일반적으로 기사 데이터가 일 별로 수집되는 것이 통상적이므로, 상기 특정 기간을 24시간으로 설정할 수 있다.In one embodiment, the specific period may be in units of 24 hours. The specific period may be adjusted by the setting of the user, etc. In general, since the article data is generally collected on a daily basis, the specific period may be set to 24 hours.

제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석한다(S400). 상기 제2 시계열 데이터는 도 1 내지 도 2를 참조하여 상술한 바와 같이 제1 시계열 데이터의 패턴과 비교하기 위하여 실제 확산된 감염병에 관한 분석 내용을 질병 관리 본부 또는 사설 기관의 DB에 기 저장된 데이터일 수 있다.A pattern of the first time series data and a pattern of the second time series data previously stored are analyzed (S400). The second time series data may include analysis contents of the actually spread infectious disease to be compared with the pattern of the first time series data, as described above with reference to FIG. 1 and FIG. 2, .

상기 분석 대상이 되는 패턴에 대하여 설명한다. 본 발명의 몇몇 실시예에서 분석 대상이 되는 패턴에는 다양한 요소가 포함될 수 있음에 유의한다.The pattern to be analyzed is described below. It should be noted that the pattern to be analyzed in some embodiments of the present invention may include various elements.

예를 들어, 상기 패턴은 특정 감염병 키워드의 일 별 누적 횟수에 관한 패턴을 가리킬 수 있다.For example, the pattern may indicate a pattern relating to the cumulative number of days of a certain infectious disease keyword.

또한, 다른 예로서, 상기 패턴은 특정 감염병 키워드의 관련도 등을 수치화 한 것을 가리킬 수 있다.Further, as another example, the pattern may indicate that the relevance degree of a certain infectious disease keyword is numerically expressed.

상기 분석 결과, 제1 시계열 데이터의 패턴과 제2 시계열 데이터의 패턴 간의 공통된 패턴이 감지되면, 대상 감염병이 확산 감염병인 것으로 판정한다(S500). 이는, 상기 제1 시계열 데이터의 패턴과 제2 시계열 데이터의 패턴 간의 유사성을 확인하여 미리 저장된 과거 데이터를 기반으로 대상 감염병이 확산될지 여부를 판단하는 것이다.If a common pattern is detected between the pattern of the first time series data and the pattern of the second time series data, it is determined that the target infectious disease is a spreading infectious disease (S500). This is to check the similarity between the pattern of the first time series data and the pattern of the second time series data to determine whether the target infectious disease is spread based on the previously stored past data.

도 5는 도 4에 도시된 감염병 확산 예측 방법을 구성하는 세부 단계(S100)를 설명하기 위한 상세 순서도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다. 이하, 도 5를 참조하여 S100 단계의 세부 구성을 설명한다.FIG. 5 is a detailed flowchart for explaining the detailed step S100 constituting the infectious disease spread prediction method shown in FIG. However, it should be understood that the present invention is not limited thereto and that some steps may be added or deleted as needed. Hereinafter, the detailed configuration of step S100 will be described with reference to FIG.

특정 질병에 관한 기사가 기사 데이터 내에 존재하는지 여부를 판단한다(S101). 기사 데이터를 이용하여 특정 질병이 감염병인지 여부를 판단하고, 상기 감염병이 확산되는지 여부를 판단하기 때문이다.It is determined whether or not an article about a specific disease exists in the article data (S101). The article data is used to determine whether a specific disease is an infectious disease and whether the infectious disease is spread or not.

상기 특정 질병에 관한 기사가 기사 데이터 내에 존재하지 않는다면(S102), 상기 특정 질병을 리스트화 하여 추후에 사용할 필요가 있다. 이를 위하여, 상기 특정 질병을 질병 리스트에 갱신할 수 있다(S104).If the article about the specific disease does not exist in the article data (S102), it is necessary to list the specific disease and use it later. To this end, the specific disease can be updated in the disease list (S104).

상기 특정 질병에 관한 기사가 기사 데이터 내에 존재하는지 여부를 판단하고(S102), 기 설정된 횟수 이상이 감지되었는지를 판단한다(S103). 상기 횟수는 사용자의 설정에 따라 다양한 수치를 적용할 수 있다.It is determined whether or not an article about the specific disease exists in the article data (S102), and it is determined whether a predetermined number of times or more is detected (S103). The number of times may be varied according to the user's setting.

만약, 상기 특정 질병에 관한 기사가 상기 기사 데이터에서 기 설정된 횟수 이상 감지되면, 상기 특정 질병을 확산 판단의 대상이 되는 대상 감염병으로 선정한다(S105).If an article about the specific disease is detected more than a predetermined number of times in the article data, the specific disease is selected as a target infectious disease to be subjected to diffusion determination (S105).

반대로, 상기 특정 질병에 관한 기사가 기사 데이터에서 기 설정된 횟수 이상으로 감지되지 않는다면, 상기 특정 질병을 대상 감염병으로 선정하지 않을 것이다(S106).On the contrary, if the article about the specific disease is not detected more than the predetermined number of times in the article data, the specific disease will not be selected as the target infectious disease (S106).

일 실시예에서, 기사 데이터에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정하는 단계는, 상기 질병이 상기 기사 데이터에서 감지되지 않은 경우, 상기 질병을 상기 질병 리스트에 갱신하는 단계를 포함할 수 있다. 이는, 뉴스 기사 등에서 신종 질병이 언급되는 경우, 상기 신종 질병을 리스트화 하고, 추후에 대상 감염병으로 선정하여, 대상 감염병이 확산되는지 여부를 신속히 판단할 수 있는 장점이 있다.In one embodiment, selecting a disease detected as a target infectious disease for a predetermined number of times or more in the article data may include updating the disease to the disease list if the disease is not detected in the article data have. This is advantageous in that when a new disease is referred to in a news article or the like, the new disease is listed, and subsequently, it is selected as a target infectious disease to quickly determine whether the target infectious disease spreads.

도 6은 도 4에 도시된 감염병 확산 예측 방법을 구성하는 세부 단계(S200)를 설명하기 위한 상세 순서도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다. 이하, 도 6을 참조하여, S200 단계의 세부 구성을 설명한다.FIG. 6 is a detailed flowchart for explaining detailed steps (S200) constituting the infectious disease spread prediction method shown in FIG. However, it should be understood that the present invention is not limited thereto and that some steps may be added or deleted as needed. Hereinafter, the detailed configuration of step S200 will be described with reference to FIG.

본 실시예는 대상 감염병에 관련된 감염병 키워드를 추출하여 이에 대한 유사도에 따라 패턴 분석의 대상이 되는 감염병 키워드를 선정하기 위하여 적용됨을 유의한다.Note that this embodiment is applied to extract an infectious disease keyword related to a target infectious disease and to select an infectious disease keyword to be subjected to pattern analysis according to the similarity degree.

수집된 텍스트 데이터에서 감염병 키워드를 추출하면(S201), 상기 추출된 대상 감염병에 대한 감염병 키워드의 유사도를 산정한다(S202). 상기 유사도는 상기 대상 감염병과 감염병 키워드 간의 관련 정도를 나타낼 수 있다.If the infectious disease keyword is extracted from the collected text data (S201), the similarity degree of the infectious disease keyword for the extracted target infectious disease is calculated (S202). The degree of similarity may indicate the degree of relevance between the target infectious disease and the infectious disease keyword.

유사도 산정이 완료되면, 유사도의 수치에 따른 감염병 키워드를 선별한다. 특정 감염병 키워드의 유사도가 최고 값에 해당하면(S203), 상기 추출된 감염병 키워드를 메인 키워드로 특정한다(S204). 따라서, 추후 패턴 분석의 대상이 되는 제1 시계열 데이터의 구성은 상기 메인 키워드가 될 수 있다. 상기 메인 키워드의 특정 후, 메인 키워드를 이용하여 제1 시계열 데이터를 생성한다(S304).When the calculation of the similarity degree is completed, the infectious disease keyword is selected according to the value of the similarity degree. If the similarity degree of the specific infectious disease keyword corresponds to the highest value (S203), the extracted infectious disease keyword is specified as the main keyword (S204). Therefore, the configuration of the first time-series data to be subjected to the later pattern analysis may be the main keyword. After specifying the main keyword, the first time series data is generated using the main keyword (S304).

일 실시예에서, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는, 상기 대상 감염병에 대하여 유사도가 최고 값인 감염병 키워드를 메인 키워드로 특정하는 단계를 포함하고, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계는, 상기 메인 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계를 포함할 수 있다. 이는, 대상 감염병과 가장 관련도가 높은 감염병 키워드를 이용하여 명확한 패턴을 도출할 수 있고, 상기 명확한 패턴에 의하여 감염병 확산 판단의 정확성을 향상시킬 수 있다.In one embodiment, the step of collecting the text data on the target infectious disease from the article data and extracting the infectious disease keyword from the collected text data may include the step of retrieving the infectious disease keyword having the highest degree of similarity for the target infectious disease, Wherein the step of generating the infectious disease keyword as the first time series data from the first time point to the second time point by accumulating the cumulative number of the infectious disease keyword by a specific period comprises the steps of: And generating the first time series data up to two time points. This makes it possible to derive a definite pattern by using the infectious disease keyword most relevant to the target infectious disease, and the accuracy of infectious disease spread judgment can be improved by the clear pattern.

유사도 산정이 완료되고, 산정된 유사도의 값이 최고 값에 해당하지 않는 경우를 설명한다. 상기 유사도의 값이 터무니 없이 낮은 경우에는 무의미한 데이터에 해당할 것이다. 따라서, 본 실시예에서는 유사도 값에 대한 임계치를 설정하여 기 설정된 임계치 이상인 경우에만 분석 대상인 키워드로 특정할 수 있다. 만약, 유사도가 기 설정된 임계치 이상에 해당된다면, 상기 추출된 감염병 키워드를 서브 키워드로 특정할 수 있다(S205). 상기 서브 키워드의 특정 후, 서브 키워드를 이용하여 제1 시계열 데이터를 생성한다(S305).The case where the similarity degree calculation is completed and the calculated similarity value does not correspond to the highest value will be described. If the value of the degree of similarity is unreasonably low, it would correspond to meaningless data. Therefore, in this embodiment, a threshold value for the similarity value is set and can be specified as a keyword to be analyzed only when the threshold value is greater than a predetermined threshold value. If the degree of similarity is equal to or greater than a predetermined threshold value, the extracted infectious disease keyword can be specified as a sub keyword (S205). After the sub keyword is specified, the first time series data is generated using the sub keyword (S305).

일 실시예에서, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는, 상기 대상 감염병에 대하여 기 설정된 임계치 이상인 유사도를 가지는 감염병 키워드를 서브 키워드로 특정하는 단계를 포함하고, 상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계는, 상기 서브 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계를 포함할 수 있다.In one embodiment, the step of collecting the text data on the target infectious disease from the article data and extracting the infectious disease keyword from the collected text data may include the step of: providing an infectious disease keyword having a degree of similarity equal to or greater than a predetermined threshold value Wherein the step of generating the first time series data from the first time point to the second time point by accumulating the cumulative number of the infectious disease keyword by a specific period comprises the steps of: And generating the first time series data from the time point to the second time point.

일 실시예에서, 상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는, 상기 기사 데이터에서 날짜 데이터, 제목 데이터 및 내용 데이터를 추출하여 분류화 하는 단계를 포함할 수 있다. 이는, 상기 감염병 키워드의 유사도 측정 및 시간적 요소를 반영하고, 방대한 데이터의 관리를 용이하게 할 수 있다.In one embodiment, the step of collecting the text data on the target infectious disease from the article data and extracting the infectious disease keyword from the collected text data includes extracting date data, title data and content data from the article data, . ≪ / RTI > This reflects the similarity measure and temporal factor of the infectious disease keyword, and can facilitate the management of vast amounts of data.

도 7은 도 4에 도시된 감염병 확산 예측 방법을 구성하는 세부 단계(S400)를 설명하기 위한 상세 순서도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다. 이하, 도 7을 참조하여, S400 단계의 세부 구성을 설명한다.FIG. 7 is a detailed flowchart for explaining detailed steps (S400) constituting the infectious disease spread prediction method shown in FIG. However, it should be understood that the present invention is not limited thereto and that some steps may be added or deleted as needed. Hereinafter, the detailed configuration of step S400 will be described with reference to FIG.

제1 시계열 데이터를 분석하여 특정 패턴을 감지하고, 특정 패턴이 감지되는 구간을 제1 기간으로 특정한다(S401). 상기 제1 기간을 기준으로 대상 감염병이 확산될 지 여부를 판단한다.The first time series data is analyzed to detect a specific pattern, and a period in which a specific pattern is sensed is specified as a first period (S401). And determines whether the target infectious disease is diffused based on the first period.

제2 시계열 데이터에서 특정 패턴의 시작 시점 및 과거 감염병 확산 시점을 판단한다(S402). 이는, 실제 감염병이 확산된 케이스를 분석한 제2 시계열 데이터를 이용하여 특정 패턴이 감지된 후 어느 정도 이후에 감염병이 확산되었는지 여부를 판단하기 위한 것이다.The start point of the specific pattern and the past infectious disease spreading time are determined from the second time series data (S402). This is to determine whether or not the infectious disease has spread after a specific pattern is detected using the second time series data in which the actual infectious disease has been spread.

제2 시계열 데이터에서 특정 패턴의 시작 시점부터 과거 감염병 확산 시점의 사이 구간을 제2 기간으로 특정하고(S403), 제1 기간과 상기 제2 기간을 비교한다(S404). 만약, 제1 시계열 데이터의 특정 패턴과 제2 시계열 데이터의 특정 패턴 간에 공통점이 발견되고, 상기 제1 기간과 상기 제2 기간이 같은 기간에 해당한다면, 제1 시계열 데이터 상에서 예측되는 감염병 확산 시점은 제2 기간 종료 직후로 추정할 수 있을 것이다.In the second time series data, the interval between the start point of the specific pattern and the past infectious disease spreading time is specified as the second period (S403), and the first period and the second period are compared (S404). If a common point is found between a specific pattern of the first time series data and a specific pattern of the second time series data and if the first period and the second period correspond to the same period of time, It can be estimated immediately after the end of the second period.

제1 기간과 제2 기간이 같은 기간에 해당한다면(S405), 제1 시계열 데이터 상의 특정 시점에서 제1 기간 이후인 시점을 실제 감염병 확산 시점으로 판정한다(S406).If the first period and the second period correspond to the same period (S405), the time point after the first period at a specific time point on the first time series data is determined as the actual time of the infectious disease spreading (S406).

제1 기간과 제2 기간이 같은 기간에 해당하지 않는다면(S405), 제1 시계열 데이터 상의 특정 시점에서 제1 기간 이후인 시점과 일정 범위 내인 시점을 실제 감염병 확산 시점으로 추정할 수 있다(S407).If the first time period and the second time period do not correspond to the same time period (S405), the time point after the first time period at a specific time point on the first time series data and the time point within a certain range may be estimated as the actual time of the infectious disease spreading time (S407) .

일 실시예에서, 상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계는, 상기 제1 시계열 데이터를 분석하여 특정 패턴이 감지되는 제1 구간을 도출하는 단계, 상기 제2 시계열 데이터를 분석하여 제2 구간을 도출하는 단계를 포함하되, 상기 제2 구간은 상기 제2 시계열 데이터 상의 특정 패턴이 시작되는 시점부터 과거 감염병 확산 시점 사이의 기간일 수 있다.In one embodiment, the step of analyzing the pattern of the first time series data and the pattern of the previously stored second time series data includes the steps of: deriving a first section in which a specific pattern is detected by analyzing the first time series data; 2 time series data to derive a second interval, wherein the second interval may be a period between a point of time when the specific pattern on the second time series data starts and a point of time when the past infectious disease spreads.

일 실시예에서, 상기 제1 구간 및 상기 제2 구간이 같은 기간으로 판정된 경우, 상기 제1 시계열 데이터 상의 특정 시점에서 제1 구간에 해당하는 기간 이후인 시점을 실제 감염병 확산 시점으로 판정하는 단계를 포함할 수 있다. 이는, 제1 시계열 데이터에서 제2 시계열 데이터 상의 특정 패턴과 같은 패턴이 감지되면 같은 기간 이후에 대상 감염병이 확산되는 것으로 추정할 수 있도록 한다.In one embodiment, when the first period and the second period are determined to be the same period, the time point after the period corresponding to the first period at the specific time point on the first time series data is determined as the actual time of the infectious disease spreading . ≪ / RTI > This allows estimation of a target infectious disease to be spread after the same period when a pattern similar to a specific pattern on the second time series data is detected in the first time series data.

도 8 내지 도 11은 본 발명의 몇몇 실시예에서 참조되는, 3차원 키워드 모델 스트럭쳐를 설명하기 위한 도면이다. 이하, 도 8 내지 도 11을 참조하여 3차원 키워드 모델 스트럭쳐를 설명한다.Figures 8-11 illustrate three-dimensional keyword model structures, which are referenced in some embodiments of the present invention. Hereinafter, a three-dimensional keyword model structure will be described with reference to Figs. 8 to 11. Fig.

도 8을 참조하면, 기사 데이터에서 추출된 감염병 키워드에 대한 데이터가 3차원 키워드 모델 스트럭쳐에 시각화 된 것을 확인할 수 있다. 3차원 그래프의 중심축과의 거리는 대상 감염병과 감염병 키워드에 대한 관련도를 가리킬 수 있다.Referring to FIG. 8, it can be seen that data on the infectious disease keyword extracted from the article data is visualized in the three-dimensional keyword model structure. The distance from the central axis of the three-dimensional graph can indicate the relevance of the target infectious disease and the infectious disease keyword.

도 9를 참조하면, 상기 3차원 그래프 좌표상에 감염병 키워드에 대한 텍스트가 표시된 것을 확인할 수 있다. 이와 같은 텍스트 시각화 과정에 의하여 어떠한 감염병 키워드가 유의미한 것인지 사용자에게 알릴 수 있다. 이를 확인하여, 다시 사용자의 선택에 따라 감염병 키워드를 필터링 하여 대상 감염병의 확산 여부 판단의 정확성을 높일 수 있다.Referring to FIG. 9, it can be seen that the text of the infectious disease keyword is displayed on the three-dimensional graph coordinate. Such a text visualization process can inform the user of which infection keyword is significant. By confirming this, the infectious disease keyword can be filtered again according to the user's selection, and the accuracy of the determination of the spread of the infectious disease can be improved.

도 10을 참조하면, 도 9에서 도시된 텍스트에서 유사도가 기 설정된 임계치 이상인 텍스트만 시각화 된 것을 확인할 수 있다. 본 시각화 과정에서는 Word2Vec 알고리즘을 사용한 텍스트 데이터 분석 모듈의 최적 파라미터 계산을 통한 성능 향상을 확인할 수 있었다.Referring to FIG. 10, it can be confirmed that only the text having the similarity degree equal to or higher than the preset threshold value is visualized in the text shown in FIG. In this visualization process, it was confirmed that the performance improvement is achieved by calculating the optimal parameters of the text data analysis module using Word2Vec algorithm.

마지막으로 도 11을 참조하면, 본 발명의 몇몇 실시예가 적용되어 사용자에게 제공되는 인터페이스 화면을 확인할 수 있다. 이는, 도 12를 동시에 참조하여 설명한다.Finally, referring to FIG. 11, some embodiments of the present invention are applied to identify an interface screen provided to a user. This will be described with reference to FIG. 12 at the same time.

예를 들어, 중국에서 감염병의 확산이 염려되는 조류 인플루엔자 H7N9과 관련성이 깊은 단어들을 검색한 결과 Guangdong, China, Shanghai, Jiangsu 등 중국의 지역명과 조류 인플루엔자인 H5N6, H9N2 등의 결과가 도출되었다.For example, the search for words related to avian influenza H7N9, which is concerned about the spread of infectious diseases in China, resulted in the results of Chinese names such as Guangdong, China, Shanghai, Jiangsu and H5N6 and H9N2.

도 13 내지 도 16은 본 발명의 몇몇 실시예에서 참조되는 시계열 데이터를 설명하기 위한 도면이다. 이는, 도 17을 동시에 참조하여, 시계열 데이터의 실험값 등과 함께 설명한다.13 to 16 are diagrams for explaining time-series data referred to in some embodiments of the present invention. This will be described with reference to FIG. 17 at the same time, along with experimental values of time series data and the like.

도 13 내지 도 16에 도시된 바와 같이, 2차원 그래프의 가로축에는 시간 요소가 반영된다. 다만, 상기 2차원 그래프의 세로축에는 감염병 키워드의 누적 횟수 및 유사도 외의 감염병 키워드의 패턴을 비교하기 위한 다양한 수치가 반영될 수 있음을 유의한다.As shown in Figs. 13 to 16, time elements are reflected on the horizontal axis of the two-dimensional graph. However, it should be noted that various values for comparing the cumulative number of infectious disease keywords and the pattern of the infectious disease keyword other than the similarity index may be reflected on the vertical axis of the two-dimensional graph.

먼저 도 13을 참조하여 2014년도의 제1 시계열 데이터와 제2 시계열 데이터의 패턴을 비교하여 설명한다. 예를 들어, 한국에서 확산될 가능성이 있는 인플루엔자 감염병이 확산되는지 여부를 판단하기 위하여, 도 13에 도시된 바와 같이, 제1 시계열 데이터(KOR_INFLUENZA)가 생성되었고, 생성된 제1 시계열 데이터의 패턴과 비교하기 위하여 복수의 제2 시계열 데이터(Guangdong, Zhejiang, Jiangsu, China)가 생성된 것을 확인할 수 있다.First, the first time series data of the year 2014 and the second time series data are compared with each other by referring to FIG. For example, in order to determine whether influenza infectious diseases that may spread in Korea are diffused, first time series data (KOR_INFLUENZA) is generated as shown in FIG. 13, and a pattern of the generated first time series data It can be confirmed that a plurality of second time series data (Guangdong, Zhejiang, Jiangsu, China) are generated for comparison.

도 13을 참조하면, 상기 복수의 제2 시계열 데이터의 2013.11.27 부터 2014.2.5 까지 기간의 수치는 대부분 피크치를 나타낸다. 또한 제1 시계열 데이터의 2014.2.5 부터 2014.4.16까지 기간의 수치는 피크치를 나타낸다.Referring to FIG. 13, the numerical values of the plurality of second time series data in the period from 2013.11.27 to 2014.2.5 are mostly peak values. Also, the values in the period from 2014.2.5 to 2014.4.16 of the first time series data represent the peak value.

상기 제1 시계열 데이터와 상기 제2 시계열 데이터의 피크치가 나타나는 패턴을 비교하여 제1 시계열 데이터의 감염병 확산 여부를 판단할 수 있다. 예를 들어, 상기 복수의 제2 시계열 데이터의 패턴이 종료되는 시점인 2014.2.5에 실제 감염병이 확산되었다면, 제1 시계열 데이터의 패턴이 종료되는 시점인 2014.4.16에는 한국에서 인플루엔자 감염병이 확산되는 것을 예측할 수 있을 것이다.The first time series data and the second series of time series data may be compared with each other to determine whether the first time series data is spread or not. For example, if the actual infectious disease is spread at 2014.2.5, which is the time point when the pattern of the second time series data ends, the influenza infection disease spreads in Korea at the time point when the pattern of the first time series data ends, .

다음으로, 도 14 내지 도 16를 참조하면, 2015년도, 2016년도 및 2017년도 에서 실제 먼 과거의 제2 시계열 데이터와 가까운 과거의 제1 시계열 데이터를 비교하여 대상 감염병이 확산되었는지 여부를 판단하기 위한 그래프를 확인할 수 있다.Next, referring to FIGS. 14 to 16, the second time series data of the actual distant past and the first time series data of the near past are compared with each other in the 2015, 2016, and 2017 to determine whether the target infectious disease has spread You can see the graph.

도 17을 참조하면, 상기 시계열 데이터의 실험값의 다양한 도출 결과를 확인할 수 있다.Referring to FIG. 17, various derivation results of the experimental values of the time-series data can be confirmed.

도 17에서는, 제2 시계열 데이터의 실험값을 지역별로 키워드의 발생 빈도를 색상의 농도로 표현한 것을 확인할 수 있다.In FIG. 17, it can be confirmed that the experimental value of the second time series data is represented by the density of the color in the occurrence frequency of the keyword in each region.

2개의 인공 신경망 모델을 사용하여 기사 데이터를 기반으로 학습시킨 후에 기사 내에 포함된 모든 단어를 벡터화 하고, 대상 감염병과 Euclidean distance가 가까운 몇몇 단어를 추출하여 이를 지역별로 나타낼 수 있다. 구체적으로, 연관성이 높은 단어의 출현 빈도를 시계열 데이터로 생성하고 교차 상관 관계를 수치화 한 결과를 확인할 수 있다. 상기 결과를 이용하면, 감염병 키워드의 발생 빈도와 실제 감염병의 발생 빈도에 대한 교차를 통해 특정 감염병과 연관이 있는 특정 단어를 포함하는 기사의 발생 빈도가 늘어난 뒤 얼마만큼의 시간이 흐른 후 감염병이 발생하게 되는지 예측할 수 있게 한다.Using two artificial neural network models, we can learn all of the words contained in the article after learning based on the article data, and extract some words near the target infectious disease and Euclidean distance and express them locally. Specifically, the frequency of appearance of highly related words is generated as time series data, and the result of cross-correlation is digitized. Using the above results, it can be seen that the number of articles containing specific words related to a specific infectious disease is increased through the intersection of the frequency of occurrence of the infectious disease keyword and the actual occurrence of the infectious disease, To be predicted.

예를 들어, 상기 인공 신경망 모델은 Contiguous Bag of Words과 Skip-Gram model with Negative Sampling 일 수 있다.For example, the artificial neural network model may be a Contiguous Bag of Words and a Skip-Gram model with Negative Sampling.

지금까지 도 1 내지 도 17을 참조하여 설명된 본 발명의 개념은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The concepts of the invention described above with reference to Figures 1 to 17 can be implemented in computer readable code on a computer readable medium. The computer readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disk, USB storage device, removable hard disk) . The computer program recorded on the computer-readable recording medium may be transmitted to another computing device via a network such as the Internet and installed in the other computing device, thereby being used in the other computing device.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.Although the operations are shown in the specific order in the figures, it should be understood that the operations need not necessarily be performed in the particular order shown or in a sequential order, or that all of the illustrated operations must be performed to achieve the desired result. In certain situations, multitasking and parallel processing may be advantageous. Moreover, the separation of the various configurations in the above-described embodiments should not be understood as such a separation being necessary, and the described program components and systems may generally be integrated together into a single software product or packaged into multiple software products .

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, I can understand that. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive.

Claims (11)

확산 예측 서버가 감염병 확산을 예측하는 방법에 있어서,
데이터 베이스 내에 기 저장된 질병 리스트에 포함된 어느 하나의 질병이 기사 데이터 내에 포함된 기사 제목 텍스트에서 기 설정된 횟수 이상 감지된 경우, 상기 질병의 확산 판정의 대상이 되는 대상 감염병으로 선정하는 단계;
상기 기사 제목 텍스트에 상기 선정된 대상 감염병을 포함하지 않은 기사 데이터를 제외한 후, 상기 기사 데이터 내에 포함되는 기사 내용 텍스트를 수집하고, 상기 수집된 기사 내용 텍스트에서 감염병 키워드를 추출하는 단계;
상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계;
상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계; 및
상기 분석 결과, 상기 제1 시계열 데이터의 패턴과 상기 제2 시계열 데이터의 패턴 간의 공통된 패턴이 감지되면, 상기 대상 감염병이 확산 감염병인 것으로 판정하는 단계를 포함하는,
감염병 확산 예측 방법.
A method for predicting spread of an infectious disease by a spread prediction server,
Selecting a target infectious disease to be subjected to the spread judgment of the disease when any disease contained in the disease list previously stored in the database is detected more than a predetermined number of times in the article title text included in the article data;
Collecting article content text included in the article data after excluding article data that does not include the selected subject infection disease in the article title text and extracting an infectious disease keyword from the collected article content text;
Generating a cumulative number of infectious disease keywords for each specific period from first to second time series data;
Analyzing a pattern of the first time series data and a pattern of the previously stored second time series data; And
And determining that the target infectious disease is a spreading infectious disease when a common pattern is detected between the pattern of the first time series data and the pattern of the second time series data as a result of the analysis,
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
기사 데이터에서 기 설정된 횟수 이상 감지된 질병을 대상 감염병으로 선정하는 단계는,
상기 질병이 상기 기사 데이터에서 감지되지 않은 경우, 상기 질병을 상기 질병 리스트에 갱신하는 단계를 포함하는,
감염병 확산 예측 방법.
The method according to claim 1,
In the step of selecting a disease detected as a target infectious disease for a predetermined number of times or more in the article data,
And updating the disease to the disease list if the disease is not detected in the article data.
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
상기 기사 데이터는,
적어도 2이상의 데이터 소스로부터 수집된 것인,
감염병 확산 예측 방법.
The method according to claim 1,
The article data includes:
Wherein the at least two data sources are collected from at least two data sources,
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
상기 특정 기간은,
24시간을 단위로 하는 것인,
감염병 확산 예측 방법.
The method according to claim 1,
In the specific period,
It is a 24 hour unit,
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는,
상기 기사 데이터에서 날짜 데이터, 제목 데이터 및 내용 데이터를 추출하여 분류화 하는 단계를 포함하는,
감염병 확산 예측 방법.
The method according to claim 1,
Collecting the text data on the target infectious disease from the article data, and extracting the infectious disease keyword from the collected text data,
And extracting and classifying date data, title data and content data from the article data,
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는,
상기 대상 감염병에 대하여 유사도가 최고 값인 감염병 키워드를 메인 키워드로 특정하는 단계를 포함하고,
상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계는,
상기 메인 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계를 포함하는,
감염병 확산 예측 방법.
The method according to claim 1,
Collecting the text data on the target infectious disease from the article data, and extracting the infectious disease keyword from the collected text data,
And identifying the infectious disease keyword having the highest degree of similarity for the target infectious disease as a main keyword,
Wherein the step of generating the infectious disease keyword as the first time series data from the first time point to the second time point,
Generating first time series data from a first time point to a second time point by accumulating the cumulative number of the main keywords by a specific period;
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
상기 기사 데이터에서 상기 대상 감염병에 관한 텍스트 데이터를 수집하고, 상기 수집된 텍스트 데이터에서 감염병 키워드를 추출하는 단계는,
상기 대상 감염병에 대하여 기 설정된 임계치 이상인 유사도를 가지는 감염병 키워드를 서브 키워드로 특정하는 단계를 포함하고,
상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계는,
상기 서브 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계를 포함하는,
감염병 확산 예측 방법.
The method according to claim 1,
Collecting the text data on the target infectious disease from the article data, and extracting the infectious disease keyword from the collected text data,
Identifying an infectious disease keyword having a degree of similarity equal to or higher than a predetermined threshold value for the target infectious disease, using a sub keyword,
Wherein the step of generating the infectious disease keyword as the first time series data from the first time point to the second time point,
And generating an accumulated number of sub-keywords for each specific period from the first time point to the second time point as first time-
Methods for predicting spread of infectious diseases.
제1 항에 있어서,
상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계는,
상기 제1 시계열 데이터를 분석하여 특정 패턴이 감지되는 제1 구간을 도출하는 단계; 및
상기 제2 시계열 데이터를 분석하여 제2 구간을 도출하는 단계를 포함하되,
상기 제2 구간은,
상기 제2 시계열 데이터 상의 특정 패턴이 시작되는 시점부터 과거 감염병 확산 시점 사이의 기간인,
감염병 확산 예측 방법.
The method according to claim 1,
Wherein the step of analyzing the pattern of the first time series data and the pattern of the second time series data,
Analyzing the first time series data to derive a first section in which a specific pattern is sensed; And
Analyzing the second time series data to derive a second section,
The second section may include:
Wherein a period between a time point at which a specific pattern on the second time series data starts and an infectious disease spreading time point,
Methods for predicting spread of infectious diseases.
제8 항에 있어서,
상기 제1 구간 및 상기 제2 구간이 같은 기간으로 판정된 경우, 상기 제1 시계열 데이터 상의 특정 시점에서 제1 구간에 해당하는 기간 이후인 시점을 실제 감염병 확산 시점으로 판정하는 단계를 더 포함하는,
감염병 확산 예측 방법.
9. The method of claim 8,
Further comprising the step of, when the first period and the second period are determined to be the same period, determining a time point after the period corresponding to the first period at a specific time point on the first time series data as an actual time of the infectious disease spread,
Methods for predicting spread of infectious diseases.
하나 이상의 인스트럭션이 저장되는 메모리; 및
상기 저장된 인스트럭션을 실행하는 프로세서를 포함하되,
상기 프로세서는,
데이터 베이스 내에 기 저장된 질병 리스트에 포함된 어느 하나의 질병이 기사 데이터 내에 포함된 기사 제목 텍스트에서 기 설정된 횟수 이상 감지된 경우, 상기 질병의 확산 판정의 대상이 되는 대상 감염병으로 선정하고,
상기 기사 제목 텍스트에 상기 선정된 대상 감염병을 포함하지 않은 기사 데이터를 제외한 후, 상기 기사 데이터 내에 포함되는 기사 내용 텍스트를 수집하고, 상기 수집된 기사 내용 텍스트에서 감염병 키워드를 추출하고,
상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하고,
상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하고,
상기 분석 결과, 상기 제1 시계열 데이터의 패턴과 상기 제2 시계열 데이터의 패턴 간의 공통된 패턴이 감지되면, 상기 대상 감염병이 확산 감염병인 것으로 판정하는 것인,
전자 장치.
A memory in which one or more instructions are stored; And
And a processor for executing the stored instructions,
The processor comprising:
When a disease contained in the disease list previously stored in the database is detected more than a predetermined number of times in the article title text included in the article data,
Collecting the article content text included in the article data after extracting article data that does not include the selected subject infection disease in the article title text, extracting an infectious disease keyword from the collected article content text,
Generates an accumulated number of infectious disease keywords for each specific period as first time series data from a first time point to a second time point,
Analyzing a pattern of the first time series data and a pattern of the previously stored second time series data,
Wherein if the common pattern is detected between the pattern of the first time series data and the pattern of the second time series data as a result of the analysis,
Electronic device.
컴퓨팅 장치와 결합하여 실행되는 경우에, 상기 컴퓨팅 장치가,
데이터 베이스 내에 기 저장된 질병 리스트에 포함된 어느 하나의 질병이 기사 데이터 내에 포함된 기사 제목 텍스트에서 기 설정된 횟수 이상 감지된 경우, 상기 질병의 확산 판정의 대상이 되는 대상 감염병으로 선정하는 단계;
상기 기사 제목 텍스트에 상기 선정된 대상 감염병을 포함하지 않은 기사 데이터를 제외한 후, 상기 기사 데이터 내에 포함되는 기사 내용 텍스트를 수집하고, 상기 수집된 기사 내용 텍스트에서 감염병 키워드를 추출하는 단계;
상기 감염병 키워드의 특정 기간 별 누적 개수를 제1 시점부터 제2 시점까지의 제1 시계열 데이터로 생성하는 단계;
상기 제1 시계열 데이터의 패턴과 기 저장된 제2 시계열 데이터의 패턴을 분석하는 단계; 및
상기 분석 결과, 상기 제1 시계열 데이터의 패턴과 상기 제2 시계열 데이터의 패턴 간의 공통된 패턴이 감지되면, 상기 대상 감염병이 확산 감염병인 것으로 판정하는 단계를 실행시키도록 기록 매체에 저장된,
컴퓨터 프로그램.
When executed in combination with a computing device,
Selecting a target infectious disease to be subjected to the spread judgment of the disease when any disease contained in the disease list previously stored in the database is detected more than a predetermined number of times in the article title text included in the article data;
Collecting article content text included in the article data after excluding article data that does not include the selected subject infection disease in the article title text and extracting an infectious disease keyword from the collected article content text;
Generating a cumulative number of infectious disease keywords for each specific period from first to second time series data;
Analyzing a pattern of the first time series data and a pattern of the previously stored second time series data; And
The method according to any one of claims 1 to 3, further comprising the step of determining that the target infectious disease is a spreading infectious disease when a common pattern is detected between the pattern of the first time series data and the pattern of the second time series data,
Computer program.
KR1020170170011A 2017-12-12 2017-12-12 Method and apparatus for predicting the spread of an infectious disease KR101925506B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170170011A KR101925506B1 (en) 2017-12-12 2017-12-12 Method and apparatus for predicting the spread of an infectious disease

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170170011A KR101925506B1 (en) 2017-12-12 2017-12-12 Method and apparatus for predicting the spread of an infectious disease

Publications (1)

Publication Number Publication Date
KR101925506B1 true KR101925506B1 (en) 2018-12-06

Family

ID=64671543

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170170011A KR101925506B1 (en) 2017-12-12 2017-12-12 Method and apparatus for predicting the spread of an infectious disease

Country Status (1)

Country Link
KR (1) KR101925506B1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148818A (en) * 2020-05-11 2020-12-29 浙江每日互动网络科技股份有限公司 Terminal data processing system
KR102232807B1 (en) * 2020-09-28 2021-03-25 이다은 System for providing infectionus disease management application
CN112712903A (en) * 2021-01-15 2021-04-27 杭州中科先进技术研究院有限公司 Infectious disease monitoring method based on human-computer three-dimensional cooperative sensing
KR20220068735A (en) 2020-11-19 2022-05-26 주식회사 에어딥 Public-private cooperation real-time quarantine management system and method based on early detection of infectious diseases
KR20220068731A (en) 2020-11-19 2022-05-26 주식회사 에어딥 A method for learning a model that detects infectious diseases early in real time by recognizing the spread pattern of infectious diseases
WO2023063528A1 (en) * 2021-10-12 2023-04-20 주식회사 바스젠바이오 Device and method for generating disease onset information by means of disease-related factor analysis based on time variability

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101614736B1 (en) * 2015-05-29 2016-04-29 (주)타파크로스 Web crawling method and system based on prediction of diffusion pattern using text data mining

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101614736B1 (en) * 2015-05-29 2016-04-29 (주)타파크로스 Web crawling method and system based on prediction of diffusion pattern using text data mining

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148818A (en) * 2020-05-11 2020-12-29 浙江每日互动网络科技股份有限公司 Terminal data processing system
CN112148818B (en) * 2020-05-11 2022-09-16 每日互动股份有限公司 Terminal data processing system
KR102232807B1 (en) * 2020-09-28 2021-03-25 이다은 System for providing infectionus disease management application
KR20220068735A (en) 2020-11-19 2022-05-26 주식회사 에어딥 Public-private cooperation real-time quarantine management system and method based on early detection of infectious diseases
KR20220068731A (en) 2020-11-19 2022-05-26 주식회사 에어딥 A method for learning a model that detects infectious diseases early in real time by recognizing the spread pattern of infectious diseases
CN112712903A (en) * 2021-01-15 2021-04-27 杭州中科先进技术研究院有限公司 Infectious disease monitoring method based on human-computer three-dimensional cooperative sensing
WO2023063528A1 (en) * 2021-10-12 2023-04-20 주식회사 바스젠바이오 Device and method for generating disease onset information by means of disease-related factor analysis based on time variability

Similar Documents

Publication Publication Date Title
KR101925506B1 (en) Method and apparatus for predicting the spread of an infectious disease
CN106104496A (en) The abnormality detection not being subjected to supervision for arbitrary sequence
JP2012164318A5 (en)
CN105659263A (en) Sequence identification
JP2017091178A (en) Event analysis device, event analysis system, event analysis method, and event analysis program
US20180005022A1 (en) Method and device for obtaining similar face images and face image information
EP3608802A1 (en) Model variable candidate generation device and method
CN106537387B (en) Retrieval/storage image associated with event
KR20150059208A (en) Device for analyzing the time-space correlation of the event in the social web media and method thereof
CN106202126B (en) A kind of data analysing method and device for logistics monitoring
WO2021056731A1 (en) Log data analysis-based behavior detection method, apparatus, device, and medium
CN111106965A (en) Intelligent log analysis method, tool, equipment and medium for complex system
CN110519263A (en) Anti- brush amount method, apparatus, equipment and computer readable storage medium
CN112214768A (en) Malicious process detection method and device
CN107871055B (en) Data analysis method and device
CN106575254A (en) Log analysis device, log analysis system, log analysis method, and computer program
CN116401311B (en) Three-dimensional visual data management system and method based on GIS
CN107220364B (en) Information processing method and device
CN112631889A (en) Portrayal method, device and equipment for application system and readable storage medium
CN111008114A (en) Disk partition monitoring method, device, equipment and readable storage medium
Eichinski et al. Clustering acoustic events in environmental recordings for species richness surveys
US11854369B2 (en) Multi-computer processing system for compliance monitoring and control
CN110059480A (en) Attack monitoring method, device, computer equipment and storage medium
JP5825915B2 (en) Work man-hour calculating device, work man-hour calculating method, and program
US20190294523A1 (en) Anomaly identification system, method, and storage medium

Legal Events

Date Code Title Description
GRNT Written decision to grant