KR102276761B1 - How to automatically extract information on the cause of disaster - Google Patents

How to automatically extract information on the cause of disaster Download PDF

Info

Publication number
KR102276761B1
KR102276761B1 KR1020200109176A KR20200109176A KR102276761B1 KR 102276761 B1 KR102276761 B1 KR 102276761B1 KR 1020200109176 A KR1020200109176 A KR 1020200109176A KR 20200109176 A KR20200109176 A KR 20200109176A KR 102276761 B1 KR102276761 B1 KR 102276761B1
Authority
KR
South Korea
Prior art keywords
disaster
cause
sentence
keyword
morphemes
Prior art date
Application number
KR1020200109176A
Other languages
Korean (ko)
Inventor
이미란
배병걸
장은서
Original Assignee
대한민국
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국 filed Critical 대한민국
Priority to KR1020200109176A priority Critical patent/KR102276761B1/en
Application granted granted Critical
Publication of KR102276761B1 publication Critical patent/KR102276761B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method for automatically extracting only sentences directly related to a disaster from a plurality of disaster records provided to a computer and, more specifically, to an algorithm building and using a database of a disaster cause information dictionary, which is formed by analyzing and constructing existing disaster records, to search for disaster cause information sentences from disaster records, wherein a disaster cause information automatic extraction technology is a natural language processing technology searching and extracting texts which can become disaster cause information from disaster records. According to the present invention, the method comprises: a disaster cause keyword dictionary construction process using existing disaster records containing disaster keywords to produce a disaster cause keyword dictionary, wherein an original sentence for each disaster keyword is included; a disaster cause keyword dictionary pre-processing process of constructing a database for each disaster keyword by extracting only morphemes from the original sentences for each disaster keyword of the disaster cause keyword dictionary; a disaster record pre-processing process of separating the disaster records to be investigated into sentences and extracting only morphemes from each sentence to construct creates a database for each sentence; and a disaster cause information extraction process of comparing the morphemes of each sentence extracted in the disaster record pre-processing process with the morphemes in all disaster keyword sentences extracted in the disaster cause keyword dictionary pre-processing process to determine the sentence as a sentence related to a disaster when a coincidence rate is higher than a predetermined value.

Description

재난원인 정보를 자동으로 추출하는 방법 {How to automatically extract information on the cause of disaster}{How to automatically extract information on the cause of disaster}

본 발명은 다수의 재난기록물들 중에서 재난원인과 직접 관련된 문장만을 자동으로 추출하기 위한 방법에 관한 것으로,The present invention relates to a method for automatically extracting only sentences directly related to a disaster cause from among a plurality of disaster records,

재난원인정보 자동추출기술이란 재난기록물로부터 재난원인정보가 될 수 있는 문장을 탐색 및 추출하는 자연어 처리 기술로서, 기존 재난기록물을 분석하여 구축한 재난원인키워드 사전을 데이터베이스화하고 이를 활용하여 재난기록물로부터 재난원인정보 문장을 탐색하는 알고리즘에 관한 것이다.Disaster cause information automatic extraction technology is a natural language processing technology that searches and extracts sentences that can become disaster cause information from disaster records. It is about an algorithm that searches for disaster cause information sentences.

보다 상세히 설명드리자면, 먼저 각 재난기록물에서 원문 문장을 활용하여 재난원인키워드 사전을 구축하고, 상기 재난원인키워드 사전의 각 재난 키워드에 대한 원문 문장에서 형태소만을 추출하여 재난 키워드 별 데이터베이스를 구축해준 다음,To explain in more detail, first, a dictionary of disaster cause keywords is constructed using the original sentences in each disaster record, and only morphemes are extracted from the original sentences for each disaster keyword in the disaster cause keyword dictionary to build a database for each disaster keyword. ,

재난기록물 전처리 과정에서 추출된 각 문장의 형태소와, 상기 재난원인키워드 사전의 전처리 과정에서 추출된 모든 재난 키워드 문장에서의 형태소를 비교하여, 일치율이 일정치 이상인 경우에는 그 문장을 재난에 관련된 것으로 판별하게되는 재난원인정보 추출 방법에 관한에 관한 것이다.By comparing the morphemes of each sentence extracted in the disaster record pre-processing process with the morphemes in all disaster keyword sentences extracted in the pre-processing process of the disaster cause keyword dictionary, if the coincidence rate is above a certain value, the sentence is determined to be related to a disaster It relates to the method of extracting disaster cause information.

재난 또는 재해는 주로 이상 자연현상 또는 인위적 사고가 원인이 되어 발생하여 사회적·경제적으로 큰 피해를 주는 것으로, 최근 이상 기후 현상이 지구촌 곳곳에서 발생하고 있는데, 이러한 이상 자연 현상에 의한 재난 원인으로는 폭풍·호우·대설·홍수·해일·지진 등이 있으며, 그 밖의 인위적인 재난 원인으로는 화재·폭발·방사성 물질의 방출, 자동차사고, 선박의 침몰, 항공기의 조난 등이 있다. Disasters or disasters are mainly caused by abnormal natural phenomena or man-made accidents, causing great social and economic damage. Recently, abnormal climate phenomena are occurring all over the world. ·There are heavy rain, heavy snow, floods, tsunamis, and earthquakes, and other man-made disasters include fire, explosion, release of radioactive materials, automobile accidents, sinking of ships, and aircraft distress.

2017년 제천 스포츠 화재, 2018년 밀양 요양병원 화재는 20년 전에 발생한 인천 호프집 화재사고의 불법 증축, 대피로 부재, 스프링클러 미설치, 안전인식 부족 등과 같은 비슷한 원인들로 발생했으며, 많은 사상자와 재산피해가 발생하였다.The 2017 Jecheon Sports Fire and the 2018 Miryang Nursing Hospital Fire occurred due to similar causes such as illegal extension of the Incheon Hope House fire accident that occurred 20 years ago, absence of an evacuation route, no sprinkler installation, and lack of safety awareness. has occurred.

10년이 지나면 강산도 변한다는 말이 무색하게도, 재난에 대해서는 과거와 비슷한 사고가 반복적으로 나타나고 있다. 사회재난은 인위적 과실, 주변 위험요소, 복잡한 사회 및 건물 구조 등으로 발생하거나 확대되는 경우가 많으며, 특히나 유사 재난의 경우 반복적으로 존재하는 원인이 위험요소로써 존재한다. 재난발생 가능성을 관리하고 파악하기 위해서 연구원에서는 선행연구로 과거 재난에 대한 기록물을 수집하고 있으며, 기록물에서 원인을 파악하여 유사 재난 발생 원인을 규명하는 연구를 수행하면서 재난아카이브 및 재난프로파일링 기술을 구축하였다. 유사 재난 분석 기술은 과거 재난에 대한 원인 분석으로 시작되며, 원인 분석을 위해선 과거의 재난 기록물 수집이 우선적으로 진행되어야 한다. Disregarding the saying that rivers and mountains change after 10 years, accidents similar to those of the past are repeatedly occurring in disasters. Social disasters often occur or expand due to man-made negligence, surrounding risk factors, complex social and building structures, etc. In particular, in the case of similar disasters, repetitive causes exist as risk factors. In order to manage and understand the possibility of disasters, the research institute collects records of past disasters as prior research, and establishes disaster archiving and disaster profiling technology while conducting research to identify the causes of similar disasters by identifying the causes from the records. did. Similar disaster analysis technology starts with cause analysis of past disasters, and in order to analyze the causes, the collection of records of past disasters should be carried out first.

따라서 질적·양적의 신뢰성 있는 기록물의 지속적인 수집이 필요하며, 기록물에서 확인한 원인의 표준화를 통해 수집된 기록물의 활용 가능성을 제고해야한다. Therefore, it is necessary to continuously collect qualitative and quantitative reliable records, and to improve the usability of the collected records through standardization of the causes identified in the records.

이러한 측면에서 원인에 대한 정보화·표준화가 필요하다. 수집된 기록물의 원인용어를 표준화하면, 기록물에서 주로 사용되는 원인용어를 체계적으로 관리할 수 있으며 향후 수집이 필요한 기록물 및 기록물 검토 범위를 프로세스화 할 수 있다. 또한 수집한 기록물 유형을 재분류하여 기록물의 체계적 관리가 가능하다. In this respect, it is necessary to informatize and standardize the cause. If the causal terms of the collected records are standardized, the causal terms mainly used in the records can be systematically managed and the scope of records and records review that needs to be collected in the future can be processed. In addition, it is possible to systematically manage records by reclassifying the types of collected records.

기록물 수집과 재난 발생 원인을 규명하는 기술의 활용성 증대를 위해 다양한 재난 및 범주의 기록물 수집 필요성을 충족시키기 위해 재난 원인에 대한 세분화를 통해 원인과 원인, 원인과 결과간의 상관관계, 연관도를 분석하면, 연속된 원인들로 인해 발생하는 재난 발생 패턴을 예측해 볼 수 있으며, 하나의 재난 유형에 국한되지 않고 다른 재난과의 연계성도 고려해 볼 수 있다. To meet the necessity of collecting records of various disasters and categories in order to increase the usability of records collection and techniques to identify the causes of disasters, we analyze the causes and causes, and the correlations and associations between causes and effects by subdividing the causes of disasters. Then, it is possible to predict the pattern of disaster occurrence due to successive causes, and it is possible to consider the linkage with other disasters without being limited to one type of disaster.

또한 기록물을 검토하면서 재난 발생연도, 발생지역, 인명피해 및 재산 피해 정리하여 원인과 함께 재난 정보를 재난 원인정보 추출 기술 개발의 기반 자료로써 제공할 수 있다. In addition, while reviewing the records, it is possible to provide the disaster information along with the cause as a basis for the development of technology for extracting disaster cause information by arranging the year of the disaster, the area where it occurred, and the casualties and damage to property.

즉, 보다 정확한 재난 분석을 위해서는 재난기록물들을 대량으로 수집하여 분석할 필요가 있는데, 재난기록물에 수록된 내용 중 재난원인과 직접 관련된 문장은 소수에 불과하므로, 이를 추출하여 분석하는데 매우 많은 시간이 걸리는 문제점이 있었다.In other words, it is necessary to collect and analyze a large amount of disaster records for a more accurate disaster analysis. Since there are only a few sentences directly related to the cause of the disaster among the contents contained in the disaster records, it takes a very long time to extract and analyze them. there was

특히, 종래의 경우 방대한 재난기록물들에 대한 분석작업이 일일히 연구원의 눈으로 확인하는 수작업에 의존하였으므로, 재난기록물들 중에서 재난과 직접 관련된 문장만을 추출하는 작업이 매우 어렵고 시간 및 비용이 많이 드는 문제점이 있었으며, 이로 인해 2차적으로 재난 분석 및 예방을 위한 작업이 지체되거나 상당한 어려움을 겪게되는 문제점이 있었다.In particular, in the case of the prior art, since the analysis of vast disaster records relied on the manual work of daily checking by researchers, it is very difficult and time-consuming and expensive to extract only the sentences directly related to the disaster from among the disaster records. There was a problem in that the work for disaster analysis and prevention was delayed or suffered considerable difficulties.

특허문헌 1: 대한민국 특허공개공보 제 2013-0010780호Patent Document 1: Korean Patent Publication No. 2013-0010780 특허문헌 2: 대한민국 특허공개공보 제 2013-00434224호Patent Document 2: Korean Patent Publication No. 2013-00434224

따라서, 본 발명은 상기한 종래 기술에 있어서의 문제점을 감안하여 된 것으로, 본 발명의 주요 목적은 재난기록물들을 대량으로 수집하여 분석하고자할 시에 재난과 직접 관련된 문장을 컴퓨터에서 자동 추출할 수 있도록 함으로써, 방대한 재난기록물로부터 재난원인과 관련된 문장을 신속 및 정확하게 분석할 수 있도록 함에 그 목적이 있는 것이다.Therefore, the present invention was made in view of the problems in the prior art, and the main object of the present invention is to automatically extract sentences directly related to disasters from a computer when collecting and analyzing a large amount of disaster records. The purpose of this is to enable rapid and accurate analysis of texts related to the causes of disasters from vast disaster records.

또한, 이로 인해 재난기록물들의 분석작업에 드는 비용 및 시간을 절감하고, 2차적으로는 재난 분석 및 예방을 위한 작업이 지체되거나 어려움을 겪지않도록 함에 또 다른 목적이 있는 것이다.In addition, there is another purpose of this, in that the cost and time required for the analysis of disaster records are reduced, and secondarily, the work for disaster analysis and prevention is not delayed or suffers difficulties.

상기한 목적을 달성하기 위한 본 발명의 재난원인정보를 자동으로 추출하는 방법에서는;In the method for automatically extracting disaster cause information of the present invention for achieving the above object;

재난기록물들 중에서 재난원인과 직접 관련된 문장만을 자동으로 추출하기 위한 방법에 있어서,In the method for automatically extracting only the sentences directly related to the cause of the disaster from among the disaster records,

기존 재난기록물들을 이용하여 재난원인키워드 사전을 제작하되, 각 재난 키워드에 대한 원문 문장이 포함되게하는 재난원인키워드 사전 구축 과정과,A disaster cause keyword dictionary construction process that uses existing disaster records to produce a disaster cause keyword dictionary, but includes the original sentence for each disaster keyword;

상기 재난원인키워드 사전의 각 재난 키워드에 대한 원문 문장에서 형태소만을 추출하여 재난 키워드 별 데이터베이스를 구축해주는 재난원인키워드 사전의 전처리 과정과,A pre-processing process of the disaster cause keyword dictionary that extracts only morphemes from the original sentences for each disaster keyword in the disaster cause keyword dictionary and builds a database for each disaster keyword;

조사대상 재난기록물들을 문장 단위로 분리한 후, 각 문장에서 형태소만을 추출하여 각 문장에 대한 데이터베이스를 만들어주는 재난기록물 전처리 과정과,A disaster record pre-processing process that separates the disaster records to be investigated into sentences, extracts only morphemes from each sentence, and creates a database for each sentence;

상기 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와, 상기 재난원인키워드 사전의 전처리 과정에서 추출된 모든 재난 키워드 문장에서의 형태소를 비교하여, 일치율이 일정치 이상인 경우에는 그 문장을 재난에 관련된 것으로 판별하게되는 재난원인정보 추출과정을 포함한 것을 특징으로 한다.The morphemes of each sentence extracted in the disaster record pre-processing process are compared with morphemes in all disaster keyword sentences extracted in the pre-processing process of the disaster cause keyword dictionary. It is characterized in that it includes the process of extracting the disaster cause information to be determined.

상기 재난원인키워드 사전 구축 과정에서 사전은, 색인 정보, 재난원인키워드와 원인문장 정보를 포함할 수 있다.In the process of constructing the disaster cause keyword dictionary, the dictionary may include index information, disaster cause keyword, and cause sentence information.

상기 재난원인키워드 사전의 전처리 과정에서는, 각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것(원문문장)) 외에도, 각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것(원인명사(원문))과, 각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것(원인명사(정리)) 중 어느 한개 이상을 함께 사용하여 데이터베이스를 구축할 수 있다.In the pre-processing of the disaster cause keyword dictionary, in addition to extracting morphemes from the original sentences for each disaster keyword (original sentence)), only morphemes related to the disaster keywords were extracted from the original sentences for each disaster keyword (cause nouns (original text) )) and extracting only the morphemes related to the disaster keyword for the cause from the original sentence for each disaster keyword (causal nouns (organization)) can be used together to build a database.

상기 재난기록물 전처리 과정에서는, 각 문장에서 추출된 형태소 내용 외에도, 재난원인키워드 사전의 형태소와 일치하는 형태소의 출현 위치에 대한 내용이 함께 수록되도록 각 문장에 대한 데이터베이스를 만들어준다.In the disaster record preprocessing process, in addition to the morpheme content extracted from each sentence, a database is created for each sentence so that the contents of the appearance position of the morpheme matching the morpheme of the disaster cause keyword dictionary are also recorded.

상기 재난원인정보 추출과정에서는, 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와, 상기 재난원인키워드 사전의 전처리 과정에서 추출된 모든 재난 키워드 문장에서의 형태소를 비교하여, 각 문장에서 2개 이상의 형태소가 일치하면서, 일치율(각 문장에서 재난원인키워드사전 형태소와 일치하는 형태소의 수 / 재난원인키워드 사전 해당 문장의 모든 형태소 수)이 0.75를 초과할 경우에는, 그 문장을 재난에 관련된 것으로 판별하게된다.In the disaster cause information extraction process, morphemes of each sentence extracted in the disaster record pre-processing process and morphemes in all disaster keyword sentences extracted in the pre-processing process of the disaster cause keyword dictionary are compared, and two or more morphemes in each sentence When the coincidence rate (the number of morphemes that match the morphemes in the disaster cause keyword dictionary in each sentence / the number of all morphemes in the corresponding sentence in the disaster cause keyword dictionary) exceeds 0.75, the sentence is determined to be related to the disaster. .

한편, 상기 재난원인정보 추출과정에서는, 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와 상기 재난원인키워드 사전의 형태소를 비교하되, Meanwhile, in the disaster cause information extraction process, the morphemes of each sentence extracted in the disaster record preprocessing process are compared with the morphemes of the disaster cause keyword dictionary,

상기 재난원인키워드 사전의 형태소로는 각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것(원문문장) 외에도, 각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것(원인명사(원문))과, 각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것(원인명사(정리)) 중 어느 한개 이상을 함께 비교하고,As morphemes of the disaster cause keyword dictionary, in addition to extracting morphemes from the original sentence for each disaster keyword (original sentence), only morphemes related to the disaster keyword are extracted from the original sentence for each disaster keyword (causal noun (original text)) and, from the original sentence for each disaster keyword, extracting only the morphemes related to the disaster keyword for the cause (causal noun (organization)) are compared together,

어느 한 경우에서라도 일치율이 일정치 이상인 경우에는 그 문장을 재난에 관련된 것으로 판별하게된다.In any case, if the coincidence rate is above a certain value, the sentence is determined to be related to a disaster.

상기 일치율(각 문장에서 재난원인키워드 사전 형태소와 일치하는 형태소의 수 / 재난원인키워드 사전 해당 문장의 모든 형태소 수)이 0.75을 초과하면서 각 문장에서 2개 이상의 형태소가 일치하는 경우에는, 그 문장을 재난에 관련된 것으로 판별하게된다.If the coincidence rate (the number of morphemes matching the morphemes in the disaster cause keyword dictionary in each sentence / the number of all morphemes in the corresponding sentence in the disaster cause keyword dictionary) exceeds 0.75 and two or more morphemes match in each sentence, the sentence determined to be related to the disaster.

본 발명에 따른 재난원인에 대한 정보를 자동으로 추출하는 방법에서는, 재난기록물들을 대량으로 수집하여 분석하고자할 시에 재난과 직접 관련된 문장을 컴퓨터에서 자동 추출할 수 있게되므로, 방대한 재난기록물로부터 재난원인과 관련된 문장을 신속 및 정확하게 분석할 수 있는 것이다.In the method for automatically extracting information on disaster causes according to the present invention, when a large amount of disaster records are to be collected and analyzed, sentences directly related to disasters can be automatically extracted from the computer, It is possible to quickly and accurately analyze related sentences.

또한, 이로 인해 재난기록물들의 분석작업에 드는 비용 및 시간을 절감하고, 2차적으로는 재난 분석 및 예방을 위한 작업이 지체되거나 어려움을 겪지않도록 하는 효과도 있다.In addition, this has the effect of reducing the cost and time required for the analysis of disaster records, and secondarily, preventing delays or difficulties in the work for disaster analysis and prevention.

도 1은 본 발명에 따른 재난원인에 대한 정보를 자동으로 추출하는 방법을 설명하기 위한 흐름도이고,
도 2는 도 1의 과정을 개략적으로 나타낸 도면이고,
도 3은 본 발명에서 재난원인키워드 사전의 전처리 과정을 나타낸 도면이고,
도 4는 본 발명에서 재난기록물 전처리 과정을 나타낸 도면이고,
도 5는 본 발명에서 재난원인정보 추출과정을 나타낸 도면이다.
1 is a flowchart for explaining a method for automatically extracting information on a disaster cause according to the present invention;
Figure 2 is a view schematically showing the process of Figure 1,
3 is a view showing the pre-processing process of the disaster cause keyword dictionary in the present invention,
4 is a view showing the pre-processing of disaster records in the present invention,
5 is a diagram illustrating a process of extracting disaster cause information in the present invention.

이하, 본 발명의 바람직한 실시형태를 첨부된 도면들을 참조하여 보다 상세히 설명하기로 한다. 하지만, 본 발명의 범주가 여기에 한정되는 것이 아님은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. However, it goes without saying that the scope of the present invention is not limited thereto.

본 명세서에서, 본 실시형태는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것으로서, 본 발명의 범주는 단지 청구항에 의해 정의될 뿐이다. 따라서, 몇몇 실시형태들에서, 잘 알려진 구성 요소, 잘 알려진 동작 및 잘 알려진 기술들은 본 발명이 모호하게 해석되는 것을 피하기 위하여 구체적으로 설명되지 않는다.In the present specification, the present embodiment is provided so that the disclosure of the present invention is complete, and is provided to completely inform those of ordinary skill in the art to which the present invention belongs, the scope of the invention, the scope of the present invention is only It is only defined by the claims. Thus, in some embodiments, well-known components, well-known operations, and well-known techniques have not been specifically described in order to avoid obscuring the present invention.

본 명세서에서 사용된 용어들은 실시형태를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 결코 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않은 한 복수형도 포함한다. 또한, '포함(또는, 구비)한다'로 언급된 구성 요소 및 동작은 하나 이상의 다른 구성요소 및 동작의 존재 또는 추가를 배제하지 않는다.The terms used herein are for the purpose of describing the embodiments and are in no way intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. In addition, elements and operations referred to as 'include (or include)' do not exclude the presence or addition of one or more other elements and operations.

재난원인정보 자동추출기술이란 재난기록물로부터 재난원인정보가 될 수 있는 문장을 탐색 및 추출하는 자연어 처리 기술이다. 본 발명에서는 기존 재난기록물을 분석 및 구축한 재난원인키워드 사전을 데이터베이스화하고 이를 활용하여 재난기록물로부터 재난원인정보 문장을 탐색하는 알고리즘을 연구 및 개발하였다.Disaster cause information automatic extraction technology is a natural language processing technology that searches for and extracts sentences that can become disaster cause information from disaster records. In the present invention, an algorithm for searching the disaster cause information sentences from the disaster records by using the database of the disaster cause keyword dictionary analyzed and constructed from the existing disaster records was researched and developed.

본 발명은 컴퓨터에 제공된 다수의 재난기록물들 중에서 재난과 직접 관련된 문장만을 자동으로 추출하기 위한 방법으로서,The present invention is a method for automatically extracting only a sentence directly related to a disaster from among a plurality of disaster records provided to a computer,

도 1, 2에 도시된 바와 같이, 재난 키워드가 포함된 기존 재난기록물들을 이용하여 재난키워드키워드 사전을 제작하되, 각 재난 키워드에 대한 원문 문장이 포함되게하는 키워드 사전 구축 과정과,As shown in FIGS. 1 and 2, a keyword dictionary construction process for producing a disaster keyword dictionary using existing disaster records including disaster keywords, but including the original sentences for each disaster keyword;

상기 재난원인키워드 사전의 각 재난 키워드에 대한 원문 문장에서 형태소만을 추출하여 재난 키워드 별 데이터베이스를 구축해주는 키워드 사전의 전처리 과정과,A pre-processing process of a keyword dictionary for constructing a database for each disaster keyword by extracting only morphemes from the original sentences for each disaster keyword in the disaster cause keyword dictionary;

조사대상 재난기록물들을 문장 단위로 분리한 후, 각 문장에서 형태소만을 추출하여 각 문장에 대한 데이터베이스를 만들어주는 재난기록물 전처리 과정과,A disaster record pre-processing process that separates the disaster records to be investigated into sentences, extracts only morphemes from each sentence, and creates a database for each sentence;

상기 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와, 상기 재난원인키워드 사전의 전처리 과정에서 추출된 모든 재난 키워드 문장에서의 형태소를 비교하여, 일치율이 일정치 이상인 경우에는 그 문장을 재난에 관련된 것으로 판별하게되는 재난원인정보 추출과정으로 구성된다.The morphemes of each sentence extracted in the disaster record pre-processing process are compared with morphemes in all disaster keyword sentences extracted in the pre-processing process of the disaster cause keyword dictionary. It consists of the process of extracting the disaster cause information to be determined.

본 발명을 위해서는 먼저 재난원인키워드 사전 데이터베이스화하는 키워드 사전 구축 과정이 필요한데,For the present invention, it is necessary to first build a keyword dictionary database for disaster cause keyword dictionary.

기구축된 재난원인키워드 사전, 즉 키워드 사전은 아래 표에서와 같이 사고번호 및 기록물번호와 같은 색인 정보, MEPS코드, 재난원인키워드, 원인명사(원문 및 정리), 결과, 원인문장 정보로 구성된다.The established disaster cause keyword dictionary, that is, the keyword dictionary, consists of index information such as accident number and record number, MEPS code, disaster cause keyword, cause noun (original text and arrangement), result, and cause sentence information as shown in the table below. .

Figure 112020090900521-pat00001
Figure 112020090900521-pat00001

이 중에서 재난원인정보의 가치가 크다고 판단되는 재난원인키워드, 원인명사 및 원인문장 정보를 활용하여 데이터베이스를 구축한다.Among them, a database is constructed using information on the cause of disaster keyword, cause noun, and cause sentence, which is judged to be of great value for disaster cause information.

도 1에서, 전처리되어진 재난 키워드 사전의 "원문문장"은 원인문장과 같은 것으로서 원문 그대로의 문장을 말하고, "원인명사(원문)"는 원문문장에서 재난 키워드와 관련된 내용만을 추출한 것이고, "원인명사(정리)"는 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 내용만을 추출한 것으로서,In FIG. 1, the "original sentence" of the pre-processed disaster keyword dictionary is the same as the cause sentence and refers to the original sentence, and the "cause noun (original text)" is extracted from the original sentence only the content related to the disaster keyword, and the "cause noun" (Summary)" is extracted from the original sentence, only the content related to the disaster keyword for the cause,

예를 들어 "원문문장"이 "감염병 위험의 성격이 변화하였음에도 불구하고 우리 방역체계는 전통적인 지표기반의 방역체계에 경도되어 왔음"이라면, "재난 키워드"는 "감염병 인식 미흡"이 되고, "원인명사(원문)"는 "감염병 위험성 변화 대비 전통적 방역체계 고수"가 되고, "원인명사(정리)"는 "전통적 방역체계 고수"가 되며,For example, if "the original sentence" is "despite the change in the nature of infectious disease risk, our quarantine system has been leaning towards the traditional index-based quarantine system", then "disaster keyword" becomes "infectious disease awareness insufficient" and "cause "Noun (original text)" becomes "adherence to the traditional quarantine system in response to changes in infectious disease risk", "causal noun (reorganization)" becomes "adherence to the traditional quarantine system",

"원문문장"이 "공중보건체계의 기초역량(감염병 관리 거버넌스, 병원감염 관리) 부족"이라면, "재난 키워드"는 "역량부족"이 되고, "원인명사(원문)"은 "공중보건체계 기초역량 부족"이 되고, "원인명사(정리)"는 "기초역량 부족"가 되는 것이다.If the “original sentence” is “a lack of basic competencies of the public health system (infectious disease management governance, hospital infection control),” “disaster keyword” becomes “capacity shortage”, and “causal noun (original text)” is “basic public health system basics” “Lack of competency”, and “causal noun (organization)” becomes “lack of basic competency”.

상기 재난원인키워드 사전 구축 과정에서 만들어진 각 재난 키워드에 대한 원문 문장들은 알고리즘에 바로 적용하기 어려운 자연어 상태이므로, 재난기록물 분석에 앞서 사전 데이터베이스를 분석하고 전처리하는 단계를 거친다. Since the original sentences for each disaster keyword created in the process of constructing the disaster cause keyword dictionary are in a natural language state that is difficult to apply directly to the algorithm, the dictionary database is analyzed and pre-processed prior to analyzing the disaster records.

이를 위해 사전 데이터베이스의 각 항목, 즉 재난원인키워드, 원인명사 및 원인문장 정보 중에서 재난원인키워드는 대부분 명사화된 상태이므로 전처리 작업을 요하지 않지만, 원인명사 및 원인문장 등에 대해서는 형태소 분석을 수행하여 정보값이 가장 높은 명사 목록을 만들어 저장한다. (도 3 참조)For this purpose, pre-processing is not required since most of the disaster cause keywords among each item in the dictionary database, namely, disaster cause keyword, cause noun, and cause sentence information are nouns, but morphological analysis is performed on cause nouns and cause sentences to determine the information value. Create and save a list of the highest nouns. (See Fig. 3)

즉, 상기 재난원인키워드 사전의 전처리 과정에서는, 각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것(형태소 추출한 원문문장) 외에도, 각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것(형태소 추출한 원인명사(원문))과, 각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것(형태소 추출한 원인명사(정리)) 중 어느 한개 이상을 함께 사용하여 데이터베이스를 구축해야한다.That is, in the pre-processing process of the disaster cause keyword dictionary, in addition to extracting morphemes from the original sentence for each disaster keyword (the morpheme extracted original sentence), only the morphemes related to the disaster keyword from the original sentence for each disaster keyword were extracted (morphemes) The database should be built using at least one of the extracted causal noun (original text)) and extracts of only the morphemes related to the disaster keyword for the cause from the original sentence for each disaster keyword (the morpheme-extracted causal noun (reorganization)). do.

도 1을 보면, 상기 재난원인키워드 사전의 전처리 과정에서 사전의 "원문문장"이 "감염병 위험의 성격이 변화하였음에도 불구하고 우리 방역체계는 전통적인 지표기반의 방역체계에 경도되어 왔음"이라면, 전처리된 "원문문장", 즉 형태소 추출한 원문문장은 "감염병 / 위험 / 성격 변화 / 방역체계 / 전통적 / 지표"와 같이 되고, 1, in the pre-processing of the disaster cause keyword dictionary, if the "original sentence" of the dictionary is "despite the change in the nature of the infectious disease risk, our quarantine system has been inclined to the traditional index-based quarantine system" "Original sentence", that is, the original sentence extracted from the morphemes becomes like "Infectious disease / risk / personality change / quarantine system / traditional / indicator",

"원인명사(원문)"이 "감염병 위험성 변화 대비 전통적 방역체계 고수"라면, 전처리된 "원인명사(원문)", 즉 형태소 추출한 원인명사(원문)는 "감염병 / 위험성 / 변화 / 대비 / 전통적 / 방역체계 / 고수"와 같이 되고,If the "causal noun (original text)" is "adhering to the traditional quarantine system against changes in the risk of infectious diseases," the preprocessed "causative noun (original text)", that is, the morphologically extracted causative noun (original text) is "infectious disease / risk / change / preparation / traditional / It becomes like "the quarantine system / master",

"원인명사(정리)"가 "전통적 방역체계 고수"라면, 전처리된 "원인명사(정리)", 즉 형태소 추출한 원인명사(정리)는 "전통적 / 방역체계 / 고수"와 같이 되어, "감염병 미흡"이라는 재난 키워드에 대한 데이터베이스가 구축될 것이다.If the "causal noun (reorganization)" is "adhering to the traditional quarantine system", the preprocessed "causal noun (reorganization)", that is, the morphologically extracted causative noun (reorganization) becomes the same as "traditional / quarantine system / adherence", and "infectious disease is insufficient." A database of disaster keywords will be built.

이러한 과정을 반복함으로써 방대한 재난키워드들에 대한 정보가 전처리되어 재난원인키워드 사전으로 구축될 수 있을 것이다.By repeating this process, information on massive disaster keywords can be pre-processed and built into a disaster cause keyword dictionary.

한편, 본 발명의 목적이 재난원인이 될 수 있는 문장을 탐색하는 알고리즘의 개발 및 적용이기 때문에, 입력한 재난기록물을 문장 단위로 분리할 수 있어야 한다. On the other hand, since an object of the present invention is to develop and apply an algorithm for searching for a sentence that can be a cause of a disaster, it should be possible to separate the inputted disaster record into sentences.

본 발명에서는 형태소 분석 결과에 기반하여 규칙 기반의 문장 분리 알고리즘을 설계 및 개발하여 기록물 전처리에 활용하였다. In the present invention, a rule-based sentence separation algorithm was designed and developed based on the result of morpheme analysis and used for pre-processing of records.

재난기록물 전처리 과정에서는 조사대상 재난기록물들을 문장 단위로 분리한 후, 각 문장에서 형태소만을 추출하여 각 문장에 대한 데이터베이스를 만들어주게되는데, 분리된 문장은 문장 원문, 형태소 분석 결과, 기록물에서의 출현 위치, 원인 문장 여부 및 기타 관련 정보 등의 구조로 저장된다. (도 4 참조)In the disaster record pre-processing process, the disaster records to be investigated are separated into sentences, and only morphemes are extracted from each sentence to create a database for each sentence. The separated sentences are the original sentence, the result of morpheme analysis, and the location of appearance in the records. , whether the cause sentence and other related information are stored in the structure. (See Fig. 4)

상기 재난기록물 전처리 과정에서는, 각 문장에서 추출된 형태소 내용 외에도, 재난원인키워드 사전의 형태소와 일치하는 형태소의 출현 위치에 대한 내용이 함께 수록되도록 각 문장에 대한 데이터베이스를 만들어준다.In the disaster record preprocessing process, in addition to the morpheme content extracted from each sentence, a database is created for each sentence so that the contents of the appearance position of the morpheme matching the morpheme of the disaster cause keyword dictionary are also recorded.

예를 들어 도 1에서와 같이, 분석하기 위한 재난기록물 내용이 "사물인터넷(Internet of Things)은 단어의 뜻 그대로 ‘사물들(things)’이 ‘서로 연결된(Internet)’ 것 혹은 ‘사물들로 구성된 인터넷’을 의미한다. 기존의 인터넷이 컴퓨터나 무선 인터넷이 가능했던 휴대전화들이 서로 연결되어 구성되었던 것과는 달리, 사물인터넷은 책상, 자동차, 가방, 나무, 애완견 등 세상에 존재하는 모든 사물이 연결되어 구성된 인터넷이다. 그래서 세상에 존재하는 유형 혹은 무형의 객체들이 다양한 방식으로 서로 연결되어 개별 객체들이 제공하지 못했던 새로운 서비스 제공 가능하다. 그외 각종 센서? 통하여 재난발생 감지, 대응 확산 예방 등 다양하게 활용이 가능한 기술 제공이 가능하다."인 경우,For example, as in FIG. 1 , the content of the disaster record for analysis is “Internet of Things,” as the meaning of the word, 'things' are 'interconnected (Internet)' or 'things'. Unlike the existing Internet, in which computers and mobile phones capable of wireless Internet are connected to each other, the Internet of Things is connected to all objects in the world, such as desks, cars, bags, trees, and pets. It is a structured Internet, so tangible or intangible objects existing in the world are connected to each other in various ways, so that it is possible to provide new services that individual objects could not provide. In addition, various sensors can be used to detect disaster occurrence, prevent the spread of response, etc. Technology can be provided."

재난기록물 전처리 과정에서 먼저 "사물인터넷(Internet of Things)은 단어의 뜻 그대로 ‘사물들(things)’이 ‘서로 연결된(Internet)’ 것 혹은 ‘사물들로 구성된 인터넷’을 의미한다"라는 문장과, ".기존의 인터넷이 컴퓨터나 무선 인터넷이 가능했던 휴대전화들이 서로 연결되어 구성되었던 것과는 달리, 사물인터넷은 책상, 자동차, 가방, 나무, 애완견 등 세상에 존재하는 모든 사물이 연결되어 구성된 인터넷이다."라는 문장과, "그래서 세상에 존재하는 유형 혹은 무형의 객체들이 다양한 방식으로 서로 연결되어 개별 객체들이 제공하지 못했던 새로운 서비스 제공 가능하다."라는 문장과, "그외 각종 센서? 통하여 재난발생 감지, 대응 확산 예방 등 다양하게 활용이 가능한 기술 제공이 가능하다."라는 4개의 문장으로 분리될 수 있을 것이며,In the process of pre-processing disaster records, first, the sentence “Internet of Things” means “things” as the meaning of the word, “Internet” or “Internet composed of things.” , ".Unlike the existing Internet, in which computers and mobile phones capable of wireless Internet are connected to each other, the Internet of Things is an Internet in which all objects in the world are connected, such as desks, cars, bags, trees, and pets. "So, tangible or intangible objects existing in the world are connected to each other in various ways, making it possible to provide new services that individual objects could not provide." and "Other various sensors? It is possible to provide technology that can be used in various ways, such as prevention of spread.”

각 문장에 대해서는 "사물 / 인터넷 / Internet / of / Things /단어 / 뜻 / 그대로..." 와, "기존 / 인터넷 / 컴퓨터 / 무선 / 인터넷 / 서로 / 연결..." 과, "세상 / 존재 / 유형 / 무형 / 객체 ..."와, "센서 / 재난 / 발생 / 감지 / 대응 / 확산 / 예방 ..."의 형태소만을 추출함으로써 각 문장에 대한 데이터베이스를 만들어준다.For each sentence, "Things / Internet / Internet / of / Things / words / meaning / as it is...", "Existing / Internet / Computer / Wireless / Internet / Each other / Connection..." and "World / Existence..." It creates a database for each sentence by extracting only the morphemes of / tangible / intangible / object ..." and "sensor / disaster / occurrence / detection / response / spread / prevention ...".

마지막으로 상기 재난원인정보 추출과정에서는, 재난원인정보 추출을 위해 각 문장 객체에 저장되어 있는 명사 목록, 즉 각 문장에 대한 데이터베이스와, 사전 객체에 저장되어 있는 각 항목별 토큰 목록 즉, 재난원인키워드 사전에 구축된 재난 키워드 별 데이터베이스를 대조하여 출현 여부를 조사한다. Finally, in the disaster cause information extraction process, a list of nouns stored in each sentence object, that is, a database for each sentence, and a list of tokens for each item stored in the dictionary object for extracting disaster cause information That is, the occurrence of disaster keywords is investigated by collating the database for each disaster keyword constructed in advance.

출현 순서는 상관없으며, 대조 결과 사전 항목의 일정 비율 이상이 출현한 경우 원인문장 여부에 참으로 기록한다The order of appearance does not matter, and if more than a certain percentage of the dictionary items appear as a result of the comparison, it is recorded as true in the cause sentence or not.

즉 상기 재난원인정보 추출과정에서는, 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와, 상기 재난원인키워드 사전의 전처리 과정에서 추출된 모든 재난 키워드 문장에서의 형태소를 비교하여, 각 문장에서 2개 이상의 형태소가 일치하면서, 일치율(각 문장에서 재난원인키워드 사전 형태소와 일치하는 형태소의 수 / 재난원인키워드 사전 해당 문장의 모든 형태소 수)이 일정치를 초과할 경우에는, 그 문장을 재난에 관련된 것으로 판별하게된다.That is, in the disaster cause information extraction process, morphemes of each sentence extracted in the disaster record preprocessing process and morphemes in all disaster keyword sentences extracted in the preprocessing process of the disaster cause keyword dictionary are compared, and two or more in each sentence If the morphemes match and the coincidence rate (the number of morphemes that match the morphemes in the disaster cause keyword dictionary in each sentence / the number of all morphemes in the corresponding sentence in the disaster cause keyword dictionary) exceeds a certain value, the sentence is determined to be related to a disaster will do

예를 들어, 도 1에서 재난기록물 전처리 과정에서 추출된 각 문장의 형태소가 제1 문장의 경우 "사물 / 인터넷 / Internet / of / Things /단어 / 뜻 / 그대로"이고, 제2 문장의 경우 "기존 / 인터넷 / 컴퓨터 / 무선 / 인터넷 / 서로 / 연결"이고, 제3 문장의 경우 "세상 / 존재 / 유형 / 무형 / 객체"와, 제4 문장의 경우 "센서 / 재난 / 발생 / 감지 / 대응 / 확산 / 예방"이고, For example, in FIG. 1, the morpheme of each sentence extracted in the pre-processing of the disaster record is "things / Internet / Internet / of / Things / words / meaning / as it is" in the case of the first sentence, and "existing" in the case of the second sentence. / Internet / computer / wireless / Internet / each other / connection", in the third sentence "world / existence / tangible / intangible / object", and in the fourth sentence "sensor / disaster / occurrence / detection / response / spread" / prevention",

상기 재난원인키워드 사전의 전처리 과정에서 추출된 모든 재난 키워드 문장에서의 형태소들과 비교하여 일치되는 부분이,The matching part is compared with the morphemes in all disaster keyword sentences extracted in the pre-processing of the disaster cause keyword dictionary,

제1 문장의 경우 " 사물 / 인터넷 / Internet / of / Things /단어 / 뜻 / 그대로"으로서 총 8개 형태소 중에서 4개가 일치하여 일치율은 0.5이고, In the case of the first sentence, as " things / Internet / Internet / of / Things / words / meaning / as it is", 4 out of 8 morphemes match, so the coincidence rate is 0.5,

제2 문장의 경우 "기존 / 인터넷 / 컴퓨터 / 무선 / 인터넷 / 서로 / 연결 "로서 총 7개 형태소 중에서 5개가 일치하여 일치율은 0.71이며, In the case of the second sentence, as "existing / Internet / computer / wireless / Internet / each other / connection ", 5 of the total 7 morphemes match, so the concordance rate is 0.71,

제3 문장의 경우 "세상 / 존재 / 유형 / 무형 / 객체 "으로서 총 5개 형태소 중에서 1개가 일치하여 일치율은 0.2이며, In the case of the third sentence, as "world / existence / type / intangible / object ", one of the five morphemes matches, so the concordance rate is 0.2,

제4 문장의 경우 " 센서 / 재난 / 발생 / 감지 / 대응 / 확산 / 예방 "로서 총 7개 형태소 중에서 6개가 일치하여 일치율은 0.86인 경우,In the case of the 4th sentence, as " sensor / disaster / occurrence / detection / response / spread / prevention ", 6 out of a total of 7 morphemes match and the agreement rate is 0.86,

각 문장에서 2개 이상의 형태소가 일치하면서, 일치율(각 문장에서 재난원인키워드 사전 형태소와 일치하는 형태소의 수 / 재난원인키워드 사전 해당 문장의 모든 형태소 수)이 일정치, 예를 들어 0.75를 초과한 경우 그 문장을 재난에 관련된 것으로 판별하게된다면. 위 4문장들 중에서는 제2 문장과 제4 문장만이 재난에 직접 관련된 문장으로 추출될 수 있는 것이다.When two or more morphemes match in each sentence, the coincidence rate (the number of morphemes that match the morphemes in the disaster cause keyword dictionary in each sentence / the number of all morphemes in the corresponding sentence in the disaster cause keyword dictionary) exceeds a certain value, for example, 0.75 If it is determined that the sentence is related to the disaster. Of the above four sentences, only the second and fourth sentences can be extracted as sentences directly related to the disaster.

한편, 상기 재난원인정보 추출과정에서는, 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와 상기 재난원인키워드 사전의 형태소를 비교하되, Meanwhile, in the disaster cause information extraction process, the morphemes of each sentence extracted in the disaster record preprocessing process are compared with the morphemes of the disaster cause keyword dictionary,

상기 재난원인키워드 사전의 형태소로는 각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것(형태소 추출한 원문문장) 외에도, 각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것(형태소 추출한 원인명사(원문))과, 각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것(형태소 추출한 원인명사(정리)) 중 어느 한개 이상을 함께 비교하고,As morphemes of the disaster cause keyword dictionary, in addition to extracting morphemes from the original sentence for each disaster keyword (the morpheme-extracted original sentence), only the morphemes related to the disaster keyword from the original sentence for each disaster keyword were extracted (the morpheme-extracted cause noun) (original text)) and extracting only the morphemes related to the disaster keyword for the cause from the original sentence for each disaster keyword (the morpheme-extracted causal noun (summary)),

어느 한 경우에서라도 일치율이 일정치 이상인 경우에는 그 문장을 재난에 관련된 것으로 판별할 수 있을 것이다.In either case, if the coincidence rate is above a certain value, the sentence may be determined as related to a disaster.

상기 재난원인키워드 사전의 형태소로는 각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것(형태소를 추출한 원문문장), 예를 들어 "감염병 / 위험 / 성격 / 변화 / 방역체계 /정통적 / 지표" 이고,The morpheme of the disaster cause keyword dictionary is a morpheme extracted from the original sentence for each disaster keyword (original sentence from which the morpheme is extracted), for example, "infectious disease / risk / personality / change / quarantine system / orthodox / indicator",

각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것(형태소 추출한 원인명사(원문)), 예를 들어 "감염병 / 위험성 / 변화 / 대비 / 전통적 / 방역체계"이고,Extracting only the morphemes related to the disaster keyword from the original sentence for each disaster keyword (the morpheme-extracted causal noun (original text)), for example, "infectious disease / risk / change / preparedness / traditional / quarantine system",

각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것(형태소 추출한 원인명사(정리)), 예를 들어 "전통적 / 방역체계 / 고수" 일 것인데,Extracting only the morphemes related to the disaster keyword for the cause from the original sentence for each disaster keyword (the morpheme-extracted causal noun (organization)), for example, “traditional / quarantine system / adherence”,

재난기록물 전처리 과정에서 추출된 각 문장의 형태소와 이들을 각각 비교하여. 예를 들어 제1 문장의 경우 상기 재난원인키워드 사전의 형태소를 비교하여 "형태소 추출한 원인명사(원문)"(각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것)과의 일치율이 일정치를 초과하고, "형태소 추출한 원인명사(정리)"(각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것)와의 일치율은 일정치 미만이며, "형태소 추출한 원문문장"(각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것)과의 일치율은 일정치를 초과하였다면, "제1 문장(○,×,○)"으로 표시할 수 있고, "형태소 추출한 원문문장"과 "형태소 추출한 원인명사(원문)"에서의 일치율이 일정치 이상이므로, 제1 문장을 재난에 관련된 것으로 판별할 수 있을 것이다.By comparing the morphemes of each sentence extracted in the disaster record preprocessing process and each of them. For example, in the case of the first sentence, by comparing morphemes in the disaster cause keyword dictionary, the coincidence rate with "the morpheme-extracted cause noun (original text)" (only the morphemes related to the disaster keyword are extracted from the original sentence for each disaster keyword) is 1 Exceeding the politics, the coincidence rate with "the morpheme-extracted causal noun (reorganization)" (only the morphemes related to the disaster keyword for the cause are extracted from the original sentence for each disaster keyword) is less than a certain value, and the "Original sentence with morpheme extraction" If the coincidence rate with (the morpheme extracted from the original sentence for each disaster keyword) exceeds a certain value, it can be expressed as “first sentence (○,×,○)”, and “the original sentence with morpheme extracted” and “ Since the coincidence rate in "the morpheme-extracted causal noun (original text)" is above a certain value, it will be possible to determine the first sentence as related to disaster.

또한, 제2 문장의 경우 상기 재난원인키워드 사전의 형태소를 비교하여 "형태소 추출한 원인명사(원문)"(각 재난 키워드에 대한 원문 문장에서 재난 키워드와 관련된 형태소만을 추출한 것)과, "형태소 추출한 원인명사(정리)"(각 재난 키워드에 대한 원문 문장에서 그 원인에 대한 재난 키워드와 관련된 형태소만을 추출한 것)와, "형태소 추출한 원문문장"(각 재난 키워드에 대한 원문 문장에서 형태소를 추출한 것)과의 일치율이 모두 일정치 미만이라면, "제2 문장(×,×,×)"으로 표시할 수 있고, 어느 한 경우에서라도 일치율이 일정치 미만이므로, 제2 문장은 재난에 관련되지않은 것으로 판별할 수 있을 것이다.In addition, in the case of the second sentence, by comparing the morphemes of the disaster cause keyword dictionary, "the morpheme-extracted cause noun (original text)" (only morphemes related to the disaster keyword are extracted from the original sentence for each disaster keyword) and "the cause of the morpheme extraction" Noun (organization)" (extracting only morphemes related to the disaster keyword for the cause from the original sentence for each disaster keyword) and "Original sentence extracted from morphemes" (extracting morphemes from the original sentence for each disaster keyword) and If the concordance rate of all of the above is less than a certain value, it can be expressed as “second sentence (×, ×, ×)”, and in any case, since the coincidence rate is less than a certain value, the second sentence can be determined as not related to a disaster. will be able

바람직하기로는, 상기 일치율(각 문장에서 재난원인키워드 사전 형태소와 일치하는 형태소의 수 / 재난원인키워드 사전 해당 문장의 모든 형태소 수)이 0.75을 초과하면서 각 문장에서 2개 이상의 형태소가 일치하는 경우, 그 문장을 재난에 관련된 것으로 판별할 수 있다.Preferably, when the coincidence rate (the number of morphemes matching the morpheme of the disaster cause keyword dictionary in each sentence / the number of all morphemes in the corresponding sentence in the disaster cause keyword dictionary) exceeds 0.75, two or more morphemes in each sentence match, The sentence can be identified as related to the disaster.

이상 설명한 바와 같이 본 발명에 따른 재난원인에 대한 정보를 자동으로 추출하는 방법에서는, 재난기록물들을 대량으로 수집하여 분석하고자할 시에 재난과 직접 관련된 문장을 컴퓨터에서 자동 추출할 수 있게되므로, 방대한 재난기록물로부터 재난원인과 관련된 문장을 신속 및 정확하게 분석할 수 있다.As described above, in the method for automatically extracting information on the cause of a disaster according to the present invention, when a large amount of disaster records are to be collected and analyzed, sentences directly related to the disaster can be automatically extracted from the computer. It is possible to quickly and accurately analyze sentences related to disaster causes from records.

또한, 이로 인해 재난기록물들의 분석작업에 드는 비용 및 시간을 절감하고, 2차적으로는 재난 분석 및 예방을 위한 작업이 지체되거나 어려움을 겪지않도록 하는 효과도 있는 것이다.In addition, this has the effect of reducing the cost and time required for the analysis of disaster records, and secondarily, preventing delays or difficulties in the work for disaster analysis and prevention.

본 발명의 기술적 사상은 바람직한 실시형태에서 구체적으로 기술되었으나, 상기한 실시형태는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 명백한 것이며, 따라서 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.Although the technical idea of the present invention has been specifically described in the preferred embodiment, it should be noted that the above-described embodiment is for the description and not the limitation. It is obvious to those skilled in the art that various changes and modifications can be made within the scope of the technical spirit of the present invention, and therefore, it is natural that such variations and modifications fall within the scope of the appended claims.

Claims (7)

컴퓨터에 제공된 다수의 재난기록물들 중에서 재난과 직접 관련된 문장만을 자동으로 추출하기 위한 방법에 있어서,
재난 키워드가 포함된 기존 재난기록물들을 이용하여 재난원인키워드 사전을 제작하되, 각 재난 키워드에 대한 "원문문장"과, 상기 원문문장에서 재난 키워드와 관련된 내용만을 추출한 "원인명사(원문)"과, 상기 원문문장에서 그 원인에 대한 재난 키워드와 관련된 내용만을 추출한 "원인명사(정리)"가 포함되게하는 재난원인키워드 사전 구축 과정과,
상기 재난원인키워드 사전의 각 재난 키워드에 대한 "원문문장", "원인명사(원문)", "원인명사(정리)"에서 각각 형태소만을 추출하여 재난 키워드 별 데이터베이스를 구축해주는 재난원인키워드 사전의 전처리 과정과,
조사대상 재난기록물들을 문장 단위로 분리한 후, 각 문장에서 형태소만을 추출하여, 각 문장의 출현위치와 함께 문장에 대한 데이터베이스를 만들어주는 재난기록물 전처리 과정과,
상기 재난기록물 전처리 과정에서 추출된 각 문장의 형태소와, 상기 재난원인키워드 사전의 전처리 과정에서 재난 키워드에 대한 "원문문장", "원인명사(원문)", "원인명사(정리)"에서 각각 추출되어진 형태소를 비교하여, 상기 재난기록물 전처리 과정에서 추출된 각 문장 형태소와의 일치율(일치되는 형태소 수 / 전체 형태소 수)이 상기 "원문문장", "원인명사(원문)", "원인명사(정리)"에서 추출되어진 형태소들 중에서 어느 한 경우에서라도 일정치 이상인 경우에는 그 문장을 재난에 관련된 것으로 판별하게되는 재난원인정보 추출과정을 포함한 것을 특징으로 하는 재난원인 정보를 자동으로 추출하는 방법.
In a method for automatically extracting only a sentence directly related to a disaster from among a plurality of disaster records provided to a computer,
Prepare a dictionary of disaster cause keywords using existing disaster records containing disaster keywords, but the "original text" for each disaster keyword, and "cause nouns (original text)" which extracts only the content related to the disaster keywords from the original text, A disaster cause keyword dictionary construction process to include a "cause noun (organization)" that extracts only the content related to the disaster keyword for the cause from the original sentence;
Pre-processing of the disaster cause keyword dictionary that constructs a database for each disaster keyword by extracting only morphemes from each of the "original sentence", "causal noun (original text)", and "causal noun (organization)" for each disaster keyword in the disaster cause keyword dictionary process and
A disaster record pre-processing process that separates the disaster records to be investigated into sentences, extracts only morphemes from each sentence, and creates a database for the sentences along with the appearance position of each sentence;
The morpheme of each sentence extracted in the pre-processing of the disaster record, and the “original sentence”, “noun of cause (original text)”, and “noun of cause (organization)” for the disaster keyword in the pre-processing process of the disaster cause keyword dictionary are extracted, respectively. By comparing the morphemes, the matching rate (number of matching morphemes / total number of morphemes) with each sentence morpheme extracted in the pre-processing of the disaster record is determined by the "original sentence", "noun of cause (original text)", "noun of cause (reorganization)")", a method of automatically extracting disaster cause information, characterized in that it includes a disaster cause information extraction process that determines that the sentence is related to a disaster if it exceeds a certain value in any one of the morphemes extracted from the morphemes.
제 1항에 있어서,
상기 재난원인키워드 사전 구축 과정에서 키워드 사전은, 색인 정보, 재난원인키워드와 원인문장 정보를 포함하는 것을 특징으로 하는 재난원인 정보를 자동으로 추출하는 방법.
The method of claim 1,
In the process of constructing the disaster cause keyword dictionary, the keyword dictionary automatically extracts disaster cause information, characterized in that it includes index information, disaster cause keyword and cause sentence information.
삭제delete 삭제delete 삭제delete 삭제delete 제 1항에 있어서,
상기 재난원인정보 추출과정에서는, 상기 일치율이 0.75를 초과하면서 각 문장에서 2개 이상의 형태소가 일치하는 경우에는, 그 문장을 재난에 관련된 것으로 판별하게되는 것을 특징으로 하는 재난원인 정보를 자동으로 추출하는 방법.
The method of claim 1,
In the disaster cause information extraction process, when two or more morphemes in each sentence match while the coincidence rate exceeds 0.75, the sentence is determined to be related to a disaster. Way.
KR1020200109176A 2020-08-28 2020-08-28 How to automatically extract information on the cause of disaster KR102276761B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200109176A KR102276761B1 (en) 2020-08-28 2020-08-28 How to automatically extract information on the cause of disaster

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200109176A KR102276761B1 (en) 2020-08-28 2020-08-28 How to automatically extract information on the cause of disaster

Publications (1)

Publication Number Publication Date
KR102276761B1 true KR102276761B1 (en) 2021-07-13

Family

ID=76858509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200109176A KR102276761B1 (en) 2020-08-28 2020-08-28 How to automatically extract information on the cause of disaster

Country Status (1)

Country Link
KR (1) KR102276761B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102396771B1 (en) * 2021-12-15 2022-05-16 대한민국 A method for extracting disaster cause automatically

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130010780A (en) 2011-07-19 2013-01-29 유한회사남도향빈 Method for preparing of cheonggukjang pills and cheonggukjang pills prepared by the method
KR20130043424A (en) 2011-10-20 2013-04-30 주식회사 페이컴스 Payment monitoring system linked with banking system and controlling method for the same
KR20170060958A (en) * 2015-11-25 2017-06-02 고려대학교 산학협력단 Method and system for preventing bank fraud
KR20170062564A (en) * 2015-11-27 2017-06-08 한국식품연구원 Method, Apparatus for Food Safety Data Analysis Based on Big Data, And a Computer-readableStorage Medium for executing the Method
KR20170077397A (en) * 2015-12-28 2017-07-06 한국과학기술원 Method of automatically extracting food safety event in real time from news and social networking service data
KR20190124403A (en) * 2018-04-26 2019-11-05 대한민국(행정안전부 국립재난안전연구원장) System And Method For Extracting Attribute Data of Disaster

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130010780A (en) 2011-07-19 2013-01-29 유한회사남도향빈 Method for preparing of cheonggukjang pills and cheonggukjang pills prepared by the method
KR20130043424A (en) 2011-10-20 2013-04-30 주식회사 페이컴스 Payment monitoring system linked with banking system and controlling method for the same
KR20170060958A (en) * 2015-11-25 2017-06-02 고려대학교 산학협력단 Method and system for preventing bank fraud
KR20170062564A (en) * 2015-11-27 2017-06-08 한국식품연구원 Method, Apparatus for Food Safety Data Analysis Based on Big Data, And a Computer-readableStorage Medium for executing the Method
KR20170077397A (en) * 2015-12-28 2017-07-06 한국과학기술원 Method of automatically extracting food safety event in real time from news and social networking service data
KR20190124403A (en) * 2018-04-26 2019-11-05 대한민국(행정안전부 국립재난안전연구원장) System And Method For Extracting Attribute Data of Disaster

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김태우 외 3인, 재난원인정보 D-아카이브 시스템 구축방안, 대한공간정보학회 학술대회, 2017.5, 15-16페이지. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102396771B1 (en) * 2021-12-15 2022-05-16 대한민국 A method for extracting disaster cause automatically

Similar Documents

Publication Publication Date Title
US9679045B2 (en) Establishing and querying methods of knowledge library engine based on emergency management
Endarnoto et al. Traffic condition information extraction & visualization from social media twitter for android mobile application
JP3099756B2 (en) Document processing device, word extraction device, and word extraction method
US7295967B2 (en) System and method of analyzing text using dynamic centering resonance analysis
CN111723215A (en) Device and method for establishing biotechnological information knowledge graph based on text mining
KR101671740B1 (en) Apparatus and method for extracting topics
JP2015121897A (en) Scenario generation device, and computer program for the same
CN104137097A (en) Predicate template gathering device, specified phrase pair gathering device and computer program for said devices
JP5907393B2 (en) Complex predicate template collection device and computer program therefor
JP2015121896A (en) Phrase pair gathering device, and computer program for the same
CN111611399A (en) Information event mapping system and method based on natural language processing
KR20220064016A (en) Method for extracting construction safety accident based data mining using big data
KR102396771B1 (en) A method for extracting disaster cause automatically
WO2023098658A1 (en) Text cohesion determination method and apparatus, and electronic device and storage medium
CN112434532A (en) Power grid environment model supporting man-machine bidirectional understanding and modeling method
KR102276761B1 (en) How to automatically extract information on the cause of disaster
CN112328792A (en) Optimization method for recognizing credit events based on DBSCAN clustering algorithm
CN114138979B (en) Cultural relic safety knowledge map creation method based on word expansion unsupervised text classification
CN111177401A (en) Power grid free text knowledge extraction method
KR20220068937A (en) Standard Industrial Classification Based on Machine Learning Approach
CN112183093A (en) Enterprise public opinion analysis method, device, equipment and readable storage medium
CN113901815B (en) Emergency working condition event detection method based on dam operation log
Onnoom et al. An ontology framework for recommendation about a crime scene investigation
Acosta et al. Characterization of disaster related tweets according to its urgency: a pattern recognition
KR101713612B1 (en) Intelligent Storytelling Support System

Legal Events

Date Code Title Description
GRNT Written decision to grant