KR20190124403A - 재난속성정보 추출 시스템 및 방법 - Google Patents

재난속성정보 추출 시스템 및 방법 Download PDF

Info

Publication number
KR20190124403A
KR20190124403A KR1020180048322A KR20180048322A KR20190124403A KR 20190124403 A KR20190124403 A KR 20190124403A KR 1020180048322 A KR1020180048322 A KR 1020180048322A KR 20180048322 A KR20180048322 A KR 20180048322A KR 20190124403 A KR20190124403 A KR 20190124403A
Authority
KR
South Korea
Prior art keywords
predicate
disaster
predicates
information extraction
news
Prior art date
Application number
KR1020180048322A
Other languages
English (en)
Other versions
KR102111609B1 (ko
Inventor
김도우
김양수
이종설
Original Assignee
대한민국(행정안전부 국립재난안전연구원장)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(행정안전부 국립재난안전연구원장) filed Critical 대한민국(행정안전부 국립재난안전연구원장)
Priority to KR1020180048322A priority Critical patent/KR102111609B1/ko
Publication of KR20190124403A publication Critical patent/KR20190124403A/ko
Application granted granted Critical
Publication of KR102111609B1 publication Critical patent/KR102111609B1/ko

Links

Images

Classifications

    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Alarm Systems (AREA)

Abstract

본 발명은 재난속성정보 추출 시스템 및 방법에 관한 것으로 보다 상세하게는 네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부, 상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부 및 상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부로 구성된 재난속성정보 추출 시스템을 이용하여 각 뉴스의 국문 텍스트를 수집하는 데이터 수집 단계와 상기 술어 감지부에 의하여 상기 수집된 뉴스의 국문 텍스트 중 술어를 감지하는 술어 감지 단계 및 상기 일치된 술어에 연관된 텍스트의 속성정보를 추출하는 속성정보 추출 단계로 구성되는 재난속성정보 추출 방법으로 특히, 재난관련 뉴스에 특화되어 불필요한 문장 분석을 수행하지 않으므로 보다 신속하고 정확한 속성정보를 파악할 수 있는 장점이 있다.

Description

재난속성정보 추출 시스템 및 방법{System And Method For Extracting Attribute Data of Disaster}
본 발명은 재난속성정보 추출 시스템 및 방법으로 보다 상세하게는 재난관련 분야의 뉴스 문장의 형태소 분석을 통하여 정확한 재난속성정보를 추출하는 재난속성정보 추출 시스템 및 방법에 관한 것이다.
일반적으로 재난이란 국민의 생명·신체 및 재산과 국가에 피해를 주거나 줄 수 있는 것으로서 태풍, 홍수, 호우, 폭풍, 폭설, 가뭄, 지진, 황사 등과 같은 자연현상으로 인하여 발생하는 재해, 화재·붕괴·폭발·교통사고·환경오염사고 등 이와 유사한 사고로 대통령령이 정하는 규모 이상의 피해 등 국가기반체계의 마비와 전염병 확산 등으로 인한 피해를 말하며, 보다 넓은 의미로는 사람의 실수 또는 부주의나 고의로 일어난 사고도 재난으로 보아 인재 사고라고 표현하기도 한다.
이러한 재난에 의하여 발생되는 사회적 문제는 인적 피해는 물론, 교통, 통신, 에너지, 금융, 의료, 경제 등 국가의 전반적인 기반체계의 마비와 수 많은 재산 피해를 수반한다.
한편, 이러한 재난 발생 시 정부 및 지방 자치단체에서 해당 지역의 거주민이나 체류자들에게 다양한 통신수단과 방송 등을 통하여 재난 정보를 전달하며 특히, 2013년 이후로 휴대폰에 긴급재난문자방송 수신 기능이 의무적으로 탑재되어 국민안전처에서는 휴대폰으로 긴급재난문자를 발송하는 등, 다양한 방안들이 활발히 시행, 연구개발되고 있다.
이와 같은 취지의 예로 대한민국 공개특허공보 제2017-0027113호에 재난 정보 데이터를 무선 통신 단말기의 사용자에게 제공하기 위해 무선 접속연결 상태를 강제로 해제하고 재 연결을 위한 과정 중에 재난 정보와 같은 데이터를 제공하여 무선 인터넷을 사용중이였던 사용자는 무선 인터넷 연결을 위한 재 접속 과정에서 반드시 재난 정보 데이터를 확인하게 하는 재난 정보 제공 서버 및 무선 접속 단말기를 포함하는 재난 정보 제공 시스템이 공지되어 있다.
그러나 이는 재난 정보를 알리는 수단에 관한 기술로 정작 재난관련 분야의 뉴스를 통하여 해당 재난의 속성정보를 정확하게 추출하는 기술과는 상이하다.
상기한 바와 같이 재난 정보를 신속히 알리는 수단과 관련된 기술들은 활발히 연구개발되고 있으나 이와 대비하여 재난관련 분야의 뉴스를 통하여 해당 재난의 속성정보를 정확하게 추출하는 분야의 연구개발은 비교적 덜 활발하여 신속히 정보를 전달할 수 있는 수단의 연구개발에 맞추어 보다 신속하게 정확한 재난 속성정보를 추출할 수 있는 수단이나 방법에 대한 연구개발의 중요성이 대두되고 있다.
대한민국 공개특허 제2017-0027113호
본 발명은 상술한 문제점을 개선하기 위하여 안출된 것으로 수 많은 뉴스의 텍스트 정보를 이용하여 보다 신속하고 정확한 뉴스 관련 속성정보를 추출하되 특히, 재난관련 사고 속성정보 추출에 최적화된 재난속성정보 추출 시스템 및 방법을 제공하는 것이다.
또한, 본 발명은 추출된 재난사고 속성정보를 통하여 다양한 분류, 통계를 수행하고 이를 시각화하여 해당 정보를 다양한 분야 연구에 활용할 수 있도록 하는 것이다.
본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예들을 통하여 보다 명확해 질 것이다.
본 발명의 일측면에 따르면, 네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부와 상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부 및 상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부를 포함하는 재난정보 추출 시스템이며, 특히, 상기 테이터 수집부는 재난관련 뉴스 데이터를 수집하는 것을 특징으로 한다.
본 발명의 다른 측면에 따르면, 상기 데이터 수집부는 수집된 뉴스 데이터를 컴퓨터가 인식할 수 있는 형태로 변환하는 텍스트 전처리부를 더 포함할 수 있으며, 상기 텍스트 전처리부는 뉴스의 국문 텍스트를 형태소 분류를 기준으로 구문 패턴화한다. 그리고, 상기 술어 감지부는 술어 데이터베이스를 더 포함하며 상기 술어 데이터베이스에 구축된 술어와 뉴스 데이터의 술어를 대비하되, 술어가 일치하는 경우 해당 술어가 포함된 문장을 대상으로 속성정보 추출부가 구동하도록 구성할 수 있으며, 상기 술어 데이터베이스는 동사형 술어와 명사형 술어가 각각 분류되어 형성된다.
본 발명의 또 다른 측면에 따르면, 상기 속성정보 추출부는 사고 정보의 순번, 사고가 발생한 지자체 또는 장소, 문장 내 단위를 동반한 숫자에 대한 정보, 피해대상과 사고종류, 사고 유형의 속성정보를 추출하며, 상기 술어 데이터베이스에 동사형 술어는 종결어미를 제외한 동사원형이, 명사형 술어는 술어 내 포함된 명사가 각각 저장되며, 상기 속성정보 추출부에서 추출된 재난 속성정보를 집계하여 시각화하는 속성정보 처리부를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 재난속성정보 추출 방법에 있어서, 상기 재난속성정보 추출 방법은 재난속성정보 추출 시스템에 의하여 수행되며, 상기 재난속성정보 추출 시스템은 네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부, 상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부 및 상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부를 포함하고, 상기 재난속성정보 추출 방법은 상기 데이터 수집부에 의하여 뉴스 데이터를 수집하되, 각 뉴스의 국문 텍스트를 수집하는 데이터 수집 단계와 상기 술어 감지부에 의하여 상기 수집된 뉴스의 국문 텍스트 중 술어를 감지하는 술어 감지 단계 및 상기 일치된 술어에 연관된 텍스트의 속성정보를 추출하는 속성정보 추출 단계를 포함하되, 상기 뉴스 데이터는 재난관련 뉴스 데이터인 것을 특징으로 한다.
본 발명의 또 다른 측면에 따르면, 상기 재난속성정보 추출 시스템은 텍스트 전처리부를 더 포함하여, 상기 텍스트 전처리부에 의하여 상기 데이터 수집 단계에서 수집된 뉴스 데이터를 컴퓨터가 인식할 수 있는 형태로 변환하는 텍스트 전처리 단계를 더 포함할 수 있으며, 상기 재난속성정보 추출 시스템은 술어 데이터베이스를 더 포함하여, 상기 술어 감지 단계에서 상기 수집된 뉴스의 국문 텍스트 중 술어를 술어 데이터베이스 상에 술어와 비교하여 술어 간 일치 여부를 확인하는 것을 특징으로 하며, 상기 재난속성정보 추출 시스템은 속성정보 처리부를 더 포함하여, 상기 속성정보 처리부에 의하여 상기 속성정보 추출 단계에서 추출된 복수 개의 속성정보를 분류 또는 집계하여 시각화하는 속성정보 처리 단계를 더 포함할 수 있다.
본 발명에 따른 재난속성정보 추출 시스템 및 방법은 수 많은 뉴스의 텍스트 정보 중 술어를 트리거로 하여 해당 술어에 따른 사건 속성정보를 추출하는 것으로 불필요한 문장 분석을 수행하지 않으므로 보다 신속하고 정확한 속성정보를 파악할 수 있는 장점이 있다.
이에 따라, 재난관련 사고의 정보를 신속하게 알리는 수단의 활용을 극대화 할 수 있으며, 단순히 해당 재난 사고의 속성정보 파악 그치지 않고 추출된 속성정보를 가공하여 연구, 분석, 정책 수립 등 다양한 분야에 활용할 수 있도록 하는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템의 구성도.
도 2는 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템의 설명을 위한 실제 사례 뉴스 기사.
도 3은 본 발명의 일 실시예에 따른 재난속성정보 추출 방법의 흐름도.
도 4는 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템에 의하여 추출된 재난유형 별 사고 지역별 출현빈도 그래프.
도 5는 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템에 의하여 추출된 태풍관련 뉴스 내 지역별 사고유형 출현빈도 그래프.
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템의 구성도로서 이를 참고하여 본 발명에 따른 재난속성정보 추출 시스템의 구성을 설명하면 하기와 같다.
네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부(10);와 상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부(20); 및 상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부(30);를 포함하는 재난정보 추출 시스템이다.
이때, 상기 뉴스 데이터는 재난관련 뉴스 데이터이며 국문 텍스트로 이루어진 것을 특징으로 하며, 상기 데이터 수집부(10);는 수집된 뉴스 데이터를 컴퓨터가 인식할 수 있는 형태로 변환하는 텍스트 전처리부(11);를 더 포함할 수 있다.
상기한 바와 같이 구성되는 재난정보 추출 시스템은 뉴스 데이터를 구성하는 문장의 술어를 트리거(trigger)로 하여 상기 술어 감지부(20)에서 술어가 감지되면 상기 속성정보 추출부(30)가 구동되어 해당 술어와 연관되어 있는 대상, 장소, 시간 등의 속성정보를 추출하게 된다.
도 2는 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템의 설명을 위한 실제 사례 뉴스 기사로 보다 상세하게는 2016년 10월 5일자 연합뉴스에 실린 재난관련 뉴스로 태풍 차파가 울산 지역에 피해를 일으킨 것을 내용으로 하고 있다.
해당 뉴스를 통하여 비록 태풍이라는 단일 자연재난이지만 다양한 유형의 사고를 유발시킴을 확인할 수 있었으며, 보다 상세하게는 정전, 붕괴, 침수, 교통통제, 등등 총 9개의 사고가 1건의 뉴스 내에 포함되어 있는 것을 알 수 있다. 도 2에 도시되어 있는 해당 뉴스 문장에 ① 내지 ⑨로 분류되는 사고의 주어와 술어를 정리하면 하기의 표 1 실제 사례 재난뉴스 주어, 술어 정리표와 같이 정리될 수 있다.
<실제 사례 재난뉴스 주어, 술어 정리표>
사고수 주어 술어
2천 가구가 정전되고
주택 담장이 무너지는
시내외 외곽 도로가 침수돼
교통이 통제됐다
전선이 끊어지면서
약 2천 가구가 정전됐다
주택 담장이 넘어졌다
주차된 차량 일부가 파손됐다
도로가 침수돼
상기 표 1을 참조하여 9개의 사고 정보를 살펴보면 피해대상은 주로 주어로써 표현되며, 사고의 종류는 술어로써 표현됨을 알 수 있다.
이에 따라, 컴퓨터가 데이터 수집부(10)에서 수집된 뉴스 데이터의 텍스트를 술어 감지부(20)에서 읽다가 재난 사고를 표현하는 술어가 감지되면 속성정보 추출부(30)가 구동되어 해당 술어에 따른 속성정보를 추출하도록 구성된다.
그리고, 상기 텍스트 전처리부(11)는 데이터 수집부(10)에서 수집된 뉴스의 국문 텍스트를 하기의 표 2인 형태소 분류표를 기준으로 적어도 하나 이상의 문장이 각 단어별 형태소가 결합된 구문패턴으로 변환한다.
<형태소 분류표>
대분류 소분류 세분류
체언 명사(NN) 일반명사(NNG)
고유명사(NNP)
의존명사(NNB)
대명사(NP)
수사(NR)
용언 동사(VV)
형용사(VA)
보조용언(VX)
지정사(VC) 긍정지정사(VCP)
부정지정사(VCN)
수식언 관형사(MM)
부사(MA) 일반부사(MAG)
접속부사(MAJ)
독립언 감탄사(IC)
관계언 격조사(JK) 주격조사(JKS)
보격조사(JKC)
관형격조사(JKG)
목적격조사(JKO)
부사격조사(JKB)
호격조사(JKV)
인용격조사(JKQ)
보조사(JX)
접속조사(JC)
의존형태 어미(E) 선어말어미(EP)
종결어미(EF)
연결어미(EC)
명사형전성어미(ETN)
관형형전성어미(ETM)
접두사(XP) 체언접두사(XPN)
접미사(XS) 명사파생접미사(XSN)
동사파생접미사(XSV)
형용사파생접미사(XSA)
어근(XR)
한편, 국문에서 술어는 형태소 구성에 따라 크게 2가지로 분류될 수 있다.
첫 번째는 동사(VV)와 선어말 어미(EP), 연결어미(EC), 종결어미(EF) 등이 결합한 동사형 술어이다.
두 번째는 일반명사(NNG)에 동사형 파생 접미사(XSV), 연결어미(EC), 종결어미(EF) 등이 결합한 명사형 술어이다.
예를 들어, '죽었음'에 대한 표현을 동사형 술어로는 '숨져', '숨지고', '숨졌으며', '숨졌고', 숨졌다' 등으로 표현할 수 있으며, 명사형 술어로는 '사망해', '사망하고', 사망했으며', '사망했고', 사망했다' 등으로 표현할 수 있으며, 이는 하기의 '죽었음'에 대한 술어 구문패턴 예시표인 표 3과 같이 '죽었음'에 대한 각 술어는 해당 구문패턴으로 정리될 수 있다.
<'죽었음'에 대한 술어 구문패턴 예시표>
동사형 술어 예시 명사형 술어 예시
VV+EC 숨져 NNG+XSV+EC 사망해
VV_EC 숨지_고 NNG_XSV_EC 사망_하_고
VV+EP+EC 숨졌으며 NNG_XSV+EP+EC 사망_했으며
VV+EP_EC 숨졌_고 NNG_XSV+EP_EF 사망_했_다
VV+EP_EF 숨졌_다
본 발명에서는 재난 사고를 표현하는 술어를 구체화하고 정의하기 위하여 재난관련 뉴스로 분류된 145,200건에 포함된 술어를 모두 추출하여 동사형 술어와 명사형 술어로 구분하였다.
보다 상세하게 살펴보면 재난 사고 뉴스 특성 상 동사형 술어로는 '밝혔다', '했다', '덧붙였다' 등이 가장 많이 출현하고, 그 밖에 '무너져', '다쳤다', '숨졌다' 등 재난 사고를 표현하는 술어도 높은 빈도로 나타나고 있다.
명사형 술어 역시 '말했다', '당부했다', 보도했다' 등이 가장 많이 출현하고, 그 밖에 '충돌했다', '부상했다', '통제됐다' 등 재난 사고와 관련된 술어도 높은 빈도로 출현함을 알 수 있었다.
이에 따라, 동사형 술어로는 총 6가지 유형에 따라 술어 패턴이 추출되었으며, 명사형 술어로는 총 4가지 유형에 따라 술어 패턴이 추출되었다. 그리고 술어 감지부(20)에서 보다 효과적으로 술어 감지를 할 수 있도록, 동사형 술어는 모두 동사 원형으로 치환하며, 명사형 술어로는 술어 내 포함된 명사만을 고려하여 술어 데이터베이스(21)를 구축하였다.
즉, 상기 술어 감지부(20);는 술어 데이터베이스(21)를 더 포함하며 상기 술어 데이터베이스(21)에 구축된 술어와 뉴스 데이터의 술어를 대비하되, 술어가 일치하는 경우 해당 술어가 포함된 문장을 대상으로 속성정보 추출부(30)가 구동하는 것을 특징으로 한다.
그리고 상기 술어 데이터베이스(21)는 동사형 술어와 명사형 술어가 각각 분류되어 형성되는 것을 특징으로 한다.
<재난사고를 표현하는 동사형 술어 내 포함된 동사원형 순위표>
순위 동사원형 순위 동사원형 순위 동사원형 순위 동사원형 순위 동사원형
1 숨지 34 부닺히 67 치어 100 찌그러지 133 벌어지
2 35 묶이 68 할퀴 101 동해 134 녹아내리
3 다치 36 얼어붙 69 내려앉 102 불타 135 흘러넘치
4 잠기 37 치이 70 103 흔들리 136 앞지르
5 무너지 38 잇따르 71 얼룩지 104 137 무너뜨리
6 쏟아지 39 깨지 72 부수 105 거치 138 일그러지
7 휩쓸리 40 부러지 73 106 말라죽 139 바닥나
8 빠지 41 드러내 74 찢어지 107 불거지 140 덮이
9 떨어지 42 매달리 75 기울어지 108 갈라지 141 어긋나
10 덮치 43 부딪치 76 물리 109 142 에워싸
11 태우 44 떠내려가 77 훔치 110 허물어지 143 뒤엉기
12 45 옮기 78 뒤덮이 111 퍼붓 144 엉키
13 끊기 46 휩쓸 79 쌓이 112 들려오 145 밀어내
14 쓰러지 47 갇히 80 때리 113 뛰쳐나오 146 휘청거리
15 넘어지 48 뒤집히 81 흘러나오 114 당기 147 잇달
16 통제 49 몰아치 82 쓸어내리 115 반기 148 상해
17 이어지 50 끊어지 83 묻히 116 강하 149 꺾어지
18 당하 51 휩싸이 84 밀리 117 허물 150 비틀어지
19 52 찌르 85 찢기 118 거둬들이 151 삼키
20 깔리 53 멈추 86 119 뜯기 152 깨트리
21 빚어지 54 뒤덮 87 찔리 120 고이 153 끊이
22 꺼지 55 쓸리 88 121 깨뜨리 154 짓눌리
23 번지 56 89 휘어지 122 155 쓰러뜨리
24 흘리 57 날리 90 그을리 123 찌그리 156 퍼뜨리
25 터지 58 가라앉 91 쏠리 124 불태우 157 휘몰아치
26 막히 59 떠밀리 92 타들 125 박살나 158 스러지
27 부서지 60 93 고장나 126 뒤틀리 159 넘어뜨리
28 미끄러지 61 섰다 94 차오르 127 넘쳐흐르 160 부딛치
29 흘러내리 62 퍼지 95 꺾이 128 쏘이 161 허물어뜨리
30 불어나 63 뚫리 96 가로막 129 타오르 162 망가뜨리
31 넘어서 64 97 밀어닥치 130 뒤덮히 163 으스러지
32 흐르 65 밀려들 98 끼이 131 죽이 164 맞부딛치
33 넘치 66 뛰어내리 99 망가지 132 부닥치
상기의 표 4는 재난사고를 표현하는 동사형 술어 내 포함된 동사원형 순위표로서 보다 상세하게는 145,200건 중 추출된 동사형 술어 중 종결어미(EF)를 생략한 동사원형의 출현 빈도에 따른 순위를 부여한 표이다.
그리고, 하기의 표 5는 재난사고를 표현하는 명사형 술어 내 포함된 명사 순위표로서 보다 상세하게는 145,200건 중 추출된 명사형 술어 중 술어 내 명사의 출현 빈도에 따른 순위를 부여한 표이다.
<재난사고를 표현하는 명사형 술어 내 포함된 명사 순위표>
순위 명사 순위 명사 순위 명사 순위 명사 순위 명사
1 발생 34 매몰 67 소실 100 수몰 133 유해
2 확산 35 추산 68 급증 101 방출 134 침범
3 중단 36 폭발 69 두절 102 완파 135 기준치
4 대피 37 추락 70 하락 103 창궐 136 낙과
5 붕괴 38 부상 71 질식 104 지도 137 실종자
6 유출 39 확진 72 상실 105 균열 138 자해
7 제한 40 사망 73 진압 106 역주행 139 수술
8 침몰 41 의심 74 위협 107 투신 140 자살
9 전복 42 누출 75 이탈 108 익사 141 질식사
10 침수 43 범람 76 흡수 109 단전 142 피난
11 추정 44 발병 77 파열 110 과속 143 감전사
12 차단 45 정체 78 고사 111 목숨 144 중독
13 우려 46 실종 79 진단 112 방역 145 불길
14 통제 47 전소 80 위험 113 희생 146 피살
15 유입 48 유실 81 저하 114 폭탄 147 화재
16 방류 49 살포 82 정전 115 도살 148 배수로
17 악화 50 추돌 83 남하 116 망연자실 149 단수
18 복구 51 북상 84 고갈 117 행방불명 150 즉사
19 살처분 52 마비 85 반파 118 폭파 151 누수
20 파손 53 훼손 86 피신 119 수반 152 괴사
21 감염 54 재발 87 전도 120 손실 153 가축
22 충돌 55 역류 88 조난 121 입산 154 가로수
23 폐사 56 침하 89 살해 122 차질 155 가드레일
24 검출 57 손상 90 혼잡 123 중경상 156 전신주
25 좌초 58 고립 91 탈선 124 물놀이 157 지진
26 결항 59 표류 92 도축 125 부축 158 타박상
27 연기 60 피해 93 동파 126 감전 159 난파
28 폐쇄 61 파괴 94 폭행 127 차량 160 물난리
29 오염 62 부식 95 분출 128 타격 161 피폭
30 운항 63 급감 96 잔류 129 탈진 162 실족
31 지연 64 부진 97 증폭 130 동사 163 죽음
32 노출 65 속출 98 희석 131 분사 164 교통대란
33 격리 66 취약 99 함몰 132 침식 165 혼선
그 결과 상기의 표 4와 5와 같이 164개의 동사형 술어와 165개의 재난사고를 표현하는 명사형 술어를 사건 속성정보 주출의 트리거로 정의하며, 이를 통하여 총 329개의 술어 데이터베이스(21)를 구축한다.
이에 따라, 상기 술어 감지부(20);는 뉴스 데이터의 텍스트 중 상기 술어 데이터베이스(21)를 구성하는 술어와 일치하는 것을 감지하였을 경우 해당 술어가 포함된 문장을 대상으로 속성정보 추출부(30)가 구동된다.
한편, 명사형 술어에서 빈도 순위가 1위인 '발생했다'의 경우 다른 명사형 술어와는 달리 구체적인 재난사고 정보를 담고 있지 않지만 재난사고 뉴스에서 자주 사용되는 표현이다. 예를 들어 사망에 대한 표현은 '사망했다'라고도 표현되지만 '사망사고가 발생했다'라고도 표현할 수 있다.
즉, '발생했다'라는 표현에 구체적인 정보는 해당 술어와 연관된 주어에 주로 포함되어 있음을 알 수 있다. 이에 따라, '발생했다'라는 술어에 대하여 하기 표 6과 같이 맞춤형 구문 패턴을 정의하였다.
<'발생했다'란 술어에 따른 구문 패턴 예시표>
구문 패턴 예시
NNG_JKS_OCCUR 사고가/도 잇따라 발생했다
NNG_JKS_OCCUR 사고가/도 발생했다
NNG_NNG_JKS_OCCUR 사망_사고_가_잇따라_발생_했_다
VV+ETM_NNG_JKS_OCCUR 무너지는/무너진 사고가 잇따라 발생했다
NNG_XSV+ETM_NNG_JKS_OCCUR 충돌한/충돌하는 사고가 잇따라 발생했다
한편, 술어 감지부(20)에서 상기한 바와 같이 정의된 총 329개의 술어 패턴 중 하나를 감지하면 해당 술어와 연관된 구문정보를 재난사고 속성정보로써 인지하고 속성정보 추출부(30)에 의하여 해당 속성정보를 추출한다. 이때, 피해다상을 지칭하는 정보는 주어에 주로 담겨있으며, 구문 분석에서 주어는 일반명사(NNG)나 고유명사(NNP) 혹은 여러 명사들이 연이어 배치된 복합명사(NNX)에 주격조사(JKS)가 붙어 있는 구조를 갖는다.
그리고, 여러 유형의 사고들 중 특히 재난관점에서 중요한 유형들은 붕괴사고, 추돌사고, 추락사고, 침몰사고, 이탈사고, 파손사고, 침수사고, 단절사고, 감염사고, 폭발사고, 침몰사고, 화재사고, 인명사고, 대피사고, 가축사고, 농작물사고, 운항마비사고로 총 17로 정의하였다.
상기한 바와 같은 재난 관련 165개 명사형 술어와 164개 동사형 술어에서 17개의 사고 유형에 해당되는 술어만을 가려내려면 명사형 술어가 104개이고, 동사형술어가 58개로서 이를 각각 정리하면 하기의 표 7과 8로 정리할 수 있다.
보다 상세하게는 표 7은 17개 대표적 사고 유형별 명사형 술어이며, 표 8은 17개 대표적 사고 유형별 동사형 술어이다.
<사고 유형별 명사형 술어 정리표>
사고 유형 명사형 술어의 명사 부분
붕괴사고 붕괴,매몰,침하,함몰
충돌사고 충돌,추돌,탈선,전도
추락사고 추락
침몰사고 침몰,전복,좌초,표류,조난,수몰,난파
이탈사고 이탈,역주행,침범,탈선
파손사고 파손,훼손,손상,파괴,파열,반파,동파,완파,균열,누수
침수사고 침수,범람,유실,역류,수몰
단절사고 중단,차단,마비,두절,정전,단전,단수,고립,통제,제한,폐쇄
감염사고 감염,격리,확진,의심,발병,창궐
오염사고 확산,유출,유입,방류,검출,오염,노출,누출,잔류,방출,피폭,분출
폭발사고 폭발,폭파
화재사고 확산,전소,소실,진압
인명사고 사망,투신,익사,목숨,희생,동사,질식사,감전사,즉사,실족,죽음,부상,중경상,탈진,괴사,타박상,경상,실종,행방불명,질식,감전
대피사고 대피,피신,피난
가축사고 살처분,폐사,도축,도살
농작물사고 저하,낙과,고사
운항마비사고 결항,연기,지연
<사고 유형별 동사형 술어 정리표>
사고 유형 동사형 술어의 동사원형 부분
붕괴사고 무너지,덮치,깔리,내려앉,묻혀,허물어지,무너뜨리
충돌사고 부딪히,치이,부딪치,뒤집히,치어
추락사고 -
침몰사고 가라앉,빠지
이탈사고 -
파손사고 쓰러지,넘어지,부서지,깨지,찢어지,꺾이,망가지,찌그러지,갈라지,깨뜨리,찌그리,부러지
침수사고 잠기,휩쓸리,불어나,넘치,떠내려가,휩쓸,떠밀리,밀려들,차오르,넘쳐흐르,흘러넘치
단절사고 끊어지,끊기,멈추,통제,갇히
감염사고 -
오염사고 -
폭발사고 -
화재사고 태우,꺼지,번지,그을리,타들,불타,불태우,타오르,녹아내리
인명사고 숨지,죽,다치
대피사고 -
가축사고 -
농작물사고 말라죽,썩,꺾어지
운항마비사고 묶이
또한, 주어에 따라 사고유형이 달라지는 술어의 경우 하기의 표 9와 같이 정리하였다.
<주어에 따라 사고유형이 달라지는 술어 정리표>
주어 술어 사고유형
사람 추락,조난,수몰,깔리,부딪혀,치이,쓰러지, 넘어지,부러지,휩쓸리,떠내려가,떠밀리 인명사고
가축 수몰 가축사고
농작물 지연,쓰러지,넘어지,갈라지,부러지 농작물사고
선박 뒤집히 선박사고
오염물질 넘치,흘러넘치 오염사고
선박, 항공 지연 운항사고
그리고, 재난사고 발생위치에 대한 정보는 시, 군, 구 등의 행정구역과 '오거리에서', '공장에서' 등등의 세부적인 장소로 분류될 수 있으며, 일반명사(NNG)나 고유명사(NNP) 혹은 여러 명사들이 연이어 배치된 복합명사(NNX)에 부사격 조사(JKB)가 결합된 구조를 갖는다.
또한, 시간에 대한 표현은 상대적으로 다양하게 이루어져 있는데, 주로 표현되는 '어제 오후 6시 15분께', '오후 10시께', '11일 오후 5시 40분', '밤 10시 50분', '3일 오전 10시', '12월', '6일 오전' 등의 표현을 하기의 표 10과 같이 구문패턴으로 정의한다.
<재난사고 정보로 추출되는 피해대상, 지자체명, 장소, 시간 표현의 형태소 구문 패턴 예시표>
역활 구문 패턴 예시
피해대상 NNG│P_JKS 사망자가
지자체명 NNP 경상북도 포항시
장소 P_JKBNNG│ 오거리에서
시간 NNT_NNT_SN_NNB_SN_NNB_JKB 어제 오후 6_시 15분께
NNT_SN_NNB_XSN│JKB 오후 10시께
SN_NNBC_NNT_SN_NNB_SN_NNB 11일 오후 5시 40분
NNT_SN_NNB_SN_NNB 밤 10시 50분
SN_NNBC_NNT_SN_NNB 3일 오전 10시
SN_NNBC 12월
SN_NNBC_NNT 6일 오전
상기한 바와 같은 구문 패턴을 참조하여 상기 속성정보 추출부(30)는 사고 정보의 순번(Event No), 사고가 발생한 지자체 또는 장소(Location), 문장 내 단위를 동반한 숫자에 대한 정보(Numeric), 피해대상과 사고종류(Vic.+ Acc.), 사고 유형(Acc.type)의 속성정보를 추출한다.
그리고, 상기 속성정보 추출부(30)에서 추출된 재난 속성정보를 집계하여 시각화하는 속성정보 처리부(40);를 더 포함할 수 있다. 이에 따라, 여러 재난 뉴스에 대한 속성정보를 집계 또는 분류하여 그래프나 도면 등으로 시각화하여 지역별 재난사고의 특성, 재난사고 유형에 따른 특성 등 다양한 정보를 한눈에 알 수 있다.
도 3은 본 발명의 일 실시예에 따른 재난속성정보 추출 방법의 흐름도로서 이를 참고하여 본 발명에 따른 재난속성정보 추출 방법의 상세 구성은 하기와 같다.
재난속성정보 추출 방법에 있어서, 상기 재난속성정보 추출 방법은 재난속성정보 추출 시스템에 의하여 수행되며, 상기 재난속성정보 추출 시스템은 네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부(10); 상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부(20); 및 상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부(30);를 포함하고, 상기 재난속성정보 추출 방법은 상기 데이터 수집부(10)에 의하여 뉴스 데이터를 수집하되, 각 뉴스의 국문 텍스트를 수집하는 데이터 수집 단계(S10);와 상기 술어 감지부(20)에 의하여 상기 수집된 뉴스의 국문 텍스트 중 술어를 감지하는 술어 감지 단계(S20); 및 상기 일치된 술어에 연관된 텍스트의 속성정보를 추출하는 속성정보 추출 단계(S30);를 포함하는 재난속성정보 추출 방법이다.
특히, 상기 뉴스 데이터는 재난관련 뉴스 데이터인 것을 특징으로 한다.
그리고, 상기 재난속성정보 추출 시스템은 텍스트 전처리부(11)를 더 포함하여, 상기 텍스트 전처리부(11)에 의하여 상기 데이터 수집 단계(S10)에서 수집된 뉴스 데이터를 컴퓨터가 인식할 수 있는 형태로 변환하는 텍스트 전처리 단계(S11)를 더 포함하여 구성될 수 있다.
또한, 상기 재난속성정보 추출 시스템은 술어 데이터베이스(21)를 더 포함하여, 상기 술어 감지 단계(S20)에서 상기 수집된 뉴스의 국문 텍스트 중 술어를 술어 데이터베이스(21) 상에 술어와 비교하여 술어 간 일치 여부를 확인하는 것을 특징으로 한다.
그리고, 상기 재난속성정보 추출 시스템은 속성정보 처리부(40)를 더 포함하여, 속성정보 처리부(40)에 의하여 상기 속성정보 추출 단계(S30)에서 추출된 복수 개의 속성정보를 분류 또는 집계하여 시각화하는 속성정보 처리 단계(S40)를 더 포함하도록 구성될 수도 있다.
상기와 같이 구성되는 본 발명에 따른 재난속성정보 추출 시스템 및 방법을 적용한 실제 사례는 하기와 같다.
데이터 수집 단계(S10)에서 데이터 수집부(10)에 의하여 1990년부터 2017년까지 연합뉴스에 대하여 총 332,245건의 재난사고 뉴스가 수집되었다. 결과 예시를 위하여 재난 유형별 재난사고 정보 예시표인 하기의 표 11과 같이 정리하였다.
<재난 유형별 재난사고 정보 예시표>
재난유형 연-월-일 사건개요
태풍 2016-10-05 태풍 차바
홍수 2011-07-27 우면산 산사태 사고
강풍 2016-05-04 봄철 폭탄 저기압으로 전국에 강풍
풍랑 2009-01-23 서해 풍랑 경보로 인천여객선 9개항로 중단
해일 2008-05-04 보령 앞바다 해일로 관광객 실종 사고
대설 2010-01-04 서울 100여년만의 폭설
낙뢰 2013-08-06 전국 곳곳 게리라성 폭우·낙뢰 피해 속출
가뭄 1994-07-21 50여일 가뭄 최고 기록
지진 2017-11-15 포항 지진
황사 2002-03-22 극심한 황사로 왕복 40여편의 항공편 결항
녹조적조 2013-07-29 경남-남해 극심한 적조로 피해
폭염 2016-07-31 폭염으로 익사·화재·정전 큰 피해
한파 2016-01-24 최강한파로 큰 피해
화산폭발 2010-10-27 인도네시아 자바섬 머라삐 화산 폭발사고
산불 2005-04-05 동해안 산불로 낙산사 전소
화재 2015-01-13 경기도 의정부아파트 화재사고
붕괴 2016-06-01 남양주 지하철 공사현장 붕괴 사고
폭발 2015-07-03 한화케미칼 울산공장 폭발사고
자동차사고 2017-01-20 서해안 고속도로 눈길에 4중 추돌사고
기차사고 2016-04-22 여수 무궁화호 탈선 사고
항공기사고 2014-07-09 제주 태풍 피해로 항공기 무더기 결항
선박사고 2014-04-17 세월호 선박사고
감염병 2015-06-09 메르스 감염 발생
가축전염병 2010-12-22 한우 구제역 발생
화생방사고 2014-02-13 남양주 빙그레 공장에서 암모니아 유출사고
미세먼지 2013-12-05 빗나간 예보로 미세먼지 피해 속출
환경오염 2007-12-10 태안 유조선 기름 유출 사고
원전사고 1999-10-01 일본 방사능 누출 사고
마비 2002-09-01 태풍 루사로 강원 영동지역 교통·통신 두절
보다 상세하게는 태풍의 경우 2016년 태풍 차바, 홍수의 경우 2011년 7월 27일 우면산 산사태, 강풍의 경우 2016년 5월 3일 봄철 폭탄 저기압에 의한 전국 강풍, 풍랑의 경우 2009년 1월 23일 서해 풍랑 경보로 인천여객선 9개항 중단, 해일의 경우 2008년 5월 4일 보령 앞바다 해일로 관광객 실종, 대설의 경우 2010년 1월 4일 서울 100여년만의 폭설, 낙뢰의 경우 2013년 8월 6일 전국 곳곳 낙뢰 피해 속출, 가뭄의 경우 1994년 7월 21일 장마 실종에 따른 역사상 가장 심한 가뭄, 지진의 경우 2017년 11월 15일 포항 지진, 황사의 경우 2002년 3월 22일 극심한 황사로 인한 항공편 40여편 결항, 녹조 및 적조의 경우 2013년 7월 29일 경남, 남해 극심한 적조피해, 폭염의 경우 2016년 7월 31일 심한 폭염과 그로 인한 익사, 화재, 정전 등 2차 피해, 한파의 경우 2016년 1월 24일 극심한 한파로 인한 전국적 큰 피해, 산불의 경우 2005년 4월 5일 도해안 산불로 낙산사 전소, 화재의 경우 2015년 1월 13일 경기도 의정부 아파트 화재사고, 붕괴의 경우 2016년 6월 1일 남양주 지하철 공사현장 붕괴사고, 폭발의 경우 2015년 7월 3일 한화케미칼 울산공장 폭발사고, 자동차사고의 경우 2017년 1월 20일 서해안 고속도로 눈길에 4중 추돌사고, 기차사고의 경우 2016년 4월 22일 여수 무궁화호 탈선 사고 항공기사고의 경우 2014년 7월 9일 제주 태풍 피해로 항공기 무더기 결항, 선박사고의 경우 2014년 4월 17일 세월호 침몰사고, 감염병의 경우 2015년 6월 9일 메르스 확산, 가축감염병의 경우 2010년 12월 22일 구제역 확산, 화생방사고의 경우 2014년 2월 13일 남양주 빙그레 공장 암모니아 유출하고, 미세먼지의 경우 2013년 12월 5일 빗나간 예보로 미세먼지 피해 속출, 환경오염의 경우 2007년 12월 10일 태안 유조선 기름유출 사고에서 사건정보가 가장 많이 추출되었다. 최근 현대 국내에 발생한 적이 없는 화산폭발과 방사능 유츨의 경우 2010년 10월 27일 인도네시아 자바섬 머라삐 화산폭발, 1999년 10월 1일 일본 방사능 누출사고 등이 있었다.
상기와 같이 수집된 재난사고 뉴스 데이터를 데이터 전처리부(11)에 의하여 컴퓨터가 인식할 수 있는 형태로 변환하되 각 문장을 형태소로 표현하는 텍스트 전처리 단계(S11)를 수행하였다.
이후, 상기 술어 감지부(20)에 의하여 상기 수집된 뉴스의 국문 텍스트 중 술어를 감지하는 술어 감지 단계(S20)를 수행하되, 술어 데이터베이스(21)에 저장된 술어와 일치하는 경우 속성정보 추출부(30)에 의하여 해당 술어에 따른 문장의 형태소에 참조하여 속성정보 추출 단계(S30)를 수행하였다.
이에 따라, 하기의 재난 유형별 속성정보 추출 결과표인 표 12와 같이 사고 정보의 순번(Event No), 사고가 발생한 지자체 또는 장소(Location), 문장 내 단위를 동반한 숫자에 대한 정보(Numeric), 피해대상과 사고종류(Vic.+ Acc.), 사고 유형(Acc.type)의 속성정보를 추출할 수 있었다.
<재난 유형별 속성정보 추출 결과표>
재난유형 이벤트문장 사건정보 추출 결과
태풍 태풍 차바의 영향으로 5일 울산 울주군 반천강변길 한 아파트 주차장이 물에 잠겨 있다. (1)Event No = 1/1 (2)Location = 울산_울주군/울산_울주군/NULL (3)Numeric = NULL (4)Vic.+Acc. = 아파트주차장_이 잠겨 (5)Acc.type = 침수
홍수 27일 서울 서초구 남부순환로 인근 도로가 폭우로 부서져 있다. (1)Event No = 1/1 (2)Location = 서울_서초구/서울_서초구/NULL (3)Numeric = NULL (4)Vic.+Acc. = 인근도로_가 부서져 (5)Acc.type = 파손
강풍 오전 2시께는 태백시 통동에서 강풍으로 전깃줄이 끊어지면서 승용차 1대를 태웠다. (1)Event No = 1/1 (2)Location = 춘천시/태백시/통동_에서 (3)Numeric = |승용차___1__대_를 (4)Vic.+Acc. = 승용차___1__대_를 태웠_다 (5)Acc.type = 화재
풍랑 인천 앞바다에 높은 파도가 일어 23일 인천과 서해 도서지방을 연결하는 9개 항로의 여객선 운항이 중단됐다. (1)Event No = 1/1 (2)Location = 인천/인천/NULL (3)Numeric = |9__개 (4)Vic.+Acc. = 여객선운항_이 중단_됐_다 (5)Acc.type = 운항
해일 보령사고해역수색작업 4일 12시41분께 충남 보령시 남포면 죽도 방파제에서 관광객 15명이 해일에 휩쓸려 2명이 숨졌다. (1)Event No = 2/2 (2)Location = 충남_보령시_남포면/충남_보령시_남포면/죽도방파제_에서 (3)Numeric = |2__명_이 (4)Vic.+Acc. = 2__명_이 숨졌_다 (5)Acc.type = 인명
대설 수도권에 내린 폭설로 김포공항의 항공편 운항이 마비됐습니다. (1)Event No = 1/1 (2)Location = NULL/김포/NULL (3)Numeric = NULL (4)Vic.+Acc. = 항공편운항_이 마비_됐_습니다 (5)Acc.type = 운항
낙뢰 서울과 경기도에는 오후 1∼2시에 각각 1천8회, 만2천336회의 낙뢰가 생했다. (1)Event No = 1/1 (2)Location = 경기도/경기도/NULL (3)Numeric = |2__시|1008__회|___12336__회_의_낙뢰_가 (4)Vic.+Acc. = ___12336__회_의_낙뢰_가 발생_했_다 (5)Acc.type = NAN
가뭄 21일 농림수산부에 따르면 지금까지 가뭄이 발생한 논의 면적은 전체 벼 재배면적의 6.1%인 6만8천3백㏊에 달하고 밭작물도 4.7%인 3만6천2백26㏊가 타들어가고 있다. (1)Event No = 2/2 (2)Location = NULL/NULL/NULL (3)Numeric = |4.7__%|36226__㏊_가 (4)Vic.+Acc. = 36226__㏊_가 타들_어 (5)Acc.type = 화재
지진 포항시 북구 흥해읍 한 어린이집 외벽이 무너져 차량이 파손됐다. (1)Event No = 1/2 (2)Location = 경북_포항시_북구/포항시_북구_흥해읍/NULL (3)Numeric = NULL (4)Vic.+Acc. = 어린이집외벽_이 무너져 (5)Acc.type = 붕괴
황사 이날 오전부터 여수와 포항,목포 등 3개 공항에 황사가 짙게 끼어 이들 공항과 김포공항을 연결하는 왕복 10여편의 항공편이 결항됐다. (1)Event No = 2/2 (2)Location = 서울/김포/NULL (3)Numeric = |왕복___10__편 (4)Vic.+Acc. = 항공편_이 결항_됐_다 (5)Acc.type = 운항
녹조적조 경남도는 29일 현재 적조로 106어가에서 양식하던 어류 1천154만8천마리가 폐사해 60억5천600만원의 피해가 발생했다고 밝혔다. (1)Event No = 1/1 (2)Location = 경남/경남/어가_에서 (3)Numeric = |어류___11548000__마리_가 (4)Vic.+Acc. = 어류___11548000__마리_가 폐사_해 (5)Acc.type = 가축
폭염 바다와 계곡 등에서는 형제가 물에 빠져 숨지는 등 익사 사고가 잇따라 이틀 동안 두 9명이 목숨을 잃었다. (1)Event No = 3/3 (2)Location = 경남/NULL/계곡_에서 (3)Numeric = |9__명_이 (4)Vic.+Acc. = 9__명_이 목숨_을_잃_었_다 (5)Acc.type = 인명
한파 서울이 2001년 1월 이후 최저인 영하 18도를 기록했고, 대관령은 영하 23도까지 떨어졌다. (1)Event No = 1/1 (2)Location = 서울/대관령/NULL (3)Numeric = |영하___18__도_를|영하___23__도_까지 (4)Vic.+Acc. = 영하___23__도_까지 떨어졌_다 (5)Acc.type = 추락
화산폭발 때문에 화산 주변에 살고 있던 주민 수천명이 긴급 대피하는 소동이 벌어졌는데, 과정에서 2명이 숨졌고 부상자도 속출했습니다. (1)Event No = 1/1 (2)Location = NULL/NULL/과정_에서 (3)Numeric = |주민___수천__명_이|2__명_이 (4)Vic.+Acc. = 부상자_도 속출_했_습니다 (5)Acc.type = 인명
산불 양양과 충남 서산지역 등에서 대규모 산불이 발생, 천년 고찰인 낙산사 대웅전이 불에 전소되고 주민 수천명이 대피하는 등 큰 피해가 발생했다. (1)Event No = 1/1 (2)Location = 강원도_양양/강원도_양양/지역_에서 (3)Numeric = |주민___수천__명|7__번|전국___13__곳|천__년 (4)Vic.+Acc. = 낙산사대웅전_이 전소_되_고 (5)Acc.type = 화재
화재 128명의 인명피해를 낸 의정부 아파트 화재를 시작으로 나흘 동안 전국의 고층 파트나 오피스텔 4곳에서 불이나 10여명의 사상자가 추가로 발생했다. (1)Event No = 1/1 (2)Location = 의정부_이어_제주/의정부/NULL (3)Numeric = |___128__명_의_인명|오피스텔___4__곳|___10__명_의_사상자_가 (4)Vic.+Acc. = ___10__명_의_사상자_가 발생_했_다 (5)Acc.type = 인명
붕괴 남양주 지하철 공사현장 1일 오전 7시 20분께 경기도 남양주시 진접읍 금곡리 진접선 지하철 공사현장이 붕괴해 근로자 1명이 숨지고 1명이 다쳤다. (1)Event No = 1/3 (2)Location = 경기도_남양주시_진접읍_금곡리_진접/경기도_남양주시_진접읍_금곡리_진접/NULL (3)Numeric = NULL (4)Vic.+Acc. = 선지하철공사현장_이 붕괴_해 (5)Acc.type = 붕괴
폭발 이 과정에서 용접 불티가 튀어 저장조에서 새어 나온 메탄가스로 보이는 잔류가스와 접촉, 폭발이 발생한 것으로 추정된다. (1)Event No = 1/1 (2)Location = 울산시_남구/NULL/저장조_에서 (3)Numeric = NULL (4)Vic.+Acc. = 폭발_이 추정_된다 (5)Acc.type = 폭발
자동차사고 이를 25t 화물차가 들이받는 등 승용차 등 차량 4대가 잇따라 추돌했다. (1)Event No = 2/2 (2)Location = 충남_서산시_운산면_서해/NULL/NULL (3)Numeric = NULL (4)Vic.+Acc. = 차량___4__대_가 추돌_했_다 (5)Acc.type = 충돌
기차사고 당시 사고는 주변 공사현장에서 발파작업과 부실공사 등으로 선로가 내려앉으면서 열차가 탈선해 뒤집히면서 발생했다. (1)Event No = 2/4 (2)Location = 전남_여수/NULL/주변공사현장_에서 (3)Numeric = NULL (4)Vic.+Acc. = 열차_가 탈선_해 (5)Acc.type = 이탈
항공기사고 태풍 '너구리'의 영향으로 제주에 강한 비바람이 몰아쳐 항공편이 무더기로 결항하고 1만3천여 가구가 한때 정전되는 등 피해가 속출했다. (1)Event No = 2/3 (2)Location = 제주/제주/NULL (3)Numeric = NULL (4)Vic.+Acc. = 항공편_이 결항_하_고 (5)Acc.type = 운항
선박사고 그 사이 승객 290명은 배에서 빠져나오지 못하고 갖혀 버렸다. (1)Event No = 1/1 (2)Location = 전남/NULL/배_에서 (3)Numeric = |승객___290__명_은 (4)Vic.+Acc. =승객___290__명_은 빠져 (5)Acc.type = 기타
감염병 이 환자는 메르스 감염이 의심돼 자택 격리중인 아내를 둔 63세 남성으로, 서울성모병원이 자체적으로 실시한 2차례 검사와 방역당국의 검사에서 모두 양성 판정을 받았다. (1)Event No = 1/1 (2)Location = 서울/NULL/NULL (3)Numeric = NULL (4)Vic.+Acc. = 메르스감염_이 의심_돼 (5)Acc.type = 감염
가축전염병 인천에서는 지난 4월 강화군에서 구제역 7건이 발생해 227개 농가의 한우, 육우, 젖소, 돼지, 사슴, 염소 3만1천345마리가 살처분돼 보상금 493억원과 방역비용 76억원 등 모두 569억여원의 재산피해를 냈다. (1)Event No = 1/2 (2)Location = 인천/강화군/NULL (3)Numeric = |구제역___7__건_이 (4)Vic.+Acc. = 구제역___7__건_이 발생_해 (5)Acc.type = NAN
화생방사고 폭발 사고 직후 다량의 암모니아 가스가 인근 주택가로 퍼져 나가 주민들이 악취로 고통받았다. (1)Event No = 1/1 (2)Location = 경기도_남양주시/NULL/NULL (3)Numeric = NULL (4)Vic.+Acc. = 암모니아가스_가 퍼져 (5)Acc.type = 오염
미세먼지 지난 3일 서풍을 타고 날아온 중국발 오염물질이 안개와 겹쳐 대기 중에 오래 머물면서 이날 오전에도 서울을 포함한 수도권에서 고농도 미세먼지가 발생했다. (1)Event No = 2/2 (2)Location = 서울/중국/NULL (3)Numeric = NULL (4)Vic.+Acc. = 고농_도 미세먼지_가_발생_했_다 (5)Acc.type = NAN
환경오염 기름띠 태안반도 전역으로..안면도, 대산공단 앞까지 해상의 기름띠는 사고 해역 남쪽으로 안면도 앞바다 50여㎞, 북쪽으로 가로림만을 거쳐 대산 석유화학공단 인근 20㎞까지 크게 번졌다. (1)Event No = 2/2 (2)Location = 태안군/태안반도/NULL (3)Numeric = |인근___20__㎞_까지 (4)Vic.+Acc. = 인근___20__㎞_까지 번졌_다 (5)Acc.type = 화재
원전사고 그러나 이번 사고에서는 종전과는 달리 방사능물질이 공장 주변의 대기중으로 방출돼 고도의 방사능이 검출되는 등 피해지역이 확산돼 겉잡을 수 없는 혼란으로 발전했다. (1)Event No = 1/2 (2)Location = NULL/NULL/사고_에서 (3)Numeric = NULL (4)Vic.+Acc. = 방사능물질_이 방출_돼 (5)Acc.type = 오염
마비 강릉, 동해, 태백, 삼척, 고성 등지의 2만2천298회선과 휴대폰 76개소 불통, 삼척, 동해지역을 비롯한 속초 고성 양양 정선지역에서 광케이블이 유실돼 시외전화가두절됐다. (1)Event No = 2/2 (2)Location = 강원도/속초_고성_양양_정선/지역_에서 (3)Numeric = NULL (4)Vic.+Acc. = 시외전화_가 두절_됐_다 (5)Acc.type = 단절
이후, 상기 속성정보 처리부(40)에 의하여 상기 속성정보 추출 단계(S30)에서 추출된 복수 개의 속성정보를 분류 또는 집계하여 시각화하는 속성정보 처리 단계(S40)를 추가로 수행하였다.
도 4와 5는 각각 본 발명의 일 실시예에 따른 재난속성정보 추출 시스템에 의하여 추출된 재난유형 별 사고 지역별 출현빈도 그래프와 태풍관련 뉴스 내 지역별 사고유형 출현빈도 그래프로서 상기 속성정보 처리 단계(S40)에 의하여 필요에 따라 시각화한 도면이다.
이를 통하여 알 수 있듯이 본 발명에 따른 재난속성정보 추출 시스템 및 방법은 단순히 재난관련 뉴스의 텍스트 정보를 통하여 사건 속성정보를 파악하는데 그치지 않고 추출된 사건 속성정보를 다양한 관점에서 볼 수 있도록 시각화하여 다양한 정책, 토론, 연구, 분석 등의 자료로 활용할 수 있다.
상기한 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.
10. 데이터 수집부
11. 텍스트 전처리부
20. 술어 감지부
21. 술어 데이터베이스
30. 속성정보 추출부
40. 속성정보 처리부
S10. 데이터 수집 단계
S11. 텍스트 전처리 단계
S20. 술어 감지 단계
S30. 속성정보 추출 단계
S40. 속성정보 처리 단계

Claims (14)

  1. 네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부;
    상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부; 및
    상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부;를 포함하는 재난정보 추출 시스템.
  2. 제 1항에 있어서,
    상기 테이터 수집부는 재난관련 뉴스 데이터를 수집하는 것을 특징으로 하는 재난정보 추출 시스템.
  3. 제 1항에 있어서,
    상기 데이터 수집부;는 수집된 뉴스 데이터를 컴퓨터가 인식할 수 있는 형태로 변환하는 텍스트 전처리부;를 더 포함하는 것을 특징으로 하는 재난정보 추출 시스템.
  4. 제 3항에 있어서,
    상기 텍스트 전처리부는 뉴스의 국문 텍스트를 형태소 분류를 기준으로 구문 패턴화하는 것을 특징으로 하는 재난정보 추출 시스템.
  5. 제 1항에 있어서,
    상기 술어 감지부;는 술어 데이터베이스를 더 포함하며 상기 술어 데이터베이스에 구축된 술어와 뉴스 데이터의 술어를 대비하되,
    술어가 일치하는 경우 해당 술어가 포함된 문장을 대상으로 속성정보 추출부가 구동하는 것을 특징으로 하는 재난정보 추출 시스템.
  6. 제 5항에 있어서,
    상기 술어 데이터베이스는 동사형 술어와 명사형 술어가 각각 분류되어 형성되는 것을 특징으로 하는 재난정보 추출 시스템.
  7. 제 5항에 있어서,
    상기 속성정보 추출부는 사고 정보의 순번(Event No), 사고가 발생한 지자체 또는 장소(Location), 문장 내 단위를 동반한 숫자에 대한 정보(Numeric), 피해대상과 사고종류(Vic.+ Acc.), 사고 유형(Acc.type)의 속성정보를 추출하는 것을 특징으로 하는 재난정보 추출 시스템.
  8. 제 6항에 있어서,
    상기 술어 데이터베이스에 동사형 술어는 종결어미를 제외한 동사원형이, 명사형 술어는 술어 내 포함된 명사가 각각 저장되는 것을 특징으로 하는 재난정보 추출 시스템.
  9. 제 7항에 있어서,
    상기 속성정보 추출부에서 추출된 재난 속성정보를 집계하여 시각화하는 속성정보 처리부;를 더 포함하는 재난정보 추출 시스템.
  10. 재난속성정보 추출 방법에 있어서,
    상기 재난속성정보 추출 방법은 재난속성정보 추출 시스템에 의하여 수행되며,
    상기 재난속성정보 추출 시스템은 네트워크를 통하여 정보 소스에 접근하여 뉴스 테이터를 수집하는 데이터 수집부, 상기 수집된 뉴스 데이터를 구성하는 문장의 술어를 감지하는 술어 감지부 및 상기 술어와 연관되어 있는 속성정보를 추출하는 속성정보 추출부를 포함하고,
    상기 재난속성정보 추출 방법은
    상기 데이터 수집부에 의하여 뉴스 데이터를 수집하되, 각 뉴스의 국문 텍스트를 수집하는 데이터 수집 단계;
    상기 술어 감지부에 의하여 상기 수집된 뉴스의 국문 텍스트 중 술어를 감지하는 술어 감지 단계;
    상기 일치된 술어에 연관된 텍스트의 속성정보를 추출하는 속성정보 추출 단계;를 포함하는 재난속성정보 추출 방법.
  11. 제 10항에 있어서,
    상기 뉴스 데이터는 재난관련 뉴스 데이터인 것을 특징으로 하는 재난속성정보 추출 방법.
  12. 제 10항 또는 제 11항에 있어서,
    상기 재난속성정보 추출 시스템은 텍스트 전처리부를 더 포함하여,
    상기 텍스트 전처리부에 의하여 상기 데이터 수집 단계에서 수집된 뉴스 데이터를 컴퓨터가 인식할 수 있는 형태로 변환하는 텍스트 전처리 단계를 더 포함하는 것을 특징으로 하는 재난속성정보 추출 방법.
  13. 제 10항 또는 제 11항에 있어서,
    상기 재난속성정보 추출 시스템은 술어 데이터베이스를 더 포함하여,
    상기 술어 감지 단계에서 상기 수집된 뉴스의 국문 텍스트 중 술어를 술어 데이터베이스 상에 술어와 비교하여 술어 간 일치 여부를 확인하는 것을 특징으로 하는 재난속성정보 추출 방법.
  14. 제 10항 또는 제 11항에 있어서,
    상기 재난속성정보 추출 시스템은 속성정보 처리부를 더 포함하여,
    상기 속성정보 처리부에 의하여 상기 속성정보 추출 단계에서 추출된 복수 개의 속성정보를 분류 또는 집계하여 시각화하는 속성정보 처리 단계를 더 포함하는 것을 특징으로 하는 재난속성정보 추출 방법.
KR1020180048322A 2018-04-26 2018-04-26 재난속성정보 추출 시스템 및 방법 KR102111609B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180048322A KR102111609B1 (ko) 2018-04-26 2018-04-26 재난속성정보 추출 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180048322A KR102111609B1 (ko) 2018-04-26 2018-04-26 재난속성정보 추출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190124403A true KR20190124403A (ko) 2019-11-05
KR102111609B1 KR102111609B1 (ko) 2020-05-15

Family

ID=68576994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180048322A KR102111609B1 (ko) 2018-04-26 2018-04-26 재난속성정보 추출 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102111609B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269949A (zh) * 2020-10-19 2021-01-26 杭州叙简科技股份有限公司 一种基于事故灾害新闻的信息结构化方法
KR20210085362A (ko) * 2019-12-30 2021-07-08 한국과학기술정보연구원 감염병발생정보탐지장치 및 그 동작 방법
KR102276761B1 (ko) * 2020-08-28 2021-07-13 대한민국 재난원인 정보를 자동으로 추출하는 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102499775B1 (ko) 2022-07-15 2023-02-16 대한민국 재난뉴스 건수의 정량적 측정 시스템 및 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101155555B1 (ko) * 2011-12-07 2012-07-09 수원시 모바일 현장 행정시스템
KR20130010789A (ko) * 2011-07-19 2013-01-29 메타라이츠(주) 재난 전조 정보를 제공하는 방법 및 그 장치
KR20140032205A (ko) * 2012-09-06 2014-03-14 대한민국(안전행정부 국립재난안전연구원장) 모바일 기반 재난피해 조사시스템 및 방법
KR20140129053A (ko) * 2012-02-27 2014-11-06 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램
KR20150046793A (ko) * 2013-10-21 2015-05-04 대한민국(국민안전처 국립재난안전연구원장) 소셜미디어를 이용한 재난 감지 시스템
KR20170027113A (ko) 2015-09-01 2017-03-09 주식회사 크레디프 재난 정보 제공 서버 및 무선 접속 단말기를 포함하는 재난 정보 제공 시스템
KR20170077397A (ko) * 2015-12-28 2017-07-06 한국과학기술원 뉴스와 sns 데이터로부터 식품 위해 이벤트를 실시간 자동 추출하는 방법 및 이를 위한 시스템
KR20170079648A (ko) * 2015-12-30 2017-07-10 대한민국(국민안전처 국립재난안전연구원장) 미래위험 변화예측 분석 시스템

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130010789A (ko) * 2011-07-19 2013-01-29 메타라이츠(주) 재난 전조 정보를 제공하는 방법 및 그 장치
KR101155555B1 (ko) * 2011-12-07 2012-07-09 수원시 모바일 현장 행정시스템
KR20140129053A (ko) * 2012-02-27 2014-11-06 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램
KR20140032205A (ko) * 2012-09-06 2014-03-14 대한민국(안전행정부 국립재난안전연구원장) 모바일 기반 재난피해 조사시스템 및 방법
KR20150046793A (ko) * 2013-10-21 2015-05-04 대한민국(국민안전처 국립재난안전연구원장) 소셜미디어를 이용한 재난 감지 시스템
KR20170027113A (ko) 2015-09-01 2017-03-09 주식회사 크레디프 재난 정보 제공 서버 및 무선 접속 단말기를 포함하는 재난 정보 제공 시스템
KR20170077397A (ko) * 2015-12-28 2017-07-06 한국과학기술원 뉴스와 sns 데이터로부터 식품 위해 이벤트를 실시간 자동 추출하는 방법 및 이를 위한 시스템
KR20170079648A (ko) * 2015-12-30 2017-07-10 대한민국(국민안전처 국립재난안전연구원장) 미래위험 변화예측 분석 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
T. Sakaki et al., Tweet Analysis for Real-Tiem Event Detection and Earthquake Reporting System Development, IEEE Tran. on Knowledge and data engineering, 25(4), pp.919-931 (2013.04) 1부.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210085362A (ko) * 2019-12-30 2021-07-08 한국과학기술정보연구원 감염병발생정보탐지장치 및 그 동작 방법
KR102276761B1 (ko) * 2020-08-28 2021-07-13 대한민국 재난원인 정보를 자동으로 추출하는 방법
CN112269949A (zh) * 2020-10-19 2021-01-26 杭州叙简科技股份有限公司 一种基于事故灾害新闻的信息结构化方法
CN112269949B (zh) * 2020-10-19 2023-09-22 杭州叙简科技股份有限公司 一种基于事故灾害新闻的信息结构化方法

Also Published As

Publication number Publication date
KR102111609B1 (ko) 2020-05-15

Similar Documents

Publication Publication Date Title
KR20190124403A (ko) 재난속성정보 추출 시스템 및 방법
McEntire Disaster response and recovery: strategies and tactics for resilience
Greenough et al. The potential impacts of climate variability and change on health impacts of extreme weather events in the United States.
Shaluf An overview on disasters
Misuri et al. Lessons learnt from the impact of hurricane Harvey on the chemical and process industry
Gunn Encyclopedia of Disasters: Environmental Catastrophes and Human Tragedies [2 Volumes]
Parker The mismanagement of hazards
Mukhopadhyay et al. Use of information technology in emergency and disaster management
Khatun et al. Impact of the tropical cyclone AILA along the coast of Bangladesh
Ronchi et al. Case studies of large outdoor fires involving evacuation
Perry Citizen evacuation in response to nuclear and nonnuclear threats
Sharma Disaster management
Blanchon et al. Sentinel territories: A new concept for looking at environmental change
Coppola Hazards
Mohamed Shaluf An overview on disasters
Boyarsky et al. Natural and hybrid disasters—Causes, effects, and management
Link et al. Burnover events identified during the 2018 Camp Fire
Thieken et al. Fatal incidents during the flood of July 2021 in North Rhine-Westphalia, Germany: what can be learnt for future flood risk management?
Rij An approach to the disaster profile of People's Republic of China 1980-2013
Subramanian Disaster Management
Munandar et al. Shifting the Blame: Storm and Wildfire Dramatic Images in American News Media
Ko et al. A study on an establishment of scenario for the disaster response training
McLennan et al. Evacuation versus shelter in place
Chroust et al. RESILIENCE MANAGEMENT: FROM FUKUSHIMA DISASTER TO BOILING OCEANS AND NORTHWARD VIRAL SPREAD
Akpi et al. Liquefied Petroleum Gas Stations Disaster Risk Preparedness Assessment of Port Harcourt City, Nigeria

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant