KR102396771B1

KR102396771B1 - 재난원인 정보 자동 추출 방법

Info

Publication number: KR102396771B1
Application number: KR1020210179443A
Authority: KR
Inventors: 김은별; 심준석; 오주연; 이철규; 김현주; 고민수; 이종영; 이민성; 김원식; 박상용; 유준상; 김정욱
Original assignee: 대한민국
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-05-16

Abstract

본 발명은, 다양한 형식의 재난 관련 정보들을 키워드 사전 및 재난원인 분류체계(MEPS)에 의해 통합적으로 관리할 수 있도록 하는 재난원인 정보 자동 추출 방법에 관한 것으로,
뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 재난 관련 정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 정보 자동 추출 및 축적 프로그램이 실행되어 재난원인 정보가 자동 추출되어 사건 정보 DB에 저장되고, 모니터에서는 결과 화면이 디스플레이되는 재난원인 정보의 자동 추출방법에 있어서,
다양한 형식의 과거 재난안전 정보들이 유입되면 재난종류별 분류하여 일관된 형식으로 변환되어진 데이터들을 저장 및 축적하는 빅데이터 형성과정과;
신규 재난안전 정보가 유입되면 상기 빅데이터들에 축적하되, 기계학습에 의해 과거의 유사 재난안전을 검색하여 대응방법을 제공하는 대응정보 제공과정으로 구성되는데,
상기 빅데이터 형성과정에서는 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 별도로 유입된 뉴스 등 참고자료에서는 재난 대응방법과 관련된 메타데이터와 통계결과값이 추출되며, 상기 추출된 재난원인 문장과, 메타데이터와 통계결과값은 결합되어 원인정보 집합을 구축하고, 상기 원인정보 집합의 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며,
상기 대응정보 제공과정에서도 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 상기 재난원인 문장에 의한 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며, 기계학습(Machine learning)에 의해 상기 축적된 빅데이터로 부터 과거 유사 재난정보가 검색되어지되, 과거 유사 재난정보는 재난 대응방법과 관련된 메타데이터 및 통계결과값을 포함하는 원인정보 집합들이 재난원인 분류체계(MEPS)에 매핑되어 재난원인 분석시트로서 제공되므로, 신규 재난안전 정보와 유사한 과거 재난안전 정보를 그 대응방법 및 피해수치 등에 대한 통계값과 함께 바로 확인할 수 있도록 제공되는 것을 특징으로 한다.

Description

재난원인 정보 자동 추출 방법 {A method for extracting disaster cause automatically}

본 발명은, 다양한 형식의 재난 관련 정보들을 키워드 사전 및 재난원인 분류체계(MEPS)에 의해 통합적으로 관리할 수 있도록 하는 재난원인 정보 자동 추출 방법에 관한 것으로,

먼저 과거 재난 관련 정보들로부터 빅데이터를 분석 및 축적하되, 재난 관련 어휘를 추출하기 위한 키워드 사전을 사용하므로 재난 원인 문장을 용이하게 추출할 수 있으며, 상기 재난 원인 문장은 메타데이터 및 통계결과 값과 함께 원인정보 집합으로 분석되고 이는 재난원인 분류체계(MEPS)에 매핑되어 일관성있는 자료로서 제공되므로, 다양한 형식의 재난 관련 정보들을 통합 관리할 수 있도록 하는 재난원인 정보 자동 추출 방법에 관한 것이다.

또한, 본 발명에서는 상기 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식으로 변환되어진 자료들이 재난 유형별로 시계열 연속적으로 사건정보 DB에 축적될 것이므로, 빅데이터에 의한 기계학습(Machine learning)이 가능케되고, 이에 따라 비슷한 유형의 재난 관련 정보를 속히 추출하여 현장 제공이 가능케됨으로써, 재난 대응 역량을 대폭 강화할 수 있도록 하는 재난원인 정보 자동 추출 방법에 관한 것이다.

각종 재난 사고와 관련된 정부합동 재난원인조사 등 법정사무 이행하는 국립재난안전연구원에서는 「재난 및 안전관리 기본법」 제69조(재난원인조사)에 근거를 둔 정부합동 재난원인조사, 예비·수시·기획조사 등의 현장조사 업무를 수행했는데, 2015년에서 2020년까지 예비, 수시조사 49건, 기획조사 13건 등 총 62건의 현장조사를 실시했다.

이는 재난·사고 원인의 분석을 기반으로 하여 잠재적 혹은 관행적 문제들을 개선하고 재난·사고 재발 방지를 위한 것으로, 재난·사고 원인의 분석 고도화를 위해서 “통합적 재난관리체계 구축 및 현장 즉시대응 역량 강화” 목표에 따라 재난 원인규명 기술 개발을 추진하고 있다.

그러나 최근들어 재난사고 증가에 따라 관련 원인조사 필요성이 증가하고 대형화·복합화될 것으로 예상되는 미래 재난·사고 및 재난상황 변화에 따른 잠재적·심층적 원인 규명에 한계를 노출하였으므로, 대규모·복합적 재난사고 원인을 합리적·과학적으로 파악하기 위한 방안을 마련하고, 조사기술 강화를 위해 재난원인 조사ㆍ분석기술을 통합적으로 발전시키는 전략 수립이 요구된다.

이를 위해 재난원인을 조사분석하는 기술현황 및 각종 사례를 파악하고, 재난원인조사의 각 기능별 분석을 진행하고, 이를 기반으로 한 업무 및 연구개발 과제를 선정한 다음, 이를 기반으로 최종적으로 재난원인 조사 분석 방안의 중장기 계획을 수립해야 할 것이다.

이와 같은 기조에 따라 지난 2016년부터 2020년에 이르기까지 국립재난안전연구원은 미래·신종재난과 관련된 weak signal(미래잠재위험)을 효율적으로 탐색하기 위하여 국내·외 뉴스, 학술정보, SNS 등 대용량 텍스트 데이터의 지능적인 분석이 필요성이라는 목표를 설정하고 신종 복합재난에 대한 대비를 위하여 미래 재난에 대한 통찰력 확보를 위한 빅데이터 분석 기술과 비정형 데이터 처리 기술을 기반으로 연구를 추진하였다.

비정형 데이터의 형태로 유통되는 정보는 그 규모에 비해 정제되어 취급되는 정보가 상대적으로 제한되어 있기 때문에 이로부터 주요 정보의 추출과 이를 기반으로 재난안전 분야 이슈의 유의미한 정보분석과 추출의 필요성이 강조되어 왔다.

현재 국립재난안전연구원은 연차별로 꾸준히 개발해온 텍스트 기반 패턴인식, 기계학습 등의 다양한 기술을 활용하여 과거와 현재의 재난 상황과 위기 상황을 체계적으로 추출하고, 비정형 데이터로부터 정보를 추출하여 모니터링을 할 수 있는 기초 자료의 확보와, 각 재난 상황의 사건정보 속성 추출을 통한 내용 분석을 통해 분류 대상으로 선정한 재난안전 관련 상황 발생에 신속히 시스템적으로 대응할 수 있도록 연구해왔다.

이를 위해 활용된 재난 정보들은 주로 비정형 데이터로써, 2019년 까지 국내 뉴스, 국내 뉴스 댓글, 국내 지방지 뉴스, 국외 뉴스, 학술정보 DB등을 취급하고 있었고, 2020년에는 국민적, 사회적 관심 분석을 위해서 수집 데이터의 유형을 일반 대중이 글쓴이 중 많은 비중을 차지 가능성이 있는 네이버 블로그/까페, 다음 블로그/까페, 트위터, 페이스북, 유튜브를 추가로 조사하여 매체별 상황을 기록하고 국민적, 사회적 관심에 관련된 내용을 분석했다.

2020년의 연구 단계에 이르기까지 국립재난안전연구원에서 중장기적인 연구를 기반으로 개발하고 있는 R-Scanner 시스템을 연구 과제의 결과로써 개발하였고, 매년 처리 기술의 수준을 고도화하고 처리 데이터의 영역을 확장함으로써 재난안전 분야의 이슈를 조기에 감지할 수 있고 실시간성 특징을 보이는 긴급 발생 이슈를 모니터링할 수 있는 정보 추출 기술의 기반이 되었다.

즉, 재난정보들은 주로 뉴스, 학술정보 DB, 각종 SNS 등 다양한 경로를 통해 입수되고 대개 비정형의 일관성 없는 자료들로 제공되므로, 이들을 고급 인력에 의해 일일히 분석해야하는 문제점이 있는 바, 시급을 요하는 재난상황에 대해서는 신속, 정확히 대응할 수 없고, 지료 분석 및 관리 비용이 비싸지는 문제점이 있었다.

특허문헌 1: 대한민국 특허공개공보 제 2016-0006441호 특허문헌 2: 대한민국 특허공개공보 제 2020-0076918호

본 발명에서는 위 문제점을 해소하기 위한 것으로서,

뉴스, 학술정보 DB, 각종 SNS 등 다양한 경로를 통해 입수되는 비정형의 재난정보들을 키워드 사전 및 재난원인 분류체계(MEPS)에 의해 통합적으로 관리할 수 있게함으로써, 시급을 요하는 재난상황에 대해 신속, 정확히 대응할 수 있도록 함에 첫번째 목적이 있는 것이다.

또한, 재난 관련 정보들로부터 빅데이터를 분석 및 축적하되, 재난 관련 어휘를 추출하기 위한 키워드 사전을 사용하므로 재난 원인 문장을 용이하게 추출할 수 있으며, 상기 재난 원인 문장은 메타데이터 및 통계결과 값과 함께 원인정보 집합으로 분석되고 이는 재난원인 분류체계(MEPS)에 매핑되어 일관성있는 자료로서 제공되므로, 다양한 형식의 재난 관련 정보들을 통합 관리할 수 있도록 함에 두번째 목적이 있는 것이다.

본 발명에서는 상기 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식으로 변환되어진 자료들이 재난 유형별로 시계열 연속적으로 사건정보 DB에 축적될 것이므로, 빅데이터에 의한 기계학습(Machine learning)이 가능케되고, 이에 따라 비슷한 유형의 재난 관련 정보를 속히 추출하여 현장 제공이 가능케됨으로써, 재난 대응 역량을 대폭 강화할 수 있도록 함에 세번째 목적이 있는 것이다

상기한 목적을 달성하기 위한 본 발명의 재난원인 정보 자동 추출 방법에서는,

뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 재난 관련 정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 정보 자동 추출 및 축적 프로그램이 실행되어 재난원인 정보가 자동 추출되어 사건 정보 DB에 저장되고, 모니터에서는 결과 화면이 디스플레이되는 재난원인 정보의 자동 추출방법에 있어서,

다양한 형식의 과거 재난안전 정보들이 유입되면 재난종류별 분류하여 일관된 형식으로 변환되어진 데이터들을 저장 및 축적하는 빅데이터 형성과정과;

신규 재난안전 정보가 유입되면 상기 빅데이터들에 축적하되, 기계학습에 의해 과거의 유사 재난안전을 검색하여 대응방법을 제공하는 대응정보 제공과정으로 구성되는데,

상기 빅데이터 형성과정에서는 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 별도로 유입된 뉴스 등 참고자료에서는 재난 대응방법과 관련된 메타데이터와 통계결과값이 추출되며, 상기 추출된 재난원인 문장과, 메타데이터와 통계결과값은 결합되어 원인정보 집합을 구축하고, 상기 원인정보 집합의 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며,

상기 대응정보 제공과정에서도 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 상기 재난원인 문장에 의한 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며, 기계학습(Machine learning)에 의해 상기 축적된 빅데이터로 부터 과거 유사 재난정보가 검색되어지되, 과거 유사 재난정보는 재난 대응방법과 관련된 메타데이터 및 통계결과값을 포함하는 원인정보 집합들이 재난원인 분류체계(MEPS)에 매핑되어 재난원인 분석시트로서 제공되므로, 신규 재난안전 정보와 유사한 과거 재난안전 정보를 그 대응방법 및 피해수치 등에 대한 통계값과 함께 바로 확인할 수 있도록 제공된다.

상기 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식으로 변환되어진 자료들은 재난 유형별로 시계열 연속적으로 사건정보 DB에 축적됨으로써, 빅데이터에 의한 기계학습(Machine learning)이 가능케된다.

재난안전 관련정보는 뉴스, 학술정보 DB, SNS 와 같은 다양한 루트를 통해 다양한 형식으로 제공되고, 텍스트 기반 패턴인식 기술에 의해 텍스트화되며, 재난원인 정보 자동 추출 및 축적 프로그램에서는 수많은 정보들로부터 맞춤형 재난안전 뉴스만을 제공받을 수 있도록, "검색기간", "재난유형", "검색어조합", "속성정보 검색" 기능 중 한개 이상이 구비될 수 있다.

상기 맞춤형 재난안전 뉴스 중에서 추출된 재난안전 관련 정보는 재난원인 분류 체계(MEPS)에 따라 시기별 사건 정보들을 추출하여 기록되며, 단순한 데이터의 저장 목적 이외에도 사건정보 DB는 의미기반의 사건 간 연결, 추론, 검색의 토대로 사용되고, 사건정보 DB내 테이블을 기반으로 피해규모, 재난원인, 시기 단위 등 다앙?h 기준을 통한 사건 정보 검색의 기반으로 사용되며, 사건들의 연결, 선후관계를 연결하여 재난안전 관련정보들의 관계를 반영한 정보 탐색이 이루어진다.

상기 재난원인 문장이 추출되는 과정에서는, 재난안전 관련정보는 구문 수준의 의미 태그로 텍스트 분석되며, SemanticTagger 모듈의 클래스 내부에 추출 대상별 함수로 정리되어 구현되고, 형태소 분석 결과를 기반으로 Chunking 후 의미 태그를 부착하며, 초기 룰셋정의, 태그부여, 중의성 해소, 추출의 과정을 거쳐 구문 수준 의미 태그로 텍스트가 분석될 수 있다.

상기 재난원인 문장이 추출되는 과정에서는, 미리 정의된 재난 유형으로 분류된 문서에서 사건 정보를 추출하며, 문서의 사건 정보 기록을 위해 시간, 공간, 주어, 목적어, 서술어, 부정어, 수식어, 규모정보, 링크 정보 중 2개 이상을 기준으로 데이터베이스를 구성한다.

상기 재난원인 분류체계(MEPS)는 안전사고 및 자연재난의 원인과 원인요인들을 세분화하여, 인적, 물적, 자연환경적, 사회경제적, 관리정책적 등의 대분류에 의해 재난원인을 분류한 것으로, 인위적, 관리적, 환경적, 경제적, 물리적, 정책적, 사회적 요인으로 구분(Level 1)하고, 재난, 안전사고에 전반적으로 적용될 수 있는 원인요인들에 대해 세부적으로 구분(Level 2, 3)하도록 구성된다.

상기 Level 1의 인위적 요인으로는 개인과실, 인간의 공익이나 사익을 위한 개발행위로 인한 위험 노출을 포함한 인간의 인위적인 행위로 인한 요인을 포함하고, 관리적 요인은 관리 점검 소홀, 안전장치 미흡, 관리 감독 소홀, 현장 대응 시 지휘 및 통제 미흡, 안전교육 훈련 실시 유무를 포함하며, 환경적 요인은 자연재해, 댐이나 하천구조물 특성, 유역의 특이사항, 지형, 지질학적 특성, 재해취약지역 유무를 포함하며, 경제적 요인은 공익, 사익을 위해 안전을 무시한 경영을 포함하며, 물리적 요인은 기술적인 장애나 오류, 장비/설비의 불안전한 상태를 포함하며, 정책적 요인은 법/제도/매뉴얼 수립 유무, 불합리한 내용 혹은 모순된 내용 포함 유무를 포함하며, 사회적 요인은 개인,단체의 안전인식, 위험상황에 대한 전파 유무를 포함할 수 있다.

상기 사건 정보 DB의 데이터들을 재난원인 분류체계(MEPS)에 매핑하여 사고조사 기관 보고서 분석결과를 도출하고, 일관된 형식의 재난원인 분석시트로 변환한 다음, 사건정보 DB에 저장하고 빅 데이터로 축적한다.

상기 사건 정보 DB의 데이터가 과거 재난안전 정보들인 경우, 재난 대응방법과 관련된 메타데이터와 통계결과값이 결합되어진 원인정보 집합이 구축되므로, 상기 원인정보 집합에 의한 사건 정보 DB의 데이터들을 재난원인 분류체계(MEPS)에 매핑하여 사고조사 기관 보고서 분석결과를 도출하고, 일관된 형식의 재난원인 분석시트로 변환한 다음, 사건정보 DB에 저장하고 빅 데이터로 축적한다.

상기 재난안전 관련정보의 텍스트에서 재난원인 문장을 추출하고, 형태소 분석하여 의미태그를 부착하고, 중의성을 해소하여 재난원인 키워드를 추출하되, 상기 재난원인 키워드가 등장 빈도 기반 유의미한 수준으로 미리 설정된 횟수를 상회할 경우에만 키워드 사전에 반영함으로써 재난원인 키워드의 범용성이 확보되도록 하고, Pearson’s Chi-squared Test 기반 Chi-squared Distribution Correlation Model을 적용하여 키워드 연관도를 통계적으로 모델링해줌으로써 키워드 사이의 연관성이 확보되도록 한다.

상기 추출된 재난원인 문장과 재난원인 분류체계(MEPS)와의 매핑이 용이하도록, 재난원인 문장에서 원인 명사와 결과 술어에 대한 분류체계가 구축되며, 이를 위해 명사는 재난원인, 술어는 피해양상으로 정리한 후 분류되도록 한다.

상기 원인 명사와 결과 술어의 리스트 작성 및 분류를 통해 재난원인 키워드가 도출되고, 재난원인키워드 간 연관관계를 정량적으로 표현하여 재난원인키워드 사전이 수록될 수 있다.

본 발명에서는, 뉴스, 학술정보 DB, 각종 SNS 등 다양한 경로를 통해 입수되는 비정형의 재난정보들을 키워드 사전 및 재난원인 분류체계(MEPS)에 의해 통합적으로 관리할 수 있게함으로써, 시급을 요하는 재난상황에 대해 신속, 정확히 대응케되는 효과가 있다.

또한, 재난 관련 정보들로부터 빅데이터를 분석 및 축적하되, 재난 관련 어휘를 추출하기 위한 키워드 사전을 사용하므로 재난 원인 문장을 용이하게 추출할 수 있으며, 상기 재난 원인 문장은 메타데이터 및 통계결과 값과 함께 원인정보 집합으로 분석되고 이는 재난원인 분류체계(MEPS)에 매핑되어 일관성있는 자료로서 제공되므로, 다양한 형식의 재난 관련 정보들을 통합 관리할 수 있는 효과가 있다.

본 발명에서는 상기 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식으로 변환되어진 자료들이 재난 유형별로 시계열 연속적으로 사건정보 DB에 축적될 것이므로, 빅데이터에 의한 기계학습(Machine learning)이 가능케되고, 이에 따라 비슷한 유형의 재난 관련 정보를 속히 추출하여 현장 제공이 가능케됨으로써, 재난 대응 역량을 대폭 강화할 수 있게되는 효과가 있다.

도 1은 본 발명의 재난원인 정보 자동 추출 방법을 수행하기 위한 기본 시스템 구성도이고,
도 2는 본 발명에서 아카이브 정보가 재난원인 분류체계로 매핑되어 저장되는 과정을 나타낸 플로챠트이고,
도 3은 본 발명에서 신규 재난정보가 재난원인 분류체계로 매핑 및 저장된 후 기계학습되며, 과거 유사 재난정보 검색하는 과정을 나타낸 플로챠트이고,
도 4는 본 발명의 재난원인 정보 자동 추출 방법의 전체 처리과정을 나타낸 플로챠트이고,
도 5는 본 발명에 따라 맞춤형 재난안전 뉴스를 제공받기 위한 시스템의 검색 화면이고,
도 6은 본 발명에 따라 사건정보 DB의 데이터를 재난원인 분류체계(MEPS)에 매핑하는 방법에 대한 예시도이고,
도 7은 본 발명에 따라 사건정보 DB의 데이터를 재난원인 분류체계(MEPS)에 매핑하는 방법에 대한 또 다른 예시도이고,
도 8은 본 발명에 따라 아카이브에서 추출된 재난원인 문장과, 뉴스 등 참고자료에서 추출된 메타데이터 및 통계 결과값이 결합되어 원인정보 집합을 구축한 후, 재난원인 분류체계(MEPS)에 매핑되어 사건정보 DB에 저장되는 과정을 나타낸 플로챠트이고,
도 9는 본 발명에 따라 재난안전 관련정보의 텍스트로부터 키워드사전에 의한 재난원인 추출과정을 나타낸 예시도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

한편, 하기 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하다. 따라서 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다.

예컨대, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.

또한 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 가진다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

먼저, 도 1은 본 발명의 재난원인 정보 자동 추출 방법을 수행하기 위한 기본 시스템 구성도로서,

뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 재난 관련 정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 정보 자동 추출 및 축적 프로그램이 실행되어 재난원인 정보가 자동 추출되어 사건 정보 DB에 저장되고, 모니터에서는 결과 화면이 디스플레이되도록 이루어진다.

또한, 상기 사건정보 DB에서는 새로운 재난안전 관련정보들이 계속 축적되어 빅데이터를 형성하며, 상기 사건정보 DB의 데이터들은 상기 재난원인 정보 자동 추출 및 축적 프로그램에 의해 일관성있는 자료로 변환되어 통합관리 가능케되며, 빅데이터들은 기계학습되어 신규 재난정보에 대응되는 과거의 유사 재난정보를 검색가능케됨으로써 재난 대응 역량이 대폭 강화될 수 있는 것이다.

이에 대해 보다 상세히 설명하자면 다음과 같다.

국립재난안전연구원은 미래·신종재난과 관련된 weak signal(미래잠재위험)을 효율적으로 탐색하기 위하여 국내·외 뉴스, 학술정보, SNS 등 대용량 텍스트 데이터의 지능적인 분석이 필요성이라는 목표를 설정하고 신종 복합재난에 대한 대비를 위하여 미래 재난에 대한 통찰력 확보를 위한 빅데이터 분석 기술과 비정형 데이터 처리 기술을 기반으로 연구를 추진하였다. 비정형 데이터의 형태로 유통되는 정보는 그 규모에 비해 정제되어 취급되는 정보가 상대적으로 제한되어 있기 때문에 이로부터 주요 정보의 추출과 이를 기반으로 재난안전 분야 이슈의 유의미한 정보분석과 추출의 필요성이 강조되어 왔다.

현재 국립재난안전연구원은 연차별로 꾸준히 개발해온 텍스트 기반 패턴인식, 기계학습 등의 다양한 기술을 활용하여 과거와 현재의 재난 상황과 위기 상황을 체계적으로 추출하고 비정형 데이터로부터 정보를 추출하여 모니터링을 할수 있는 기초 자료의 확보와 각 재난 상황의 사건정보 속성 추출을 통한 내용 분석을 통해 분류 대상으로 선정한 재난안전 관련 상황 발생에 신속히 시스템적으로 인지할 수 있는 R-Scanner 시스템을 개발하였다.

이 시스템에서 취급하고 있는 정보는 주로 비정형 데이터로써 2019년 까지 국내 뉴스, 국내 뉴스 댓글, 국내 지방지 뉴스, 국외 뉴스, 학술정보DB등을 취급하고 있었고, 최근에는 국민적, 사회적 관심 분석을 위해서 수집 데이터의 유형을 일반 대중이 글쓴이 중 많은 비중을 차지 가능성이 있는 네이버 블로그/까페, 다음 블로그/까페, 트위터, 페이스북, 유튜브를 추가로 조사하여 매체별 상황을 기록하고 국민적, 사회적 관심에 관련된 내용을 분석했다.

최근의 연구 단계에 이르기까지 국립재난안전연구원에서 중장기적인 연구를 기반으로 개발하고 있는 R-Scanner 시스템을 연구 과제의 결과로써 개발하였고, 매년 처리 기술의 수준을 고도화하고 처리 데이터의 영역을 확장함으로써 재난안전 분야의 이슈를 조기에 감지할수 있고 실시간성 특징을 보이는 긴급 발생 이슈를 모니터링할 수 있는 정보 추출 기술의 기반이 되었다. 이를 통해, 각 재난 상황에서 어떤 매체의 데이터를 우선적으로 검토해야 하는지에 대한 근거에 대한 분석이 본 발명의 핵심적인 목표라고 할 수 있다.

먼저, 자료조사 수집을 통해 사회적 관심 정보(언론 등) 현황 조사와 정보 확대 수집 체계 개발을 하고, 재난안전 분야 활용 가능한 사회적 관심 정보(언론 등) 현황 조사 및 언론 미디어 텍스트 정보 체계의 수집 근거를 실제 데이터의 양상을 분석하여 정확히 파악해야하고,

분석 및 검증을 통해 재난안전 관련 국민관심 분석을 위한 자료조사와 활용성 분석 및 검증을 하고, 정보 유형별 기초자료 분석 및 활용성 분석과 검증 및 재난안전 정보량, 데이터 집중도, 유효정보량, 데이터 지속성 정의 및 분석을 하고자 한다. 또한, 탐색 및 연구를 통하여 자료유형별 시계열 연속성 및 이벤트 발생 기반 주요 속성 탐색 방안 연구와 정보유형별 재난안전 속성정보 기반 탐색 방법 고도화를 하고, 문서 내 재난안전 사고의 발생을 포함하여 피해, 대책 등과 같이 재난안전 핵심정보를 나타내는 주요문장 탐색 및 재난안전 속성정보(발생,피해,장소등)를 구조화하여 탐색 가능한 사용자 인터페이스를 고도화 하고자 한다.

도 5는 본 발명에 따라 맞춤형 재난안전 뉴스를 제공받기 위한 시스템의 검색 화면으로서, 뉴스의 수많은 정보들로부터 재난안전 관련된 정보들을 추출하기 위해 재난원인 정보 자동추출 및 축적 프로그램에서는 맞춤형 재난안전 뉴스들만을 선별하여 제공할 수 있다.

사용자는 재난정보의 범위를 임의로 설정하여 맞춤형 재난안전 뉴스를 제공받을 수 있는데,

"검색기간"을 "최근 1주일", "최근 1개월", "최근 3개월" 들 중에서 선택하거나, "검색범위"를 뉴스의 "제목과 본문", "제목", "본문" 들 중에서 선택하거나, "내용범위"를 뉴스의 "전체", "피해뉴스", "비판뉴스" 들 중에서 선택하거나, "언론사"를 "전체", "연합뉴스", "중앙지", "지역종합지" 들 중에서 선택할 수 있으며,

"재난유형"을 "자연재난", "사회재난", "안전사고" 중에서 1차 선택하고, "자연재난"은 "태풍, 홍수, 산사태 등"으로 2차 선택하고, "사회재난"은 "화재, 산불, 자동차 사고 등"으로 2차 선택하고, "안전사고" 는 "승강기 사고, 전기가스 사고, 범죄 등"으로 2차 선택할 수 있으며,

"검색어 조합"에 의해 직접 포함되거나 불포함된 검색어를 조합하여 뉴스를 선택할 수도 있으며,

"속성정보 검색"에서 "시도 선택", "시군구 선택", "사고유형" 에서 원하는 뉴스 유형을 선택하거나, "기상정보", "인명피해", "재산피해"의 정도에 의해 원하는 뉴스 유형을 선택함으로서, 맞춤형 재난안전 뉴스, 즉 신규 재난정보들을 추출할 수 있다.

이와 같이 추출된 신규 재난정보, 즉 맞춤형 재난안전 뉴스는 사건정보 DB에 저장되어 빅데이터로 축적될 것인데,

다양한 형식을 가진 비정형 자료로 제공될 것이므로, 이를 일관성 있는 자료체계로 변환한 다음 재난원인 문장을 추출하여 분류 및 분석하며, 이를 사건정보 DB에 빅데이터로 축적하여 기계학습케함으로써, 신규 재난정보가 유입되면 과거의 유사 재난정보를 찾아내서 신속, 정확히 대응할 수 있도록 한다.

맞춤형 재난안전 뉴스 등에서 추출된 재난안전 관련 정보는 국립재난안전연구원 재난원인 분류 체계(MEPS)에 따라 시기별 사건 정보들을 추출하여 기록되는데, 단순한 데이터의 저장 목적 이외에도 , 사건정보DB는 의미기반의 사건 간 연결, 추론, 검색의 토대가 되고, 사건정보 DB내 테이블을 기반으로 피해규모, 재난원인, 시기 단위 등 다앙?h 기준을 통한 사건 정보 검색의 기반이 되므로,

단일 사건의 검색을 넘어서, 사건들의 연결, 선후관계를 연결하여 재난안전 사건들의 관계를 반영한 정보 탐색을 지원할 수 있도록 한다.

재난안전분야 사고 정보는 구문 수준의 의미 태그로 텍스트 분석되며, SemanticTagger 모듈의 클래스 내부에 추출 대상별 함수로 정리되어 구현된다. 형태소 분석 결과를 기반으로 Chunking 후 의미 태그를 부착한다. 즉, 초기 룰셋정의, 태그부여, 중의성 해소, 추출의 과정을 거쳐 구문 수준 의미 태그로 텍스트가 분석된다.

문서의 사건 정보를 추출하는 과정은, 미리 정의된 재난 유형으로 분류된 문서에서 사건 정보를 추출한다. 이후 문서의 사건 정보 기록을 위한 상세 테이블을 관리한다. 크게 시간, 공간, 주어 목적어, 서술어, 부정어, 수식어, 규모정보, 링크 정보 등을 기준으로 데이터베이스를 구성한다.

재난원인 문장 추출 고도화를 위해 사건정보 DB의 데이터를 국립재난안전연구원에서 실제로 적용하는 재난원인분류체계(MEPS)에 적용할 수 있다. 구체적으로 재난원인키워드 사전을 활용한 재난원인 문장 추출 방법 고도화 방법은 첫째 원인분류체계(MEPS)에 “재난원인조사 실시 및 운영에 관한 규정”의 분류체계를 반영하고, 둘째 사고조사 기관 보고서 내용 중 원인과 관련된 특정 부분을 추출하고 원인을 해석한다. 마지막으로 기본 재난기록물 작성 양식에 따라 교정하고 내용을 추가하게 된다.

재난 및 안전사고 전체를 아우르는 재난원인 분류체계(MEPS)는 다양한 재난의 특성을 종합적으로 고려하여 안전사고 및 자연재난의 원인들을 분석하여 원인요인들을 세분화하여, 인적, 물적, 자연환경적, 사회경제적, 관리정책적 등의 대분류를 활용하여 재난원인을 분류한다. (도 6 참조)

재난원인 분류체계(MEPS)는 국립재난안전연구원(2013)의 결과를 토대로 세분화하여, 인위적, 관리적, 환경적, 경제적, 물리적, 정책적, 사회적 요인으로 구분(Level 1)하고 하위 수준인 세부 내용으로서 Level 2, 3에 재난, 안전사고에 전반적으로 적용될 수 있는 원인요인들로 재설정한다.

재난원인분류체계(MEPS)의 세부분류 내용은 크게 인위적, 관리적, 환경적, 경제적, 물리적, 정책적, 사회적 7개 대분류와 17개 중분류로 구성된다. 인위적 요인은 개인과실(조작 미숙, 절차/법령 미준수등), 인간의 공익이나 사익을 위한 개발행위로 인한 위험 노출 등 인간의 인위적인 행위로 인한 요인으로 구성되고, 관리적 요인은 관리 점검 소홀(장비, 시설, 안전점검 등), 안전장치(안전시설, 시스템체계 등) 미흡, 관리 감독 소홀, 현장 대응 시 지휘 및 통제 미흡, 안전교육 훈련 실시 유무로 정의된다.

환경적 요인은 눈, 비, 바람 등 대기활동, 태풍, 폭염, 대설 등 자연재해, 댐이나 하천구조물 특성, 유역의 특이사항, 지형, 지질학적 특성, 재해취약지역 유무 등이고, 경제적 요인은 공익, 사익을 위해 안전을 무시한 경영 등으로 구성된다. 또한 물리적 요인은 기술적인 장애나 오류, 장비/설비의 불안전한 상태 등, 정책적 요인은 법/제도/매뉴얼 수립 유무, 불합리한 내용 혹은 모순된 내용 포함 유무, 적용 불가능하거나 다른 법/규정과 충돌 항목, 해석이 모호한 항목, 마지막으로 사회적 요인은 개인,단체의 안전인식, 위험상황에 대한 전파 유무, 현장대응 시 발생하는 갈등 등으로 구성된다.

재난원인분류체계(MEPS)와 “재난원인조사 조사 및 운영에 관한 규정”의 원인분류체계와 비교하자면(도 6 참조), 재난원인분류체계의 7개 대분류를 4개로 통합하고 39개 소분류를 50개로 세분화했다고 할 수 있다. 재난원인분류체계의 『인위적』항목 대응, 『과실』 중분류에 태만추가, 조작 미숙 소분류 누락, 중분류 『불안전 행동』 중분류에 지식부족, 조작 미숙, 대응력 부족, 인지적 결함, 이상행동 소분류로 구성되고, 재난원인분류체계의 『인간활동』 중분류 대응 항목이 부재하다.

재난원인분류체계의 『관리적』 대분류 대응, 중분류 수준에서 『예산운영 부적절』, 『경영관리 부적절』, 『위험환경 』 항목 추가, 원인분류체계 『경제적>기업경제>안전을 무시한 경영』 항목 및 『물리적』 대분류가 통합되어 있다. 사회적 요인에서는 법·제도·제도 정책 미흡 및 부재, 국가 매뉴얼 미흡 및 부재, 안전의식 결여, 협력 네트워크 미흡 4개 중분류로 구성되고, 환경적 요인은 기상 위험환경, 수리·수문 위험환경, 지형·지질 위험환경, 시설·장비 불안정, 기술·공정상 오류 등 5개 중분류로 정의된다.

즉 도 6에서와 같이, “재난원인조사 조사 및 운영에 관한 규정”에 따른 사건 정보 DB의 데이터를, 재난원인 분류체계(MEPS)에 매핑하여 사고조사 기관 보고서 분석결과를 도출한 다음, 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터 축적되어진다.

또한, 과거의 재난안전 관련정보들에 대해서도 위와 동일한 방법으로 “재난원인 조사 실시 및 운영에 관한 규정”에 정의된 재난·사고 원인 분류와 국립재난안전연구원에서 정의한 재난원인분류체계(MEPS)와 비교를 통해 이를 일관성있게 정리한 이후, 사고조사 기관 보고서 등 재난이력 아카이브 분석결과를 통합된 원인분류체계에 반영하는 작업이 진행된다. (도 2 참조)

재난이력 및 원인조사의 기초자료가 되는 재난이력 아키아브는 국내 재난관리 및 제도 변화에 큰 영향을 미친 주요 재난 대형재난 15건을 재난을 대상으로 아카이브 구성 대상으로 삼는다.

여기에 더하여 기사 검색 자료를 스크랩한 언론, 국가기록원 자료검색 서비스를 통해 보유 목록 확인한 백서 및 보고서, 국회회의록 및 국회의안정보 시스템을 활용, 해당 재난 검색, 국회 회의록(상임위원회, 특별위원회, 국정감사 등), 의안 자료 등 국회 자료, 법원 대국민 서비스를 통해 전국법원 주요 판결문 검색, 개인정보보호법에 따라 비실명처리된 자료인 법원 자료 등을 추가로 대상으로 포함한다. 마지막으로 1974년부터 2014년까지 사망 및 실종 10명 이상의 재난 사고 249건으로 구축된 재난이력 데이터베이스 자료도 추가된다.

구체적으로 “재난원인조사 실시 및 운영에 관한 규정”에 정의된 원인분류체계와 재난원인분류체계(MEPS)의 세분화된 재난유형을 비교하고 특수목적으로 정의된 고유개념에 해당하는 재난유형에 일관성을 부여하고, 도 7에서와 같이 재난원인분류체계(MEPS)의 Level3 항목을 “재난원인조사 실시 및 운영에 관현 규정”의 원인 분류체계의 소분류에 매핑하여 분류체계의 일관성을 부여한다.

또한, 원인정보 분석체계 일반화를 위해 도 8과 같이 사고조사보고서와 참고자료에서 각각 추출된 원인정보집합을 메타데이타 및 통계결과값과 연결하여 분석하는 체계를 설정할 수 있다.

재해관련 사고조사보고서와 해당 사고와 관련된 뉴스기사 등 참고자료를 더하여 자연어처리(Natural Language Process;NLP) 기반 재난원인문장 추출 자동화를 적용한다. 여기에서 도출될 결과 대상으로 원인정보 집합을 구성하는데 이를 바탕으로 정보 구조화를 실시하고 관련 이미지 분류 가능성을 검토한다.

구조화된 원인정보 집합을 대상으로 원인정보 메타데이터 및 통계결과를 저장한 이후 해당 데이터를 분석하고 시각화화여 결과를 도출하는 방식으로 표준화된 원인정보 분석 체계를 구현할 수 있다.

즉, 도 2에서와 같이, 사건조사보고서 등에 의한 과거의 재난안전 관련정보를 제공받으면, 재난원인 정보 자동추출 및 축적 프로그램에서는 텍스트에서 구문수준 의미태그로 재난원인 문장들을 추출하는데, 이때 뉴스 등 참고자료에 의하여 재난대응방법에 대한 메타 데이터 및 통계 결과값이 함께 추출된다.

상기 추출되어진 재난원인 문장들과, 메타데이터 및 통계 결과값은 결합되어 원인정보 집합을 구축하며, 이와 같이 구축된 원인정보 집합의 사건정보 DB의 데이터들은 재난원인 분류체계(MEPS)에 매핑됨으로써 일관성있는 자료로 변환되고, 이 자료는 상기 원인정보의 메타데이터 및 통계 결과값과 함께 사건정보 DB에 저장되어 빅데이터로 축적된다.

신규 재난정보가 유입되면, 도 9에서와 같이 키워드 사전에 의한 재난 원인 추출이 이뤄지는데,

텍스트에서 재난원인 문장을 추출하고, 형태소 분석하여 의미태그를 부착하고, 중의성을 해소하여 재난원인 키워드를 추출한다.

구축된 재난원인 키워드의 일반성 혹은 범용성 검토 및 각 재난원인 키워드 사이의 연관성을 규명하는 작업은 과제의 최종 결과물의 신뢰성을 담보하고, 효과적인 원인 분석 및 시각화 구현을 위해서 필수적이다.

앞에서 언급한 분석 대상 사건조사보고서 및 관련 언론기사에서 해당 재난원인 키워드의 등장 빈도 기반 유의미한 수준의 등장 횟수를 설정하고 이 기준을 상회하는 키워드만 사전에 반영하는 방식으로 재난원인 키워드의 범용성을 확보할 수 있다.

또한 재난키워드 사이의 연관성은 Pearson’s Chi-squared Test 기반 Chi-squared Distribution Correlation Model을 적용하여 키워드 연관도를 통계적으로 모델링할 수 있다. 이를 통해 문장 내에 등장하는 각 키워드 사이의 연관도를 측정할 수 있으며 이는 특정 키워드가 등장할 때 다른 키워드가 등장할 수 있는 조건부 확률을 나타내므로 재해 원인 키워드 사이의 조건에 따른 등장 확률을 파악할 수 있다. 또한 이는 이후 시각화 과정에서도 각 키워드 같이 네크워크를 구성하는 주요한 매개링크의 근거로 적용될 수 있다.

분석영역별 정량적 가중치를 부여하기 위해서는 우선 가중치를 부여하는 영역(분류체계)이 이미 설정되어야 하고, 해당 영역에 적용될 수 있는 가중치 도출 대상 데이터가 정의되어야 한다. 본 과제에서는 재난원인분류 체계를 기반으로 사건조사보고서와 관련 언론기사 데이터를 가중치를 부여하기 위한 원데이터(raw-data)로 사용하게 된다.

즉, 재난원인 키워드 및 재난유형 간 연관관계 가중치와 재난키워드 간의 연관관계 가중치를 구하고 이를 기반으로 주요 재난 분류별 연관관계 상위 N개 키워드를 도출할 수 있다. 마지막으로 가중치 적용 방법은 분석영역별 대상 데이터에서 추출한 재난원인 키워드들의 등장 빈도에 근거한 정규화된 값을 적용한다.

원인정보 가시화를 위해서 재난원인키워드 간 연관성을 기반으로 네트워크를 구성하는 표출하는 방식으로 진행된다. 이를 위해서 문장 및 문서 기준 키워드 간 동시출현 빈도 기반의 연관성 지표를 구현하는 이를 바탕으로 동시출현 행렬을 구성하여 네트워크 시각화를 도출한다. 즉, 재난원인정보 키워드 사이의 연관도를 기반으로 Pajek 네트워크 툴을 적용하여 각종 네트워크 연산을 적용하고 지표를 도출하여 VOSViewer 네트워크 시각화 툴을 적용하여 구현한다.

한편, 키워드 사전은 표제어에 대해서 ‘정의’ 항목이 기술되므로, 재난원인키워드 사전의 표제어인 원인키워드는 해설과 예문이 함께 제시되어야 한다. 이를 전제로, 재난원인키워드 사전은 다음과 같은 절차를 통해 구성될 수 있다.

첫째, 유사자료의 수집과 자료 검토를 통해 재난원인키워드 사전의 기본 데이터를 검토할 수 있다. 재난원인키워드 사전은 기본 데이터로 재난 기록물을 사용하고 있으며 이를 검토하는 과정은 대상 재난 선정, 기록물 수집 및 원인용어 검토의 순서로 진행된다.

대상 재난 선정 단계에서의 대상 재난은 기존에 진행됐던 연구 데이터를 참고한 재난아카이브 목록과 행정안전부 및 수집 가능 사고 조사기관의 사고 목록을 추가하여 활용할 수 있다.

둘째, 자료검토 및 유사자료 수집을 통해 추출된 원인 문장에서 원인 명사와 결과 술어에 대한 분류체계를 구축하는 과정이 필요하다. 명사는 재난원인, 술어는 피해양상으로 정리한 후 분류되며 재난원인분류체계와의 연계를 염두하여 재난원인키워드를 분류한다.

셋째, 앞서 수행한 원인 명사와 결과 술어의 리스트 작성 및 분류를 통해 재난원인키워드를 도출하고, 재난원인키워드 간 연관관계를 정량적으로 표현하여 재난원인키워드 사전에 수록한다. 이후, 검토 과정을 거쳐 재난원인 키워드의 특성을 확보한 사전 구축을 수행할 수 있다.

재난안전 관련정보를 추출하기 위해 뉴스기사 외에도 소셜 네트워크 분석(Social Network Analysis)이 사용될 수 있다.

소셜 네트워크 분석(Social Network Analysis)은 개인이나 집단의 사회관계망 특성과 구조를 분석하고 시각화하는 첨단 분석기법으로서, 소셜 네트워크 분석은 소단위인 국가 구성원에서 대단위인 국가적 차원까지 다양한 수준에서 수행될 수 있으며, 이 경우에도 텍스트에서 구문수준 의미태그로 재단원인 문장을 추출되고, 사건정보 DB의 데이터를 재난원인 분류체계(MEPS)에 매핑하며, 사건정보 DB에 저장되고, 빅데이터로 축적되어 기계학습에 사용된다.

도 2는 본 발명에서 아카이브 정보가 재난원인 분류체계로 매핑되어 저장되는 과정을 나타낸 플로챠트이고, 도 3은 본 발명에서 신규 재난정보가 재난원인 분류체계로 매핑 및 저장된 후 기계학습되며, 과거 유사 재난정보 검색하는 과정을 나타낸 플로챠트로서,

본 발명은 기본적으로

상기 대응정보 제공과정에서도 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 상기 재난원인 문장에 의한 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며, 기계학습(Machine learning)에 의해 상기 축적된 빅데이터로 부터 과거 유사 재난정보가 검색되어지되, 과거 유사 재난정보는 재난 대응방법과 관련된 메타데이터 및 통계결과값을 포함하는 원인정보 집합들이 재난원인 분류체계(MEPS)에 매핑되어 재난원인 분석시트로서 제공되므로, 신규 재난안전 정보와 유사한 과거 재난안전 정보를 그 대응방법 및 피해수치 등에 대한 통계값과 함께 바로 확인할 수 있는 바, 재난 대응 역량을 대폭 강화할 수 있게된다.

이상 설명한 바와 같이 본 발명은, 뉴스, 학술정보 DB, 각종 SNS 등 다양한 경로를 통해 입수되는 비정형의 재난정보들을 키워드 사전 및 재난원인 분류체계(MEPS)에 의해 통합적으로 관리할 수 있게함으로써, 시급을 요하는 재난상황에 대해 신속, 정확히 대응케되는 효과가 있으며,

재난 관련 정보들로부터 빅데이터를 분석 및 축적하되, 재난 관련 어휘를 추출하기 위한 키워드 사전을 사용하므로 재난 원인 문장을 용이하게 추출할 수 있으며, 상기 재난 원인 문장은 메타데이터 및 통계결과 값과 함께 원인정보 집합으로 분석되고 이는 재난원인 분류체계(MEPS)에 매핑되어 일관성있는 자료로서 제공되므로, 다양한 형식의 재난 관련 정보들을 통합 관리할 수 있는 효과가 있다.

또한, 본 발명에서는 상기 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식으로 변환되어진 자료들이 재난 유형별로 시계열 연속적으로 사건정보 DB에 축적될 것이므로, 빅데이터에 의한 기계학습(Machine learning)이 가능케되고, 이에 따라 비슷한 유형의 재난 관련 정보를 속히 추출하여 현장 제공이 가능케됨으로써, 재난 대응 역량을 대폭 강화할 수 있는 것이다.

본 발명의 기술적 사상은 바람직한 실시형태에서 구체적으로 기술되었으나, 상기한 실시형태는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 명백한 것이며, 따라서 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.

Claims

뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 재난 관련 정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 정보 자동 추출 및 축적 프로그램이 실행되어 재난원인 정보가 자동 추출되어 사건 정보 DB에 저장되고, 모니터에서는 결과 화면이 디스플레이되는 재난원인 정보의 자동 추출방법에 있어서,
다양한 형식의 과거 재난안전 정보들이 유입되면 재난종류별 분류하여 일관된 형식으로 변환되어진 데이터들을 저장 및 축적하는 빅데이터 형성과정과;
신규 재난안전 정보가 유입되면 상기 빅데이터들에 축적하되, 기계학습에 의해 과거의 유사 재난안전을 검색하여 대응방법을 제공하는 대응정보 제공과정으로 구성되는데,
상기 빅데이터 형성과정에서는 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 별도로 유입된 뉴스 등 참고자료에서는 재난 대응방법과 관련된 메타데이터와 통계결과값이 추출되며, 상기 추출된 재난원인 문장과, 메타데이터와 통계결과값은 결합되어 원인정보 집합을 구축하고, 상기 원인정보 집합의 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며,
상기 대응정보 제공과정에서도 재난관련 어휘를 추출하기 위한 키워드 사전을 사용하여 재난원인 문장이 추출되고, 상기 재난원인 문장에 의한 사건정보 DB 데이터는 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식의 재난원인 분석시트로 변환되어 사건정보 DB에 저장 및 빅 데이터로 축적되며, 기계학습(Machine learning)에 의해 상기 축적된 빅데이터로 부터 과거 유사 재난정보가 검색되어지되, 과거 유사 재난정보는 재난 대응방법과 관련된 메타데이터 및 통계결과값을 포함하는 원인정보 집합들이 재난원인 분류체계(MEPS)에 매핑되어 재난원인 분석시트로서 제공되므로, 신규 재난안전 정보와 유사한 과거 재난안전 정보를 그 대응방법 및 피해수치 등에 대한 통계값과 함께 바로 확인할 수 있도록 제공되며,
상기 재난원인 문장이 추출되는 과정에서는, 재난안전 관련정보는 구문 수준의 의미 태그로 텍스트 분석되며, SemanticTagger 모듈의 클래스 내부에 추출 대상별 함수로 정리되어 구현되고, 형태소 분석 결과를 기반으로 Chunking 후 의미 태그를 부착하며, 초기 룰셋정의, 태그부여, 중의성 해소, 추출의 과정을 거쳐 구문 수준 의미 태그로 텍스트가 분석되며,
상기 재난원인 문장이 추출되는 과정에서는, 미리 정의된 재난 유형으로 분류된 문서에서 사건 정보를 추출하며, 문서의 사건 정보 기록을 위해 시간, 공간, 주어, 목적어, 서술어, 부정어, 수식어, 규모정보, 링크 정보 중 2개 이상을 기준으로 데이터베이스를 구성하며,
상기 사건 정보 DB의 데이터들을 재난원인 분류체계(MEPS)에 매핑하여 사고조사 기관 보고서 분석결과를 도출하고, 일관된 형식의 재난원인 분석시트로 변환한 다음 사건정보 DB에 저장하고 빅 데이터로 축적하되,
상기 사건 정보 DB의 데이터가 과거 재난안전 정보들인 경우, 재난 대응방법과 관련된 메타데이터와 통계결과값이 결합되어진 원인정보 집합이 구축되므로, 상기 원인정보 집합에 의한 사건 정보 DB의 데이터들을 재난원인 분류체계(MEPS)에 매핑하여 사고조사 기관 보고서 분석결과를 도출하고, 일관된 형식의 재난원인 분석시트로 변환한 다음, 사건정보 DB에 저장하고 빅 데이터로 축적하는 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
제 1항에 있어서,
상기 재난원인 분류체계(MEPS)에 매핑되어 일관된 형식으로 변환되어진 자료들은 재난 유형별로 시계열 연속적으로 사건정보 DB에 축적됨으로써, 빅데이터에 의한 기계학습(Machine learning)이 가능케되는 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
제 1항 또는 제 2항에 있어서,
재난안전 관련정보는 뉴스, 학술정보 DB, SNS 와 같은 다양한 루트를 통해 다양한 형식으로 제공되고, 텍스트 기반 패턴인식 기술에 의해 텍스트화되며, 재난원인 정보 자동 추출 및 축적 프로그램에서는 수많은 정보들로부터 맞춤형 재난안전 뉴스만을 제공받을 수 있도록, "검색기간", "재난유형", "검색어조합", "속성정보 검색" 기능 중 한개 이상이 구비된 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
제 3항에 있어서,
상기 맞춤형 재난안전 뉴스 중에서 추출된 재난안전 관련 정보는 재난원인 분류체계(MEPS)에 따라 시기별 사건 정보들을 추출하여 기록되며, 단순한 데이터의 저장 목적 이외에도 사건정보 DB는 의미기반의 사건 간 연결, 추론, 검색의 토대로 사용되고, 사건정보 DB내 테이블을 기반으로 피해규모, 재난원인, 시기 단위 등 다앙?h 기준을 통한 사건 정보 검색의 기반으로 사용되며, 사건들의 연결, 선후관계를 연결하여 재난안전 관련정보들의 관계를 반영한 정보 탐색이 이루어지는 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
삭제
삭제
제 1항 또는 제 2항에 있어서,
상기 재난원인 분류체계(MEPS)는 안전사고 및 자연재난의 원인과 원인요인들을 세분화하여, 인적, 물적, 자연환경적, 사회경제적, 관리정책적 등의 대분류에 의해 재난원인을 분류한 것으로, 인위적, 관리적, 환경적, 경제적, 물리적, 정책적, 사회적 요인으로 구분(Level 1)하고, 재난, 안전사고에 전반적으로 적용될 수 있는 원인요인들에 대해 세부적으로 구분(Level 2, 3)하도록 구성된 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
제 7항에 있어서,
상기 Level 1의 인위적 요인으로는 개인과실, 인간의 공익이나 사익을 위한 개발행위로 인한 위험 노출을 포함한 인간의 인위적인 행위로 인한 요인을 포함하고, 관리적 요인은 관리 점검 소홀, 안전장치 미흡, 관리 감독 소홀, 현장 대응 시 지휘 및 통제 미흡, 안전교육 훈련 실시 유무를 포함하며, 환경적 요인은 자연재해, 댐이나 하천구조물 특성, 유역의 특이사항, 지형, 지질학적 특성, 재해취약지역 유무를 포함하며, 경제적 요인은 공익, 사익을 위해 안전을 무시한 경영을 포함하며, 물리적 요인은 기술적인 장애나 오류, 장비/설비의 불안전한 상태를 포함하며, 정책적 요인은 법/제도/매뉴얼 수립 유무, 불합리한 내용 혹은 모순된 내용 포함 유무를 포함하며, 사회적 요인은 개인,단체의 안전인식, 위험상황에 대한 전파 유무를 포함하는 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
삭제
삭제
제 1항에 있어서,
상기 재난안전 관련정보의 텍스트에서 재난원인 문장을 추출하고, 형태소 분석하여 의미태그를 부착하고, 중의성을 해소하여 재난원인 키워드를 추출하되, 상기 재난원인 키워드가 등장 빈도 기반 유의미한 수준으로 미리 설정된 횟수를 상회할 경우에만 키워드 사전에 반영함으로써 재난원인 키워드의 범용성이 확보되도록 하고, Pearson’s Chi-squared Test 기반 Chi-squared Distribution Correlation Model을 적용하여 키워드 연관도를 통계적으로 모델링해줌으로써 키워드 사이의 연관성이 확보되도록 한 것을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
제 11항에 있어서,
상기 추출된 재난원인 문장과 재난원인 분류체계(MEPS)와의 매핑이 용이하도록, 재난원인 문장에서 원인 명사와 결과 술어에 대한 분류체계가 구축되며, 이를 위해 명사는 재난원인, 술어는 피해양상으로 정리한 후 분류되도록 함을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.
제 12항에 있어서,
상기 원인 명사와 결과 술어의 리스트 작성 및 분류를 통해 재난원인 키워드가 도출되고, 재난원인키워드 간 연관관계를 정량적으로 표현하여 재난원인키워드 사전이 수록됨을 특징으로 하는 재난원인 정보를 자동 추출하는 방법.