KR102421904B1

KR102421904B1 - 재난사고 원인분석의 고도화 방법

Info

Publication number: KR102421904B1
Application number: KR1020220024442A
Authority: KR
Inventors: 심준석; 김은별; 오주연; 이철규; 고민수; 이종영; 이민성; 김원식; 박상용; 김정욱
Original assignee: 대한민국
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-07-20

Abstract

본 발명은, 재난원인 키워드 사전을 활용하여 재난원인 문장을 추출하고, 이를 컴퓨터 내에서 재난 원인정보를 분석 및 세분화하며, 분석영역별 정량적 가중치를 부여하고 이를 바탕으로 원인정보를 가시화함으로써 재난원인을 신속 정확히 판단할 수 있도록 하는 재난사고 원인분석의 고도화 방법에 관한 것으로,
뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 신규 재난정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 키워드 자동 추출/축적/분석 프로그램이 실행되어 재난원인 키워드가 자동 추출되어 원인정보 메타데이터 및 통계결과값 DB에 저장되고, 상기 원인정보 메타데이터 및 통계결과값은 재난원인 정보 추출, 키워드 세분화, 재난 유형 정의 및 타 재난유형과의 연관성이 분석되어, 분석결과 화면은 모니터에 디스플레이되도록 구성된 재난사고 원인분석의 고도화 방법에 있어서,
상기 신규 재난정보들이 컴퓨터에 제공되면 자연어 처리 또는 데이터 마이닝 방법에 의해 키워드 포함된 문장을 검색하여 재난원인 정보 집합으로 가공하는 과정과,
재난원인 정보 집합으로 가공되어 정보 구조화된 자료들을 원인정보 메타데이터 및 통계결과값 DB에 저장하는 과정과,
원인정보 메타데이터 및 통계결과값 DB에 저장된 재난원인 정보 집합을 분석하되, 자연어 처리 절차에 의한 재난원인 정보를 추출한 후, 재난원인 정보를 키워드에 의해 세분화하고 재난유형을 정의한 다음, 타 재난유형과의 연관성을 판단하는 과정과,
키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 방식으로 표준화된 원인정보 분석 체계를 구현하는 과정으로 구성된 것을 특징으로 한다.

Description

재난사고 원인분석의 고도화 방법 {the method to advance the analysis of the causes of disasters}

본 발명은, 재난원인 키워드 사전을 활용하여 재난원인 문장을 추출하고, 이를 컴퓨터 내에서 재난 원인정보를 분석 및 세분화하며, 분석영역별 정량적 가중치를 부여하고 이를 바탕으로 원인정보를 가시화함으로써 재난원인을 신속 정확히 판단할 수 있도록 하는 재난사고 원인분석의 고도화 방법에 관한 것이다.

각종 재난 사고와 관련된 정부합동 재난원인조사 등 법정사무 이행하는 국립재난안전연구원에서는 「재난 및 안전관리 기본법」 제69조(재난원인조사)에 근거를 둔 정부합동 재난원인조사, 예비·수시·기획조사 등의 현장조사 업무를 수행했는데, 2015년에서 2020년까지 예비, 수시조사 49건, 기획조사 13건 등 총 62건의 현장조사를 실시했다.

이는 재난·사고 원인의 분석을 기반으로 하여 잠재적 혹은 관행적 문제들을 개선하고 재난·사고 재발 방지를 위한 것으로, 재난·사고 원인의 분석 고도화를 위해서 “통합적 재난관리체계 구축 및 현장 즉시대응 역량 강화” 목표에 따라 재난 원인규명 기술 개발을 추진하고 있다.

그러나 최근들어 재난사고 증가에 따라 관련 원인조사 필요성이 증가하고 대형화·복합화될 것으로 예상되는 미래 재난·사고 및 재난상황 변화에 따른 잠재적·심층적 원인 규명에 한계를 노출하였으므로, 대규모·복합적 재난사고 원인을 합리적·과학적으로 파악하기 위한 방안을 마련하고, 조사기술 강화를 위해 재난원인 조사ㆍ분석기술을 통합적으로 발전시키는 전략 수립이 요구된다.

이를 위해 재난원인을 조사분석하는 기술현황 및 각종 사례를 파악하고, 재난원인조사의 각 기능별 분석을 진행하고, 이를 기반으로 한 업무 및 연구개발 과제를 선정한 다음, 이를 기반으로 최종적으로 재난원인 조사 분석 방안의 중장기 계획을 수립해야 할 것이다.

이와 같은 기조에 따라 지난 2016년부터 2020년에 이르기까지 국립재난안전연구원은 미래·신종재난과 관련된 weak signal(미래잠재위험)을 효율적으로 탐색하기 위하여 국내·외 뉴스, 학술정보, SNS 등 대용량 텍스트 데이터의 지능적인 분석이 필요성이라는 목표를 설정하고 신종 복합재난에 대한 대비를 위하여 미래 재난에 대한 통찰력 확보를 위한 빅데이터 분석 기술과 비정형 데이터 처리 기술을 기반으로 연구를 추진하였다.

비정형 데이터의 형태로 유통되는 정보는 그 규모에 비해 정제되어 취급되는 정보가 상대적으로 제한되어 있기 때문에 이로부터 주요 정보의 추출과 이를 기반으로 재난안전 분야 이슈의 유의미한 정보분석과 추출의 필요성이 강조되어 왔다.

현재 국립재난안전연구원은 연차별로 꾸준히 개발해온 텍스트 기반 패턴인식, 기계학습 등의 다양한 기술을 활용하여 과거와 현재의 재난 상황과 위기 상황을 체계적으로 추출하고, 비정형 데이터로부터 정보를 추출하여 모니터링을 할 수 있는 기초 자료의 확보와, 각 재난 상황의 사건정보 속성 추출을 통한 내용 분석을 통해 분류 대상으로 선정한 재난안전 관련 상황 발생에 신속히 시스템적으로 대응할 수 있도록 연구해왔다.

이를 위해 활용된 재난 정보들은 주로 비정형 데이터로써, 2019년 까지 국내 뉴스, 국내 뉴스 댓글, 국내 지방지 뉴스, 국외 뉴스, 학술정보 DB등을 취급하고 있었고, 2020년에는 국민적, 사회적 관심 분석을 위해서 수집 데이터의 유형을 일반 대중이 글쓴이 중 많은 비중을 차지 가능성이 있는 네이버 블로그/까페, 다음 블로그/까페, 트위터, 페이스북, 유튜브를 추가로 조사하여 매체별 상황을 기록하고 국민적, 사회적 관심에 관련된 내용을 분석했다.

2020년의 연구 단계에 이르기까지 국립재난안전연구원에서 중장기적인 연구를 기반으로 개발하고 있는 R-Scanner 시스템을 연구 과제의 결과로써 개발하였고, 매년 처리 기술의 수준을 고도화하고 처리 데이터의 영역을 확장함으로써 재난안전 분야의 이슈를 조기에 감지할 수 있고 실시간성 특징을 보이는 긴급 발생 이슈를 모니터링할 수 있는 정보 추출 기술의 기반이 되었다.

즉, 재난정보들은 주로 뉴스, 학술정보 DB, 각종 SNS 등 다양한 경로를 통해 입수되고 대개 비정형의 일관성 없는 자료들로 제공되므로, 이들을 고급 인력에 의해 일일히 분석해야하는 문제점이 있는 바, 시급을 요하는 재난상황에 대해서는 신속, 정확히 대응할 수 없고, 지료 분석 및 관리 비용이 비싸지는 문제점이 있었다.

또한, 종래에는 재난관련 정보들이 재난원인별, 시간별로 구분되지않으므로, 분석하는데 어려움이 많았을뿐만 아니라, 기록물을 지속적으로 수집하더라도 재난 키워드 사전이 고도화되지않는 문제점이 있었으며, 기록물 내부 정보를 구조화해서 분석 및 시각화되지않으므로, 일반화된 재난원인 분석 체계 기반 데이터 모니터링 및 관리가 불가능하고, 재난원인정보의 검색 및 정리작업이 곤란하므로, 재난원인관련 각종 보고서·논문·매뉴얼 및 관련 언론자료 등을 저장하고 연결할 수 있는 정보 저장소(Repository)의 기능 또한 수행할 수 없게되는 문제점이 있었다.

특허문헌 1: 대한민국 특허공개공보 제 2016-0006441호 특허문헌 2: 대한민국 특허공개공보 제 2020-0076918호

본 발명에서는 위 문제점을 해소하기 위한 것으로서,

뉴스, 학술정보 DB, 각종 SNS 등 다양한 경로를 통해 입수되는 비정형의 재난정보들을 키워드 사전 및 재난원인 분류체계(MEPS)에 의해 통합적으로 관리할 수 있게함으로써, 시급을 요하는 재난상황에 대해 신속, 정확히 대응할 수 있도록 함에 첫번째 목적이 있는 것이다.

또한, 재난원인 키워드 사전을 활용하여 재난원인 문장 추출 방법을 고도화하고, 재난 원인정보 분석체계 일반화 및 재난원인 키워드 연관성 및 범용성이 확보되도록 하고, 분석영역별 정량적 가중치를 부여하고 이를 바탕으로 원인정보 가시화 기법을 제시할 수 있도록 함에 두번째 목적이 있는 것이다.

상기한 목적을 달성하기 위한 본 발명의 재난사고 원인분석의 고도화 방법 에서는,

뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 신규 재난정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 키워드 자동 추출/축적/분석 프로그램이 실행되어 재난원인 키워드가 자동 추출되어 원인정보 메타데이터 및 통계결과값 DB에 저장되고, 상기 원인정보 메타데이터 및 통계결과값은 재난원인 정보 추출, 키워드 세분화, 재난 유형 정의 및 타 재난유형과의 연관성이 분석되어, 분석결과 화면은 모니터에 디스플레이되도록 구성된 재난사고 원인분석의 고도화 방법에 있어서,

상기 신규 재난정보들이 컴퓨터에 제공되면 자연어 처리 또는 데이터 마이닝 방법에 의해 키워드 포함된 문장을 검색하여 재난원인 정보 집합으로 가공하는 과정과,

재난원인 정보 집합으로 가공되어 정보 구조화된 자료들을 원인정보 메타데이터 및 통계결과값 DB에 저장하는 과정과,

원인정보 메타데이터 및 통계결과값 DB에 저장된 재난원인 정보 집합을 분석하되, 자연어 처리 절차에 의한 재난원인 정보를 추출한 후, 재난원인 정보를 키워드에 의해 세분화하고 재난유형을 정의한 다음, 타 재난유형과의 연관성을 판단하는 과정과,

키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 방식으로 표준화된 원인정보 분석 체계를 구현하는 과정으로 구성된 것을 특징으로 한다.

재난원인 정보 집합을 분석하는 과정에서는, 어휘 자원을 구축하기 위한 문법 요소 정의, 자연어처리 응용 프로그램에 의한 프로파일링 방법이 사용되고, 텍스트에서 언급된 각 사건과 관련된 사실성 정보의 식별 방법이 사용될 수 있다.

상기 원인정보 메타데이터 및 통계결과값 DB에서는 신규 재난정보들이 계속 축적되어 빅데이터를 형성하고, 상기 재난원인 키워드 자동추출/축적/분석 프로그램에 의해 일관성있는 자료로 변환되어 통합관리되며, 기계학습되어 신규 재난정보에 대응되는 과거의 유사 재난정보를 제공한다.

상기 재난원인 정보 집합으로 가공하는 과정에서는, 신규 재난정보의 문장에서 다중 원인을 다중 태그로 표출하고, 태그별 Confidence를 부착하여 중요도나 연관도를 정렬하며, 수집된 재난 자료를 구성하는 문장을 서술어와 서술형 명사 이외의 단어를 바탕으로 재구성하여 서술성 명사 이외의 학습 대상 논항을 추출함으로써, 이를 원인정보 자동 추출에 활용하고 이를 통해 서술성 명사의 의미격 추출 결과를 도출한다.

상기 의미격 추출을 위한 의미역 단위로는 술어(PRD), 능동주(AGT), 피동주(PAT), 주제(THM), 원인(CAU), 도구/경로(INST), 서술성 명사(mPrd), 수량표현(NRX), 처소(LOC), 시간표현(TIMEX)가 포함된다.

각 의미역의 노출 빈도를 파악하여 다빈출 키워드 추출을 통한 재난 원인정보집합의 정보 구조화가 이뤄질 수 있다.

상기 자연어 처리절차에 의한 재난원인 정보를 추출한 후 재난원인 정보를 키워드에 의해 세분화하고 재난유형을 정의하는 과정에서, 재난원인 정보들이 시간별, 사건별로 구분되어 구문 수준 의미 태그를 통해 텍스트 분석되고, 형태소 분석 결과를 기반으로 저장된 정보와 지식을 활용하는 청킹(Chinking) 과정을 통해 의미 태그가 부착된다.

상기 자연어 처리 절차는, 형태소(단어) 분석, 문자열 분석, 핵심어구 추출, 동시출현 단어, 토픽 모델링, 벡터공간 모델, 의미연결망 분석에 의한 재난원인 추출방법을 사용할 수 있다.

상기 타 재난유형과의 연관성을 판단하는 과정은, 형태소 분석을 통해 품사태깅하는 과정과, 관련성이 적은 형태소를 제거하는 전처리 과정과, 두 단어의 출현 확률을 이용하여 두 단어 간의 연관정도를 측정(용어 빈도법)하거나 두 단어의 출현 빈도수를 이용하여 연관정도를 측정하는 과정으로 이루어진다.

상기 용어 빈도법에서 용어빈도(TF)는 특정 단어가 문서 내에서 등장하는 빈도를 나타내는 값으로, 문서빈도(DF)의 역문서빈도(IDF)를 사용하여 아래와 같이 보정된 값(TF-DF)을 사용한다.

(여기에서, TF(word)는 특정단어가 문서 내에서 등장하는 횟수이며, DF(word)는 특정 단어가 등장한 문서의 개수, n은 문서의 개수를 나타냄)

키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 과정에서는, 단어빈도를 문헌빈도로 나누어 빈도값을 표준화시킨 역문헌 빈도를 사용하며, 상기 역문헌빈도에 용어빈도를 곱하여(IDF×TF) 단어에 가중치를 부여한다.

키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 과정에서는, 문서의 분류를 위해 범주의 분리 능력이 우수한 색인어에 높은 가중치를 주기 위한 역카데고리 빈도를 사용하며, 아래와 같이 가중치(icf_i)가 계산될 수 있다.

(여기에서,

,는 단어

의 범주 j에서의 빈도수, M은 총 범주의 개수,

은 단어

를 포함하는 범주의 개수임)

문헌의 길이의 차이로 인한 유사도를 정규화를 통해 보정하기 위하여, 코사인 정규화(Cosine normalization), 최대 단어 빈도 정규화(Maximum tf normalization), 바이트 길이 정규화(Bytelength norma lization) 중에 어느 하나를 사용하여 키워드 빈도에 의한 정량적 가중치가 부여된 후, 원인정보 가시화 방법에 의해 시각화 도출된다.

또한, 원인정보 가시화 방법에 의해 시각화 도출될 시에는 해당 영역에서 분석하고자 하는 대상들의 연관관계를 차원 축소하여 2차원 공간에 시각적으로 표시할 수 있다.

본 발명에서는, 재난원인 키워드 사전활용 재난원인 문장 추출 방법 고도화·자동화 적용 가능성 규명하였고, 재난 원인정보 분석체계 일반화 및 재난원인키워드 연관성 및 범용성 검토도 진행하였으며, 마지막으로 분석영역별 정량적 가중치를 부여하고 이를 바탕으로 원인정보 가시화 기법을 제시하였다.

이와 같은 연구성과 축적을 통해 아카이브 기반 재난관련 기록물의 수집·공유·활용의 중추적인 역할 수행이 가능하다. 재난관련 기록물을 수집하고 저장하고, 기록물 내부 정보를 구조화해서 분석 및 시각화 기능이 성숙된다면 첫째, 일반화된 재난원인 분석 체계 기반 데이터 모니터링 및 관리가 가능하고, 둘째, 재난원인정보를 사용자가 손쉽게 찾고 정리할 수 있는 데이터 검색 및 추출 기능 구현이 가능하며, 세번째로 재난원인관련 각종 보고서·논문·매뉴얼 및 관련 언론자료 등을 저장하고 연결할 수 있는 정보 저장소(Repository)의 기능 또한 수행이 가능케된다.

이를 위해서는 재난원인 통합DB 구축을 위한 통합 데이터 체계도 설계가 필요하고, 최종적으로 표준 웹기반 재난원인 통합 서비스를 제공할 수 있는데,

일반화된 재난원인 분석체계가 마련된다면 이를 기반으로 재난원인데이터 정의, 수집ㆍ연계, 품질, 모니터링, 이력, 통계, 정보제공에 필요한 기능으로 관리 업무 프로세스 구현이 가능케되며,

재난원인정보 업무 프로세스 통합관리는 원인정보 수집 및 연계, 품질관리, 모니터링, 정보제공을 아우르고, 재난원인 관련 업무 담당자, 학계 연구자 등 사용자의 업무 편의성을 제공하며, 재난원인정보 기록물 체계의 서비스 설정 관리가 가능케된다.

또한, 각종 코드 정보 및 데이터 포털 관리를 지원하거나, 재난원인 키워드사전의 편집 및 관리를 지원하는 기능 구현이 가능하고, 더 나아가서 축적된 재난원인 데이터 대상 표준 메타데이터 부여 및 대시보드 기반 데이터 수집/연계 현황 시각화 또한 가능하며, 재난원인 기록물 체계를 통해 잠재 사용자가 손쉽게 재난원인정보에 접근할 수 있는 데이터 검색 기능 적용이 가능하고, 재난원인 기록물 체계의 포털 등을 통해 재난원인 정보의 검색과 활용 도구를 적용하여 향후 재난 예방 활동 및 관련 서비스에 적용 가능할 것이다.

재난관련 사고조사보고서 및 언론자료, 눈문, 매뉴얼 등을 재난사고 분류 및 재난원인분류 기반으로 구축한 스마트라이브러리 구현도 가능할 것이고, 재난원인정보의 안정적인 접근 보장을 위한 정보 저장소로서 역할을 수행하고, 재난원인 관련 문서의 포괄적 검색, 효율적 관리, 공유 및 분석 서비스를 제공할 것이며, 사용자 협업을 통한 재난원인 키워드 사전 갱신 및 재난원인 공동 연구를 위한 관련 정보 연결을 지원하고, 이를 통해 신속한 재난원인 파악이 가능할 것이다.

결론적으로 본 발명에서는 재난·사고 원인 분석 고도화 방향을 제시하고 이를 적용함으로써 향후 아카이브 기반 재난관련 기록물 분석체계 구현의 시발점이 되게하는 한편, 이렇게 구현된 재난관련 기록물 분석체계를 통해 통합적 재난관리가 가능하고 현장 즉시대응 역량을 강화하는 효과가 있는 것이다.

도 1은 본 발명의 재난사고 원인분석의 고도화 방법을 수행하기 위한 기본 시스템 구성도이고,
도 2는 본 발명의 재난사고 원인분석의 고도화 방법이 수행되는 과정을 나타낸 플로챠트이고,
도 3은 본 발명에서 원인정보 메타데이터 및 통계결과값 분석과정만을 세부적으로 나타낸 플로챠트이고,
도 4는 본 발명에서 원인정보 집합이 정보 구조화된 상태를 나타낸 도면이고,
도 5는 본 발명의 재난사고 원인분석 고도화 방법의 수행과정을 나타낸 블록도이고,
도 6은 본 발명에서 재난 키워드 포함된 문장으로부터 시간정보 추출된 예시를 나타낸 도표이고,
도 7은 재난원인 정보를 키워드에 의해 시간별, 사건별로 세분화된 예를 도시한 도표이고,
도 8은 재난원인 정보를 의미 태그를 통한 텍스트 분석함으로써 재난유형이 정의된 예를 도시한 도표이고,
도 9는 본 발명에서 원인정보 추출 및 분석 프로세스 과정을 나타낸 도면이고,
도 10은 본 발명에서 재난 원인정보 분석시 자연어 처리방법의 개념을 예시한 도표이고,
도 11은 본 발명에서 재난 원인정보를 키워드에 의해 세분화한 상태를 예시한 도표이고,
도 12는 본 발명에서 재난 원인정보가 모니터에 가시화된 상태를 예시한 화면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

한편, 하기 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하다. 따라서 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다.

예컨대, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.

또한 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 가진다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 재난원인 키워드 자동 추출 방법을 수행하기 위한 기본 시스템 구성도로서,

뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 신규 재난정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 키워드 자동추출/축적/분석 프로그램이 실행되어 재난원인 정보집합이 자동추출되어 원인정보 메타데이터 및 통계결과값 DB에 저장되고, 상기 원인정보 메타데이터 및 통계결과값은 재난원인 정보 추출, 키워드 세분화, 재난 유형 정의 및 타 재난유형과의 연관성이 분석되어, 분석결과 화면은 모니터에 디스플레이되도록 구성된다.

또한, 상기 원인정보 메타데이터 및 통계결과값 DB에서는 새로운 재난정보들이 계속 축적되어 빅데이터를 형성하며, 상기 원인정보 메타데이터 및 통계결과값 DB의 데이터들은 상기 재난원인 키워드 자동추출/축적/분석 프로그램에 의해 일관성있는 자료로 변환되어 통합관리 가능케되며, 빅데이터들은 기계학습되어 신규 재난정보에 대응되는 과거의 유사 재난정보를 검색가능케됨으로써 재난 대응 역량이 대폭 강화될 수 있는 것이다.

이에 대해 보다 상세히 설명하자면 다음과 같다.

본 발명에서는 사고조사보고서, 참고자료 등의 신규 재난정보들이 컴퓨터에 제공되면, 키워드 자동추출/축적/분석 프로그램이 실행되어 재난원인 키워드를 포함한 정보를 자동추출하여 원인정보 메타데이터 및 통계결과값 DB에 저장하는데,

도 4와 같이 사고조사보고서, 참고자료 등의 신규 재난정보들에서 각각 추출된 원인정보집합을 메타데이타 및 통계결과값과 연결하여 분석하는 체계를 구비하고 있다.

재해관련 사고조사보고서와 해당 사고와 관련된 뉴스기사 등 참고자료를 더하여 자연어처리(Natural Language Process;NLP) 기반 재난원인문장 추출 자동화를 적용하는데, 여기에서 도출될 결과 대상으로 원인정보 집합을 구성하는데 이를 바탕으로 정보 구조화를 실시하고 관련 이미지 분류 가능성을 검토한다.

도 5에서와 같이 구조화된 원인정보 집합을 대상으로 원인정보 메타데이터 및 통계결과를 저장한 이후 해당 데이터를 분석하고 시각화화여 결과를 도출하는 방식으로 표준화된 원인정보 분석 체계를 구현할 수 있다.

표준화된 원인정보 분석체계는 관리자 DB, 분류체계 DB, 원인키워드 DB 및 사건 내용 DB 및 작성자 DB 로 구성되는데, 표준화된 원인정보 분석 DB는 재난사건을 다양한 분류 및 원인 키워드 수준으로 검색할 수 있는 검색기 등을 통해 효과적으로 활용될 수 있다.

본 발명에서는 다양한 재난정보들이 컴퓨터 내로 유입되면, 재난원인키워드 자동 추출 및 축적 프로그램이 활성화되어 신규 재난정보들에 포함된 문장을 분석하여 자연어 처리 및 데이터 마이닝 기법에 의해 실제 재난과 관련된 정보인지 여부를 분석하여, 유의미한 정보인 경우 이를 원인정보 메타데이터 및 통계결과 DB에 축적하여 향후 재난 데이터 분석에 활용할 수 있도록 한다.

본원발명에서는 도 2에서와 같이, 키워드 포함된 문장을 검색하여 원인정보 집합으로 가공되고, 이는 정보 구조화되어 원인정보 메타데이터 및 통계결과값 DB에 저장되어진다.

이와 같이 원인정보 메타데이터 및 통계결과값 DB에 저장된 자료들은 추후 재난 데이터 분석에 활용할 수 있으며, 재난프로파일링 위한 원인분석기법에 의해 시간전개 해석, 인과관계 해석(원인-대책), 재난원인 분류체계 적용, 수범사례 분석 등의 문헌자료들로부터 원인을 찾고 분석하는 방법들이 적용될 수 있다.

도 3은 본 발명에서 원인정보 메타데이터 및 통계결과값 분석과정만을 세부적으로 나타낸 플로챠트로서,

원인정보 메타데이터 및 통계결과값의 분석과정은, 자연어 처리 절차에 의한 재난원인 정보 추출과정과, 재난원인 정보를 키워드에 의해 세분화하고 재난유형을 정의하는 과정과, 타 재난유형과의 연관성을 판단하는 과정으로 이루어진다.

본 발명의 원인정보 메타데이터 및 통계결과값의 분석과정에서는, 과학적 재난원인 정보 분석을 위한 사건 프로파일링 기법을 적용하였는데 사건 프로파일링은 어휘 자원을 구축하기 위한 문법 요소 정의, 텍스트 이해를 위한 자연어처리 응용 프로그램이 핵심이다.

사건의 사실성 상태와 같은 정보도 필수이다. 문서에서 사건에 대한 언급이 현실에서 실제 발생한 상황을 언급하는 것인지 여부를 판단하는 것이 중요하다. 즉, 실제로 일어난 사건과 일어날 가능성이 높은 사건은 다르다는 것(실제 존재하지 않는 사건)이다.

본 발명에서는 텍스트에서 언급된 각 사건과 관련된 사실성 정보를 식별하는 데 사용되는 기법을 활용하여 재난원인 정보 분석을 진행하였는데, 사건 프로파일링 기법은 기록자가 사실성 정보를 알리기 위해 사용하는 언어적 표현에 기반을 두고 있으며, 텍스트 출처의 신뢰성이나 독자의 믿음과 같은 외부 요인들은 제외하고 중립적인 입장에서 텍스트에 표시되는 방식에 따라 사건에 할당된 사실성 정도를 추출하였다.

동일한 사건에 대해 다른 출처가 있는 경우 서로 다르거나 상반된 사실성 정도가 추출될 수도 있다. 따라서 사실성 정도는 항상 텍스트 출처에 의존적이다.

사건 사실성은 사건의 사실적 상태를 나타내는 범주로서, 사건을 나타내는 표현은 현실 상황(사실)에 해당하는지, 일어나지 않았거나 성립하지 않는 사실(반대 사실), 또는 불확실한 상태의 상황(가능성)에 해당하는지에 대한 정보를 전달하는데, 어떤 상황에서는 사건의 사실적 상태가 절대적으로 확실하게 제시된다.

텍스트 내 원인 추론을 위해서는 자연어 처리가 중요한 작업 중 하나이다.

연구 보고서, 의료산업, 기업 리스크관리 등에서 주로 다루어지는 공식 문서의 형태나 트위터 등 소셜미디어에서 주로 다루어지는 컨텐츠에서 많은 양의 텍스트 컨텐츠를 찾아볼 수 있으며, 텍스트 내에서 실제 사건 사이의 인과관계는 명시적으로 드러나 있지 않은 경우가 많다.

또한 텍스트 내에서 인과관계에 대해서 얼마나 명시적으로 드러나 있는가뿐만 아니라 해당 텍스트에 포함된 어휘적 표현 또한 중요한 인자로 작용한다.

사건 간의 인과성을 추론에는 특정 언어적 표현, 텍스트에 설정된 의미적 맥락, 텍스트 작성자의 의도 등 다양한 요소들이 복합적으로 작용한다.

텍스트 내 인과관계는 매우 복잡한 방식으로 표현되는데, 사건이 단일문장으로 나타나는 경우 인과관계는 보통 명시적으로 드러나있지 않는 경우가 많다. 단일문장으로 표현되는 인과관계를 추론하기 위해서는 완전한 어휘 특징 추출 및 단일 문법 모델에 기반을 두고 있기 때문에 매우 어려운 작업이다.

자연어처리 모델은 통계적 상관관계를 사용하여 예측을 수행하고, 트레이닝 데이터와 테스트 데이터가 같은 분포를 가진다고 가정한다. 그러나 원인 추론은 다른 유형의 문제이고, 특히 구조화 되지 않은 문장의 경우 더욱 그렇다. 그럼에도 불구하고 원인 추론을 위한 도메인 지식으로 활용할 수 있는 가능성이 있다. 텍스트는 원인변수 와 결과변수 뿐만 아니라 결과변수에 영향을 미칠 수 있는 매개변수를 유연하게 표현할 수 있다. 매개변수는 아래 그림과 같이 설명할 수 있고, 매개변수(

) 자체가 결과(

)에 영향을 미치며 원인(

)에 의해 영향을 받는다.

텍스트 데이터를 사용하면 교란 문제를 해결할 수도 있으므로 원인 추론에 효과적이다. 교란 문제는 주제, 작문 스타일, 어조로 인해 발생할 수 있다. 따라서 이러한 교란 요인에 대한 텍스트 제어를 포함하여 조건부 무시 가능성을 가정할 수 있다. 중요한 것은 텍스트에서 원인을 추론할 수 있는 방식으로 정보를 추출해야 한다는 것이다.

또한, 본 발명에서는 기계학습 및 데이터마이닝 기술을 사용하여 이러한 미래 뉴스 사건들을 모델링하고 예측하는 새로운 방법론을 다루는데, Pondit 알고리즘은 인과관계 예측치를 추론하기 위해 인과관계 쌍의 예를 일반화한다. 정확한 레이블이 지정된 인과관계 예를 얻기 위해 장기간에 걸친 뉴스 기사를 수집하고 사전 정의된 특정 인과관계 패턴을 포함하는 의미론적 자연어 모델링 기술을 적용했다. 일반화를 위해 모델은 약 200억 개의 관계가 있는 200개의 데이터 세트를 포함하는 LinkedDate에서 마이닝된 방대한 양의 세계 지식 온톨로지를 사용한다.

과거에는 지각 능력의 한계로 인해 컴퓨터가 이러한 복잡한 환경을 모두 학습할 수 없었지만, 하드웨어의 발전과 인터넷의 발전으로 웹의 가상 세계에서 작동하여 상태를 인식할 수 있게 되었다.

웹 페이지, 트위터, 뉴스, 보고서 및 온라인 백과사전을 포함한 광범위한 텍스트 정보 소스를 통해 세계의 정보 검색, 구성 및 생성과 같은 다양한 작업을 수행할 수 있다. 이처럼 복잡한 가상 환경에서 지능적으로 행동하기 위해서는 현재 상태를 인지하고 인과적 추론을 통해 미래 상태를 추론할 수 있어야 한다.

이러한 추론 능력은 정치적 불안을 식별하고 사회적 동향을 감지 및 추적하는 것과 같은 복잡한 작업을 수행하고 일반적으로 정치인, 사업가 및 개인 사용자의 의사 결정을 지원하는 것과 같은 복잡한 작업을 수행하는 데 매우 유용하다.

한편, 본 발명에서는 재난 원인정보 집합이 가공되어 정보 구조화되므로, 재난 관련 자료의 수집과 그 범위를 프로세스화할 수 있으며, 이에 따라 수집된 자료 유형의 재분류를 통한 체계적 관리를 가능케한다.

재난 발생 원인정보를 자동으로 추출함에있어, 이와 관련된 기술의 성능을 향상시키기 위해 관련 정보의 다양한 수집을 위해 재난 원인을 키워드를 통해 세분화하고 각 키워드의 분석 유형을 정의함으로써 단편적인 재난원인 분석이 아닌, 다각도의 분석을 통해 하나의 재난 유형에 국한된 것이 아닌, 타 재난 유형과의 연관성을 고려할 수 있다.

종래에는 의미를 매핑하는 문제에 있어 사람의 노동력이 필요하다는 문제점과 복합적인 원인이 동시에 추출되는 과정을 원활히 수행하지 못한다는 문제점이 있었다. 이를 효과적으로 수행하기 위해 본 발명에서는 다중 원인을 다중 태그로 표출하고, 태그별 Confidence를 부착하여 중요도나 연관도를 정렬할 수 있게 하는 기능을 추가하는 방향으로의 개발 방향을 선정했다.

위 그림은 수집된 재난 자료를 구성하는 문장을 서술어와 서술형 명사 이외의 단어를 바탕으로 문장의 구성성분을 재구성한 것으로서, 서술성 명사 이외의 학습 대상 논항을 추출함으로써 이를 원인정보 자동 추출에 활용하고 이를 통해 서술성 명사의 의미격 추출 결과 즉, 사고속성 정보를 도출하였다.

또한, 이를 수집된 자료를 구성하고 있는 문장을 의미역 단위로 분류, 총 10개 유형으로 나눠 각각의 의미를 부여했다. 10개의 유형은 다음과 같다. 술어(PRD), 능동주(AGT), 피동주(PAT), 주제(THM), 원인(CAU), 도구/경로(INST), 서술성명사(mPrd), 수량표현(NRX), 처소(LOC), 시간표현(TIMEX)가 그것이다. 이후 각 의미역의 노출 빈도를 파악하여 다빈출 키워드 추출을 통한 사전 고도화, 즉 재난 원인정보집합의 정보 구조화를 진행했다.

특정 문서의 주요 정보를 이해하려는 경우 일반적으로 키워드 추출을 사용하는데, 키워드 추출은 입력 텍스트와 가장 관련성이 높은 단어와 구를 추출하는 자동화된 프로세스이다.

Rake 및 YAKE 등 키워드와 핵심 문구를 추출하는 데 사용할 수 있는 프로세스는 다양하게 존재한다. 그러나 이러한 모델은 일반적으로 의미론적 유사성이 아닌 텍스트의 통계적 속성을 기반으로 작동한다. 때문에, 원인정보와 같은 의미가 포함된 키워드를 추출하기 위해서는 의미론적 유사성을 추출하기 위한 모델을 고려해야할 필요성이 있다.

이와 같은 의미론적 유사성 추출의 모델으로는 BERT 가 있다. BERT는 구문과 문서를 의미를 포착하는 벡터로 변환할 수 있는 양방향 변환기 모델이다. 본 발명에서는 BERT 임베딩을 활용하는 KeyBERT 를 사용하여 최소한의 키워드 추출 기술을 통한 효과적인 키워드 추출 로직을 사용한다.

재난원인과 관련된 문장은 재난안전 분류체계에 부합하는 조건에 맞추어 시간 순으로 정보를 추출하여 기록되는데, 시간 정보는 정보 수집 문서의 시간 정보 상세 관리 테이블에 수집된다.

이는 문서 내 문장 단위의 공간 정보를 기록하기 위해 구성된 테이블로 예시되는데, 도 6과 같다.

이어서, 문서 단위 문서 내 문장별 사건 정보를 검색 가능한 테이블로 표상함으로써 DW 내 사건 정보 기록을 위한 9개 테이블 사건 대상 기준으로 레코드를 저장하여 재난원인문장 키워드를 추출하여 데이터를 수집하였다.

도 7에서와 같이 재난원인 정보는 시간별, 사건별로 구성되어 수집되는데, 위와 같은 과정을 통해 수집된 정보는 구문 수준 의미 태그를 통해 텍스트 분석이 실행된다. 이는 SematicTagger 모듈의 클래스 내부 추출 대상 별 함수로 정의되어 구현되며 이는 형태소 분석 결과를 기반으로 저장된 정보와 지식을 활용하는 과정, 즉 청킹(Chinking) 과정을 통해 의미 태그가 부착된다.

이전 자연어 처리를 통한 정보 추출은 명시적이거나 구조화된 데이터에 초점을 맞춰 진행되었다. 앞에서 언급한 것과 같이, 텍스트 마이닝 기술은 구조화되지 않은 암시적 의미를 지닌 텍스트 데이터에서 정보를 추출하는 접근 방식이다. 한국어의 특성상 단어 혹은 문장 내에 암시적인 의미가 내포되어 있는 경우가 종종 존재하기 때문에, 텍스트 마이닝을 활용한 의미 자동 추출은 유의하다고 할 수 있다.

원인정보 분석체계 일반화 과정은 기존 재난아카이브 원인정보 분석 및 활용기술을 응용하여 수집된 재난원인정보를 체계적으로 관리할 수 있는 로직을 마련하는 데에 중점을 두었다. 수집 정보의 효율적 관리를 위한 분석체계 마련을 위해 도 9과 같은 프로세스를 활용했다.

원인정보 메타데이터 및 통계결과값 분석시에는 자연어 처리 절차에 의한 재난원인 추출방법을 사용하는데 그 개념은 도 10과 같다.

한편, 도 11은 본 발명에서 재난 원인정보를 키워드에 의해 세분화한 상태를 예시한 도표로서, 자연어 처리 절차에 의한 재난원인 정보 추출 후, 재난원인 정보를 키워드에 의해 세분화하고 재난 유형이 정의되어진다.

이와 같이 재난원인 정보를 키워드에 의해 세분화하고 재난 유형이 정의된 후에는 타 재난유형과의 연관성 분석이 이루어진다.

형태소 분석을 위해 비정형데이터는 정해진 규칙이 없는 데이터로서, 대표적인 비정형데이터로는 문서가 있다.

문서는 문장뿐만 아니라 그림이나 숫자 등이 포함되어 있어 규칙이나 유형이 정해져 있지 않아 이를 분석하기 위하여 시스템이 이해할 수 있는 형태로 가공하는 과정이 필요하다.

이 과정을 형태소 분석이라고 하는데, 형태소 분석은 문장을 의미를 가지는 가장 작은 단위로 분해하여 품사를 분석하는 등 언어의 속성을 파악하는 것이다. 문장을 최소 단위로 분해하면 품사를 알 수 있고 이를 통해 주어와 동사 간의 관계 등을 파악할 수 있다. 이러한 품사 정보를 분석하는 과정을 품사 태깅이라고 한다.

형태소 분석을 통해 품사태깅을 진행한 후 데이터 정제작업이 필요하다. 데이터 정제작업을 전처리과정이라고도 하는데, 관련성이 적은 형태소를 제거하는 작업을 말한다. 이 과정에서 마침표, 물음표 등의 문장부호를 제거하고 연관성이 없거나 낮은 형태소를 제거한다.

연관성 분석에 가장 많이 사용되는 방법은 PMI(Pointwise Mutual Information)법과 TF-IDF(Term Frequency - Inverse Document Frequency)법이 있다. PMI법은 두 단어의 출현하는 확률을 이용하여 두 단어 간의 연관정도를 측정하는 방법이며, TF-IDF는 단어의 출현 빈도수를 이용하여 연관도를 측정하는 방법이다.

본 발명에서는 TF-IDF법(용어 빈도법)을 사용하여 재난유형을 구분하는 데 활용하였으며 재난원인 키워드사전에는 PMI법이나 TF-IDF법을 모두 적용가능하다.

TF-IDF(용어 빈도법)는 여러 문서가 있을 때 특정 단어가 문서 내에서 얼마나 중요한 것인지를 분석하는 통계적 수치이다. 문서의 핵심단어를 추출하거나 검색엔진에서 검색어 순위를 결정하는 등의 용도로 사용된다. 또한 특정분야에서의 적용을 위하여 특정분야 관련 단어에 가중치를 두어 TF-IDF의 값을 보정하여 활용하기도 한다. TF(Term Frequency, 단어빈도)는 특정 단어가 문서 내에서 등장하는 빈도를 나타내는 값으로 이 값이 클수록 특정 문서에서 특정 단어가 중요하다고 할 수 있다. 하지만 모든 문서 내에서 특정 단어가 계속해서 자주 등장한다면 그 단어의 중요도는 낮아져야만 한다. 이 값을 보정하기 위한 방법으로 IDF(Inverse Document Frequency, 역문서빈도)를 사용한다. IDF는 문서빈도인 DF의 역수를 뜻하는 값으로 여러 문서 내에서 흔하게 나타내는 단어를 보정하여 특정 단어를 추출하게 한다.

위의 식처럼 TF-IDF는 TF와 IDF의 곱으로 계산하며, TF(word)는 특정단어가 문서 내에서 등장하는 횟수이며, DF(word)는 특정 단어가 등장한 문서의 개수, n은 문서의 개수를 나타낸다. IDF(word)의 분자 값인 문서의 개수가 커질수록 IDF값이 커지므로 이를 보정하기 위해 log값을 사용하며, log의 분모가 0일 경우 값이 무한대이므로 분모에 1을 더해 이를 방지한다. TF는 문서의 길이가 긴 경우 log값을 사용하기도 한다. 문서 내에서 특정 단어가 많이 등장할수록, 그리고 문서들 내에 그 단어를 포함한 문서가 적을수록 TF-IDF값이 높아진다.

이와 같이 원인정보 메타데이터 및 통계결과값이 분석된 후에는 키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출되는데,

단어 가중치 계산 방법에는 단순히 단어빈도를 그대로 사용하는 단순 단어빈도, 출현빈도가 1인 단어의 지나치게 낮은 영향력을 보충하고, 출현빈도가 높은 단어의 지나친 영향력을 낮추기 위한 로그 단어빈도, 이진 단어빈도, 보정 단어빈도, 오가피 단어빈도 등이 사용될 수 있다.

본 발명은 역문헌 빈도, 역카테고리 빈도, 문헌길이 정규화 방법이 사용된 것을 특징으로 하는데,

먼저 역문헌 빈도는, 단어빈도를 문헌빈도로 나누어 빈도값을 표준화시킨 상대빈도값으로, 보통 이 역문헌빈도에 용어빈도를 곱하여(IDF×TF) 단어에 가중치를 부여한다.

단어

의 문서 j에서의 빈도수를

, 총 문서의 개수를 N, 단어

가 있는 문서의 개수를

라고 할 때, 특정범주에서 TF-IDF에 의한 가중치는 다음과 같이 계산된다

역카테고리 빈도(Inverse Category Frequency: ICF)는 문서의 분류를 위해 범주의 분리 능력이 우수한 색인어에 높은 가중치를 주는 방법으로, 단어

의 범주 j에서의 빈도수를

, 총 범주의 개수를 M, 단어

를 포함하는 범주의 개수를

라고 할 때 TF-ICF에 의한 가중치는 다음과 같이 계산된다.

역카테고리 빈도는 역문헌 빈도와 기본 원리는 같지만, 역문헌 빈도는 문서간의 분리도가 높은 단어에 높은 가중치를 주는 것이고, 역카데고리 빈도는 카테고리간의 분리도가 높은 단어에 높은 가중치를 주는 점에 차이가 있다. 즉 소수의 카테고리에 많이 나온 단어에 대해 높은 가중치를 주고, 여러 카테고리에서 고르게 나오는 단어에 대해서는 낮은 가중치를 주는 것이다.

일반적으로 TF(용어 빈도법)과 IDF(역문헌 빈도법)을 조합한 가중치가 단어의 중요도를 결정하는 좋은 추정치이지만 적절하지 못한 측면이 있다.

이 값 자체는 단어의 중요성을 결정하는데 기여한 문서의 길이를 무시하고 있다. 실제로 분류하고자 하는 문서의 길이가 다양한데 이러한 성질은 다음의 이유로 긴 문장의 범주 유사성을 증대시키게 된다. 첫째, 긴 문서는 동일 단어를 반복적으로 사용하는 경향이 있다. 결과적으로 긴 문헌일수록 단어 빈도가 커지게 되어 범주 유사도를 높이게 된다. 둘째, 긴 문서는 많은 단어를 가지게 되어 유사도를 증가시켜 짧은 문헌에 비해 상대적으로 많은 기회를 갖게 된다.

따라서, 문헌의 길이의 차이로 인한 유사도를 정규화를 통하여 보정해 주어야 할 필요가 있다. 정규화에는 코사인정규화(Cosine normalization), 최대 단어 빈도 정규화(Maximum tf normalization), 바이트 길이 정규화(Bytelength normalization) 등의 기법이 있다.

이와 같이 키워드 빈도에 의한 정량적 가중치가 부여된 후에는 원인정보 가시화 방법에 의해 시각화 도출된다.

학문 영역의 지적 구조 분석을 위한 시각화 방법으로 매핑이 널리 사용되는데, VOSViewer에서는 해당 영역에서 분석하고자 하는 대상들의 연관관계를 차원 축소하여 2차원 공간에 시각적으로 표시할 수 있다.

VOSViewer는 도 12와 같이 5부분으로 구성되어있다. 1) Main panel은 네트워크 분석 결과가 나타나는 화면으로 Network Visualization, Overlay Visualization, Density Visualization 세가지 Tab이 있다. 2) Options Panel은 Visualization, Lavels, Lines, Colors 네가지 속성을 설정할 수 있고, 각 노드의 크기, 라벨 크기의 최대, 최솟값 변화 정도, 연결선의 최대, 최솟값의 변화정도와 색상 Table을 설정할 수 있다. 3) Information Panel은 각 노드의 상세 정보를 나타낸다. 4) Overview Panel은 Main Panel의 전체적인 모습을 보여준다. 5) Action Panel은 File, Items, Analysis 3개의 Tab이 있으며, File Tab에서는 새로운 맵을 생성하거나, 기존의 생성된 맵을 불러오거나 현재 열린 맵을 저장할 수 있다.

Item Tab에서는 군집(Cluster)별로 분류된 키워드들을 확인할 수 있으며, Analysis Tab에서는 레이아웃과 클러스터링 설정을 수정하고 업데이트 할 수 있으며 Main Panel의 Map을 회전시킬 수 있다.

본 발명의 기술적 사상은 바람직한 실시형태에서 구체적으로 기술되었으나, 상기한 실시형태는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 명백한 것이며, 따라서 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.

Claims

뉴스, 학술정보 DB, 보고서, 각종 SNS 등에 의한 신규 재난정보들이 컴퓨터에 유입되면, 상기 컴퓨터에 내장된 재난원인 키워드 자동 추출/축적/분석 프로그램이 실행되어 재난원인 키워드가 자동 추출되어 원인정보 메타데이터 및 통계결과값 DB에 저장되고, 상기 원인정보 메타데이터 및 통계결과값은 재난원인 정보 추출, 키워드 세분화, 재난 유형 정의 및 타 재난유형과의 연관성이 분석되어, 분석결과 화면은 모니터에 디스플레이되도록 구성된 재난사고 원인분석의 고도화 방법에 있어서,
상기 신규 재난정보들이 컴퓨터에 제공되면 자연어 처리 또는 데이터 마이닝 방법에 의해 키워드 포함된 문장을 검색하여 재난원인 정보 집합으로 가공하는 과정과,
재난원인 정보 집합으로 가공되어 정보 구조화된 자료들을 원인정보 메타데이터 및 통계결과값 DB에 저장하는 과정과,
원인정보 메타데이터 및 통계결과값 DB에 저장된 재난원인 정보 집합을 분석하되, 자연어 처리 절차에 의한 재난원인 정보를 추출한 후, 재난원인 정보를 키워드에 의해 세분화하고 재난유형을 정의한 다음, 타 재난유형과의 연관성을 판단하는 과정과,
키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 방식으로 표준화된 원인정보 분석 체계를 구현하는 과정으로 구성되고,
상기 재난원인 정보 집합으로 가공하는 과정에서는, 신규 재난정보의 문장에서 다중 원인을 다중 태그로 표출하고, 태그별 Confidence를 부착하여 중요도나 연관도를 정렬하며, 수집된 재난 자료를 구성하는 문장을 서술어와 서술형 명사 이외의 단어를 바탕으로 재구성하여 서술성 명사 이외의 학습 대상 논항을 추출함으로써, 이를 원인정보 자동 추출에 활용하고 이를 통해 서술성 명사의 의미격 추출 결과를 도출함을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 1항에 있어서,
재난원인 정보 집합을 분석하는 과정에서는, 어휘 자원을 구축하기 위한 문법 요소 정의, 자연어처리 응용 프로그램에 의한 프로파일링 방법이 사용되고, 텍스트에서 언급된 각 사건과 관련된 사실성 정보의 식별 방법이 사용된 것을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 1항에 있어서,
상기 원인정보 메타데이터 및 통계결과값 DB에서는 신규 재난정보들이 계속 축적되어 빅데이터를 형성하고, 상기 재난원인 키워드 자동추출/축적/분석 프로그램에 의해 일관성있는 자료로 변환되어 통합관리되며, 기계학습되어 신규 재난정보에 대응되는 과거의 유사 재난정보를 제공함을 특징으로 하는 재난사고 원인분석의 고도화 방법.
삭제
제 1항에 있어서,
상기 의미격 추출을 위한 의미역 단위로는 술어(PRD), 능동주(AGT), 피동주(PAT), 주제(THM), 원인(CAU), 도구/경로(INST), 서술성 명사(mPrd), 수량표현(NRX), 처소(LOC), 시간표현(TIMEX)가 포함됨을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 5항에 있어서,
각 의미역의 노출 빈도를 파악하여 다빈출 키워드 추출을 통한 재난 원인정보집합의 정보 구조화가 이뤄짐을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 1항에 있어서,
상기 자연어 처리절차에 의한 재난원인 정보를 추출한 후 재난원인 정보를 키워드에 의해 세분화하고 재난유형을 정의하는 과정에서, 재난원인 정보들이 시간별, 사건별로 구분되어 구문 수준 의미 태그를 통해 텍스트 분석되고, 형태소 분석 결과를 기반으로 저장된 정보와 지식을 활용하는 청킹(Chinking) 과정을 통해 의미 태그가 부착됨을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 7항에 있어서,
상기 자연어 처리 절차는, 형태소(단어) 분석, 문자열 분석, 핵심어구 추출, 동시출현 단어, 토픽 모델링, 벡터공간 모델, 의미연결망 분석에 의한 재난원인 추출방법을 사용함을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 1항에 있어서,
상기 타 재난유형과의 연관성을 판단하는 과정은, 형태소 분석을 통해 품사태깅하는 과정과, 관련성이 적은 형태소를 제거하는 전처리 과정과, 두 단어의 출현 확률을 이용하여 두 단어 간의 연관정도를 측정(용어 빈도법)하거나 두 단어의 출현 빈도수를 이용하여 연관정도를 측정하는 과정으로 이루어진 것을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 9항에 있어서,
상기 용어 빈도법에서 용어빈도(TF)는 특정 단어가 문서 내에서 등장하는 빈도를 나타내는 값으로, 문서빈도(DF)의 역문서빈도(IDF)를 사용하여 아래와 같이 보정된 값(TF-DF)을 사용함을 특징으로 하는 재난사고 원인분석의 고도화 방법.

(여기에서, TF(word)는 특정단어가 문서 내에서 등장하는 횟수이며, DF(word)는 특정 단어가 등장한 문서의 개수, n은 문서의 개수를 나타냄)
제 1항에 있어서,
키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 과정에서는, 단어빈도를 문헌빈도로 나누어 빈도값을 표준화시킨 역문헌 빈도를 사용하며, 상기 역문헌빈도에 용어빈도를 곱하여(IDF×TF) 단어에 가중치를 부여함을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 1항에 있어서,
키워드 빈도에 의한 정량적 가중치를 부여하여 시각화 도출하는 과정에서는, 문서의 분류를 위해 범주의 분리 능력이 우수한 색인어에 높은 가중치를 주기 위한 역카데고리 빈도를 사용하며, 아래와 같이 가중치(icf_i)가 계산됨을 특징으로 하는 재난사고 원인분석의 고도화 방법.

(여기에서,
,는 단어
의 범주 j에서의 빈도수, M은 총 범주의 개수,
은 단어
를 포함하는 범주의 개수임)
제 11항 또는 제 12항에 있어서,
문헌의 길이의 차이로 인한 유사도를 정규화를 통해 보정하기 위하여, 코사인 정규화(Cosine normalization), 최대 단어 빈도 정규화(Maximum tf normalization), 바이트 길이 정규화(Bytelength norma lization) 중에 어느 하나를 사용하여 키워드 빈도에 의한 정량적 가중치가 부여된 후, 원인정보 가시화 방법에 의해 시각화 도출됨을 특징으로 하는 재난사고 원인분석의 고도화 방법.
제 13항에 있어서,
원인정보 가시화 방법에 의해 시각화 도출될 시에는 해당 영역에서 분석하고자 하는 대상들의 연관관계를 차원 축소하여 2차원 공간에 시각적으로 표시함을 특징으로 하는 재난사고 원인분석의 고도화 방법.