KR101911466B1 - 미래위험 변화예측 분석 시스템 - Google Patents

미래위험 변화예측 분석 시스템 Download PDF

Info

Publication number
KR101911466B1
KR101911466B1 KR1020150190440A KR20150190440A KR101911466B1 KR 101911466 B1 KR101911466 B1 KR 101911466B1 KR 1020150190440 A KR1020150190440 A KR 1020150190440A KR 20150190440 A KR20150190440 A KR 20150190440A KR 101911466 B1 KR101911466 B1 KR 101911466B1
Authority
KR
South Korea
Prior art keywords
unit
data
disaster
analysis
news
Prior art date
Application number
KR1020150190440A
Other languages
English (en)
Other versions
KR20170079648A (ko
Inventor
김도우
김대곤
김좌현
박상진
정재학
이종설
Original Assignee
대한민국
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국 filed Critical 대한민국
Priority to KR1020150190440A priority Critical patent/KR101911466B1/ko
Publication of KR20170079648A publication Critical patent/KR20170079648A/ko
Application granted granted Critical
Publication of KR101911466B1 publication Critical patent/KR101911466B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06F17/30318
    • G06F17/30539
    • G06F17/30572
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 미래위험 변화예측 분석 시스템은 국내외 언론사의 뉴스 및 국내외 재난 관련 학회에서 제공하는 DB를 재난관련 키워드로 필터링하는 중계서버(22), 상기 재난관련 키워드를 저장하는 제1 DB서버(21), 내부데이터 DB 및 정부기관에서 공중에 지공하는 DB를 저장하는 제2 DB서버(23)를 포함하는 데이터 수집부(20), 상기 외부데이터와 제2DB서버에 저장된 DB를 통합하는 데이터 전처리부(30), 상기 수집된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 데이터 분석부(40), 상기 데이터 분석부(40)에서 분석된 분석결과를 저장하는 분석DB서버, 상기 분석DB서버에 저장된 분석결과를 시각화하여 나타내는 표시부(60)를 포함하는 시스템인 것을 특징으로 한다.
또한 상기 데이터 분석부(40)는, 정제부(41), 분류부(42), DB저장부(43), 제1분석부(441), 제2분석부(442), 제3분석부(443), 제4분석부(444)를 포함할 수 있다. 또한, 상기 표시부(60)는 스캐닝부(61), 모니터링부(62), 비교분석부(63), 이슈추적부(64) 및 논문검색부(65)를 포함할 수 있다.

Description

미래위험 변화예측 분석 시스템{Analysis system for predicting future risks}
본 발명은 데이터 수집부에 수집된 빅데이터를 바탕으로 하는 미래위험의 변화예측을 위한 분석 시스템 및 그 분석 방법에 관한 것으로, 더욱 상세하게는 데이터 수집부에 수집된 데이터를 바탕으로 재난 관련 키워드로 텍스트마이닝 후 이를 그룹화 및 카테고리화하여 분석하고 시각화하여 표시하는 미래위험 변화예측 분석 시스템 및 이를 이용한 미래위험 변화예측 분석방법에 관한 것이다.
최근 다원화되고 복잡해진 현대사회는 기후 온난화 및 그에 의한 기상 이변의 빈번한 발생, 석유, 석탄 등의 화석 연료나 전자제품에 필수적인 희토류 등 천연 자원의 고갈 또는 이러한 고갈 여부에 의한 자원 가격의 급등락, 2008년 미국의 리만 브라더스 사태와 같은 금융위기, 메르스 사태에서 드러나는 고위험 전염성 질병의 발생과 전파, 정치적, 종교적 갈등에 의한 테러위협 증가 및 전쟁발생 등과 같은 중장기 위험요인이 증가함에 따라 과거, 현재의 위험요인으로부터 미래의 위험요소를 과학적, 통계적으로 탐색하고 분석해야 할 필요성이 커지고 있다. 이에 세계 각국은 미래사회 도전과 위험요소에 대한 선제적 정책 대응을 위해 미래이슈분석(horizon scanning) 활동을 국가 차원으로 격상하여 수행 중에 있다. 이러한 전세계적인 추세에 따라 과거, 현재의 위험요인들을 통해 사회 위험 요소를 탐색하고 과학적, 통계적 방법을 통해 글로벌 환경을 탐색할 필요가 대두되고 있는 실정이다.
상기와 같은 현재의 수많은 위험요소들 중, 재난 및 사고 등의 위험요소는 현대사회에서 가장 파괴력있고 영향력있는 요소라고 할 것이다. 이를 예측하고 대비하기 위하여, 최근 전자통신분야의 급격한 발달과 더불어 SNS, 개인의 검색 기록 등을 익명으로 수집한 빅데이터를 활용하는 방안이 떠오르고 있다.
특히 한국의 스마트폰 보급률은 83%로 세계 4위(2015년 3월 기준)이고, 이를 통해 쌓인 빅데이터를 기반으로 재난에 대한 피해 조사를 하거나(아래 특허문헌 2 참조) 재난이 발생하는 경우 개인에게 경고를 발송하는 등의 시도(아래 특허문헌 1 참조)는 그동안 존재하여 왔고 실생활 속 재난 대비 및 안전 관리에 많은 도움을 주고 있다.
하지만 이러한 빅데이터를 활용한 기술들은 언제나 개인 프라이버시(Privacy)와 관련된 이슈들이 제기되며, 대기업 또는 국가가 빅브라더(Big brother)가 되어 개인을 감시할 수 있다는 점에서 논란이 되어왔다. 그리고 다수의 개인에 대한 통계적인 데이터를 바탕에 두기 때문에 전문적인 지식을 통한 미래예측이나, 신뢰성있고 체계적인 미래이슈 분석에는 그 한계가 존재하여 왔다.
대한민국 특허공개공보 제10-2015-0045771호(2015년 4월 29일 공고, 발명의 명칭 "통합적인 재난관리를 위한 스마트 재난관리 시스템") 대한민국 특허공개공보 제10-2014-0032205호(2014년 3월 14일 공고, 발명의 명칭 "모바일 기반 재난피해 조사시스템 및 방법")
상기와 같은 문제점을 해결하고자 본 발명은 국내외 뉴스와 국내외 주요 재난 관련 학회의 논문 등의 외부 데이터와 국립재난안전연구원 내부보고서 DB 및 기타 정부기관 DB로부터 텍스트마이닝(text mining)을 통하여 데이터를 수집하는 것을 일 목적으로 하고 있다.
또한 본 발명은 상기 수집된 데이터를 재난관련 키워드로 필터링하고 문서 분류(document classification) 및 문서 군집(document clustering)을 수행하여 표시부에 나타냄으로써 신뢰성있고 체계적인 미래위험분석시스템을 제공하여 사전에 미래위험을 예측하고 합리적인 대응 시나리오를 발굴하는 것을 다른 일 목적으로 하고 있다.
또한 본 발명은 재난 카테고리별로 시각화한 재난 관련 트렌드를 표시부에 나타냄으로써 사용자가 최근 재난 트렌드의 변화와 경향을 한눈에 볼 수 있도록 하는 것을 또 다른 일 목적으로 하고 있다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 이하의 기재들로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기한 목적을 달성하기 위한 본 발명인 미래위험 변화예측 분석 시스템은 빅데이터를 재난관련 키워드로 필터링하는 중계서버(22), 상기 재난관련 키워드를 저장하는 제1 DB서버(21)를 포함하는 데이터 수집부(20), 상기 수집된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 데이터 분석부(40), 상기 데이터 분석부(40)에서 분석된 분석결과를 저장하는 분석DB(50), 상기 저장된 분석결과를 시각화하여 나타내는 표시부(60)를 포함하되, 상기 빅데이터는 국내외 언론사의 뉴스 및 국내외 재난 관련 학회에서 제공하는 DB인 것을 특징으로 할 수 있다.
또한, 상기 데이터 수집부(20)는 내부데이터 DB 및 정부기관에서 공중에 제공하는 DB를 저장하는 제2 DB서버(23)를 더 포함할 수 있다.
또한 상기 내부데이터 DB 및 정부기관에서 공중에 제공하는 DB에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 상기 중계서버(22)에서 필터링된 외부 데이터와 통합하여 통합데이터를 생성하는 데이터 전처리부(30)를 더 포함할 수 있다.
또한, 상기 중계서버(22)는 외부 뉴스로부터 재난관련 키워드로 필터링하여 데이터를 수집하는 수집어댑터와 상기 필터링된 데이터를 저장하는 외부파일서버로 구성될 수 있다.
상기 재난 관련 키워드는 호우, 태풍, 홍수, 강풍, 황사, 풍랑, 산사태, 폭염, 한파, 해일, 지진, 가뭄, 대설, 낙뢰, 우박, 화산폭발, 우주재해, 조류, 가축질병, 금융전산, 전염병, 전파재난, 정보통신, 화생방사고, 수도, 교통, 에너지, 보건의료, 교통사고, 폭발, 테러, 전쟁, 화재, 해양 환경오염사고, 수질 환경오염사고, 항공사고, 해상사고, 원전사고, 국가기반시설, 붕괴 등의 키워드 및 해당 키워드의 유의어 및 동의어를 포함할 수 있다.
상기 데이터 분석부(40)는, 상기 데이터 수집부(20)에서 필터링된 외부데이터 또는 상기 데이터 전처리부(30)의 통합데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 정제부(41);와, 상기 정제된 데이터들을 카테고리별로 문서 분류(document classification)를 수행하기 위한 분류부(42);와, 상기 분류를 위한 재난관련 카테고리에 대한 데이터를 저장하고 있는 DB저장부(43);와, 상기 카테고리별로 분류된 문서에 대하여 문서 군집(document clustering)을 수행하는 제1분석부(441);와, 상기 제1분석부(441)에서 군집된 문서의 정보를 추출하는 제2분석부(442);를 포함할 수 있다.
또한, 상기 제2분석부(442)에서 추출된 정보를 분석하여 전년대비 증가추이를 기준으로 재난 유형별로 수치화하는 제3분석부(443);를 더 포함할 수 있다.
또한, 상기 제3분석부(443)에서 수치화된 분석결과를 가지고 Sorensen-Dice coefficient 알고리즘을 활용하여 특정 이슈의 확산 경로를 추척하는 제4분석부(444);를 포함할 수 있다.
또한, 상기 분류부(42)는 상기 정제된 데이터들의 출처를 기준으로 뉴스와 논문으로 분류하고, 재난관련 카테고리에 대한 데이터를 기준으로 동의어, 유의어 등을 함께 고려하여 세분화된 문서 분류(document classification)를 수행할 수 있다.
상기 재난관련 카테고리에 대한 데이터는, 재난유형, 사회환경, 피해속성을 카테고리로 포함하되, 상기 재난유형에 대한 카테고리는 "호우, 태풍, 홍수, 강풍, 황사, 풍랑, 산사태, 폭염, 한파, 해일, 지진, 가뭄, 대설, 낙뢰, 우박, 화산폭발, 우주재해, 조류, 가축질병, 금융전산, 전염병, 전파재난, 정보통신, 화생방사고, 수도, 교통, 에너지, 보건의료, 교통사고, 폭발, 테러, 전쟁, 화재, 해양 환경오염사고, 수질 환경오염사고, 항공사고, 해상사고, 원전사고, 국가기반시설, 붕괴 및 그 유의어 및 동의어"로 세분화될 수 있고, 상기 사회환경에 대한 카테고리는 "농업, 어업, 임업, 축산업, 에너지, 교통, 보건.위생, 수자원, 치안 및 그 유의어 및 동의어로 세분화"될 수 있고, 상기 피해속성에 대한 카테고리는 "가축피해, 인명피해, 재산피해, 시설피해 및 그 유의어 및 동의어"로 세분화될 수 있다.
또한, 상기 표시부(60)는 상기 분석DB에 저장된 분석결과에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 시각화하여 나타내되, 상기 분류부(42)에서 재난관련 카테고리별 누적 뉴스량 또는 재난관련 총 누적 뉴스량 등의 숫자 통계량을 시각화한 스캐닝부(61);와, 상기 제1분석부(441)에서 문서 군집(document clustering)이 수행된 문서 그룹, 상기 제2분석부(442)에서 추출된 핵심키워드들을 시각화한 모니터링부(62);와, 상기 제3분석부(443)에서 변환된 정량데이터를 주제별, 시기별로 비교할 수 있도록 한 화면에 시각화한 비교분석부(63);와, 상기 제4분석부에서 수치화된 이슈 강도를 시기별로 시각화한 이슈추적부(64); 및 상기 데이터 수집부(20) 또는 상기 데이터 전처리부(30)의 수집된 데이터나 통합데이터의 논문을 직접 검색할 수 있도록 입력부를 구비하고 검색결과를 시각화하는 논문검색부(65);를 포함할 수 있다.
구체적으로, 상기 스캐닝부(61)는 자연재난, 사회재난, 사회환경 및 피해속성의 카테고리별 누적 뉴스량과 총 누적뉴스량, 및 통계량이 표시된 통계부(100)와, 전국의 각 지역과 표시하고자 하는 월(月)을 지정할 수 있는 입력부(200)와, 상기 입력부(200)에 입력된 정보에 맞춰서 자연재난 중 홍수, 태풍, 강풍, 호우, 가뭄 등으로 카테고리화된 분석DB의 각 데이터 비율, 사회환경 중 교통, 보건·위생, 에너지, 수자원, 농업 등으로 카테고리화된 분석DB의 각 데이터 비율, 사회재난 중 교통사고, 보건의료, 정보통신, 해양선박사고, 금융전산 등으로 카테고리화된 분석DB의 각 데이터 비율, 피해속성 중 인명피해, 재산피해, 시설피해, 가축피해 등을 카테고리화된 분석DB의 각 데이터 비율을 도식화해서 보여주고 이에 대한 수치를 다운로드할 수 있게 표시하는 도입부(300)와, 상기 입력부에 입력된 정보에 맞춰서 날짜별 재난 트렌드를 도식화된 그래프로 나타내고 자연재난, 사회환경, 사회재난, 피해속성으로 분류한 주요 토픽을 도식화된 그래프에 함께 병기하는 것을 특징으로 하는 트렌드부(400)와, 상기 입력부에 입력된 정보에 맞춰서 분석DB에 입력된 데이터를 기반으로 한 주요 키워드를 사용 빈도 순위에 따라 색깔을 달리하여 나타낸 키워드부(500)를 포함할 수 있다.
또한 상기 모니터링부(62)는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부(110)와, 상기 입력부에 입력된 정보에 맞춰서 재난 트렌드를 도식화된 그래프로 나타내고 자연재난, 사회환경, 사회재난, 피해속성으로 분류한 주요 토픽을 도식화된 그래프에 함께 병기하는 것을 특징으로 하는 트렌드부(210)와, 상기 입력부에 입력된 정보에 맞춰서 뉴스 데이터와 관련 학회 논문 데이터가 그룹화된 재난 토픽 및 뉴스가 그 토픽과 공통 키워드로 표시되고 상기 그룹화된 내용을 다운로드 및 전문을 볼 수 있도록 구성한 것을 특징으로 하는 재난 토픽 및 뉴스부(310)와, 상기 입력부에 입력된 정보에 맞춰서 연관어를 관련도에 따라 중심 키워드와 관련 키워드로 나누어 관련도가 높을수록 중심 키워드와 가까이 배치되도록 표시하여 연관어 현황을 한눈에 볼 수 있도록 나타내는 제1 연관어 현황부(410)를 포함할 수 있다.
또한, 상기 비교분석부(63)는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 다수개의 입력부(120)와, 상기 입력부(120)에 입력된 정보에 맞춰서 자연재난, 사회재난, 사회환경의 재난 트렌드를 한 차트에 표시하여 한눈에 비교할 수 있도록 나타낸 비교부(220, 320)를 다수 표시할 수 있다.
또한, 상기 이슈추적부(64)는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부(130)와, 상기 입력부에 입력된 정보에 맞춰서 이슈발생일을 가로축으로, 이슈 강도를 세로축으로 도표화하여 특정 이슈가 확산된 범위를 시각화한 이슈 확산 형태 추적부(230)와, 상기 입력부에 입력된 정보에 맞춰서 특정 이슈에 관한 뉴스들의 리스트를 표시하는 이슈 뉴스부(330)와, 상기 입력부에 입력된 정보에 맞춰서 연관어를 관련도에 따라 중심 키워드와 관련 키워드로 나누어 관련도가 높을수록 중심 키워드와 가까이 배치되도록 표시하여 연관어 현황을 한눈에 볼 수 있도록 나타내는 제1 연관어 현황부(430)를 포함할 수 있다.
또한, 상기 모니터링부의 재난 토픽 및 뉴스부 또는 이슈추적부의 이슈 뉴스부 중 어느 하나에 게시된 재난관련 뉴스에 대하여 입력장치를 통해 명령을 입력하면, 상기 뉴스에 관련되어 상기 제1분석부에서 문서 군집(document clustering)이 수행된 관련성있는 뉴스 기사들의 목록이 새로운 창에 표시될 수 있다.
또한, 상기 모니터링부 또는 이슈추적부 중 어느 하나의 제1 연관어 현황부에 있어서, 상기 연관어 현황부 중 하나의 키워드에 대하여 입력장치를 통해 명령을 입력하면, 상기 키워드만을 중심으로 관련도가 높은 연관어 현황을 한눈에 볼 수 있도록 나타낸 제2 연관어 현황부를 더 포함할 수 있다.
상기와 같이 구성되는 본 발명에 따른 미래위험 분석 시스템은, 다수의 개인에 대한 통계적인 데이터를 바탕으로 하는 종래 시스템과는 달리 개인 프라이버시(Privacy)를 침해하지 않고서도, 더욱 전문적이고 체계적인 미래위험 분석방법을 제공할 수 있다.
또한, 본 발명에 따른 미래위험 분석 시스템은 구체적인 재난관련 키워드 및 재난관련 카테고리 데이터를 제공하여 미래위험 분석을 위한 텍스트 마이닝을 용이하게 수행할 수 있는 수단을 제공할 수 있다.
또한, 본 발명에 따른 미래위험 분석 시스템은, 본 발명의 이용자가 원하는 데이터를 검색하기 용이한 시스템을 제공하고, 검색결과를 직관적으로 시각화하여 미래위험을 용이하게 분석, 파악하는 수단을 제공할 수 있다.
도 1은 본 발명의 제1실시예의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 제2실시예의 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 제3실시예에서 데이터 분석부(40)의 구성을 개략적으로 나타낸 도면이다.
도 4는 본 발명의 제4실시예에서 표시부(60)의 구성을 개략적으로 나타낸 도면이다.
도 5는 본 발명의 제1실시예 내지 제4실시예 전체 구성을 통합한 제5실시예의 구성을 개략적으로 나타낸 도면이다.
도 6은 표시부(60)에서 스캐닝부(61)를 예시한 도면이다.
도 7은 표시부(60)에서 모니터링부(62)를 예시한 도면이다.
도 8은 표시부(60)에서 비교분석부(63)를 예시한 도면이다.
도 9는 표시부(60)에서 이슈추적부(64)를 예시한 도면이다.
도 10은 표시부(60)에서 논문검색부(65)를 예시한 도면이다.
도 11은 표시부(60)에서 글로벌이슈를 예시한 도면이다.
도 12는 표시부(60)에서 재난 관련 뉴스를 선택하는 경우 표시되는 해당 토픽과 연관된 뉴스 리스트를 예시한 도면이다.
도 13은 표시부(60)의 연관어 현황에서 키워드를 선택하는 경우 해당 키워드에 대한 제2 연관 검색어가 표시되는 것을 예시한 도면이다.
도 14는 본 발명의 제14실시예에 따라 구현된 시스템 전체를 예시한 도면이다.
이하, 본 발명에 따른 바람직한 실시예를 도면을 참조하여 상세히 설명한다.
본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 명칭에는 동일 부호를 사용하기로 한다. 또한, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 경우에 따라 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외의 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 발명의 기타 이점 및 특징, 그리고 이들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른, 미래위험 변화예측 분석 시스템에 관하여 상세히 설명하면 다음과 같다.
도 1은 본 발명의 제1실시예에 따른 미래위험 변화예측의 분석을 위한 시스템의 구성을 도시한 도면이다.
본 발명의 제1실시예에 따른 미래위험 변화예측의 분석을 위한 시스템은, 빅데이터를 재난관련 키워드로 필터링하는 중계서버(22), 상기 재난관련 키워드를 저장하는 제1 DB서버(21)를 포함하는 데이터 수집부(20), 상기 수집된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 데이터 분석부(40), 상기 데이터 분석부(40)에서 분석된 분석결과를 저장하는 분석DB(50), 상기 분석DB서버에 저장된 분석결과를 시각화하여 나타내는 표시부(60)를 포함하되, 상기 빅데이터는 '국내외 언론사의 뉴스기사 및 국내외 재난 관련 학회에서 제공하는 DB'(이하 '외부데이터'라고 함)를 포함할 수 있다.
이때 빅데이터란 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧으며, 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 과거에 비해 데이터의 양이 폭증했다는 점과 함께 데이터의 종류도 다양해진 점 등으로 인하여, 빅데이터 분석을 통해 사람들의 행동은 물론 위치정보와 SNS를 통해 생각과 의견까지 예측할 수 있다.
한편, 본 발명의 빅데이터로서 이용되는 국내외 뉴스기사는, 네이버 등의 포털사이트에서 검색가능한 126개 언론사의 2004년 1월부터 현재까지의 총 1억여 건의 뉴스기사를 대상으로 할 수도 있다. 또한, 국내 뿐만 아니라 해외 언론사의 뉴스기사를 대상으로 할 수 있으나 이에 한정되는 것은 아니다. 상기 해외 언론사를 선정할 때, alexa.com 등의 국가별 언론매체 순위를 참고하여 데이터 수집원의 신뢰도를 증가시킬 수도 있다.
또한, 상기 국내외 재난 관련 학회에는 한국 방재학회, 한국지진공학회, 대한토목학회, 한국수자원학회, 한국행정연구원, 한국정보화진흥원, 국회예산정책처, 한국행정학회, 한국사학회, 한국정치학회, 한국환경보건학회, 한국기상학회, 한국대기환경학회, 한국정보기술학회 등의 14개 학회에서 발표된 10만여 건의 논문을 대상으로 할 수도 있으나 이에 한정되는 것은 아니다.
이때 상기 외부데이터는 별도의 외부데이터 수집원(10)에 미리 DB로 저장되어 있을 수 있으며, 이때 외부데이터 수집원(10)은 중계서버(22) 등의 본 발명에서 사용되는 서버를 운영하는 주체와 동일한 주체가 운영할 수도 있고, 이외의 제3자가 운영할 수도 있음을 알아야 한다.
상기 외부데이터 등을 별도의 외부데이터 수집원(10)에 저장하기 위해 Hadoop 뿐만 아니라 Flume, sqoop, R, HBase, Oozie 등 여러 가지 기술을 사용할 수 있으며, 이때, 상기 Hadoop란, 저가 서버와 하드디스크를 이용하여 빅데이터(big data)를 상대적으로 쉽게 활용, 처리할 수 있는 분산파일 시스템을 말하며, 여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술을 말한다.
이렇게 외부데이터 수집원(10)에 저장된 데이터에 저장된 외부데이터 등을 재난관련 키워드로 필터링하기 위한 방법으로 Solr 또는 Elastic Search 등의 검색엔진을 사용할 수 있다. 이때, 상기 Solr란, 검색과 관련된 기본 프레임워크를 제공하는 아파치 루씬(APACHE LUCENE)을 기반으로 만들어진 전문 검색 엔진으로서 기업용 검색엔진의 오픈소스로서 자바언어를 사용하는 것을 특징으로 한다. 또한, 상기 Elastic Search란 Solr와 마찬가지로 아파치 루씬(APACHE LUCENE)을 기반으로 개발된 오픈소스 분산 검색 엔진으로서, 분산처리와 실시간 처리 능력이 뛰어나다는 장점이 있다. 또한, 상기 외부데이터 수집원(10)에 저장된 데이터 중 list page나 본문 추출이 되지 않는 garbage 문서를 수작업으로 제거하는 과정을 더 포함할 수도 있다.
또한, 상기 중계서버(22)는 국내외 뉴스와 국내 주요 재난 관련 학회의 논문 등의 외부데이터로부터 재난관련 키워드로 필터링하여 데이터를 수집하는 수집어댑터와 상기 필터링된 데이터를 저장하는 외부파일서버로 구성될 수 있으며, 이때 서버란 컴퓨터 네트워크에서 다른 컴퓨터에 서비스를 제공하기 위한 컴퓨터 또는 소프트웨어를 가리키는 용어를 총칭한다.
또한, 상기 외부데이터를 필터링하는 재난관련 키워드는 "호우, 태풍, 홍수, 강풍, 황사, 풍랑, 산사태, 폭염, 한파, 해일, 지진, 가뭄, 대설, 낙뢰, 우박, 화산폭발, 우주재해, 조류, 가축질병, 금융전산, 전염병, 전파재난, 정보통신, 화생방사고, 수도, 교통, 에너지, 보건의료, 교통사고, 폭발, 테러, 전쟁, 화재, 해양 환경오염사고, 수질 환경오염사고, 항공사고, 해상사고, 원전사고, 국가기반시설, 붕괴 등의 키워드 및 해당 키워드의 유의어 및 동의어" 등을 포함할 수 있고, 제1 DB서버(21)에 저장되어 활용되는 것이 바람직하다.
또한 상기 데이터 분석부(40)는 상기 데이터 수집부(20)의 외부 데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 정제부(41);와, 상기 정제된 데이터들을 카테고리별로 문서 분류(document classification)를 수행하기 위한 분류부(42);와, 상기 분류를 위한 재난관련 카테고리에 대한 데이터를 저장하고 있는 DB저장부(43);와, 상기 카테고리별로 분류된 문서에 대하여 문서 군집(document clustering)을 수행하는 제1분석부(441);와, 상기 제1분석부(441)에서 군집된 문서의 정보를 추출하는 제2분석부(442)를 포함할 수 있다.
이때 상기 데이터 분석부(40)에서 상기 수집된 데이터를 분석하는데 사용되는 개념이 바로 텍스트 마이닝이다. 텍스트 마이닝(text mining)이란 대규모의 문서(text)에서 의미 있는 정보를 추출하는 것을 말한다. 텍스트 마이닝은 텍스트 분석(text analytics), 텍스트 데이터베이스로부터 지식 발견(KDT, Knowledge Discovery in Textual Database), 문서 마이닝(document Mining) 등으로 불리기도 한다. 이러한 텍스트 마이닝은 분석 대상이 형태가 일정하지 않고 다루기 어려운 비정형 데이터이므로 인간의 언어를 컴퓨터가 인식해 처리하는 자연어 처리(NLP, natural language processing) 방법과 관련된다.
좀 더 구체적으로 문서 분류(document classification), 문서 군집(document clustering), 메타데이터 추출(metedata extraction), 정보 추출(information extraction) 등으로 구분할 수 있다. 문서 분류는 도서관에서 주제별로 책을 분류하듯이 사전에 분류 정보를 알고 있는 상태에서 주제에 따라 분류하는 방법을 말하며, 문서 군집은 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법인 것이 바람직하다. 또한, 정보 추출은 문서에서 중요한 의미가 있는 정보를 자동으로 추출하는 방법을 의미할 수 있다.
상기 데이터 분석부(40)의 일 구성요소인 "정제부(41)"는, 자연어 처리 방법(NLP, natural language processing)을 통하여 데이터 전처리부(30)에 수집된 비정형 데이터들을 정제하는 과정을 거치는 곳을 말한다. 상기 정제란, 수집된 많은 데이터 중에서 핵심적인 키워드를 추출하는 것을 말한다. 따라서 정제 과정은 수집된 수많은 데이터 속에서 실제 분석에 필요한 것만 추출해내는 과정으로, 빅데이터 분석에 아주 중요한 부분이다. 또한, 상기 자연어란 사람들이 일상적으로 쓰는 언어를 뜻하며, 이러한 자연어를 컴퓨터가 인식할 수 있도록 인공어로 만들어주는 기술이 자연어 처리(NLP, natural language processing) 기술이다.
상기 자연어 처리(NLP, natural language processing)란, 자연어 등 기존 데이터를 형태소로 바꾸는 형태소 분석(Morphological Analysis), 구문 분석(Syntactic Parsing), 의미 분석(Semantic Analysis), 담화 분석(Discourse Analysis) 등을 통하여 자연어 이해 과정을 거친 후 상기 분석한 결과물을 사람의 편의성에 입각하여 텍스트, 음성, 그래픽 등을 생성하는 자연어 생성 단계를 거치는 것을 말한다.
또한, 상기 데이터 분석부(40)의 일 구성요소인 "분류부(42)"는, 상기 정제된 데이터들을 대상으로 재난관련 카테고리에 대한 데이터를 기준으로 문서 유사도를 측정하고 자동으로 카테고리별로 문서 분류(document classification)를 수행하는 것을 특징으로 할 수 있다. 먼저, 상기 정제된 데이터들의 출처를 기준으로 뉴스와 논문으로 분류하고, 재난관련 카테고리에 대한 데이터를 기준으로 동의어, 유의어 등을 함께 고려하여 문서 분류(document classification)를 수행한다.
또한, 상기 분류부(42)의 분류 기준이되는 "재난관련 카테고리에 대한 데이터"는, DB저장부(43)에 저장되며, "재난유형, 사회환경, 피해속성 등"으로 크게 나눌 수 있다.
상기 재난관련 카테고리에 대한 데이터 중 "재난유형"은 "호우, 태풍, 홍수, 강풍, 황사, 풍랑, 산사태, 폭염, 한파, 해일, 지진, 가뭄, 대설, 낙뢰, 우박, 화산폭발, 우주재해, 조류, 가축질병, 금융전산, 전염병, 전파재난, 정보통신, 화생방사고, 수도, 교통, 에너지, 보건의료, 교통사고, 폭발, 테러, 전쟁, 화재, 해양 환경오염사고, 수질 환경오염사고, 항공사고, 해상사고, 원전사고, 국가기반시설, 붕괴 등의 카테고리 및 해당 카테고리의 유의어 및 동의어"로 세분화할 수 있다.
또한, 상기 재난관련 카테고리에 대한 데이터 중 "사회환경"은 "농업, 어업, 임업, 축산업, 에너지, 교통, 보건.위생, 수자원, 치안 등의 카테고리 및 해당 카테고리의 유의어 및 동의어"로 세분화할 수 있다.
또한, 상기 재난관련 카테고리에 대한 데이터 중 "피해속성"은 "가축피해, 인명피해, 재산피해, 시설피해 등의 카테고리 및 해당 카테고리의 유의어 및 동의어"로 세분화할 수 있다.
또한 상기 데이터 분석부(40)의 일 구성요소인 "제1분석부(441)"는 상기 분류부(42)에서 카테고리별로 문서 분류된 다양한 데이터들을 종합하여 문서 군집(document clustering)을 수행하는 과정을 거쳐 그룹화되는 곳을 의미할 수 있다. 이를테면, 재난관련 뉴스와 함께 해당 재난과 관련된 논문이 그룹화되는 경우를 예로 들 수 있다.
또한 상기 데이터 분석부(40)의 일 구성요소인 "제2분석부(442)"는, 상기 제1분석부(441)에서 군집되어 그룹화된 문서의 정보 추출(information extraction)을 수행하는데, 이를테면, 재난관련 뉴스에서 지역, 피해대상, 재난유형, 피해금액 등의 핵심키워드를 추출하는 것을 예로 들 수 있다.
또한, 도 2는 본 발명의 제2실시예에 따른 미래위험 변화예측의 분석을 위한 시스템의 구성을 도시한 도면이다.
본 발명의 제2실시예에 따른 미래위험 변화예측의 분석을 위한 시스템은, 상기 도 1의 본 발명의 제1실시예에 따른 미래위험 변화예측의 분석을 위한 시스템에, 제2 DB서버(23)과 데이터 전처리부(30)를 더 포함할 수 있다.
구체적으로, 상기 제1실시예와 같은 구성을 가진 본 발명에 있어서, 상기 데이터 수집부(20)는 '내부데이터 DB' 및 '정부기관에서 공중에 제공하는 DB'를 저장하는 제2 DB서버(23)를 더 포함할 수 있다.
또한 상기 내부데이터 DB 및 정부기관에서 공중에 제공하는 DB에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 상기 중계서버(22)에서 필터링된 외부데이터와 통합하는 데이터 전처리부(30)를 더 포함할 수 있다.
이때, 상기 '내부데이터 DB'는 본 발명의 운영주체가 내부적으로 구축한 재난관련 DB를 의미할 수 있다. 특히, 상기 운영주체는 "국립재난안전연구원"인 것이 바람직하다. 이때, "국립재난안전연구원"이 내부적으로 구축한 재난관련 DB는 "국립재난안전연구원"이 주도하였거나 참가하여 수행한 '재난관련 연구, 실험, 또는 논문 등의 DB'와 '상기 "국립재난안전연구원"에서 발간한 보고서'를 포함할 뿐만 아니라, '상기 "국립재난안전연구원"에 구비된 내부 서버에 저장된 재난관련 DB 일체'를 의미하는 것이 바람직하다.
또한, 상기 '정부기관에서 공중에 제공하는 DB'는 기상청, 통계청 등 "정부 3.0"에서 제공하는 다양한 기관들의 DB를 기반으로 할 수 있다.
상기 "정부 3.0"이란 공공 정보를 개방·공유하고, 부처 간 칸막이를 없애고 소통·협력함으로써 국정 과제에 대한 추진 동력을 확보하고, 국민 맞춤형 서비스를 제공하며, 동시에 일자리 창출과 창조경제를 지원하는 새로운 정부 운영 패러다임을 말한다. 또한, 공공 데이터를 민간이 다양하게 활용할 수 있도록 한 것이 특징이며, 민간이 보다 편리하게 공공 데이터를 활용할 수 있도록 데이터베이스를 표준화하고 오픈 플랫폼을 마련하고 법제도를 개선하는 것을 지향하고 있다.
상기 "정부 3.0"에서 제공하는 다양한 기관들의 DB란 국립환경과학원, 국토교통부, 행정자치부, 한국원자력안전기술원, 환경부 등에서 정보공개한 내용과 국토교통부, 행정자치부, 한국정보화진흥원 등의 데이터 개방한 내용 및 민원24, 국민신문고 등에서 제공하는 DB를 의미한다(http://www.gov30.go.kr/gov30/int/ intro6.do 참조). 이는 정부 기관의 정책에 따라 변경될 수 있으며, 상기 기재된 기관에 한정되지 않는다.
또한, 상기 제2실시예에 따른 미래위험 변화예측 분석 시스템 및 방법에 있어서, 상기 제2 DB서버(23)의 내부데이터 DB 및 정부기관에서 공중에 제공하는 DB에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 상기 중계서버(22)에서 필터링된 외부데이터와 통합하는 데이터 전처리부(30)를 더 포함할 수 있다.
상기 ETL(Extraction, Transformation, Loading)이란, 데이터 웨어하우스(DW, Data Warehouse) 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스에 적재하는 모든 과정을 말하는 것으로, 여기서 데이터 웨어하우스란 상기 내/외부 데이터가 통합된 데이터 전처리부(30)를 의미한다고 보는 것이 바람직하다. 이러한 ETL과정은 데이터 양이 많아 DB구축에 영향이 있을 수 있는 경우에 사용하는 것이 바람직하다.
또한, 상기 제2실시예에 따른 데이터 분석부(40)는 상기 데이터 전처리부(30)의 내/외부 통합데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 정제부(41);와, 상기 정제된 데이터들을 카테고리별로 문서 분류(document classification)를 수행하기 위한 분류부(42);와, 상기 분류를 위한 재난관련 카테고리에 대한 데이터를 저장하고 있는 DB저장부(43);와, 상기 카테고리별로 분류된 문서에 대하여 문서 군집(document clustering)을 수행하는 제1분석부(441);와, 상기 제1분석부(441)에서 군집된 문서의 정보를 추출하는 제2분석부(442)를 포함할 수 있다. 이하, 제1실시예에서 설명한 바와 같으므로 그 설명은 생략한다.
한편, 도 3은 본 발명의 제3실시예에 따른 미래위험 변화예측 분석 시스템의 데이터 분석부(40)의 구성을 도시한 도면이다.
본 발명의 제3실시예에 따른 미래위험 변화예측 분석 시스템에 있어서, 상기 제1실시예 및 제2실시예에서 설명한 데이터 분석부(40)의 정제부(41), 분류부(42), DB저장부(43), 제1분석부(441) 및 제2분석부(442) 이외에, 상기 제2분석부(442)에서 추출된 정보를 분석하여 전년대비 증가추이를 기준으로 재난 유형별로 수치화하는 제3분석부(443)를 더 포함할 수 있고, 또한, 상기 제3분석부(443)에서 수치화된 분석결과를 가지고 특정 이슈의 확산 경로를 추척하는 제4분석부(444);를 더 포함할 수 있다.
또한 상기 구성요소인 "제3분석부(443)"는, 상기 제2분석부(442)에서 추출된 핵심키워드를 정량데이터로 변환하고, 이전 데이터와 비교하여 상대적인 증가, 감소 정도를 수치화하는 것을 포함할 수 있다. 상기 정량데이터란, 날짜별 또는 재난유형별로 뉴스가 게재된 숫자를 의미하고, 이를 그래프화하여 시각적으로 표현한 것을 "재난 트렌드"라고 볼 수 있다.
또한 상기 구성요소인 "제4분석부(444)"는, 상기 제3분석부(443)에서 수치화된 분석결과를 가지고 Shock Model을 활용한 확산경로 예측 모델, 비선형회기분석(NLIN)모델, 지수가중이동평균 모델 또는 Sørensen-Dice coefficient 알고리즘 중 어느 하나 이상을 활용하여 특정 이슈의 확산 경로를 추척하고 이슈 강도를 수치화하여 미래위험 변화를 예측하고 분석하는 것을 포함할 수 있다. 특히, 본 발명에서 확산경로 예측은, N-Gram 알고리즘을 기반으로 하는 Sørensen-Dice coefficient 알고리즘을 활용하는 것이 바람직하다.
상기 N-Gram 알고리즘이란, 텍스트를 N개의 기준 단위로 문자를 절단하는 방법이며, 각각의 뉴스를 N-Gram 알고리즘으로 절단한 문자열끼리 비교하여, 동일한 문자열의 빈도수를 비교하여 기준 값 이상의 빈도수를 갖는 뉴스끼리 서로 그룹화 할 수 있다.
상기 기준 값 이상의 빈도수를 갖는 뉴스들을 판단하는 기준은 문서유사도(QS)를 이용할 수 있다. 상기 문서유사도(QS)는 각각의 문자열의 길이 A, B와 A, B 사이에 N-Gram 알고리즘으로 절단한 문자열들 중에 같은 값을 갖는 경우의 수 2C를 가지고 그 값을 구할 수 있다.
상기 내용을 수식화하면, 아래의 식과 같다.
Figure 112015129116842-pat00001
또한, 상기 제4분석부(444)의 이슈강도는, 최초 발생된 뉴스와 유사한 문서집합을 말한다. 따라서 상기 유사한 문서집합 전체 개수 또는 각 문서집합 내의 문서의 개수 등의 수치를 활용할 수 있다.
한편, 도 4는 본 발명의 제4실시예에 따른 표시부(60)의 구성을 도시한 도면이다.
본 발명의 제4실시예에 따른 미래위험 분석 시스템은 상기 제1실시예 내지 제3실시예의 표시부(60)를 포함하며, 상기 표시부(60)는 상기 분석DB에 저장된 분석결과에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 시각화하여 나타내되, 상기 분류부(42)에서 재난관련 카테고리별 누적 뉴스량 또는 재난관련 총 누적 뉴스량 등의 숫자 통계량을 시각화한 스캐닝부(61);와, 상기 제1분석부(441)에서 문서 군집(document clustering)이 수행된 문서 그룹, 상기 제2분석부(442)에서 추출된 핵심키워드들을 시각화한 모니터링부(62);와, 상기 제3분석부(443)에서 변환된 정량데이터를 주제별, 시기별로 비교할 수 있도록 한 화면에 시각화한 비교분석부(63);와, 상기 제4분석부(444)에서 수치화된 이슈 강도를 시기별로 시각화한 이슈추적부(64); 및 상기 데이터 수집부(20) 또는 상기 데이터 전처리부(30)의 수집된 데이터나 통합데이터의 논문을 직접 검색할 수 있도록 입력부를 구비하고 검색결과를 시각화하는 논문검색부(65);를 포함할 수 있다.
상기 표시부(60)와 같이 데이터를 분석한 결과를 사용자가 쉽게 이해할 수 있도록 도표라는 시각적 수단을 통해 정보를 효과적으로 전달하는 것을 데이터 시각화라고 하며, 수많은 데이터를 한 장의 그림으로 요약한 인포그래픽과 문서에 사용된 단어의 빈도와 중요도를 시각적으로 표현한 단어 구름이 대표적이다.
이러한 데이터 시각화 중 하나인 정보 그래픽은 인포그래픽(infographic)이라고도 불리는데 정보와 데이터, 지식을 시각적으로 표현하는 것을 말한다. 표지판이나 지도, 언론, 기술보고서, 교육 분야에서 발생하는 복잡한 정보를 빠르고 명확하게 표현하는 것이 핵심이다. 이러한 시각화를 지원하는 도구로는 마이크로소프트의 엑셀(Excel)이나 구글의 스프레드시트(Spreadsheets) 등의 프로그램을 이용할 수 있다. 또한 전문적인 분석을 위한 프로그래밍 언어로는 파이선(python), 피에이치피(PHP) 등이 있고 오픈 소스인 프로세싱(Processing)과 R 등이 있다.
또한, 도 5는 본 발명의 제5실시예에 따른 미래위험 변화예측의 분석을 위한 시스템의 구성을 도시한 도면이다.
구체적으로, 도 5의 제5실시예는 상기 제1실시예 내지 제4실시예 및 도 1 내지 도 4 전체에 대한 구성을 하나로 통합하여 도시한 도면으로, 그 구체적인 내용은 상기 설명한 바와 같다.
도 6는 본 발명의 제6실시예에 따른 스캐닝부(61)를 예시한 도면이다.
구체적으로, 상기 도 6에서 예시된 스캐닝부(61)는 상기 분류부(42)에서 재난관련 카테고리별 누적 뉴스량 또는 재난관련 총 누적 뉴스량 등의 숫자 통계량이 표시된 통계부(100);와, 전국 지역과 표시하고자 하는 월(月)을 지정할 수 있는 입력부(200);와, 상기 입력부(200)에 입력된 정보에 맞춰서 '재난관련 카테고리별로 세분화된 주제별 누적 뉴스량'의 '자연재난, 사회재난, 사회환경 및 피해속성의 카테고리별 누적 뉴스량' 대비 비율을 도식화해서 보여주고 이에 대한 수치를 다운로드할 수 있게 표시하는 도입부(300);와, 상기 입력부(200)에 입력된 정보에 맞춰서 상기 제3분석부(443)에서 변환된 정량데이터를 주제별, 시기별로 도시한 재난 트렌드 및 상기 변환된 정량데이터의 핵심키워드를 함께 병기하는 것을 특징으로 하는 트렌드부(400);와, 상기 입력부(200)에 입력된 정보에 맞춰서 상기 제2분석부(442)에서 추출된 핵심키워드들을 사용 빈도 순위에 따라 색깔을 달리하여 시각화한 키워드부(500);를 포함할 수 있다.
특히, 상기 도입부(300)의 구체적인 예시를 살펴보면 다음과 같다.
상기 도입부(300)는, 상기 입력부(200)에 입력된 정보에 맞춰서 자연재난 중 홍수, 태풍, 강풍, 호우, 가뭄 등으로 카테고리화된 분석DB의 각 데이터 비율, 사회환경 중 교통, 보건·위생, 에너지, 수자원, 농업 등으로 카테고리화된 분석DB의 각 데이터 비율, 사회재난 중 교통사고, 보건의료, 정보통신, 해양선박사고, 금융전산 등으로 카테고리화된 분석DB의 각 데이터 비율, 피해속성 중 인명피해, 재산피해, 시설피해, 가축피해 등으로 카테고리화된 분석DB의 각 데이터 비율을 도식화해서 보여주고 이에 대한 수치를 다운로드할 수 있게 표시하는 것을 의미할 수 있다.
또한, 도 7은 본 발명의 제7실시예에 따른 모니터링부(62)를 예시한 도면이다.
구체적으로, 상기 모니터링부(62)는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부(110);와, 상기 입력부에 입력된 정보에 맞춰서 상기 제3분석부(443)에서 변환된 정량데이터를 주제별, 시기별로 도시한 재난 트렌드 및 상기 변환된 정량데이터의 핵심키워드를 함께 병기하는 것을 특징으로 하는 트렌드부(210);와, 상기 입력부에 입력된 정보에 맞춰서 상기 제1분석부(441)에서 문서 군집(document clustering)이 수행된 문서 그룹이 그 토픽과 공통 키워드로 표시되며 상기 문서 그룹의 다운로드가 가능하도록, 그리고 각 문서 전문을 볼 수 있도록 구성한 것을 특징으로 하는 재난 토픽 및 뉴스부(310);와, 상기 입력부에 입력된 정보에 맞춰서 상기 제2분석부(442)에서 추출된 핵심키워드들을 관련도에 따라 중심 키워드와 관련 키워드로 나누고, 관련도가 높을수록 중심 키워드와 가까이 배치되도록 표시하여 연관어 현황을 한눈에 볼 수 있도록 나타내는 제1 연관어 현황부(410);를 포함할 수 있다.
또한, 도 8은 본 발명의 제8실시예에 따른 비교분석부(63)를 예시한 도면이다.
구체적으로, 상기 비교분석부(63)는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부(120);를 다수개 포함할 수 있고, 상기 입력부에 입력된 정보에 맞춰서 상기 제3분석부(443)에서 변환된 정량데이터를 주제별, 시기별로 도시한 재난 트렌드 및 상기 변환된 정량데이터의 핵심키워드를 함께 병기하는 것을 특징으로 하는 다수개의 트렌드부를 한 차트에 표시하여 한눈에 비교할 수 있도록 하는 비교부(220, 320)를 다수개 포함할 수 있다.
또한, 도 9는 본 발명의 제9실시예에 따른 이슈추적부(64)를 예시한 도면이다.
구체적으로, 상기 이슈추적부(64)는 상기 제4분석부(444)에서 분석한 결과를 토대로, 이슈 확산 형태를 추적할 수 있도록 하는데 특징이 있다. 상기 이슈추적부는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부(130)와, 상기 입력부(130)에 입력된 정보에 맞춰서 이슈발생일을 가로축으로, 이슈 강도를 세로축으로 도표화하여 특정 이슈가 확산된 범위를 시각화한 이슈 확산 형태 추적부(230)와, 상기 입력부(130)에 입력된 정보에 맞춰서 특정 이슈에 관하여 상기 제1분석부(441)에서 문서 군집(document clustering)이 수행된 문서 그룹을 시각화한 이슈 뉴스부(330)와, 상기 입력부(130)에 입력된 정보에 맞춰서 상기 제2분석부(442)에서 추출된 핵심키워드들을 관련도에 따라 중심 키워드와 관련 키워드로 나누고, 관련도가 높을수록 중심 키워드와 가까이 배치되도록 표시하여 연관어 현황을 한눈에 볼 수 있도록 나타내는 제1 연관어 현황부(430)를 더 포함할 수 있다. 이때 상기 이슈 확산 형태 추적부(230)의 이슈 강도는, 상기 제4분석부(444)에서 분석한 결과를 토대로 특정 이슈와 유사한 문서집합 및 그 개수를 의미하는 것이 바람직하다.
도 10은 본 발명의 제10실시예에 따른 논문검색부(65)를 예시한 도면이다.
구체적으로, 상기 논문검색부(65)는 상기 데이터 전처리부(30)의 수집된 데이터나 통합데이터의 재난 관련 논문을 검색할 수 있도록, 논문이 출간된 기간 및 논문의 제목, 저자, 초록에 대한 검색어를 입력할 수 있는 입력부(140)를 구비하고 논문의 제목, 저자, 출처, 논문의 초록을 표시하는 검색결과 표시부(240)를 구비할 수 있다.
도 11은 본 발명의 제11실시예에 따라 표시부(60)가 영어로 표시된 미래위험 분석 시스템을 예시한 도면이다.
본 발명의 제11실시예에 따른 미래위험 분석 시스템은 상기 제1실시예 내지 제10실시예를 포함하되, 그 표시 언어로 실시예와 같이 한국어 뿐 아니라, 영어, 일어, 중국어 등의 외국어가 사용될 수도 있으며, 이때 상기 나열된 외국어 이외의 다른 외국어도 사용될 수도 있다.
도 12는 본 발명의 제12실시예에 따라 군집화된 뉴스기사들의 목록을 표시하는 새로운 창을 예시한 도면이다.
본 발명의 제12실시예에 따른 미래위험 분석 시스템은 상기 제4실시예 내지 제11실시예에서 모니터링부(62)의 재난 토픽 및 뉴스부 또는 이슈추적부(64)의 이슈 뉴스부 상에 표시된 뉴스 리스트 중 어느 하나의 뉴스에 입력장치를 통해 이를 선택하는 명령을 입력한 경우, 상기 입력된 뉴스와 관련하여 상기 제1실시예의 분류부(42)에서 문서 분류(document classification)된 후, 제1분석부(441)에서 문서 군집(document clustering)이 수행된 관련성 있는 뉴스 기사들의 목록을 새로운 창에 표시할 수 있다.
도 13은 본 발명의 제13실시예에 따라 제2 연관어 현황부를 나타낸 도면이다.
본 발명의 제13실시예에 따른 미래위험 분석 시스템은 상기 제4실시예 내지 제11실시예에서 모니터링부(62) 또는 이슈추적부(64)의 제1 연관어 현황부(410, 430)에 표시된 어느 하나의 키워드에 대하여 입력장치를 통해 클릭, 터치 또는 음성명령어 입력 등으로 명령을 입력하면, 상기 키워드만을 중심으로 관련도가 높은 연관어 현황을 한눈에 볼 수 있는 제2 연관어 현황부를 더 포함할 수 있다.
도 14는 본 발명의 구체적인 제14실시예에 따라 구현된 시스템 전체를 예시한 도면이다. 이는 상기 언급한 본 발명의 모든 구성 및 특징이 실질적으로 수집, 처리 및 시각화되어 표시되는 과정을 나타내고 있다.
또한, 본 발명의 구체적인 제15실시예에 따라 구현된 미래위험 변화예측 분석 방법은 아래와 같다.
상기 제15실시예에 따른 미래위험 변화예측의 분석 방법은 빅데이터로부터 재난관련 데이터를 필터링하여 수집하는 제1-1단계, 상기 제1-1단계에서 수집된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 제2단계, 상기 데이터 분석부에서 분석된 분석결과를 저장하는 제3단계, 상기 저장된 분석결과를 시각화하여 나타내는 제4단계를 포함하되, 상기 빅데이터는 국내외 언론사의 뉴스 및 국내외 재난 관련 학회에서 제공하는 DB인 것을 특징으로 할 수 있다.
이때, 제15실시예에 따른 미래위험 변화예측의 분석 방법은 상기 제1-1단계의 필터링되어 수집된 데이터와, 제2 DB서버에 저장된 DB로부터 ETL(Extraction, Transformation, Loading)이 수행된 데이터를 통합하는 제1-2단계를 더 포함하되, 상기 제2단계는 상기 제1-2단계에서 통합된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 제2단계로 구성될 수도 있다.
그리고 상기 제2 DB서버는 '내부데이터 DB' 및 '정부기관에서 공중에 제공하는 DB'를 저장하는 것을 특징으로 할 수 있다.
또한, 상기 제15실시예에 따른 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 제2단계는 상기 제1-1단계 또는 상기 제1-2단계에서 수집된 데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 제2-1단계, 상기 제2-1단계의 자연어 처리된 데이터에 대하여 카테고리별로 문서 분류(document classification)를 수행하는 제2-2단계, 상기 제2-2단계로부터 분류된 데이터들에 대하여 문서 군집(document clustering)을 수행하는 제2-3단계 및 상기 제2-3단계로부터 군집된 문서의 정보를 추출하는 제2-4단계로 구성되는 것이 바람직하다.
또한, 상기 제2단계는 상기 제2-4단계로부터 추출된 정보를 분석하여 전년대비 증가 추이를 기준으로 재난 유형별로 수치화하는 제2-5단계, 상기 제2-5단계로부터 수치화된 분석결과를 가지고 특정 이슈의 확산 경로를 추적하는 제2-6단계를 더 포함하는 것을 특징으로 할 수 있다.
또한, 상기 제1-1단계에서 빅데이터를 필터링하는데 사용되는 재난 관련 키워드 및 상기 제2-2단계에서 문서 분류(document classification)에 사용되는 재난 관련 카테고리는, 상기 제1실시예 내지 제14실시예에서 설명한 미래위험 변화예측 분석 시스템의 설명과 같으므로, 이하 생략한다.
또한, 그 밖의 제15실시예의 구체적인 특징은, 상기 제1실시예 내지 제14실시예에서 설명한 미래위험 변화예측 분석 시스템의 특징과 같다. 따라서 제15실시예의 구체적인 특징은 통상의 기술자 입장에서 쉽게 이해될 수 있으므로, 이하 자세한 설명은 생략한다.
10 : 외부데이터 수집원 20 : 데이터 수집부
21 : 제1 DB서버 22 : 중계서버
23 : 제2 DB서버 30 : 데이터 전처리부
40 : 데이터 분석부 41 : 정제부
42 : 분류부 43 : DB저장부
44 : 제n분석부 441 : 제1분석부
442 : 제2분석부 443 : 제3분석부
444 : 제4분석부 50 : 분석DB
60 : 표시부 61 : 스캐닝부
62 : 모니터링부 63 : 비교분석부
64 : 이슈추적부 65 : 논문검색부
100 : 통계부
200, 110, 120, 130, 140, 150 : 입력부
210, 250, 400 : 트렌드부 220 : 제1 트렌드 비교부
230 : 이슈 확산 형태 추적부 240 : 검색결과 표시부
300 : 도입부 310, 350 : 재난 토픽 및 뉴스부
320 : 제2 트렌드 비교부 330 : 이슈 뉴스부
410, 430, 450 : 제1 연관어 현황부 500 : 키워드부

Claims (33)

  1. 미래위험 변화예측의 분석을 위한 시스템에 있어서,
    빅데이터를 재난관련 키워드로 필터링하는 중계서버와, 상기 재난관련 키워드를 저장하는 제1 DB서버를 포함하는 데이터 수집부;
    상기 수집된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 데이터 분석부;
    상기 데이터 분석부에서 분석된 분석결과를 저장하는 분석DB;
    상기 저장된 분석결과를 시각화하여 나타내는 표시부를 포함하되,
    상기 빅데이터는 국내외 언론사의 뉴스 및 국내외 재난 관련 학회에서 제공하는 DB이고,
    상기 데이터 분석부는,
    상기 데이터 수집부에서 수집된 데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 정제부;
    상기 정제된 데이터들을 카테고리별로 문서 분류(document classification)를 수행하기 위한 분류부;
    상기 분류를 위한 재난관련 카테고리 데이터가 저장된 DB저장부;
    상기 카테고리별로 분류된 문서에 대하여 문서 군집(document clustering)을 수행하는 제1분석부;
    상기 제1분석부에서 군집된 문서의 정보를 추출하는 제2분석부;
    상기 제2분석부에서 추출된 정보를 분석하여 전년대비 증가 추이를 기준으로 재난 유형별로 수치화하는 제3분석부;
    상기 제3분석부에서 수치화된 분석결과를 가지고 특정 이슈의 확산 경로를 추적하는 제4분석부;를 포함하며,
    상기 표시부는
    상기 분석DB에 저장된 분석결과에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 시각화하여 나타내되,
    상기 분류부에서 분류된 재난관련 카테고리별 누적 뉴스량 또는 재난관련 총 누적 뉴스량의 숫자 통계량을 시각화한 스캐닝부;
    상기 제1분석부에서 문서 군집(document clustering)이 수행된 문서 그룹, 상기 제2분석부에서 추출된 핵심키워드들을 시각화한 모니터링부;
    상기 제3분석부에서 변환된 정량데이터를 주제별, 시기별로 비교할 수 있도록 한 화면에 시각화한 비교분석부;
    상기 제4분석부에서 수치화된 이슈 강도를 시기별로 시각화한 이슈추적부;
    상기 데이터 수집부에 수집된 외부데이터의 논문을 직접 검색할 수 있도록 입력부를 구비하고 검색결과를 시각화하는 논문검색부;를 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  2. 제1항에 있어서,
    상기 데이터 수집부는
    내부데이터 DB 및 정부기관에서 공중에 제공하는 DB를 저장하는 제2 DB서버를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  3. 제2항에 있어서,
    상기 제2 DB서버에 저장된 내부데이터 DB 및 정부기관에서 공중에 제공하는 DB에 대하여 ETL(Extraction, Transformation, Loading)을 수행한 후 상기 중계서버에서 필터링된 외부 데이터와 통합하는 데이터 전처리부를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  4. 제1항에 있어서,
    상기 중계서버는 외부 뉴스로부터 재난관련 키워드로 필터링하여 데이터를 수집하는 수집어댑터와 상기 필터링된 데이터를 저장하는 외부파일서버로 구성되는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  5. 제1항에 있어서,
    상기 재난 관련 키워드는 호우, 태풍, 홍수, 강풍, 황사, 풍랑, 산사태, 폭염, 한파, 해일, 지진, 가뭄, 대설, 낙뢰, 우박, 화산폭발, 우주재해, 조류, 가축질병, 금융전산, 전염병, 전파재난, 정보통신, 화생방사고, 수도, 교통, 에너지, 보건의료, 교통사고, 폭발, 테러, 전쟁, 화재, 해양 환경오염사고, 수질 환경오염사고, 항공사고, 해상사고, 원전사고, 국가기반시설, 붕괴 중에서 선택되는 1개 이상의 키워드 및 해당 키워드의 유의어 및 동의어를 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  6. 삭제
  7. 제3항에 있어서,
    상기 정제부는 상기 데이터 전처리부에서 통합된 통합데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 특정 이슈의 확산 경로 추적은,
    Sørensen-Dice coefficient 알고리즘을 이용하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  11. 제1항에 있어서,
    상기 분류부는,
    상기 정제된 데이터들의 출처를 기준으로 뉴스와 논문으로 분류하고, 재난관련 카테고리에 대한 데이터를 기준으로 동의어, 유의어를 함께 고려하여 문서 분류(document classification)를 수행하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  12. 제1항에 있어서,
    상기 재난관련 카테고리 데이터는,
    재난유형, 사회환경, 피해속성을 카테고리로 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  13. 제12항에 있어서,
    상기 재난유형 카테고리는
    호우, 태풍, 홍수, 강풍, 황사, 풍랑, 산사태, 폭염, 한파, 해일, 지진, 가뭄, 대설, 낙뢰, 우박, 화산폭발, 우주재해, 조류, 가축질병, 금융전산, 전염병, 전파재난, 정보통신, 화생방사고, 수도, 교통, 에너지, 보건의료, 교통사고, 폭발, 테러, 전쟁, 화재, 해양 환경오염사고, 수질 환경오염사고, 항공사고, 해상사고, 원전사고, 국가기반시설, 붕괴 및 그 유의어 및 동의어로 세분화되는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  14. 제12항에 있어서,
    상기 사회환경 카테고리는
    농업, 어업, 임업, 축산업, 에너지, 교통, 보건, 위생, 수자원, 치안 및 그 유의어 및 동의어로 세분화되는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  15. 제12항에 있어서,
    상기 피해속성 카테고리는
    가축피해, 인명피해, 재산피해, 시설피해 및 그 유의어 및 동의어로 세분화되는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 제1항에 있어서
    상기 스캐닝부는
    상기 분류부에서 분류된 재난관련 카테고리별 누적 뉴스량 또는 재난관련 총 누적 뉴스량의 숫자 통계량이 표시된 통계부;와,
    전국 지역과 표시하고자 하는 월(月)을 지정할 수 있는 입력부;와,
    상기 입력부에 입력된 정보에 맞춰서 '재난관련 카테고리별로 세분화된 주제별 누적 뉴스량'의 '자연재난, 사회재난, 사회환경 및 피해속성의 카테고리별 누적 뉴스량' 대비 비율을 도식화해서 보여주고 이에 대한 수치를 다운로드할 수 있게 표시하는 도입부;와,
    상기 입력부에 입력된 정보에 맞춰서 상기 제3분석부에서 변환된 정량데이터를 주제별, 시기별로 도시한 재난 트렌드 및 상기 변환된 정량데이터의 핵심키워드를 함께 병기하는 것을 특징으로 하는 트렌드부;와,
    상기 입력부에 입력된 정보에 맞춰서 상기 제2분석부에서 추출된 핵심키워드들을 사용 빈도 순위에 따라 색깔을 달리하여 시각화한 키워드부;를 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  22. 제1항에 있어서,
    상기 모니터링부는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부;와,
    상기 입력부에 입력된 정보에 맞춰서 상기 제3분석부에서 변환된 정량데이터를 주제별, 시기별로 도시한 재난 트렌드 및 상기 변환된 정량데이터의 핵심키워드를 함께 병기하는 것을 특징으로 하는 트렌드부;와,
    상기 입력부에 입력된 정보에 맞춰서 상기 제1분석부에서 문서 군집(document clustering)이 수행된 문서 그룹이 그 토픽과 공통 키워드로 표시되며 상기 문서 그룹의 다운로드가 가능하도록, 그리고 각 문서 전문을 볼 수 있도록 구성한 것을 특징으로 하는 재난 토픽 및 뉴스부;와,
    상기 입력부에 입력된 정보에 맞춰서 상기 제2분석부에서 추출된 핵심키워드들을 관련도에 따라 중심 키워드와 관련 키워드로 나누고, 관련도가 높을수록 중심 키워드와 가까이 배치되도록 표시하여 연관어 현황을 한눈에 볼 수 있도록 나타내는 제1 연관어 현황부;를 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  23. 제1항에 있어서,
    상기 비교분석부는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 다수의 입력부;와,
    상기 다수의 입력부에 입력된 정보에 맞춰서 상기 제3분석부에서 변환된 정량데이터를 주제별, 시기별로 도시한 재난 트렌드 및 상기 변환된 정량데이터의 핵심키워드를 함께 병기하는 것을 특징으로 하는 다수개의 트렌드부를 한 차트에 표시하여 한눈에 비교할 수 있도록 하는 비교부;를 다수개 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  24. 제1항에 있어서,
    상기 이슈추적부는 전국 지역과 표시하고자 하는 자연재난, 사회재난, 사회환경, 피해속성의 종류 및 표시할 기준일, 표시하고자 하는 월(月) 및 검색하고자 하는 검색어를 입력할 수 있는 입력부;와,
    상기 입력부에 입력된 정보에 맞춰서 이슈발생일을 가로축으로, 이슈 강도를 세로축으로 도표화하여 특정 이슈가 확산된 범위를 시각화한 이슈 확산 형태 추적부;와,
    상기 입력부에 입력된 정보에 맞춰서 특정 이슈에 관하여 상기 제1분석부에서 문서 군집(document clustering)이 수행된 문서 그룹을 시각화한 이슈 뉴스부;와,
    상기 입력부에 입력된 정보에 맞춰서 상기 제2분석부에서 추출된 핵심키워드들을 관련도에 따라 중심 키워드와 관련 키워드로 나누고, 관련도가 높을수록 중심 키워드와 가까이 배치되도록 표시하여 연관어 현황을 한눈에 볼 수 있도록 나타내는 제1 연관어 현황부;를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  25. 제22항에 있어서,
    상기 재난 토픽 및 뉴스부 상에 표시된 뉴스 리스트 중 어느 하나의 뉴스에 명령을 입력하면,
    상기 뉴스에 관련되어 상기 제1분석부에서 문서 군집(document clustering)이 수행된 관련성있는 뉴스 기사들의 목록이 새로운 창에 표시되는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  26. 제24항에 있어서,
    상기 이슈 뉴스부 상에 표시된 뉴스 리스트 중 어느 하나의 뉴스에 명령을 입력하면,
    상기 뉴스에 관련되어 상기 제1분석부에서 문서 군집(document clustering)이 수행된 관련성있는 뉴스 기사들의 목록이 새로운 창에 표시되는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  27. 제22항에 있어서,
    상기 제1 연관어 현황부 중 어느 하나의 키워드에 대하여 명령을 입력하면,
    상기 키워드만을 중심으로 관련도가 높은 연관어 현황을 한눈에 볼 수 있도록 나타내는 제2 연관어 현황부를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  28. 제24항에 있어서,
    상기 제1 연관어 현황부 중 어느 하나의 키워드에 대하여 명령을 입력하면,
    상기 키워드만을 중심으로 관련도가 높은 연관어 현황을 한눈에 볼 수 있도록 나타내는 제2 연관어 현황부를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 시스템.
  29. 제1항 내지 제5항, 제7항, 제10항 내지 제15항 및 제21항 내지 제28항 중 어느 한 항의 미래위험 변화예측 분석 시스템을 이용한 미래위험 변화예측의 분석 방법으로서,
    상기 데이터 수집부에 의해 빅데이터로부터 재난관련 데이터를 필터링하여 수집하는 제1-1단계;
    상기 제1-1단계에서 수집된 데이터를 바탕으로 상기 데이터 분석부에 의해 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 제2단계;
    상기 데이터 분석부에서 도출된 분석결과를 상기 분석DB에 저장하는 제3단계;
    상기 저장된 분석결과를 상기 표시부에 시각화하여 나타내는 제4단계;를 포함하되,
    상기 빅데이터는 국내외 언론사의 뉴스 및 국내외 재난 관련 학회에서 제공하는 DB이고,
    상기 표시부는 상기 분류부에서 분류된 재난관련 카테고리별 누적 뉴스량 또는 재난관련 총 누적 뉴스량의 숫자 통계량을 시각화한 스캐닝부;
    상기 제1분석부에서 문서 군집(document clustering)이 수행된 문서 그룹, 상기 제2분석부에서 추출된 핵심키워드들을 시각화한 모니터링부;
    상기 제3분석부에서 변환된 정량데이터를 주제별, 시기별로 비교할 수 있도록 한 화면에 시각화한 비교분석부;
    상기 제4분석부에서 수치화된 이슈 강도를 시기별로 시각화한 이슈추적부;
    상기 데이터 수집부에 수집된 외부데이터의 논문을 직접 검색할 수 있도록 입력부를 구비하고 검색결과를 시각화하는 논문검색부;를 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 방법.
  30. 제29항에 있어서,
    상기 제1-1단계의 필터링되어 수집된 데이터와, 제2 DB서버에 저장된 DB로부터 ETL(Extraction, Transformation, Loading)이 수행된 데이터를 통합하는 제1-2단계를 더 포함하되,
    상기 제2단계는,
    상기 제1-2단계에서 통합된 데이터를 바탕으로 텍스트 마이닝(Text mining)을 수행하여 수치화된 분석결과를 도출하는 것을 특징으로 하는 미래위험 변화예측 분석 방법.
  31. 제30항에 있어서,
    상기 제2단계는
    상기 제1-1단계에서 수집된 데이터 또는 제1-2단계에서 통합된 데이터에 대하여 자연어 처리(NLP, natural language processing)를 수행하는 제2-1단계;
    상기 제2-1단계의 자연어 처리된 데이터에 대하여 문서 분류(document classification)를 수행하는 제2-2단계;
    상기 제2-2단계로부터 분류된 데이터들에 대하여 문서 군집(document clustering)을 수행하는 제2-3단계;
    상기 제2-3단계로부터 군집된 문서의 정보를 추출하는 제2-4단계로 구성되는 것을 특징으로 하는 미래위험 변화예측 분석 방법.
  32. 제31항에 있어서,
    상기 제2단계는
    상기 제2-4단계로부터 추출된 정보를 분석하여 전년대비 증가 추이를 기준으로 재난 유형별로 수치화하는 제2-5단계를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 방법.
  33. 제32항에 있어서,
    상기 제2단계는
    상기 제2-5단계로부터 수치화된 분석결과를 가지고 특정 이슈의 확산 경로를 추적하는 제2-6단계를 더 포함하는 것을 특징으로 하는 미래위험 변화예측 분석 방법.
KR1020150190440A 2015-12-30 2015-12-30 미래위험 변화예측 분석 시스템 KR101911466B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150190440A KR101911466B1 (ko) 2015-12-30 2015-12-30 미래위험 변화예측 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150190440A KR101911466B1 (ko) 2015-12-30 2015-12-30 미래위험 변화예측 분석 시스템

Publications (2)

Publication Number Publication Date
KR20170079648A KR20170079648A (ko) 2017-07-10
KR101911466B1 true KR101911466B1 (ko) 2018-10-29

Family

ID=59356435

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150190440A KR101911466B1 (ko) 2015-12-30 2015-12-30 미래위험 변화예측 분석 시스템

Country Status (1)

Country Link
KR (1) KR101911466B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11557401B2 (en) 2021-03-05 2023-01-17 Korea Advanced Institute Of Science And Technology Method and apparatus for predicting imported infectious disease information based on deep neural networks

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101975907B1 (ko) * 2018-03-19 2019-05-07 인천대학교 산학협력단 텍스트 마이닝 기반의 지역별 연구 트렌드 분석 장치 및 이의 동작 방법
KR102111609B1 (ko) * 2018-04-26 2020-05-15 대한민국 재난속성정보 추출 시스템 및 방법
KR102094396B1 (ko) * 2018-04-27 2020-03-30 (주)케이씨넷 빅데이터를 활용한 여행자 및 동행자 패턴분석 시스템 및 방법
KR102178032B1 (ko) * 2018-10-23 2020-11-12 글로벌사이버대학교 산학협력단 비정형 웹 콘텐츠 분석을 통한 전쟁 발생 가능성 예측 시스템
KR102141192B1 (ko) * 2018-10-24 2020-08-04 네이버 주식회사 언론사 별 뉴스 공통 문구 수집 방법 및 장치
KR102307380B1 (ko) * 2018-11-28 2021-09-30 (주)중외정보기술 자연어 처리 기반 콜센터 지원 시스템 및 방법
KR102261360B1 (ko) * 2018-12-18 2021-06-07 대한민국 화학 시설에 대한 보안 취약성 평가 시스템
KR102240737B1 (ko) * 2018-12-18 2021-04-15 대한민국 화학 시설에 대한 보안 취약성 평가 방법
KR102197152B1 (ko) * 2018-12-31 2021-01-04 주식회사 핀업 투자정보 제공 시스템
KR102205215B1 (ko) * 2019-03-11 2021-01-19 한전케이디엔주식회사 딥 러닝 기반 자원 가격 예측 방법
KR102285080B1 (ko) * 2019-11-11 2021-08-02 신종화 이슈 발생 예측 시스템
KR102211861B1 (ko) * 2020-01-07 2021-02-03 한국토지주택공사 시각화된 데이터를 제공하는 데이터 제공 방법, 장치 및 컴퓨터프로그램
KR102640591B1 (ko) * 2020-02-25 2024-02-27 (주)띵스워크샵 오픈 빅데이터 웨어하우스 및 비주얼 프로그래밍 언어에 기반한 데이터 분석 플랫폼을 제공하는 컴퓨팅 장치 및 데이터 분석 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
KR102413961B1 (ko) * 2020-11-19 2022-06-28 정민아 Rpa 모니터링을 이용한 뉴스 분석 서비스 제공 방법
KR102346272B1 (ko) * 2020-12-24 2022-01-03 주식회사 더로드 조류 농도를 예측하는 방법 및 이를 수행하는 전자 장치
KR102461822B1 (ko) * 2021-01-12 2022-11-07 대한민국 실시간 재난안전 뉴스 모니터링 시스템
KR102617839B1 (ko) * 2021-02-02 2024-01-23 주식회사 프리시전에스씨엠 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘
KR102448194B1 (ko) * 2021-03-30 2022-09-27 한남대학교 산학협력단 재난신고 및 민원처리 시스템
CN114048947A (zh) * 2021-10-09 2022-02-15 中国电建集团华东勘测设计研究院有限公司 一种抢险支持辅助决策系统及应用
KR20230100069A (ko) 2021-12-28 2023-07-05 한국환경연구원 과거 유사 기상에 대한 피해 정보 제공 서버, 및 이를 이용한 과거 유사 기상에 대한 피해 정보 제공 방법
KR102499775B1 (ko) * 2022-07-15 2023-02-16 대한민국 재난뉴스 건수의 정량적 측정 시스템 및 방법
CN116594987A (zh) * 2023-06-18 2023-08-15 广东南华工商职业学院 一种基于大数据的数据库分析系统及方法
KR102636010B1 (ko) * 2023-06-27 2024-02-13 주식회사 웍스메이트 자기소개서 데이터 및 사업장 평가 데이터 분석 방법,그리고 이를 이용한 자기소개서 데이터 및 사업장 평가 데이터 분석 시스템
CN117077897B (zh) * 2023-09-21 2024-03-19 四川省华地建设工程有限责任公司 一种地震灾害破坏推演方法及系统
CN117875576B (zh) * 2024-03-13 2024-05-24 四川国蓝中天环境科技集团有限公司 一种基于结构化案例库的城市大气污染分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
연구보고서*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11557401B2 (en) 2021-03-05 2023-01-17 Korea Advanced Institute Of Science And Technology Method and apparatus for predicting imported infectious disease information based on deep neural networks

Also Published As

Publication number Publication date
KR20170079648A (ko) 2017-07-10

Similar Documents

Publication Publication Date Title
KR101911466B1 (ko) 미래위험 변화예측 분석 시스템
To et al. On identifying disaster-related tweets: Matching-based or learning-based?
US11416535B2 (en) User interface for visualizing search data
Wang et al. Spatiotemporal and semantic information extraction from Web news reports about natural hazards
Goyal et al. “Measuring the mix” of policy responses to COVID-19: comparative policy analysis using topic modelling
CN102937960B (zh) 突发事件热点话题的识别与评估装置
Shook et al. The socio-environmental data explorer (SEDE): a social media–enhanced decision support system to explore risk perception to hazard events
TW201426360A (zh) 文字串流訊息分析系統和方法
KR102396771B1 (ko) 재난원인 정보 자동 추출 방법
CN102779190A (zh) 一种时序海量网络新闻的热点事件快速检测方法
Andrews et al. Organised crime and social media: a system for detecting, corroborating and visualising weak signals of organised crime online
Rahmadan et al. Sentiment analysis and topic modelling using the lda method related to the flood disaster in jakarta on twitter
CN110297961A (zh) 一种政策信息的快速采集与优化提取方法
Tarasconi et al. The role of unstructured data in real-time disaster-related social media monitoring
Onorati et al. Semantic visualization of Twitter usage in emergency and crisis situations
Zheng et al. Architecture Descriptions Analysis Based on Text Mining and Crawling Technology
Lelaurain et al. From risk to legislative innovation: The trajectory of marine submersion through the French Media
Pan et al. Femarepviz: Automatic extraction and geo-temporal visualization of FEMA national situation updates
Brown et al. ILAS: Intrinsic landscape assessment system for landscape design and planning in the national capital region
Mai et al. An efficient approach for mining closed high utility itemsets and generators
Simon et al. Applying data mining techniques in the context of social media to improve situational awareness at large-scale events
Wang et al. Creating spatiotemporal semantic maps from web text documents
Wang Automated spatiotemporal and semantic information extraction for hazards
Wendland et al. Sydney siege, December 2014: A visualisation of a semantic social media sentiment analysis
Qian et al. Evaluating resilience of urban lifelines against flooding in China using social media data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right