KR20150059208A - 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법 - Google Patents

소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법 Download PDF

Info

Publication number
KR20150059208A
KR20150059208A KR1020130142223A KR20130142223A KR20150059208A KR 20150059208 A KR20150059208 A KR 20150059208A KR 1020130142223 A KR1020130142223 A KR 1020130142223A KR 20130142223 A KR20130142223 A KR 20130142223A KR 20150059208 A KR20150059208 A KR 20150059208A
Authority
KR
South Korea
Prior art keywords
event
information
related information
document data
keyword
Prior art date
Application number
KR1020130142223A
Other languages
English (en)
Inventor
오효정
배용진
김현기
이충희
조요한
임수종
허정
윤여찬
최윤재
장명길
류법모
최미란
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130142223A priority Critical patent/KR20150059208A/ko
Priority to US14/255,410 priority patent/US20150142780A1/en
Publication of KR20150059208A publication Critical patent/KR20150059208A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 소셜 웹(Social Web) 미디어로부터 텍스트 형식의 문서 데이터를 수집하는 수집부, 이벤트를 나타내는 이벤트 키워드와 상기 이벤트 키워드에 대응하는 이벤트 시공간 정보를 포함하는 이벤트 관련 정보를 저장하는 저장부, 및 상기 문서 데이터를 언어 분석하여, 그 결과를 토대로 상기 문서 데이터로부터 상기 이벤트 키워드와 상기 이벤트 키워드에 관련된 상기 이벤트 관련 정보를 추출하는 추출부, 상기 이벤트 키워드와 상기 이벤트 관련 정보를 시각화하여 출력하는 출력부를 포함하는 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 동작 방법에 관한 것이다.

Description

소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법{Device for analyzing the time-space correlation of the event in the social web media and method thereof}
본 발명은 소셜 웹 미디어 콘텐츠에서 정보를 분석하는 기술에 관한 것으로, 특히 소셜 웹 미디어에서 이벤트 정보 및 그에 관련된 시공간 정보의 연관성을 분석하는 기술에 관한 것이다.
통신망의 발달로 인해 인터넷과 모바일 상에 존재하는 디지털 콘텐츠의 양이 기하급수적으로 증가함에 따라, 바야흐로 빅데이터(Big data) 시대가 도래했다. 또한, 과거에 뉴스를 전달하는 매체였던 인쇄물이 웹과 모바일로 진화하고 있으며, 특히 온라인 뉴스 서비스를 제공하는 사이트에서는 사용자 관점에서 중요도 및 실시간성을 측정하여 순위화된 결과를 사용자들에게 보여주고 있다. 최근에는 웹 뉴스 또는 비정형 텍스트에서 자동적으로 정보를 추출하여 그 주제를 요약하거나 핵심적인 사건 혹은 이벤트를 추출하는 연구가 진행되고 있다.
여기서 일반적인 의미의 '이벤트'는 문제가 되거나 관심을 끌만한 사건을 말하는 반면, 디지털 정보처리를 위한 정보추출(Information Extraction) 관점에서의 '이벤트'는 주어진 문서에서 언급하는 핵심 사건이나 주제를 나타내는 정보로서, 정보추출 대상을 의미한다. 이벤트는 특성에 따라 단발성 이벤트와 연속성 이벤트로 구별될 수 있다.
단발성 이벤트란 자동차 사고나 도난 사건과 같이 특정 이벤트가 발생했다 하더라도 타지역 혹은 다른 시간대에 발생한 유사 사건과 연관성이 희박한 이벤트를 의미한다. 반면, 연속성 이벤트는 감염성 질병이나 태풍과 같이 최초 이벤트가 발생한 뒤 시간 흐름에 따라 인접 지역으로 동일한 이벤트가 확산하는 이벤트를 말한다. 단발성 이벤트에 비하여 연속성 이벤트가 사회적으로 미치는 영향이 크기 때문에 온라인 콘텐츠 상에서 발생한 연속성 이벤트를 자동으로 탐지하고 추적할 수 있다면 이벤트의 최초 발생 이후의 이벤트 발생 경로와 확산 범위의 분석이 가능해지며, 이를 통해 신속하고 효과적인 대응방안을 수립하는데 도움이 된다.
그러나, 현재 소셜 웹 미디어에서 지역 정보를 분석 및 시각화하는 위치 기반 서비스(LBS)(예: 포스퀘어(foursquare), 아임인(I’mIN))에 관련된 기술을 많으나, 이는 대부분 GPS 정보나 상점 목록, RFID tag 등 미디어 자체에 정형화되어 부착된 메타 데이터를 활용하여 지역 정보를 추출하는 것으로, 소셜 웹 미디어의 문장 내에 다양한 어휘로 표현된 시간 및 공간 정보를 분석하여 자동으로 해당 정보를 좌표화 하지 못한다.
또한, 소셜 미디어에서 특정 단어가 언급된 트윗을 검색하는 서비스도 제공되고는 있으나, 이는 자동으로 사용자와 관련된 이슈(이벤트/사건)를 추출하고, 동일 이벤트로 그룹핑하여 이벤트들 간의 시간 및 공간 변화에 따른 연관성을 분석하거나, 특정 사용자 그룹 간 혹은 이슈 이벤트들이 시간과 지역의 변화에 따라 어떻게 이동 및 확산하는지를 분석하여 시각화하지 못한다.
나아가, 소셜 미디어의 주제(topic)에 따라 사용자 네트워크를 분석하는 방법 역시 있으나, 이는 특정 주제에 대해 사용자 그룹이 어떻게 생성 및 변화하는지에 대해 국한되어 있을 뿐, 사용자, 이벤트, 시간 및 공간의 변화를 다각도로 분석하지는 못한다.
본 발명은 소셜 웹 미디어의 문서 데이터로부터 이벤트 및 그에 관련한 시공간 정보를 추출, 연관성 분석 및 시각화할 수 있도록 하는 기술적 방안을 제공함을 목적으로 한다.
전술한 과제를 달성하기 위한 본 발명의 일 양상에 따른 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치는 소셜 웹(Social Web) 미디어로부터 텍스트 형식의 문서 데이터를 수집하는 수집부, 이벤트를 나타내는 이벤트 키워드와 상기 이벤트 키워드에 대응하는 이벤트 시공간 정보를 포함하는 이벤트 관련 정보를 저장하는 저장부, 및 상기 문서 데이터를 언어 분석하여, 그 결과를 토대로 상기 문서 데이터로부터 상기 이벤트 키워드와 상기 이벤트 키워드에 관련된 상기 이벤트 관련 정보를 추출하는 추출부, 상기 이벤트 키워드와 상기 이벤트 관련 정보를 시각화하여 출력하는 출력부를 포함하며, 상기 이벤트 관련 정보에는 상기 이벤트가 발생한 이벤트 시간 정보 및 이벤트 위치 정보를 포함하는 이벤트 시공간 정보와 사용자 신상 정보 중 적어도 하나의 정보가 포함된다.
여기서, 상기 추출부는 상기 문서 데이터를 형태소 분석과 개체명 인식 중 적어도 하나를 수행하여 언어 분석하고, 분석된 상기 문서 데이터에서 상기 이벤트 키워드를 포함하는 이벤트 문장을 선별하며, 상기 이벤트 문장 내 포함된 어휘 데이터를 이용하여 상기 이벤트 관련 정보를 추출하고, 상기 문서 데이터가 상기 소셜 웹 미디어에 부착된 문서 생성 시간과 문서 수정 시간 중 적어도 하나를 더 고려하여 상기 이벤트 시간 정보를 추출하며, 상기 소셜 웹 미디어에 상기 문서 데이터가 부착된 생성 위치 좌표 데이터와 상기 문서 데이터 내에서 위치를 나타내는 어휘 데이터 중 적어도 하나의 데이터를 이용하여 상기 이벤트 위치 정보를 추출한다.
덧붙여, 상기 추출부는 추출된 상기 이벤트 시공간 정보를 정규화하며, 기저장된 GPS 좌표 정보와 지역 코드 정보 중 적어도 하나의 정보를 이용하여 상기 이벤트 위치 정보를 정규화하고, 다수의 소셜 웹 미디어로부터 수집된 다수의 문서 데이터로부터 상기 이벤트 키워드와 동일한 이벤트를 나타내는 다수의 이벤트 키워드를 추출하여 하나의 이벤트 그룹으로 설정하며, 상기 다수의 문서 데이터로부터 상기 이벤트 그룹 내 상기 다수의 이벤트 키워드 각각에 대응하는 다수의 이벤트 관련 정보 추출하며, 상기 이벤트 그룹 내 다수의 이벤트 키워드 간의 관계를 상기 이벤트 관련 정보에 포함된 정보 중 하나의 정보를 기준으로 정렬하여 연관성을 확인한다.
나아가 상기 출력부는 지도 이미지에 상기 이벤트 관련 정보를 맵핑하여 출력하는 것이며, 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치는 상기 이벤트 키워드 및 상기 이벤트 관련 정보에 대한 검색 범위를 입력받는 입력부를 더 포함하며, 상기 출력부는 입력받은 이벤트 키워드에 대응하여 상기 검색 범위에 속하는 상기 이벤트 관련 정보를 상기 저장부로부터 획득하여 출력한다.
또한, 상기 출력부는 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 1차 선택되면, 상기 1차 선택된 상기 이벤트 관련 정보에 대응되는 상기 이벤트 키워드 및 상기 이벤트 관련 정보를 상기 저장부로부터 획득하여 1차 출력하며, 상기 1차 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 2차 선택되면, 상기 2차 선택된 상기 이벤트 관련 정보가 추출된 상기 문서 데이터를 2차 출력한다.
한편, 전술한 과제를 달성하기 위한 본 발명의 일 양상에 따른 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치의 동작 방법은 소셜 웹(Social Web) 미디어로부터 텍스트 형식의 문서 데이터를 수집하는 단계, 수집된 상기 문서 데이터를 언어 분석하는 단계, 상기 언어 분석의 결과를 토대로 상기 문서 데이터로부터 이벤트의 이벤트 키워드와, 상기 이벤트의 발생에 관련된 이벤트 관련 정보를 추출하는 단계, 및 지도 이미지에 상기 이벤트 키워드와 상기 이벤트 관련 정보를 맵핑하여 화면 출력하는 단계를 포함한다.
여기서, 상기 추출하는 단계는 상기 이벤트가 발생한 이벤트 시간 정보 및 이벤트 위치 정보를 포함하는 이벤트 시공간 정보와, 상기 이벤트의 발생에 관련된 사용자 신상 정보를 상기 이벤트 관련 정보로 추출하는 단계를 포함하며, 상기 분석하는 단계는 상기 문서 데이터를 형태소 분석과 개체명 인식 중 적어도 하나를 수행하여 언어 분석하는 단계를 포함한다.
또한, 상기 추출하는 단계는 상기 언어 분석의 결과를 토대로 상기 문서 데이터에서 상기 이벤트 키워드를 포함하는 이벤트 문장을 선별하는 단계, 및 선별된 상기 이벤트 문장 내 포함된 어휘 데이터를 이용하여 상기 이벤트 관련 정보를 추출하는 단계를 포함하며, 상기 추출하는 단계는 상기 문서 데이터가 상기 소셜 웹 미디어에 부착된 문서 생성 시간과 문서 수정 시간 중 적어도 하나를 고려하여 상기 이벤트 시간 정보를 추출하는 단계를 포함한다.
나아가, 상기 추출하는 단계는 기저장된 GPS 좌표 정보와 지역 코드 정보 중 적어도 하나의 정보를 이용하여 상기 이벤트 위치 정보를 정규화하여 추출하는 단계를 포함한다.
또한, 상기 추출하는 단계는 다수의 소셜 웹 미디어로부터 수집된 다수의 문서 데이터로부터 상기 이벤트 키워드와 동일한 이벤트를 나타내는 다수의 이벤트 키워드를 추출하여 하나의 이벤트 그룹으로 설정하는 단계, 및 상기 다수의 문서 데이터로부터 상기 이벤트 그룹 내 상기 다수의 이벤트 키워드 각각에 대응하는 다수의 이벤트 관련 정보 추출하는 단계를 포함한다.
덧붙여, 상기 출력하는 단계는 지도 이미지에 상기 이벤트 관련 정보를 맵핑하여 출력하는 단계를 포함하며, 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 1차 선택되면, 상기 1차 선택된 상기 이벤트 관련 정보에 대응되는 상기 이벤트 키워드 및 상기 이벤트 관련 정보를 1차 출력하는 단계 및 상기 1차 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 2차 선택되면, 상기 2차 선택된 상기 이벤트 관련 정보가 추출된 상기 문서 데이터를 2차 출력하는 단계를 포함한다.
본 발명의 일 실시예에 따르면, 기존의 소셜 웹 미디어에 부착된 정형화된 메타데이터를 활용하여 시간이나 지역정보를 추출하는 방법과는 달리, 실시간으로 업로드되는 소셜 웹 미디어에 텍스트 내용분석을 통해 다양한 어휘로 표현된 시간/위치정보를 인식 및 정규화함으로써, 당국의 재해관련 피해 접수, 자료수집 속도보다 빨리 이벤트에 대한 시공간 연속성 및 연관성을 분석할 수 있다.
또한, 본 발명의 다른 실시에에 따르면, 동일 이슈(이벤트/사건)를 그룹핑하여, 특정 사건에 대해 시간과 지역의 흐름에 따라 해당 사건이 어떻게 이동, 변화하고 확산되는지 과정을 시각화함으로써, 시각화 결과를 통해 특정 이벤트나 사건의 확산 방향 예측이 용이해짐에 따라, 사건에 대한 효과적인 후속조치(대비 명령) 및 대응이 가능하다.
덧붙여, 본 발명의 또 다른 실시예에 따르면, 특정 이벤트와 시간/장소에 따른 사용자 그룹의 변화를 파악할 수 있어, 특정 이슈가 발생하기 전과 후, 또는 발생 추이에 따라 효과적으로 마케팅 타겟(사용자 그룹)을 선정할 수 있다.
도 1은 본 발명의 실시예에 따른 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 블록도.
도 2는 본 발명에 따른 문서 데이터의 언어 분석을 설명하기 위한 도면.
도 3은 본 발명에 따른 문서 데이터에서 이벤트 문장을 설명하기 위한 도면.
도 4는 본 발명에 따른 이벤트 관련 정보의 정규화를 설명하기 위한 도면.
도 5는 본 발명에 따른 이벤트의 발생 시간별의 정렬을 설명하기 위한 도면.
도 6은 본 발명에 따른 이벤트 관련 정보 출력을 설명하기 위한 제1 예시도.
도 7은 본 발명에 따른 이벤트 관련 정보 출력을 설명하기 위한 제2 예시도.
도 8은 본 발명에 따른 이벤트 관련 정보 출력을 설명하기 위한 제3 예시도.
도 9는 본 발명에 따른 이벤트 관련 정보 출력을 설명하기 위한 제4 예시도.
도 10은 본 발명의 실시예에 따른 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치의 동작 방법 흐름도.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 블록도이다. 도시된 바와 같이, 이벤트 시공간 연관성 분석 장치(10)는 수집부(110), 저장부(130), 추출부(120), 출력부(140) 및 입력부(150)를 포함한다.
수집부(110)는 소셜 웹(Social Web) 미디어로부터 데이터를 수집하기 위한 구성이다. 바람직하게, 수집부(110)는 소셜 웹 미디어로부터 텍스트 형식의 문서 데이터를 수집한다. 이때, 수집부(110)는 다양한 정보원(뉴스, 블로그, 트위터 및 페이스북과 같은 SNS(Social Networking Service) 등을 포함하는 소셜 웹 미디어)으로부터 문서 데이터를 수집할 수 있다. 또한, 수집부(110)는 경우에 따라 공공 기관의 데이터 베이스로부터도 공개된 문서 데이터를 수집할 수 있다.
저장부(130)는 데이터를 저장하기 위한 구성으로서, 플래시 메모리일 수 있다. 저장부(130)에는 이후 추출부(120)에 의해 추출된 이벤트 키워드가 저장되며, 이벤트 키워드별 이벤트 관련 정보가 저장된다. 여기서, 이벤트 관련 정보는 이벤트 시간 정보 및 이벤트 위치 정보와 같은 이벤트 시공간 정보를 포함한다. 예컨대, 이벤트 시간 정보는 년도, 월, 일(YYYY-MM-DD)의 형태로 저장부(130)에 저장될 수 있다. 또한, 이벤트 위치 정보는 사전에 기설정되어 규칙화된 숫자 조합 형식으로 저장부(130)에 저장될 수 있다. 예를 들어, 이벤트 위치 정보는 숫자 조합의 지역 코드 또는 GPS 좌표(x, y) 형태로 저장될 수 있다. 나아가, 이벤트 관련 정보는 사용자 신상 정보를 더 포함할 수 있다.
덧붙여, 저장부(130)에는 동일한 이벤트를 나타내는 다수의 이벤트 키워드가 하나의 이벤트 그룹으로 설정되어 저장된다. 예를 들어, '구제역'의 이벤트를 나타내는 '구제역' 'food-and-mouth disease', 'Aphtae epizooticae' 등의 이벤트 키워드들은 하나의 이벤트 그룹으로 설정(그룹핑)되어 저장부(130)에 저장될 수 있다. 이와 같이, 한국어, 외래어 및 외래어가 한글로 표기된 이벤트 키워드는 동일한 하나의 이벤트를 나타내는 것이라면, 하나의 이벤트 그룹으로 설정되어 저장부(130)에 기저장될 수 있다. 또한, 저장부(130)에는 하나의 이벤트 그룹 내에 포함된 다수의 이벤트 키워드 각각에 대응하여 다수의 이벤트 관련 정보가 저장된다.
추출부(120)는 추출부(120)는 수집부(110)를 통해 수집된 문서 데이터로부터 이벤트 키워드와 이벤트 키워드에 관련된 이벤트 관련 정보를 추출하기 위한 구성으로서, 중앙 처리 장치일 수 있다.
먼저, 추출부(120)는 수집부(110)를 통해 수집된 문서 데이터를 언어 분석한다. 여기서, 추출부(120)는 형태소 분석(Morphology Analysis)과 개체명 인식(Named Entity Recognition, NER) 중 적어도 하나를 수행하여 문서 데이터를 언어 분석(Linguistic Analysis)한다.
예를 들어, 수집부(110)를 통해 수집된 문서 데이터가 도 2의 (a)와 같을 때, 추출부(120)는 형태소 분석을 수행하여, 도 2의 (b)와 같은 결과를 얻을 수 있다. 여기서, 'nc', 'jx', 'jb' 등은 각각 명사, 조사 수사 등을 의미하는 품사(Post-of-Speech, POS) 태그(tag) 정보이며, 이 품사 태그 정보는 저장부(130)에 기저장될 수 있다. 또한, 추출부(120)는 인명, 기관명, 지명 등의 고유 명사를 인식하는 개체명 인식을 수행하여, 도 2의 (c)와 같은 결과를 얻을 수 있다. 여기서, <OGG_POLITICS>, <DY_DAY>, <LCP_PROVINCE>, <QT_COUNT> 등은 각각 날짜, 공공기관, 도(道), 수량에 해당하는 개체명 태그이며, 이 개체명 태그 정보는 저장부(130)에 기저장될 수 있다.
추출부(120)는 언어 분석된 문서 데이터로부터 이벤트 키워드를 추출하며, 이벤트 키워드에 관련된 이벤트 관련 정보 또한 추출한다.
이를 위해, 먼저 추출부(120)는 언어 분석된 문서 데이터에서 이벤트 키워드가 포함될 가능성이 있는 이벤트 문장을 선별한다. 이벤트 문장은 이벤트 정보의 핵심 요소로 이벤트의 구체적인 내용을 포함하고 있는 문장이며, 이벤트의 발생 시간과 이벤트의 발생 장소의 정보를 포함할 확률이 높아 이벤트 시간 정보 및 이벤트 위치 정보와 같은 이벤트 시공간 정보가 추출될 수 있다.
이벤트 키워드는 이벤트 문장의 명사일 수 있어, 추출부(120)는 형태소 분석 및 개체명 인식의 수행 결과를 이용하여 이벤트 문장으로부터 이벤트 키워드를 추출할 수 있다. 이때, 이벤트 키워드는 질병(예를 들어, 구제역, 신종플루 등), 사건/사고(예를 들어, 비행기 추락사고 등), 자연재해(예를 들어, 지진, 산불 등) 등이 될 수 있다. 이 외에, 이벤트 키워드는 문서 데이터 및 이벤트 문장에서의 이벤트의 주체(주어) 또는 객체에 어떤 사건 또는 사고가 발생한 경우가 될 수도 있다.
이벤트 키워드가 추출되면, 추출부(120)는 이벤트 문장에서 이벤트 시간 정보를 추출한다. 예컨대, 추출부(120)는 언어 분석된 문서 데이터에서 날짜를 나타내는 명사 어휘를 인식하여 이벤트 시간 정보를 추출할 수 있다. 구체적으로, 추출부(120)는 언어 분석된 이벤트 문장에서 <DT_DAY>, <DT_OTHERS>, <TI_DURATION>등과 같은 시간 개체명이 태깅된 어휘들(예를 들어, 0월 0일, 00일, 글피, 모레) 즉, 년, 월, 일, 시, 기간 등 날짜나 기간을 표현하는 어휘를 인식하여 이벤트 시간 정보를 추출할 수 있다. 이를 위해, 날짜 및 시간을 나타내는 어휘 정보(태깅 정보)는 저장부(130)에 기저장되어 있을 수 있다.
덧붙여, 추출부(120)는 이벤트 시간 정보로 추출하기에 부족한 정보(예를 들어, 년도, 월, 일, 시간)를 유추하기 위해, 소셜 웹 미디어에 문서 데이터가 부착(게시)된 생성 시간 및 수정 시간을 고려하여 이벤트 시간 정보를 추출할 수 있다. 예컨대, 도 3에 도시된 바와 같이, 이벤트 문장에서 날짜를 나타내는 어휘는 30일이지만, 몇 년, 몇 월의 30일인지 불명료하다. 이때, 추출부(120)는 이벤트 문장이 포함된 문서 데이터가 소셜 웹 미디어에 게시된 날짜 정보(기사 보도 날짜)인 2010년 12월 1일을 고려하여 이벤트 문장에서 뜻하는 30일은 2010년 11월 30일임을 유추하여 이벤트 시간 정보로 추출할 수 있다.
추출부(120)는 이벤트 문장에서 이벤트 시간 정보가 추출되면, 추출된 이벤트 시간 정보를 정규화한다. 예컨대, 추출부(120)는 도 4의 (a)에 예시된 바와 같이 추출된 이벤트 시간 정보인 2010년 11월 30일을 2010-11-30과 같은 형태로 정규화할 수 있다. 여기서, 정규화 형태는 사전에 기설정될 수 있으며, YYYY-MM-DD, YY-MM-DD 및 MM-DD-YY 등과 같이 다양한 형태 중 하나로 기설정될 수 있다. 이와 같이, 이벤트 시간 정보가 정규화됨으로써, 이벤트에 대한 정보를 시간순으로 정렬할 시 효율적으로 정렬할 수 있다.
또한, 이벤트 키워드가 추출되면, 추출부(120)는 이벤트 문장에서 이벤트 위치 정보를 추출한다. 구체적으로, 추출부(120)는 언어 분석된 문서 데이터에서 지역을 나타내는 고유 명사 어휘를 인식하여 이벤트 위치 정보를 추출할 수 있다. 예컨대, 추출부(120)는 언어 분석된 이벤트 문장에서 <LCP_PROVINCE>, <LCP_CITY>, <LCP_COUNTY>등과 같은 장소와 관련된 개체명 어휘들을 대상으로, 주로 도, 시/군, 동/면/읍, 리의 지역 명칭을 가진 어휘들을 인식하여 이벤트 위치 정보를 추출할 수 있다. 이를 위해, 지역 및 위치를 나타내는 명사 정보(지역 어휘 정보)는 저장부(130)에 기저장되어 있을 수 있다.
덧붙여, 추출부(120)는 이벤트 위치 정보로 추출하기에 부족한 정보(예를 들어, 시, 도, 동, 읍, 면 등)를 유추하기 위해, 트리 구조로 구성된 지역 정보를 이용하여 이벤트 위치 정보를 추출할 수 있다. 예컨대, 도 3의 3번째 이벤트 문장에서 지역을 나타내는 어휘는 안동시 서후면이지만, 어느 도인지가 불명료하다. 이때, 추출부(120)는 저장부(130)에 저장된 지역 정보의 주소 체계를 이용하여 안동시는 경상북도(경북)에 속하는 것을 확인하여 이벤트 위치 정보를 추출할 수 있다.
이벤트 문장에서 이벤트 위치 정보가 추출되면, 추출부(120)는 추출된 이벤트 위치 정보를 정규화한다. 예컨대, 추출부(120)는 도 4의 (b)에 예시된 바와 같이 추출된 이벤트 위치 정보인 경북/안동시/서후면을 지역 코드 또는 GPS 좌표 중 적어도 하나의 형태로 정규화할 수 있다. 이때, 지역 코드는 도/시/면에 따라 할당된 숫자의 조합이고, GPS 좌표는 X,Y 형태의 절대적인 좌표이다. 이 지역 코드 및 GPS 좌표에 관한 정보는 저장부(130)에 기저장되어 이벤트 위치 정보가 정규화될 시 이용될 수 있다. 이벤트 위치 정보를 정규화함으로써, 이벤트에 대한 정보를 시각화할 시 정확하게 위치를 표시할 수 있다.
나아가, 추출부(120)는 이벤트의 주체자에 대한 사용자 신상 정보를 더 추출할 수 있다. 예컨대, 추출부(120)는 이벤트 문장 또는 문서 데이터의 프로파일링 동작을 수행하여, 문서 데이터의 주체(사용자)의 연령, 성별 등과 같은 신상 정보를 추출할 수 있다.
이와 같이, 추출부(120)는 다수의 소셜 웹 미디어에서 수집되는 다수의 문서 데이터로부터 다수의 이벤트 키워드를 추출할 수 있다. 또한, 추출부(120)는 다수의 소셜 웹 미디어에서 수집되는 다수의 문서 데이터로부터 다수의 이벤트 키워드 각각에 대응되는 이벤트 관련 정보를 다수 추출할 수 있다.
다수의 이벤트 키워드 및 다수의 이벤트 키워드 각각에 대응하는 다수의 이벤트 관련 정보가 추출되면, 추출부(120)는 다수의 이벤트 키워드 중 동일한 이벤트를 나타내는 이벤트 키워드들을 하나의 이벤트 그룹으로 설정할 수 있다. 예를 들어, '구제역'이란 동일한 이벤트를 나타내는 이벤트 키워드인 '구제역' 'food-and-mouth disease', 'Aphtae epizooticae' 등은 하나의 이벤트 그룹으로 설정(그룹핑)될 수 있다.
추출부(120)는 설정된 이벤트 그룹 내의 이벤트 키워드 간의 시간 및 위치 변화에 따른 연관성을 분석한다. 예컨대, 추출부(120)는 '구제역'에 대한 이벤트를 이벤트 시간 정보를 이용하여, 도 5에 예시된 바와 같이 이벤트 발생 시간순으로 정렬할 수 있다. 이때, 추출부(120)는 일반적인 소셜 웹 미디어뿐만 아니라 사회/공공 기관(기상청, 보건 복지부 등)에서 공개된 데이터 베이스(기상 DB, 질병 관련 DB, 자연재해 DB) 등을 더 이용하여 연관성을 분석할 수 있다. 또한, 추출부(120)에서 추출된 이벤트 그룹, 이벤트 그룹에 포함된 다수의 이벤트 키워드, 다수의 이벤트 키워드 각각에 대응하는 이벤트 관련 정보 다수는 저장부(130)에 축적되어 저장될 수 있다.
출력부(140)는 이벤트 키워드 및 이벤트 키워드에 대응하는 이벤트 관련 정보를 시각화하여 출력하는 구성이다. 시각화하여 출력하기 위해 출력부(140)는 액정 표시 장치(Liquid Crystal Display, LCD)와 같은 화면 표시 장치를 포함할 수 있다. 바람직하게, 출력부(140)는 화면 출력된 지도 이미지에 이벤트 키워드에 대응하는 이벤트 관련 정보를 맵핑하여 출력한다.
입력부(150)는 관리자로부터 입력을 받기 위한 사용자 인터페이스일 수 있다. 일 예로, 입력부(150)는 관리자로부터 단어 입력을 받기 위해 키보드와 같은 자판 입력 장치를 포함할 수 있으며, 관리자로부터 선택 입력을 받기 위해 마우스와 같은 포인터 입력 장치를 포함할 수 있다. 다른 예로, 입력부(150)는 관리자로부터 터치 입력을 받을 수 있는 터치 스크린으로 출력부(140)의 화면 표시 장치와 일체형으로 구현될 수 있다. 입력부(150)를 통해 관리자는 검색하고자 하는 이벤트의 이벤트 키워드, 분석 대상 기간, 지역 정보 등을 입력할 수 있다.
입력부(150)를 통해 관리자로부터 이벤트 키워드를 입력받으면, 출력부(140)는 입력된 이벤트 키워드 및 그에 대응하는 이벤트 관련 정보를 시각화하여 출력할 수 있다. 이때, 출력부(140)는 입력받은 정보를 구조화하여 질의어로 변환 및 처리하여 저장부(130)에 저장된 이벤트 키워드 및 그에 대응하는 이벤트 관련 정보를 검색하여 획득할 수 있다. 나아가, 출력부(140)는 입력된 이벤트 키워드가 포함된 이벤트 그룹 내에 포함된 모든 이벤트 키워드 및 그에 대응하는 이벤트 관련 정보들을 시각화할 수 있다.
예컨대, 입력부(150)를 통해 '구제역'이란 이벤트 키워드가 입력되면, 출력부(140)는 저장부(130)에 저장된 '구제역'에 대한 이벤트 키워드에 대응하는 이벤트 관련 정보를 획득하고, 그 중 이벤트 위치 정보를 이용하여, 도 6의 (a)와 같이 지도 이미지에 맵핑(점표시)하여 출력할 수 있다. 이때, 출력부(140)는 이벤트 위치 정보의 지역 코드 정보 또는 GPS 좌표 정보를 이용하여 지도 이미지에 정확한 위치를 표시할 수 있다. 덧붙여, 출력부(140)는 지도 이미지에 표시(점)된 위치가 포함된 지역 범위를 실선(빨간 실선)으로 표시하여 출력할 수도 있다.
만약, 입력부(150)를 통해 지도 이미지에 표시된 점들 중 하나의 점이 선택(1차 선택)되면, 출력부(140)는 선택된 이벤트 위치 정보에 대응하는 이벤트 관련 정보만을 출력(1차 출력)할 수 있다. 또한, 입력부(150)를 통해 이벤트 키워드와 함께, 검색 범위가 함께 입력되면, 출력부(140)는 검색 범위에 포함되는 이벤트 관련 정보만을 출력할 수 있다.
예를 들어, 입력부(150)를 통해 '구제역'이란 이벤트 키워드와 함께 특정 날짜 또는 기간(예컨대, 2010,11,29 ~ 2010,12,9와 같은 날짜 범위)과 같은 검색 범위가 함께 입력되면, 출력부(140)는 입력된 이벤트 키워드에 대응하는 이벤트 관련 정보의 이벤트 시간 정보를 확인하여, 입력된 날짜 범위에 해당(포함)되는 이벤트 관련 정보만을 저장부(130)로부터 획득하여 출력할 수 있다. 나아가, 출력부(140)는 저장부(130)로부터 획득한 이벤트 관련 정보를 도 6의 (b)와 같이 표 형식으로 시각화하여 출력할 수도 있다.
출력된 다수의 이벤트 관련 정보 중, 입력부(150)를 통해 관리자에 의해 하나의 정보(이벤트 위치 정보, 이벤트 시간 정보 등)가 선택(2차 선택)되면, 출력부(140)는 선택된 이벤트 관련 정보가 추출된 문서 데이터(예컨대, 뉴스 기사 등)를 도 6의 (c)와 같이 출력(2차 출력)할 수 있다.
출력부(140)는 입력부(150)를 통해 '구제역'이란 이벤트 키워드와 함께 2010,12,10 ~ 2010,12,31와 같은 날짜 범위가 입력되면 도 7의 (a)와 같이, 2011,1,1 ~ 2011,2,15와 같은 날짜 범위가 입력되면 도 7의 (b)와 같이 이벤트 관련 정보를 화면 출력할 수 있다. 이를 통해 관리자는 '구제역'이란 이벤트가 발생한 지역을 시간별로 확인할 수 있으며, 시간의 흐름에 따라 구제역이 발생한 지역 및 확산 경로를 확인할 수 있다.
일 예로, 관리자는 도 6의 (a)를 통해 '구제역'이라는 이벤트가 발생 초기 (2010년 11월 말)에는 경북 지역을 중심으로 발생하였다가, 2010년 12월에는 도 7의 (a)와 같이 수도권에서 발생하였으며, 2011년 1월에는 도 7의 (b)와 같이 전국적으로 확산 발병됨을 알 수 있다. 이를 통해, 관리자는 '구제역’이라는 이벤트의 확산 방향을 예측할 수 있어, 2010년 12월 수도권으로의 2차 확산 시, 중간 지역의 방역을 강화하였다면 2011년 1월 전국적인 확산이 저지될 가능성이 높아질 수 있다.
다른 예로, 출력부(140)는 이벤트 키워드에 대응하는 이벤트 관련 정보 중 사용자 신상 정보를 이용하여, 도 8에서와 같이 사용자의 그룹을 다른 색의 점으로 표시하여 출력할 수 있다. 예컨대, 관리자는 '백화점 세일'이라는 이벤트에 따라 도 8의 (a)와 같이 백화점 세일 전의 사용자 그룹의 분포와 도 8의 (b)와 같이 백화점 세일 후의 사용자 그룹의 분포를 확인할 수 있다. 즉, 관리자는 '백화점 세일'이라는 이벤트가 발생하기 전에는 주로 4~50대 여성층이 백화점 근처에서 해당 이벤트를 많이 언급됨을 파악할 수 있으며, '백화점 세일'이라는 이벤트가 발생한 후에는 주로 2~30대 여성 및 남성이 주로 언급됨을 파악할 수 있어, 마케팅 타겟을 선정하는데 효과적인 도움을 받을 수 있다.
또 다른 예로, 출력부(140)는 이벤트 키워드에 대응하는 이벤트 관련 정보 중 사용자 신상 정보를 이용하여, 도 9에서와 같이 특정 사용자 그룹만을 표시하여 출력할 수 있다. 예컨대, 관리자는 '밥' 또는 '식사'라는 이벤트에 따라 20대의 사용자 그룹이 도 9의 (a)와 같이 점심시간에 분포한 지역과 도 9의 (b)와 같이 저녁 시간에 분포한 지역을 파악할 수 있어, 사용자 그룹별 시간에 따른 마케팅 지역을 선정하는데 효과적인 도움을 받을 수 있다.
이와 같이 본 발명의 일 실시예에 따르면, 기존의 소셜 웹 미디어에 부착된 정형화된 메타데이터를 활용하여 시간이나 지역정보를 추출하는 방법과는 달리, 실시간으로 업로드되는 소셜 웹 미디어에 텍스트 내용분석을 통해 다양한 어휘로 표현된 시간/위치정보를 인식 및 정규화함으로써, 당국의 재해관련 피해 접수, 자료수집 속도보다 빨리 이벤트에 대한 시공간 연속성 및 연관성을 분석할 수 있다.
또한, 본 발명의 다른 실시에에 따르면, 동일 이슈(이벤트/사건)를 그룹핑하여, 특정 사건에 대해 시간과 지역의 흐름에 따라 해당 사건이 어떻게 이동, 변화하고 확산되는지 과정을 시각화함으로써, 시각화 결과를 통해 특정 이벤트나 사건의 확산 방향 예측이 용이해짐에 따라, 사건에 대한 효과적인 후속조치(대비 명령) 및 대응이 가능하다.
덧붙여, 본 발명의 또 다른 실시예에 따르면, 특정 이벤트와 시간/장소에 따른 사용자 그룹의 변화를 파악할 수 있어, 특정 이슈가 발생하기 전과 후, 또는 발생 추이에 따라 효과적으로 마케팅 타겟(사용자 그룹)을 선정할 수 있다.
도 10은 본 발명의 실시예에 따른 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치의 동작 방법 흐름도이다.
먼저, 이벤트 시공간 연관성 분석 장치(10)는 소셜 웹(Social Web) 미디어로부터 텍스트 형식의 문서 데이터를 수집한다(S100).
구체적으로, 이벤트 시공간 연관성 분석 장치(10)는 다양한 정보원(뉴스, 블로그, 트위터 및 페이스북과 같은 SNS(Social Networking Service) 등을 포함하는 소셜 웹 미디어)으로부터 문서 데이터를 수집할 수 있다. 또한, 이벤트 시공간 연관성 분석 장치(10)는 경우에 따라 공공 기관의 데이터 베이스로부터도 공개된 문서 데이터를 수집할 수 있다.
이벤트 시공간 연관성 분석 장치(10)는 수집된 문서 데이터를 언어 분석한다(S200).
구체적으로, 이벤트 시공간 연관성 분석 장치(10)는 형태소 분석(Morphology Analysis)과 개체명 인식(Named Entity Recognition, NER) 중 적어도 하나를 수행하여 문서 데이터를 언어 분석(Linguistic Analysis)한다.
이벤트 시공간 연관성 분석 장치(10)는 언어 분석된 문서 데이터로부터 이벤트 키워드를 추출하며, 이벤트 키워드에 관련된 이벤트 관련 정보 또한 추출한다(S300).
구체적으로, 이벤트 시공간 연관성 분석 장치(10)는 단계 S200에서 언어 분석된 문서 데이터에서 이벤트 키워드가 포함될 가능성이 있는 이벤트 문장을 선별한다. 여기서, 이벤트 문장은 이벤트 정보의 핵심 요소로 이벤트의 구체적인 내용을 포함하고 있는 문장이며, 이벤트의 발생 시간과 이벤트의 발생 장소의 정보를 포함할 확률이 높아 이벤트 시간 정보 및 이벤트 위치 정보와 같은 이벤트 시공간 정보가 추출될 수 있다.
이벤트 문장이 선별되면, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 문장으로부터 이벤트 키워드를 추출한다. 여기서, 이벤트 키워드는 이벤트 문장의 명사일 수 있어, 이벤트 시공간 연관성 분석 장치(10)는 형태소 분석 및 개체명 인식의 수행 결과를 이용하여 이벤트 문장으로부터 이벤트 키워드를 추출할 수 있다.
한편, 이벤트 키워드가 추출되면, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 문장에서 이벤트 시간 정보를 추출 및 정규화한다. 예컨대, 이벤트 시공간 연관성 분석 장치(10)는 언어 분석된 문서 데이터에서 날짜를 나타내는 명사 어휘를 인식하여 이벤트 시간 정보를 추출할 수 있다. 덧붙여, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 시간 정보로 추출하기에 부족한 정보(예를 들어, 년도, 월, 일, 시간)를 유추하기 위해, 소셜 웹 미디어에 문서 데이터가 부착(게시)된 생성 시간 및 수정 시간을 고려하여 이벤트 시간 정보를 추출할 수 있다.
또한, 이벤트 시공간 연관성 분석 장치(10)는 추출된 이벤트 시간 정보를 정규화한다. 여기서, 정규화 형태는 사전에 기설정될 수 있으며, YYYY-MM-DD, YY-MM-DD 및 MM-DD-YY 등과 같이 다양한 형태 중 하나로 기설정될 수 있다. 이와 같이, 이벤트 시간 정보가 정규화됨으로써, 이벤트에 대한 정보를 시간순으로 정렬할 시 효율적으로 정렬할 수 있다.
다른 한편, 이벤트 키워드가 추출되면, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 문장에서 이벤트 위치 정보를 추출 및 정규화한다. 예컨대, 이벤트 시공간 연관성 분석 장치(10)는 언어 분석된 문서 데이터에서 지역을 나타내는 고유 명사 어휘를 인식하여 이벤트 위치 정보를 추출할 수 있다. 덧붙여, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 위치 정보로 추출하기에 부족한 정보(예를 들어, 시, 도, 동, 읍, 면 등)를 유추하기 위해, 트리 구조로 구성된 지역 정보의 주소 체계를 이용하여 이벤트 위치 정보를 추출할 수 있다.
또한, 이벤트 시공간 연관성 분석 장치(10)는 추출된 이벤트 위치 정보를 정규화한다. 여기서, 정규화 형태는 사전에 기설정될 수 있으며, 도/시/면에 따라 할당된 숫자의 조합인 지역 코드 또는 X,Y 형태의 GPS 좌표 중 적어도 하나의 형태일 수 있다. 이와 같이, 이벤트 위치 정보가 정규화됨으로써, 이벤트에 대한 정보를 시각화할 시 정확하게 위치가 표시될 수 있다.
또 다른 한편, 이벤트 시공간 연관성 분석 장치(10)는 이벤트의 주체자에 대한 사용자 신상 정보를 더 추출할 수 있다. 예컨대, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 문장 또는 문서 데이터의 프로파일링 동작을 수행하여, 문서 데이터의 주체(사용자)의 연령, 성별 등과 같은 신상 정보를 추출할 수 있다.
나아가, 이벤트 시공간 연관성 분석 장치(10)는 다수의 이벤트 키워드 중 동일한 이벤트를 나타내는 이벤트 키워드들을 하나의 이벤트 그룹으로 설정할 수 있다. 구체적으로, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 키워드를 다수의 소셜 웹 미디어에서 수집되는 다수의 문서 데이터로부터 다수 추출할 수 있다. 예를 들어, '구제역'이란 동일한 이벤트를 나타내는 이벤트 키워드인 '구제역' 'food-and-mouth disease', 'Aphtae epizooticae' 등은 하나의 이벤트 그룹으로 설정(그룹핑)될 수 있다.
또한, 이벤트 시공간 연관성 분석 장치(10)는 추출된 다수의 이벤트 키워드 각각에 대응하여 이벤트 시간 정보, 이벤트 위치 정보, 사용자 신상 정보 중 적어도 하나를 포함하는 이벤트 관련 정보 또한 다수 추출할 수 있다.
이와 같이, 추출된 이벤트 그룹, 이벤트 그룹에 포함된 다수의 이벤트 키워드, 다수의 이벤트 키워드 각각에 대응하는 이벤트 관련 정보 다수는 데이터 베이스(DB)에 축적되어 저장될 수 있다.
이벤트 키워드 및 이벤트 관련 정보가 추출되면, 이벤트 시공간 연관성 분석 장치(10)는 추출된 이벤트 키워드 및 이벤트 관련 정보를 시각화한다(S400).
외부 인터페이스를 통해 관리자로부터 이벤트 키워드를 입력받으면, 이벤트 시공간 연관성 분석 장치(10)는 입력된 이벤트 키워드 및 그에 대응하는 이벤트 관련 정보를 시각화하여 출력할 수 있다. 이때, 이벤트 시공간 연관성 분석 장치(10)는 입력받은 정보를 구조화하여 질의어로 변환 및 처리하여 데이터 베이스에 저장된 이벤트 키워드 및 그에 대응하는 이벤트 관련 정보를 검색하여 획득할 수 있다.
또한, 이벤트 시공간 연관성 분석 장치(10)는 입력된 이벤트 키워드가 포함된 이벤트 그룹 내에 포함된 모든 이벤트 키워드 및 그에 대응하는 이벤트 관련 정보를 시각화할 수 있다.
예컨대, 외부 인터페이스를 통해 이벤트 키워드가 입력되면, 이벤트 시공간 연관성 분석 장치(10)는 데이터 베이스에 저장된 이벤트 키워드에 대응하는 이벤트 관련 정보를 획득하고, 그 중 이벤트 위치 정보를 이용하여, 지도 이미지에 맵핑(점표시)하여 출력할 수 있다. 이때, 이벤트 시공간 연관성 분석 장치(10)는 이벤트 위치 정보의 지역 코드 정보 또는 GPS 좌표 정보를 이용하여 지도 이미지에 정확한 위치를 표시할 수 있다.
만약, 외부 인터페이스를 통해 지도 이미지에 표시된 점들 중 하나의 점이 선택(1차 선택)되면, 이벤트 시공간 연관성 분석 장치(10)는 선택된 이벤트 위치 정보에 대응하는 이벤트 관련 정보만을 출력(1차 출력)할 수 있다. 또한, 외부 인터페이스를 통해 이벤트 키워드와 함께 검색 범위가 함께 입력되면, 이벤트 시공간 연관성 분석 장치(10)는 검색 범위에 포함되는 이벤트 관련 정보만을 출력할 수 있다. 나아가, 이벤트 시공간 연관성 분석 장치(10)는 데이터 베이스로부터 획득한 이벤트 관련 정보를 표 형식으로 시각화하여 출력할 수도 있다.
출력된 다수의 이벤트 관련 정보 중, 외부 인터페이스를 통해 관리자에 의해 하나의 정보(이벤트 위치 정보, 이벤트 시간 정보 등)가 선택(2차 선택)되면, 이벤트 시공간 연관성 분석 장치(10)는 선택된 이벤트 관련 정보가 추출된 문서 데이터(예컨대, 뉴스 기사 등)를 출력(2차 출력)할 수 있다.
이와 같이 본 발명의 일 실시예에 따르면, 기존의 소셜 웹 미디어에 부착된 정형화된 메타데이터를 활용하여 시간이나 지역정보를 추출하는 방법과는 달리, 실시간으로 업로드되는 소셜 웹 미디어에 텍스트 내용분석을 통해 다양한 어휘로 표현된 시간/위치정보를 인식 및 정규화함으로써, 당국의 재해관련 피해 접수, 자료수집 속도보다 빨리 이벤트에 대한 시공간 연속성 및 연관성을 분석할 수 있다.
또한, 본 발명의 다른 실시에에 따르면, 동일 이슈(이벤트/사건)를 그룹핑하여, 특정 사건에 대해 시간과 지역의 흐름에 따라 해당 사건이 어떻게 이동, 변화하고 확산되는지 과정을 시각화함으로써, 시각화 결과를 통해 특정 이벤트나 사건의 확산 방향 예측이 용이해짐에 따라, 사건에 대한 효과적인 후속조치(대비 명령) 및 대응이 가능하다.
덧붙여, 본 발명의 또 다른 실시예에 따르면, 특정 이벤트와 시간/장소에 따른 사용자 그룹의 변화를 파악할 수 있어, 특정 이슈가 발생하기 전과 후, 또는 발생 추이에 따라 효과적으로 마케팅 타겟(사용자 그룹)을 선정할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10 : 이벤트 시공간 연관성 분석 장치 110 : 수집부
120 : 추출부 130 : 저장부
140 : 출력부 150 : 입력부

Claims (20)

  1. 소셜 웹(Social Web) 미디어로부터 텍스트 형식의 문서 데이터를 수집하는 수집부;
    이벤트를 나타내는 이벤트 키워드와 상기 이벤트 키워드에 대응하는 이벤트 시공간 정보를 포함하는 이벤트 관련 정보를 저장하는 저장부; 및
    상기 문서 데이터를 언어 분석하여, 그 결과를 토대로 상기 문서 데이터로부터 상기 이벤트 키워드와 상기 이벤트 키워드에 관련된 상기 이벤트 관련 정보를 추출하는 추출부;
    상기 이벤트 키워드와 상기 이벤트 관련 정보를 시각화하여 출력하는 출력부;
    를 포함하는 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치.
  2. 제1항에 있어서,
    상기 이벤트 관련 정보에는 상기 이벤트가 발생한 이벤트 시간 정보 및 이벤트 위치 정보를 포함하는 이벤트 시공간 정보와 사용자 신상 정보 중 적어도 하나의 정보가 포함되는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  3. 제2항에 있어서,
    상기 추출부는 상기 문서 데이터를 형태소 분석과 개체명 인식 중 적어도 하나를 수행하여 언어 분석하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  4. 제2항에 있어서,
    상기 추출부는 분석된 상기 문서 데이터에서 상기 이벤트 키워드를 포함하는 이벤트 문장을 선별하며, 상기 이벤트 문장 내 포함된 어휘 데이터를 이용하여 상기 이벤트 관련 정보를 추출하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  5. 제4항에 있어서,
    상기 추출부는 상기 문서 데이터가 상기 소셜 웹 미디어에 부착된 문서 생성 시간과 문서 수정 시간 중 적어도 하나를 더 고려하여 상기 이벤트 시간 정보를 추출하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  6. 제4항에 있어서,
    상기 추출부는 상기 소셜 웹 미디어에 상기 문서 데이터가 부착된 생성 위치 좌표 데이터와 상기 문서 데이터 내에서 위치를 나타내는 어휘 데이터 중 적어도 하나의 데이터를 이용하여 상기 이벤트 위치 정보를 추출하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  7. 제2항에 있어서,
    상기 추출부는 추출된 상기 이벤트 시공간 정보 중 상기 이벤트 위치 정보를 사전에 규칙화된 숫자 조합 형식으로 정규화하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  8. 제2항에 있어서,
    상기 추출부는 다수의 소셜 웹 미디어로부터 수집된 다수의 문서 데이터로부터 상기 이벤트 키워드와 동일한 이벤트를 나타내는 다수의 이벤트 키워드를 추출하여 하나의 이벤트 그룹으로 설정하며, 상기 다수의 문서 데이터로부터 상기 이벤트 그룹 내 상기 다수의 이벤트 키워드 각각에 대응하는 다수의 이벤트 관련 정보 추출하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  9. 제8항에 있어서,
    상기 추출부는 상기 이벤트 그룹 내 다수의 이벤트 키워드 간의 관계를 상기 이벤트 관련 정보에 포함된 정보 중 하나의 정보를 기준으로 정렬하여 연관성을 확인하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  10. 제2항에 있어서,
    상기 출력부는 지도 이미지에 상기 이벤트 관련 정보를 맵핑하여 출력하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  11. 제2항에 있어서,
    상기 이벤트 키워드 및 상기 이벤트 관련 정보에 대한 검색 범위를 입력받는 입력부;
    를 더 포함하며,
    상기 출력부는 입력받은 이벤트 키워드에 대응하여 상기 검색 범위에 속하는 상기 이벤트 관련 정보를 상기 저장부로부터 획득하여 출력하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  12. 제2항에 있어서,
    상기 출력부는 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 1차 선택되면, 상기 1차 선택된 상기 이벤트 관련 정보에 대응되는 상기 이벤트 키워드 및 상기 이벤트 관련 정보를 상기 저장부로부터 획득하여 1차 출력하며,
    상기 1차 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 2차 선택되면, 상기 2차 선택된 상기 이벤트 관련 정보가 추출된 상기 문서 데이터를 2차 출력하는 것인 소셜 웹 미디어에서의 이벤트 시공간 연관성 분석 장치.
  13. 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치의 동작 방법으로서,
    소셜 웹(Social Web) 미디어로부터 텍스트 형식의 문서 데이터를 수집하는 단계;
    수집된 상기 문서 데이터를 언어 분석하는 단계;
    상기 언어 분석의 결과를 토대로 상기 문서 데이터로부터 이벤트의 이벤트 키워드와, 상기 이벤트의 발생에 관련된 이벤트 관련 정보를 추출하는 단계; 및
    지도 이미지에 상기 이벤트 키워드와 상기 이벤트 관련 정보를 맵핑하여 화면 출력하는 단계;
    를 포함하는 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  14. 제13항에 있어서, 상기 추출하는 단계는 :
    상기 이벤트가 발생한 이벤트 시간 정보 및 이벤트 위치 정보를 포함하는 이벤트 시공간 정보와, 상기 이벤트의 발생에 관련된 사용자 신상 정보를 상기 이벤트 관련 정보로 추출하는 단계를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  15. 제14항에 있어서, 상기 분석하는 단계는 :
    상기 문서 데이터를 형태소 분석과 개체명 인식 중 적어도 하나를 수행하여 언어 분석하는 단계를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  16. 제14항에 있어서, 상기 추출하는 단계는 :
    상기 언어 분석의 결과를 토대로 상기 문서 데이터에서 상기 이벤트 키워드를 포함하는 이벤트 문장을 선별하는 단계; 및
    선별된 상기 이벤트 문장 내 포함된 어휘 데이터를 이용하여 상기 이벤트 관련 정보를 추출하는 단계;
    를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  17. 제14항에 있어서, 상기 추출하는 단계는 :
    상기 문서 데이터가 상기 소셜 웹 미디어에 부착된 문서 생성 시간과 문서 수정 시간 중 적어도 하나를 고려하여 상기 이벤트 시간 정보를 추출하는 단계를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  18. 제14항에 있어서, 상기 추출하는 단계는 :
    기저장된 GPS 좌표 정보와 지역 코드 정보 중 적어도 하나의 정보를 이용하여 상기 이벤트 위치 정보를 정규화하여 추출하는 단계를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  19. 제14항에 있어서, 상기 추출하는 단계는 :
    다수의 소셜 웹 미디어로부터 수집된 다수의 문서 데이터로부터 상기 이벤트 키워드와 동일한 이벤트를 나타내는 다수의 이벤트 키워드를 추출하여 하나의 이벤트 그룹으로 설정하는 단계; 및
    상기 다수의 문서 데이터로부터 상기 이벤트 그룹 내 상기 다수의 이벤트 키워드 각각에 대응하는 다수의 이벤트 관련 정보 추출하는 단계;
    를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
  20. 제14항에 있어서, 상기 출력하는 단계는 :
    출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 1차 선택되면, 상기 1차 선택된 상기 이벤트 관련 정보에 대응되는 상기 이벤트 키워드 및 상기 이벤트 관련 정보를 1차 출력하는 단계; 및
    상기 1차 출력된 상기 이벤트 관련 정보에 포함된 정보 중 적어도 하나의 정보가 2차 선택되면, 상기 2차 선택된 상기 이벤트 관련 정보가 추출된 상기 문서 데이터를 2차 출력하는 단계;
    를 포함하는 것인 소셜 웹 미디어의 이벤트 시공간 연관성 분석 방법.
KR1020130142223A 2013-11-21 2013-11-21 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법 KR20150059208A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130142223A KR20150059208A (ko) 2013-11-21 2013-11-21 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
US14/255,410 US20150142780A1 (en) 2013-11-21 2014-04-17 Apparatus and method for analyzing event time-space correlation in social web media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130142223A KR20150059208A (ko) 2013-11-21 2013-11-21 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20150059208A true KR20150059208A (ko) 2015-06-01

Family

ID=53174372

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130142223A KR20150059208A (ko) 2013-11-21 2013-11-21 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20150142780A1 (ko)
KR (1) KR20150059208A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101644429B1 (ko) * 2016-02-17 2016-08-10 한국과학기술정보연구원 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
KR20180055939A (ko) * 2016-11-10 2018-05-28 가천대학교 산학협력단 Sns 데이터 분석 시스템
KR20190136337A (ko) * 2018-05-30 2019-12-10 가천대학교 산학협력단 소셜미디어 컨텐츠 기반 감정 분석 방법, 시스템 및 컴퓨터-판독가능 매체
US11269964B2 (en) 2017-07-24 2022-03-08 Mycelebs Co., Ltd. Field-of-interest based preference search guidance system
US11397740B2 (en) 2017-07-24 2022-07-26 Mycelebs Co., Ltd. Method and apparatus for providing information by using degree of association between reserved word and attribute language

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959305A (zh) * 2017-05-22 2018-12-07 北京国信宏数科技有限公司 一种基于互联网大数据的事件抽取方法及系统
US11416701B2 (en) 2018-11-19 2022-08-16 Electronics And Telecommunications Research Institute Device and method for analyzing spatiotemporal data of geographical space

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI399522B (zh) * 2008-08-22 2013-06-21 Htc Corp 行事曆時程提示方法、裝置及使用此方法的電腦程式產品
CN103907363A (zh) * 2011-08-30 2014-07-02 诺基亚公司 用于管理基于位置的事件的呈现的方法和设备
US10217117B2 (en) * 2011-09-15 2019-02-26 Stephan HEATH System and method for social networking interactions using online consumer browsing behavior, buying patterns, advertisements and affiliate advertising, for promotions, online coupons, mobile services, products, goods and services, entertainment and auctions, with geospatial mapping technology

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101644429B1 (ko) * 2016-02-17 2016-08-10 한국과학기술정보연구원 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
WO2017142109A1 (ko) * 2016-02-17 2017-08-24 한국과학기술정보연구원 비정형 텍스트 추출 성능 향상을 위한 시스템 및 방법
KR20180055939A (ko) * 2016-11-10 2018-05-28 가천대학교 산학협력단 Sns 데이터 분석 시스템
US11269964B2 (en) 2017-07-24 2022-03-08 Mycelebs Co., Ltd. Field-of-interest based preference search guidance system
US11397740B2 (en) 2017-07-24 2022-07-26 Mycelebs Co., Ltd. Method and apparatus for providing information by using degree of association between reserved word and attribute language
KR20190136337A (ko) * 2018-05-30 2019-12-10 가천대학교 산학협력단 소셜미디어 컨텐츠 기반 감정 분석 방법, 시스템 및 컴퓨터-판독가능 매체

Also Published As

Publication number Publication date
US20150142780A1 (en) 2015-05-21

Similar Documents

Publication Publication Date Title
Endarnoto et al. Traffic condition information extraction & visualization from social media twitter for android mobile application
CN108241728B (zh) 对自然语言表述的解译的地理映射
CN105824959B (zh) 舆情监控方法及系统
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
US9881037B2 (en) Method for systematic mass normalization of titles
US8302197B2 (en) Identifying data associated with security issue attributes
KR102075788B1 (ko) 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템
Fu et al. Identifying spatiotemporal urban activities through linguistic signatures
US11216499B2 (en) Information retrieval apparatus, information retrieval system, and information retrieval method
KR101565759B1 (ko) 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치
JP2015524962A (ja) 各マイクロブログがスパースな情報だけを含む多数のマイクロブログから情報に富んだ内容を自動生成するためのシステム及び方法
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
CN106537387B (zh) 检索/存储与事件相关联的图像
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
KR102124935B1 (ko) 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램
CN108280102B (zh) 上网行为记录方法、装置及用户终端
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
WO2018217668A1 (en) Automated classification of network-accessible content
Subramani et al. Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction
Fernandes et al. Automated disaster news collection classification and geoparsing
KR101487871B1 (ko) 온라인 기반의 위기관리 대응 매뉴얼 자동 생성장치
KR20100038344A (ko) 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을 수행하기 위한 시스템
Oliveira et al. Gazetteer enrichment for addressing urban areas: A case study
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid