KR102107474B1 - 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 - Google Patents

크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 Download PDF

Info

Publication number
KR102107474B1
KR102107474B1 KR1020190146726A KR20190146726A KR102107474B1 KR 102107474 B1 KR102107474 B1 KR 102107474B1 KR 1020190146726 A KR1020190146726 A KR 1020190146726A KR 20190146726 A KR20190146726 A KR 20190146726A KR 102107474 B1 KR102107474 B1 KR 102107474B1
Authority
KR
South Korea
Prior art keywords
data
keyword
information
web document
unit
Prior art date
Application number
KR1020190146726A
Other languages
English (en)
Inventor
남기효
정문권
안성호
Original Assignee
(주)유엠로직스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유엠로직스 filed Critical (주)유엠로직스
Priority to KR1020190146726A priority Critical patent/KR102107474B1/ko
Application granted granted Critical
Publication of KR102107474B1 publication Critical patent/KR102107474B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에 관한 것으로서, 더욱 상세하게는, 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하는 크롤링부(100), 상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하고, 상기 크롤링부(100)로부터 수집된 상기 웹 문서 데이터 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 수집부(200), 상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 분석부(300) 및 상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 사회이슈 도출부(400)를 포함하는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템에 관한 것이다.

Description

크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 {Social issue deduction system and method using crawling}
본 발명은 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에 관한 것으로, 더욱 상세하게는 크롤링을 통해 웹 페이지의 텍스트 데이터(뉴스 기사 등)를 자동으로 수집하고, 수집된 텍스트 데이터에 포함되어 있는 날짜 정보, 내용 정보 등을 분석하여 사회이슈 키워드를 자동으로 도출할 수 있는 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에 관한 것이다.
일반적으로 생각되는 '사회이슈'라 함은, 포털 사이트 등의 검색 순위(실시간 검색어 등)를 통해 확인할 수 있다.
그렇지만, 이러한 포털 사이트 등의 검색 순위는 사용자로부터 직접 입력받은 다양한 검색어들을 통한 랭킹이 매겨지고 있기 때문에, 특정 집단에서 특정 키워드를 다수 입력하면, 랭킹이 상승함으로써 검색 순위에 나타나기 때문에, 단순하게 검색 순위를 사회이슈로 단정하기는 어렵다.
또한, 일반적으로 검색 순위에 올라가 있는 검색어의 경우, 단순한 단어로만 구성되어 있는 경우가 대부분이기 때문에, 특정 단어 및 특정 키워드만을 가지고, 이를 사회이슈로 해석하기에는 무리가 있다.
이와 관련해서, 국내등록특허 제10-1088787호("이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이트를 생성하는 방법")에서는, 사용자의 요구 또는 상황의 변화에 따라 입력 데이터의 입수 경로를 용이하게 변경하여 정확도와 신뢰성이 높게 이슈를 분석하여 관리하는 기술을 개시하고 있다.
국내등록특허 제10-1088787호(등록일자 2011.11.25.)
본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 크롤링을 통해 웹 페이지의 텍스트 데이터(뉴스 기사 등)를 자동으로 수집하고, 수집된 텍스트 데이터에 포함되어 있는 날짜 정보, 내용 정보 등을 분석하여 사회이슈 키워드를 자동으로 도출할 수 있는 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템은, 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하는 크롤링부(100), 상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하고, 상기 크롤링부(100)로부터 수집된 상기 웹 문서 데이터 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 수집부(200), 상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 분석부(300) 및 상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 사회이슈 도출부(400)를 포함하는 것이 바람직하다.
더 나아가, 상기 크롤링부(100)는 상기 수집부(200)로부터 수집하고자 하는 상기 웹 사이트 관련 정보를 입력받는 입력부(110) 및 상기 입력부(110)에서 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하되, 수집된 웹 문서 데이터에 포함된 추가 웹 문서 데이터에 대한 링크 관련 정보들을 추출하여, 상기 링크 관련 정보를 이용하여 상기 추가 웹 문서 데이터를 포함하여 수집하는 웹문서 수집부(120)를 더 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 웹문서 수집부(120)는 상기 링크 관련 정보가 http 형태의 링크로 구성될 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여 상기 추가 웹 문서 데이터를 수집하고, 상기 링크 관련 정보가 script 형태의 링크로 구성될 경우, 기설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하는 것이 바람직하다.
더 나아가, 상기 수집부(200)는 각 웹 사이트 별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 사전 분석부(210), 상기 크롤링부(100)에서 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 상기 사전 분석부(210)에서 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여, 저장 및 관리하는 웹문서 판단부(220) 및 상기 웹문서 판단부(220)에서 저장 및 관리하고 있는 상기 웹 문서 데이터들에 대해, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 추출부(230)를 더 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 분석부(300)는 기저장되어 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 단어를 추출하여, 명사 정보로 설정하는 명사 추출부(310), 상기 명사 추출부(310)로부터 형태소 분석을 통해 단어로 구분되었으나, 의미가 정의되어 있지 않은 미정의 단어 정보를 전달받아, 신규 용어 정보로 판단하는 신규명사 추출부(320) 및 전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 키워드 분석부(330)를 더 포함하여 구성되며, 상기 신규명사 추출부(320)에서 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 이용되는 것이 바람직하다.
더 나아가, 상기 사회이슈 도출부(400)는 상기 수집부(200)로부터 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와 상기 분석부(300)로부터 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터를 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리부(410) 및 각각의 날짜별로, 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하여, 상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 사회이슈 키워드 정보로 저장 및 관리하는 제2 처리부(420)를 더 포함하여 구성되는 것이 바람직하다.
본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법은, 웹 사이트 별 다양한 웹 문서 데이터를 수집하는, 웹문서 크롤링 단계(S100), 상기 웹문서 크롤링 단계(S100)에 의해 수집한 상기 웹 문서 데이터들 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터들에 대해서만, 텍스트 데이터들을 추출하여 수집하는 데이터 수집단계(S200), 상기 데이터 수집단계(S200)에 의해 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터들을 분석하는 키워드 데이터 분석단계(S300) 및 상기 데이터 수집단계(S200)에서 수집한 상기 텍스트 데이터들과, 상기 키워드 데이터 분석단계(S300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로, 사회이슈 키워드를 설정하는 사회이슈 키워드 설정단계(S400)로 이루어지는 것이 바람직하다.
더 나아가, 상기 데이터 수집단계(S200)는 상기 웹 문서 데이터들에 대해서, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다.
더 나아가, 상기 키워드 데이터 분석단계(S300)는 기저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 명사 정보와 신규 용어 정보를 분석하고, 분석한 각각의 정보들에 대한 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터로 저장하는 것이 바람직하다.
더 나아가, 상기 사회이슈 키워드 설정단계(S400)는 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리단계(S410), 각각의 날짜별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터를 통해서 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 제2 처리단계(S420) 및 상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 날짜별 사회이슈 키워드 정보로 저장 및 관리하는 제3 처리단계(S430)로 이루어지는 것이 바람직하다.
상기와 같은 구성에 의한 본 발명의 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법은 크롤링을 통해 웹 페이지의 텍스트 데이터(뉴스 기사 등)를 자동으로 수집하고, 수집된 텍스트 데이터에 포함되어 있는 날짜 정보, 내용 정보 등을 분석하여 사회이슈 키워드를 자동으로 도출함으로써, 원하는 기간(또는 특정 기간)에 발생한 사회이슈가 무엇인지 비교적 정확하게 특정할 수 있는 장점이 있다.
즉, 국내 언론사 웹사이트 및 국내 언론사 SNS 등을 대상으로 크롤링을 통해 뉴스 기사를 자동 수집하고, 수집된 기사의 발생(개시) 날짜 및 내용을 분석하여, 사회이슈를 자동으로 분석할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템을 나타낸 구성도이다.
도 2 내지 도 5는 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템의 각 구성의 세부 구성 동작도이다.
도 6은 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법을 나타낸 순서도이다.
이하 첨부한 도면들을 참조하여 본 발명의 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.
이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.
더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.
언론사 등에서 이슈화하여 내보내고 있는 기사들을 종합하여 볼 때 사회이슈를 추측할 수 있는데, 언론사들에서 발간(발행, 생성, 업로드 등)하는 기사들을 수집하여 이에 대한 주요 키워드들을 추출하는 것은 가능하다.
가령 언론기사 분석을 통해, '정부'라는 키워드가 많이 나타났다고 분석될 경우, 단순히 해당 키워드만 가지고는 앞뒤 상황을 유추하기가 어려워 이를 사회이슈로 단정할 수 없을 뿐 아니라, 이를 사회이슈로 단정지었다 할지라도 추후에 이에 대한 사회상황 해석이 거의 불가능하게 된다.
이에 반해서, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법은, 언론사 등에서 이슈화하여 내보내고 있는 기사들을 수집하여, 수집한 기사들을 분석하여 발견된 핵심 키워드를 중심으로, 연관된 키워드들까지 같이 추출하여 하나의 그룹으로 묶어 이를 사회이슈로 도출함으로써, 특정 기간에 발생한 사회이슈, 그리고 그 사회이슈가 발생한 이유, 경과 등을 일목요연하게 정리하여 확인할 수 있는 장점이 있다.
그렇기 때문에, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에서의 '사회이슈'는 단순히 하나의 단어가 아니라, 특정 기간에 이슈화되고 있는 키워드들, 다시 말하자면, 연관성이 있는 키워드들의 집합을 의미한다.
이러한, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템은 도 1에 도시된 바와 같이, 크롤링부(100), 수집부(200), 분석부(300) 및 사회이슈 도출부(400)를 포함하여 구성되는 것이 바람직하다.
각 구성에 대해서 자세히 알아보자면,
상기 크롤링부(100)는 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터(웹 페이지 데이터 등)를 수집하는 것이 바람직하다.
이 때, 상기 웹 사이트 관련 정보는 상기 수집부(200)를 통해서 입력받는 것이 가장 바람직하다.
상기 크롤링부(100)는 도 1 및 도 2에 도시된 바와 같이, 입력부(110) 및 웹문서 수집부(120)를 포함하여 구성되는 것이 바람직하다.
상기 입력부(110)는 상술한 바와 같이, 상기 수집부(200)로부터 수집하고자 하는 상기 웹 사이트 관련 정보를 입력받는 것이 바람직하며, 상기 웹 사이트 관련 정보란, 원하는 언론사 등의 사이트 정보, 언론사 등의 SNS 정보들을 의미하며, 상기 입력부(110)는 입력받은 상기 웹 사이트 관련 정보를 통해서, 수집하고자 하는 URL을 설정할 수 있다.
상기 웹문서 수집부(120)는 상기 입력부(110)에서 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트들의 다양한 웹 문서 데이터를 수집하는 것이 바람직하다.
이 때, 상기 웹문서 수집부(120)는 다양한 사이트들의 다양한 웹 문서 데이터들을 날짜별로 그룹화하여 관리하는 것이 바람직하다.
더불어, 수집된 웹 문서 데이터 내에 다음 페이지 링크, 다시 말하자면, 추가 웹 문서 데이터에 대한 링크 관련 정보가 포함되어 있을 경우, 해당 추가 웹 문서 데이터까지 수집하는 것이 바람직하다. 즉, 수집된 웹 페이지 내에서 다음 페이지 링크가 포함되어 있을 경우, 다음 페이지 링크로 들어가서 다음 웹 페이지까지 수집하는 것이 바람직하다.
이를 위해, 상기 웹문서 수집부(120)는 상기 링크 관련 정보가 http 형태의 링크로 구성되었을 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여, 상기 추가 웹 문서 데이터를 수집하게 된다. 다시 말하자면, 수집된 페이지 내에 http 형태의 링크가 포함되어 있을 경우, 직접 연결 링크로 설정하여 다음에 수집하고자 하는 페이지 링크로 설정하여, 다음 웹 페이지까지 수집하게 된다.
이와 다르게, 상기 링크 관련 정보가 script 형태의 링크로 구성되었을 경우, 미리 설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하게 된다.
다시 말하자면, 수집된 페이지 내에 script 형태의 링크가 포함되어 있을 경우, 상기 브라우저 드라이버를 활용하여 스크립트를 직접 실행하는 방식으로, 다음에 수집하고자 하는 페이지 링크를 추출하여, 다음 웹 페이지까지 수집하게 된다.
여기서, 상기 브라우저 드라이버란, 웹 브라우저를 제어할 수 있는 드라이버로서, 일 예를 들자면, firefox, chrome, IE, Opera, PhantomJs 등과 같은 브라우저에서 제공하는 API로서, 이를 이용하면, 코드를 통해 실제 사용자가 브라우저를 다루는 것처럼 사용할 수 있어, 크롤링을 수행, 즉, 웹 문서 데이터를 수집할 수 있다.
아울러, 상기 크롤링부(100)는 상술한 바와 같이, 상기 웹 문서 데이터를 수집하는 과정을 반복 수행하면서, 가능한 한 많은 웹 문서 데이터를 수집하는 것이 가장 바람직하다.
상기 수집부(200)는 상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하여 설정하고, 상기 크롤링부(100)로부터 날짜별로 그룹화되어 수집된 상기 웹 문서 데이터들 중 미리 설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 것이 바람직하다.
즉, 상기 수집부(200)는 수집한 웹 페이지에서 사전에 분석한 HTML 태그가 존재할 경우, 원하는 뉴스기사 웹 페이지로 판단하고, 이에 포함되어 있는 날짜, 제목, 본문을 추출하여 수집하는 것이 바람직하다.
상세하게는, 상기 수집부(200)는 도 1 및 도 3에 도시된 바와 같이, 사전 분석부(210), 웹문서 판단부(220) 및 추출부(230)를 포함하여 구성되는 것이 바람직하다.
상기 사전 분석부(210)는 각 웹 사이트별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 것이 바람직하다. 이 때, 원하는 웹 문서 데이터란, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템의 사용자(관리자 등)가 원하는 웹 문서 데이터를 의미하며, 일 예를 들자면, 언론사 사이트별 게시날짜, 제목, 본문에 해당하는 HTML 태그를 사전에 분석하여, 이를 저장 및 관리하는 것이 바람직하다.
상기 웹문서 판단부(220)는 상기 크롤링부(100)에서 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 상기 사전 분석부(210)에서 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여 저장 및 관리하는 것이 바람직하다.
일 예를 들자면, 수집된 웹 페이지에 사전에 분석한 HTML 태그가 존재할 경우, 언론사 사이트의 뉴스기사 페이지로 판단하게 된다.
상기 추출부(230)는 상기 웹문서 판단부(220)에서 저장 및 관리하고 있는 상기 웹 문서 데이터들에 대해, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다. 상술한 예시에 계속하자면, 언론사 사이트의 뉴스기사 페이지로 판단한 해당 웹 페이지에 대한 날짜, 제목, 본문의 텍스트를 추출하여 해당 웹 페이지의 URL 정보와 함께 데이터베이스에 저장하는 것이 바람직하다.
즉, 웹 페이지의 경우, 날짜, 제목, 본문 외에 경우에 따라 댓글(덧글)과 같은 텍스트 데이터가 포함되어 있기 때문에, 불필요한 정보들을 제외하고 언론사에서 이슈화하여 제공하는 기사의 텍스트 데이터만을 추출하게 된다.
상기 분석부(300)는 상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 것이 바람직하다.
이 때, 상기 분석부(300)는 상기 수집부(200)를 통해서 상기 웹 문서 데이터에서 추출한 날짜, 제목, 본문의 텍스트 데이터를 모두 전달받는 것이 아니라, 형태소 분석이 필요없는 날짜를 제외한 제목, 본문의 텍스트 데이터만을 전달받는 것이 바람직하다.
이를 위해, 상기 분석부(300)는 도 1 및 도 4에 도시된 바와 같이, 명사 추출부(310), 신규명사 추출부(320) 및 키워드 분석부(330)를 포함하여 구성되는 것이 바람직하다.
상기 명사 추출부(310)는 미리 저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 명사 정보들을 추출하는 것이 바람직하다.
상세하게는, 상기 수집부(200)로부터 상기 웹 문서 데이터에 포함되어 있는 제목, 본문의 텍스트 데이터를 전달받아, 형태소 분석을 통해 명사/형용사/부사 등으로 구분하여 단어를 추출한 후, 상기 사전 데이터베이스 모듈을 통해서, 정의가 되어있는 단어를 추출하여, 이를 상기 명사 정보로 설정하는 것이 바람직하다.
상기 사전 데이터베이스 모듈에 의해 정의가 되어 있지 않은 단어의 경우, 신규로 발생한 단어일 가능성이 높아 상기 형태소 분석 모듈에서 이를 명사로 인식하지 못하는 경우가 발생할 수 있다.
이를 해소하기 위하여, 상기 신규명사 추출부(320)를 통해서, 상기 명사 추출부(310)로부터 형태소 분석을 통해 단어가 추출되었으나, 상기 사전 데이터베이스 모듈을 통해서 정의가 되어 있지 않은 미정의 단어 정보를 전달받아, 이를 신규 용어 정보로 판단하는 것이 바람직하다.
일 예를 들자면, '지소미아'가 형태소 분석기의 사전에 등록되어 있지 않은 단어일 경우, '지소미아'라는 명사 정보로 설정되지 못하고 '지', '소미아'를 명사로 판단하여 찾아낼 가능성이 있다.
그렇기 때문에, 이를 해결하기 위하여, 상기 명사 추출부(310)를 통해서 분석된 단어가 뉴스기사 내용(텍스트 데이터) 상에서 공백이 없는 붙어있는 단어일 경우, 이를 신규 용어로 판단하여 상기 신규 용어 정보로 설정하는 것이 바람직하다.
뿐만 아니라, 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 활용함으로써, 추후 분석시 정상적인 키워드, 즉, 정상적인 명사 정보로 분석할 수 있다.
상기 키워드 분석부(330)는 전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 것이 바람직하다. 즉, 중복되는 키워드 정보는 빈도수를 증가시켜 저장 및 관리하는 것이 바람직하다.
상기 사회이슈 도출부(400)는 상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 것이 바람직하다.
상세하게는, 상기 사회이슈 도출부(400)는 도 1 및 도 5에 도시된 바와 같이, 제1 처리부(410) 및 제2 처리부(420)를 포함하여 구성되는 것이 바람직하다.
상기 제1 처리부(410)는 상기 수집부(200)로부터 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와, 상기 분석부(300)로부터 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터들을 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 것이 바람직하다.
즉, 상기 제1 처리부(410)는 우선, 날짜별로 뉴스기사에서 발생한 키워드들을 모두 추출하여 정렬한 뒤, 다수의 키워드가 존재할 경우, 빈도수를 기반으로 키워드를 재정렬하는 것이 바람직하다. 이는, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함을 의미한다.
상기 제2 처리부(420)는 각각의 날짜(특정 날짜)별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 것이 바람직하다.
이를 통해서, 상술한 바와 같이, 그룹화를 수행하게 되는데, 상기 주요 키워드 정보와 연관 키워드 정보들을 그룹화하여, 이를 사회이슈 키워드 정보로 저장 및 관리하는 것이 바람직하다.
즉, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함으로써, 특정 키워드가 주요 키워드로 판단되면, 주요 키워드가 발생한 뉴스기사를 통해 연관 키워드를 추출하고, 연관 키워드 역시 빈도수대로 정렬한 후, 상기 연관 키워드의 상위 소정 개수를 주요 키워드와 함께 그룹화하여 하나의 사회이슈로 설정할 수 있다.
이 때, 연관 키워드를 추출(설정)하는 방법에 있어서, 상술한 바와 같이, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 연관 키워드 정보로 설정하는 것이 가장 바람직하나, 상기 주요 키워드 정보가 포함되어 있는 웹 페이지 정보에 포함되어 있는 추가 웹 페이지 정보들에 대한 텍스트 데이터들까지 분석하여 상기 연관 키워드 정보로 설정할 수도 있다.
이 경우, 상기 연관 키워드 정보가 좀더 풍성해지는 장점이 있다.
이와 같이, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템은, 상술한 바와 같이, 상기 구성들의 동작을 통해서, 일 예를 들자면, 언론사별 뉴스기사를 수집하고, 수집된 뉴스기사를 날짜별로 그룹화하여 추출된 키워드들(다수의 언론사에서 공통적으로 추출된 키워드들)을 주요 키워드로 하여 순위별 정렬하고, 주요 키워드가 발생한 뉴스기사를 통해 연관 키워드를 추출한 휘, 이를 그룹화하여 사회이슈로 설정하는 것이 바람직하다.
이를 통해서, 사회이슈가 주요 키워드 정보를 중심으로 랭킹순으로 연관 키워드 정보가 정렬되어, 특정 날짜에 어떤 사회이슈가 발생했는지 명확하게 확인할 수 있는 장점이 있다.
도 6은 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법을 나타낸 순서도로서, 도 6을 참조로 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법을 상세히 설명한다.
본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법은 도 6에 도시된 바와 같이, 웹문서 크롤링 단계(S100), 데이터 수집단계(S200), 키워드 데이터 분석단계(S300) 및 사회이슈 키워드 설정단계(S400)로 이루어지는 것이 바람직하다.
각 단계에 대해서 자세히 알아보자면,
상기 웹문서 크롤링 단계(S100)는 웹 사이트별 다양한 웹 문서 데이터들을 수집하는 것이 바람직하다.
즉, 상기 웹문서 크롤링 단계(S100)는 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터(웹 페이지 데이터 등)를 수집하는 것이 바람직하다.
상기 웹 사이트 관련 정보란, 원하는 언론사 등의 사이트 정보, 언론사 등의 SNS 정보들을 의미하며, 입력받은 상기 웹 사이트 관련 정보를 통해서, 수집하고자 하는 URL을 설정할 수 있다.
이 때, 다양한 사이트들의 다양한 웹 문서 데이터들을 날짜별로 그룹화하여 관리하는 것이 바람직하다.
더불어, 수집된 웹 문서 데이터 내에 다음 페이지 링크, 다시 말하자면, 추가 웹 문서 데이터에 대한 링크 관련 정보가 포함되어 있을 경우, 해당 추가 웹 문서 데이터까지 수집하는 것이 바람직하다. 즉, 수집된 웹 페이지 내에서 다음 페이지 링크가 포함되어 있을 경우, 다음 페이지 링크로 들어가서 다음 웹 페이지까지 수집하는 것이 바람직하다.
상세하게는, 상기 링크 관련 정보가 http 형태의 링크로 구성되었을 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여, 상기 추가 웹 문서 데이터를 수집하게 된다. 다시 말하자면, 수집된 페이지 내에 http 형태의 링크가 포함되어 있을 경우, 직접 연결 링크로 설정하여 다음에 수집하고자 하는 페이지 링크로 설정하여, 다음 웹 페이지까지 수집하게 된다.
이와 다르게, 상기 링크 관련 정보가 script 형태의 링크로 구성되었을 경우, 미리 설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하게 된다.
다시 말하자면, 수집된 페이지 내에 script 형태의 링크가 포함되어 있을 경우, 상기 브라우저 드라이버를 활용하여 스크립트를 직접 실행하는 방식으로, 다음에 수집하고자 하는 페이지 링크를 추출하여, 다음 웹 페이지까지 수집하게 된다.
여기서, 상기 브라우저 드라이버란, 웹 브라우저를 제어할 수 있는 드라이버로서, 일 예를 들자면, firefox, chrome, IE, Opera, PhantomJs 등과 같은 브라우저에서 제공하는 API로서, 이를 이용하면, 코드를 통해 실제 사용자가 브라우저를 다루는 것처럼 사용할 수 있어, 크롤링을 수행, 즉, 웹 문서 데이터를 수집할 수 있다.
또한, 상기 웹문서 크롤링 단계(S100)는 상기 웹 문서 데이터를 수집하는 과정을 반복 수행하면서, 가능한 한 많은 웹 문서 데이터를 수집하는 것이 가장 바람직하다.
상기 데이터 수집단계(S200)는 상기 웹문서 크롤링 단계(S100)에 의해 수집한 상기 웹 문서 데이터들 중 미리 설정된 웹 문서 형태에 해당하는 웹 문서 데이터들에 대해서만, 텍스트 데이터들을 추출하여 수집하되, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다.
상세하게는, 상기 데이터 수집단계(S200)는 날짜별로 그룹화되어 수집된 상기 웹 문서 데이터들 중 미리 설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 것으로서, 수집한 웹 페이지에서 사전에 분석한 HTML 태그가 존재할 경우, 원하는 뉴스기사 웹 페이지로 판단하고, 이에 포함되어 있는 날짜, 제목, 본문을 추출하여 수집하는 것이 바람직하다.
이를 위해, 각 웹 사이트별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 것이 바람직하다. 이 때, 원하는 웹 문서 데이터란, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템의 사용자(관리자 등)가 원하는 웹 문서 데이터를 의미하며, 일 예를 들자면, 언론사 사이트별 게시날짜, 제목, 본문에 해당하는 HTML 태그를 사전에 분석하여, 이를 저장 및 관리하는 것이 바람직하다.
이를 통해서, 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여 저장 및 관리하는 것이 바람직하다.
일 예를 들자면, 수집된 웹 페이지에 사전에 분석한 HTML 태그가 존재할 경우, 언론사 사이트의 뉴스기사 페이지로 판단하게 된다.
더불어, 판단한 상기 웹 문서 데이터들에 대해, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다. 상술한 예시에 계속하자면, 언론사 사이트의 뉴스기사 페이지로 판단한 해당 웹 페이지에 대한 날짜, 제목, 본문의 텍스트를 추출하여 해당 웹 페이지의 URL 정보와 함께 데이터베이스에 저장하는 것이 바람직하다.
즉, 웹 페이지의 경우, 날짜, 제목, 본문 외에 경우에 따라 댓글(덧글)과 같은 텍스트 데이터가 포함되어 있기 때문에, 불필요한 정보들을 제외하고 언론사에서 이슈화하여 제공하는 기사의 텍스트 데이터만을 추출하게 된다.
상기 키워드 데이터 분석단계(S300)는 상기 데이터 수집단계(S200)에 의해 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터들을 분석하는 것이 바람직하다.
이 때, 상기 키워드 데이터 분석단계(S300)는 상기 웹 문서 데이터에서 추출한 날짜, 제목, 본문의 텍스트 데이터를 모두 전달받는 것이 아니라, 형태소 분석이 필요없는 날짜를 제외한 제목, 본문의 텍스트 데이터만을 전달받는 것이 바람직하다.
상기 키워드 데이터 분석단계(S300)는 미리 저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 명사 정보들을 추출하는 것으로, 상기 웹 문서 데이터에 포함되어 있는 제목, 본문의 텍스트 데이터를 전달받아, 형태소 분석을 통해 명사/형용사/부사 등으로 구분하여 단어를 추출한 후, 상기 사전 데이터베이스 모듈을 통해서, 정의가 되어있는 단어를 추출하여, 이를 상기 명사 정보로 설정하는 것이 바람직하다.
상기 사전 데이터베이스 모듈에 의해 정의가 되어 있지 않은 단어의 경우, 신규로 발생한 단어일 가능성이 높아 상기 형태소 분석 모듈에서 이를 명사로 인식하지 못하는 경우가 발생할 수 있다.
이를 해소하기 위하여, 형태소 분석을 통해 단어가 추출되었으나, 상기 사전 데이터베이스 모듈을 통해서 정의가 되어 있지 않은 미정의 단어 정보를 전달받아, 이를 신규 용어 정보로 판단하는 것이 바람직하다.
일 예를 들자면, '지소미아'가 형태소 분석기의 사전에 등록되어 있지 않은 단어일 경우, '지소미아'라는 명사 정보로 설정되지 못하고 '지', '소미아'를 명사로 판단하여 찾아낼 가능성이 있다.
그렇기 때문에, 이를 해결하기 위하여, 분석된 단어가 뉴스기사 내용(텍스트 데이터) 상에서 공백이 없는 붙어있는 단어일 경우, 이를 신규 용어로 판단하여 상기 신규 용어 정보로 설정하는 것이 바람직하다.
뿐만 아니라, 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 활용함으로써, 추후 분석시 정상적인 키워드, 즉, 정상적인 명사 정보로 분석할 수 있다.
또한, 상기 키워드 데이터 분석단계(S300)는 전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 것이 바람직하다. 즉, 중복되는 키워드 정보는 빈도수를 증가시켜 저장 및 관리하는 것이 바람직하다.
상기 사회이슈 키워드 설정단계(S400)는 상기 데이터 수집단계(S200)에서 수집한 상기 텍스트 데이터들과, 상기 키워드 데이터 분석단계(S300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로, 사회이슈 키워드를 설정하는 것이 바람직하다.
상기 사회이슈 키워드 설정단계(S400)는 도 6에 도시된 바와 같이, 제1 처리단계(S410), 제2 처리단계(S420) 및 제3 처리단계(S430)로 이루어지는 것이 바람직하다.
상기 제1 처리단계(S410)는 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와, 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터들을 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 것이 바람직하다.
다시 말하자면, 우선, 날짜별로 뉴스기사에서 발생한 키워드들을 모두 추출하여 정렬한 뒤, 다수의 키워드가 존재할 경우, 빈도수를 기반으로 키워드를 재정렬하는 것이 바람직하다. 이는, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함을 의미한다.
이를 이용하여, 상기 제2 처리단계(S420)에서, 각각의 날짜(특정 날짜)별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 것이 바람직하다.
이를 통해서, 상술한 바와 같이, 상기 제3 처리단계(S430))에서, 상기 주요 키워드 정보의 연관 키워드 정보에 대한 그룹화를 수행하게 되는데, 상기 주요 키워드 정보와 연관 키워드 정보들을 그룹화하여, 이를 사회이슈 키워드 정보로 저장 및 관리하는 것이 바람직하다.
즉, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함으로써, 특정 키워드가 주요 키워드로 판단되면, 주요 키워드가 발생한 뉴스기사를 통해 연관 키워드를 추출하고, 연관 키워드 역시 빈도수대로 정렬한 후, 상기 연관 키워드의 상위 소정 개수를 주요 키워드와 함께 그룹화하여 하나의 사회이슈로 설정할 수 있다.
이 때, 연관 키워드를 추출(설정)하는 방법에 있어서, 상술한 바와 같이, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 연관 키워드 정보로 설정하는 것이 가장 바람직하나, 상기 주요 키워드 정보가 포함되어 있는 웹 페이지 정보에 포함되어 있는 추가 웹 페이지 정보들에 대한 텍스트 데이터들까지 분석하여 상기 연관 키워드 정보로 설정할 수도 있다.
이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 크롤링부
110 : 입력부 120 : 웹문서 수집부
200 : 수집부
210 : 사전 분석부 220 : 웹문서 판단부
300 : 분석부
310 : 명사 추출부 320 : 신규명사 추출부
330 : 키워드 분석부
400 : 사회이슈 도출부
410 : 제1 처리부 420 : 제2 처리부

Claims (10)

  1. 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하는 크롤링부(100);
    상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하고, 상기 크롤링부(100)로부터 수집된 상기 웹 문서 데이터 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 수집부(200);
    상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 분석부(300); 및
    상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 사회이슈 도출부(400);
    를 포함하며,
    상기 수집부(200)는
    각 웹 사이트 별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 사전 분석부(210)와,
    상기 크롤링부(100)에서 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 상기 사전 분석부(210)에서 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여, 저장 및 관리하는 웹문서 판단부(220)와,
    상기 웹문서 판단부(220)에서 저장 및 관리하고 있는 상기 웹 문서 데이터들에 대해, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 추출부(230)를 더 포함하며,
    상기 분석부(300)는
    기저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 단어를 추출하여, 명사 정보로 설정하는 명사 추출부(310)와,
    상기 명사 추출부(310)로부터 형태소 분석을 통해 단어로 구분되었으나, 의미가 정의되어 있지 않은 미정의 단어 정보를 전달받아, 신규 용어 정보로 판단하는 신규명사 추출부(320)와,
    전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 키워드 분석부(330)를 더 포함하여,
    상기 신규명사 추출부(320)에서 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 이용되는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.

  2. 제 1항에 있어서,
    상기 크롤링부(100)는
    상기 수집부(200)로부터 수집하고자 하는 상기 웹 사이트 관련 정보를 입력받는 입력부(110); 및
    상기 입력부(110)에서 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하되, 수집된 웹 문서 데이터에 포함된 추가 웹 문서 데이터에 대한 링크 관련 정보들을 추출하여, 상기 링크 관련 정보를 이용하여 상기 추가 웹 문서 데이터를 포함하여 수집하는 웹문서 수집부(120);
    를 더 포함하여 구성되는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
  3. 제 2항에 있어서,
    상기 웹문서 수집부(120)는
    상기 링크 관련 정보가 http 형태의 링크로 구성될 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여 상기 추가 웹 문서 데이터를 수집하고,
    상기 링크 관련 정보가 script 형태의 링크로 구성될 경우, 기설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
  4. 삭제
  5. 삭제
  6. 제 1항에 있어서,
    상기 사회이슈 도출부(400)는
    상기 수집부(200)로부터 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와 상기 분석부(300)로부터 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터를 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리부(410); 및
    각각의 날짜별로, 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하여, 상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 사회이슈 키워드 정보로 저장 및 관리하는 제2 처리부(420);
    를 더 포함하여 구성되는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
  7. 웹 사이트 별 다양한 웹 문서 데이터를 수집하는, 웹문서 크롤링 단계(S100);
    상기 웹문서 크롤링 단계(S100)에 의해 수집한 상기 웹 문서 데이터들 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터들에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하여 수집하는 데이터 수집단계(S200);
    상기 데이터 수집단계(S200)에 의해 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터들을 분석하는 키워드 데이터 분석단계(S300); 및
    상기 데이터 수집단계(S200)에서 수집한 상기 텍스트 데이터들과, 상기 키워드 데이터 분석단계(S300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로, 사회이슈 키워드를 설정하는 사회이슈 키워드 설정단계(S400);
    로 이루어지며,
    상기 키워드 데이터 분석단계(S300)는
    기저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 명사 정보와 신규 용어 정보를 분석하고, 분석한 각각의 정보들에 대한 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터로 저장하는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 방법.
  8. 삭제
  9. 삭제
  10. 제 7항에 있어서,
    상기 사회이슈 키워드 설정단계(S400)는
    날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리단계(S410);
    각각의 날짜별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터를 통해서 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 제2 처리단계(S420); 및
    상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 날짜별 사회이슈 키워드 정보로 저장 및 관리하는 제3 처리단계(S430);
    로 이루어지는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 방법.
KR1020190146726A 2019-11-15 2019-11-15 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 KR102107474B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190146726A KR102107474B1 (ko) 2019-11-15 2019-11-15 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190146726A KR102107474B1 (ko) 2019-11-15 2019-11-15 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법

Publications (1)

Publication Number Publication Date
KR102107474B1 true KR102107474B1 (ko) 2020-05-28

Family

ID=70920542

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190146726A KR102107474B1 (ko) 2019-11-15 2019-11-15 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법

Country Status (1)

Country Link
KR (1) KR102107474B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487269A (zh) * 2020-12-22 2021-03-12 安徽商信政通信息技术股份有限公司 一种爬虫自动化脚本的检测方法及装置
KR20220153389A (ko) * 2021-05-11 2022-11-18 재단법인 서울특별시 서울기술연구원 뉴스 지식그래프 기반 빅데이터 구축을 통한 뉴스 정보 구조화 방법 및 뉴스 정보 구조화 서버
CN117573959A (zh) * 2023-10-17 2024-02-20 北京国科众安科技有限公司 一种基于网页xpath获取新闻正文的通用方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101088787B1 (ko) 2009-03-12 2011-12-02 조정열 이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를생성하는 방법
KR20150086918A (ko) * 2014-01-21 2015-07-29 김왕철 트렌드 감성 분석을 이용한 주식거래 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101088787B1 (ko) 2009-03-12 2011-12-02 조정열 이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를생성하는 방법
KR20150086918A (ko) * 2014-01-21 2015-07-29 김왕철 트렌드 감성 분석을 이용한 주식거래 방법 및 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487269A (zh) * 2020-12-22 2021-03-12 安徽商信政通信息技术股份有限公司 一种爬虫自动化脚本的检测方法及装置
CN112487269B (zh) * 2020-12-22 2023-10-24 安徽商信政通信息技术股份有限公司 一种爬虫自动化脚本的检测方法及装置
KR20220153389A (ko) * 2021-05-11 2022-11-18 재단법인 서울특별시 서울기술연구원 뉴스 지식그래프 기반 빅데이터 구축을 통한 뉴스 정보 구조화 방법 및 뉴스 정보 구조화 서버
KR102577267B1 (ko) 2021-05-11 2023-09-08 재단법인 서울특별시 서울기술연구원 뉴스 지식그래프 기반 빅데이터 구축을 통한 뉴스 정보 구조화 방법 및 뉴스 정보 구조화 서버
CN117573959A (zh) * 2023-10-17 2024-02-20 北京国科众安科技有限公司 一种基于网页xpath获取新闻正文的通用方法
CN117573959B (zh) * 2023-10-17 2024-04-05 北京国科众安科技有限公司 一种基于网页xpath获取新闻正文的通用方法

Similar Documents

Publication Publication Date Title
EP2210198B1 (en) System and method for searching for documents
CN102609433B (zh) 基于用户日志进行查询推荐的方法及系统
US9619571B2 (en) Method for searching related entities through entity co-occurrence
US8321396B2 (en) Automatically extracting by-line information
KR102107474B1 (ko) 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
WO2015084757A1 (en) Systems and methods for processing data stored in a database
KR20170043365A (ko) 빅데이터를 이용한 중요 판례 추출 및 정리 방법
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN101782924A (zh) 信息处理方法、信息处理设备和程序
Cremaschi et al. MantisTable: a tool for creating semantic annotations on tabular data
WO2012091541A1 (en) A semantic web constructor system and a method thereof
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
KR102025813B1 (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
JP2014102625A (ja) 情報検索システム、プログラム、および方法
KR102298397B1 (ko) 인용 유형 기반의 인용 관계 분석 방법 및 시스템
Chung et al. A framework of automatic subject term assignment for text categorization: An indexing conception‐based approach
Wanjari et al. Automatic news extraction system for Indian online news papers
Griazev et al. Web mining taxonomy
CN103744884A (zh) 一种整理信息碎片的方法及系统
Al-Hamami et al. Development of an opinion blog mining system

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant