KR102107474B1

KR102107474B1 - 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법

Info

Publication number: KR102107474B1
Application number: KR1020190146726A
Authority: KR
Inventors: 남기효; 정문권; 안성호
Original assignee: (주)유엠로직스
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-05-28

Abstract

본 발명은 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에 관한 것으로서, 더욱 상세하게는, 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하는 크롤링부(100), 상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하고, 상기 크롤링부(100)로부터 수집된 상기 웹 문서 데이터 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 수집부(200), 상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 분석부(300) 및 상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 사회이슈 도출부(400)를 포함하는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템에 관한 것이다.

Description

크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 {Social issue deduction system and method using crawling}

본 발명은 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에 관한 것으로, 더욱 상세하게는 크롤링을 통해 웹 페이지의 텍스트 데이터(뉴스 기사 등)를 자동으로 수집하고, 수집된 텍스트 데이터에 포함되어 있는 날짜 정보, 내용 정보 등을 분석하여 사회이슈 키워드를 자동으로 도출할 수 있는 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에 관한 것이다.

일반적으로 생각되는 '사회이슈'라 함은, 포털 사이트 등의 검색 순위(실시간 검색어 등)를 통해 확인할 수 있다.

그렇지만, 이러한 포털 사이트 등의 검색 순위는 사용자로부터 직접 입력받은 다양한 검색어들을 통한 랭킹이 매겨지고 있기 때문에, 특정 집단에서 특정 키워드를 다수 입력하면, 랭킹이 상승함으로써 검색 순위에 나타나기 때문에, 단순하게 검색 순위를 사회이슈로 단정하기는 어렵다.

또한, 일반적으로 검색 순위에 올라가 있는 검색어의 경우, 단순한 단어로만 구성되어 있는 경우가 대부분이기 때문에, 특정 단어 및 특정 키워드만을 가지고, 이를 사회이슈로 해석하기에는 무리가 있다.

이와 관련해서, 국내등록특허 제10-1088787호("이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이트를 생성하는 방법")에서는, 사용자의 요구 또는 상황의 변화에 따라 입력 데이터의 입수 경로를 용이하게 변경하여 정확도와 신뢰성이 높게 이슈를 분석하여 관리하는 기술을 개시하고 있다.

국내등록특허 제10-1088787호(등록일자 2011.11.25.)

본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 크롤링을 통해 웹 페이지의 텍스트 데이터(뉴스 기사 등)를 자동으로 수집하고, 수집된 텍스트 데이터에 포함되어 있는 날짜 정보, 내용 정보 등을 분석하여 사회이슈 키워드를 자동으로 도출할 수 있는 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템은, 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하는 크롤링부(100), 상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하고, 상기 크롤링부(100)로부터 수집된 상기 웹 문서 데이터 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 수집부(200), 상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 분석부(300) 및 상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 사회이슈 도출부(400)를 포함하는 것이 바람직하다.

더 나아가, 상기 크롤링부(100)는 상기 수집부(200)로부터 수집하고자 하는 상기 웹 사이트 관련 정보를 입력받는 입력부(110) 및 상기 입력부(110)에서 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하되, 수집된 웹 문서 데이터에 포함된 추가 웹 문서 데이터에 대한 링크 관련 정보들을 추출하여, 상기 링크 관련 정보를 이용하여 상기 추가 웹 문서 데이터를 포함하여 수집하는 웹문서 수집부(120)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 웹문서 수집부(120)는 상기 링크 관련 정보가 http 형태의 링크로 구성될 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여 상기 추가 웹 문서 데이터를 수집하고, 상기 링크 관련 정보가 script 형태의 링크로 구성될 경우, 기설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하는 것이 바람직하다.

더 나아가, 상기 수집부(200)는 각 웹 사이트 별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 사전 분석부(210), 상기 크롤링부(100)에서 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 상기 사전 분석부(210)에서 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여, 저장 및 관리하는 웹문서 판단부(220) 및 상기 웹문서 판단부(220)에서 저장 및 관리하고 있는 상기 웹 문서 데이터들에 대해, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 추출부(230)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 분석부(300)는 기저장되어 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 단어를 추출하여, 명사 정보로 설정하는 명사 추출부(310), 상기 명사 추출부(310)로부터 형태소 분석을 통해 단어로 구분되었으나, 의미가 정의되어 있지 않은 미정의 단어 정보를 전달받아, 신규 용어 정보로 판단하는 신규명사 추출부(320) 및 전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 키워드 분석부(330)를 더 포함하여 구성되며, 상기 신규명사 추출부(320)에서 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 이용되는 것이 바람직하다.

더 나아가, 상기 사회이슈 도출부(400)는 상기 수집부(200)로부터 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와 상기 분석부(300)로부터 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터를 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리부(410) 및 각각의 날짜별로, 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하여, 상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 사회이슈 키워드 정보로 저장 및 관리하는 제2 처리부(420)를 더 포함하여 구성되는 것이 바람직하다.

본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법은, 웹 사이트 별 다양한 웹 문서 데이터를 수집하는, 웹문서 크롤링 단계(S100), 상기 웹문서 크롤링 단계(S100)에 의해 수집한 상기 웹 문서 데이터들 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터들에 대해서만, 텍스트 데이터들을 추출하여 수집하는 데이터 수집단계(S200), 상기 데이터 수집단계(S200)에 의해 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터들을 분석하는 키워드 데이터 분석단계(S300) 및 상기 데이터 수집단계(S200)에서 수집한 상기 텍스트 데이터들과, 상기 키워드 데이터 분석단계(S300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로, 사회이슈 키워드를 설정하는 사회이슈 키워드 설정단계(S400)로 이루어지는 것이 바람직하다.

더 나아가, 상기 데이터 수집단계(S200)는 상기 웹 문서 데이터들에 대해서, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다.

더 나아가, 상기 키워드 데이터 분석단계(S300)는 기저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 명사 정보와 신규 용어 정보를 분석하고, 분석한 각각의 정보들에 대한 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터로 저장하는 것이 바람직하다.

더 나아가, 상기 사회이슈 키워드 설정단계(S400)는 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리단계(S410), 각각의 날짜별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터를 통해서 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 제2 처리단계(S420) 및 상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 날짜별 사회이슈 키워드 정보로 저장 및 관리하는 제3 처리단계(S430)로 이루어지는 것이 바람직하다.

상기와 같은 구성에 의한 본 발명의 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법은 크롤링을 통해 웹 페이지의 텍스트 데이터(뉴스 기사 등)를 자동으로 수집하고, 수집된 텍스트 데이터에 포함되어 있는 날짜 정보, 내용 정보 등을 분석하여 사회이슈 키워드를 자동으로 도출함으로써, 원하는 기간(또는 특정 기간)에 발생한 사회이슈가 무엇인지 비교적 정확하게 특정할 수 있는 장점이 있다.

즉, 국내 언론사 웹사이트 및 국내 언론사 SNS 등을 대상으로 크롤링을 통해 뉴스 기사를 자동 수집하고, 수집된 기사의 발생(개시) 날짜 및 내용을 분석하여, 사회이슈를 자동으로 분석할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템을 나타낸 구성도이다.
도 2 내지 도 5는 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템의 각 구성의 세부 구성 동작도이다.
도 6은 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법을 나타낸 순서도이다.

이하 첨부한 도면들을 참조하여 본 발명의 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.

이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.

더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.

언론사 등에서 이슈화하여 내보내고 있는 기사들을 종합하여 볼 때 사회이슈를 추측할 수 있는데, 언론사들에서 발간(발행, 생성, 업로드 등)하는 기사들을 수집하여 이에 대한 주요 키워드들을 추출하는 것은 가능하다.

가령 언론기사 분석을 통해, '정부'라는 키워드가 많이 나타났다고 분석될 경우, 단순히 해당 키워드만 가지고는 앞뒤 상황을 유추하기가 어려워 이를 사회이슈로 단정할 수 없을 뿐 아니라, 이를 사회이슈로 단정지었다 할지라도 추후에 이에 대한 사회상황 해석이 거의 불가능하게 된다.

이에 반해서, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법은, 언론사 등에서 이슈화하여 내보내고 있는 기사들을 수집하여, 수집한 기사들을 분석하여 발견된 핵심 키워드를 중심으로, 연관된 키워드들까지 같이 추출하여 하나의 그룹으로 묶어 이를 사회이슈로 도출함으로써, 특정 기간에 발생한 사회이슈, 그리고 그 사회이슈가 발생한 이유, 경과 등을 일목요연하게 정리하여 확인할 수 있는 장점이 있다.

그렇기 때문에, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법에서의 '사회이슈'는 단순히 하나의 단어가 아니라, 특정 기간에 이슈화되고 있는 키워드들, 다시 말하자면, 연관성이 있는 키워드들의 집합을 의미한다.

이러한, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템은 도 1에 도시된 바와 같이, 크롤링부(100), 수집부(200), 분석부(300) 및 사회이슈 도출부(400)를 포함하여 구성되는 것이 바람직하다.

각 구성에 대해서 자세히 알아보자면,

상기 크롤링부(100)는 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터(웹 페이지 데이터 등)를 수집하는 것이 바람직하다.

이 때, 상기 웹 사이트 관련 정보는 상기 수집부(200)를 통해서 입력받는 것이 가장 바람직하다.

상기 크롤링부(100)는 도 1 및 도 2에 도시된 바와 같이, 입력부(110) 및 웹문서 수집부(120)를 포함하여 구성되는 것이 바람직하다.

상기 입력부(110)는 상술한 바와 같이, 상기 수집부(200)로부터 수집하고자 하는 상기 웹 사이트 관련 정보를 입력받는 것이 바람직하며, 상기 웹 사이트 관련 정보란, 원하는 언론사 등의 사이트 정보, 언론사 등의 SNS 정보들을 의미하며, 상기 입력부(110)는 입력받은 상기 웹 사이트 관련 정보를 통해서, 수집하고자 하는 URL을 설정할 수 있다.

상기 웹문서 수집부(120)는 상기 입력부(110)에서 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트들의 다양한 웹 문서 데이터를 수집하는 것이 바람직하다.

이 때, 상기 웹문서 수집부(120)는 다양한 사이트들의 다양한 웹 문서 데이터들을 날짜별로 그룹화하여 관리하는 것이 바람직하다.

더불어, 수집된 웹 문서 데이터 내에 다음 페이지 링크, 다시 말하자면, 추가 웹 문서 데이터에 대한 링크 관련 정보가 포함되어 있을 경우, 해당 추가 웹 문서 데이터까지 수집하는 것이 바람직하다. 즉, 수집된 웹 페이지 내에서 다음 페이지 링크가 포함되어 있을 경우, 다음 페이지 링크로 들어가서 다음 웹 페이지까지 수집하는 것이 바람직하다.

이를 위해, 상기 웹문서 수집부(120)는 상기 링크 관련 정보가 http 형태의 링크로 구성되었을 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여, 상기 추가 웹 문서 데이터를 수집하게 된다. 다시 말하자면, 수집된 페이지 내에 http 형태의 링크가 포함되어 있을 경우, 직접 연결 링크로 설정하여 다음에 수집하고자 하는 페이지 링크로 설정하여, 다음 웹 페이지까지 수집하게 된다.

이와 다르게, 상기 링크 관련 정보가 script 형태의 링크로 구성되었을 경우, 미리 설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하게 된다.

다시 말하자면, 수집된 페이지 내에 script 형태의 링크가 포함되어 있을 경우, 상기 브라우저 드라이버를 활용하여 스크립트를 직접 실행하는 방식으로, 다음에 수집하고자 하는 페이지 링크를 추출하여, 다음 웹 페이지까지 수집하게 된다.

여기서, 상기 브라우저 드라이버란, 웹 브라우저를 제어할 수 있는 드라이버로서, 일 예를 들자면, firefox, chrome, IE, Opera, PhantomJs 등과 같은 브라우저에서 제공하는 API로서, 이를 이용하면, 코드를 통해 실제 사용자가 브라우저를 다루는 것처럼 사용할 수 있어, 크롤링을 수행, 즉, 웹 문서 데이터를 수집할 수 있다.

아울러, 상기 크롤링부(100)는 상술한 바와 같이, 상기 웹 문서 데이터를 수집하는 과정을 반복 수행하면서, 가능한 한 많은 웹 문서 데이터를 수집하는 것이 가장 바람직하다.

상기 수집부(200)는 상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하여 설정하고, 상기 크롤링부(100)로부터 날짜별로 그룹화되어 수집된 상기 웹 문서 데이터들 중 미리 설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 것이 바람직하다.

즉, 상기 수집부(200)는 수집한 웹 페이지에서 사전에 분석한 HTML 태그가 존재할 경우, 원하는 뉴스기사 웹 페이지로 판단하고, 이에 포함되어 있는 날짜, 제목, 본문을 추출하여 수집하는 것이 바람직하다.

상세하게는, 상기 수집부(200)는 도 1 및 도 3에 도시된 바와 같이, 사전 분석부(210), 웹문서 판단부(220) 및 추출부(230)를 포함하여 구성되는 것이 바람직하다.

상기 사전 분석부(210)는 각 웹 사이트별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 것이 바람직하다. 이 때, 원하는 웹 문서 데이터란, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템의 사용자(관리자 등)가 원하는 웹 문서 데이터를 의미하며, 일 예를 들자면, 언론사 사이트별 게시날짜, 제목, 본문에 해당하는 HTML 태그를 사전에 분석하여, 이를 저장 및 관리하는 것이 바람직하다.

상기 웹문서 판단부(220)는 상기 크롤링부(100)에서 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 상기 사전 분석부(210)에서 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여 저장 및 관리하는 것이 바람직하다.

일 예를 들자면, 수집된 웹 페이지에 사전에 분석한 HTML 태그가 존재할 경우, 언론사 사이트의 뉴스기사 페이지로 판단하게 된다.

상기 추출부(230)는 상기 웹문서 판단부(220)에서 저장 및 관리하고 있는 상기 웹 문서 데이터들에 대해, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다. 상술한 예시에 계속하자면, 언론사 사이트의 뉴스기사 페이지로 판단한 해당 웹 페이지에 대한 날짜, 제목, 본문의 텍스트를 추출하여 해당 웹 페이지의 URL 정보와 함께 데이터베이스에 저장하는 것이 바람직하다.

즉, 웹 페이지의 경우, 날짜, 제목, 본문 외에 경우에 따라 댓글(덧글)과 같은 텍스트 데이터가 포함되어 있기 때문에, 불필요한 정보들을 제외하고 언론사에서 이슈화하여 제공하는 기사의 텍스트 데이터만을 추출하게 된다.

상기 분석부(300)는 상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 것이 바람직하다.

이 때, 상기 분석부(300)는 상기 수집부(200)를 통해서 상기 웹 문서 데이터에서 추출한 날짜, 제목, 본문의 텍스트 데이터를 모두 전달받는 것이 아니라, 형태소 분석이 필요없는 날짜를 제외한 제목, 본문의 텍스트 데이터만을 전달받는 것이 바람직하다.

이를 위해, 상기 분석부(300)는 도 1 및 도 4에 도시된 바와 같이, 명사 추출부(310), 신규명사 추출부(320) 및 키워드 분석부(330)를 포함하여 구성되는 것이 바람직하다.

상기 명사 추출부(310)는 미리 저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 명사 정보들을 추출하는 것이 바람직하다.

상세하게는, 상기 수집부(200)로부터 상기 웹 문서 데이터에 포함되어 있는 제목, 본문의 텍스트 데이터를 전달받아, 형태소 분석을 통해 명사/형용사/부사 등으로 구분하여 단어를 추출한 후, 상기 사전 데이터베이스 모듈을 통해서, 정의가 되어있는 단어를 추출하여, 이를 상기 명사 정보로 설정하는 것이 바람직하다.

상기 사전 데이터베이스 모듈에 의해 정의가 되어 있지 않은 단어의 경우, 신규로 발생한 단어일 가능성이 높아 상기 형태소 분석 모듈에서 이를 명사로 인식하지 못하는 경우가 발생할 수 있다.

이를 해소하기 위하여, 상기 신규명사 추출부(320)를 통해서, 상기 명사 추출부(310)로부터 형태소 분석을 통해 단어가 추출되었으나, 상기 사전 데이터베이스 모듈을 통해서 정의가 되어 있지 않은 미정의 단어 정보를 전달받아, 이를 신규 용어 정보로 판단하는 것이 바람직하다.

일 예를 들자면, '지소미아'가 형태소 분석기의 사전에 등록되어 있지 않은 단어일 경우, '지소미아'라는 명사 정보로 설정되지 못하고 '지', '소미아'를 명사로 판단하여 찾아낼 가능성이 있다.

그렇기 때문에, 이를 해결하기 위하여, 상기 명사 추출부(310)를 통해서 분석된 단어가 뉴스기사 내용(텍스트 데이터) 상에서 공백이 없는 붙어있는 단어일 경우, 이를 신규 용어로 판단하여 상기 신규 용어 정보로 설정하는 것이 바람직하다.

뿐만 아니라, 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 활용함으로써, 추후 분석시 정상적인 키워드, 즉, 정상적인 명사 정보로 분석할 수 있다.

상기 키워드 분석부(330)는 전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 것이 바람직하다. 즉, 중복되는 키워드 정보는 빈도수를 증가시켜 저장 및 관리하는 것이 바람직하다.

상기 사회이슈 도출부(400)는 상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 것이 바람직하다.

상세하게는, 상기 사회이슈 도출부(400)는 도 1 및 도 5에 도시된 바와 같이, 제1 처리부(410) 및 제2 처리부(420)를 포함하여 구성되는 것이 바람직하다.

상기 제1 처리부(410)는 상기 수집부(200)로부터 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와, 상기 분석부(300)로부터 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터들을 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 것이 바람직하다.

즉, 상기 제1 처리부(410)는 우선, 날짜별로 뉴스기사에서 발생한 키워드들을 모두 추출하여 정렬한 뒤, 다수의 키워드가 존재할 경우, 빈도수를 기반으로 키워드를 재정렬하는 것이 바람직하다. 이는, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함을 의미한다.

상기 제2 처리부(420)는 각각의 날짜(특정 날짜)별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 것이 바람직하다.

이를 통해서, 상술한 바와 같이, 그룹화를 수행하게 되는데, 상기 주요 키워드 정보와 연관 키워드 정보들을 그룹화하여, 이를 사회이슈 키워드 정보로 저장 및 관리하는 것이 바람직하다.

즉, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함으로써, 특정 키워드가 주요 키워드로 판단되면, 주요 키워드가 발생한 뉴스기사를 통해 연관 키워드를 추출하고, 연관 키워드 역시 빈도수대로 정렬한 후, 상기 연관 키워드의 상위 소정 개수를 주요 키워드와 함께 그룹화하여 하나의 사회이슈로 설정할 수 있다.

이 때, 연관 키워드를 추출(설정)하는 방법에 있어서, 상술한 바와 같이, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 연관 키워드 정보로 설정하는 것이 가장 바람직하나, 상기 주요 키워드 정보가 포함되어 있는 웹 페이지 정보에 포함되어 있는 추가 웹 페이지 정보들에 대한 텍스트 데이터들까지 분석하여 상기 연관 키워드 정보로 설정할 수도 있다.

이 경우, 상기 연관 키워드 정보가 좀더 풍성해지는 장점이 있다.

이와 같이, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템은, 상술한 바와 같이, 상기 구성들의 동작을 통해서, 일 예를 들자면, 언론사별 뉴스기사를 수집하고, 수집된 뉴스기사를 날짜별로 그룹화하여 추출된 키워드들(다수의 언론사에서 공통적으로 추출된 키워드들)을 주요 키워드로 하여 순위별 정렬하고, 주요 키워드가 발생한 뉴스기사를 통해 연관 키워드를 추출한 휘, 이를 그룹화하여 사회이슈로 설정하는 것이 바람직하다.

이를 통해서, 사회이슈가 주요 키워드 정보를 중심으로 랭킹순으로 연관 키워드 정보가 정렬되어, 특정 날짜에 어떤 사회이슈가 발생했는지 명확하게 확인할 수 있는 장점이 있다.

도 6은 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법을 나타낸 순서도로서, 도 6을 참조로 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법을 상세히 설명한다.

본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 방법은 도 6에 도시된 바와 같이, 웹문서 크롤링 단계(S100), 데이터 수집단계(S200), 키워드 데이터 분석단계(S300) 및 사회이슈 키워드 설정단계(S400)로 이루어지는 것이 바람직하다.

각 단계에 대해서 자세히 알아보자면,

상기 웹문서 크롤링 단계(S100)는 웹 사이트별 다양한 웹 문서 데이터들을 수집하는 것이 바람직하다.

즉, 상기 웹문서 크롤링 단계(S100)는 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터(웹 페이지 데이터 등)를 수집하는 것이 바람직하다.

상기 웹 사이트 관련 정보란, 원하는 언론사 등의 사이트 정보, 언론사 등의 SNS 정보들을 의미하며, 입력받은 상기 웹 사이트 관련 정보를 통해서, 수집하고자 하는 URL을 설정할 수 있다.

이 때, 다양한 사이트들의 다양한 웹 문서 데이터들을 날짜별로 그룹화하여 관리하는 것이 바람직하다.

상세하게는, 상기 링크 관련 정보가 http 형태의 링크로 구성되었을 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여, 상기 추가 웹 문서 데이터를 수집하게 된다. 다시 말하자면, 수집된 페이지 내에 http 형태의 링크가 포함되어 있을 경우, 직접 연결 링크로 설정하여 다음에 수집하고자 하는 페이지 링크로 설정하여, 다음 웹 페이지까지 수집하게 된다.

또한, 상기 웹문서 크롤링 단계(S100)는 상기 웹 문서 데이터를 수집하는 과정을 반복 수행하면서, 가능한 한 많은 웹 문서 데이터를 수집하는 것이 가장 바람직하다.

상기 데이터 수집단계(S200)는 상기 웹문서 크롤링 단계(S100)에 의해 수집한 상기 웹 문서 데이터들 중 미리 설정된 웹 문서 형태에 해당하는 웹 문서 데이터들에 대해서만, 텍스트 데이터들을 추출하여 수집하되, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다.

상세하게는, 상기 데이터 수집단계(S200)는 날짜별로 그룹화되어 수집된 상기 웹 문서 데이터들 중 미리 설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 것으로서, 수집한 웹 페이지에서 사전에 분석한 HTML 태그가 존재할 경우, 원하는 뉴스기사 웹 페이지로 판단하고, 이에 포함되어 있는 날짜, 제목, 본문을 추출하여 수집하는 것이 바람직하다.

이를 위해, 각 웹 사이트별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 것이 바람직하다. 이 때, 원하는 웹 문서 데이터란, 본 발명의 일 실시예에 따른 크롤링을 통한 사회이슈 도출 시스템의 사용자(관리자 등)가 원하는 웹 문서 데이터를 의미하며, 일 예를 들자면, 언론사 사이트별 게시날짜, 제목, 본문에 해당하는 HTML 태그를 사전에 분석하여, 이를 저장 및 관리하는 것이 바람직하다.

이를 통해서, 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여 저장 및 관리하는 것이 바람직하다.

더불어, 판단한 상기 웹 문서 데이터들에 대해, 미리 설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 것이 바람직하다. 상술한 예시에 계속하자면, 언론사 사이트의 뉴스기사 페이지로 판단한 해당 웹 페이지에 대한 날짜, 제목, 본문의 텍스트를 추출하여 해당 웹 페이지의 URL 정보와 함께 데이터베이스에 저장하는 것이 바람직하다.

상기 키워드 데이터 분석단계(S300)는 상기 데이터 수집단계(S200)에 의해 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터들을 분석하는 것이 바람직하다.

이 때, 상기 키워드 데이터 분석단계(S300)는 상기 웹 문서 데이터에서 추출한 날짜, 제목, 본문의 텍스트 데이터를 모두 전달받는 것이 아니라, 형태소 분석이 필요없는 날짜를 제외한 제목, 본문의 텍스트 데이터만을 전달받는 것이 바람직하다.

상기 키워드 데이터 분석단계(S300)는 미리 저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 명사 정보들을 추출하는 것으로, 상기 웹 문서 데이터에 포함되어 있는 제목, 본문의 텍스트 데이터를 전달받아, 형태소 분석을 통해 명사/형용사/부사 등으로 구분하여 단어를 추출한 후, 상기 사전 데이터베이스 모듈을 통해서, 정의가 되어있는 단어를 추출하여, 이를 상기 명사 정보로 설정하는 것이 바람직하다.

이를 해소하기 위하여, 형태소 분석을 통해 단어가 추출되었으나, 상기 사전 데이터베이스 모듈을 통해서 정의가 되어 있지 않은 미정의 단어 정보를 전달받아, 이를 신규 용어 정보로 판단하는 것이 바람직하다.

그렇기 때문에, 이를 해결하기 위하여, 분석된 단어가 뉴스기사 내용(텍스트 데이터) 상에서 공백이 없는 붙어있는 단어일 경우, 이를 신규 용어로 판단하여 상기 신규 용어 정보로 설정하는 것이 바람직하다.

또한, 상기 키워드 데이터 분석단계(S300)는 전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 것이 바람직하다. 즉, 중복되는 키워드 정보는 빈도수를 증가시켜 저장 및 관리하는 것이 바람직하다.

상기 사회이슈 키워드 설정단계(S400)는 상기 데이터 수집단계(S200)에서 수집한 상기 텍스트 데이터들과, 상기 키워드 데이터 분석단계(S300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로, 사회이슈 키워드를 설정하는 것이 바람직하다.

상기 사회이슈 키워드 설정단계(S400)는 도 6에 도시된 바와 같이, 제1 처리단계(S410), 제2 처리단계(S420) 및 제3 처리단계(S430)로 이루어지는 것이 바람직하다.

상기 제1 처리단계(S410)는 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와, 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터들을 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 것이 바람직하다.

다시 말하자면, 우선, 날짜별로 뉴스기사에서 발생한 키워드들을 모두 추출하여 정렬한 뒤, 다수의 키워드가 존재할 경우, 빈도수를 기반으로 키워드를 재정렬하는 것이 바람직하다. 이는, 특정 날짜에 발생한 뉴스기사에서 가장 많은 비중을 차지하는 키워드를 순서대로 정렬함을 의미한다.

이를 이용하여, 상기 제2 처리단계(S420)에서, 각각의 날짜(특정 날짜)별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 것이 바람직하다.

이를 통해서, 상술한 바와 같이, 상기 제3 처리단계(S430))에서, 상기 주요 키워드 정보의 연관 키워드 정보에 대한 그룹화를 수행하게 되는데, 상기 주요 키워드 정보와 연관 키워드 정보들을 그룹화하여, 이를 사회이슈 키워드 정보로 저장 및 관리하는 것이 바람직하다.

이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

100 : 크롤링부
110 : 입력부 120 : 웹문서 수집부
200 : 수집부
210 : 사전 분석부 220 : 웹문서 판단부
300 : 분석부
310 : 명사 추출부 320 : 신규명사 추출부
330 : 키워드 분석부
400 : 사회이슈 도출부
410 : 제1 처리부 420 : 제2 처리부

Claims

입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하는 크롤링부(100);
상기 크롤링부(100)로 수집하고자 하는 상기 웹 사이트 관련 정보들을 입력하고, 상기 크롤링부(100)로부터 수집된 상기 웹 문서 데이터 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 추출하여 수집하는 수집부(200);
상기 수집부(200)에서 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터를 분석하는 분석부(300); 및
상기 수집부(200)에서 수집한 상기 텍스트 데이터들과 상기 분석부(300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로 사회이슈 키워드 정보를 설정하는 사회이슈 도출부(400);
를 포함하며,
상기 수집부(200)는
각 웹 사이트 별로, 원하는 웹 문서 데이터를 구성하고 있는 HTML 태그 형태를 분석하는 사전 분석부(210)와,
상기 크롤링부(100)에서 수집한 상기 웹 문서 데이터들의 HTML 태그 형태를 분석하여, 상기 웹 문서 데이터들 중 상기 사전 분석부(210)에서 분석한 HTML 태그 형태가 포함되어 있는 상기 웹 문서 데이터를 판단하여, 저장 및 관리하는 웹문서 판단부(220)와,
상기 웹문서 판단부(220)에서 저장 및 관리하고 있는 상기 웹 문서 데이터들에 대해, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하는 추출부(230)를 더 포함하며,
상기 분석부(300)는
기저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 의미가 정의되어 있는 단어를 추출하여, 명사 정보로 설정하는 명사 추출부(310)와,
상기 명사 추출부(310)로부터 형태소 분석을 통해 단어로 구분되었으나, 의미가 정의되어 있지 않은 미정의 단어 정보를 전달받아, 신규 용어 정보로 판단하는 신규명사 추출부(320)와,
전달받은 상기 텍스트 데이터 상에서 추출한 상기 명사 정보와 상기 신규 용어 정보에 대한 각각의 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터들로 저장 및 관리하는 키워드 분석부(330)를 더 포함하여,
상기 신규명사 추출부(320)에서 판단한 상기 신규 용어 정보는 상기 명사 추출부(310)에서 이용하는 상기 형태소 분석 모듈과 사전 데이터베이스 모듈의 업데이트 정보로 이용되는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
제 1항에 있어서,
상기 크롤링부(100)는
상기 수집부(200)로부터 수집하고자 하는 상기 웹 사이트 관련 정보를 입력받는 입력부(110); 및
상기 입력부(110)에서 입력받은 웹 사이트 관련 정보들을 통해, 해당 사이트의 다양한 웹 문서 데이터를 수집하되, 수집된 웹 문서 데이터에 포함된 추가 웹 문서 데이터에 대한 링크 관련 정보들을 추출하여, 상기 링크 관련 정보를 이용하여 상기 추가 웹 문서 데이터를 포함하여 수집하는 웹문서 수집부(120);
를 더 포함하여 구성되는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
제 2항에 있어서,
상기 웹문서 수집부(120)는
상기 링크 관련 정보가 http 형태의 링크로 구성될 경우, 상기 추가 웹 문서 데이터에 대한 연결 링크로 직접 설정하여 상기 추가 웹 문서 데이터를 수집하고,
상기 링크 관련 정보가 script 형태의 링크로 구성될 경우, 기설정된 브라우저 드라이버(browser driver)를 이용하여, 상기 추가 웹 문서 데이터에 대한 연결 링크를 추출하여 상기 추가 웹 문서 데이터를 수집하는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
삭제
삭제
제 1항에 있어서,
상기 사회이슈 도출부(400)는
상기 수집부(200)로부터 전달받은 상기 텍스트 데이터에 포함되어 있는 날짜 항목 정보와 상기 분석부(300)로부터 전달받은 상기 키워드 데이터를 이용하여, 날짜별로 상기 키워드 데이터를 정렬 분석하되, 빈도수를 이용하여 날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리부(410); 및
각각의 날짜별로, 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터에 의해 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하여, 상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 사회이슈 키워드 정보로 저장 및 관리하는 제2 처리부(420);
를 더 포함하여 구성되는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 시스템.
웹 사이트 별 다양한 웹 문서 데이터를 수집하는, 웹문서 크롤링 단계(S100);
상기 웹문서 크롤링 단계(S100)에 의해 수집한 상기 웹 문서 데이터들 중 기설정된 웹 문서 형태에 해당하는 웹 문서 데이터들에 대해서만, 기설정된 항목 정보에 대한 텍스트 데이터들을 분류 및 추출하여 수집하는 데이터 수집단계(S200);
상기 데이터 수집단계(S200)에 의해 수집한 상기 텍스트 데이터들을 전달받아, 형태소 분석을 통한 키워드 데이터들을 분석하는 키워드 데이터 분석단계(S300); 및
상기 데이터 수집단계(S200)에서 수집한 상기 텍스트 데이터들과, 상기 키워드 데이터 분석단계(S300)에서 분석한 상기 키워드 데이터들을 이용하여, 상기 키워드 데이터들의 발생 빈도수를 기준으로, 사회이슈 키워드를 설정하는 사회이슈 키워드 설정단계(S400);
로 이루어지며,
상기 키워드 데이터 분석단계(S300)는
기저장되어 있는 형태소 분석 모듈과 사전 데이터베이스 모듈을 이용하여, 전달받은 상기 텍스트 데이터들에 대한 형태소 분석을 통해 명사 정보와 신규 용어 정보를 분석하고, 분석한 각각의 정보들에 대한 빈도수를 분석하여, 분석한 빈도수와 각각의 정보들을 매칭시켜 상기 키워드 데이터로 저장하는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 방법.
삭제
삭제
제 7항에 있어서,
상기 사회이슈 키워드 설정단계(S400)는
날짜별 빈도수 순서대로 상기 키워드 데이터를 정렬 분석하는 제1 처리단계(S410);
각각의 날짜별로 빈도수가 가장 많은 상기 키워드 데이터를 주요 키워드 정보로 설정하고, 상기 주요 키워드 정보가 포함되어 있는 상기 텍스트 데이터를 통해서 분석된 다른 키워드 데이터들을 상기 주요 키워드 정보의 연관 키워드 정보로 설정하는 제2 처리단계(S420); 및
상기 주요 키워드 정보와 연관 키워드 정보를 그룹화하여, 날짜별 사회이슈 키워드 정보로 저장 및 관리하는 제3 처리단계(S430);
로 이루어지는 것을 특징으로 하는 크롤링을 통한 사회이슈 도출 방법.