KR102577267B1

KR102577267B1 - 뉴스 지식그래프 기반 빅데이터 구축을 통한 뉴스 정보 구조화 방법 및 뉴스 정보 구조화 서버

Info

Publication number: KR102577267B1
Application number: KR1020210060910A
Authority: KR
Inventors: 김준철; 이지애; 권민지
Original assignee: 재단법인 서울특별시 서울기술연구원
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2023-09-08
Also published as: KR20220153389A

Abstract

본 발명의 뉴스 정보 구조화 방법은 복수의 언론사 서버 상의 뉴스 정보를 추출하는 단계; 상기 뉴스 정보를 적어도 하나의 키워드로 분할하는 단계; 자연어 처리를 통하여 상기 적어도 하나의 키워드에 매칭되는 상기 뉴스 정보의 내용을 산출하는 단계;
상기 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 복수의 태그와 매칭하는 단계; 상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계;
상기 적어도 하나의 키워드 상호간의 관계 정보가 시각화된 데이터 베이스를 형성하는 단계; 사용자가 입력 키워드를 입력하면, 상기 입력 키워드에 기초하여 상기 데이터 베이스 상에서 상기 입력 키워드에 대응되는 제1키워드 및 상기 제1키워드와 연관된 제2키워드를 결정하는 단계; 및
상기 제1키워드에 대응되는 지도 이미지를 결정하는 단계; 및 상기 지도 이미지 상에서 상기 제1키워드 이미지와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 단계;를 더 포함할 수 있다.

Description

뉴스 지식그래프 기반 빅데이터 구축을 통한 뉴스 정보 구조화 방법 및 뉴스 정보 구조화 서버{NEWS INFORMATION STRUCTURING METHOD AND NEWS INFORMATION STRUCTURING SERVER THROUGH BIG DATA CONSTRUCTION BASED ON NEWS KNOWLEDGE GRAPH}

본 발명은 정보검색 분야에 관한 것으로서 방대한 뉴스 기사를 시각화한 정보베이스 구축 및 이를 활용하는 뉴스 정보 구조화 방법에 관련된 기술이다.

웹 뉴스 기사는 태풍과 같은 재해 발생상황에 대한 신속하고 정확한 정보를 포함하고 있다.

예를 들어, 웹 뉴스 기사는, 태풍의 발생시점, 이동·예측경로, 피해·사고 현황 등 유용한 정보를 텍스트, 이미지, 동영상의 형태로 관련 상황정보를 전달한다.

그러나 대부분의 재해재난 관련 뉴스 기사는 특정 시점의 정보만을 웹 페이지 형태로 제공하므로, 시계열 측면의 연결성을 지니는 기사들에 대한 정보를 전달하기 어렵다.

또한 시간적 변화에 따라 기사 내용에 포함된 장소, 지역, 건물 등의 지명에 대한 공간적 정보를 지도와 연계하여 정보를 전달하는데 한계가 있어, 시공간적 변화에 따른 특정 재해재난 상황정보에 대한 전체적인 현황파악이 어렵다.

따라서 시간의 흐름에 따라 변화하는 상황에 따라 추가 보도되는 뉴스 정보를 시계열 측면에서 상호 연계하는 정보 시각화 방안이 필요한 실정이다.

본 발명은 뉴스에 대응되는 시공간적 정보를 이용하여 뉴스의 데이터 베이스를 형성하고 이를 기초로 시계열적으로 뉴스 기사를 제공할 수 있는 빅데이터를 이용한 뉴스 정보 구조화 방법 및 이를 수행하는 서버를 제공한다.

본 발명의 뉴스 정보 구조화 방법은 복수의 언론사 서버 상의 뉴스 정보를 추출하는 단계; 상기 뉴스 정보를 적어도 하나의 키워드로 분할하는 단계; 자연어 처리를 통하여 상기 적어도 하나의 키워드에 매칭되는 상기 뉴스 정보의 내용을 산출하는 단계;

상기 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 복수의 태그와 매칭하는 단계; 상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계;

상기 적어도 하나의 키워드 상호간의 관계 정보가 시각화된 데이터 베이스를 형성하는 단계;

사용자가 입력 키워드를 입력하면, 상기 입력 키워드에 기초하여 상기 데이터 베이스 상에서 상기 입력 키워드에 대응되는 제1키워드 및 상기 제1키워드와 연관된 제2키워드를 결정하는 단계; 및

상기 제1키워드에 대응되는 지도 이미지를 결정하는 단계; 및 상기 지도 이미지 상에서 상기 제1키워드 이미지와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 단계;를 더 포함할 수 있다.

또한 복수의 서버 상의 뉴스 정보를 추출하는 단계는, 상기 복수의 서버 각각이 제공하는 API(application programming interface)를 통하여 상기 뉴스 정보가 출력되는 웹 페이지를 스크래핑하고 상기 뉴스 정보를 텍스트화 하여 추출하는 단계;를 포함할 수 있다.

또한 상기 자연어 처리를 통하여 상기 적어도 하나의 키워드에 해당하는 상기 뉴스 정보의 내용을 산출하는 단계는,

텍스트화된 상기 뉴스 정보의 형태소 분석 및 구문 분석을 수행하는 단계; 및 상기 뉴스 정보에 대응되는 문법 정보를 기초로 상기 뉴스 정보를 최소한의 의미를 포함하는 상기 적어도 하나의 키워드로 분할하는 단계;를 포함할 수 있다.

또한 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 미리 결정된 복수의 태그와 매칭하는 단계는, 상기 뉴스 정보 상에서 시간 또는 위치에 대응되는 정보를 추출하여 상기 미리 결정된 카테고리의 상기 복수의 태그를 형성하는 단계;를 포함할 수 있다.

또한 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계는, 상기 제1키워드를 기준 개체로 결정하고,

상기 제2키워드를 참조 개체로 결정하고, 상기 제1키워드와 상기 제2키워드 각각에 매칭된 태그를 기초로 상기 제1키워드와 상기 제2키워드 상호간의 관계를 결정할 수 있다.

또한 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계는,

상기 적어도 하나의 키워드가 상기 뉴스 정보 상에서 표시된 빈도수에 기초하여 상기 상호간의 관계에 가중치를 부여하는 단계;를 포함할 수 있다.

또한 복수의 태그와 매칭된 분할된 상기 적어도 하나 키워드의 메타 정보를 추출하는 단계;를 더 포함하고, 상기 적어도 하나의 키워드 중 상호 동일한 키워드가 존재하면, 상기 적어도 하나의 키워드에 대응되는 상기 메타 정보를 기초로 상기 적어도 하나의 키워드 각각을 구별할 수 있다.

또한 지도 이미지 상에서 상기 제1키워드 이미지와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 단계는,

상기 제1키워드에 대응되는 공간 정보를 기초로 상기 지도 이미지 상에 상기 제1키워드와 대응되는 상기 뉴스 정보를 출력하는 단계;를 포함할 수 있다.

상기 제1키워드에 대응되는 시간 정보를 기초로 상기 지도 이미지 상에서 시계열적으로 상기 제1키워드와 대응되는 상기 뉴스 정보를 출력하는 단계;를 포함할 수 있다.

본 발명의 일 실시예에 따른 뉴스 정보 구조화 방법을 수행하는 서버는, 적어도 하나의 메모리; 및 상기 적어도 하나의 메모리와 통신을 수행하는 적어도 하나의 프로세서;를 포함하고,

상기 적어도 하나의 프로세서는, 복수의 언론사 서버 상의 뉴스 정보를 추출하고, 상기 뉴스 정보를 적어도 하나의 키워드로 분할하고,

자연어 처리를 통하여 상기 적어도 하나의 키워드에 매칭되는 상기 뉴스 정보의 내용을 산출하고, 상기 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 복수의 태그와 매칭하고,

상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하고,

상기 적어도 하나의 키워드 상호간의 관계 정보가 시각화된 데이터 베이스를 형성하고,

사용자가 입력 키워드를 입력하면, 상기 입력 키워드에 기초하여 상기 데이터 베이스 상에서 상기 입력 키워드에 대응되는 제1키워드 및 상기 제1키워드와 연관된 제2키워드를 결정하고, 상기 제1키워드에 대응되는 지도 이미지를 결정하고,

상기 지도 이미지 상에서 상기 제1키워드 이미지와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 뉴스 정보 구조화 방법을 수행할 수 있다.

본 발명의 일 실시예에 따른 뉴스 정보 구조화 방법 및 이를 수행하는 서버는 뉴스에 대응되는 시공간적 정보를 이용하여 뉴스의 데이터 베이스를 형성하고 이를 기초로 시계열적으로 뉴스 기사를 제공할 수 있다.

본 발명의 다른 실시예에 따른 뉴스 정보 구조화 방법 및 이를 수행하는 서버는 시각적인 정보와 함께 뉴스를 제공함으로서 사용자가 용이하게 뉴스 정보를 이해할 수 있다.

도1은 본 발명의 일 실시예에 따른 서버의 제어블럭도이다.
도2는 본 발명의 일 실시예에 따른 뉴스 정보 구조화 방법의 동작을 설명하기 위한 도면이다.
도3a은 본 발명의 일 실시예에 따른 뉴스 정보의 일 예시를 나타낸 도면이다.
도3b는 본 발명의 일 실시예에 따른 뉴스 정보 상에서 최소 단위의 키워드를 추출하는 동작을 설명하기 위한 도면이다.
도4는 본 발명의 일 실시예에 따른 키워드에 매칭되는 태그를 설명하기 위한 도면이다.
도5는 본 발명의 일 실시예에 따른 뉴스 정보의 키워드 상호 관계가 표시되는 정보베이스를 나타낸 도면이다.
도6은 본 발명의 일 실시예에 따른 시계열에 따른 지도 이미지 상에 뉴스 정보가 출력되는 동작을 설명하는 동작을 설명하기 위한 도면이다.
도7은 본 발명의 일 실시예에 다른 순서도이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.

도1은 본 발명의 일 실시예에 따른 서버(10)의 제어블럭도이다.

도1을 참고하면 일 실시예에 따른 서버(10)는 메모리(110)와 적어도 하나의 프로세서(100)를 포함할 수 있다.

메모리(110)는, 뉴스 정보 및 이에 대응되는 키워드를 기초로 데이터 베이스를 형성할 수 있다.

메모리(110)는 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다. 메모리는 프로세서와 관련하여 전술한 프로세서와 별개의 칩으로 구현된 메모리일 수 있고, 프로세서와 단일 칩으로 구현될 수도 있다.

적어도 하나의 프로세서(100)는, 복수의 언론사 서버 상의 뉴스 정보를 추출할 수 있다.

복수의 언론사 서버(20)는 뉴스 정보를 제공하는 서버를 의미할 수 있다. 뉴스 정보는 복수의 언론사에서 웹페이지 상에서 제공하는 뉴스 기사, 동영상 등 뉴스에 대응되는 컨텐츠를 의미할 수 있다.

뉴스 정보 추출은 서버가 언론사 서버가 제공하는 APIs(Application Programming Interfaces)를 이용하여 주기적으로 수집될 수 있다. 이러한 수집에는 웹 크롤링 기술 등이 이용될 수 있는데 이와 관련한 상세한 설명은 후술한다.

적어도 하나의 프로세서(100)는 뉴스 정보를 적어도 하나의 키워드로 분할 할 수 있다.

키워드는 뉴스 정보 중 기사를 이루는 단위를 의미할 수 있다.

본 발명의 일 실시예에 따르면 키워드는 뉴스 정보 중 기사를 이루는 단어를 의미할 수 있다.

적어도 하나의 프로세서(100)는 자연어 처리를 통하여 적어도 하나의 키워드에 매칭되는 뉴스 정보의 내용을 산출할 수 있다.

구체적으로 프로세서(100)는 뉴스 기사를 획득하고 기사에 자연어 처리를 통하여 형태소 분석 및 구문 분석을 수행할 수 있다.

또한 프로세서(100)는 이러한 구문 분석을 통하여 뉴스 기사를 이루는 키워드의 내용, 즉 의미를 도출할 수 있다.

구체적으로 프로세서(100)는 기사 문장을 문법에 기초하여 문장의 구조를 파악하고 문자열을 분리하여 최소 의미를 지는 키워드로 분리할 수 있다.

프로세서(100)는 이렇게 추출한 키워드를 가공하여 따로 저장 및 관리할 수 있다.

구체적으로 프로세서(100)는 가공된 키워드를 뉴스일자, 뉴스제목, 뉴스출처(뉴스매체), 웹 주소(URL), 시작링크를 기본 필드로 하여 저장 및 관리할 수 있다.

한편 적어도 하나의 프로세서(100)는, 뉴스 정보의 내용을 기초로 분할된 키워드를 복수의 태그와 매칭시킬 수 있다.

구체적으로 적어도 하나의 프로세서(100)는, 뉴스 정보에서 자연어처리 기법을 활용하여 시간과 공간에 관련된 개체명 인식(NER, named entity relation)을 수행할 수 있다.

프로세서(100)는 뉴스 정보 상의 주요 정보를 개체명 형태로 인식하여 태그(tag)와 함께 추출할 수 있다.

태그는 크게 시간적 정보와 공간적 정보로 나뉠 수 있는데 이와 관련한 상세한 설명은 후술한다.

적어도 하나의 프로세서(100)는, 복수의 태그를 기초로 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출할 수 있다.

각 키워드 간의 상호 관계는 각 키워드를 노드(Node)로 결정하고 각 노드와의 관계를 산출하는 것을 의미할 수 있다.

한편 프로세서(100)는 적어도 하나의 키워드 상호간의 관계 정보가 시각화된 데이터 베이스를 형성할 수 있다. 시각화된 데이터 베이스는 각 노드의 관계가 그래프 형태로 생성된 것을 의미할 수 있다.

그래프 형태의 데이터 베이스는 키워드 간의 관계를 관계로 다룰 수 있도록 설계된 정보베이스를 의미할 수 있다.

한편 적어도 하나의 프로세서(100)는, 사용자가 입력 키워드를 입력하면, 입력 키워드에 기초하여 데이터 베이스 상에서 입력 키워드에 대응되는 제1키워드 및 상기 제1키워드와 연관된 제2키워드를 결정할 수 있다.

제1키워드는 데이터 베이스 상에서 입력 키워드와 동일하거나 입력 키워드와 대응되는 키워드를 의미할 수 있다.

한편 제2키워드는 제1키워드가 특정 노드에 대응될 때 제1키워드와 관계가 성립하는 키워드를 의미할 수 있다.

한편 적어도 하나의 프로세서(100)는, 제1키워드에 대응되는 지도 이미지를 결정할 수 있다.

제1키워드를 기초로 지도 이미지를 결정하는 상세한 동작은 후술한다.

적어도 하나의 프로세서(100)는, 지도 이미지 상에서 상기 제1키워드 이미지와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력할 수 있다.

한편 프로세서(100)가 수행하는 복수의 서버 상의 뉴스 정보를 추출하는 동작은 복수의 서버 각각이 제공하는 API를 통하여 상기 뉴스 정보가 출력되는 웹 페이지를 스크래핑을 수행하여 이뤄질 수 있다.

스크래핑은 컴퓨터 프로그램이 다른 프로그램으로부터 들어오는 읽을 수 있는 출력으로부터 정보를 추출하는 기법을 의미할 수 있다.

한편 서버(10)는 이렇게 스크래핑을 수행한 뉴스 정보를 텍스트화 하여 추출할 수 있다.

구체적으로 서버(10)는 웹사이트의 시작지점 URL들을 입력하여 링크된 웹페이지들을 직접 스크래핑하여 뉴기 기사를 텍스트 정보로 수집할 수 있다.

또한 서버(10)가 수행하는 자연어 처리를 통하여 상기 적어도 하나의 키워드에 해당하는 뉴스 정보의 내용을 산출하는 단계는, 텍스트화된 상기 뉴스 정보의 형태소 분석 및 구문 분석을 수행하는 동작과 뉴스 정보에 대응되는 문법 정보를 기초로 뉴스 정보를 최소한의 의미를 포함하는 상기 적어도 하나의 키워드로 분할하는 동작을 포함할 수 있다.

본 발명의 일 실시예에 따르면 서버는 Beautiful Soup 등의 일반적인 툴을 이용하여 웹페이지 내용을 구문분석하고 구문 분석된 정보(Parsed Data)로 항목을 추출할 수 있다.

이어서 서버(10)는 기사 문장을 문법에 기초하여 문장의 구조를 파악하고 문자열을 분리하여 최소 의미를 지는 단위로 분리한다. 이렇게 추출된 정보는 가공된 정보로 저장 및 관리가 될 수 있다.

한편 서버(10)는 뉴스 정보 상에서 시간 또는 공간에 대응되는 정보를 추출하여 미리 결정된 카테고리의 복수의 태그를 형성하는 동작을 수행할 수 있다.

태그는 시간적 정보를 포함하는 날짜, 시간 및 기간 등을 포함하며 공간에 대응되는 정보로서 지명, 기관명 등의 태그로 형성될 수 있는데 이와 관련된 상세한 설명은 후술한다.

서버(10)는 제1키워드를 기준 개체로 결정하고, 제2키워드를 참조 개체로 결정하고, 제1키워드와 상기 제2키워드 각각에 매칭된 태그를 기초로 상기 제1키워드와 상기 제2키워드 상호간의 관계를 결정하는 동작을 포함할 수 있다.

제1키워드는 사용자가 뉴스 시각화를 이용하여 입력하는 키워드를 의미하고 제2키워드는 제1키워드와 관련성이 있는 키워드를 의미할 수 있다.

구체적으로 서버(10)는 뉴스기사에 대한 빅데이터 구축을 이러한 그래프 정보베이스로 저장 및 관리하기 위해, 상술한 키워드의 시간 및 공간적 정보에 대한 태그 객체를 주요 노드들로 구성하여 각 지명에 대한 삼중항 집합(Triplet)을 결정할 수 있다.

삼중합 집합은 기준 개체, 참조 개체, 객체간의 관계를 포함할 수 있다.

즉 삼중합 집합은 그래프에 정의된 뉴스그래프에서 N(Node)는 고유한 기준 개체들(locata) 및 참조 개체들(relata)을 나타내는 노드들과 그들간의 관계를 연결짓는 관계들(edges)의 집합을 의미할 수 있다.

서버(10)는 적어도 하나의 키워드가 상기 뉴스 정보 상에서 표시된 빈도수에 기초하여 상기 상호간의 관계에 가중치를 부여할 수 있다.

구체적으로 서버(10)는 키워드들의 태그간 시공간 관계를 구성하여 분석을 효율적으로 수행하기 위해 그래프를 형성할 수 있다.

서버(10)는 복수의 태그와 매칭된 분할된 상기 적어도 하나 키워드의 메타 정보를 추출 할 수 있다.

뉴스 정보에 대한 메타 정보는 동일 개체명의 경우는 수집된 기사의 뉴스일자, 뉴스제목, 뉴스출처(뉴스매체), 웹주소(URL) 등을 의미할 수 있다.

한편 서버(10)는 적어도 하나의 키워드 중 동일한 키워드가 존재하면, 상기 상술한 메타 정보를 기초로 적어도 하나의 키워드 각각을 구별할 수 있다.

서버(10)는 제1키워드에 대응되는 공간 정보를 기초로 지도 이미지 상에 제1키워드와 대응되는 뉴스 정보를 출력하는 동작을 수행할 수 있다.

즉 서버(10)는 각 키워드와 대응되는 지도 이미지를 결정할 수 있다. 예를 들어 한반도의 태풍 상황에 관련된 뉴스 키워드인 경우에 서버는 한반도의 지도 이미지를 로드 할 수 있다.

한편 서버(10)는 제1키워드에 대응되는 시간 정보를 기초로 상기 지도 이미지 상에서 시계열적으로 상기 제1키워드와 대응되는 상기 뉴스 정보를 출력하는 동작을 수행할 수 있다.

구체적으로 프로세서(100)는 그래프 데이터 베이스를 이용하여, 시계열에 따른 공간정보를 지오코딩할 수 있다.

프로세서(100)는 인터렉티브 지도 기반에 뉴스기간 및 키워드 기반를 검색조건으로 그래프로부터 질의(Query)를 수행할 수 있다.

프로세서(100)는 지도 위에 관련기사만을 추출하여 상황정보를 시각화할 수 있다. 이와 관련된 상세한 설명은 후술한다.

도 1에 도시된 뉴스 정보 구조화를 수행하는 서버의 구성 요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

한편, 도 1에서 도시된 각각의 구성요소는 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.

도2는 본 발명의 일 실시예에 따른 뉴스 정보 구조화 방법의 동작을 설명하기 위한 도면이다.

도2에서는 뉴스 정보 구조화 방법에 대한 전반적인 동작을 설명하고 이하에서 각 동작에 대한 상세한 설명을 제시한다.

도2를 참고하면 서버는 다른 언론사 서버를 웹크롤링하여 뉴스 정보를 수집할 수 있다(S21, S22).

뉴스 정보는 각 언론사 서버가 제공하는 API와 웹크롤링 기술을 통한 스크래핑을 통하여 이뤄질 수 있다. 이렇게 수집된 뉴스 정보는 자연어 처리(S23)와 개체명 인식(S24)을 통하여 키워드로 결정될 수 있다.

서버는 스크래핑된 뉴스 정보에 대하여 형태소 분석 및 구문 분석을 통하여 최소의 의미를 갖는 개체명, 즉 키워드로 산출할 수 있으며, 서버는 각 키워드 간의 관계, 즉 개체 관계를 추출할 수 있다(S25).

이어서 서버는 키워드에 대응되는 각 개체명과 개체 관계를 통하여 시간적 정보와 공간적 정보를 추출할 수 있다(S26, S27). 이러한 정보는 각 키워드에 매칭되는 태그로 형성될 수 있다.

키워드와 매칭된 키워드는 뉴스 빅데이터를 형성할 수 있다(S27).

빅데이터는 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 의미할 수 있다.

이러한 뉴스 빅데이터는 키워드 상호간의 관계가 표시된 그래프 데이터베이스로 형성될 수 있다.

서버는 이러한 데이터 베이스를 기초로 사용자가 입력한 키워드를 이용하여 키워드와 대응되는 시각화 이미지를 로드 할 수 있다.

즉, 서버는 사용자가 입력한 키워드에 대응하여 지능형 검색을 수행하여 지도를 로드 할 수 있고, 키워드 상에 대응되는 뉴스 정보를 지도상에 시각화하여 사용자에게 제공할 수 있다(S28).

이하에서는 이러한 본 발명의 동작에 대하여 상세하게 설명하도록 한다.

도3a은 본 발명의 일 실시예에 따른 뉴스 정보의 일 예시를 나타낸 도면이다.

서버는 복수의 언론사 서버 각각이 제공하는 API를 통하여 상기 뉴스 정보가 출력되는 웹 페이지를 스크래핑하고 뉴스 정보를 텍스트화 하여 추출할 수 있다.

서버는 도3a와 같이 언론사 서버에서 제공한 뉴스 정보를 언론사 서버가 제공하는APIs(Application Programming Interfaces)를 이용하여 주기적으로 수집할 수 있다.

이러한 뉴스 기사를 수집하는데 있어서 웹 크롤링 기술이 사용될 수 있다.

웹 크롤링 기술은, 웹을 탐색하는 컴퓨터 프로그램의 일종으로 검색 엔진과 같은 여러 사이트에서는 정보의 최신 상태 유지를 위해 이러한 웹 크롤링이 수행될 수 있다.

서버는 이러한 웹 크롤링을 통하여 웹사이트의 시작지점 URL들을 입력하여 링크된 웹 페이지들을 스크래핑하여 뉴스 정보를 텍스트 정보로 수집할 수 있다.

도3a에서는 태풍 바비에 관련된 뉴스 정보가 스크래핑되며 서버가 이를 수집할 수 있다.

또한 서버가 이러한 뉴스 정보를 수집하는데 있어서 웹페이지에서 구조화된 정보를 추출할 수 있다.

도3b는 본 발명의 일 실시예에 따른 뉴스 정보 상에서 최소 단위의 키워드를 추출하는 동작을 설명하기 위한 도면이다.

서버는 자연어 처리를 통하여 적어도 하나의 키워드에 해당하는 상기 뉴스 정보의 내용을 산출할 수 있다.

서버는 텍스트화된 상기 뉴스 정보의 형태소 분석 및 구문 분석을 수행하고, 뉴스 정보에 대응되는 문법 정보를 기초로 뉴스 정보를 최소한의 의미를 포함하는 적어도 하나의 키워드로 분할할 수 있다.

도3b에서는 서버가 도3a의 뉴스 정보에서 "수요일인 8월 26일 오전 2시 30분 현재 제8호 태풍 '바비'는 서귀포 남서쪽 310km 해상(31.1N, 128E)에서 시속 14km로 북서진 중이다."의 뉴스 정보를 텍스트화 하여 획득한 것을 나타내고 있다.

서버는 수집된 원문 기사를 자연어 처리를 통해 (예를 들어, BERT-CRF(Bidirectional Encoder Representation Transformers-Condition Random Field)) 형태소분석 및 구문분석을 수행할 수 있다.

또한 서버는 웹페이지 내용을 구문분석하고 구문분석된 정보(Parsed Data)로 항목을 추출할 수 있다.

서버는 뉴스 정보의 문장을 문법에 기초하여 문장의 구조를 파악하고 문자열을 분리하여 최소 의미를 갖는 키워드 단위로 분리한다.

도 3b에서는 태풍 바비의 이동을 포함한 정도로 뉴스 정보 각각을 "수요일인 8월 26일", "오전2시", "서귀포 남서쪽"등의 키워드로 분할할 수 있다.

한편 서버는 이렇게 분할한 키워드를 뉴스일자, 뉴스제목, 뉴스출처(뉴스매체), 웹주소(URL), 시작링크(링크된 기사인 경우 원래 출처의 URL)를 기본 필드로 하여 메모리에 저장할 수 있다. 이러한 뉴스 정보의 메타 정보는 상술한 뉴스 키워드가 동일한 경우에 각 키워드를 구별하는데 이용될 수 있다.

도4는 본 발명의 일 실시예에 따른 키워드에 매칭되는 태그를 설명하기 위한 도면이다.

도3b에서와 같이 뉴스 정보를 키워드로 분할한 경우에 각 키워드에 대한 정보를 도4에 제시된 태그와 매칭 시킬 수 있다.

서버는 뉴스 정보 상에서 시간 또는 공간에 대응되는 정보를 추출하여 미리 결정된 카테고리의 복수의 태그를 형성할 수 있다.

도4에서와 같이 태그는 시간적 정보를 나타내는 태그와 공간적 정보를 나타내는 태그로 분류될 수 있다.

구체적으로 시간적 정보에 대응되는 태그는 날짜(DAT), 시간(TIM) 및 기간(DUR)에 해당될 수 있으며 공간적 정보에 대응되는 태그는 지명(LOC) 및 기관명(ORG) 등이 해당될 수 있다.

서버는 추출한 뉴스 정보의 텍스트에 자연어처리 기법을 활용하여 시간과 공간에 관련된 개체명 인식(NER, named entity relation)을 통해 주요 정보를 개체명 형태로 인식하여 태그(tag)와 함께 추출하게 된다.

도3b와 도4를 함께 참고하면 도3b에 제시된 텍스트에서 "수요일인 8월 26일"은 시간적 정보의 "날짜"에 대응될 수 있다.

또한 "오전2시"는 시간적 정보의 "시간"에 대응되는 태그와 매칭될 수 있다.

"서귀포 남서쪽"과 같은 키워드는 공간적 정보 상에서 "지명"과 대응될 수 있다.

서버는 뉴스 정보로부터 추출한 키워드를 도4에서 제시한 미리 결정된 카테고리의 태그와 매칭 시켜 데이터 베이스를 형성할 수 있다.

이렇게 형성된 데이터 베이스는 후술하는 도5와 같은 키워드 상의 관계를 도출하는데 이용될 수 있다.

도5는 본 발명의 일 실시예에 따른 뉴스 정보의 키워드 상호 관계가 표시되는 데이터베이스를 나타낸 도면이다.

한편 키워드를 포함하는 데이터 베이스는 키워드 간의 관계가 표시되도록 형성될 수 있다.

구체적으로 서버가 복수의 태그를 기초로 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계는 사용자가 입력한 키워드인 제1키워드("바비")를 기준 개체로 결정하고, 제2키워드를 참조 개체로 결정하고, 제1키워드와 상기 제2키워드 각각에 매칭된 태그를 기초로 제1키워드와 제2키워드 상호간의 관계를 결정할 수 있다.

도5를 참고하면, 도5는 태풍 "바비"에 관련된 데이터베이스를 시각적으로 나타낸 것을 나타내고 있다.

서버는 그래프 데이터 베이스(Graph DB)를 이용하여 구문 분석된 키워드 항목들을 노드(Node)와 관계(Edge)를 통해 그래프(Graph) 형태로 생성하여 저장할 수 있다.

도5에서는 바비를 제1키워드로서 기준 개체로 결정하고 이와 연관된 "고위도, 한반도, 서귀포" 등을 공간 정보와 연관된 참조 객체로 산출하여 이와 관계를 나타내었다.

한편 기준 개체나 참조 개체가 동일 개체명의 경우는 수집된 기사의 뉴스일자, 뉴스제목, 뉴스출처(뉴스매체), 웹주소(URL)를 기준으로 해당 개체를 구별할 수 있다.

서버는 도5와 같은 데이터베이스를 통하여 키워드 패턴의 탐색, 추천 을 수행할 수 있다.

한편 일 실시예에 따른 그래프는 개념적으로 하기와 같이 정의될 수도 있다.

[수학식 1]

G = (N,E)

수학식1을 참고하면 G는 그래프를 나타내는 2차원 데이터를 의미하며, N은 개체 또는 키워드 각각이 생성하는 노드를 의미하고, E는 각 개체 또는 키워드 간의 관계를 연결하는 관계들(edges)의 집합을 의미할 수 있다.

한편 서버는 키워드에 대응되는 노드(node)는 각 태그로 추출된 개체 형성하고 키워드 사이의 간선(edge)의 굵기는 기사에서 한 문장안에서 언급된 개체들간의 빈도수를 가중치화하여 표현될 수 있다. 도5에서도 "바비"와 "한반도"사이의 관계는 굵게 표시되어 관계가 높은 키워드인 것을 나타내고 있으며, "바비"와 "강원중북부"의 키워드는 관계가 적어 ?薦? 선을 이용하여 표현되고 있다.

한편 도5에서 설명한 본 시각적 데이터 베이스는 본 발명의 일 실시예이며 서버가 형성하는 데이터 베이스의 형태의 제한은 없다.

도6은 본 발명의 일 실시예에 따른 시계열에 따른 지도 이미지 상에 뉴스 정보가 출력되는 동작을 설명하는 동작을 설명하기 위한 도면이다.

서버는 사용자가 입력한 키워드에 대한 공간 정보를 기초로 지도 이미지 상에 사용자가 입력한 키워드와 대응되는 뉴스 정보를 출력할 수 있다.

구체적으로 서버는 사용자가 키워드를 입력하면 키워드와 대응된 지도 이미지를 불러올 수 있다.

도6에서는 사용자가 "바비"와 같은 키워드를 입력한 경우로 바비와 대응되는 한반도의 지도 이미지(I61)를 출력한 것을 나타내고 있다.

또한 시계열에 따라 각 키워드에 대응되는 뉴스 정보를 지도 이미지 상에서 출력할 수 있다.

서버는 "바비"의 키워드와 관련하여 바비의 이동경로에 대응되는 지도 이미지와 한번도 이미지를 업로드한 것을 나타내고 있다.

구체적으로 바비와 연관된 뉴스 기사 중 2020년 8월 25일에 뉴스데이터를 지도 이미지 상에서 출력할 수 있다(I62).

또한 이어서 2020년 8월 26일(I63), 27일(I64) 및 28일(I64)에 대응되는 뉴스 정보를 시계열 적으로 출력할 수 있다.

즉 서버는 뉴스데이터에서 추출된 시간 및 공간정보를 기반으로 하는 그래프 데이터 베이스를 이용하여, 시계열에 따른 공간정보를 지오코딩할 수 있다.

서버는 키워드와 대응되는 관련기사 만을 추출하여 이에 대응되는 뉴스 정보를 지도 이미지에 시각화할 수 있다.

여기서 지오코딩은 좌표 참조(georeferencing) 후 이미지의 재배열(resampling)하는 동작을 의미할 수 있다.

이미지를 재배열하는데 있어서 에는 최근린 보간법(nearest neighborhood) 또는 공일차 보간법(bilinear interpolation) 등이 사용될 수 있다.

이러한 동작을 기초로 웹 뉴스 빅데이터를 이용한 태풍 상황정보를

서버는 빅데이터를 기반으로 태풍의 상황 정보를 지도 이미지와 매칭시켜 시각화를 통하여 사용자에게 제공할 수 있다.

특히, 실시간 모니터링을 필요로 하는 사회, 경제, 정치 주요 이슈들의 변화 뿐만 아니라 재해재난 상황 및 사건의 위치, 시간 정보가 중요하므로, 시간에 따라 상황변화를 지도와 연계하여 이를 추적 추적할 수 있다.

한편 도6에서 설명한 동작은 본 발명의 일 실시예에 불과하며 이러한 동작을 수행하는데 있어서 키워드의 형태나 이미지의 제한은 없다.

도7은 본 발명의 일 실시예에 다른 순서도이다.

도7을 참고하면 서버는 뉴스 기사를 수집할 수 있다(S801).

뉴스 기사를 수집하는데 있어 웹크롤링을 통한 스크래핑이 이용될 수 있다.

이어서 서버는 획득한 뉴스 정보를 텍스트화하고 텍스트화 한 데이터를 자연어 처리하여 키워드로 인식하고 키워드 상호간의 관계를 산출하는 자연어 처리 단계를 수행할 수 있다(S802).

한편 서버는 이러한 키워드를 이용하여 시공간 정보를 추출할 수 있다(S803).

서버는 이렇게 도출된 키워드와 태그를 매칭하여 빅데이터를 구축할 수 있다(S804).

이후 사용자에 의하여 키워드가 입력되면 서버는 키워드에 대응되는 뉴스 정보를 검색하고 지도 이미지에 매칭 시켜 시각화를 수행할 수 있다(S805).

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

10 : 뉴스 정보 구조화 수행 서버.
20 : 언론사 서버
100 : 프로세서
110 : 메모리

Claims

서버에 의해 수행되는 뉴스 정보 구조화 방법에 있어서,
복수의 언론사 서버 상의 뉴스 정보를 추출하는 단계;
상기 뉴스 정보를 적어도 하나의 키워드로 분할하는 단계;
자연어 처리를 통하여 상기 적어도 하나의 키워드에 매칭되는 상기 뉴스 정보의 내용을 산출하는 단계;
상기 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 복수의 태그와 매칭하는 단계;
상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계;
상기 적어도 하나의 키워드 상호간의 관계 정보가 시각화된 데이터 베이스를 형성하는 단계;
사용자가 입력 키워드를 입력하면, 상기 입력 키워드에 기초하여 상기 데이터 베이스 상에서 상기 입력 키워드에 대응되는 제1키워드 및 상기 제1키워드와 연관된 제2키워드를 결정하는 단계; 및
상기 제1키워드에 대응되는 지도 이미지를 결정하는 단계; 및
상기 지도 이미지 상에서 상기 제1키워드와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 단계;를 더 포함하는 뉴스 정보 구조화 방법.
제1항에 있어서,
상기 복수의 서버 상의 뉴스 정보를 추출하는 단계는,
상기 복수의 서버 각각이 제공하는 API(application programming interface)를 통하여 상기 뉴스 정보가 출력되는 웹 페이지를 스크래핑하고 상기 뉴스 정보를 텍스트화 하여 추출하는 단계;를 포함하는 뉴스 정보 구조화 방법.
제2항에 있어서,
상기 자연어 처리를 통하여 상기 적어도 하나의 키워드에 해당하는 상기 뉴스 정보의 내용을 산출하는 단계는,
텍스트화된 상기 뉴스 정보의 형태소 분석 및 구문 분석을 수행하는 단계; 및
상기 뉴스 정보에 대응되는 문법 정보를 기초로 상기 뉴스 정보를 최소한의 의미를 포함하는 상기 적어도 하나의 키워드로 분할하는 단계;를 포함하는 뉴스 정보 구조화 방법.
제1항에 있어서,
상기 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 미리 결정된 복수의 태그와 매칭하는 단계는,
상기 뉴스 정보 상에서 시간 또는 위치에 대응되는 정보를 추출하여 상기 미리 결정된 카테고리의 상기 복수의 태그를 형성하는 단계;를 포함하는 뉴스 정보 구조화 방법.
제4항에 있어서,
상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계는,
상기 제1키워드를 기준 개체로 결정하고,
상기 제2키워드를 참조 개체로 결정하고,
상기 제1키워드와 상기 제2키워드 각각에 매칭된 태그를 기초로 상기 제1키워드와 상기 제2키워드 상호간의 관계를 결정하는 뉴스 정보 구조화 방법.
제5항에 있어서,
상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하는 단계는,
상기 적어도 하나의 키워드가 상기 뉴스 정보 상에서 표시된 빈도수에 기초하여 상기 상호간의 관계에 가중치를 부여하는 단계;를 포함하는 뉴스 정보 구조화 방법.
제1항에 있어서,
상기 복수의 태그와 매칭된 분할된 상기 적어도 하나 키워드의 메타 정보를 추출하는 단계;를 더 포함하고,
상기 적어도 하나의 키워드 중 상호 동일한 키워드가 존재하면, 상기 적어도 하나의 키워드에 대응되는 상기 메타 정보를 기초로 상기 적어도 하나의 키워드 각각을 구별하는 뉴스 정보 구조화 방법.
제1항에 있어서,
상기 지도 이미지 상에서 상기 제1키워드와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 단계는,
상기 제1키워드에 대응되는 공간 정보를 기초로 상기 지도 이미지 상에 상기 제1키워드와 대응되는 상기 뉴스 정보를 출력하는 단계;를 포함하는 뉴스 정보 구조화 방법.
제1항에 있어서,
상기 지도 이미지 상에서 상기 제1키워드와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 단계는,
상기 제1키워드에 대응되는 시간 정보를 기초로 상기 지도 이미지 상에서 시계열적으로 상기 제1키워드와 대응되는 상기 뉴스 정보를 출력하는 단계;를 포함하는 뉴스 정보 구조화 방법.
뉴스 정보 구조화 방법을 수행하는 서버에 있어서,
적어도 하나의 메모리; 및
상기 적어도 하나의 메모리와 통신을 수행하는 적어도 하나의 프로세서;를 포함하고,
상기 적어도 하나의 프로세서는,
복수의 언론사 서버 상의 뉴스 정보를 추출하고, 상기 뉴스 정보를 적어도 하나의 키워드로 분할하고,
자연어 처리를 통하여 상기 적어도 하나의 키워드에 매칭되는 상기 뉴스 정보의 내용을 산출하고,
상기 뉴스 정보의 내용을 기초로 분할된 상기 적어도 하나의 키워드를 복수의 태그와 매칭하고,
상기 복수의 태그를 기초로 상기 분할된 상기 적어도 하나 키워드 상호간의 관계 정보를 산출하고,
상기 적어도 하나의 키워드 상호간의 관계 정보가 시각화된 데이터 베이스를 형성하고,
사용자가 입력 키워드를 입력하면, 상기 입력 키워드에 기초하여 상기 데이터 베이스 상에서 상기 입력 키워드에 대응되는 제1키워드 및 상기 제1키워드와 연관된 제2키워드를 결정하고,
상기 제1키워드에 대응되는 지도 이미지를 결정하고,
상기 지도 이미지 상에서 상기 제1키워드와 대응되는 상기 뉴스 정보를 상기 복수의 태그에 기초하여 출력하는 뉴스 정보 구조화 방법을 수행하는 서버.