KR20150041267A

KR20150041267A - 주제 기반 기사 연대기 생성 시스템

Info

Publication number: KR20150041267A
Application number: KR20130119445A
Authority: KR
Inventors: 이경일; 최광선; 신석호
Original assignee: 주식회사 솔트룩스
Priority date: 2013-10-07
Filing date: 2013-10-07
Publication date: 2015-04-16

Abstract

기사 연대기 생성 시스템이 개시된다. 본 발명의 예시적 실시예에 따른 기사 연대기 생성 시스템은 사용자가 네트워크를 통해서 열람하는 제1 기사의 제1 주제를 추출하는 주제 추출부, 상기 제1 주제와 유사한 주제를 갖는 기사를 포함하는 제1 기사 그룹을 생성하는 기사 식별부, 상기 제1 기사 그룹에 기초하여 적어도 하나의 시계열 그룹을 생성하는 시계열 분석부, 상기 시계열 그룹을 저장하는 시계열 그룹 저장부 및 상기 시계열 그룹에 기초하여 네트워크를 통해서 상기 사용자에게 기사 연대기를 제공하는 연대기 제공부를 포함할 수 있다.

Description

주제 기반 기사 연대기 생성 시스템{System for generating chronicle of article based on subject thereof}

본 발명의 기술적 사상은 기사 연대기 생성 시스템에 관한 것으로서, 자세하게는 기사로부터 도출된 주제를 이용하여 과거에서 현재까지 발행된 기사들로부터 기사 연대기를 생성하여 사용자에게 제공하는 주제 기반 기사 그룹화 시스템에 관한 것이다.

본 발명은 지식경제부 산업원천기술개발사업의 일환으로 숭실대학교 산학협력단에서 주관하고 (주)솔트룩스에서 공동연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2013.03.01~2014.02.28, 연구과제명: 모바일 플랫폼 기반 계획 및 학습 인지 모델 프레임워크 기술 개발, 과제번호: 10035348]

인터넷의 발달로 인하여, 예컨대 온라인 커뮤니티, 영화, 음악, 사진, 문서 등을 포함하는 다양한 컨텐츠들이 인터넷을 통해서 제공되고 있다. 컨텐츠의 일종으로서 종래 텔레비전, 라디오, 잡지 또는 신문등을 통해서 제공되던 기사 또한 인터넷을 통해서 제공되고 있으며, 인터넷의 접근성 및 신속성으로 인하여 많은 인터넷 사용자들은 인터넷을 통해서 제공되는 기사를 열람하고 있다.

한편, 기존 언론 매체들이 인터넷을 통해서 기사를 공급할 뿐만 아니라 인터넷을 기반으로 하는 언론 매체들이 등장하고 있으며, 인터넷을 통해서 기사를 제공하는 언론 매체의 수는 증가하는 추세에 있다. 이에 따라, 방대한 양의 기사들이 인터넷을 통해 공급되고 있으며, 짧은 시간 내에 많은 수의 기사들이 축적된다. 그 결과, 사용자가 현재 이슈가 되고 있는 사건에 대한 기사뿐만 아니라 과거의 사건에 대한 기사들을 열람하는 것은 점점 더 어려워지고 있다.

본 발명의 기술적 사상은 기사 연대기 생성 시스템에 관한 것으로서, 사용자가 열람하는 기사의 주제를 추출하고, 과거로부터 현재까지 발행된 기사들을 중 추출된 주제와 유사한 주제의 기사들을 식별하고, 식별된 기사들을 기초로 하는 기사 연대기를 사용자에게 제공하는 주제 기반 기사 연대기 생성 시스템에 관한 것이다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 예시적 실시예에 따른 주제 기반 기사 연대기 생성 시스템은 사용자가 네트워크를 통해서 열람하는 제1 기사의 제1 주제를 추출하는 주제 추출부, 상기 제1 주제와 유사한 주제를 갖는 기사를 포함하는 제1 그룹을 생성하는 기사 식별부, 상기 제1 그룹에 기초하여 적어도 하나의 시계열 그룹을 생성하는 시계열 분석부, 상기 시계열 그룹을 저장하는 시계열 그룹 저장부 및 상기 시계열 그룹에 기초하여 네트워크를 통해서 상기 사용자에게 기사 연대기를 제공하는 연대기 제공부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 주제 추출부는 상기 제1 기사로부터 적어도 하나의 주요 단어를 추출하는 단어 추출부 및 상기 주요 단어에 기초하여 상기 제1 주제를 생성하는 주제 생성부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 주제 추출부는 데이터 베이스에 저장된 제2 기사들의 제2 주제들을 추출할 수 있고, 상기 기사 식별부는 상기 제1 주제 및 제2 주제들 사이의 유사도에 기초하여 상기 제2 기사들 중 적어도 일부를 포함하는 제2 그룹을 생성하는 연관 기사 검색부 및 상기 제2 그룹의 중복된 기사들을 제거하여 상기 제1 그룹을 생성하는 중복 기사 처리부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 기사 식별부는 상기 제1 주제에 기초하여 상기 제1 기사가 상기 시계열 그룹 저장부에 미리 저장된 시계열 그룹에 포함되는지 판단하는 시계열 그룹 검색부를 더 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 연관 기사 검색부는 상기 제2 그룹에 포함된 기사들을 발행 시간의 내림차순으로 정렬할 수 있고, 상기 중복 기사 처리부는 발행 시간의 차이가 미리 정해진 값 이내에 있는기사들에 대해서 중복 여부를 판단하여 제거할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 시계열 분석부는 상기 제1 그룹에 포함된 기사의 발행 시간에 기초하여 상기 제1 그룹에 포함된 기사에 시간 레이블을 부가하는 시간 연관성 식별부, 동일한 상기 시간 레이블을 갖는 기사들을 그룹화하여 그룹 시간 레이블을 부가하는 상기 시계열 그룹을 생성하는 시계열 그룹 생성부 및 상기 시계열 그룹의 대표 기사를 식별하는 대표 기사 식별부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 시간 연관성 식별부는 현재 시간 및 상기 제1 그룹에 포함된 기사의 발행 시간 사이의 시간차를 계산하고 상기 시간차의 의사 로그 함수값에 기초하여 상기 시간 레이블을 부가할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 시계열 그룹 생성부는 동일한 상기 시간 레이블을 갖는 기사들의 주제들 사이의 유사도에 따라 동일한 상기 시간 레이블을 갖는 기사들을 2이상의 그룹들로 분할할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 대표 기사 식별부는 상기 제1 주제 및 상기 시계열 그룹에 포함된 기사들의 주제들 사이의 유사도에 기초하여 상기 대표 기사를 식별할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 연대기 제공부는 상기 대표 기사를 상기 시간 레이블의 내림차순으로 정렬하여 네트워크를 통해서 상기 사용자에게 제공할 수 있다.

상기 기사 연대기 생성 시스템에 따르면, 사용자는 열람하고 있는 기사의 주제와 동일 또는 유사한 주제를 갖는 기사들을 시간의 흐름에 따라 열람할 수 있고, 이에 따라 사용자는 기사가 다루고 있는 사건 또는 관련된 사건의 추이를 한눈에 확인할 수 있다.

도 1은 본 발명의 예시적 실시예에 따른 기사 연대기 생성 시스템의 일 예를 나타내는 도면이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 주제 추출부의 구현예를 나타내는 도면이다.
도 3은 본 발명의 예시적 실시예에 따른 도 2의 단어 추출부의 동작을 나타내는 도면이다.
도 4는 본 발명의 예시적 실시예에 따라 도 1의 기사 식별부의 구현예를 나타내는 도면이다.
도 5는 본 발명의 예시적 실시예에 따라 도 4의 연관 기사 검색부의 동작을 나타내는 도면이다.
도 6은 본 발명의 예시적 실시예에 따라 도 4의 중복 기사 처리부의 동작을 나타내는 도면이다.
도 7은 본 발명의 예시적 실시예에 따라 도 1의 시계열 분석부의 구현예를 나타내는 도면이다.
도 8은 본 발명의 예시적 실시예에 따라 도 7의 시간 연관성 식별부의 동작을 나타내는 도면이다.
도 9는 본 발명의 예시적 실시예에 따라 도 7의 시계열 그룹 생성부의 동작을 나타내는 도면이다.
도 10은 본 발명의 예시적 실시예에 따라 도 1의 연대기 제공부가 사용자에게 제공하는 기사 연대기를 나타내는 도면이다.
도 11은 본 발명의 예시적 실시예에 따라, 연대기 제공부가 제공하는 기사를 나타내는 도면이다.

이하에서는 본 발명의 바람직한 실시예가, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 철저한 이해를 제공할 의도 외에는 다른 의도 없이, 첨부한 도면들을 참조로 하여 상세히 설명될 것이다.

도 1은 본 발명의 예시적 실시예에 따른 기사 연대기 생성 시스템(10)의 일 예를 나타내는 도면이다. 도 1에 도시된 바와 같이, 기사 연대기 생성 시스템(10), 복수개의 데이터 베이스들(22, 24) 및 사용자(30)는 네트워크(40)를 통해서 서로 데이터를 주고 받을 수 있다. 사용자(30)는 네트워크(40)를 통해서 기사 연대기 생성 시스템(10)에 접속할 수 있다. 예컨대, 사용자(30)는 현재 열람하고 있는 기사에 대해여 기사 연대기를 생성시키는 명령을 기사 연대기 생성 시스템(10)에 네트워크(40)를 통해서 전달할 수 있고, 기사 연대기 생성 시스템(10)이 제공하는 기사 연대기를 네트워크(40)를 통해서 제공받을 수 있다. 기사 연대기 생성 시스템(10)은 기사 연대기를 생성하기 위하여 네트워크(40)를 통해서 데이터 베이스들(22, 24)에 접속할 수 있다.

데이터 베이스들(22, 24)은 복수개의 기사들을 저장할 수 있다. 예컨대, 제1 데이터 베이스(22)는 제1 언론 매체가 작성한 복수개의 기사들을 저장할 수 있고, 제2 데이터 베이스(24)는 제1 언론 매체와 다른 제2 언론 매체가 작성한 복수개의 기사들을 저장할 수 있다. 제1 및 제2 데이터 베이스(22, 24)에 저장된 기사들은 발행된 시간 정보를 포함하고 있고, 제1 및 제2 언론 매체가 새롭게 작성한 기사들은 제1 및 제2 데이터 베이스(22, 24) 각각에 업데이트될 수 있다. 한편, 사용자(30)는 네트워크(40)를 통해서 기사를 열람할 수 있고, 네트워크(40)에 접속할 수 있는 단말기, 예컨대 퍼스널 컴퓨터, 휴대용 통신 기기 등을 이용할 수 있다.

도 1에 도시된 바와 같이, 기사 연대기 생성 시스템(10)은 주제 추출부(100), 기사 식별부(200), 시계열 분석부(300), 연대기 제공부(400) 및 시계열 그룹 저장부(500)를 포함할 수 있다. 본 발명의 예시적 실시예에 따라, 주제 추출부(100)는 사용자(30)가 열람하고 있는 제1 기사의 제1 주제를 추출할 수 있다. 또한 주제 추출부(100)는 네트워크(40)를 통해서 데이터 베이스들(22, 24)에 저장된 제2 기사들을 엑세스할 수 있고, 제2 기사들의 제2 주제들을 추출할 수 있다. 제1 기사는 사용자(30)가 열람하고 있는 기사로서, 사용자(30)는 네트워크(40)를 통해서 데이터 베이스들(22, 24)에 엑세스하거나, 기사 연대기 생성 시스템(10)에 엑세스 하여 제1 기사를 열람할 수 있다. 한편, 제2 기사들는 데이터 베이스들(22, 24)에 저장된 기사들로서, 언론 매체들이 작성하여 저장한 기사들의 전부 또는 일부를 포함할 수 있다. 주제 추출부(100)가 추출하는 기사의 주제는 적어도 하나의 단어를 포함할 수 있고, 주제 추출부(100)는 기사로부터 주요 단어를 추출하여 기사의 주제를 생성할 수 있다.

기사 식별부(200)는 주제 추출부(100)가 추출한 제1 주제 및 제2 주제들에 기초하여 제1 주제와 유사한 주제를 갖는 기사를 식별할 수 있고, 식별된 기사들을 그룹화하여 제1 그룹을 생성할 수 있다. 예컨대, 기사 식별부(200)는 제2 기사들 가운데 제1 주제와 유사한 주제를 갖는 기사들을 검색할 수 있고, 검색된 기사들 가운데 중복되는 기사들을 제거하여 제1 그룹을 생성할 수 있다. 본 발명의 예시적 실시예에 따라, 기사 식별부(200)가 중복된 기사를 제거하는 경우 기사의 발행 시간 정보를 이용할 수 있다.

시계열 분석부(300)는 기사 식별부(200)가 생성한 제1 그룹에 기초하여 적어도 하나의 시계열 그룹을 생성할 수 있다. 예컨대, 시계열 분석부(300)는 제1 그룹에 포함된 기사들의 주제 및 발생 시간에 따라 제1 그룹에 포함된 기사들 중 일부를 포함하는 시계열 그룹을 생성할 수 있다. 또한, 시계열 분석부(300)는 제1 주제 및 시계열 그룹에 포함된 기사들의 주제들에 기초하여 시계열 그룹의 대표 기사를 식별할 수 있다.

시계열 그룹 저장부(500)는 시계열 분석부(300)가 생성한 시계열 그룹을 저장할 수 있다. 시계열 그룹 저장부(500)가 저장하는 시계열 그룹은 연대기 제공부(400)가 네트워크(40)를 통해서 사용자(30)에게 기사 연대기를 제공하는데 사용될 수 있다. 또한, 기사 식별부(200)가 제1 기사의 제1 주제와 유사한 주제의 시계열 그룹이 이미 생성되어 시계열 그룹 저장부(500)에 저장되어 있는지 판단하기 위하여, 시계열 그룹 저장부(500)는 기사 식별부(200)에 의해 엑세스될 수 있다.

연대기 제공부(400)는 시계열 분석부(500)는 시계열 그룹 저장부(500)에 저장된 하나 이상의 시계열 그룹을 기초로 하여 제1 기사의 기사 연대기를 생성할 수 있고, 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 예컨대, 연대기 제공부(40)는 시계열 그룹의 대표 기사들을 시계열 그룹의 시간 정보에 따라 시간의 내림차순 또는 오름차순으로 정렬하여 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다.

도 2는 본 발명의 예시적 실시예에 따라 도 1의 주제 추출부(100)의 구현예를 나타내는 도면이다. 도 2에 도시된 바와 같이, 주제 추출부(100)는 단어 추출부(120) 및 주제 생성부(140)를 포함할 수 있다. 도 1을 함께 참조하면, 사용자(30)가 열람하는 제1 기사 또는 데이터 베이스들(22, 24)에 저장된 기사로부터 추출되는 주제는 적어도 하나의 단어를 포함할 수 있다. 단어 추출부(120)는 기사에 포함된 단어들 가운데 적어도 하나의 주요 단어를 추출할 수 있다. 예컨대, 단어 추출부(120)는 기사에 포함된 단어의 빈도에 기초하여 주요 단어를 추출하거나, 제목에 포함된 단어를 주요 단어로서 추출할 수 있다. 이를 위하여, 단어 추출부(120)는 문장의 구조를 분석하여 개별적인 단위로 분류할 수 있는 파서(parser)를 포함할 수 있다. 단어 추출부(120)는 파서가 분류한 단위들에 기초하여 단어의 빈도를 카운트할 수 있다. 이때, 문장에 포함된 부수적인 요소들, 예컨대 조사 및 관용어 등은 배제될 수 있다.

한편, 본 발명의 예시적 실시예에 따라 단어 추출부(120)는 기사의 제목이나 본문에 포함된 단어들 중 시간을 나타내는 단어를 추출할 수 있다. 예컨대, 사용자(30)가 열람하는 제1 기사는 제1 기사가 발행된 시점으로부터 과거 또는 미래의 어느 시점을 언급하는 내용을 포함할 수 있다. 이와 같이 시간을 나타내는 단어는 제1 기사와 관련된 사건의 시점을 나타내는 정보로서 시계열 분석부(300)에서 이용될 수 있다.

주제 생성부(140)는 단어 추출부(120)가 추출한 주요 단어에 기초하여 기사의 주제를 생성할 수 있다. 본 발명의 예시적 실시예에 따라, 주제 생성부(140)는 단어 추출부(120)가 추출한 주요 단어들을 분석하여 미리 정해진 개수의 단어들을 미리 정해진 순서로서 배열하여 주제를 생성할 수 있다. 예컨대, 주제 생성부(140)는 단어 추출부(120)로부터 인물의 실명이 주요 단어로서 추출된 경우, 상기 실명이 주제의 가장 앞에 위치하도록 주요 단어들을 배열할 수 있다. 또한, 주제 생성부(140)는 기사가 포함하는 단어의 빈도에 기초하여 단어 벡터들을 생성할 수 있다. 단어 벡터에 대한 자세한 내용은 후술한다.

한편, 본 발명의 예시적 실시예에 따라 주제 생성부(140)는 데이터 베이스들(22, 24)에 저장된 기사의 분야에 따라 주제를 분류할 수 있다. 언론 매체들은 데이터 베이스들(22, 24)에 기사들을 저장할 때 기사의 분야, 예컨대 정치, 경제, 사회, 스포츠 또는 연예등을 분류하여 저장할 수 있다. 이에 따라, 주제 생성부(140)는 데이터 베이스들(22, 24)에 저장된 기사의 분야를 나타내는 단어를 기사 주제에 포함시킬 수 있다. 기사 주제에 포함된 기사의 분야를 나타내는 단어는 동일한 분야의 기사들 사이의 연관성을 보다 높일 수 있다.

도 3은 본 발명의 예시적 실시예에 따른 도 2의 단어 추출부(120)의 동작을 나타내는 도면이다. 도3에 도시된 2개의 표들은 각각 2개 기사를 분석한 데이터를 나타낸다. 도 2에서 설명한 바와 같이, 단어 추출부(120)는 기사에 포함된 단어의 빈도에 기초하여 주요 단어를 추출할 수 있다. 또한, 제목에 포함된 단어를 주요 단어로서 추출할 수 있다. 도 3에 도시된 표에서 좌측 열은 단어를 나타내고, 가운데 열은 기사에 포함된 단어의 수를 나타내며, 우측 열은 기사의 제목에 단어가 포함되었는지 여부를 나타낸다. 도 3은 각각의 기사에서 5개의 단어에 대한 빈도 및 제목에 포함 여부만을 도시하였으나, 본 발명의 예시적 실시예는 이에 제한되지 않는다.

도 3에 도시된 바와 같이, 제1 기사(A1)에서 “홍길동”은 5회, “PGA”및 “우승”은 각각 3회, “캘리포니아” 및 “골프”는 각각 1회 등장한다. 또한, “홍길동”, “PGA” 및 “우승”은 제1 기사(A1)의 제목에 포함되어 있다. 한편, 제2 기사(A2)에서 “홍길동”은 6회, “PGA”는 4회, “4회”는 2회, “캘리포니아”는 1회 등장하며, “홍길동”, “우승”, “PGA” 및 “4회”는 제2 기사(A2)의 제목에 포함되어 있다.

본 발명의 예시적 실시예에 따라, 단어 추출부(120)는 제1 기사(A1) 및 제2 기사(A2)로부터 도 3에 도시된 표들과 같은 데이터를 생성할 수 있고, 생성된 데이터에 기초하여 제1 기사(A1) 및 제2 기사(A2)의 주요 단어를 각각 추출할 수 있다. 예컨대, 단어 추출부(120)는 기사의 제목에 포함된 단어를 주요 단어로 추출하고, 빈도 상위 3개 또는 그 이상의 의 단어를 주요 단어로 추출할 수 있다. 즉, 도 3에 도시된 예시에서, 단어 추출부(120)는 제1 기사(A1)의 주요 단어로서 “홍길동”, “PGA” 및 “우승”은 주요 단어로서 추출할 수 있다. 또한, 단어 추출부(120)는 제2 기사(A2)의 주요 단어로서 “홍길동”, “우승”, “PGA” 및 “4회”를 주요 단어로서 추출할 수 있다.

도 4는 본 발명의 예시적 실시예에 따라 도 1의 기사 식별부(200)의 구현예를 나타내는 도면이다. 도 4에 도시된 바와 같이, 기사 식별부(200)는 시계열 그룹 검색부(220), 연관 기사 검색부(240) 및 중복 기사 처리부(260)를 포함할 수 있다. 도 2를 함께 참조하면, 시계열 그룹 검색부(220)는 주제 추출부(100)의 주제 생성부(140)가 생성한 제1 기사의 제1 주제에 기초하여, 시계열 그룹 저장부(500)에 저장된 적어도 하나의 시계열 그룹 중 제1 기사와 연관된 시계열 그룹을 검색할 수 있다. 이미 생성된 시계열 그룹을 이용함으로써, 연관 기사 검색부(240), 중복 기사 제거부(260) 및 시계열 분석부(300)의 제1 기사에 대한 동작이 생략될 수 있다.

연관 기사 검색부(240)는 제1 기사의 제1 주제와 제2 기사들의 제2 주제들 사이의 유사도에 기초하여 제1 기사와 연관된 기사를 포함하는 제2 그룹을 생성할 수 있다. 예컨대, 연관 기사 검색부(240)는 제1 주제와 제2 주제들 사이의 유사도를 연산하는 유사도 연산부를 포함할 수 있다. 연관 기사 검색부(240)는 미리 정해진 문턱값을 초과하는 유사도가 연산된 기사를 제2 그룹에 포함시킬 수 있다. 또한, 연관 기사 검색부(240)는 제2 그룹에 포함된 기사들을 발행 시간에 따라 내림차순 또는 오름차순으로 정렬할 수 있다. 연관 기사 검색부(240)가 유사도를 연산하는 것에 대한 자세한 내용은 후술된다.

중복 기사 제거부(260)는 연관 기사 검색부(240)가 생성한 제2 그룹에서 중복된 기사들을 제거하여 제1 그룹을 생성할 수 있다. 하나의 사건에 대하여 복수개의 언론 매체들에서 작성한 기사들이 존재할 수 있으며, 그 중 내용의 유사도가 매우 높은 기사들이 존재할 수 있다. 예컨대, 다른 언론 매체에서 작성한 기사를 인용하는 기사들의 경우 사용자(30)에게 제거하는 것이 바람직하다. 제2 그룹은 연관 기사 검색부(240)가 제1 기사의 제1 주제와 유사한 주제를 갖는 기사들을 데이터 베이스들(22, 24)에 저장된 제2 기사들로부터 검색하여 그룹화한 것으로서, 서로 내용의 유사도가 높은 기사들을 포함할 수 있다. 중복 기사 제거부(260)는 제2 그룹에 포함된 이러한 중복된 기사들을 제거함으로써 최종적으로 제1 그룹을 생성할 수 있다.

본 발명의 예시적 실시예에 따라, 중복 기사 제거부(260)는 발행 시간의 내림치순으로 정렬된 제2 그룹의 기사들에서 발행 시간의 차이가 미리 정해진 값 이내에 있는 기사들에 대해서 중복 여부를 판단할 수 있다. 특정 사건에 대한 기사는 그 사건이 발생한 시점과 가까운 시점에서 작성되므로, 발행 시간의 차이가 미리 정해진 기간(예컨대, 2일)을 초과하는 기사들은 서로 다른 사건을 다루는 것으로 간주되어 중복 여부를 판단하지 않을 수 있다. 이에 따라, 중복 기사 제거부(260)의 연산량이 감소할 수 있다.

도 5는 본 발명의 예시적 실시예에 따라 도 4의 연관 기사 검색부(240)의 동작을 나타내는 도면이다. 도 4에서 설명한 바와 같이, 연관 기사 검색부(240)는 제1 기사의 제1 주제와 유사한 주제를 갖는 기사를 포함하는 제2 그룹을 생성할 수 있다. 도 5에 도시된 바와 같이, 연관 기사 검색부(240)는 제1 기사(A1)와 제2 기사들(A2-1 내지 A2-N) 각각의 유사도를 연산할 수 있다. 구체적으로, 연관 기사 검색부(240)에 포함된 유사도 연산부는 제1 기사(A1)의 제1 주제와 제2 기사들(A2-1 내지 A2-N) 중 하나(이하에서, 제2 기사(A2)라고 한다)의 주제(즉, 제2 주제들 중 하나)의 유사도를 연산할 수 있다.

도 3을 함께 참조하면, 단어 추출부(120)가 생성한 데이터, 예컨대 단어의 빈도 및 제목에 포함여부에 대한 정보는 기사 식별부(200)의 연관 기사 검색부(240)가 기사들 사이의 유사도를 연산하는데 사용될 수도 있다. 예컨대, 연관 기사 검색부(220)는 제1 기사(A1)의 제1 주제 및 제2 기사(A2)의 제2 주제 사이의 유사도를 연산하기 위하여, 단어 추출부(120)가 추출한 주요 단어 가운데 제1 기사(A1) 및 제2 기사(A2)에 공통적으로 포함되는 주요 단어의 빈도를 연산할 수 있다. 즉, 도 3에 도시된 실시예에서, 연관 기사 검색부(220)는 아래와 같은 수학식을 통해서 제1 기사(A1) 및 제2 기사(A2)의 유사도를 연산할 수 있다.

[수학식 1]

(5×6) + (3×3) + (3×4) = 51

상기 수학식 1에서, 첫 번째 항은 제1 기사(A1) 및 제2 기사(A2)에 각각 포함된 “홍길동”의 개수들의 곱이고, 두 번째 및 세 번째 항은 각각 “우승” 및 “PGA”의 개수들의 곱이다. 한편, 연관 기사 검색부(240)는 제목에 포함된 주요 단어의 경우 가중치를 더하거나 곱할 수 있다. 이에 따라 계산된 값이 높을 수록 기사들 사이의 유사도가 높은 것으로 판단될 수 있다. 도 5에 도시된 바와 같이, 연관 기사 검색부(220)는 제2 기사들(A2-1 내지 A2-N)에 각각과 제1 기사와의 유사도를 연산할 수 있고, 제2 기사들(A2-1 내지 A2-N) 중 미리 정해진 문턱값 보다 높은 유사도를 갖는 기사들을 그룹화하여 제2 그룹을 생성할 수 있다.

도 6은 본 발명의 예시적 실시예에 따라 도 4의 중복 기사 처리부(260)의 동작을 나타내는 도면이다. 중복 기사 처리부(260)는 제2 그룹에 포함된 기사들의 주제들 사이의 유사도에 기초하여 제2 그룹에서 중복된 기사를 제거할 수 있다. 예컨대, 도 6에 도시된 바와 같이, 6개의 기사들(B1 내지 B6)을 포함하는 제2 그룹에 있어서 중복 기사 처리부(240)는 6개 기사들(B1 내지 B6) 사이의 유사도를 연산할 수 있다.

도 6에서 6개의 기사들(B1 내지 B6)은 6개의 노드들로 표현된다. 6개의 노드들은 각각 5개의 에지들을 통해서 자신과 다른 5개의 노드들에 연결될 수 있다. 예컨대, 기사(B1)를 나타내는 노드는 5개의 기사들(B2 내지 B6)를 나타내는 노드들과 5개의 에지들을 통해서 연결될 수 있다. 도 6에 도시된 에지들은 각각 고유한 값을 가지고 있으며, 에지들이 갖는 값은 2개 기사들 사이의 유사도를 나타낼 수 있다. 예컨대, 기사(B1)를 나타내는 노드와 기사(B2)를 나타내는 노드를 연결하는 에지는 상기 수학식 1에 따라 계산된 유사도를 가질 수 있다. 미리 정해진 값을 초과하는 유사도를 갖는 에지의 경우, 중복 기사 처리부(260)는 그러한 에지 양단의 기사들을 서로 중복된 기사들로서 판단할 수 있고, 그 중 하나의 기사를 제거할 수 있다. 한편, 도 6은 중복 기사 처리부(260)의 동작의 예시일 뿐이며, 본 발명의 예시적 실시예에 따라 중복 기사 처리부(260)는 도 9에 도시된 바와 같이 단어 벡터를 이용하여 중복된 기사를 제거할 수 있다.

도 7은 본 발명의 예시적 실시예에 따라 도 1의 시계열 분석부(300)의 구현예를 나타내는 도면이다. 도 7에 도시된 바와 같이, 시계열 분석부(300)는 시간 연관성 식별부(320), 시계열 그룹 생성부(340) 및 대표 기사 식별부(360)를 포함할 수 있다. 시간 연관성 식별부(320)는 도 1의 기사 식별부(200)가 생성한 제1 그룹에 포함된 기사들의 발행 시간에 기초하여 제1 그룹에 포함된 기사들에 시간 레이블을 부가할 수 있다. 이에 따라, 제1 그룹에 포함된 하나 이상의 기사들이 동일한 시간 레이블에 대응할 수 있다.

시계열 그룹 생성부(340)는 제1 그룹에 포함된 기사들의 주제 및 시간 연관성 식별부(320)가 부가한 시간 레이블에 기초하여 시계열 그룹을 생성할 수 있다. 시간 연관성 식별부(320)가 부가한 시간 레이블에 따라, 제1 그룹의 기사들은 시간의 흐름에 따라 구분될 수 있다. 시계열 그룹 생성부(340)는 이와 같이 시간의 흐름에 따라 구분된 기사들을 그 기사들의 주제들에 기초하여 선택적으로 하위 그룹으로 분할할 수 있다. 하위 그룹에 포함된 기사들은 새로운 시간 레이블이 부가되며, 시계열 그룹 생성부(340)는 최종적으로 생성된 그룹들에 시간 레이블을 부가하여 시계열 그룹을 생성할 수 있다.

대표 기사 식별부(360)는 시계열 그룹 생성부(340)가 생성한 시계열 그룹에 포함된 기사들 중 시계열 그룹의 대표 기사를 식별할 수 있다. 예컨대, 대표 기사 식별부(360)는 시계열 그룹에 포함된 기사들 중 제1 주제와 가장 유사도가 높은 주제를 갖는 기사 또는 유사도가 미리 정해진 값을 초과하고 발생 시간이 가장 빠른 기사를 대표 기사로서 식별할 수 있다. 대표 기사 식별부(360)가 식별한 대표 기사는 시계열 그룹의 내용을 사용자(30)에게 한눈에 나타내는 것으로서, 기사 연대기 제공부(400)에 의해 네트워크(40)를 통해서 사용자(30)에게 제공될 수 있다.

도 8은 본 발명의 예시적 실시예에 따라 도 7의 시간 연관성 식별부의 동작을 나타내는 도면이다. 도 4에서 설명한 바와 같이, 연관 기사 검색부(240)는 제2 그룹의 기사들을 발행 순서에 따라 내림차순으로 정렬할 수 있고, 중복 기사 처리부(260)는 제2 그룹의 중복된 기사들이 제거된 제1 그룹을 생성할 수 있다. 시간 연관성 식별부(320)는 제1 그룹에 포함된 기사들의 시간적 연관성을 식별하기 위하여, 제1 그룹에 포함된 기사들을 시간축에 나열할 수 있다.

한편, 현재로부터 먼 시기에 발행된 기사들 보다 현재와 가까운 시기에 발행된 기사들을 더 많이 사용자(30)에게 제공하기 위하여, 본 발명의 예시적 실시예에 따라 시간 연관성 식별부(320)는 현재로부터 발행된 시간의 시간차에 가중치를 부가할 수 있다. 예컨대, 시간 연관성 식별부(320)는 현재 시간 및 제1 그룹에 포함된 기사들의 발생 시간 사이의 시간차를 계산할 수 있다. 시간 연관성 식별부(320)는 계산된 시간차의 의사 로그 함수값에 따라 제1 그룹에 포함된 기사들을 나열할 수 있다. 다시 말해서, 시간 연관성 식별부(320)는 의사 로그 스케일의 시간축 상에 제1 그룹에 포함된 기사들의 시간차에 따라 나열할 수 있다.

도 8에 도시된 바와 같이, 시간 연관성 식별부(320)는 로그 스케일의 가로방향 시간축 상에 제1 그룹에 포함된 기사들을 발행 시간에 따라 나열될 수 있다. 시간 연관성 식별부(320)는 나열된 기사들을 일정한 가로방향 길이 마다 분할할 수 있고, 분할된 기사들에 시간 레이블(T1 내지 T5)를 부가할 수 있다. 다시 말해서, 시간 연관성 식별부(320)는 기사의 시간차에 대한 의사 로그 함수값을 일정한 값의 배수를 경계로 그룹화할 수 있고, 시간 레이블(T1 내지 T5)를 부가할 수 있다. 예컨대, 현재가 10월 1일 오후 6시라고 가정하는 경우, 시간 연관성 식별부(320)는 10월 1일 오후 5시부터 현재까지(즉, 1시간 사이)발행된 기사들에 대하여 10월 1일 오후 6시에 대응하는 시간 레이블을 부가할 수 있다. 또한, 시간 연관성 식별부(320)는 10월 1일 오전 8시부터 오후 5시 사이(즉, 9시간 사이)에 발행된 기사들에 대하여 10월 1일 오후 5시에 대응하는 시간 레이블을 부가할 수 있고, 9월 28일 0시부터 10월 1일 오전 8시 사이(즉, 81시간 사이)에 발행된 기사들에 대하여 10월 1일 오전 8시에 대응하는 시간 레이블을 부가할 수 있다. 이에 따라, 제1 그룹에 포함된 기사들은 시간 레이블에 따라 그룹화될 수 있다.

도 9는 본 발명의 예시적 실시예에 따라 도 7의 시계열 그룹 생성부(340)의 동작을 나타내는 도면이다. 도 7에서 설명한 바와 같이, 시계열 그룹 생성부(340)는 시간 연관성 식별부(320)가 시간 레이블을 부가한 제1 그룹에서 기사들의 주제들 사이의 유사도에 기초하여 동일한 시간 레이블을 갖는 기사들을 하위 그룹으로 선택적으로 분할하고 새로운 시간 레이블로 변경할 수 있다. 시계열 그룹 생성부(340)는 각각의 동일한 시간 레이블을 갖는 기사들을 그룹화하여 그룹 시간 레이블을 부가함으로써 시계열 그룹을 생성할 수 있다. 즉, 시계열 그룹은 그룹 시간 레이블을 포함하고, 그룹 시간 레이블과 동일한 시간 레이블을 갖는 기사들을 포함할 수 있다.

시계열 그룹 생성부(340)는 동일한 시간 레이블을 갖는 기사들에 있어서, 기사의 주제에 따라 기사를 좌표에 나타낼 수 있다. 예컨대, 도 9의 2차원 좌표에서 X축은 제1 단어의 빈도를 나타내고, Y축은 제2 단어의 빈도를 나타낸다. 동일한 시간 레이블을 갖는 6개의 기사들(C1 내지 C6)은 각각 기사의 주제에 포함된 제1 단어 및 제2 단어가 나타난 빈도(또는 각각의 기사에 포함된 제1 단어 및 제2 단어의 개수)에 따라 2차원 좌표에서 하나의 지점으로 나타날 수 있다. 다시 말해서, 기사는 원점에서부터 자신의 좌표에 이르는 벡터로서 정의 될 수 있으며, 이러한 벡터를 단어 벡터라고 부른다. 기사는 단어 벡터로서 인덱싱 될 수 있다. 예컨대, 도 9에 도시된 바와 같이, 기사(C3)는 단어 벡터(V3)로서 인덱싱될 수 있다.

시계열 그룹 생성부(340)는 좌표에 표시된 기사들의 상대적인 거리에 기초하여 기사들을 그룹화할 수 있다. 즉, 시계열 그룹 생성부(340)는 미리 정해진 문턱값 보다 가까운 거리에 있는 기사들을 그룹화할 수 있다. 예컨대, 도 9에 도시된 바와 같이, 시계열 그룹 생성부(340)는 기사들(C1 내지 C6)를 좌표에 표시할 수 있다. 시계열 그룹 생성부(340)는 2개 기사들(C1, C6)를 하위 그룹(SG1)으로 그룹화할 수 있고, 3개 기사들(A2, A4, A5)를 하위 그룹(SG2)으로 그룹화할 수 있다. 비록 도 9는 축을 포함하는 2차원의 좌표를 도시하였지만, 본 발명의 예시적 실시예는 이에 제한되지 않으며 시계열 그룹 생성부(40)는 3차원 이상의 좌표에 표시된 복수개의 기사들에 대하여 상대적인 거리를 미리 정해진 문턱값과 비교하여 기사들을 하위 그룹으로 그룹화할 수 있다.

그 다음에, 시계열 그룹 생성부(340)는 하나의 하위 그룹에 포함된 기사들의 발행 시기에 따라 시간 연관성 식별부(320)에 의해 부가된 시간 레이블을 새로운 시간 레이블로 선택적으로 변경할 수 있다. 시계열 그룹 생성부(340)는 최종적으로 동일한 시간 레이블을 갖는 기사들을 하나의 시계열 그룹에 포함시키고, 시계열 그룹의 시간 레이블로서 그 기사들의 시간 레이블과 동일한 그룹 시간 레이블을 부가함으로써 시계열 그룹을 생성할 수 있다.

한편, 본 발명의 예시적 실시예에 따라 시계열 그룹의 그룹 시간 레이블은 대표 기사 식별부(360)가 식별한 대표 기사의 발행 시간으로 대체될 수 있다. 도 7을 참조하면, 대표 기사 식별부(360)는 시계열 그룹 생성부(340)에 의해 생성된 시계열 그룹에 포함되는 기사들 중 대표 기사를 식별할 수 있다. 추가적으로 본 실시예에서, 대표 기사 식별부(360)는 식별된 대표 기사의 발행 시간을 시계열 그룹의 그룹 시간 레이블로서 대체할 수 있다.

도 10은 본 발명의 예시적 실시예에 따라 도 1의 연대기 제공부(400)가 사용자(30)에게 제공하는 기사 연대기를 나타내는 도면이다. 도 1 및 10을 함께 참조하면, 연대기 제공부(400)는 시계열 그룹 저장부(500)에 저장된 시계열 그룹에 기초하여 제1 기사와 관련된 기사 연대기를 사용자(30)에게 제공할 수 있다. 예컨대, 도 10에 도시된 바와 같이, 연대기 제공부(400)는 복수개의 시계열 그룹들(1100, 1200, 1300, 1400)을 각각의 그룹 시간 레이블에 따라 정렬한 기사 연대기를 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 연대기 제공부(400)는 타임라인(1500) 상에 시계열 그룹들(1100, 1200, 1300, 1400) 각각의 그룹 시간 레이블을 표시할 수 있다.

본 발명의 예시적 실시예에 따라, 연대기 제공부(400)는 시계열 그룹의 대표 기사를 사용자에게 제공할 수 있다. 도 10에 도시된 바와 같이, 연대기 제공부(400)는 시계열 그룹들(1100, 1200, 1300, 1400)의 대표 기사들의 제목을 타임라인(1500) 상의 그룹 시간 레이블에 대응하도록 위치시켜 사용자(30)에게 제공할 수 있다. 사용자(30)는 네트워크(40)를 통해서 복수개의 시계열 그룹들 각각의 대표 기사들을 한눈에 볼 수 있으며, 대표 기사 제목을 확인하여 원하는 시계열 그룹들(1100, 1200, 1300, 1400) 중 원하는 시계열 그룹을 용이하게 선택할 수 있다. 한편, 도 10에 도시된 바와 같이, 연대기 제공부(400)가 제공하는 기사 연대기의 소스가 된 제1 기사의 제목이 상단에 표시될 수 있다.

도 11은 본 발명의 예시적 실시예에 따라, 연대기 제공부(400)가 제공하는 기사를 나타내는 도면이다. 사용자(30)가 네트워크(40)를 통해서 연대기 제공부(400)가 제공한 복수개의 시계열 그룹들 중 하나를 선택하면, 연대기 제공부(400)는 선택된 시계열 그룹에 포함된 기사를 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 예컨대, 도 11에 도시된 바와 같이 연대기 제공부(400)는 화면의 가장 넓은 공간에 선택된 시계열 그룹의 대표 기사(2200), 즉 대표 기사(2200)의 제목(2220) 및 본문(2240)을 표시할 수 있다. 또한, 연대기 제공부(400)는 선택된 시계열 그룹에 포함된 대표 기사를 제외한 다른 기사들의 제목들에 대한 목록(2400)을 나열할 수 있다. 사용자(30)가 네트워크(40)를 통해서 목록(2400)의 기사들 중 하나를 선택하는 경우, 선택된 기사의 제목 및 본문이 대표 기사(2200)의 제목(2220) 및 본문(2240)을 대체하여 표시될 수 있다.

상기한 실시예의 설명은 본 발명의 더욱 철저한 이해를 위하여 도면을 참조로 예를 든 것에 불과하므로, 본 발명을 한정하는 의미로 해석되어서는 안될 것이다. 또한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기본적 원리를 벗어나지 않는 범위 내에서 다양한 변화와 변경이 가능함은 명백하다 할 것이다.

Claims

사용자가 네트워크를 통해서 열람하는 제1 기사의 제1 주제를 추출하는 주제 추출부;
상기 제1 주제와 유사한 주제를 갖는 기사를 포함하는 제1 그룹을 생성하는 기사 식별부;
상기 제1 그룹에 기초하여 적어도 하나의 시계열 그룹을 생성하는 시계열 분석부;
상기 시계열 그룹을 저장하는 시계열 그룹 저장부; 및
상기 시계열 그룹에 기초하여 네트워크를 통해서 상기 사용자에게 기사 연대기를 제공하는 연대기 제공부를 포함하는 주제 기반 기사 연대기 생성 시스템.
제1항에 있어서, 상기 주제 추출부는
상기 제1 기사로부터 적어도 하나의 주요 단어를 추출하는 단어 추출부; 및
상기 주요 단어에 기초하여 상기 제1 주제를 생성하는 주제 생성부를 포함하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제1항에 있어서,
상기 주제 추출부는 데이터 베이스에 저장된 제2 기사들의 제2 주제들을 추출하고,
상기 기사 식별부는
상기 제1 주제 및 제2 주제들 사이의 유사도에 기초하여 상기 제2 기사들 중 적어도 일부를 포함하는 제2 그룹을 생성하는 연관 기사 검색부; 및
상기 제2 그룹의 중복된 기사들을 제거하여 상기 제1 그룹을 생성하는 중복 기사 처리부를 포함하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제3항에 있어서,
상기 기사 식별부는 상기 제1 주제에 기초하여 상기 제1 기사가 상기 시계열 그룹 저장부에 미리 저장된 시계열 그룹에 포함되는지 판단하는 시계열 그룹 검색부를 더 포함하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제3항에 있어서,
상기 연관 기사 검색부는 상기 제2 그룹에 포함된 기사들을 발행 시간의 내림차순으로 정렬하고,
상기 중복 기사 처리부는 발행 시간의 차이가 미리 정해진 값 이내에 있는기사들에 대해서 중복 여부를 판단하여 제거하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제1항에 있어서,
상기 시계열 분석부는
상기 제1 그룹에 포함된 기사의 발행 시간에 기초하여 상기 제1 그룹에 포함된 기사에 시간 레이블을 부가하는 시간 연관성 식별부;
동일한 상기 시간 레이블을 갖는 기사들을 그룹화하여 그룹 시간 레이블을 부가하는 상기 시계열 그룹을 생성하는 시계열 그룹 생성부; 및
상기 시계열 그룹의 대표 기사를 식별하는 대표 기사 식별부를 포함하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제6항에 있어서,
상기 시간 연관성 식별부는 현재 시간 및 상기 제1 그룹에 포함된 기사의 발행 시간 사이의 시간차를 계산하고 상기 시간차의 의사 로그 함수값에 기초하여 상기 시간 레이블을 부가하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제7항에 있어서,
상기 시계열 그룹 생성부는 동일한 상기 시간 레이블을 갖는 기사들의 주제들 사이의 유사도에 따라 동일한 상기 시간 레이블을 갖는 기사들을 2이상의 그룹들로 분할하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제6항에 있어서,
상기 대표 기사 식별부는 상기 제1 주제 및 상기 시계열 그룹에 포함된 기사들의 주제들 사이의 유사도에 기초하여 상기 대표 기사를 식별하는 것을 특징으로 하는 기사 연대기 생성 시스템.
제9항에 있어서,
상기 연대기 제공부는
상기 대표 기사를 상기 시간 레이블의 내림차순으로 정렬하여 네트워크를 통해서 상기 사용자에게 제공하는 것을 특징으로 하는 기사 연대기 생성 시스템.