KR20140044156A - 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법 - Google Patents

중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법 Download PDF

Info

Publication number
KR20140044156A
KR20140044156A KR1020120110179A KR20120110179A KR20140044156A KR 20140044156 A KR20140044156 A KR 20140044156A KR 1020120110179 A KR1020120110179 A KR 1020120110179A KR 20120110179 A KR20120110179 A KR 20120110179A KR 20140044156 A KR20140044156 A KR 20140044156A
Authority
KR
South Korea
Prior art keywords
news
similarity
seed
duplicate
title
Prior art date
Application number
KR1020120110179A
Other languages
English (en)
Other versions
KR101429623B1 (ko
Inventor
김태환
신동욱
김정선
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Priority to KR1020120110179A priority Critical patent/KR101429623B1/ko
Publication of KR20140044156A publication Critical patent/KR20140044156A/ko
Application granted granted Critical
Publication of KR101429623B1 publication Critical patent/KR101429623B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법에 관한 것으로, 소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하는 중복 뉴스 탐지 시스템을 제공한다.

Description

중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법{DUPLICATION NEWS DETECTION SYSTEM AND METHOD FOR DETECTING DUPLICATION NEWS}
본 발명은 중복 뉴스(DUPLICATION NEWS)를 탐지하는 시스템 및 방법에 관한 것이다.
일반적으로, 인터넷 검색 엔진은 실시간 발생하는 사건에 관련된 정보를 여러 뉴스 사이트에서 수집하여 제공한다. 뉴스 사이트들은 매일 많은 양의 뉴스들을 제공하고 있으며, 구독자가 관심을 가질만한 이슈가 되는 사건의 경우 대부분의 뉴스 사이트에서 해당 사건에 관련된 유사한 뉴스 기사를 제공한다. 이에 따라, 검색 엔진에 의하여 검색된 리스트에는 여러 뉴스 사이트에서 수집된 다수의 중복 뉴스(duplication news)가 포함된다. 사용자가 인터넷 검색 엔진에 특정 검색어를 입력하여 뉴스를 검색하는 경우에 있어서도 유사한 내용의 뉴스 기사가 중복해서 나타난다. 이와 같이 검색 엔진은 여러 뉴스 사이트에서 동시에 발생하는 중복 뉴스를 처리하지 않고 있어, 수집된 데이터에 중복이 발생한다는 문제가 있다. 이러한 중복 뉴스로 인해 예를 들어 스마트폰과 같은 개인 단말기의 사용자는 이전에 습득하였던 정보와 유사한 뉴스 기사를 불필요하게 반복적으로 제공받게 되며, 원하는 새로운 뉴스를 찾는데 오랜 시간을 들이게 되는 불편을 겪는다.
웹 페이지의 중복 검색을 방지하는 종래의 기술은 크게 완전-중복문서 탐지 기법(exact-duplicate document detection method)과 거의-중복문서 탐지 기법(near-duplicate document detection method)으로 구분될 수 있다. 완전-중복문서 탐지 기법은 완전히 동일한 웹페이지를 검출하는 것으로, 각각의 웹 페이지를 해싱한 후 해시 값을 서로 비교함으로써 중복 여부를 판정한다. 거의-중복문서 탐지 기법은 모든 문서가 가지고 있는 문서의 내용을 스캐닝하여 확인하며, 스캐닝한 문서 내용의 유사도가 거의 같으면 거의-중복문서라고 판정한다. 그런데, 비교 대상 문서들의 개수가 많을수록 중복 문서를 검출하는데 많은 시간이 소비된다. 중복 문서를 검출하는 시간을 줄이기 위해 비교 대상 문서들의 개수를 제한하게 되면, 필요로 하는 뉴스 기사가 유실될 수 있다. 뿐만 아니라, 종래의 기술은 단순히 문장의 단어들 간의 유사도를 비교하여 중복 문서를 탐지하므로, 설명하는 내용이 같더라도 표현하는 방법이 다를 경우 중복 문서를 탐지하지 못하거나, 유사한 단어들을 사용하여 반대되는 내용을 설명하는 문서를 중복 문서로 탐지하는 경우가 발생한다.
본 발명은 효율적이면서도 효과적으로 중복 뉴스를 탐지하는 중복 뉴스 탐지 시스템을 제공하는 것을 목적으로 한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급된 과제로 제한되지 않는다. 언급되지 않은 다른 기술적 과제들은 이하의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 측면에 따른 중복 뉴스 탐지 시스템은 소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함한다.
상기 중복 후보 뉴스 탐지부는, 상기 시드 뉴스와 상기 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리부; 및 상기 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 상기 제목 간의 유사도에 기초하여 상기 각각의 대상 뉴스가 상기 중복 후보 뉴스에 해당하는지 여부를 판단하는 중복 후보 뉴스 판단부를 포함한다.
상기 중복 후보 뉴스 판단부는, 상기 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 상기 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출하는 제1 유사도 산출부; 상기 시드 뉴스의 제목과, 상기 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출하는 제2 유사도 산출부; 상기 제1 유사도 및 상기 제2 유사도 중 보다 큰 유사도를 상기 제목 간의 유사도로 결정하는 유사도 결정부; 및 상기 제목 간의 유사도를 소정의 임계값과 비교하여 상기 중복 후보 뉴스를 탐지하는 임계값 비교부를 포함한다.
상기 중복 후보 뉴스 판단부는, 상기 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 상기 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출하며, 상기 제1 유사도 산출부는, 상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제1 유사도로 산출하며, 상기 제2 유사도 산출부는, 상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 컨텐츠의 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 컨텐츠의 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제2 유사도로 산출한다.
상기 중복 뉴스 탐지부는, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 컨텐츠의 구문을 분석하며, 상기 컨텐츠에서 문장을 검출하는 중복 뉴스 탐지 전처리부; 및 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스가 상기 중복 뉴스에 해당하는지 여부를 판단하는 중복 뉴스 판단부를 포함한다.
상기 중복 뉴스 판단부는, 상기 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하는 단어 유사도 산출부; 상기 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출하는 동사 유사도 산출부; 상기 단어 간의 유사도와 상기 동사 간의 유사도를 곱셈 연산하고, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 상기 문장 간의 유사도로 결정하는 문장 유사도 결정부; 상기 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 상기 시드 뉴스의 문장 개수 및 상기 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출하는 뉴스 관계 유사도 산출부; 및 상기 뉴스 관계 유사도를 소정의 임계값과 비교하여 상기 중복 뉴스를 탐지하는 중복 뉴스 탐지 임계값 비교부를 포함한다.
상기 단어 유사도 산출부는, 상기 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 단어의 가중치를 산출하고, 상기 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 중복 후보 뉴스의 단어의 가중치를 산출하며, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 상기 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 상기 단어 간의 유사도로 산출한다.
상기 동사 유사도 산출부는, 상기 시드 뉴스의 문장과 상기 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최소 상위 동사를 검출하고, 상기 시드 뉴스의 문장에서 나타나는 동사, 상기 중복 후보 뉴스의 문장에서 나타나는 동사 및 상기 최소 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 상기 확률 값을 이용하여 상기 동사 간의 유사도를 산출한다.
상기 중복 뉴스 탐지 전처리부는, 상기 시드 뉴스와 상기 중복 후보 뉴스의 태그를 제거하고, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하는 태그 제거부; 상기 컨텐츠의 구문을 분석하는 구문 분석부; 상기 컨텐츠로부터 문장을 검출하는 문장 검출부; 상기 문장으로부터 동사를 추출하는 동사 추출부; 및 상기 문장의 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 불용어 제거 및 어근 처리부를 포함한다.
상기 시드 뉴스는 하나 이상의 뉴스 제공 서버 시스템에서 제공하는 헤드라인 뉴스를 포함하며, 상기 하나 이상의 대상 뉴스는 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색 엔진이 검색한 뉴스들을 포함한다.
상기 중복 뉴스 탐지 시스템은 탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 더 포함한다.
본 발명의 다른 일 측면에 따른 중복 뉴스 탐지 시스템은 소정의 시드 뉴스를 저장하는 시드뉴스 데이터베이스; 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 대상 뉴스들을 검색하는 검색 엔진; 검색된 상기 대상 뉴스들을 저장하는 대상 뉴스 데이터베이스; 상기 시드 뉴스와 상기 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 상기 시드 뉴스의 제목과 상기 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 대상 뉴스들 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부; 탐지된 상기 중복 뉴스를 저장하는 중복 뉴스 데이터베이스; 및 탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 포함한다.
본 발명의 실시예에 의하면 효율적이면서도 효과적으로 중복 뉴스를 탐지할 수 있다.
도 1은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템의 구성도이다.
도 2는 시드 뉴스와, 중복 뉴스에 해당하는 대상 뉴스의 일 예를 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 탐지부의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 판단부의 구성도이다.
도 5는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지부의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지 전처리부의 구성도이다.
도 7은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 판단부의 구성도이다.
도 8은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법의 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법을 실행하는 프로그램을 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법에 의하여 줄어드는 연산양의 비율과 검색된 적합한 데이터 비율 간의 관계를 보여주는 그래프이다.
도 11은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법에 의한 카테고리별 재현율, 정확률 및 F-measure를 보여주는 그래프이다.
본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되는 실시 예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예는 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 갖는다. 일반적인 사전들에 의해 정의된 용어들은 관련된 기술 그리고/혹은 본 출원의 본문에 의미하는 것과 동일한 의미를 갖는 것으로 해석될 수 있고, 그리고 여기서 명확하게 정의된 표현이 아니더라도 개념화되거나 혹은 과도하게 형식적으로 해석되지 않을 것이다.
본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다' 및/또는 이 동사의 다양한 활용형들은 언급된 구성요소, 단계 및/또는 동작 외의 하나 이상의 다른 구성요소, 단계 및/또는 동작의 존재 또는 추가를 배제하지 않는다. 본 명세서에서 '및/또는' 이라는 용어는 나열된 구성들 각각 또는 이들의 다양한 조합을 가리킨다.
한편, 본 명세서 전체에서 사용되는 '~부'의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부'가 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'에서 제공되는 기능은 더 작은 수의 구성요소 및 '~부'로 결합되거나 추가적인 구성요소와 '~부'로 더 분리될 수 있다.
본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템은 시드 뉴스와 대상 뉴스의 제목 간의 유사도를 이용한 1차 클러스터링을 수행하여 1차적으로 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부와, 시드 뉴스와 대상 뉴스의 컨텐츠의 문장 간의 유사도를 이용한 2차 클러스터링을 수행하여 2차적으로 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함한다. 본 발명의 실시예에 의하면 중복 뉴스를 탐지하는데 소요되는 전체 시간을 줄일 수 있다. 또한, 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템은 중복 뉴스 탐지부가 시드 뉴스와 중복 후보 뉴스의 동사를 제외한 단어 간의 유사도 및 시드 뉴스와 중복 후보 뉴스의 동사 간의 유사도를 이용하여 중복 후보 뉴스 중에서 중복 뉴스를 탐지하므로, 중복 뉴스를 정확하게 검출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템의 구성도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템은 시드 뉴스 데이터베이스(101), 검색 엔진(102), 대상 뉴스 데이터베이스(103), 중복 후보 뉴스 탐지부(110), 중복 뉴스 탐지부(120), 중복 뉴스 데이터베이스(130) 및 뉴스 추천부(140)를 포함한다.
시드 뉴스 데이터베이스(101)는 시드 뉴스(seed news)들을 저장한다. 시드 뉴스는 대상 뉴스(target news) 중에서 중복 뉴스를 탐지하기 위해 대상 뉴스와 비교되는 뉴스를 의미할 수 있다. 시드 뉴스는 예를 들어 뉴스 제공 서브시스템(104, 105, 106)에서 제공하는 헤드라인 뉴스(headline news)를 포함할 수 있다. 일 예로, 시드 뉴스 데이터베이스(101)는 어느 하나의 뉴스 제공 서브시스템에서 카테고리별로 제공하는 헤드라인 뉴스를 저장할 수 있다. 카테고리는 예를 들어, "정치", "경제", "사회", "문화", "연예" 또는 "스포츠" 등을 포함할 수 있다.
대상 뉴스 데이터베이스(103)는 대상 뉴스(target news)들을 저장한다. 중복 후보 뉴스 탐지부(110) 및 중복 뉴스 탐지부(120)에 의해 대상 뉴스들 중 시드 뉴스와 중복되는 내용을 포함하는 대상 뉴스가 중복 뉴스로 탐지된다. 대상 뉴스는 예를 들어 검색 엔진(102)이 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색한 뉴스들을 포함할 수 있다. 대상 뉴스는 예를 들어 카테고리별로 수집된 헤드라인 뉴스의 제목에 나타나는 단어들을 검색어로 하여 검색 엔진(102)에 의해 검색된 뉴스일 수 있다.
도 2는 시드 뉴스와, 중복 뉴스에 해당하는 대상 뉴스의 일 예를 보여주는 도면이다. 도 2를 참조하면, 시드 뉴스와 대상 뉴스는 동일한 내용을 포함할 수 있으며, 이러한 경우 대상 뉴스를 중복 뉴스로 탐지할 필요가 있다. 예를 들어 도 2에서 좌측의 시드 뉴스는 인터뷰 내용을 생략하여 제공하며, 우측의 대상 뉴스는 인터뷰 내용(21)을 생략하지 않고 제공한 거의-중복 뉴스의 예에 해당한다. 시드 뉴스와 대상 뉴스가 설명하는 내용이 같더라도 표현하는 방법이 다를 경우 대상 뉴스를 중복 뉴스로 탐지하지 못하거나, 중복 뉴스로 탐지하는데 많은 시간이 소요될 수 있다.
본 발명의 실시예에 따른 중복 뉴스 탐지 시스템은 대상 뉴스들 중에서 중복 뉴스를 빠르고 정확하게 탐지하기 위하여, 중복 후보 뉴스 탐지부(110)와 중복 뉴스 탐지부(120)를 포함한다. 예를 들어 시드 뉴스는 제목(title)과, 컨텐츠(contents)를 포함하며, 대상 뉴스는 텍스트 제목(text title)과, 컨텐츠(contents)를 포함한다. 검색 엔진에 의해 대상 뉴스가 검색될 때, 검색 엔진의 검색 리스트에는 대상 뉴스의 앵커 제목(anchor title)이 나타난다. 대상 뉴스의 제목은 텍스트 제목과 앵커 제목을 포함한다.
중복 후보 뉴스 탐지부(110)는 시드 뉴스와 대상 뉴스의 제목(앵커 제목, 텍스트 제목) 간의 유사도에 기초하여 1차적으로 대상 뉴스들 중에서 중복 후보 뉴스를 빠른 속도로 탐지하고, 중복 뉴스 탐지부(120)는 시드 뉴스와 대상 뉴스의 컨텐츠 간의 유사도에 기초하여 2차적으로 중복 후보 뉴스들 중에서 중복 뉴스를 정확하게 탐지할 수 있다.
중복 후보 뉴스 탐지부(110)는 시드 뉴스와 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 제목 간의 유사도에 기초하여 대상 뉴스들 중에서 중복 후보 뉴스를 탐지한다. 도 3은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 탐지부의 구성도이다. 도 3을 참조하면, 중복 후보 뉴스 탐지부(110)는 전처리부(111)와 중복 후보 뉴스 판단부(112)를 포함한다. 전처리부(111)는 시드 뉴스와 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환한다. 본 발명의 일 실시예에 있어서, 중복 후보 뉴스 탐지부(110)는 대상 뉴스의 텍스트 제목과 앵커 제목 각각을 시드 뉴스의 제목과 비교하여 중복 후보 뉴스를 탐지할 수 있으며, 이러한 경우 전처리부(111)는 시드 뉴스의 제목과, 대상 뉴스의 텍스트 제목 및 앵커 제목에 대하여 전처리(preprocessing)를 수행할 수 있다.
일 실시예에 있어서, 전처리부(111)는 <title></title>과 같은 HTML 태그(Tag) 정보를 이용하여 시드 뉴스 및 대상 뉴스들로부터 제목을 추출할 수 있다. 전처리부(111)는 추출된 제목에 나타나는 단어에서 불용어(stop word)를 제거하고, 어근 처리(stemming)를 한다. 불용어는 예를 들어 관사 'the', 'a', 'an', 전치사 'to', 'of', 'in', 'into', 'for' 등과 같이 발생 빈도가 높지만 단일 단어로는 의미를 가지지 않는 것을 말한다. 어근 처리는 키워드의 어형론적 변형을 찾아내서 동일한 의미의 여러 단어를 하나의 단어로 변환하는 작업을 의미한다. 예를 들어 영문에서 단어들은 일정 의미를 갖는 어근(stem)과 단어의 형태 변화 타입인 어미(suffix)로 구성되는데, 전처리부(111)는 단어들을 의미를 갖는 어근의 형태로 변환한다. 예를 들어, 'description', 'descriptive', 'descriptor'를 어근 처리하면, 'descript'의 같은 단어로 변경된다.
중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 제목 간의 유사도에 기초하여 각각의 대상 뉴스가 중복 후보 뉴스에 해당하는지 여부를 판단한다. 앞서 언급한 바와 같이, 대상 뉴스의 제목은 검색 엔진의 리스트에 나타나는 앵커 제목(anchor title)과 상세 페이지에 나타나는 텍스트 제목(text title)의 두 가지로 구성될 수 있으며, 중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목 간의 유사도 및 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목 간의 유사도에 기초하여 대상 뉴스들 중에서 중복 후보 뉴스를 추출할 수 있다. 일 실시예에 있어서, 중복 후보 뉴스 판단부(112)는 후술될 벡터 모델(vector model)과 변형된 다이스 상관 계수(Dice's coefficient)를 이용하여 제목 간의 유사도를 구하고, 제목 간의 유사도가 미리 설정된 임계값 이상인 대상 뉴스를 중복 뉴스가 될 가능성이 있는 중복 후보 뉴스로 분류할 수 있다.
도 4는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 후보 뉴스 판단부의 구성도이다. 도 4를 참조하면, 중복 후보 뉴스 판단부(112)는 제1 유사도 산출부(1121), 제2 유사도 산출부(1122), 유사도 결정부(1123) 및 임계값 비교부(1124)를 포함한다. 제1 유사도 산출부(1121)는 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출한다. 제2 유사도 산출부(1122)는 시드 뉴스의 제목과, 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출한다. 유사도 결정부(1123)는 제1 유사도 및 제2 유사도 중 보다 큰 유사도를 제목 간의 유사도로 결정한다. 임계값 비교부(1124)는 제목 간의 유사도를 소정의 임계값과 비교하여 중복 후보 뉴스를 탐지한다.
이를 보다 구체적으로 설명하면 다음과 같다. 전처리부(111)에 의해 시드 뉴스와 대상 뉴스로부터 추출되어 불용어가 제거되고 어근 처리된 단어들은 아래의 수식 1과 같은 집합들로 나타낼 수 있다.
[수식 1]
Figure pat00001
이때, STi는 i번째 시드 뉴스의 제목에 나타나는 단어들의 집합을 나타내고, CTj는 수집된 j번째 대상 뉴스의 텍스트 제목에 나타나는 단어들의 집합을 나타내고, ATj는 수집된 j번째 대상 뉴스의 앵커 제목에 나타나는 단어들의 집합을 나타내고, sti ,k는 i번째 시드 뉴스의 제목에 나타나는 k번째 단어를 나타내고, ctj ,m는 수집된 j번째 대상 뉴스의 텍스트 제목에 나타나는 m번째 단어를 나타내고, atj ,n는 수집된 j번째 대상 뉴스의 앵커 제목에 나타나는 n번째 단어를 나타낸다.
중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 시드 뉴스와 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 시드 뉴스와 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출할 수 있다. 중복 후보 뉴스 판단부(112)는 예를 들어 아래의 수식 2와 같이 tf-itf(term frequency inverse title frequency)를 이용하여 단어의 가중치를 산출할 수 있다.
[수식 2]
Figure pat00002
이때, ωt는 시드 뉴스 또는 대상 뉴스의 제목(앵커 제목 또는 컨텐츠 제목)에 나타나는 단어의 가중치를 나타내고,
Figure pat00003
는 시드 뉴스와 대상 뉴스의 제목에서의 단어의 정규화 빈도를 나타내며,
Figure pat00004
는 단어의 역제목 빈도수(itf; inverse title frequency)를 나타내며, │T│는 시드 뉴스와 대상 뉴스의 전체 제목의 개수를 나타내며,
Figure pat00005
는 시드 뉴스와 대상 뉴스의 전체 제목에서 단어 ω가 나타나는 수를 나타낸다. 역제목 빈도수
Figure pat00006
는 제목에서 흔하게 나오는 단어의 가중치를 낮추는 역할을 한다. 수식 2에서 제목 t에서의 단어 ω의 정규화 빈도
Figure pat00007
는 아래의 수식 3과 같이 정의될 수 있다.
[수식 3]
Figure pat00008
이때, freqω,T는 제목 t에서 나타나는 단어 ω의 빈도를 나타내고, maxlfreql,t는 제목 t에서 나타나는 단어들의 빈도들 중 최대값을 나타낸다.
제1 유사도 산출부(1121)는 시드 뉴스의 제목에 나타나는 단어의 가중치와, 대상 뉴스의 앵커 제목에 나타나는 단어의 가중치를 이용하여 시드 뉴스의 제목과 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출한다. 일 실시예에 있어서, 제1 유사도 산출부(1121)는 시드 뉴스의 제목과, 대상 뉴스의 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 시드 뉴스의 제목에 포함되는 단어의 가중치들과 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 제1 유사도로 산출할 수 있다. 제1 유사도 산출부(1121)는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에 나타나는 단어의 가중치를 변형된 다이스 상관계수의 수식에 적용함으로써, 단어의 중요도를 반영하여 제1 유사도를 산출할 수 있다. 예를 들어 제1 유사도 산출부(1121)는 아래의 수식 4와 같은 변형된 다이스 상관계수의 수식을 이용하여 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에서 나타나는 단어의 가중치로부터 제1 유사도를 산출할 수 있다.
[수식 4]
Figure pat00009
수식 4에서,
Figure pat00010
는 i번째 시드 뉴스의 제목에 나타나는 단어들의 집합 STi과, 수집된 j번째 대상 뉴스의 앵커 제목에 나타나는 단어들의 집합 ATj 사이의 제1 유사도를 나타내고, p는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에서 동시에 나타나는 단어를 나타내며, c는 시드 뉴스의 제목과 대상 뉴스의 앵커 제목에서 동시에 나타나는 단어의 개수를 나타내며, sti ,p는 시드 뉴스의 제목에서 나타나는 단어의 가중치를 나타내며, atj ,p는 대상 뉴스의 앵커 제목에서 나타나는 단어의 가중치를 나타내며, a는 시드 뉴스의 제목에서 나타나는 단어의 개수를 나타내며, b는 대상 뉴스의 앵커 제목에서 나타나는 단어의 개수를 나타낸다.
제2 유사도 산출부(1121)는 시드 뉴스의 제목에 나타나는 단어의 가중치와, 대상 뉴스의 텍스트 제목에 나타나는 단어의 가중치를 이용하여 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목 간의 제2 유사도를 산출한다. 일 실시예에 있어서, 제2 유사도 산출부(1122)는 시드 뉴스의 제목과, 대상 뉴스의 컨텐츠의 텍스트 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 시드 뉴스의 제목에 포함되는 단어의 가중치들과 대상 뉴스의 텍스트 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 제2 유사도로 산출할 수 있다.
제2 유사도 산출부(1122)는 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에 나타나는 단어의 가중치를 변형된 다이스 상관계수의 수식에 적용함으로써 단어의 중요도를 반영하여 제2 유사도를 산출할 수 있다. 예를 들어 제2 유사도 산출부(1122)는 아래의 수식 5와 같은 변형된 다이스 상관계수의 수식을 이용하여 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에서 나타나는 단어의 가중치로부터 제2 유사도를 산출할 수 있다.
[수식 5]
Figure pat00011
수식 5에서,
Figure pat00012
는 i번째 시드 뉴스의 제목에 나타나는 단어들의 집합 STi과, 수집된 j번째 대상 뉴스의 텍스트 제목에 나타나는 단어들의 집합 CTj 사이의 제2 유사도를 나타내며, p는 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에서 동시에 나타나는 단어를 나타내며, c는 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목에서 동시에 나타나는 단어의 개수를 나타내며, sti ,k는 시드 뉴스의 제목에서 나타나는 단어의 가중치를 나타내며, ctj ,m는 대상 뉴스의 텍스트 제목에서 나타나는 단어의 가중치를 나타내며, a는 시드 뉴스의 제목에서 나타나는 단어의 개수를 나타내며, b는 대상 뉴스의 텍스트 제목에서 나타나는 단어의 개수를 나타낸다.
유사도 결정부(1123)는 예를 들어 아래의 수식 6에 따라 제1 유사도
Figure pat00013
와, 제2 유사도
Figure pat00014
중에서 최대값을 판단하여 이로부터 시드 뉴스의 제목과 대상 뉴스의 제목 간의 유사도
Figure pat00015
를 산출한다.
[수식 6]
Figure pat00016
예를 들어, 시드 뉴스 A의 제목에 나타나는 단어가 a, b, c이고, 대상 뉴스 B의 앵커 제목에 나타나는 단어가 a, c, d이고, 대상 뉴스 B의 컨텐츠 제목에 나타나는 단어가 b, c, d인 경우, 앞서 언급된 수식 2를 사용하면 단어 a, b, c, d 각각에 대한 단어의 가중치는 0.1, 0.2, 0.3, 0.2로 산출된다. 시드 뉴스 A의 제목과 대상 뉴스 B의 앵커 제목에서 동시에 나타나는 단어는 a, c이므로, 수식 4에서 분자
Figure pat00017
는 (0.1+0.3)+(0.1+0.3) = 0.8의 값을 가지며,
Figure pat00018
는 0.1+0.2+0.3 = 0.6이고,
Figure pat00019
는 0.1+0.3+0.2 = 0.6이 되어 분모
Figure pat00020
+
Figure pat00021
는 1.2의 값을 갖는다. 이에 따라, 제1 유사도
Figure pat00022
는 0.8/1.2 = 0.67의 값을 갖게 된다.
시드 뉴스 A의 제목과 대상 뉴스 B의 컨텐츠 제목에 동시에 나오는 단어는 b, c이므로, 수학식 5에 의해 분자
Figure pat00023
는 (0.2+0.3)+(0.2+0.3) = 1의 값을 가지며,
Figure pat00024
는 0.1+0.2+0.3 = 0.6이 되고,
Figure pat00025
은 0.2+0.3+0.2 = 0.7이 되어, 분모 +
Figure pat00027
는 1.3의 값을 갖는다. 이에 따라, 제2 유사도
Figure pat00028
는 1/1.3 = 0.77의 값을 갖게 된다.
유사도 결정부(1123)는 앞서 언급된 수식 6에 따라 제1 유사도와 제2 유사도 중 큰 값인 0.77을 시드 뉴스의 제목과 대상 뉴스의 제목 간의 유사도
Figure pat00029
로 결정할 수 있다. 임계값 비교부(1124)는 산출된 제목 간의 유사도를 미리 결정된 임계값 α과 비교하여, 임계값 α를 넘으면 대상 뉴스를 중복 후보 뉴스로 분류하고, 임계값 α를 넘지 않으면 중복 후보 뉴스에서 제외한다. 전술한 과정에 따라 중복 후보 뉴스 탐지부(110)에 의해 1차 클러스터링(Clustering)이 수행된다.
다시 도 1을 참조하면, 중복 뉴스 탐지부(120)는 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 시드 뉴스의 컨텐츠에 포함된 문장과 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 문장 간의 유사도에 기초하여 중복 후보 뉴스 중에서 중복 뉴스를 탐지한다. 중복 뉴스 탐지부(120)는 분류된 중복 후보 뉴스의 내용을 분석하여 시드 뉴스의 내용과 유사도 비교를 통해 최종적으로 중복 뉴스인지 아닌지를 판별한다.
일 실시예에 있어서, 중복 뉴스 탐지부(120)는 전체 내용이 아닌 문장 단위의 의미적 접근을 통해 시드 뉴스와 중복 후보 뉴스의 내용 간의 유사도를 산출할 수 있다. 일반적인 방식에 따라 문장 간의 유사도를 산출하는 경우, 전혀 다른 상반된 내용임에도 불구하고 유사도가 높게 산출되는 경우가 발생할 수 있다. 예를 들어 아래의 세 개의 문장들 중 첫 번째와 세 번째 문장은 전혀 다른 상반된 내용이나, 일반적인 문장 간의 유사도 산출 방식에 의하면 단어들의 유사성으로 인해 유사도가 높게 산출될 수 있다.
① I bought a computer from a computer shop in Yongsan.
② The computer was purchased from a computer shop in Yongsan.
③ The computer was sold to a computer shop in Yongsan..
이에 따라, 본 발명의 실시예는 문장이 가지는 단어의 색인어와 동사를 구분하여 문장의 유사도를 정확하게 산출한다.
도 5는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지부의 구성도이다. 도 5를 참조하면, 중복 뉴스 탐지부(120)는 중복 뉴스 탐지 전처리부(121) 및 중복 뉴스 판단부(122)를 포함한다. 중복 뉴스 탐지 전처리부(121)는 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 컨텐츠의 구문을 분석하며, 컨텐츠에서 문장을 검출한다.
도 6은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 탐지 전처리부의 구성도이다. 도 6을 참조하면, 중복 뉴스 탐지 전처리부(121)는 태그 제거부(1211), 구문 분석부(1212), 문장 검출부(1213), 동사 추출부(1214) 및 불용어 제거 및 어근 처리부(1215)를 포함한다. 태그 제거부(1211)는 시드 뉴스와 중복 후보 뉴스의 태그를 제거하고, 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출한다. 태그 제거부(1211)는 예를 들어 시드 뉴스와 중복 후보 뉴스에서 웹 페이지에 나타나는 HTML 태그(Tag)나, 불필요한 태그들을 제거한다. 구문 분석부(1212)는 컨텐츠의 구문을 분석한다. 구문 분석부(1212)는 예를 들어 스탠포드 파서와 같은 형태소 분석기를 이용하여 태그가 제거된 웹 페이지 뉴스를 구문 분석하여 명사와 동사를 인식할 수 있다. 형태소 분석기는 형태소들로 구성된 단어를 구성 성분별로 분석하여, 명사, 형용사, 동사 등 단어의 품사를 제공한다.
문장 검출부(1213)는 구문 분석부(1212)의 구문 분석 결과에 따라, 컨텐츠에서 문장을 검출한다. 문장 검출부(1213)는 예를 들어 형태소 분석기의 분석 결과에서 명사의 형태인 /NNP, /NN과 동사의 형태인 /VBZ, /VBN이 나타나면 문장으로 인식할 수 있다. 문장 검출부(1213)는 마침표의 위치를 이용하여 문장 간을 분리할 수 있으며, 뉴스에서 연속해서 문장의 형태를 가지는 위치를 찾아 뉴스의 내용으로 인지할 수 있다.
동사 추출부(1214)는 검출된 문장으로부터 동사를 추출한다. 동사 추출부(1214)는 예를 들어 분리된 문장 각각에서 형태소 분석기에 의한 태깅(tagging)이 /VBX 형태로 나타나는 동사를 추출할 수 있다. 추출된 동사는 해당 문장에서 의미를 가지는 동사의 후보가 된다. 예를 들어 스탠포드 파서에서 제공하는 단어 형태의 의존성을 이용하여 의미를 가지는 동사를 선택할 수 있다. 불용어 제거 및 어근 처리부(1215)는 분리된 문장의 단어 중에서 동사를 제거한 나머지 단어에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 어근 처리를 한다.
예를 들어, 시드 뉴스 또는 대상 뉴스의 컨텐츠의 문장 중에 "Steve Jobs has succeeded as a businessman."이라는 문장이 포함되어 있을 경우, 이 문장을 형태소 분석기로 POS 태깅(tagging)하면, "Steve/NNP Jobs/NNP has/VBZ succeeded/VBN as/IN a/DT businessman/NN ./."와 같이 나타난다. 여기서, /NNP는 동사와 관련 있는 명사를 나타내며, /VBZ, /VBN은 동사를, /IN은 전치사를, /DT는 관사를, /NN은 명사를 나타낸다.
동사 추출부(1214)는 예를 들어 태깅된 정보 중 동사를 나타내는 태그 (VP (VBZ has) (VP (VBN succeeded)))를 동사의 후보로 추출하며, 스탠포드 파서에서 제공하는 단어 형태의 의존성을 이용하여 후보로 선출된 동사 중 의미 있는 동사를 선택한다. 해당 문장에 나타나는 단어 형태의 의존성을 살펴보면 nn(Jobs-2, Steve-1), nsubj(succeeded-4, Jobs-2), aux(succeeded-4, has-3), det(businessman-7, a-6), prep_as(succeeded-4, businessman-7)로 표현된다. nn은 명사를 의미하고, nsubj는 명사가 하는 행위를 나타내며, aux는 본동사와 조동사를 나타내며, det는 명사와 관사를 나타내며, prep_as는 두 단어의 충돌 관계를 나타낸다. 단어 형태의 의존성 중 aux의 정보를 살펴보면 succeeded는 본동사이며, has는 조동사인 것을 알 수 있고, 후보로 선택된 두 개의 동사가 succeeded와 has 이기 때문에 해당 문장에서 의미 있는 동사로 succeeded가 선택된다.
다시 도 5를 참조하면, 중복 뉴스 판단부(122)는 시드 뉴스의 컨텐츠에 포함된 문장과 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 문장 간의 유사도에 기초하여 중복 후보 뉴스가 중복 뉴스에 해당하는지 여부를 판단한다. 도 7은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 시스템을 구성하는 중복 뉴스 판단부의 구성도이다. 도 7을 참조하면, 중복 뉴스 판단부(122)는 단어 유사도 산출부(1221), 동사 유사도 산출부(1222), 문장 유사도 결정부(1223), 뉴스 관계 유사도 산출부(1224) 및 중복 뉴스 탐지 임계값 비교부(1225)를 포함한다.
단어 유사도 산출부(1221)는 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출한다. 단어 유사도 산출부(1221)는 시드 뉴스와 중복 후보 뉴스의 문장에서 동사와 불용어를 제외한 어근 처리된 단어들을 이용하여 시드 뉴스와 중복 후보 뉴스의 단어 간의 유사도를 산출한다. 일 실시예에 있어서, 단어 유사도 산출부(1221)는 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 시드 뉴스와 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 시드 뉴스의 단어의 가중치를 산출할 수 있다. 또한, 단어 유사도 산출부(1221)는 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 시드 뉴스와 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 중복 후보 뉴스의 단어의 가중치를 산출할 수 있다.
일 실시예에 있어서, 단어 유사도 산출부(1221)는 시드 뉴스의 문장과, 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 단어 간의 유사도로 산출할 수 있다. 단어 유사도 산출부(1221)는 예를 들어 벡터 모델과 변형된 다이스 상관계수의 수식을 이용하여 단어 간의 유사도를 산출할 수 있다.
단어 유사도 산출부(1221)는 예를 들어 벡터 모델에서 tf-isf(term frequency inverse sentence frequency)를 이용하여 문장에 사용된 용어의 가중치를 할당할 수 있다. tf-isf는 단어가 문장에 나온 횟수에 비례하고, 그 단어를 포함하고 있는 모든 문장의 전체 개수에 반비례하는 가중치를 할당하여 해당 단어에 중요도를 부여한다. 시드 뉴스와 중복 후보 뉴스의 문장에 나타난 단어들의 집합은 예를 들어 수식 7과 같이 나타낼 수 있다.
[수식 7]
Figure pat00030
이때, SCi는 i번째 시드 뉴스의 컨텐츠(본문)에 나타나는 문장들의 집합을 나타내고, TCj는 j번째 중복 후보 뉴스의 컨텐츠(본문)에 나타나는 문장들의 집합을 나타내고, sci ,k는 i번째 시드 뉴스의 컨텐츠 중 k번째 문장에 나타나는 단어들의 집합을 나타내고,tcj ,l은 j번째 중복 후보 뉴스 중 l번째 문장에 나타나는 단어들의 집합을 나타내고, ti ,k,n은 i번째 시드 뉴스의 컨텐츠 중 k번째 문장에 나타나는 n번째 단어를 나타내고, ttj ,l,m은 j번째 중복 후보 뉴스의 컨텐츠 중 l번째 문장에 나타나는 m번째 단어를 나타낸다. 만약, 시드 뉴스의 컨텐츠의 일 부분만을 차용한 중복 후보 뉴스의 경우 중복 뉴스로 검출되지 않을 수 있으므로, 시드 뉴스와 중복 후보 뉴스 중 문장의 수가 작은 문서를 대상으로 비교 문장의 수가 일치될 수 있다.
단어 유사도 산출부(1221)는 예를 들어 아래의 수식 8을 이용하여 시드 뉴스와 중복 후보 뉴스의 문장에 나타나는 단어의 가중치를 산출할 수 있다.
[수식 8]
Figure pat00031
수식 8에서,
Figure pat00032
는 문장에 나타나는 단어의 개수를 나타내고,
Figure pat00033
는 문장의 역빈도수를 나타내며,
Figure pat00034
는 해당 뉴스(시드 뉴스 또는 중복 후보 뉴스)의 본문 중 단어 ω를 포함하는 문장의 개수를 나타내고,
Figure pat00035
는 해당 뉴스에 나타나는 전체 문장의 개수를 나타낸다.
단어 유사도 산출부(1221)는 시드 뉴스의 컨텐츠에 포함된 문장에 나타나는 단어의 가중치와, 중복 후보 뉴스의 컨텐츠에 포함된 문장에 나타나는 단어의 가중치를 이용하여, 시드 뉴스의 문장에 나타나는 단어와 중복 후보 뉴스의 문장에 나타나는 단어 간의 유사도를 산출할 수 있다. 단어 유사도 산출부(1221)는 예를 들어 아래의 수식 9와 같은 변형된 다이스 상관계수 수식에 따라 단어 간의 유사도를 산출할 수 있다.
[수식 9]
Figure pat00036
수식 9에서,
Figure pat00037
는 시드 뉴스의 문장과 중복 후보 뉴스의 문장 간 단어를 이용한 문장 유사도를 나타내며, p는 시드 뉴스의 문장과 중복 후보 뉴스의 문장에 동시에 나타나는 단어를 나타내며, c는 시드 뉴스의 문장과 중복 후보 뉴스의 문장에 동시에 나타나는 단어의 개수를 나타내며, ti ,k,n은 i번째 시드 뉴스의 본문 중 k번째 문장에 나타나는 n번째 단어의 가중치를 나타내고, ttj ,l,m은 j번째 중복 후보 뉴스 중 l번째 문장에 나타나는 m번째 단어의 가중치를 나타낸다.
예를 들어 i번째 시드 뉴스의 첫 문장에 나타나는 단어가 a, b, c이고, j번째 중복 후보 뉴스의 첫 문장에 나타나는 단어가 a, c, d이고, 두 번째 문장에 나타나는 단어가 b, c, d인 경우, 수식 8을 사용하여 계산된 a, b, c, d 각각의 단어 가중치는 각각 0.1, 0.2, 0.3, 0.2이다. i번째 시드 뉴스 중 처음 문장과 j번째 중복 후보 뉴스 중 처음 문장에 동시에 나오는 단어는 a, c이므로, 수식 9에서 분자
Figure pat00038
는 (0.1+0.3)+(0.1+0.3) = 0.8의 값이 된다.
i번째 시드 뉴스 중 처음 문장에 나타나는 단어들은 a, b, c이고, j번째 중복 후보 뉴스의 처음 문장에 나타나는 단어들은 a, c, d이므로, 수식 9에서
Figure pat00039
는 (0.1+0.2+0.3) = 0.6이고,
Figure pat00040
은 (0.1+0.3+0.2) = 0.6이 되어 분모
Figure pat00041
+
Figure pat00042
는 1.2의 값을 갖는다. 이에 따라 i번째 시드 뉴스의 처음 문장과 j번째 중복 후보 뉴스의 처음 문장 사이의 단어 간의 유사도, 다시 말해 단어의 가중치를 반영한 문장의 유사도
Figure pat00043
는 0.8/1.2 = 0.66의 값이 된다. 같은 방법으로 i번째 시드 뉴스의 처음 문장과 j번째 중복 후보 뉴스의 두 번째 문장에 대한 유사도를 계산하면 0.77의 값이 된다.
동사 유사도 산출부(1222)는 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출한다. 동사 유사도 산출부(1222)는 시드 뉴스의 문장과 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최소 상위 동사를 검출하고, 시드 뉴스의 문장에서 나타나는 동사, 중복 후보 뉴스의 문장에서 나타나는 동사 및 최소 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 확률 값을 이용하여 동사 간의 유사도를 산출한다. 동사 유사도 산출부(1222)는 예를 들어 워드넷의 동의어 집합과 계층 구조를 이용하여 동사 간의 유사도를 산출할 수 있다.
품사 동의어 집합 수 상위계층 계념 최대계층 수
동사 13,508개 14 4
형용사 18,563개 - -
부사 3,664개 - -
115,424개
표 1은 워드넷 2.0이 포함하고 있는 품사별 동의어 집합의 수와 구조를 나타낸다. 동사의 경우 13,508개의 동의어 집합을 포함하며, 최상위 노드에서 최하위 동의어 집합까지의 계층 수가 4개를 넘지 않는다. 형용사와 부사는 명사와 동사가 가지는 계층적 구조가 아니라 위성 구조를 가지며, 명사와 동사에서와 같은 계층 체계에 따른 분류가 없고 속성을 정의하는 개념만 있기 때문에, 단어의 의미 유사도 방법은 동사에 적용되고, 형용사나 부사에는 적용되지 않는다.
동사 유사도 산출부(1222)는 예를 들어 아래의 수식 10 내지 수식 13에 따라 i번째 시드 뉴스의 문장에 나타나는 동사
Figure pat00044
와 j번째 중복 후보 뉴스의 문장에 나타나는 동사
Figure pat00045
간의 유사도를 산출할 수 있다.
[수식 10]
Figure pat00046
수식 10에서,
Figure pat00047
는 k번째 문장에서 추출된 본 동사
Figure pat00048
의 동의어 집합을 나타낸다. 동사 유사도 산출부(1222)는 동사의 동의어 집합에서 동사
Figure pat00049
와 관련된 어휘의 개수를 카운트하여 본 동사의 빈도
Figure pat00050
를 산출할 수 있다.
[수식 11]
Figure pat00051
수식 11에서,
Figure pat00052
는 본 동사
Figure pat00053
에 대한 확률 값을 나타내며,
Figure pat00054
는 최상위 노드에서 최하위 동의어 집합까지의 계층에 나타난 각 루트(root)의 빈도수를 나타낸다. 동사는 아래의 표 2에 나타낸 바와 같은 15개의 최상위 루트를 갖는다.
Bodily care and function Change Cognition Communication
Social interaction Cometition Consumption Contact
Weather verbs Creation Emotion Motion
State verbs Perception Possession -
[수식 12]
Figure pat00055
수식 12에서 나타내는 IC는 정보 콘텐츠(Information Contents)의 약자이고,
Figure pat00056
는 동사
Figure pat00057
의 확률 값
Figure pat00058
에 로그의 부정을 취하여 산출된다. 이는 워드넷 용어집 기반으로 계층에서
Figure pat00059
가 가장 많이 포함할 수 있는 정보 콘텐츠를 추출하기 위해 사용한다.
[수식 13]
Figure pat00060
수식 13에서
Figure pat00061
는 i번째 시드 뉴스의 k번째 문장에 나타나는 본 동사
Figure pat00062
와 j번째 중복 후보 뉴스 중
Figure pat00063
번째 문장에 나타나는 본 동사
Figure pat00064
의 유사도를 나타낸다. 두 동사 어휘를 공통으로 포함하는 최소 상위 동사(Lowest Common Subsumer : LCS)
Figure pat00065
가 가지는
Figure pat00066
값과 각 어휘의
Figure pat00067
,
Figure pat00068
를 연산하여 동사 간의 유사도
Figure pat00069
를 산출한다. 구해진
Figure pat00070
는 연관성이 있는 동사 어휘 모음 내 얻어낸 의미 유사도 중 가장 높은 값을 갖는다.
문장 유사도 결정부(1223)는 예를 들어 아래의 수식 14에 나타낸 바와 같이, 단어 간의 유사도와 동사 간의 유사도를 곱셈 연산하며, 시드 뉴스의 각각의 문장과, 중복 후보 뉴스의 모든 문장 간의 곱셈 연산 값 중 가장 큰 값을 문장 간의 유사도로 결정한다.
[수식 14]
Figure pat00071
수식 14에서
Figure pat00072
는 시드 뉴스와 중복 후보 뉴스의 문장 간의 유사도 를 나타내고,
Figure pat00073
는 시드 뉴스와 중복 후보 뉴스의 동사를 이용하여 산출한 문장의 유사도(동사 간의 유사도)를 나타내고,
Figure pat00074
는 시드 뉴스와 중복 후보 뉴스의 동사를 제외한 단어를 이용하여 산출한 문장의 유사도(단어 간의 유사도)를 나타내며, L은 중복 후보 뉴스에 나타나는 모든 문장들의 집합을 나타낸다. 문장 유사도 결정부(1223)는 시드 뉴스의 문장과 유사도 쌍으로 산출된 중복 후보 뉴스의 문장에 대하여는 다음 시드 뉴스 문장과의 유사도를 산출할 때 연산에서 제외할 수 있다. 만약 i번째 시드 뉴스의 처음 문장에 나타나는 동사와 j번째 중복 후보 뉴스 중 처음 문장에 나타나는 동사의 유사도 값이 i번째 시드 뉴스 처음 문장에 나타나는 동사와 j번째 중복 후보 뉴스 중 두 번째 문장에 나타나는 동사의 유사도 값과 같다면, 유사도가 가장 높은 두 번째 문장과 유사도의 쌍을 이루고 다음 비교 문장에서 제외된다. 이러한 방법으로 문장의 쌍으로 유사도를 구할 수 있는 모든 뉴스 문장의 유사도를 산출한다.
뉴스 관계 유사도 산출부(1224)는 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 시드 뉴스의 문장 개수 및 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출한다. 뉴스 관계 유사도 산출부(1224)는 예를 들어 아래의 수식 15에 나타낸 바와 같이, 문장 간의 유사도를 모두 더한 값을 더해진 문장의 수로 나눔으로써 뉴스 관계 유사도를 산출할 수 있다.
[수식 15]
Figure pat00075
수식 15에서
Figure pat00076
는 i번째 시드 뉴스의 내용
Figure pat00077
과 j번째 중복 후보 뉴스의 내용
Figure pat00078
사이의 유사도를 나타내며, b는 시드 뉴스의 문장 개수, L은 중복 후보 뉴스의 문장 개수,
Figure pat00079
는 시드 뉴스의 문장 개수와 중복 후보 뉴스의 문장 개수 중 작은 값을 나타낸다.
Figure pat00080
는 수식 14에 의해 구해진 시드 뉴스의 문장들에 대한 문장 간의 유사도들을 모두 합한 값이다.
Figure pat00081
는 시드 뉴스의 각각의 문장과 중복 후보 뉴스의 대응하는 문장 간의 유사도의 평균값을 의미하며, 시드 뉴스와 중복 후보 뉴스 간의 유사도를 나타낸다. 중복 뉴스 탐지 임계값 비교부(1225)는 뉴스 관계 유사도를 소정의 임계값과 비교하여 중복 뉴스를 탐지한다. 중복 뉴스 탐지 임계값 비교부(1225)는 산출된 뉴스 관계 유사도가 중복 뉴스 탐지 임계값을 넘으면 중복 후보 뉴스를 중복 뉴스로 분류하고, 임계값을 넘지 않으면 중복 뉴스에서 제외한다. 이에 따라 중복 뉴스 탐지부(120)에 의해 2차 클러스터링(Clustering)이 수행된다.
다시 도 1을 참조하면, 중복 뉴스 데이터베이스(130)는 중복 후보 뉴스 탐지부(110) 및 중복 뉴스 탐지부(120)에 의해 탐지된 중복 뉴스들을 카테고리별로 저장한다. 뉴스 추천부(140)는 탐지된 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 시드 뉴스와 중복 뉴스를 결합한 웹 페이지를 제공할 수 있다. 대안적으로, 뉴스 추천부(140)는 수집된 모든 대상 뉴스를 제공하고, 중복 뉴스로 탐지된 대상 뉴스에 대하여는 웹 페이지에 중복 뉴스임을 나타내는 표시를 하여 중복 뉴스라는 정보를 제공할 수도 있다.
도 8은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법의 흐름도이다. 도 8에 도시된 실시예를 구성하는 단계들은 도 1 내지 도 7에 도시된 실시예의 구성들에 의해 수행될 수 있다. 도 7에 도시된 단계 S81 내지 S82는 1차 클러스터링 단계에 해당하며, 단계 S83 내지 S84는 2차 클러스터링 단계에 해당한다. 먼저 단계 S81에서 중복 후보 뉴스 탐지부(110)의 전처리부(111)는 시드 뉴스와 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리 단계를 수행한다. 다음으로 단계 S82에서 중복 후보 뉴스 탐지부(110)의 중복 후보 뉴스 판단부(112)는 시드 뉴스의 제목과 대상 뉴스들의 제목 간의 유사도를 산출하며, 산출한 제목 간의 유사도에 기초하여 대상 뉴스들 중에서 중복 후보 뉴스를 추출한다.
중복 후보 뉴스를 추출하는 단계 S82에 대해 보다 구체적으로 설명하면 다음과 같다. 먼저 단계 S821에서 제1 유사도 산출부(1121) 및 제2 유사도 산출부(1122)는 예를 들어 앞서 언급된 수식 2 내지 수식 5에 따라 제1 유사도 및 제2 유사도를 산출한다. 이때, 제1 유사도는 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 대상 뉴스의 앵커 제목 간의 유사도이며, 제2 유사도는 시드 뉴스의 제목과, 대상 뉴스의 컨텐츠에 나타나는 제목 간의 유사도이다. 단계 S822에서 유사도 결정부(1123)는 예를 들어 앞서 언급된 수식 6에 따라서 제1 유사도 및 제2 유사도 중 보다 큰 유사도를 제목 간의 유사도로 결정한다. 다음으로 단계 S823에서 임계값 비교부(1124)는 제목 간의 유사도를 소정의 임계값과 비교하여 중복 후보 뉴스를 탐지한다.
다음으로 단계 S83에서 중복 뉴스 탐지부(120)의 전처리부(121)는 시드 뉴스와 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 컨텐츠의 구문을 분석하며, 컨텐츠에서 문장을 검출하는 전처리 작업을 수행한다. 다음으로 단계 S84에서 중복 뉴스 탐지부(120)의 중복 뉴스 판단부(122)는 시드 뉴스의 컨텐츠에 포함된 문장과 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 문장 간의 유사도에 기초하여 중복 후보 뉴스가 중복 뉴스에 해당하는지 여부를 판단한다. 중복 뉴스를 판단하는 단계 S84에 대하여 보다 구체적으로 설명하면, 먼저 단계 S841에서 단어 유사도 산출부(1221)는 예를 들어 앞서 언급한 수식 8 내지 수식 9에 따라 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하고, 동사 유사도 산출부(1222)는 예를 들어 앞서 언급한 수식 10 내지 수식 13에 따라 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출한다. 다음으로 단계 S842에서 문장 유사도 결정부(1223)는 예를 들어 앞서 언급한 수식 14에 따라 단어 간의 유사도와 동사 간의 유사도를 곱셈 연산하고, 시드 뉴스의 문장과, 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 문장 간의 유사도로 결정한다. 다음으로 단계 S843에서 뉴스 관계 유사도 산출부(1224)는 예를 들어 앞서 언급한 수식 15에 따라 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 시드 뉴스의 문장 개수 및 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출한다. 다음으로 단계 S844에서 임계값 비교부(1225)는 뉴스 관계 유사도를 소정의 임계값과 비교하여 중복 뉴스를 탐지한다. 다음으로 단계 S85에서 뉴스 추천부(140)는 탐지된 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 시드 뉴스와 중복 뉴스를 결합한 웹 페이지를 제공한다.
도 9는 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법을 실행하는 프로그램을 보여주는 도면이다. 도 9를 참조하여 본 발명의 일 실시예에 따른 중복 뉴스 탐지 알고리즘에 대해 설명하면 다음과 같다. 먼저, 1번째 라인에서 R[]는 시드 뉴스의 집합을 의미하며, C[]는 수집된 대상 뉴스의 집합을 의미한다. 2번째 라인부터 6번째 라인까지는 값 설정 및 용어를 정의한다. 6번째 라인에서 γ는 1차 중복 후보 뉴스를 탐지하기 위한 임계값이고, β는 최종 중복 뉴스를 탐지하기 위한 임계값이다. 7번째 라인부터 37번째 라인까지는 중복 뉴스를 탐지하는 부분이다. 10번째 라인부터 12번째 라인까지는 1차 중복 후보 뉴스를 탐지하는 부분이다. 11번째 라인에서 Tsimilarity(r.title, c.title)는 시드 뉴스의 제목과 수집된 대상 뉴스의 제목의 유사도를 의미한다. 13번째 라인부터 34번째 라인까지는 1차 중복 후보 뉴스로 선출된 뉴스들 중 중복 뉴스를 탐지하는 부분이다. 18번째 라인에서 vsimilarity(rs.verb, cs.verb)는 시드 뉴스의 문장에 나타나는 의미 동사와 수집된 대상 뉴스의 문장에 나타나는 동사의 의미 유사도를 나타낸다. 19번째 라인의 wsimilarity(rs.words, cs,words)는 시드 뉴스의 문장에 나타나는 단어들과 수집된 대상 뉴스의 문장에 나타나는 단어들의 유사도를 나타낸다. 26번째 라인에서 cs.remove(sentence_location)는 문장의 유사도로 사용된 문장은 비교하는 뉴스의 문장에서 삭제하는 함수를 의미하며, 33번째 라인에서 remove(c)는 시드 뉴스와 유사도 검색을 완료한 수집된 대상 뉴스 중 비교 뉴스를 삭제하는 함수이다.
뉴스 사이트의 6개의 분야(police, business, crime, education, health, web-exclusive)에서 각각 10개의 헤드라인 뉴스(headline news)를 추출하였다. 추출된 뉴스는 제목과 내용을 분류하고, 각각의 헤드라인 뉴스의 제목을 구글(google) 검색 엔진의 뉴스 분야에 질의하였다. 질의 결과 중 각 헤드라인 뉴스마다 상위 20개 또는 그 이하의 뉴스 기사를 수집하였다. 수집한 뉴스 기사는 검색된 리스트에 나타나는 제목(앵커 제목)과 상세 페이지에 나타나는 제목(텍스트 제목) 그리고 내용(컨텐츠)으로 분류하여 저장하였다.
시드 뉴스의 제목과 대상 뉴스(target news)의 앵커 제목 간의 유사도 및 시드 뉴스의 제목과 대상 뉴스의 텍스트 제목 간의 유사도를 전술한 수식 2 내지 수식 5에 따라 산출하였다. 두 개의 유사도 중 시드 뉴스와 대상 뉴스의 제목 간의 유사도 값을 전술한 수식 6에 따라 산출하였다. 이렇게 구해진 제목 간의 유사도 값을 임계값과 비교하여 큰 것을 중복 후보 뉴스로 추출하고 임계값보다 작은 것을 중복 뉴스의 후보에서 제외하였다. 선출된 중복 뉴스 후보들에 대하여 내용의 유사성에 기초하여 중복 뉴스 기사인지 여부를 판별하였다. 이때 사용되는 뉴스의 유사도 측정은 전술한 수식 8 내지 수식 15에 따라 산출하였다.
뉴스 사이트에서 선정된 6개의 분야에서 일요일을 제외한 6주 동안 수집된 헤드라인 뉴스(시드 뉴스)와 수집된 뉴스(대상 뉴스)의 수가 아래의 표 3에 나타난다. 표 3에서 헤드라인 뉴스는 헤드라인 뉴스는 각 분야별 중복 뉴스를 탐지해야 하는 그룹의 수이며, 중복 뉴스를 발견해야 하는 클러스터링의 수와 같다.
Police Business Crime Education Health Web - Exclusive
헤드라인 뉴스 340 274 215 47 25 38
대상 뉴스 6,800 5,480 4,300 940 500 760
평균 중복 수 16.4 13.5 2.8 2 3.8 2
예를 들어 "Police" 분야에서 수집된 헤드라인 뉴스(시드 뉴스), 즉 탐지해야 하는 그룹의 수는 340개이다. "Police" 분야의 경우 뉴스들의 약 82%가 중복 뉴스에 해당하는 점을 고려하여, 전체 수집된 6,800개의 뉴스(대상 뉴스) 중 5,576개의 뉴스 기사를 중복 뉴스로 탐지한다. 즉, 340개의 클러스터링 그룹 중 한 개의 클러스터링 그룹이 중복 뉴스에 해당하는 것으로 찾아야 하는 평균 뉴스의 수는 16.4개이다. "Business" 분야에서 탐지해야 하는 그룹의 수는 274개이고, 이 분야의 뉴스들 중 약 67%가 중복 뉴스에 해당하므로 전체 수집된 5,480개의 대상 뉴스 중 3,699개의 뉴스 기사를 중복 뉴스로 탐지해야 한다. 즉, 274개의 그룹 중 한 개의 그룹이 찾아야하는 평균 뉴스의 수는 13.5개이다. "Crime" 분야에서 탐지해야 하는 그룹의 수는 215개이고, 이 분야의 뉴스들 중 약 14%가 중복 뉴스에 해당하므로, 전체 수집된 4,300개의 뉴스 중 602개의 뉴스 기사를 탐지해야한다. 즉, 215개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 2.8개이다. "Education" 분야에서 탐지해야하는 그룹의 수는 47개이고, 이 분야의 뉴스들 중 약 11%가 중복 뉴스에 해당하므로, 전체 수집된 940개의 뉴스 중 94개의 뉴스 기사를 탐지해야한다. 즉, 47개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 2개이다. "Health" 분야에서 탐지해야 하는 그룹의 수는 25개이고, 이 분야의 뉴스들 중 약 20%가 중복 뉴스에 해당하므로, 전체 수집된 500개의 뉴스 중 95개의 뉴스 기사를 탐지해야한다. 즉, 25개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 3.8개이다. "Web-exclusive" 분야에서 탐지해야하는 그룹의 수는 38개이고, 이 분야의 뉴스들 중 약 10.5%가 중복 뉴스에 해당하므로, 전체 수집된 760개의 뉴스 중 76개의 뉴스 기사를 탐지해야한다. 즉, 38개의 그룹 중 한 개의 그룹이 찾아야 하는 평균 뉴스의 수는 2개이다.
6개 분야의 헤드라인 뉴스에서 수집된 뉴스의 수가 다른 것은 뉴스 데이터의 선호도와 연관이 있다. "Police" 분야의 뉴스 업데이트 비율을 보면 하루에 90% 이상의 뉴스 기사가 바뀌고, 수집된 중복의 뉴스 비율을 확인해 보면 약 82%로서 유사한 기사가 가장 많다. "Business" 분야 또한 업데이트 비율과 중복 비율이 76%와 67.5%로 유사한 기사가 많이 작성된다. 그에 비해 "Crime" 분야는 업데이트 비율은 높지만 중복 뉴스의 비율이 낮고, 나머지 "Education", "Health", "Web-exclusive"와 같은 분야는 업데이트 비율과 중복 비율이 약 10% 이다. 이러한 다양한 분야의 특성을 고려하여 1차 중복 후보 뉴스와 2차 중복 뉴스의 탐지 비율을 다르게 하여 실험하였다. 실험에서 2차 중복 뉴스의 내용 유사도 값이 임계값 0.7보다 큰 경우 중복 뉴스로 탐지하였다.
Police Business Crime Education Health Web - Exclusive
클러스터링 수 340 274 215 47 25 38
총 뉴스 수 6,800 5,480 4,300 940 500 760
중복 뉴스 수 5,576 3,699 602 94 95 76
비교 총 뉴스 수 2,312,000 1,501,520 924,500 44,180 12,500 28,880
검색된 뉴스 수 45,627 32,672 19,216 1,268 238 809
검색된 적합한 뉴스 수 5,513 3,616 573 89 91 71
검색된 적합한 뉴스 비율 98.9% 97.7% 95.1% 94.7% 95.8% 93.4%
줄어드는 연산양의 비율 98.0% 97.8% 97.9% 97.1% 98.1% 97.2%
표 4는 1차 클러스터링에서 임계값을 0.3보다 큰 값으로 설정했을 때의 결과를 나타낸다. 표 4의 1차 클러스터링 결과를 보면 "Police" 관련 뉴스는 10개의 헤드라인 뉴스 기사가 매일 새로운 뉴스 기사로 업데이트되기 때문에 클러스터링 개수가 가장 많고, "Business"나 "Crime" 관련 뉴스는 10개 중 7-8개 정도가 새로운 뉴스 기사로 업데이트되기 때문에 클러스터링의 수가 다음으로 많다. 하지만 "Business"와 다르게 "Crime"은 상대적으로 제공되는 뉴스기사가 적기 때문에 클러스터링의 수가 "Business"보다 작다. "Education", "Health", "Web-exclusive" 관련 뉴스는 10개 중 1개 정도가 새로운 뉴스 기사로 업데이트 된다. 이것은 "Police", "Business", "Crime" 과 같은 뉴스는 대중에게 많은 관심을 받고 있는 뉴스이기 때문에 새로운 뉴스가 매일 생성되는 것을 의미하고, "Education", "Health", "Web-exclusive" 관련 뉴스는 상대적으로 대중에게 관심 받지 못하고 제공되는 뉴스 기사가 적다는 것을 의미한다.
도 11은 본 발명의 일 실시예에 따른 중복 뉴스 탐지 방법에 의하여 줄어드는 연산양의 비율과 검색된 적합한 데이터 비율 간의 관계를 보여주는 그래프이다. 도 11은 1차 클러스터링 한 후 탐지된 중복 후보 뉴스의 비율과 1차 클러스터링을 하게 되었을 때 줄어드는 연산양을 나타낸다. 6개의 분야 모두 줄어드는 연산 양의 비율이 97% 이상으로 일정 수치를 가진다. 하지만 검색된 적합한 뉴스의 비율이 다르다. 대중에게 관심이 있는 "Police", "Business" 같은 경우는 기사가 많이 양산되기 때문에 적합한 뉴스의 비율이 "Crime", "Education", "Health", "Web-exclusive" 보다 상대적으로 높다.
표 5는 1차 클러스터링 후 중복 뉴스의 후보 수를 나타내며, 각 클러스터링 1개당 수집된 뉴스의 수가 확연히 줄어드는 것을 확인할 수 있다. 대표적인 예로 "Police"를 보면 1차 클러스터링 전에는 1개의 클러스터링 중복 뉴스를 탐지하기 위해서는 수집된 6,800개의 뉴스 문서를 모두 비교해야 하지만 1차 클러스터링 후에는 1개의 클러스터링 중복 뉴스를 탐지하기 위해 134개의 뉴스 기사만을 비교하면 된다.
Police Business Crime Education Health Web - Exclusive
클러스터링 수 340 274 215 47 25 38
1개의 클러스터링 당 후보 뉴스 수 6,800 5,480 4,300 940 500 760
클러스터링 후 평균 후보 뉴스 수 134 119 89 27 10 21
표 6은 1차 클러스터링 후 중복 후보 뉴스에 대하여 유사도 값을 구하여 그 유사도 값이 0.7보다 큰 값으로 설정했을 때의 중복 뉴스를 탐지한 결과를 나타낸다.
Police Business Crime Education Health Web - Exclusive
클러스터링 수 340 274 215 47 25 38
평균 후보뉴스 수 134 119 89 27 10 21
검출해야 할 평균 중복 수 16.4 13.5 2.8 2 3.8 2
중복 데이터 총 수 5,576 3,699 602 94 95 76
검출된 평균 중복 수 16.1 13.5 3.0 2.1 3.8 2.1
검출된 데이터 총 수 5,479 3,687 646 98 96 79
검색된 적합한 평균 중복 수 15.8 12.7 2.6 1.8 3.6 1.8
검색된 적합한 데이터 총 수 5,373 3,480 561 86 91 70
표 6의 데이터를 이용하여 아래의 수식 22에 따라 정확률을 산출하고, 아래의 수식 23에 따라 재현율을 산출하고, 아래의 수식 24에 따라 F-Measure를 산출하였으며, 그 결과를 카테고리별로 도 12에 도시하였다.
[수식 22]
Figure pat00082
[수식 23]
Figure pat00083
[수식 24]
Figure pat00084
결과적으로 1개의 클러스터가 가지는 평균 중복 뉴스의 수가 많고 수집된 뉴스가 많을수록 높은 성능을 보였으며, 평균 중복 뉴스의 수가 적고 수집된 뉴스 수도 적으면 낮은 성능을 보였다. 전체적으로는 6개의 분야에서 중복 뉴스 탐지 성능은 90% 이상으로 만족할 만한 성능을 보였다.
이상의 실시예들은 본 발명의 이해를 돕기 위하여 제시된 것으로, 본 발명의 범위를 제한하지 않으며, 이로부터 다양한 변형 가능한 실시예들도 본 발명의 범위에 속할 수 있음을 이해하여야 한다. 예를 들어, 본 발명의 실시예에 도시된 각 구성 요소는 분산되어 실시될 수도 있으며, 반대로 여러 개로 분산된 구성 요소들은 결합되어 실시될 수 있다. 따라서, 본 발명의 기술적 보호범위는 특허청구범위의 기술적 사상에 의해 정해져야 할 것이며, 본 발명의 기술적 보호범위는 특허청구범위의 문언적 기재 그 자체로 한정되는 것이 아니라 실질적으로는 기술적 가치가 균등한 범주의 발명에 대하여까지 미치는 것임을 이해하여야 한다.
100: 중복 뉴스 탐지 시스템 101: 시드 뉴스 데이터베이스
102: 검색 엔진 103: 대상 뉴스 데이터베이스
104~106: 뉴스 제공 서버시스템 110: 중복 후보 뉴스 탐지부
111: 전처리부 112: 중복 후보 뉴스 판단부
120: 중복 뉴스 탐지부 121: 중복 뉴스 탐지 전처리부
122: 중복 뉴스 판단부 130: 중복 뉴스 데이터베이스
140: 뉴스 추천부

Claims (12)

  1. 소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및
    상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하는 중복 뉴스 탐지 시스템.
  2. 제1항에 있어서,
    상기 중복 후보 뉴스 탐지부는,
    상기 시드 뉴스와 상기 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리부; 및
    상기 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 상기 제목 간의 유사도에 기초하여 상기 각각의 대상 뉴스가 상기 중복 후보 뉴스에 해당하는지 여부를 판단하는 중복 후보 뉴스 판단부를 포함하는 중복 뉴스 탐지 시스템.
  3. 제2항에 있어서,
    상기 중복 후보 뉴스 판단부는,
    상기 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 상기 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출하는 제1 유사도 산출부;
    상기 시드 뉴스의 제목과, 상기 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출하는 제2 유사도 산출부;
    상기 제1 유사도 및 상기 제2 유사도 중 보다 큰 유사도를 상기 제목 간의 유사도로 결정하는 유사도 결정부; 및
    상기 제목 간의 유사도를 소정의 임계값과 비교하여 상기 중복 후보 뉴스를 탐지하는 임계값 비교부를 포함하는 중복 뉴스 탐지 시스템.
  4. 제3항에 있어서,
    상기 중복 후보 뉴스 판단부는,
    상기 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 상기 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출하며,
    상기 제1 유사도 산출부는,
    상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제1 유사도로 산출하며,
    상기 제2 유사도 산출부는,
    상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 컨텐츠의 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 컨텐츠의 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제2 유사도로 산출하는 중복 뉴스 탐지 시스템.
  5. 제1항에 있어서,
    상기 중복 뉴스 탐지부는,
    상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 컨텐츠의 구문을 분석하며, 상기 컨텐츠에서 문장을 검출하는 중복 뉴스 탐지 전처리부; 및
    상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스가 상기 중복 뉴스에 해당하는지 여부를 판단하는 중복 뉴스 판단부를 포함하는 중복 뉴스 탐지 시스템.
  6. 제5항에 있어서,
    상기 중복 뉴스 판단부는,
    상기 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하는 단어 유사도 산출부;
    상기 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출하는 동사 유사도 산출부;
    상기 단어 간의 유사도와 상기 동사 간의 유사도를 곱셈 연산하고, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 상기 문장 간의 유사도로 결정하는 문장 유사도 결정부;
    상기 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 상기 시드 뉴스의 문장 개수 및 상기 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출하는 뉴스 관계 유사도 산출부; 및
    상기 뉴스 관계 유사도를 소정의 임계값과 비교하여 상기 중복 뉴스를 탐지하는 중복 뉴스 탐지 임계값 비교부를 포함하는 중복 뉴스 탐지 시스템.
  7. 제6항에 있어서,
    상기 단어 유사도 산출부는,
    상기 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 단어의 가중치를 산출하고, 상기 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 중복 후보 뉴스의 단어의 가중치를 산출하며, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 상기 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 상기 단어 간의 유사도로 산출하는 중복 뉴스 탐지 시스템.
  8. 제6항에 있어서,
    상기 동사 유사도 산출부는,
    상기 시드 뉴스의 문장과 상기 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최소 상위 동사를 검출하고, 상기 시드 뉴스의 문장에서 나타나는 동사, 상기 중복 후보 뉴스의 문장에서 나타나는 동사 및 상기 최소 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 상기 확률 값을 이용하여 상기 동사 간의 유사도를 산출하는 중복 뉴스 탐지 시스템.
  9. 제5항에 있어서,
    상기 중복 뉴스 탐지 전처리부는,
    상기 시드 뉴스와 상기 중복 후보 뉴스의 태그를 제거하고, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하는 태그 제거부;
    상기 컨텐츠의 구문을 분석하는 구문 분석부;
    상기 컨텐츠로부터 문장을 검출하는 문장 검출부;
    상기 문장으로부터 동사를 추출하는 동사 추출부; 및
    상기 문장의 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 불용어 제거 및 어근 처리부를 포함하는 중복 뉴스 탐지 시스템.
  10. 제1항 내지 제9항 중 어느 하나의 항에 있어서,
    상기 시드 뉴스는 하나 이상의 뉴스 제공 서버 시스템에서 제공하는 헤드라인 뉴스를 포함하며,
    상기 하나 이상의 대상 뉴스는 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색 엔진이 검색한 뉴스들을 포함하는 중복 뉴스 탐지 시스템.
  11. 제1항 내지 제9항 중 어느 하나의 항에 있어서,
    탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 더 포함하는 중복 뉴스 탐지 시스템.
  12. 소정의 시드 뉴스를 저장하는 시드뉴스 데이터베이스;
    상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 대상 뉴스들을 검색하는 검색 엔진;
    검색된 상기 대상 뉴스들을 저장하는 대상 뉴스 데이터베이스;
    상기 시드 뉴스와 상기 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 상기 시드 뉴스의 제목과 상기 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 대상 뉴스들 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부;
    상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부;
    탐지된 상기 중복 뉴스를 저장하는 중복 뉴스 데이터베이스; 및
    탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 포함하는 중복 뉴스 탐지 시스템.
KR1020120110179A 2012-10-04 2012-10-04 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법 KR101429623B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120110179A KR101429623B1 (ko) 2012-10-04 2012-10-04 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120110179A KR101429623B1 (ko) 2012-10-04 2012-10-04 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법

Publications (2)

Publication Number Publication Date
KR20140044156A true KR20140044156A (ko) 2014-04-14
KR101429623B1 KR101429623B1 (ko) 2014-08-13

Family

ID=50652280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120110179A KR101429623B1 (ko) 2012-10-04 2012-10-04 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법

Country Status (1)

Country Link
KR (1) KR101429623B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180110713A (ko) * 2017-03-29 2018-10-11 중앙대학교 산학협력단 문서 유사도 분석 장치 및 방법
WO2021064638A1 (en) * 2019-10-02 2021-04-08 Snapwise Inc Methods and systems to generate information about news source items describing news events or topics of interest
CN113591474A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN114666663A (zh) * 2019-04-08 2022-06-24 百度(美国)有限责任公司 用于生成视频的方法和装置
KR102524690B1 (ko) * 2022-07-13 2023-04-24 에이셀테크놀로지스 주식회사 뉴스 티커 매핑 방법 및 이러한 방법을 수행하는 장치
WO2024106732A1 (ko) * 2022-11-15 2024-05-23 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5320470B2 (ja) * 2009-09-18 2013-10-23 株式会社東芝 タイトル判別装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180110713A (ko) * 2017-03-29 2018-10-11 중앙대학교 산학협력단 문서 유사도 분석 장치 및 방법
CN114666663A (zh) * 2019-04-08 2022-06-24 百度(美国)有限责任公司 用于生成视频的方法和装置
WO2021064638A1 (en) * 2019-10-02 2021-04-08 Snapwise Inc Methods and systems to generate information about news source items describing news events or topics of interest
CN113591474A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113591474B (zh) * 2021-07-21 2024-04-05 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
KR102524690B1 (ko) * 2022-07-13 2023-04-24 에이셀테크놀로지스 주식회사 뉴스 티커 매핑 방법 및 이러한 방법을 수행하는 장치
WO2024106732A1 (ko) * 2022-11-15 2024-05-23 삼성전자주식회사 전자 장치 및 이의 제어 방법

Also Published As

Publication number Publication date
KR101429623B1 (ko) 2014-08-13

Similar Documents

Publication Publication Date Title
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
KR101377114B1 (ko) 뉴스 요약문 생성 시스템 및 방법
US6189002B1 (en) Process and system for retrieval of documents using context-relevant semantic profiles
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
CN109960756B (zh) 新闻事件信息归纳方法
KR101429623B1 (ko) 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
US10528662B2 (en) Automated discovery using textual analysis
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
Aquino et al. Keyword identification in spanish documents using neural networks
Khedkar et al. Customer review analytics for business intelligence
Bhaskar et al. A query focused multi document automatic summarization
Chopra et al. Sentiment analyzing by dictionary based approach
KR101429621B1 (ko) 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법
Sukumar et al. Semantic based sentence ordering approach for multi-document summarization
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
Jha et al. Hsas: Hindi subjectivity analysis system
Yunus et al. Semantic method for query translation.
Dunn et al. Language-independent ensemble approaches to metaphor identification
Lai et al. An unsupervised approach to discover media frames
KR20140049659A (ko) 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법
Shunmughavel et al. A Concept-based Ontology Mapping Method for Effective Retrieval of Bio-Medical Documents

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee