KR102141192B1

KR102141192B1 - 언론사 별 뉴스 공통 문구 수집 방법 및 장치

Info

Publication number: KR102141192B1
Application number: KR1020180127193A
Authority: KR
Inventors: 윤정혜; 최창렬
Original assignee: 네이버 주식회사
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2020-08-04
Also published as: KR20200046279A

Abstract

언론사별 공통 문구 수집 방법 및 장치가 개시된다. 일 실시예에 따른 공통 문구 수집 방법은, 언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 단계; 및 상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 단계를 포함할 수 있다.

Description

언론사 별 뉴스 공통 문구 수집 방법 및 장치{METHOD AND APPARATUS FOR COLLECTING NEWS COMMON PHARASES BASED ON MEDIA}

아래의 설명은 뉴스 기사의 공통 문구를 수집하여 뉴스 기사의 본문을 정제하는 방법 및 장치에 관한 것이다.

정보 통신 기술의 발달로 인해 인터넷 사용이 대중화되면서 기존에 오프라인에서 이루어지던 많은 서비스들이 온라인을 통해 제공되는 것이 보편화되었다. 예전에는 작성된 기사를 취합하여 종이로 된 신문을 인쇄하고 이를 일별 또는 정해진 기간 단위로 정기적으로 구독자에게 배달하는 방식이었지만, 현재는 작성된 기사를 종이가 아닌 온라인을 통해 공중에 배포하는 온라인 신문의 형태를 취하거나 또는 각 신문사들마다 온라인을 통해 배포된 온라인 기사를 인터넷 검색 엔진에서 취합하고 카테고리 별로 세분화하여 제공한다. 이에 따라 사용자는 뉴스 정보를 실시간으로 확인할 수 있게 되었다.

이와 같이, 온라인 상에서 뉴스 정보를 이용한 다양한 서비스가 제공됨에 따라 뉴스 기사를 정제하는 기술이 중요하게 되었다. 일례로, 한국공개특허 제10-2012-0004610호는 복수의 추출 대상 자료를 분석하여 추출된 텍스트 패턴을 기초로 복수의 추출 대상 자료를 정렬하고, 정렬된 복수의 추출 대상 자료로부터 추출된 정규식을 이용하여 웹 문서를 정제하고 있다. 이러한 정규식을 활용한 패턴 매칭 방법은 언론사별 기사의 요소 변화를 빠르게 반영하기 어렵고 이로 인해 기사의 본문의 일부가 제거되거나, 제거되어야 할 항목이 제거되지 않는 등 데이터가 정확하게 정제되지 않는다는 문제점이 존재한다.

기사들로부터 언론사별 공통 문구를 수집하는 방법 및 장치를 제공할 수 있다.

수집된 언론사별 공통 문구에 기초하여 기사 본문을 정제하는 방법 및 장치를 제공할 수 있다.

서버에 의해 수행되는 공통 문구 수집 방법은, 언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 단계; 및 상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 단계를 포함할 수 있다.

상기 언론사와 관련된 공통 문구를 수집하는 단계는, 상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리하는 단계를 포함할 수 있다.

상기 언론사와 관련된 공통 문구를 수집하는 단계는, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 문장 단위로 분리된 기사들로부터 문장 간 매칭을 통하여 유사도를 계산하는 단계를 포함할 수 있다.

상기 언론사와 관련된 공통 문구를 수집하는 단계는, 상기 문장 단위로 분리된 기사들의 문장 간 유사도를 계산함에 따라 획득된 각각의 유사도 값에 기초하여 언론사와 관련된 공통 문구를 추출 또는 생성하는 단계를 포함할 수 있다.

상기 언론사와 관련된 공통 문구를 수집하는 단계는, 상기 각각의 유사도 값이 1인 문구 중에서 전체 문장 개수 대비 기 설정된 값 이상을 차지하는 공통 문구를 수집하고, 상기 수집된 공통 문구를 데이터베이스에 저장하는 단계를 포함할 수 있다.

상기 언론사와 관련된 공통 문구를 수집하는 단계는, 상기 유사도에 기초하여 말머리, 바이라인, 프로모션 링크, 카피라이트 중 일치하는 복수 개의 기사의 구성 요소를 상기 언론사와 관련된 공통 문구로 수집하는 단계를 포함할 수 있다.

상기 기사의 본문을 정제하는 단계는, 신규 기사가 인입됨을 수신함에 따라 기사를 정제하기 위한 API를 호출하고, 상기 호출된 API를 통하여 상기 언론사와 관련된 수집된 공통 문구에 기초하여 신규 기사의 본문을 정제하는 단계를 포함할 수 있다.

상기 기사의 본문을 정제하는 단계는, 상기 신규 기사에서 말머리, 바이라인, 프로모션 링크, 카피라이트 중 복수 개의 기사의 구성 요소가 제외됨에 따라 정제된 신규 기사의 본문을 획득하고, 상기 정제된 신규 기사의 본문을 서비스 제공을 위하여 데이터베이스에 저장하는 단계를 포함할 수 있다.

상기 기사의 본문을 정제하는 단계는, 상기 기사를 정제하기 위한 API를 통하여 상기 신규 기사의 본문에 정의된 html 태그와 이미지 마크업을 제외하는 단계를 포함할 수 있다.

상기 기사의 본문을 정제하는 단계는, 상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문을 상기 언론사와 관련된 공통 문구와 비교함에 따라 일치하는 문구가 존재할 경우, 상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문으로부터 상기 일치하는 문구를 삭제하는 단계를 포함할 수 있다.

상기 기사의 본문을 정제하는 단계는, 상기 정제된 기사의 본문을 이용하여 기사의 써머리(Summary)를 구성하는 단계를 포함할 수 있다.

상기 기사의 본문을 정제하는 단계는, 사용자로부터 입력된 언론사 및 상기 입력된 언론사와 관련된 공통 문구에 기초하여 검색한 언론사와 관련된 뉴스 기사를 검색 결과로 제공하는 단계를 포함할 수 있다.

공통 문구 수집 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램은, 언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 단계; 및 상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 단계를 포함할 수 있다.

공통 문구 수집하기 위한 서버는, 언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 공통 문구 수집부; 및 상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 기사 본문 정제부를 포함할 수 있다.

상기 공통 문구 수집부는, 상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리할 수 있다.

상기 공통 문구 수집부는, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 문장 단위로 분리된 기사들로부터 문장 간 매칭을 통하여 유사도를 계산한 각각의 유사도 값이 1인 문구 중에서 전체 문장 개수 대비 기 설정된 값 이상을 차지하는 공통 문구를 수집하고, 상기 수집된 공통 문구를 데이터베이스에 저장할 수 있다.

상기 기사 본문 정제부는, 신규 기사가 인입됨을 수신함에 따라 기사를 정제하기 위한 API를 호출하고, 상기 호출된 API를 통하여 상기 언론사와 관련된 수집된 공통 문구에 기초하여 신규 기사의 본문을 정제할 수 있다.

상기 기사 본문 정제부는, 상기 신규 기사에서 말머리, 바이라인, 프로모션 링크, 카피라이트 중 복수 개의 기사의 구성 요소가 제외됨에 따라 정제된 신규 기사의 본문을 획득하고, 상기 정제된 신규 기사의 본문을 서비스 제공을 위하여 데이터베이스에 저장할 수 있다.

상기 기사 본문 정제부는, 상기 기사를 정제하기 위한 API를 통하여 상기 신규 기사의 본문에 정의된 html 태그와 이미지 마크업을 제외할 수 있다.

상기 기사의 본문을 정제하는 단계는, 상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문을 상기 언론사와 관련된 공통 문구와 비교함에 따라 일치하는 문구가 존재할 경우, 상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문으로부터 상기 일치하는 문구를 삭제할 수 있다.

언론사별로 수집된 공통 문구를 이용하여 정확하고 빠르게 기사 본문을 정제할 수 있다.

언론사별로 수집된 공통 문구에 기초하여 정제된 기사 본문을 활용함으로써 서비스의 품질을 높일 수 있다.

언론사를 기준으로 분류된 기사들로부터 병렬적으로 언론사와 관련된 공통 문구를 수집하기 때문에 데이터가 처리되는 소요 시간을 감소시킬 수 있다.

도 1은 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 일 실시예에 따른 전자 기기 및 서버의 내부 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 서버의 프로세서가 포함할 수 있는 구성 요소의 예를 도시한 블록도이다.
도 4는 일 실시예에 따른 서버에서 수행되는 기사의 정제 방법을 설명하기 위한 흐름도이다.
도 5는 기사의 구성 요소를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 서버에서 공통 문구를 수집하는 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시예에 따른 서버에서 수집된 공통 문구를 저장하는 것을 설명하기 위한 예이다.
도 8은 일 실시예에 따른 서버에서 기사의 본문을 정제하는 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 따른 서버에서 정제된 기사의 본문을 저장하는 것을 설명하기 위한 예이다.
도 10 및 도 11은 일 실시예에 따른 서버에서 정제된 기사의 본문을 활용한 서비스의 예이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 1은 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.

도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다.

복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 네비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 전자 기기 1(110)은 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있다.

통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.

일례로, 서버(160)는 네트워크(170)를 통해 접속한 전자 기기 1(110)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우 전자 기기 1(110)은 서버(160)로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다. 또한 전자 기기 1(110)이 포함하는 운영체제(Operating System, OS) 및 적어도 하나의 프로그램(일례로 브라우저나 상기 설치된 어플리케이션)의 제어에 따라 서버(150)에 접속하여 서버(150)가 제공하는 서비스나 컨텐츠를 제공받을 수 있다. 예를 들어, 전자 기기 1(110)이 어플리케이션의 제어에 따라 네트워크(170)를 통해 서비스 요청 메시지를 서버(150)로 전송하면, 서버(150)는 서비스 요청 메시지에 대응하는 코드를 전자 기기 1(110)로 전송할 수 있고, 전자 기기 1(110)은 어플리케이션의 제어에 따라 코드에 따른 화면을 구성하여 표시함으로써 사용자에게 컨텐츠를 제공할 수 있다.

도 2는 일 실시예에 따른 전자 기기 및 서버의 내부 구성을 설명하기 위한 블록도이다.

도 2에서는 하나의 전자 기기에 대한 예로서 전자 기기 1(110), 그리고 하나의 서버에 대한 예로서 서버(150)의 내부 구성을 설명한다. 다른 전자 기기들(120, 130, 140)이나 서버(160)뿐만 아니라 도 1을 통해 설명한 네트워크 환경에 포함될 수 있는 또 다른 전자 기기들이나 또 다른 서버들에도 동일한 또는 유사한 내부 구성요소들이 적용될 수 있다.

전자 기기 1(110)과 서버(150)는 메모리(211, 221), 프로세서(212, 222), 통신 모듈(213, 223) 그리고 입출력 인터페이스(214, 224)를 포함할 수 있다. 메모리(211, 221)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(211, 221)에는 운영체제와 적어도 하나의 프로그램 코드(일례로 전자 기기 1(110)에 설치되어 구동되는 브라우저나 상술한 어플리케이션 등을 위한 코드)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리(211, 221)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신 모듈(213, 223)을 통해 메모리(211, 221)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템(일례로 상술한 서버(160))이 네트워크(170)를 통해 제공하는 파일들에 의해 설치되는 프로그램(일례로 상술한 어플리케이션)에 기반하여 메모리(211, 221)에 로딩될 수 있다.

프로세서(212, 222)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(211, 221) 또는 통신 모듈(213, 223)에 의해 프로세서(212, 222)로 제공될 수 있다. 예를 들어 프로세서(212, 222)는 메모리(211, 221)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 모듈(213, 223)은 네트워크(170)를 통해 전자 기기 1(110)과 서버(150)가 서로 통신하기 위한 기능을 제공할 수 있으며, 다른 전자 기기(일례로 전자 기기 2(120)) 또는 다른 서버(일례로 서버(160))와 통신하기 위한 기능을 제공할 수 있다. 일례로, 전자 기기 1(110)의 프로세서(212)가 메모리(211)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청(일례로 컨텐츠에 대한 스트리밍 서비스 요청)이 통신 모듈(213)의 제어에 따라 네트워크(170)를 통해 서버(150)로 전달될 수 있다. 역으로, 서버(150)의 프로세서(222)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 통신 모듈(223)과 네트워크(170)를 거쳐 전자 기기 1(110)의 통신 모듈(213)을 통해 전자 기기 1(110)로 수신될 수 있다. 예를 들어 통신 모듈(213)을 통해 수신된 서버(150)의 제어 신호나 명령 등은 프로세서(212)나 메모리(211)로 전달될 수 있고, 컨텐츠나 파일 등은 전자 기기 1(110)가 더 포함할 수 있는 저장 매체로 저장될 수 있다.

입출력 인터페이스(214, 224)는 입출력 장치(215)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(214)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 전자 기기 1(110)의 프로세서(212)는 메모리(211)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 서버(150)나 전자 기기 2(120)가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(214)를 통해 디스플레이에 표시될 수 있다.

또한, 다른 실시예들에서 전자 기기 1(110) 및 서버(150)는 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 전자 기기 1(110)은 상술한 입출력 장치(215) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

도 3은 일 실시예에 따른 서버의 프로세서가 포함할 수 있는 구성 요소의 예를 도시한 블록도이고, 도 4는 일 실시예에 따른 서버에서 수행되는 기사 정제 방법을 설명하기 위한 흐름도이다.

서버(150)의 프로세서(222)는 공통 문구 수집부(310) 및 기사 본문 정제부(320)를 포함할 수 있다. 이러한 프로세서(222)의 구성요소들은 서버에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서(222)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서(222) 및 프로세서(222)의 구성요소들은 도 4의 기사 정제 방법이 포함하는 단계들(410 내지 420)을 수행하도록 전자 기기를 제어할 수 있다. 이때, 프로세서(222) 및 프로세서(222)의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서(222)는 기사 정제 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 서버에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 서버를 제어할 수 있다. 이때, 프로세서(222) 및 프로세서(222)가 포함하는 공통 문구 수집부(310) 및 기사 본문 정제부(320) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(410 내지 420)을 실행하기 위한 프로세서(222)의 서로 다른 기능적 표현들일 수 있다.

단계(410)에서 공통 문구 수집부(310)는 언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집할 수 있다. 예를 들면, 공통 문구 수집부(310)는 언론사(서버)로부터 전달되는 기사를 수신하여 언론사별로 기사를 수집할 수 있고, 또는 기사를 제공하는 API를 통하여 언론사별로 기사를 수집할 수 있다. 또는, 공통 문구 수집부(310)는 언론사를 기준으로 기사들을 클러스터링하여 언론사별로 기사들을 수집할 수 있다.

한편, 실시예에 따른 기사의 공통 문구를 수집하여 기사를 정제하는 설명의 이해를 돕기 위하여 도 5를 참고하여 기사의 구성 요소를 설명하기로 한다. 일반적으로 기사(500)는 컨텐츠(예를 들면, 이미지, 동영상 등)(510)와 본문(520)으로 구성될 수 있다. 본문(520)은 말머리(521), 기사의 주요 내용(522), 바이라인(523), 프로모션 링크(524) 및 카피라이트(525) 순으로 구성될 수 있다. 이때, 기사(500)는 기사의 주요 내용(522)을 제외한 나머지 요소는 생략되거나 순서가 다르게 구성될 수 있다. 말머리(521)는 기사의 주요 내용(522)이 시작되기 전에 기사 정보, 언론사 정보를 나타내는 단락이다. 바이라인(523)은 기사의 마지막에 부가되는 기사 정보를 나타내는 문구이다. 프로모션 링크(254)는 언론사가 기사에 프로모션 문구를 링크를 포함하여 제공하는 것이다. 카피라이트(255)는 언론사의 기사에 대한 저작권을 나타내는 문구이다.

도 6을 참고하면, 공통 문구 수집부(310)에서 공통 문구를 수집하는 구체적인 방법을 설명하기로 한다. 공통 문구 수집부(310)는 언론사를 기준으로 언론사별 기사를 수집할 수 있다(610). 예를 들면, 공통 문구 수집부(310)는 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성할 수 있고, 생성된 적어도 하나 이상의 언론사 그룹의 각각에 기사들이 포함될 수 있다.

공통 문구 수집부(310)는 언론사 그룹별로 기사들이 수집됨에 따라 언론사 그룹에 포함된 기사들을 문장 단위로 분리할 수 있다(620). 예를 들면, 공통 문구 수집부(310)는 언론사 그룹에 포함된 기사들에 존재하는 마침표를 기준으로 마침표와 다른 마침표 사이를 문장으로 분리할 수 있고, 주어, 목적어 및 동사를 포함하는 부분을 문장으로 인지할 수도 있다. 공통 문구 수집부(310)에서 문장을 분리하는 방법으로 다양한 방법이 적용될 수 있으며, 상기 설명한 예시에 한정되는 것은 아니하다.

공통 문구 수집부(310)는 언론사 그룹에 포함된 문장 단위로 분리된 기사들의 문장 간 매칭을 통하여 유사도를 계산할 수 있다(630). 예를 들면, 공통 문구 수집부(310)는 각각의 문장에 대한 1:1 매칭을 통하여 유사도를 계산할 수 있다. 공통 문구 수집부(310)는 두 문장 간의 유사도를 판별하기 위하여 다양한 방법이 적용될 수 있으며, 일례로, Jaro-Winkler distance 알고리즘을 적용하여 하나의 문자열을 다른 문자열로 변환하는데 필요한 문자 대체 수를 기반으로 두 문자열 간의 유사도를 판별할 수 있다. 이때, 두 문장뿐만 아니라 위치까지도 판별하여 유사도를 계산할 수도 있다.

공통 문구 수집부(310)는 빈번하게 중복되는 공통 문구를 필터링할 수 있다(640). 공통 문구 수집부(310)는 문장 단위로 분리된 기사들의 유사도를 계산함에 따라 획득된 각각의 유사도 값에 기초하여 언론사별 공통 문구를 추출 또는 생성할 수 있다. 예를 들면, 공통 문구 수집부(310)는 유사도 값에 기초하여 일치하는 문구를 정확하게 추출할 수 있고, 또는, 유사도 값에 기초하여 유사한 문구를 추출한 후 추출된 유사한 문구에 대한 특정 처리를 통하여 공통 문구를 생성할 수도 있다. 또는, 공통 문구 수집부(310)는 두 문장 간 1:1 매칭을 통하여 유사도를 계산함에 따라 획득된 유사도 값이 1인 문구를 추출할 수 있다. 공통 문구 수집부(310)는 유사도 값이 1인 문구 중에서 전체 문장 개수 대비 기 설정된 값(예를 들면, 30%) 이상을 차지하는 문구를 공통 문구로 수집하고, 수집된 공통 문구를 데이터베이스에 저장할 수 있다(650).

도 7을 참고하면, 데이터베이스에 언론사별 공통 문구(700)를 저장한 것을 나타낸 예이다. 일례로, 각각의 언론사별로 기사에 말머리, 바이라인, 프로모션 링크, 카피라이트 등이 유사한 또는 동일한 형식으로 부가될 수 있다. 공통 문구 수집부(310)는 언론사 그룹에 포함된 기사들의 문장 간 계산된 유사도에 기초하여 기사의 구성 요소인 말머리, 바이라인, 프로모션 링크, 카피라이트 중 일치하는 복수 개의 기사의 구성 요소를 언론사와 관련된 공통 문구로 수집할 수 있다. 이때, 기사의 구성 요소 이외에도 언론사마다 공통적으로 부가되는 문구가 공통 문구로 수집될 수도 있다. 예를 들면, 공통 문구 수집부(310)는 짧은 기간뿐만 아니라, 중장기적으로 언론사별 공통 문구를 수집할 경우 언론사와 관련된 기자의 이름까지도 공통 문구로 수집될 수 있다.

공통 문구 수집부(310)는 수집된 공통 문구(700)를 데이터베이스에 저장할 수 있고, 데이터베이스에 저장된 공통 문구(700)를 기사 본문의 정제를 위하여 사용할 수 있다. 공통 문구 수집부(310)는 언론사를 기준으로 언론사와 관련된 공통 문구(700)를 분류하여 데이터베이스에 저장할 수 있다.

또한, 공통 문구 수집부(310)는 공통 문구를 수집함에 있어서 빅데이터 처리를 수행할 수 있다. 공통 문구 수집부(310)는 공통성이 예상되는 언론사 그룹에 대하여 빅데이터 처리로 공통 문구를 신속하게 도출할 수 있다. 공통 문구 수집부(310)는 빅데이터 처리를 통하여 주기적으로 기사와 관련된 공통 문구를 수집하여 업데이트할 수 있다. 이에 따라, 기사의 본문이 변경되더라도 공통 문구를 자동으로 업데이트할 수 있다.

단계(420)에서 기사 본문 정제부(320)는 수집된 언론사와 관련된 공통 문구에 기초하여 신규 기사의 본문을 정제할 수 있다. 도 8을 참고하면, 신규 기사의 본문을 정제하는 방법을 설명하기 위한 흐름도이다. 기사 본문 정제부(320)는 신규 기사가 인입됨을 수신할 수 있다. 기사 본문 정제부(320)는 신규 기사가 인입됨을 수신함에 따라 기사의 본문을 정제하기 위한 API를 호출할 수 있다(810).

기사 본문 정제부(320)는 호출된 API를 통하여 언론사와 관련된 공통 문구에 기초하여 신규 기사의 본문을 정제할 수 있다. 이때, 말머리, 바이라인, 프로모션 링크, 카피라이트 중 복수 개의 기사의 구성 요소가 제외된 정제된 신규 기사의 본문이 결과로서 획득될 수 있다(820). 예를 들면, 신규 기사에서 기사의 구성 요소 중 항상 동일하게 제공되는 프로모션 링크와 카피라이트가 삭제될 수 있다.

기사 본문 정제부(320)는 정제된 신규 기사의 본문을 서비스 제공을 위하여 데이터베이스에 저장할 수 있다(830). 도 9를 참고하면, 데이터베이스에 정제된 신규 기사의 본문(900)을 저장한 것을 나타낸 예이다. 데이터베이스(900)에 언론사의 기사 본문과 정제된 기사 본문이 함께 저장될 수 있다. 이러한 정제된 기사 본문이 다양한 서비스의 제공을 위하여 활용될 수 있다.

구체적으로, 기사의 본문을 정제하기 위한 API는 다음의 프로세스를 수행하여 신규 기사의 본문을 정제할 수 있다. 기사의 본문을 정제하기 위한 API는 신규 기사의 본문에 정의된 html 태그와 이미지 마크업을 제외하고, html 태그와 이미지 마크업이 제외된 신규 기사의 본문을 언론사와 관련된 공통 문구와 비교하여 일치하는 문구의 유무를 판단할 수 있다. html 태그와 이미지 마크업이 제외된 신규 기사 본문과 언론사와 관련된 공통 문구를 비교함에 따라 일치하는 문구가 존재할 경우, html 태그와 이미지 마크업이 제외된 신규 기사의 본문에서 일치하는 문구를 삭제할 수 있다. 또한, 기사 본문 정제부(320)는 기사 또는 기사를 구성하는 파일에 따라 기사 본문의 정제 정확도를 위하여 일부 패턴 매칭을 수행할 수도 있다.

도 10 및 도 11은 일 실시예에 따른 서버에서 정제된 기사의 본문을 활용한 서비스의 예이다.

서버는 정제된 기사의 본문을 활용하여 다양한 서비스에 적용시킬 수 있다. 도 10을 참고하면, 서버는 정제된 기사의 본문에 기초하여 뉴스 리스트를 제공할 수 있다. 서버는 정제된 기사의 본문을 활용하여 기사의 써머리(summary)(1010)를 구성할 수 있다. 예를 들면, 서버는 정제된 기사의 본문으로부터 단어를 추출하여 써머리(1010)를 구성할 수 있다. 또는, 서비스 제공을 위한 별도의 서비스 서버에게 정제된 기사를 제공함에 따라 서비스 서버에서 정제된 기사의 본문을 활용하여 기사의 써머리(1010)가 구성될 수도 있다. 이와 같이, 정제된 기사의 본문을 활용하기 때문에 보다 정확하고 의미있는 기사의 써머리를 생성할 수 있게 된다. 정제된 기사의 본문을 활용하여 서비스 화면(1000)에 뉴스 리스트가 제공될 수 있다. 뉴스 리스트가 제공되는 서비스 화면(1000)에 기사, 기사와 관련된 정보(예를 들면, 언론사 정보, 기사가 업로드된 시점 등)뿐만 아니라 정제된 기사의 본문에 기초하여 구성된 기사의 써머리(1010)도 함께 출력될 수 있다.

다른 예로서, 도 11을 참고하면, 검색 서비스를 위한 서비스 화면(110)을 나타낸 것이다. 예를 들면, 사용자는 언론사와 관련된 뉴스 기사를 검색 결과로 제공받기 위하여 서비스 화면(1100)을 통하여 언론사를 검색어(1110)로 입력할 수 있다. 검색어로 입력된 언론사에 대한 기사를 검색함에 있어서, 검색어로 입력된 언론사에 대응하는 동일한 단어가 존재할 경우, 언론사와 상관없는 검색 결과가 검색될 수 있는 점을 고려하여, 검색어로 입력된 언론사 및 언론사와 관련된 공통 문구를 함께 검색하여 추출된 검색 결과를 제공할 수 있다. 검색 서비스를 위한 서비스 화면(1100)에 언론사와 관련된 뉴스 기사가 출력될 수 있다. 이에, 사용자가 원하는 검색 결과가 서비스 화면(1100)에 보다 빠르고 정확하게 제공될 수 있다.

또 다른 예로서, 기사를 요약함에 있어서, 별도의 정제 로직을 통하여 뉴스 요약 봇이 동작될 수 있다. 뉴스 봇이 정제된 기사의 본문으로부터 단어를 추출하여 요약을 수행하기 때문에 기사 본문 정제에 대한 관리를 일원화시킬 수 있고, 요약의 품질을 향상시킬 수 있다.

또 다른 예로서, 기사의 본문을 음성으로 변환하는 TTS에 적용할 수 있다. 다시 말해서, 텍스트 데이터로 구성된 기사의 본문을 음성 데이터로 변환함에 있어서, 정제된 기사의 본문을 이용하여 음성 데이터로 변환함으로써 기사의 본문과는 상관없는 내용들이 함께 음성 데이터로 출력되는 것을 방지할 수 있고, 서비스 품질을 향상시킬 수 있다.

또한, 더 나아가 정제된 기사의 본문에 대하여 형태소를 분석할 수 있고, 시맨틱 태깅 및 뉴스 클러스터링에 활용할 수도 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

서버에 의해 수행되는 공통 문구 수집 방법에 있어서,
언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 단계; 및
상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 단계
를 포함하고,
상기 기사의 본문을 정제하는 단계는,
신규 기사가 인입됨을 수신함에 따라 기사를 정제하기 위한 API를 호출하고, 상기 호출된 API를 통하여 상기 언론사와 관련된 수집된 공통 문구에 기초하여 신규 기사의 본문을 정제하는 단계
를 포함하는 공통 문구 수집 방법.
제1항에 있어서,
상기 언론사와 관련된 공통 문구를 수집하는 단계는,
상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리하는 단계
를 포함하는 공통 문구 수집 방법.
제2항에 있어서,
상기 언론사와 관련된 공통 문구를 수집하는 단계는,
상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 문장 단위로 분리된 기사들로부터 문장 간 매칭을 통하여 유사도를 계산하는 단계
를 포함하는 공통 문구 수집 방법.
제3항에 있어서,
상기 언론사와 관련된 공통 문구를 수집하는 단계는,
상기 문장 단위로 분리된 기사들의 문장 간 유사도를 계산함에 따라 획득된 각각의 유사도 값에 기초하여 언론사와 관련된 공통 문구를 추출 또는 생성하는 단계
를 포함하는 공통 문구 수집 방법.
서버에 의해 수행되는 공통 문구 수집 방법에 있어서,
언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 단계; 및
상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 단계
를 포함하고,
상기 언론사와 관련된 공통 문구를 수집하는 단계는,
상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 문장 단위로 분리된 기사들로부터 문장 간 매칭을 통하여 유사도를 계산하고, 상기 문장 단위로 분리된 기사들의 문장 간 유사도를 계산함에 따라 획득된 각각의 유사도 값에 기초하여 언론사와 관련된 공통 문구를 추출 또는 생성하며, 상기 각각의 유사도 값이 1인 문구 중에서 전체 문장 개수 대비 기 설정된 값 이상을 차지하는 공통 문구를 수집하고, 상기 수집된 공통 문구를 데이터베이스에 저장하는 단계
를 포함하는 공통 문구 수집 방법.
서버에 의해 수행되는 공통 문구 수집 방법에 있어서,
언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 단계; 및
상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 단계
를 포함하고,
상기 언론사와 관련된 공통 문구를 수집하는 단계는,
상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 문장 단위로 분리된 기사들로부터 문장 간 매칭을 통하여 유사도를 계산하고, 상기 문장 단위로 분리된 기사들의 문장 간 유사도를 계산함에 따라 획득된 각각의 유사도 값에 기초하여 언론사와 관련된 공통 문구를 추출 또는 생성하며, 상기 유사도에 기초하여 말머리, 바이라인, 프로모션 링크, 카피라이트 중 일치하는 복수 개의 기사의 구성 요소를 상기 언론사와 관련된 공통 문구로 수집하는 단계
를 포함하는 공통 문구 수집 방법.
삭제
제1항에 있어서,
상기 기사의 본문을 정제하는 단계는,
상기 신규 기사에서 말머리, 바이라인, 프로모션 링크, 카피라이트 중 복수 개의 기사의 구성 요소가 제외됨에 따라 정제된 신규 기사의 본문을 획득하고, 상기 정제된 신규 기사의 본문을 서비스 제공을 위하여 데이터베이스에 저장하는 단계
를 포함하는 공통 문구 수집 방법.
제1항에 있어서,
상기 기사의 본문을 정제하는 단계는,
상기 기사를 정제하기 위한 API를 통하여 상기 신규 기사의 본문에 정의된 html 태그와 이미지 마크업을 제외하는 단계
를 포함하는 공통 문구 수집 방법.
제9항에 있어서,
상기 기사의 본문을 정제하는 단계는,
상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문을 상기 언론사와 관련된 공통 문구와 비교함에 따라 일치하는 문구가 존재할 경우, 상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문으로부터 상기 일치하는 문구를 삭제하는 단계
를 포함하는 공통 문구 수집 방법.
제1항에 있어서,
상기 기사의 본문을 정제하는 단계는,
상기 정제된 기사의 본문을 이용하여 기사의 써머리(Summary)를 구성하는 단계
를 포함하는 공통 문구 수집 방법.
제1항에 있어서,
상기 기사의 본문을 정제하는 단계는,
사용자로부터 입력된 언론사 및 상기 입력된 언론사와 관련된 공통 문구에 기초하여 검색한 언론사와 관련된 뉴스 기사를 검색 결과로 제공하는 단계
를 포함하는 공통 문구 수집 방법.
제1항 내지 제6항, 제8항 내지 제12항 중 어느 한 항의 공통 문구 수집 방법을 상기 서버에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
공통 문구를 수집하기 위한 서버에 있어서,
언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 공통 문구 수집부; 및
상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 기사 본문 정제부
를 포함하고,
상기 기사 본문 정제부는,
신규 기사가 인입됨을 수신함에 따라 기사를 정제하기 위한 API를 호출하고, 상기 호출된 API를 통하여 상기 언론사와 관련된 수집된 공통 문구에 기초하여 신규 기사의 본문을 정제하는
서버.
제14항에 있어서,
상기 공통 문구 수집부는,
상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리하는
것을 특징으로 하는 서버.
공통 문구를 수집하기 위한 서버에 있어서,
언론사를 기준으로 분류된 기사들로부터 언론사와 관련된 공통 문구를 수집하는 공통 문구 수집부; 및
상기 수집된 언론사와 관련된 공통 문구에 기초하여 기사의 본문을 정제하는 기사 본문 정제부
를 포함하고,
상기 공통 문구 수집부는,
상기 언론사를 기준으로 기사들을 분류함에 따라 적어도 하나 이상의 언론사 그룹을 생성하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 기사들을 문장 단위로 분리하고, 상기 생성된 적어도 하나 이상의 언론사 그룹의 각각에 포함된 문장 단위로 분리된 기사들로부터 문장 간 매칭을 통하여 유사도를 계산한 각각의 유사도 값이 1인 문구 중에서 전체 문장 개수 대비 기 설정된 값 이상을 차지하는 공통 문구를 수집하고, 상기 수집된 공통 문구를 데이터베이스에 저장하는
것을 특징으로 하는 서버.
삭제
제14항에 있어서,
상기 기사 본문 정제부는,
상기 신규 기사에서 말머리, 바이라인, 프로모션 링크, 카피라이트 중 복수 개의 기사의 구성 요소가 제외됨에 따라 정제된 신규 기사의 본문을 획득하고, 상기 정제된 신규 기사의 본문을 서비스 제공을 위하여 데이터베이스에 저장하는
것을 특징으로 하는 서버.
제14항에 있어서,
상기 기사 본문 정제부는,
상기 기사를 정제하기 위한 API를 통하여 상기 신규 기사의 본문에 정의된 html 태그와 이미지 마크업을 제외하는
것을 특징으로 하는 서버.
제19항에 있어서,
상기 기사 본문 정제부는,
상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문을 상기 언론사와 관련된 공통 문구와 비교함에 따라 일치하는 문구가 존재할 경우, 상기 html 태그와 이미지 마크업이 제외된 신규 기사의 본문으로부터 상기 일치하는 문구를 삭제하는
것을 특징으로 하는 서버.