KR20110009142A

KR20110009142A - 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법

Info

Publication number: KR20110009142A
Application number: KR1020107025292A
Authority: KR
Inventors: 필립 자보오; 제라르 뷔흔씨드
Original assignee: 알까뗄 루슨트
Priority date: 2008-04-14
Filing date: 2009-04-09
Publication date: 2011-01-27
Also published as: US8521702B2; KR101595748B1; CN102037465B; CN102037465A; JP5535193B2; WO2009144078A1; US20110119239A1; EP2110760A1; JP2011517822A

Abstract

신디케이팅된 웹 콘텐트를 수집하기 위한 방법은: 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 검색하는 단계(100); 업데이트된 콘텐트를 이전에 검색된 저장된 콘텐트와 비교하는 단계(120); 업데이트된 콘텐트가 저장된 콘텐트와 상이하다고 간주되는 경우 업데이트된 콘텐트를 저장하는 단계(160); 및 업데이트된 콘텐트가 저장된 콘텐트와 동일하다고 간주되는 경우 업데이트된 콘텐트를 삭제하는 단계(170)를 포함한다.

Description

리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법{METHOD FOR AGGREGATING WEB FEED MINIMIZING REDUNDANCIES}

본 발명은 웹 피드(Web feed)의 수집(aggregation)에 관한 것이다.

월드 와이드 웹(World Wide Web)이 1990년대 초기에 시작된 이래로, 월드 와이드 웹은 매우 대중화되었으며 이는 현재 텍스트들, 이미지들, 비디오들, 및 다른 웹 페이지들로의 링크들(또한 하이퍼링크(hyperlink)들로서 칭해진다)과 같은 다양한 콘텐트들을 포함하는 수십억의 웹 페이지들을 포함한다. 월드 와이드 웹은 수십억의 웹 서퍼(Web surfer)들에 의해 매일 이용된다.

오늘날 온라인에 접속하는 것이 매우 간단하고 특정한 기술들이나 국가 또는 국제 기관 앞에서의 특정한 절차들을 필요로 하지 않고, 이는 실제로도 존재하지 않는다. 놀랍게도, 누군가가 웹을 분류하여 이점을 얻을 수 있을지라도, 군(family)들 내에서 웹 사이트들을 그룹화하기 위해 그와 같은 분류를 행하려는 시도가 행해지지 않았다. 그러므로, 웹 서퍼(surfer)들은 실체적이고 신뢰성 있는 업데이트된 정보를 검색하는 것이 점차 어려워지고 있다. 웹 브라우저들은 물론 도움이 되지만, 웹 페이지들의 수가 증가함에 따라, 수많은 시맨틱(semantic) 탐색 요청들로 인해 대개 분류되지 않고, 종종 중복되고, 불명료하여 결국 간단하게 동작할 수 없는 로우 콘텐트(raw content)를 야기한다.

2000년대 초기에, 서퍼들이 적절한 순간에 올바른 정보를 획득하는 것을 도와주는, 신디케이션(syndication)이라 칭해지는 해법이 제안되었다. 신디케이션에서, 하나의 웹 사이트의 섹션이 이용할 다른 웹 사이트들에 대해서도 이용 가능하게 된다. 구체적으로, 웹 신디케이션에서, 콘텐트(통상적으로 웹 피드(Web feed)로 칭해진다)는 웹 사이트 상에 특정한 포맷 - 흔히, RSS(Real Simple Syndication) 또는 Atom과 같은, XML-기반(XML은 eXtensible Markup Language를 나타낸다) - 으로 배치되고, 또한 피드 판독기 또는 뉴스 판독기라고 칭해지며 고객의 단말 또는 서버 상에서 국지적으로 구동하는 피드 수집기(feed aggregator)라고 칭해진 특정한 애플리케이션에 의해 대응하는 콘텐트를 검색하기 위해 또 다른 이용자(고객)가 가입할 수 있는 피드 링크와 연관된다.

피드에 가입했다면, 피드 수집기는 미리 결정된 인터벌(interval)들(이용자에 의해 규정될 수 있다)에서 업데이트된 콘텐트를 체크하고 검색하도록 구성될 수 있다. 현대의 웹 브라우저들은 흔히 iGoogle^TM 및 My Yahoo^TM과 같은 내장형 수집기들을 포함한다. 미국 특허 출원들 US 2008/0034058(Marchex, Inc.에 양도됨) 및 US 2008/0046543(RealNetworks에 양도됨) 양쪽 모두는 웹 피드들을 획득하기 위한 방법들을 도시한다.

피드 수집기들이 월드 와이드 웹으로부터 업데이트된 정보를 검색하고 이용자 친화적 그래픽 인터페이스(graphical interface; GUI)를 통해 최종 이용자가 이용가능하도록 하기 위한 강력한 리소스(resource)일지라도, 조약(article)들의 양은 때때로, 특히 이용자가 많은 웹 피드들에 가입했을 때, 엄청날 수 있다. 이 문제를 처리하기 위해서, 어떤 피드 수집기들은 이용가능한 조약들을 용이하게 네비게이팅(navigating)가능한 범주들로 분류 또는 필터링(filtering)하기 위해 이용자들이 피드들을 키워드들로 태그(tag)할 수 있게 하는 기능성들을 포함한다. 그러나 이 해법은 시간 소모적인데, 왜냐하면 이용자는 자신이 업데이트된 콘텐트를 획득하고자 하는 피드들의 사전 분류를 행해야만 하기 때문이다. 게다가, 웹 피드들을 태그하는 것은 검색될 콘텐트가 각각의 업데이트(신문 웹사이트들에서와 같은)로 인해 주제를 변경할 때 간단하게 무용해진다.

웹 서퍼들이 완전하게 작동가능한 방식으로 웹 피드들로부터 검색된 정보를 자동화된 방법으로 획득할 수 있게 하는 해법에 대한 필요성이 분명히 존재한다.

본 발명의 목적은 그와 같은 해법을 제공하는 것이다.

따라서, 하나의 양태에 따르면, 본 발명은 신디케이팅된 웹 콘텐트를 수집하기 위한 방법을 제공하고, 상기 방법은:

- 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 검색하는 단계;

- 업데이트된 콘텐트를 이전에 검색되고 저장된(예를 들면, 피드 이력 데이터베이스(feeds historic database 내의 엔트리(entry)로서 저장된) 콘텐트와 비교하는 단계;

- 업데이트된 콘텐트가 저장된 콘텐트와 상이하다고 간주되는 경우 업데이트된 콘텐트를 저장하는 단계; 및

- 업데이트된 콘텐트가 저장된 콘텐트와 동일하다고 간주되는 경우 업데이트된 콘텐트를 삭제하는 단계를 포함한다.

부가적인 단계들, 즉:

- 업데이트된 콘텐트가 저장된 콘텐트를 보완하는 것으로 간주되는 경우 업데이트된 콘텐트를 저장된 콘텐트에 추가하는 단계;

- 업데이트된 콘텐트와 저장된 콘텐트 사이의 유사성의 정도를 나타내기 위해 유사성 지수(similarity index) S^j _k를 계산하는 단계; 및

- 유사성 지수 S^j _k를 하나 이상의 임계값들과 비교하는 단계가 제공될 수 있다. 특히, 유사성 지수 S^j _k는 두 임계값들 S_min 및 S_max와 비교되고,

- 유사성 지수 S^j _k가 S_min보다 작은 경우, 업데이트된 콘텐트는 저장된 콘텐트와 상이하다고 간주되고;

- 유사성 지수 S^j _k가 S_max보다 큰 경우, 업데이트된 콘텐트는 저장된 콘텐트와 동일하다고 간주되어서 저장된 콘텐트에 추가될 수 있고;

- 유사성 지수 S^j _k가 S_min와 S_max 사이에 포함되는 경우, 업데이트된 콘텐트는 저장된 콘텐트를 보완하는 것으로 간주된다.

또 다른 양태에 따르면, 본 발명은:

- 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 체크하고 검색하기 위해 구성된 피드 판독기;

- 업데이트된 콘텐트의 이전에 검색되고 저장된 콘텐트와의 비교를 관리하기 위해 구성된 필터링 모듈(filtering module); 및

- 콘텐트를 저장하기 위한 피드 이력 데이터베이스를 포함하는 피드 수집기를 제공한다.

피드 수집기는 또한 필터링 모듈에 링크되고, 업데이트된 콘텐트 및 저장된 콘텐트를 비교하기 위해 구성된 하나 이상의 엔트리 분석기들을 포함할 수 있다. 특히, 하나 이상의 엔트리 분석기는:

- 업데이트된 콘텐트와 저장된 콘텐트 사이의 유사성의 정도를 나타내는 유사성 지수 S^j _k를 계산하고,

- 유사성 지수를 하나 이상의 임계값들과 비교하여 업데이트된 콘텐트가 제거되어야 하는지 또는 피드 이력 데이터베이스에 추가되어야 하는지의 여부를 결정하기 위해 구성될 수 있다.

본 발명의 상기 및 다른 목적들과 이점들은 첨부 도면들과 함께 고려된, 바람직한 실시예들의 상세한 설명으로부터 명확해질 것이다.

도 1은 본 발명에 따른 피드 수집기의 구조를 도시하는 개요도.
도 2는 본 발명에 따른 신디케이팅된 웹(10) 콘텐트를 수집하기 위한 방법의 흐름도.

이제 도면들을 참조하면, 개인용 컴퓨터(PC), 서버, 통신 개인 휴대용 정보 단말기(personal digital assistant; PDA), 스마트폰 등과 같은 컴퓨터 디바이스의 프로세싱 유닛(processing unit) 상에서 컴퓨터 프로그램으로서 구현된, 피드 수집기(1)가 도 1에 도시된다.

피드 수집기(1)는 원격 웹 사이트들에 제공된 웹 피드들(3)로부터 업데이트된 신디케이팅된 웹 콘텐트를 체크하고 검색하도록 구성된 피드 판독기 모듈(2)을 포함한다. 피드 수집기(1)가 RSS 피드들을 처리하도록 구성되는 것이 바람직할지라도, 임의의 다른 포맷(예를 들면, Atom)이 이용될 수 있다. 단지 설명을 위해 세 웹 피드들(3)이 도 1에 도시되는데, 왜냐하면 피드 수집기(1)는 이용자에 의해 구성될 수 있는 수만큼 웹 피드들에 링크될 수 있기 때문이다.

피드 수집기(1)는 또한 피드 판독기(2)에 링크되는 필터링 모듈(4)을 포함하고, 피드 판독기(2)는 이후에 개시될 바와 같이, 또한 프로세싱되어야 할 검색된 업데이트된 콘텐트를 필터링 모듈(4)에 전송하여 리던던시(redundancy)들을 제거한다.

피드 수집기(1)는 피드 이력 데이터베이스(5)를 추가로 포함하고, 여기서 이전에 검색된 피드 콘텐트는 엔트리들로서 저장된다.

피드 수집기(1)는 업데이트된 콘텐트가:

- 피드 수집기(1)로부터 제거,

- 데이터베이스(5) 내에 새로운 엔트리로서 저장, 또는

- 데이터베이스(5) 내의 기존 엔트리에 추가되어야만 하는지의 여부를 결정하기 위해 필터링 모듈(4)에 링크되고, 업데이트된 콘텐트를 피드 이력 데이터베이스(5) 내에서 이전에 검색되고 엔트리들로서 저장된 콘텐트와 비교하도록 구성되는, 적어도 하나의 엔트리 분석기(6)를 추가로 포함한다.

피드 수집기(1)는 또한 이력 액세스 모듈(7)을 포함하고, 이력 액세스 모듈(7)은 필터링 모듈(4)과 피드 이력 데이터베이스(5) 사이에 개재되고, 필터링 모듈(4)에 의해 새로운 엔트리로서 저장되거나 기존 엔트리에 추가되기 위해 적합하다고 판단되었던 업데이트된 콘텐트를 저장하기 위해서 피드 이력 데이터베이스(5)에 액세스하고 피드 이력 데이터베이스(5)를 관리하도록 구성된다.

피드 수집기(1)의 정확한 동작이 이제 기술될 것이다.

이용자에 의해 구성될 때마다, 피드 판독기(2)는 이용자(100)에 의해 가입된 미리 결정된 웹 피드들(3)로부터 업데이트된 콘텐트를 체크하고 검색한다. 다음의 설명에서, 피드 판독기(2)는 P개의 서브스크립션들(subscriptions)로 구성되고, P는 1보다 크거나 1과 같은 정수(P≥1)라고 가정한다. j가 P보다 작거나 같은 정수(1≤j≤P)일 때, F_j는 j번째 웹 피드(3)로부터 검색된 업데이트된 콘텐트를 나타낸다. F_j는 완전한 웹 페이지들 또는 이들의 일부를 포함할 수 있다: 텍스트, 이미지들, 비디오들, 하이퍼링크들 등. 피드 이력 데이터베이스(5)는 다수(N)의 엔트리들을 포함하고, N은 1보다 크거나 같은 정수(N≥1)이다. k가 N보다 작거나 같은 정수(1≤k≤N)일 때, E_k는 피드 이력 데이터베이스(5)에 저장된 k번째 엔트리를 나타낸다.

업데이트된 콘텐트 F_j는 피드 판독기(2)에 의해 필터링 모듈(4)로 전송되고, 여기서 상기 업데이트된 콘텐트 F_j는 임시로 저장된다. 필터링 모듈(4)은 이력 액세스 모듈(7)을 통해, 저장된 엔트리들 E_k의 목록을 검색하고, 이 저장된 엔트리들의 목록이 업데이트된 콘텐트 F_j와 비교될 것이다. 더 정확하게, 필터링 모듈(4)은 저장된 엔트리들 E_k의 목록에 걸쳐 반복되고, 이 저장된 엔트리들 E_k의 목록이 다음의 범주들 사이에서 분류되기 위해 업데이트된 콘텐트 F_j와 비교되어야 한다: 제거(삭제)되어야 하고; 저장된 엔트리 E_k에 추가되어야 하고; 새로운 엔트리 E_N ₊₁로서 저장되어야 한다.

더 상세하게, 초기에 1과 동일하게 설정된 k를 이용하여(110), 업데이트된 콘텐트 F_j는 적어도 하나의 엔트리 분석기(6)에 의해 저장된 엔트리 E_k와 비교된다(120). 비교는 다양한 방법들을 통해 달성될 수 있다:

- 타이틀(title)들의 기본 열 비교;

- 비교된 콘텐트들 사이의 공통 키워드들을 결정하기 위한 구문 분석; 및

- 비교된 콘텐트들에서 이용된 공통 존재론적 개념들을 결정하기 위한 의미 기반 분석. 비교의 분야를 제한하기 위해서, 존재론 도메인들(ontology domains)은 엔트리들 E_k와 연관된 미리 결정된 태그들에 의해 제한될 수 있다.

이들 비교 방법들은 단독으로 이용되거나, 전체 비교 프로세스의 상이한 단계들로 결합될 수 있다. 비교 방법들의 결합 이용은 계층적일 수 있다. 즉, 구문 분석 단계는 동일한 타이틀들을 가지는 콘텐트들이 비록 상이할 수 있는지의 여부를 결정하기 위해서 타이틀들의 기본 열 비교 단계로 인해서 타이틀들이 동일하다고 단언되는 경우에만 착수될 수 있다. 계속해서, 시맨틱-기반 분석 단계는 비교의 정확도의 정도를 더 증가시키기 위해, 구문 분석 단계가 구문이 유사하다고 결정했을 경우에만 착수될 수 있다. 비교의 각각의 단계는 상이한 엔트리 분석기(6) 상에서 구동될 수 있다.

업데이트된 콘텐트 F_j와 저장된 엔트리 E_k 사이의 비교를 달성하였다면, 엔트리 분석기(6)는 F_j와 E_k 사이의 유사성의 정도를 나타내는 유사성 지수 S_k ^j를 계산한다(130). 유사성 지수 S_k ^j는 우선 필터링 모듈(4)에 제공되고, 필터링 모듈(4)은 S_k ^j 값에 기초하여, F_j 및 E_k이 동일하거나 상이하다고 간주되어야 하는지의 여부를 결정하고, 둘째로, 결과에 따라 F_j에 관한 대응하는 결정을 취한다. 기본적으로, S_k ^j = 0%는 F_j 및 E_k가 상이하다고 간주되어야 함을 의미하고, 반면에 S_k ^j = 100%는 F_j 및 E_k가 동일하다고 간주되어야 함을 의미한다. S_k ^j는 0부터 100까지 상이할 수 있으므로, F_j 및 E_k가 동일하다고 간주되지 않을 수 있을지라도, F_j 및 E_k가 또한 상이한 것으로 고려될 수 없다. 업데이트된 콘텐트 F_j에 관한 적절한 결정을 행하기 위해, 필터링 모듈(4)은 적어도 하나의 임계값 S로 구현될 수 있어서:

- S_k ^j < S인 경우, F_j는 E_k와 상이하다고 간주되어야 하고;

- S_k ^j ≥ S인 경우, F_j는 E_k와 동일하다고 간주되어야 한다.

일 바람직한 실시예에서, 필터링 모듈(4)은 두 임계값들 S_min 및 S_max로 구현되고, 여기서 S_min < S_max이고:

- S_k ^j ≤ S_min인 경우, F_j는 E_k와 상이하다고 간주되어야 하고;

- S_k ^j ≥ S_max인 경우, F_j는 E_k와 동일하다고 간주되어야 하고;

- S_min < S_k ^j < S_max인 경우, F_j는 E_k를 보완하는 것으로 간주되어야 한다.

임계값들 S_min 및 S_max는 한 이용자로부터 다른 이용자로 변할 수 있는 정확도의 필요한 정도에 따라 설정될 수 있다. 디폴트 값들은 S_min = 20% 및 S_max = 80%로 설정될 수 있다.

필터링 모듈은 유사성 지수 S_k ^j를 임계값들 S_min 및 S_max와 비교하고(140) 다음의 선택 사항들 중에서 F_j에 관한 결정을 계산한다:

- F_j가 E_k와 상이하다고 간주되는 경우(S_k ^j ≤ S_min), F_j는 다음 엔트리와 비교될 것이다. 특히, k는 1에 의해 구현되고(150) 비교 프로세스는 F_j 및 E_k ₊₁로 반복된다. 엔트리 E_k가 마지막 엔트리인 경우(k = N), F_j는 자신이 모든 엔트리들 E_k(1≤k≤N)과는 상이하다고 간주되므로, 필터링 모듈(4)에 의해 이력 액세스 모듈(7)로 제공되어 필드 이력 데이터베이스(5) 내에 새로운 엔트리 E_N ₊₁로서 저장된다(160).

- F_j가 E_k와 동일하다고 간주되는 경우(S_k ^j ≥ S_max), 이는 F_j가 E_k와 중복된다는 것을 의미하므로(그러므로 무용하다), F_j는 필터링 모듈(4)에 의해 제거된다(즉, 피드 수집기(1)로부터 삭제된다)(170);

- F_j가 E_k를 보완하는 것 간주되는 경우(S_min < S_k ^j < S_max), 이는 기존 엔트리 E_k를 수정하는 필터링 모듈(4)에 의해 E_k에 추가되거나 결합되고, 이력 액세스 모듈(7)에 수정된 엔트리 E_k를 제공하여 이전에 저장된 엔트리 E_k를 피드 이력 데이터베이스(5) 내에 대체한다.

이 비교 프로세스는 모든 업데이트된 콘텐트들 F_j(1≤j≤P)에 의해서 반복된다.

위에 개시된 방법은 단지 저장된 콘텐트와 상이하다고 간주되는 콘텐트만이 새로운 엔트리로서 저장되므로 리던던시들을 방지한다. 개시된 수집기(1)는 진정한 피드 수집을 달성하고, 이에 의해 유사한 콘텐트들은 단순 병치되는 대신 통합된다.

1: 피드 수집기 2: 피드 판독기
3: 웹 피드들 4: 필터링 모듈
5: 피드 이력 데이터베이스 6: 엔트리 분석기
7: 이력 액세스 모듈

Claims

신디케이팅(syndicating)된 웹 콘텐트(Web content)를 수집하기 위한 방법에 있어서:
- 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 검색하는 단계(100);
- 상기 업데이트된 콘텐트를 이전에 검색되고 저장된 콘텐트와 비교하는 단계(120);
- 상기 업데이트된 콘텐트가 상기 저장된 콘텐트와 상이하다고 간주되는 경우 상기 업데이트된 콘텐트를 저장하는 단계(160); 및
- 상기 업데이트된 콘텐트가 상기 저장된 콘텐트와 동일하다고 간주되는 경우 상기 업데이트된 콘텐트를 삭제하는 단계(170)를 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
제 1 항에 있어서,
상기 업데이트된 콘텐트가 저장된 콘텐트를 보완하는 것으로 간주되는 경우 상기 업데이트된 콘텐트를 상기 저장된 콘텐트에 추가하는 단계(180)를 추가로 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
제 1 항 또는 제 2 항에 있어서,
상기 업데이트된 콘텐트와 상기 저장된 콘텐트 사이의 유사성의 정도를 나타내기 위해 유사성 지수 S^j _k를 계산하는 단계(130)를 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
제 3 항에 있어서,
상기 유사성 지수 S^j _k를 하나 이상의 임계값들과 비교하는 단계를 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
제 4 항에 있어서,
상기 유사성 지수 S^j _k는 두 임계값들 S_min 및 S_max와 비교되고,
- 상기 유사성 지수 S^j _k가 S_min보다 작은 경우, 상기 업데이트된 콘텐트는 상기 저장된 콘텐트와 상이하다고 간주되고;
- 상기 유사성 지수 S^j _k가 S_max보다 큰 경우, 상기 업데이트된 콘텐트는 상기 저장된 콘텐트와 동일하다고 간주되고;
- 상기 유사성 지수 S^j _k가 S_min 및 S_max 사이에 포함되는 경우, 상기 업데이트된 콘텐트는 상기 저장된 콘텐트를 보완하는 것으로 간주되는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 저장된 콘텐트와 동일하다고 간주된 업데이트된 콘텐트는 상기 저장된 콘텐트에 추가되는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
이전에 검색된 콘텐트는 피드 이력 데이터베이스 내에 엔트리(entry)로서 저장되는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
피드 수집기(1)에 있어서:
- 미리 결정된 웹 피드들(3)로부터 업데이트된 콘텐트를 체크하고 검색하기 위해 구성된 피드 판독기(2);
- 상기 업데이트된 콘텐트의 이전에 검색되고 저장된 콘텐트와의 비교를 관리하기 위해 구성된 필터링 모듈(4); 및
- 콘텐트를 저장하기 위한 피드 이력 데이터베이스(5)를 포함하는, 피드 수집기(1).
제 8 항에 있어서,
상기 필터링 모듈(4)에 링크되고 상기 업데이트된 콘텐트를 저장된 콘텐트와 비교하기 위해 구성된 하나 이상의 엔트리 분석기들(6)을 추가로 포함하는, 피드 수집기(1).
제 8 항 또는 제 9 항에 있어서,
상기 하나 이상의 엔트리 분석기(6)는 상기 업데이트된 콘텐트와 상기 저장된 콘텐트 사이의 유사성의 정도를 나타내는 유사성 지수 S^j _k를 계산하기 위해 구성되고, 상기 필터링 모듈(6)은 상기 유사성 지수를 하나 이상의 임계값들과 비교하여 상기 업데이트된 콘텐트가 제거되어야 하는지 또는 상기 피드 이력 데이터베이스(5)에 추가되어야 하는지의 여부를 결정하기 위해 구성되는, 피드 수집기(1).