KR20110009142A - 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법 - Google Patents

리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법 Download PDF

Info

Publication number
KR20110009142A
KR20110009142A KR1020107025292A KR20107025292A KR20110009142A KR 20110009142 A KR20110009142 A KR 20110009142A KR 1020107025292 A KR1020107025292 A KR 1020107025292A KR 20107025292 A KR20107025292 A KR 20107025292A KR 20110009142 A KR20110009142 A KR 20110009142A
Authority
KR
South Korea
Prior art keywords
content
stored
updated
feed
updated content
Prior art date
Application number
KR1020107025292A
Other languages
English (en)
Other versions
KR101595748B1 (ko
Inventor
필립 자보오
제라르 뷔흔씨드
Original Assignee
알까뗄 루슨트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알까뗄 루슨트 filed Critical 알까뗄 루슨트
Publication of KR20110009142A publication Critical patent/KR20110009142A/ko
Application granted granted Critical
Publication of KR101595748B1 publication Critical patent/KR101595748B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

신디케이팅된 웹 콘텐트를 수집하기 위한 방법은: 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 검색하는 단계(100); 업데이트된 콘텐트를 이전에 검색된 저장된 콘텐트와 비교하는 단계(120); 업데이트된 콘텐트가 저장된 콘텐트와 상이하다고 간주되는 경우 업데이트된 콘텐트를 저장하는 단계(160); 및 업데이트된 콘텐트가 저장된 콘텐트와 동일하다고 간주되는 경우 업데이트된 콘텐트를 삭제하는 단계(170)를 포함한다.

Description

리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법{METHOD FOR AGGREGATING WEB FEED MINIMIZING REDUNDANCIES}
본 발명은 웹 피드(Web feed)의 수집(aggregation)에 관한 것이다.
월드 와이드 웹(World Wide Web)이 1990년대 초기에 시작된 이래로, 월드 와이드 웹은 매우 대중화되었으며 이는 현재 텍스트들, 이미지들, 비디오들, 및 다른 웹 페이지들로의 링크들(또한 하이퍼링크(hyperlink)들로서 칭해진다)과 같은 다양한 콘텐트들을 포함하는 수십억의 웹 페이지들을 포함한다. 월드 와이드 웹은 수십억의 웹 서퍼(Web surfer)들에 의해 매일 이용된다.
오늘날 온라인에 접속하는 것이 매우 간단하고 특정한 기술들이나 국가 또는 국제 기관 앞에서의 특정한 절차들을 필요로 하지 않고, 이는 실제로도 존재하지 않는다. 놀랍게도, 누군가가 웹을 분류하여 이점을 얻을 수 있을지라도, 군(family)들 내에서 웹 사이트들을 그룹화하기 위해 그와 같은 분류를 행하려는 시도가 행해지지 않았다. 그러므로, 웹 서퍼(surfer)들은 실체적이고 신뢰성 있는 업데이트된 정보를 검색하는 것이 점차 어려워지고 있다. 웹 브라우저들은 물론 도움이 되지만, 웹 페이지들의 수가 증가함에 따라, 수많은 시맨틱(semantic) 탐색 요청들로 인해 대개 분류되지 않고, 종종 중복되고, 불명료하여 결국 간단하게 동작할 수 없는 로우 콘텐트(raw content)를 야기한다.
2000년대 초기에, 서퍼들이 적절한 순간에 올바른 정보를 획득하는 것을 도와주는, 신디케이션(syndication)이라 칭해지는 해법이 제안되었다. 신디케이션에서, 하나의 웹 사이트의 섹션이 이용할 다른 웹 사이트들에 대해서도 이용 가능하게 된다. 구체적으로, 웹 신디케이션에서, 콘텐트(통상적으로 웹 피드(Web feed)로 칭해진다)는 웹 사이트 상에 특정한 포맷 - 흔히, RSS(Real Simple Syndication) 또는 Atom과 같은, XML-기반(XML은 eXtensible Markup Language를 나타낸다) - 으로 배치되고, 또한 피드 판독기 또는 뉴스 판독기라고 칭해지며 고객의 단말 또는 서버 상에서 국지적으로 구동하는 피드 수집기(feed aggregator)라고 칭해진 특정한 애플리케이션에 의해 대응하는 콘텐트를 검색하기 위해 또 다른 이용자(고객)가 가입할 수 있는 피드 링크와 연관된다.
피드에 가입했다면, 피드 수집기는 미리 결정된 인터벌(interval)들(이용자에 의해 규정될 수 있다)에서 업데이트된 콘텐트를 체크하고 검색하도록 구성될 수 있다. 현대의 웹 브라우저들은 흔히 iGoogleTM 및 My YahooTM과 같은 내장형 수집기들을 포함한다. 미국 특허 출원들 US 2008/0034058(Marchex, Inc.에 양도됨) 및 US 2008/0046543(RealNetworks에 양도됨) 양쪽 모두는 웹 피드들을 획득하기 위한 방법들을 도시한다.
피드 수집기들이 월드 와이드 웹으로부터 업데이트된 정보를 검색하고 이용자 친화적 그래픽 인터페이스(graphical interface; GUI)를 통해 최종 이용자가 이용가능하도록 하기 위한 강력한 리소스(resource)일지라도, 조약(article)들의 양은 때때로, 특히 이용자가 많은 웹 피드들에 가입했을 때, 엄청날 수 있다. 이 문제를 처리하기 위해서, 어떤 피드 수집기들은 이용가능한 조약들을 용이하게 네비게이팅(navigating)가능한 범주들로 분류 또는 필터링(filtering)하기 위해 이용자들이 피드들을 키워드들로 태그(tag)할 수 있게 하는 기능성들을 포함한다. 그러나 이 해법은 시간 소모적인데, 왜냐하면 이용자는 자신이 업데이트된 콘텐트를 획득하고자 하는 피드들의 사전 분류를 행해야만 하기 때문이다. 게다가, 웹 피드들을 태그하는 것은 검색될 콘텐트가 각각의 업데이트(신문 웹사이트들에서와 같은)로 인해 주제를 변경할 때 간단하게 무용해진다.
웹 서퍼들이 완전하게 작동가능한 방식으로 웹 피드들로부터 검색된 정보를 자동화된 방법으로 획득할 수 있게 하는 해법에 대한 필요성이 분명히 존재한다.
본 발명의 목적은 그와 같은 해법을 제공하는 것이다.
따라서, 하나의 양태에 따르면, 본 발명은 신디케이팅된 웹 콘텐트를 수집하기 위한 방법을 제공하고, 상기 방법은:
- 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 검색하는 단계;
- 업데이트된 콘텐트를 이전에 검색되고 저장된(예를 들면, 피드 이력 데이터베이스(feeds historic database 내의 엔트리(entry)로서 저장된) 콘텐트와 비교하는 단계;
- 업데이트된 콘텐트가 저장된 콘텐트와 상이하다고 간주되는 경우 업데이트된 콘텐트를 저장하는 단계; 및
- 업데이트된 콘텐트가 저장된 콘텐트와 동일하다고 간주되는 경우 업데이트된 콘텐트를 삭제하는 단계를 포함한다.
부가적인 단계들, 즉:
- 업데이트된 콘텐트가 저장된 콘텐트를 보완하는 것으로 간주되는 경우 업데이트된 콘텐트를 저장된 콘텐트에 추가하는 단계;
- 업데이트된 콘텐트와 저장된 콘텐트 사이의 유사성의 정도를 나타내기 위해 유사성 지수(similarity index) Sj k를 계산하는 단계; 및
- 유사성 지수 Sj k를 하나 이상의 임계값들과 비교하는 단계가 제공될 수 있다. 특히, 유사성 지수 Sj k는 두 임계값들 Smin 및 Smax와 비교되고,
- 유사성 지수 Sj k가 Smin보다 작은 경우, 업데이트된 콘텐트는 저장된 콘텐트와 상이하다고 간주되고;
- 유사성 지수 Sj k가 Smax보다 큰 경우, 업데이트된 콘텐트는 저장된 콘텐트와 동일하다고 간주되어서 저장된 콘텐트에 추가될 수 있고;
- 유사성 지수 Sj k가 Smin와 Smax 사이에 포함되는 경우, 업데이트된 콘텐트는 저장된 콘텐트를 보완하는 것으로 간주된다.
또 다른 양태에 따르면, 본 발명은:
- 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 체크하고 검색하기 위해 구성된 피드 판독기;
- 업데이트된 콘텐트의 이전에 검색되고 저장된 콘텐트와의 비교를 관리하기 위해 구성된 필터링 모듈(filtering module); 및
- 콘텐트를 저장하기 위한 피드 이력 데이터베이스를 포함하는 피드 수집기를 제공한다.
피드 수집기는 또한 필터링 모듈에 링크되고, 업데이트된 콘텐트 및 저장된 콘텐트를 비교하기 위해 구성된 하나 이상의 엔트리 분석기들을 포함할 수 있다. 특히, 하나 이상의 엔트리 분석기는:
- 업데이트된 콘텐트와 저장된 콘텐트 사이의 유사성의 정도를 나타내는 유사성 지수 Sj k를 계산하고,
- 유사성 지수를 하나 이상의 임계값들과 비교하여 업데이트된 콘텐트가 제거되어야 하는지 또는 피드 이력 데이터베이스에 추가되어야 하는지의 여부를 결정하기 위해 구성될 수 있다.
본 발명의 상기 및 다른 목적들과 이점들은 첨부 도면들과 함께 고려된, 바람직한 실시예들의 상세한 설명으로부터 명확해질 것이다.
도 1은 본 발명에 따른 피드 수집기의 구조를 도시하는 개요도.
도 2는 본 발명에 따른 신디케이팅된 웹(10) 콘텐트를 수집하기 위한 방법의 흐름도.
이제 도면들을 참조하면, 개인용 컴퓨터(PC), 서버, 통신 개인 휴대용 정보 단말기(personal digital assistant; PDA), 스마트폰 등과 같은 컴퓨터 디바이스의 프로세싱 유닛(processing unit) 상에서 컴퓨터 프로그램으로서 구현된, 피드 수집기(1)가 도 1에 도시된다.
피드 수집기(1)는 원격 웹 사이트들에 제공된 웹 피드들(3)로부터 업데이트된 신디케이팅된 웹 콘텐트를 체크하고 검색하도록 구성된 피드 판독기 모듈(2)을 포함한다. 피드 수집기(1)가 RSS 피드들을 처리하도록 구성되는 것이 바람직할지라도, 임의의 다른 포맷(예를 들면, Atom)이 이용될 수 있다. 단지 설명을 위해 세 웹 피드들(3)이 도 1에 도시되는데, 왜냐하면 피드 수집기(1)는 이용자에 의해 구성될 수 있는 수만큼 웹 피드들에 링크될 수 있기 때문이다.
피드 수집기(1)는 또한 피드 판독기(2)에 링크되는 필터링 모듈(4)을 포함하고, 피드 판독기(2)는 이후에 개시될 바와 같이, 또한 프로세싱되어야 할 검색된 업데이트된 콘텐트를 필터링 모듈(4)에 전송하여 리던던시(redundancy)들을 제거한다.
피드 수집기(1)는 피드 이력 데이터베이스(5)를 추가로 포함하고, 여기서 이전에 검색된 피드 콘텐트는 엔트리들로서 저장된다.
피드 수집기(1)는 업데이트된 콘텐트가:
- 피드 수집기(1)로부터 제거,
- 데이터베이스(5) 내에 새로운 엔트리로서 저장, 또는
- 데이터베이스(5) 내의 기존 엔트리에 추가되어야만 하는지의 여부를 결정하기 위해 필터링 모듈(4)에 링크되고, 업데이트된 콘텐트를 피드 이력 데이터베이스(5) 내에서 이전에 검색되고 엔트리들로서 저장된 콘텐트와 비교하도록 구성되는, 적어도 하나의 엔트리 분석기(6)를 추가로 포함한다.
피드 수집기(1)는 또한 이력 액세스 모듈(7)을 포함하고, 이력 액세스 모듈(7)은 필터링 모듈(4)과 피드 이력 데이터베이스(5) 사이에 개재되고, 필터링 모듈(4)에 의해 새로운 엔트리로서 저장되거나 기존 엔트리에 추가되기 위해 적합하다고 판단되었던 업데이트된 콘텐트를 저장하기 위해서 피드 이력 데이터베이스(5)에 액세스하고 피드 이력 데이터베이스(5)를 관리하도록 구성된다.
피드 수집기(1)의 정확한 동작이 이제 기술될 것이다.
이용자에 의해 구성될 때마다, 피드 판독기(2)는 이용자(100)에 의해 가입된 미리 결정된 웹 피드들(3)로부터 업데이트된 콘텐트를 체크하고 검색한다. 다음의 설명에서, 피드 판독기(2)는 P개의 서브스크립션들(subscriptions)로 구성되고, P는 1보다 크거나 1과 같은 정수(P≥1)라고 가정한다. j가 P보다 작거나 같은 정수(1≤j≤P)일 때, Fj는 j번째 웹 피드(3)로부터 검색된 업데이트된 콘텐트를 나타낸다. Fj는 완전한 웹 페이지들 또는 이들의 일부를 포함할 수 있다: 텍스트, 이미지들, 비디오들, 하이퍼링크들 등. 피드 이력 데이터베이스(5)는 다수(N)의 엔트리들을 포함하고, N은 1보다 크거나 같은 정수(N≥1)이다. k가 N보다 작거나 같은 정수(1≤k≤N)일 때, Ek는 피드 이력 데이터베이스(5)에 저장된 k번째 엔트리를 나타낸다.
업데이트된 콘텐트 Fj는 피드 판독기(2)에 의해 필터링 모듈(4)로 전송되고, 여기서 상기 업데이트된 콘텐트 Fj는 임시로 저장된다. 필터링 모듈(4)은 이력 액세스 모듈(7)을 통해, 저장된 엔트리들 Ek의 목록을 검색하고, 이 저장된 엔트리들의 목록이 업데이트된 콘텐트 Fj와 비교될 것이다. 더 정확하게, 필터링 모듈(4)은 저장된 엔트리들 Ek의 목록에 걸쳐 반복되고, 이 저장된 엔트리들 Ek의 목록이 다음의 범주들 사이에서 분류되기 위해 업데이트된 콘텐트 Fj와 비교되어야 한다: 제거(삭제)되어야 하고; 저장된 엔트리 Ek에 추가되어야 하고; 새로운 엔트리 EN +1로서 저장되어야 한다.
더 상세하게, 초기에 1과 동일하게 설정된 k를 이용하여(110), 업데이트된 콘텐트 Fj는 적어도 하나의 엔트리 분석기(6)에 의해 저장된 엔트리 Ek와 비교된다(120). 비교는 다양한 방법들을 통해 달성될 수 있다:
- 타이틀(title)들의 기본 열 비교;
- 비교된 콘텐트들 사이의 공통 키워드들을 결정하기 위한 구문 분석; 및
- 비교된 콘텐트들에서 이용된 공통 존재론적 개념들을 결정하기 위한 의미 기반 분석. 비교의 분야를 제한하기 위해서, 존재론 도메인들(ontology domains)은 엔트리들 Ek와 연관된 미리 결정된 태그들에 의해 제한될 수 있다.
이들 비교 방법들은 단독으로 이용되거나, 전체 비교 프로세스의 상이한 단계들로 결합될 수 있다. 비교 방법들의 결합 이용은 계층적일 수 있다. 즉, 구문 분석 단계는 동일한 타이틀들을 가지는 콘텐트들이 비록 상이할 수 있는지의 여부를 결정하기 위해서 타이틀들의 기본 열 비교 단계로 인해서 타이틀들이 동일하다고 단언되는 경우에만 착수될 수 있다. 계속해서, 시맨틱-기반 분석 단계는 비교의 정확도의 정도를 더 증가시키기 위해, 구문 분석 단계가 구문이 유사하다고 결정했을 경우에만 착수될 수 있다. 비교의 각각의 단계는 상이한 엔트리 분석기(6) 상에서 구동될 수 있다.
업데이트된 콘텐트 Fj와 저장된 엔트리 Ek 사이의 비교를 달성하였다면, 엔트리 분석기(6)는 Fj와 Ek 사이의 유사성의 정도를 나타내는 유사성 지수 Sk j를 계산한다(130). 유사성 지수 Sk j는 우선 필터링 모듈(4)에 제공되고, 필터링 모듈(4)은 Sk j 값에 기초하여, Fj 및 Ek이 동일하거나 상이하다고 간주되어야 하는지의 여부를 결정하고, 둘째로, 결과에 따라 Fj에 관한 대응하는 결정을 취한다. 기본적으로, Sk j = 0%는 Fj 및 Ek가 상이하다고 간주되어야 함을 의미하고, 반면에 Sk j = 100%는 Fj 및 Ek가 동일하다고 간주되어야 함을 의미한다. Sk j는 0부터 100까지 상이할 수 있으므로, Fj 및 Ek가 동일하다고 간주되지 않을 수 있을지라도, Fj 및 Ek가 또한 상이한 것으로 고려될 수 없다. 업데이트된 콘텐트 Fj에 관한 적절한 결정을 행하기 위해, 필터링 모듈(4)은 적어도 하나의 임계값 S로 구현될 수 있어서:
- Sk j < S인 경우, Fj는 Ek와 상이하다고 간주되어야 하고;
- Sk j ≥ S인 경우, Fj는 Ek와 동일하다고 간주되어야 한다.
일 바람직한 실시예에서, 필터링 모듈(4)은 두 임계값들 Smin 및 Smax로 구현되고, 여기서 Smin < Smax이고:
- Sk j ≤ Smin인 경우, Fj는 Ek와 상이하다고 간주되어야 하고;
- Sk j ≥ Smax인 경우, Fj는 Ek와 동일하다고 간주되어야 하고;
- Smin < Sk j < Smax인 경우, Fj는 Ek를 보완하는 것으로 간주되어야 한다.
임계값들 Smin 및 Smax는 한 이용자로부터 다른 이용자로 변할 수 있는 정확도의 필요한 정도에 따라 설정될 수 있다. 디폴트 값들은 Smin = 20% 및 Smax = 80%로 설정될 수 있다.
필터링 모듈은 유사성 지수 Sk j를 임계값들 Smin 및 Smax와 비교하고(140) 다음의 선택 사항들 중에서 Fj에 관한 결정을 계산한다:
- Fj가 Ek와 상이하다고 간주되는 경우(Sk j ≤ Smin), Fj는 다음 엔트리와 비교될 것이다. 특히, k는 1에 의해 구현되고(150) 비교 프로세스는 Fj 및 Ek +1로 반복된다. 엔트리 Ek가 마지막 엔트리인 경우(k = N), Fj는 자신이 모든 엔트리들 Ek(1≤k≤N)과는 상이하다고 간주되므로, 필터링 모듈(4)에 의해 이력 액세스 모듈(7)로 제공되어 필드 이력 데이터베이스(5) 내에 새로운 엔트리 EN +1로서 저장된다(160).
- Fj가 Ek와 동일하다고 간주되는 경우(Sk j ≥ Smax), 이는 Fj가 Ek와 중복된다는 것을 의미하므로(그러므로 무용하다), Fj는 필터링 모듈(4)에 의해 제거된다(즉, 피드 수집기(1)로부터 삭제된다)(170);
- Fj가 Ek를 보완하는 것 간주되는 경우(Smin < Sk j < Smax), 이는 기존 엔트리 Ek를 수정하는 필터링 모듈(4)에 의해 Ek에 추가되거나 결합되고, 이력 액세스 모듈(7)에 수정된 엔트리 Ek를 제공하여 이전에 저장된 엔트리 Ek를 피드 이력 데이터베이스(5) 내에 대체한다.
이 비교 프로세스는 모든 업데이트된 콘텐트들 Fj(1≤j≤P)에 의해서 반복된다.
위에 개시된 방법은 단지 저장된 콘텐트와 상이하다고 간주되는 콘텐트만이 새로운 엔트리로서 저장되므로 리던던시들을 방지한다. 개시된 수집기(1)는 진정한 피드 수집을 달성하고, 이에 의해 유사한 콘텐트들은 단순 병치되는 대신 통합된다.
1: 피드 수집기 2: 피드 판독기
3: 웹 피드들 4: 필터링 모듈
5: 피드 이력 데이터베이스 6: 엔트리 분석기
7: 이력 액세스 모듈

Claims (10)

  1. 신디케이팅(syndicating)된 웹 콘텐트(Web content)를 수집하기 위한 방법에 있어서:
    - 미리 결정된 웹 피드들로부터 업데이트된 콘텐트를 검색하는 단계(100);
    - 상기 업데이트된 콘텐트를 이전에 검색되고 저장된 콘텐트와 비교하는 단계(120);
    - 상기 업데이트된 콘텐트가 상기 저장된 콘텐트와 상이하다고 간주되는 경우 상기 업데이트된 콘텐트를 저장하는 단계(160); 및
    - 상기 업데이트된 콘텐트가 상기 저장된 콘텐트와 동일하다고 간주되는 경우 상기 업데이트된 콘텐트를 삭제하는 단계(170)를 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 업데이트된 콘텐트가 저장된 콘텐트를 보완하는 것으로 간주되는 경우 상기 업데이트된 콘텐트를 상기 저장된 콘텐트에 추가하는 단계(180)를 추가로 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 업데이트된 콘텐트와 상기 저장된 콘텐트 사이의 유사성의 정도를 나타내기 위해 유사성 지수 Sj k를 계산하는 단계(130)를 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  4. 제 3 항에 있어서,
    상기 유사성 지수 Sj k를 하나 이상의 임계값들과 비교하는 단계를 포함하는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  5. 제 4 항에 있어서,
    상기 유사성 지수 Sj k는 두 임계값들 Smin 및 Smax와 비교되고,
    - 상기 유사성 지수 Sj k가 Smin보다 작은 경우, 상기 업데이트된 콘텐트는 상기 저장된 콘텐트와 상이하다고 간주되고;
    - 상기 유사성 지수 Sj k가 Smax보다 큰 경우, 상기 업데이트된 콘텐트는 상기 저장된 콘텐트와 동일하다고 간주되고;
    - 상기 유사성 지수 Sj k가 Smin 및 Smax 사이에 포함되는 경우, 상기 업데이트된 콘텐트는 상기 저장된 콘텐트를 보완하는 것으로 간주되는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 저장된 콘텐트와 동일하다고 간주된 업데이트된 콘텐트는 상기 저장된 콘텐트에 추가되는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    이전에 검색된 콘텐트는 피드 이력 데이터베이스 내에 엔트리(entry)로서 저장되는, 신디케이팅된 웹 콘텐트를 수집하기 위한 방법.
  8. 피드 수집기(1)에 있어서:
    - 미리 결정된 웹 피드들(3)로부터 업데이트된 콘텐트를 체크하고 검색하기 위해 구성된 피드 판독기(2);
    - 상기 업데이트된 콘텐트의 이전에 검색되고 저장된 콘텐트와의 비교를 관리하기 위해 구성된 필터링 모듈(4); 및
    - 콘텐트를 저장하기 위한 피드 이력 데이터베이스(5)를 포함하는, 피드 수집기(1).
  9. 제 8 항에 있어서,
    상기 필터링 모듈(4)에 링크되고 상기 업데이트된 콘텐트를 저장된 콘텐트와 비교하기 위해 구성된 하나 이상의 엔트리 분석기들(6)을 추가로 포함하는, 피드 수집기(1).
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 하나 이상의 엔트리 분석기(6)는 상기 업데이트된 콘텐트와 상기 저장된 콘텐트 사이의 유사성의 정도를 나타내는 유사성 지수 Sj k를 계산하기 위해 구성되고, 상기 필터링 모듈(6)은 상기 유사성 지수를 하나 이상의 임계값들과 비교하여 상기 업데이트된 콘텐트가 제거되어야 하는지 또는 상기 피드 이력 데이터베이스(5)에 추가되어야 하는지의 여부를 결정하기 위해 구성되는, 피드 수집기(1).
KR1020107025292A 2008-04-14 2009-04-09 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법 KR101595748B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08290366A EP2110760A1 (en) 2008-04-14 2008-04-14 Method for aggregating web feed minimizing redudancies
EP08290366.7 2008-04-14

Publications (2)

Publication Number Publication Date
KR20110009142A true KR20110009142A (ko) 2011-01-27
KR101595748B1 KR101595748B1 (ko) 2016-02-29

Family

ID=39720679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107025292A KR101595748B1 (ko) 2008-04-14 2009-04-09 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법

Country Status (6)

Country Link
US (1) US8521702B2 (ko)
EP (1) EP2110760A1 (ko)
JP (1) JP5535193B2 (ko)
KR (1) KR101595748B1 (ko)
CN (1) CN102037465B (ko)
WO (1) WO2009144078A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2952203B1 (fr) * 2009-11-05 2012-08-17 Canon Kk Procede de generation d'un flux web et un systeme associe
US9098311B2 (en) 2010-07-01 2015-08-04 Sap Se User interface element for data rating and validation
US9208252B1 (en) * 2011-01-31 2015-12-08 Symantec Corporation Reducing multi-source feed reader content redundancy
US20120284290A1 (en) * 2011-04-11 2012-11-08 Jonathan Keebler System and Method for Syndicating Dynamic Content for Online Publication
US9288165B1 (en) 2011-07-21 2016-03-15 Parlant Technology, Inc. System and method for personalized communication network
US8832301B2 (en) * 2011-07-21 2014-09-09 Parlant Technology System and method for enhanced event participation
US9195771B2 (en) * 2011-08-09 2015-11-24 Christian George STRIKE System for creating and method for providing a news feed website and application
US8443003B2 (en) 2011-08-10 2013-05-14 Business Objects Software Limited Content-based information aggregation
CN103106585B (zh) * 2011-11-11 2016-05-04 阿里巴巴集团控股有限公司 产品信息的实时去重方法和装置
US9953079B2 (en) 2013-09-17 2018-04-24 International Business Machines Corporation Preference based system and method for multiple feed aggregation and presentation
CN106339374A (zh) * 2015-07-06 2017-01-18 天津九洲云物联科技有限公司 用于嵌入式系统中的文件型实时历史数据库算法
CN105912615A (zh) * 2016-04-05 2016-08-31 重庆大学 一种基于人类语音内容索引的音频和视频文件管理方法
CN111787390B (zh) * 2020-09-07 2020-11-24 武汉工程大学 基于信息分发系统的内容分发装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185779A (ja) * 1997-09-03 1999-03-30 Matsushita Electric Ind Co Ltd 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3810463B2 (ja) * 1995-07-31 2006-08-16 株式会社ニューズウオッチ 情報フィルタリング装置
JP2002215676A (ja) * 2001-01-12 2002-08-02 Hitachi Tohoku Software Ltd 関連情報検索方法、関連情報蓄積方法、関連情報検索装置および関連情報検索のための記録媒体
JP3894428B2 (ja) * 2002-02-20 2007-03-22 日本ビクター株式会社 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
US20080034058A1 (en) 2006-08-01 2008-02-07 Marchex, Inc. Method and system for populating resources using web feeds
US20080046543A1 (en) 2006-08-18 2008-02-21 Realnetworks System and method for automatically obtaining web feed content
JP2008071296A (ja) * 2006-09-15 2008-03-27 Ricoh Co Ltd データ管理装置、データ管理方法およびデータ管理プログラム
US20100063962A1 (en) * 2006-11-27 2010-03-11 Gautam Dharamdas Goradia Interactive System that, Inter Alia, Does Away with the Need for a User, to Create, Store, Organize and/or Share Files and/or Uniform Resource Locators in Folders and Sub Folders, on a Computer System, Mobile Device, or on a Networks, Blogs, Forums, Intranets, Wireless Application Protocol Portals and the Like
US20090089380A1 (en) * 2007-09-28 2009-04-02 Microsoft Corporation Aggregating and Delivering Information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185779A (ja) * 1997-09-03 1999-03-30 Matsushita Electric Ind Co Ltd 電子ファイル管理装置、電子ファイル管理方法及びその方法を記録した記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ian Garcia et al., "Eliminating Redundant and Less-Informative RSS News Articles Based on Word Similarity and a Fuzzy Equivalence Relation", 2006 *

Also Published As

Publication number Publication date
US8521702B2 (en) 2013-08-27
KR101595748B1 (ko) 2016-02-29
CN102037465B (zh) 2015-03-04
CN102037465A (zh) 2011-04-27
JP5535193B2 (ja) 2014-07-02
WO2009144078A1 (en) 2009-12-03
US20110119239A1 (en) 2011-05-19
EP2110760A1 (en) 2009-10-21
JP2011517822A (ja) 2011-06-16

Similar Documents

Publication Publication Date Title
KR101595748B1 (ko) 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법
US8630972B2 (en) Providing context for web articles
US7917840B2 (en) Dynamic aggregation and display of contextually relevant content
CA2832909C (en) System and method for matching comment data to text data
US20100100607A1 (en) Adjusting Content To User Profiles
US8166056B2 (en) System and method for searching annotated document collections
US20080228574A1 (en) System And Method For Conveying Content Changes Over A Network
US9529861B2 (en) Method, system, and graphical user interface for improved search result displays via user-specified annotations
US20080201632A1 (en) System and method for annotating documents
US20090265338A1 (en) Contextual ranking of keywords using click data
US20080040389A1 (en) Landing page identification, tagging and host matching for a mobile application
US10839013B1 (en) Generating a graphical representation of relationships among a set of articles and information associated with the set of articles
US9860337B1 (en) Machine-based identification of content with differing opinions
US20100125781A1 (en) Page generation by keyword
WO2014090007A1 (zh) 用于获取推荐主题的方法、装置和服务器
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
KR20100112512A (ko) 검색 장치 및 검색 방법
US20110225134A1 (en) System and method for enhanced find-in-page functions in a web browser
CN107025261B (zh) 主题网络语料库
US9043320B2 (en) Enhanced find-in-page functions in a web browser
KR102169143B1 (ko) 유해 콘텐츠 웹 페이지 url 필터링 장치
Xia et al. Optimizing academic conference classification using social tags
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
CN110929177B (zh) 一种电子资源推荐方法、装置和存储介质
Sunita et al. Web URLs retrieval with least execution time using MPV clustering approach

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
LAPS Lapse due to unpaid annual fee