KR100514149B1

KR100514149B1 - 데이터 네트워크의 정보 검색 및 분석 방법

Info

Publication number: KR100514149B1
Application number: KR10-2003-7003774A
Authority: KR
Inventors: 브조른 올스타드; 크눌트 마그네 리스비크
Original assignee: 패스트 서치 & 트랜스퍼 에이에스에이
Priority date: 2000-09-14
Filing date: 2001-09-11
Publication date: 2005-09-13
Also published as: AU9036301A; DE60126798D1; PL360714A1; CN1279475C; AU2001290363B2; CA2420382C; BRPI0113882B1; EP1325434A1; BR0113882A; KR20030048045A; NO20004595L; HUP0301788A2; US20020032772A1; DE60126798T2; CZ2003510A3; WO2002023398A1; IL154492A0; EP1325434B1; US7093012B2; CA2420382A1

Abstract

데이터 네트워크의 액세스 포인트에서 트래픽 컨텐츠의 검색 및 경보 능력을 제공하기 위한 방법이 개시되어 있다. 인터넷, 인트라넷 및 무선 트래픽을 위한 통상적인 액세스 포인트들이 설명되어 있다. 인터넷 서비스 제공자를 통한 트래픽 흐름이 본 발명의 입력 소스로 이용된 데이터 트래픽을 예시하는 바람직한 실시예로 이용된다. 본 발명은 적절한 프라이버시 및 컨텐츠 필터들이 어떻게 상기 트래픽 소스에 적용될 수 있는지를 보여준다. 상기 트래픽 흐름으로부터 필터링된 데이터 스트림은 기존의 검색 및 경보 서비스의 질을 향상시킬 수 있다. 또한, 본 발명은 캐시가 어떻게 상기 트래픽 흐름에 캡쳐된 프레쉬하고 검색 가능한 정보를 홀딩하는데 최적의 상태로 발전될 수 있는지를 보여준다. 또한, 상기 캐시가 어떻게 검색 가능한 인덱스로 변환될 수 있는지를 보여주고, 별도로 또는 외부 검색 인덱스들과 협조하여 개선된 검색 서비스를 위한 기초로 이용될 수 있는지를 보여준다. 또한, 본 발명은 상기 트래픽 플로우가 문서의 상관도, 문서들간 액세스 유사성, 검색 결과들의 개인화된 랭킹 및 문서 액세스의 지역적 차이점들을 측정하기 위한 추가 정보를 추론하기 위해 어떻게 분석될 수 있는지를 보여준다.

Description

데이터 네트워크의 정보 검색 및 분석 방법{A METHOD FOR SEARCHING AND ANALYSING INFORMATION IN DATA NETWORKS}

본 발명은 데이터 네트워크의 액세스 포인트에서 트래픽 컨텐츠를 검색하고 분석하기 위한 방법에 관한 것으로서, 상기 데이터 네트워크는 공유 네트워크 리소스이며, 특히 완결적 구조의 인터넷 또는 인트라넷을 의미한다. 특히, 상기 액세스 포인트는 인터넷 서비스 제공자에 의해 제공되거나 다수의 사용자에게 어플리케이션 형태로 배포된 사용자용 인터넷 액세스 포인트, 또는 무선 사용자를 위한 접속 포인트이다. 상기 접속 포인트는 고유(native) 접속 포인트 또는 다수의 접속 포인트용 인터넷 게이트웨이이다.

본 발명은 개선된 정보 검색(retrieval) 방법 및 시스템에 관한 것으로서, 특히 유무선 인터페이스를 통해 인터넷 또는 인트라넷상의 정보에 액세스하는 정보 검색(retrieval) 방법 및 시스템에 관한 것이다. 더욱이, 본 발명은 인트라넷 또는 인터넷 기반의 검색 엔진 및 경보 서비스에 관한 것이다.

전자 정보 리소스는 인터넷 및 폐쇄된 인트라넷에서 급속히 증대되고 있으며, 이러한 타입의 전자 정보는 더욱더 신문, 잡지 및 텔레비전과 같은 통상적인 정보 리소스들을 대체해나가고 있다. 이들 정보의 데이터베이스 크기는 현재 거의 기하급수적으로 증가하고 있다.

이와 관련된 종래 기술은 다음의 간행물에서 찾아볼 수 있다.

1) 대용량 하이퍼텍스츄얼 웹 서치 엔진의 분석인 "Proceedings of the 7th International World Wide Web Conference" (S.Brin and L.Page 저; Elsevier Science 107 내지 117 면 1998 년 4월 호주, 브리스베인);

2) 하이퍼링크 환경의 권위있는 출처의 "Proceedings of ACM-SIAM Symposium on Discrete Algorithms"(J.M.Kleinberg 저; 668 내지 677면 1998년 1월);

3) 링크 토폴로지로부터의 추론 웹 커뮤니티의 "Hypertext" (D.Gibson, J.M.kleinberg, and P.Raghavan 저; 225 내지 234면 1998년 6월 PA, Pittsburgh)

컨텐츠 제공자 및 클라이언트 사이에 컨텐츠를 전송하기 위해 HTTP(Hypertext-Transfer Protocol), FTP(File Transfer Protocol) 또는 WAP(Wireless Application Protocol)과 같은 프로토콜이 자주 사용된다. 검색 엔진 기술들도 인터넷 및 인트라넷 어플리케이션을 위해 발전해왔다. 현재, 이들 검색 엔진들은 웹 페이지 및 액세스 가능 서버로부터의 추가적인 온라인 컨텐츠의 자동 크롤링(automated crawling)에 기반한다.

통상적으로, 한 세트의 시드(seed) 페이지들은 크롤링(crawling)을 초기화하는 데 이용된다. 두 번째 과정에서, 크롤러는 상기 초기 시드 페이지들 중 하나와 관련있는 문서(document)들을 패치(fetch)하게 된다. 이러한 과정은 상기 크롤러가 패치된 문서들 중에서 새롭거나 지금까지 방문하지 않았던 문서 참조(referral)를 검cnf해내는 동안 계속된다. 웹 문서들은 대개 HTML(Hypertext Markup La nguage)로 포맷화된다. 이러한 경우, 통상적으로 문서 참조는 다른 웹 페이지로의 HTML 하이퍼링크이며, 상기 웹 페이지 자체는 URL(Universal Resource Locator)과 같은 어드레스에 의해 명시된다.

일반적으로, 검색 엔진은 대개 두 가지 과정으로 동작한다. 첫째, 크롤러는 문서 데이터베이스를 수집하는 데 이용된다. 상기 문서들이 수집되고 나면, 상기 문서들은 검색에 유용하도록 선처리되고 인덱스(index)된다. 크롤러용 문서 수집 원리는 후속 검색의 품질에 영향을 미치는 제한 또는 불편이 수반된다. 상기 크롤러는 상기 문서 참조들에 기반한 선택된 시드 페이지들의 이행 종결 과정의 문서들에만 액세스할 것이다. 예컨대, 크롤러는 관련 문서들이 없는 문서들에는 절대 방문하지 않을 것이다. 또한, 관련 문서들을 갖고 있는 문서들도 링크 토폴로지 및 선택된 시드 페이지들에 따라 상기 크롤러에 의해 방문이 되지 않은 채로 남겨질 수 있다.

삭제

크롤러들은 임의의 서버에 상대적으로 액세스하지 않도록 제한된다. 통상적으로, 상기 크롤러는 동일한 서버에 대한 두 번의 액세스 사이에서 30초 또는 그 이상을 대기해야 한다. 이 제한은 서버들이 자동화된 요청들에 의해 오버로드되지 않도록 하는 로봇 룰(robot rule)에 의한 것이다. 따라서, 임의의 사이트에 대한 연속적인 크롤링은 하루에 약 3천개의 문서들로 국한될 것이다. 대형 사이트들 중에는 종래 기술의 크롤링 원리로 완전한 컨텐츠를 다운로드하거나 인덱싱하기가 실제 불가능한 많은 문서들을 보유한 대형 사이트들이 있다. 현대 사이트들조차 종래 크롤링 원리에 대한 새로고침 기능(freshness)면에서 큰 문제점이 노출된다. 예컨대, 9만 개의 문서들을 갖는 사이트는 완전한 업데이트를 위해 수 개월의 크롤링을 요구할 것이다.

크롤링을 위한 종래의 원리들은 수집된 문서들의 새로고침 기능을 보장하는 데 적합하지 않다. 상기 크롤링 제한은 검색 엔진의 완전한 사이트 업데이트가 어떤 사이트들에 대해서는 불가능하도록 하며, 또한 다른 사이트들에 대해서는 약 수주 또는 수개월동안 불가능하도록 한다. 약 3천 개 미만의 문서들을 갖는 사이트들만이 매일 완전히 업데이트될 수 있다. 상기 새로고침 기능의 부족은 검색 엔진을 위한 능력의 심각한 제한이다. 일간 신문에 대해서는 거대한 시장이 존재하지만, 오래된 신문을 읽거나 검색하는 시장은 실질적으로 존재하지 않는다. 이와 유사하게, 검색 및 경보 서비스를 통해 최근 업데이트된 웹 컨텐트에 액세스하는 것이 흥미있을 거라 기대된다.

크롤링을 위한 종래 원리들은 능동 객체(dynamic object)들을 찾아낼(retrieving) 수 없다. 능동 객체들은 통상적으로 HTTP 요청과 함께 지나간 파라미터들을 요구하는 객체들이다. 예컨대, 사용자는 대화 박스나 체크 박스 등에서 다소의 선택을 할 수 있고, html 파일로 영구히 저장되지 않고 오히려 사용자의 선택에 기반하여 자동적으로 생성될 수 있는 페이지를 다운로드 할 수 있다. 모든 가능한 파라미터 셋팅을 추측하는 것은 크롤러에 있어 실절적으로 불가능하기 때문에, 능동 객체들은 현재 인터넷 검색 엔진을 통한 엑세스가 가능하지 않다. 한편, 상기 웹은 페이지 수나 정보 또는 서비스의 가치 측면에서 능동 컨텐츠에 의해 점점 더 좌우되고 있다.

인터넷 및 많은 인트라넷용 문서 데이터베이스들은 거의 기하급수적으로 증가하고 있지만, 쿼리(query)의 복잡함은 거의 바뀌지 않고 있다. 따라서, 임의의 질문에 매칭되는 문서들의 수 또한 거의 기하급수적으로 증가하고 있다. 따라서, 검색 엔진에 대한 상관도 문제(relevancy challenge)가 더욱더 중요해지고 있다. 크롤링을 위한 종래 기술은 문서들 간의 링크 토폴로지 분석을 허여하고, 상기 토폴로지에 기반하여 문서 우선순위를 할당하는 다양한 기술들이 제안되었다. 한편, 링크 토폴로지는 능동 객체들, 새로운 문서들, 바이너리 파일들 및 무선 마크업 언어(Wireless Markup Language)로 기재된 페이지들 같은 무선 페이지들 같이 중요한 문서 분류들을 위한 상관도에 대해 중요한 소스는 아니다. 이 모든 예들은 링크 토폴로지 분석에 이용될 수 있는 링크를 전혀 또는 거의 갖고 있지 않다.

경보 서비스도 종래 기술에 설명되어 있고, 검색 엔진과 동일한 방법으로 동작한다. 통상적으로, 경보 서비스는 검색 엔진 쿼리를 받고, 상기 쿼리에 대한 새로운 정보의 스트림을 체크할 수 있을 것이다. 예컨대, 사용자는 검색 엔진을 통해 이전 데이터를 검색하고, 상기 쿼리를 새로운 문서의 스트림에 적용하는 경보 서비스의 트리거로서 상기 쿼리를 이용한다.

상기한 종래 기술의 결점 및 불편함으로 인해, 검색 및 경보 서비스의 문서 수집 프로세스에 대한 개선 필요성이 요구되고 있다.

첨부된 도면들과 관련하여 후술하며 도시된 바람직한 실시예들을 참조함으로써, 바람직한 실시예들 뿐 아니라 발명 그 자체가 더욱 잘 이해될 수 있다. 첨부 도면들은,

도 1은 클라이언트의 ISP를 통한 인터넷 접속을 나타낸 도면,

도 2는 웹 컨텐트를 캐싱하는 ISP의 프록시 서버를 나타낸 도면,

도 3은 외부의 검색 캐시와 통신하기 위해 개조된 프록시 서버를 나타낸 도면,

도 3b는 클라이언트 소프트웨어로부터의 분산된 트래픽 크롤링을 나타낸 도면,

도 4는 검색 캐시의 가능한 구성도,

도 5는 상기 검색 캐시의 컨텐트가 어떻게 검색 인덱스로 변환될 수 있는지를 나타낸 도면,

도 6은 상기 검색 캐시 인덱스를 이용하는 검색 서비스 구성을 나타낸 도면,

도 7은 문서 유사성을 정의하기 위한 시간 근접성 원리를 설명하기 위한 도면, 그리고

도 8은 시간 근접성을 정의하는 가중치 함수에 대한 가능한 정의를 나타내는 도면이다.

본 발명의 목적은 수집될 수 있는 문서들의 총 수를 증가시키고, 문서들이 대형 사이트들로부터 수집될 수 있는 비율을 증가시키고, 최근의 문서 업데이트 또는 문서 생성과 검색 서비스에서 검색 가능한 시간사이의 지연 면에서 상기 문서들의 새로고침 기능을 향상시키고, 무효(쓸모없는 링크)된 문서들의 검출 및 능동 객체들의 수집을 가능하게 하는 방법을 제공하는 데 있다.

본 발명의 다른 목적은 새로운 문서가 경보 서비스의 사용자들에 의해 정의된 트리거들을 매칭시키는지를 체크함으로써 경보 서비스들을 생성하기 위해, 최근 업데이트된 문서들의 개선된 소스를 사용(leverage)하는 데 있다.

본 발명의 또 다른 목적은 상기 검색 엔진의 상관도 또는 랭킹 기준이 상기 문서의 에이지(age)에 기초하도록 하는 데 있다. 이는 본 발명이, 예컨대 사용자로 하여금 최근 10분 동안, 최근 시간 또는 최근에 생성되거나 업데이트된 새로운 웹 문서들의 검색을 허여하는 개선된 문서 수집 원리들을 설명하기 때문에 특히 중요하다.

본 발명의 또 다른 목적은 검색 및 경보 서비스의 상관도를 형성하는 것을 개선하기 위해 데이터 네트워크의 액세스 포인트들에서 요구 통계를 이용하는 데 있다.

본 발명의 또 다른 목적은 공간적으로 근접한 사용자들로부터의 요구 통계를 이용함으로써 위치에 특정한 문서 순위결정을 생성하는 데 있다.

결론적으로, 본 발명의 목적은 문서들간 유사성 등급(degree)을 정의하기 위해 요구 통계의 시간 근접성을 이용하는 데 있다.

상기한 목적, 다른 특징 및 이점들은 본 발명의 방법에 따라 실현된다. 본 발명의 방법은 상기 데이터 네트워크의 액세스 포인트에서 정보 흐름으로부터 추출된 데이터 형태로 정보를 수집하는 단계, 상기 수집된 정보를 미리결정된 최대 시간 지연으로 인덱싱하는 단계, 상기 인덱싱된 정보로부터 정보를 검색 및 찾아내는(retrieving)) 단계를 포함하며, 문서들의 형태로 상기 수집된 정보의 위치 코딩을 위해 액세스 포인트에서 트래픽 컨텐트 분석에 기초하여 선택하는 단계, 상기 문서들의 유사성을 측정하는 단계, 및 새롭고 업데이트된 정보에 대해 사용자에게 경보하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명의 추가적인 특징 및 이점은 첨부된 종속항 2 내지 36에 개시된다.

본 발명의 바람직한 실시예에 대해 상세히 설명하기 전에, 본 발명의 이해를 돕기 위해 본 발명의 일반적인 배경에 대해 설명한다.

인터넷 사용자는 인터넷 서비스 제공자(ISP)를 통해 넷(net)에 접속한다. 도 1은 클라이언트가 ISP를 통해 다양한 웹 서버들에 어떻게 접속하는 지를 나타낸 도면이다. 상기 ISP(12)는 인터넷 백본 제공자로부터 대역폭을 임대하여 시간 공유 모델에 기초한 대역폭(14)의 "스테이크(stake)"를 가지도록 최종 사용자(11)에게 제공한다. 상기 최종 사용자(11)로부터의 액세스는 ISP(12)를 통해 문서(15) 및 멀티 미디어 콘텐트(16)를 호스팅하는 개별 서버(14)를 갖는 웹(13)에 라우트(route)된다. 상기 시간 공유 모델은 고유(native) 접속 포인트 또는 다중 접속 포인트용 인터넷 게이트웨이를 통해 무선 사용자들에게도 적용된다. 종래 검색 엔진은 상기 웹 서버(14)로부터의 자동 크롤링(17) 및 검색에 이용가능한 검색 인덱스(18)의 정보 구조화(structuring)에 기초하였다. 상기 검색 결과는 상기 웹(15, 16) 상의 최초의 문서들에 레퍼런스(reference)를 제공한다.

컴퓨터 시스템에서 공통 개념은 캐싱 시스템이다. 상기 ISP들은 대역폭 분배 유닛에서 웹 캐시를 사용한다. 이 캐시는 백본의 대역폭 사용량을 줄여주는 반면, 최종 사용자는 낮은 지연시간을 경험하게 한다. 웹 캐시들로 종종 프록시 서버들이 사용된다. 프록시 서버들은 투명(transparent)하거나 그렇지 않을 수 있다. 여러 개의 캐싱 메커니즘 및 프록시 서버들이 종래 기술에 존재한다. 하나의 예가 스퀴드(Squid;www.squid-cache.org)로서, 웹 프록시의 무료 소프트웨어 버전이다. 도 2는 프록시 서버(21)가 어떻게 문서들 또는 객체(22)의 내부 수집을 수행하는지를 나타낸 도면이다. 상기 ISP(24)로부터의 외부 대역폭 요청량을 감소시키기 위해, 상기 객체들에 대한 사용자 요청들은 로컬(23)로 제공된다. 또한, 캐싱된 문서 또는 객체에 액세스할 때, 사용자들은 줄어든 지연시간을 경험하게 될 것이다. 상기 캐시의 복사본이 실제 최초의 객체를 반영한다는 것을 보장하기 위해 개별 객체들에 대해 종료 룰(expire rule)이 정의된다.

삭제

트래픽 크롤링(traffic crawling)의 개념 및 특성에 대해 설명한다.

ISP를 통해 인터넷에 접속된 전 사용자 세트는 전체적으로 웹으로부터 정보의 거대한 크롤러(crawler)로 움직일 것이다. 본 발명의 나머지 부분은 ISP에서의 총 정보 수집에 대해 언급하며, 유사한 접속 포인트 또는 게이트웨이는 트래픽 크롤러로서 언급될 것이다.

이 "인간(human)" 트래픽 크롤러는 자동 소프트웨어 크롤러와는 매우 다른 수많은 특징들을 가지고 있다.

● 상기 트래픽 크롤러는 문서들에 액세스하기 위한 시드(seed) 페이지 및 링크 토폴로지 면에서 소프트웨어 크롤러와 동일한 제한들을 갖지 않을 것이다.

● 상기 트래픽 크롤러는, 임의의 사이트에 대하여 소프트웨어 크롤러가 영향받기 쉬운 액세스 제한에 의해 제한받지 않을 것이다. 따라서, 상기 트래픽 크롤러는 큰 사이트들을 잠재적으로 훨씬 빠르고 더 완벽하게 크롤(crawl)할 수 있다.

● 소프트웨어 크롤러는 이전에 방문한 문서들을 간단히 다운로드하고, 마지막 다운로드 이후, 이들 페이지들의 컨텐트가 업데이트되었지를 체크함으로써 많은 시간을 소비할 것이다. 상기 트래픽 크롤러는 해당 문서의 이전 복사들에 대해 테스팅을 복제하기 위해 상기 사용자 요청에 대해 ISP가 찾아낸(retrieved) 컨텐트를 체크할 수 있다. 따라서, 어떤 추가적인 정보의 다운로딩도 필요치 않게 된다.

● 상기 트래픽 크롤러는 소프트웨어 크롤러에 의해 제공된 새로고침 기능을 두 가지 방법으로 부가할 수 있다.

ｏ 상기 트래픽 크롤러는 분실되거나 일시적으로 이용할 수 없는 문서들을 검색한다. 통상적으로, 임의의 URL에 대한 HTTP 요청이 에러 넘버 404와 같이 에러 메시지로 귀결될 때, 상기 검색은 레코딩에 의해 이루어질 수 있다. 이 실패한 요청은 연관된 URL을 제거하거나 또는 상기 검색 엔진에 의해 생성된 결과 리스트들의 문서 정렬을 위해 상기 URL에 낮은 순위(rank) 값을 할당함으로써 연관된 검색 서비스에 활용될 수 있다.

ｏ 상기 접속된 ISP 클라이언트들 중 하나가 문서를 다운로드하자마자, 상기 트래픽 크롤러는 잠재적으로 새롭거나 또는 업데이트된 문서를 분석할 수 있다. 예컨대, 상기 ISP 클라이언트들 중 하나가 기사를 읽자마자, 새로운 보도자료는 이러한 방법으로 검색될 수 있다.

●상기 ISP 사용자들은 능동 페이지들을 액세스할 것이기 때문에, 이들 페이지의 컨텐트가 검색될 수 있다. 이것은 실질적으로 능동 페이지를 생성하는 데 이용될 수 있는 무수히 많은 파라미터 조합들이 될 수 있다. 따라서, 상기 요청에 이용된 상기 파라미터 조합들은 실제적으로 검색되어야하는 능동 페이지들 세트를 정의하기 위한 매우 합리적인 선택이다. 이것은 정확하게 상기 트래픽 크롤러가 다음 검색을 위해 잠재적으로 인덱스할 수 있는 능동 페이지들 세트이다.

●또한, 상기 ISP 사용자들의 액세스 패턴은 연관된 검색 인덱스에 개선된 상관도(relevancy)를 부가할 수 있다. 자주 방문되는 사이트들은 좀처럼 방문되지 않는 사이트들보다 높게 순위 결정될 수 있다. 또한, 이러한 액세스 카운팅은 결과 리스트에서 사용자 선택을 새로운 방향으로 전환시킴으로써, 검색 엔진 자체에 의해 잠재적으로 이루어질 수 있지만, 검색 결과로서 나오는 액세스 패턴뿐만 아니라 전체 액세스 패턴에 근거하여 상기 상관도를 계산하는 것이 보다 더 가치있다.

이하, 집중화된 크롤링 개념 및 분산화된 크롤링 개념에 기초하여 트래픽 크롤링의 수행 및 디자인에 대해 설명한다.

집중화된 트래픽 크롤링

데이터 네크워크의 액세스 포인트에서 트래픽을 기초로 하여 트래픽 크롤러를 수행하는 몇 가지 방법이 있다. 본 발명은 일부 가능한 실시예만을 보여주는 것이며, 동일한 이득을 실현하는 데 조금 다른 디자인 선택이 활용될 수 있다는 것이 당업자에게 자명하다. 본 발명에서 보여진 예들은 ISP의 트래픽 및 웹 문서들의 인덱싱을 하나의 케이스로서 이용할 것이며, 이와 동일한 원리들이 인트라넷 트래픽 또는 무선 접속 포인트와 같이 유사한 상황에도 어떻게 적용될 수 있는지는 당업자에게 자명할 것이다.

ISP를 통해 지나가는 문서들이나 객체들에 대한 실제 액세스는 다양한 방법으로 이루어질 수 있다. 그 중 하나는 ISP에 의해 채용된 캐싱 메커니즘을 이용하는 것이다. 이 캐시의 컨텐트는 검색 및 경보를 위해 주기적으로 인덱스될 수 있고, 검색 인덱스는 새로운 문서 또는 객체가 웹 캐시에 저장될 때마다 점증적으로 증가될 수 있다. 이 접근법의 제한은 현재 웹 캐시들이 상기 ISP로부터 외부 대역폭 요청들을 줄이도록 디자인되어 있다는 것이다. 상기 대역폭 고울(goal)은 어떤 종류의 객체들이 상기 웹 캐시에 보존되는지를 지시한다. 통상적으로, 상기 웹 캐시의 대부분은 자주 액세스된 멀티미디어 객체들로 구성될 것이다. 또한, 많은 수의 가장 관심있는 인덱싱할 텍스트 페이지들은 상기 종료 태그를 상기 캐시로부터 제외하라고 상기 웹 캐시에게 지시하는 종료 태그를 갖게 될 것이다.

따라서, 상기 트래픽 크롤링의 품질을 최적화하는 것은 상기 웹 캐싱 정책의 변경을 요구하거나 또는 별도의 캐시가 상기 웹 캐시와 병렬로 배치되어야 할 것이다. 이 경우, 상기 웹 캐시는 대역폭 최적화 기준에 기초하여 객체들을 선택할 것이며, 상기 검색 캐시는 검색 및 경보 서비스 면에서 문서 품질에 기초하여 객체들을 선택할 것이다.

도 3은 프록시 서버가 공조 검색 캐시와 통신하기 위해 어떻게 개조될 수 있는지를 나타낸 도면이다. 상기 검색 캐시는 프록시 서버와 동일한 컴퓨터에 존재할 수 있거나 또는 다른 컴퓨터에도 존재할 수 있으며, 데이터 네트워크를 통해 통신할 수 있다. 상기 프록시 서버는 외부 대역폭 요구들을 줄이는 데 이용하는 내부 웹 캐시(31)를 포함한다. 상기 웹 캐시는 트래픽 크롤링을 수행하는 데에는 불필요하다. 상기 프록시 서버는 통신 모듈(32)을 포함한다. 상기 통신 모듈(32)은 프록시 서버(34)를 통과하는 웹 요청(35)을 기록하며, 상기 요청에 대한 결과 메시지 및 상기 요청에 대한 결과로서 사용자에게 전달되는 실제 컨텐트를 선택적으로 기록 및 버퍼링한다. 상기 통신 모듈은 이 정보를 상기 검색 캐시(33)로 전송한다(36). 상기 전송된 정보는 다음의 내용을 포함하도록 구성될 수 있다.

● 요청 전용(only requests) : 이는 상기 프록시 서버의 액세스 로그의 업데이트를 상기 통신 모듈(32)에서 검색 캐시(33)로 주기적으로 전송함으로써 수행될 수 있다. 각 액세스 레코드는 다음과 같은 정보로 선택적으로 태깅(tagging)될 수 있다.

ｏ IP 어드레스와 같은 사용자 정보.

ｏ 암호화된 사용자 정보. 웹 어플리케이션의 프라이버시 문제들로 인해 개별 사용자들의 익명성을 보호하는 것이 중요할 것이다. 따라서, 상기 프록시 서버 내의 통신 모듈은 모든 개인 정보가 제외 또는 코딩되도록 하여 개별 사용자들이 상기 검색 캐시로 입력되는 데이터에 기초하여 식별되지 않고 구분되도록 설정될 수 있다. 하나의 예로서 상기 요청을 사용자 세션 ID에 기초한 암호화 번호로 태깅할 수 있다. 또한, 이러한 접근법은 프라이버시 정책이 상기 ISP 및 내부적으로 ISP 프록시 소프트웨어에 의해 통제가능하도록 한다.

ｏ 국적 및 도시와 같은 사용자 관련 정보. 이런 정보는 개별 사용자들이 상기 검색 캐시로 입력되는 데이터에 기초하여 식별되지 않도록 보장하기 위해 상당히 낮은 레벨에서도 보호되도록 한다. 상기 개별 사용자들이 거래관계를 확립할 때, 상기 위치 정보는 ISP에 의해 기록된 보조 데이터에 기초하여 생성될 수 있다. 무선 어플리케이션은 국부화(localization) 정보를 무선 기기가 제공한 예컨대, GPS 데이터로부터 획득할 수 있거나 또는 예컨대, 기지국 ID 및 지연 시간에 기초한 전화 국부화를 통해 획득할 수 있다.

ｏ 웹 요청의 결과 코드. 예컨대, 상기 검색 캐시는 이 정보를 쓸모없는 링크를 제거하거나 종종 일시적으로 사용할 수 없는 링크의 순위(rank)를 낮추는 데 이용할 수 있다.

ｏ 문서 컨텐트를 위한 해시 값(hash value). 상기 통신 모듈(32)은 상기 요청의 결과로 사용자에게 돌아가는 컨텐트를 반영하는 하나 이상의 해시 값을 계산할 수 있다. 이러한 컨텐트 키는 최소의 CPU 오버헤드를 가지고 계산될 수 있으며, 멀리 떨어져 있는 검색 캐시에 정보를 전송하는 가장 정확한 방법이다. 예컨대, 멀리 떨어져 있는 검색 캐시는 이러한 정보를 동일한 문서를 위해 히스토릭(historic) 해시 값과 비교하기 위해 사용할 수 있다. 상기 해시 값의 변화는 상기 문서가 업데이트되거나 상기 검색 캐시를 업데이트하기 위해 리크롤(recrawl)되어야 한다는 것을 의미한다.

● 컨텐트를 가지는 요청(request with content) : 상기 통신 모듈(32)은 상기 요청에 대해 논의된 정보뿐만 아니라 실제 문서 컨텐트를 전달할 수 있다. 통상적으로, 이런 옵션은 상기 통신 모듈(32)과 검색 캐시(33) 사이에 고용량 데이터 채널이 이용가능한 경우에 선택된다. 상기 문서가 ISP에 의해 검색되면 상기 최초 웹 서버로의 추가적인 요청없이 인덱싱 및 경보를 위해 이용가능해질 수 있다. 이런 경우, 상기 데이터 스트림은 분할되어 사용자에게 돌아간 정보의 복사본이 상기 통신 모듈(32)로부터 검색 캐시(33)로 전송된다. 이는 상기 검색 캐시(33)로의 통신을 줄이기 위해 상기 통신 모듈(32)에서 필터링을 수행하는 데 이점을 제공한다. 통상적으로, 인덱스에 관련된 요청만이 전송될 수 있다. 이러한 필터링 룰의 예들은 다음을 포함한다.

ｏ HTTP GET 요청만을 전송한다.

ｏ MIME 타입 text/*에 대한 요청만을 전송한다.

ｏ 성공적인 전송을 의미하는 결과 코드를 갖는 요청에 대한 컨텐트만을 전송한다.

ｏ 명확히 식별된 호스트들 또는 제외되어야 하는 식별된 호스트들의 데이터베이스에 존재하지 않는 호스트들에 대한 요청만을 전송한다.

상기 검색 캐시(33)는 프록시 서버 내의 통신 모듈(32)로부터 정보 스트림을 수신하여 검색 인덱스 또는 경보 서비스를 만드는데 활용한다. 도 4는 상기 검색 캐시의 가능한 구성을 나타낸 도면이다. 상기 검색 캐시(33)는 프록시 서버 내 통신 모듈(32)로의 데이터 전송을 처리하는 통신 모듈(41)을 포함한다. 예컨대, 실제의 전송 로직은 소켓(socket)들을 사용하여 수행될 수 있다. 상기 통신 모듈(41)에 의해 수신된 데이터는 추가 처리를 위해 전달된다. 첫번째 처리 과정은 상기 프록시 서버 내 통신 모듈에서 설명한 필터링 메커니즘을 확장하거나 추가할 수 있는 거절(rejection) 로직 필터(42)이다. 상기 프록시 서버내에서 거절 필터링을 수행하는 이점은 상기 프록시 서버 및 검색 캐시간의 데이터 대역폭이 줄어든다는 데 있다. 한편, 상기 검색 캐시 내에서 거절 필터링을 수행하는 이점들은 다음과 같다.

● 프록시 서버를 구동하는 CPU를 위한 부하의 추가(load addition)가 최소로 되어야 한다. 따라서, 상기 통신 모듈(32) 내의 처리 오버헤드는 최소로 유지되어야 한다.

● 통상적으로, 상기 검색 캐시는 양호한 거절 필터를 디자인하는 데 중요한 문서 정보에 대해 빠르게 액세스할 것이다. 예컨대, 이러한 정보는 문서 컨텐트, 액세스 통계 및 거부되어야 하는 호스트들 및 사이트들을 갖는 데이터 베이스들에 대한 히스토릭 해시 값을 포함한다.

상기 거절 로직(42)은 실제 전송 중에 실시간으로 수행될 수 있음에 주목해야 한다. 따라서, 상기 스트림이 상기 검색 캐시에 의해 거부되어야 하는 객체로 식별되자마자 상기 전송은 중지될 수 있다.

분산 트래픽 크롤링

도 3b는 클라이언트 소프트웨어로부터의 분산 트래픽 크롤링을 나타낸 도면이다. 사용자 세트(3b1, 3b2, 3b3)는 인터넷, 모바일 인터넷 또는 인트라넷과 같은 공유 네트워크 리소스로부터 문서들을 검색한다. 상기 문서들은 검색되어 클라이언트 소프트웨어(3b4, 3b6, 3b8)내에 디스플레이된다. 통상적으로, 상기 클라이언트 소프트웨어는 브라우저 어플리케이션이 될 수 있다. 통신 모듈(3b5, 3b7, 3b8)은 플러그 인 또는 공조 모듈로서 상기 클라이언트 소프트웨어 내에 위치할 수 있다. 상기 통신 모듈이 활성화될 때, 상기 통신 모듈은 상기 클라이언트 소프트웨어가 찾아낸(retrieved) 문서들의 URL과 같은 문서 ID를 기록할 수 있다. 또한, 상기 통신 모듈은 집중화된 트래픽 크롤링에서 설명한 것과 동일한 타입의 정보를 보낼 수 있다. 상기 클라이언트 소프트웨어 내에 분산된 통신 모듈 세트로부터의 메시지들은 서버 어플리케이션(3b10)에 의해 모아진다. 상기 서버 어플리케이션(3b10)은 집중화된 트래픽 크롤링(32)의 통신 모듈이 상기 검색 캐시(33)로 정보를 전달하는 방법과 정확히 동일한 방법으로 검색 캐시(3b11)에 요구된 정보를 전달한다.

분산 트래픽 크롤링은 시스템과 ISP 서비스 또는 이와 유사한 서비스를 통합할 필요없이, 집중화된 트래픽 크롤링과 동일한 이득을 가져오게 한다. 분산된 액세스 포인트는 클라이언트 소프트웨어를 통해 대신 이용되고, 상기 분산된 액세스 정보는 네트(net) 상에서의 통신에 의해 집중화된 서버 어플리케이션에 모이게 된다.

사용자가 클라이언트 소프트웨어를 통해 상기 통신 모듈을 명백히 활성화시키거나 비활성화시킬 수 있기 때문에, 분산 트래픽 크롤링에서 개인 정보는 쉽게 처리될 수 있다.

트래픽 컨텐트의 캐싱에 대해 설명한다.

상기 거절 로직 필터(42)에 의해 거부되지 않은 문서들은 다양한 문서들과 연관된 정보를 실제로 캐싱하는 객체 관리자(43)로 전송된다. 상기 객체 관리자는 임시 저장매체(47)의 문서들을 체크하여 개인 정보가 상기 객체 관리자(43)로부터 유출되지 않도록 하는 프라이버시 필터(44)를 포함한다. 상기 프라이버시 필터(44)는 본 발명에서 별도로 설명한다. 상기 객체 관리자(43)의 문서 레퍼런스에 함께 저장된 정보는 다음을 포함할 수 있다.

● 상기한 바와 같이 프록시 서버 내의 통신 모듈(32)에 의해 상기 문서에 첨부된 정보

● 최근 변경된 속성(attribute)과 같은 문서 통계

● 처음 본 시간(time of first-seen), 마지막으로 본 시간(time of last-seen), 다양한 시간 간격의 액세스 수, 상기 문서에 액세스한 서로다른 사용자들의 수 같은 액세스 통계

● 상기 문서 컨텐트 자체

● 상기 문서에 대한 정적 순위 값

상기 객체 관리자는 새롭거나 업데이트되었거나 또는 삭제된 문서들에 대한 정보를 갖는 데이터 스트림을 계속해서 또는 주기적으로 출력하는 서비스로서 기능할 수 있다. 상기 데이터 스트림은 문서 레퍼런스(45) 또는 실제 문서 컨텐트(46)를 포함하는 문서 레퍼런스만을 포함할 수 있다. 이들 데이터 소스들은 웹 업데이트를 위한 경보 서비스를 확립하고, 상기 웹의 일반적이고 특별한 검색 엔진의 크기, 새로고침 기능(freshness) 및 상관도(relevance)를 개선시기는 데 유용하다. 상기 문서 레퍼런스(45)는 통상적인 검색 엔진의 크롤러(17)를 가이드하는 리인덱싱(re-indexing) 신호로 이용될 수 있으며, 상기 실제 문서 컨텐트(46)는 통상적인 검색 엔진의 이들 문서들의 크롤링(17)을 대체하는 데 이용될 수 있다.

또한, 상기 객체 관리자(43)는 임시 저장매체를 증가시키고, 상기 캐시로부터 문서들의 제거를 위한 축출(eviction) 알고리즘을 포함함으로써 캐시로 기능할 수 있다. 웹 캐싱 명령을 위해 문서들에 할당될 수 있는 유지 시간 속성(time-to-live attribute)은 실제로 검색 캐싱과는 관련이 없다. 상기 결과(resulting) 검색 서비스의 사용자에 의해 액세스된 실제 문서는 최초 문서일 것이다. 따라서, 유일한 리스크는 검색 엔진에 있어서 상기 인덱스된 텍스트가 실제 문서와 비교하여 구식이 되었을지도 모른다는 통상적인 문제이다. 한편, 이 새로고침 기능 문제의 가능성은 본 발명에 개시된 기술을 기초로 확립된 검색 서비스들에 의해 극적으로 감소된다. 문서 순위 값이 상기 문서들의 품질 및/또는 사용량을 실제 반영한다면, 상기 캐시 축출 정책은 상기 문서 순위 값과 밀접하게 결합될 수 있다. 새롭거나 또는 업데이트된 문서들은 소정의 최소 시간동안 캐시에 저장되어 검색 서비스가 최신 웹 업데이트를 위해 확립될 수 있도록 한다. 능동 객체들은 자주 업데이트되는 능동 객체들의 양이 초과하지 않도록 하기 위해 상기 검색 캐시의 유지 시간을 줄여왔다.

또한, 상기 객체 관리자(43)는 상기 임시 저장 매체(47)의 문서들을 위한 정적 순위 값(48)을 계산하기 위한 모듈을 포함할 수 있다. 상기 순위 값은 어떤 문서들이 상기 임시 저장매체(47)에서 제거되어야하는지를 결정하는 것에 관한 캐싱 정책을 위해 이용될 수 있고, 상기 결과 검색 서비스의 검색 결과의 순위 결정을 위한 입력으로도 이용될 수 있다. 통상적으로, 상기 순위 기준으로는 링크 토폴로지, 문서 컨텐트 및 액세스 패턴의 조합이 될 수 있다. 상기 트래픽 크롤러의 이점은 액세스 통계상의 평가의 품질이 종래 기술에 비해 향상될 것이라는 데 있다. 상기 액세스 통계의 범위를 벗어나지 않는 간단한 순위 공식의 예는 다음과 같다.

r' = r + w*I*f(hit rate) * g(문서에 액세스 하는 사용자의 수)+ (I-A)

위의 공식에서, r은 상기 문서의 이전 순위를 나타내고, r'는 상기 문서의 업데이트된 순위를 나타낸다. w는 상기 순위 값의 순환적인 업데이트의 가중치 인자이고, I는 목표 평균 순위 값을 나타내고, 새로운 문서들을 위한 초기값으로도 이용될 수 있다. A는 이전 순위의 평균 순위를 나타내고, I에 기초하여 시간 상에서 상기 순위 값을 안정시키기 위해 사용된다. 상기 함수 f 및 g는 많은 다른 사용자들에 의해 자주 액세스되는 문서들의 가중치를 증가시키는 단조함수들이다.

상기 트래픽 캐시의 인덱싱에 대해 설명한다.

상기 객체 관리자는 새롭거나 업데이트되거나 또는 삭제된 문서들(45, 46)에 대한 정보를 갖는 데이터 스트림을 반복해서 또는 주기적으로 출력하도록 이용될 수 있다. 이 경우, 상기 생성된 데이터 스트림의 수신처는 이 정보의 인덱싱 및 상기 결과의 검색 서비스 생성을 처리할 것이다. 다른 이용 방안으로, 상기 객체 관리자(43)가 캐시 또는 임시 저장매체(47)를 이용하여 상기 임시 저장매체(47)의 컨텐트를 반복적으로 또는 주기적으로 인덱스하도록 하는 것이다.

도 5는 상기 검색 캐시의 컨텐트가 어떻게 검색 인덱스로 변환될 수 있는지를 나타낸 도면이다. 상기 가장 간단한 어프로우치(approach, 51)는 업데이트된 검색 인덱스를 구성하기 위해 상기 검색 캐시의 완전한 컨텐트를 주기적으로 처리(54)하는 것이다. 상기 완전한 검색 캐시는 인덱스될 수 있고, 이후 상기 검색 캐시(52)의 업데이트를 위해 증분 인덱스(58)가 반복적으로 또는 주기적으로(55) 구성된다. 상기 증분 인덱스는 완전한 인덱스와 직접 결합되거나 주기적으로 통합되어야 한다. 또한, 상기 통합은 상기 완전한 검색 캐시를 리인덱싱함으로써 수행될 수 있다. 다른 방안으로, 상기 검색 캐시가 최근에 기록된 문서 업데이트(53)에 따라 상기 데이터를 그룹으로 구분하도록 하는 것이다. 예컨대, 상기 그룹은 "지난 시간(59c)" "지난 날(59b)" "지난 주(59a)"가 될 수 있다. 따라서, 상기 동일한 그룹은 상기 검색 인덱스(59d, 59e, 59f)에 반영될 수 있다. 이러한 그룹은 인덱싱 요구 및 인덱스에 필요한 통합 작업을 줄일 것이다.

상기 인덱싱 작업에 의해 계산되는 상기 문서 순위는 객체 관리자 내의 순위 계산(48)에 의해 제안된 순위 값을 이용할 수 있거나 또는 이 값을 링크 토폴로지 같은 다른 정보 소스와 결합할 수 있다.

본 발명에 따른 상기 트래픽 캐시는 검색 서비스에 유용하게 이용될 수 있다.

도 6은 상기 검색 캐시 인덱스를 이용하는 검색 서비스 구성을 나타낸 도면이다. 상기 검색 캐시에서 생성된 검색 인덱스는 검색 엔진 서비스를 확립하기 위해 통상적인 방법으로 이용될 수 있다. 사용자는 쿼리(61)를 사용자에게 되돌아가는 결과(63)를 생성하는 상기 검색 캐시 인덱스(62)로 전달한다. 상기 검색 엔진은 본 발명에서 설명한 상기 트래픽 크롤러에 의해 제공된 이점들을 이용할 수 있다.

다른 방안으로, 상기 검색 캐시에서 생성된 검색 인덱스를 예컨대, www.alltheweb.com과 같은 대규모의 일반적인 인터넷 검색 서비스가 될 수 있는 외부 검색 인덱스와 결합시키는 것이다. 이 경우, 사용자 검색 쿼리(64)는 쿼리 발송(dispatch) 모듈(65)로 전송되고, 동일한 검색이 트래픽 캐시 인덱스(66) 및 공조 검색 인덱스(67)에서 수행된다. 상기 두 검색에서 생성된 결과 리스트들은 상기 문서 순위 값을 고려하는 통합 모듈(68)에서 통합된다. 결론적으로, 단일화된 결론이 구성되어 초기 쿼리에 대한 응답(69)으로서 사용자에게 전달된다. 따라서, 상기 통합 작업은 포괄적으로 순위된 컨텐트를 보유하고 있을 상기 공조 검색 엔진의 컨텐트에 대해 상기 트래픽 캐시 인덱스로부터 복귀된 로컬 컨텐트를 순위 결정하기 위한 다양한 알고리즘을 선택할 수 있다.

상기 두 공조 검색 엔진이 갖는 개념은 잠재적으로 하나 이상의 트래픽 캐시를 갖는 다중 검색 엔진들을 처리하도록 쉽게 확장될 수 있다. 이 경우, 상기 발송 모듈(65) 및 통합 모듈(68)은 선택된 검색 서비스 세트와 통신하도록 개조되어야 한다. 인터넷을 위한 다수의 종래 검색 엔진의 병렬 검색과의 유사한 조합이 종래 기술에 존재하며, 통상 메타 검색 엔진이라 언급된다.

본 발명의 방법은 지역 또는 커뮤니티에 특정한 순위 결정의 이용을 편리하게 한다.

인터넷 및 많은 인트라넷용 문서 데이터베이스는 거의 기하급수적으로 증가하고 있지만, 상기 쿼리 복잡성은 거의 변하지 않고 있다. 따라서, 임의의 질문에 대한 문서들을 매칭시키는 횟수 또한 거의 기하급수적으로 증가하고 있다. 따라서, 검색 엔진을 위한 상관도(relevancy) 요구는 더욱더 중요해지고 있다. 위치 정보는 필요한 상관도 개선을 수행하는 데 있어 중요한 역할을 할 수 있다.

위치 엔코딩은 임의 문서의 컨텐트 및 특성을 연구함으로써 달성될 수 있다. 주소 또는 전화 번호와 같은 정보는 문서를 지리적으로 특정한 위치에 할당하는 데 이용될 수 있다. 선택적으로, 서로 다른 지역으로부터 소정 문서로의 액세스 패턴을 관찰할 수 있으며, 어떠한 문서들이 소정 지역으로부터의 액세스를 나타내는지 통계적으로 식별할 수 있다. 상기 검색 엔진은 이 정보를 이용하여 특정 지역의 순위 공식을 만들 수 있다. 예컨대, 상기 검색 서비스의 스페인 사용자는 어떤 사이트들이 스페인 사용자들 사이에서 인기가 있는지에 대한 정보를 이용하는 순위를 결정할 수 있다. 또한, 상기 지역적인 액세스 패턴은 임의의 특정 지역과 연관된 인기있는 문서의 자동화된 리스트들을 만드는 데 이용될 수 있다. 또한, 상기 리스트들은 카테고리별로 분류될 수 있기 때문에 자동화된 지역 포털 서비스를 창조하는 데 이용될 수 있다.

상기 트래픽 크롤러에 의해 제공된 공간 정보는 개별 사용자들이 상기 검색 캐시에 입력되는 데이터에 기초하여 식별될 수 없다는 것을 보장하기 위해 낮은 레벨에서도 충분히 보호되어야 한다. 통상적으로, 주석이 달린 모든 지역들은 소정의 최소 사용자 수를 확보해야 한다. 상기 개별 사용자들이 거래관계를 확립할 때 , 상기 위치 정보는 ISP에 의해 기록된 보조 데이터에 기초하여 생성될 수 있다. 무선 어플리케이션은 국부화(localization) 정보를 무선 기기가 제공한 GPS 데이터로부터 획득할 수 있거나 또는 예컨대, 기지국 ID 및 지연 시간에 기초한 전화 국부화를 통해 획득할 수 있다.

본 발명에 따른 방법은 상기 트래픽 크롤러에 의해 제공된 통계에 기초하여 문서 유사성의 추정을 허여하면서, 정보를 유익하게 제공할 것이다.

크롤링에 대한 종래 기술들은 문서들 간 링크 토폴로지의 분석을 허여하고, 상기 토폴로지에 기초하여 문서 우선순위를 할당하기 위한 다양한 기술들이 제안되었다. 한편, 링크 토폴로지는 능동 객체들, 새로운 문서들, 바이너리 파일들 및 무선 마크업 언어(Wireless Markup language)로 기재된 페이지들과 같은 무선 페이지들 같은 중요한 문서 분류에 대한 상관도를 위한 정확한 소스는 아니다. 상기 모든 예들은 링크 토폴로지 분석에 이용될 수 있는 링크들을 전혀 가지고 있지 않거나 비교적 아주 적게 가지고 있다. 상기 트래픽 크롤러에 의해 전달된 요청 통계의 시간 근접성은 이들 위치에 있는 문서들 간 유사성 특정을 정의하는 데 유용한 소스를 제공할 수 있다. 또한, 상기 요청 통계는 리쳐(richer) 링크 토폴로지가 유사성 측정에 이용될 수 있는 위치의 유사성 측정을 부가할 수 있다.

도 7은 문서 유사성을 정의하기 위한 시간 근접성 원리를 설명하기 위한 도면이다. ISP(71)는 서버(74) 및 개별 문서들(a, b, c,..)로 구성된 웹 리소스(73)와 많은 사용자들(A, B, C,..)을 접속시킨다. 상기 트래픽 크롤러에 의해 기록된 액세스 로그는 다양한 사용자들에게 분할되어 동일한 사용자로부터의 연이은 요청들이 식별될 수 있도록 한다(74). 사용자 프라이버시는 사용자 ID 정보를 엔코딩함으로써 유지될 수 있다. 상기 액세스 로그가 사용자 IDs 대신 세션 IDs로 주해되는 것은 하기의 분석에 있어서 충분하다. 또한, 세션 IDs 또는 엔코딩된 세션 IDs로 주해하는 것은 사용자 프라이버시를 보호한다.

상기 유사성 정의는 개인이 단시간 윈도우 작업 또는 연속되는 요청의 단시간 내에 관련 정보를 검색한다는 가정에 기초한다. 이 가정에는 분명히 예외가 있는데, 사용자에 의한 포커스의 전환으로 인해 야기된 무작위 변화가 더 통계적인 무작위 특성을 가질 수 있다라는 것이다.

도 8은 시간 근접성(temporal vicinity)을 정의하는 가중치 함수에 대한 가능한 정의를 나타내는 도면이다. 사용자 "C"가 시간 t₀ 에서 문서 "a"를 요청하는 예가 도시되어 있다. 두번째 요청이 동일한 사용자 또는 세션에 의해 시간 t₁에서 문서 "b"에 행해진다. 또한, k번째 다른 문서 요청이 동일한 사용자에 의해 상기 문서들 "a" 와 "b"에 대한 요청들 사이에 이루어진다. 이 경우, 근접 가중치 함수는 함수 w(k, t₁-t₀ )로 정의될 수 있으며, w는 k 및 |t₁-t₀|에 의해 감소하는 단조함수이다. 간단한 모델에서, w는 예컨대, t₀ (t_MIN-t_MAX)와 관계된 임의 시간 간격, 또는 t₀ 이전의 액세스 k₁의임의의 수 및 t₀ 후 액세스 k₂의임의의 수의 시그너쳐(signature)함수로 정의될 수 있다. 이와 유사한 가중치 함수 모델들이 가상 메모리의 페이지들을 관리하기 위한 알고리즘과 같은 다른 어플리케이션에서도 이용된다.

임의 문서 "a"에 대해 순위 결정된 유사성 리스트는 "a" 문서에 대한 요청들 근처에 있는 다른 문서들의 통계적 오버리프리젠테이션(overrepresentation)을 측정함으로써 수립될 수 있다. 상기 분석은 문서 레벨 또는 임의 사이트에 존재하는 모든 문서들이 상위 레벨 사이트에 대한 요청으로 취급되는 사이트 레벨에서 수행될 수 있다.

상기 순위 값은 기술들의 수를 기초로 할 수 있으며, 본 발명의 실시예에 대한 근소한 변경이 어떻게 적용될 수 있는지는 당업자에게 자명할 것이다. 예컨대, 상기 유사성 순위는 이들 측정치들 중의 하나를 기초로 할 수 있다.

● "a" 문서에 대한 요청의 소정 시간 근접 윈도우 내의 총 액세스 수

● "a" 문서에 대한 요청의 소정 근접 윈도우 내의 총 액세스에 대한 근접 가중치 함수 w의 총 합

● "a" 문서에 대한 요청의 소정 근접 윈도우 내 관찰된 "b" 요청 수의 통계적 중요성. 상기 통계 테스트는 "a" 및 "b" 문서에 대한 요청들이 실제로 관계없다는 것을 가정하는 널 가정(null hypothesis)을 기초로 할 수 있다. 또한, 상기 "a" 및 "b" 문서에 대한 일반적인 액세스 빈도는 통계 테스트에서 고려될 수 있다. 유사한 통계 테스트가 상기 근접 가중치 함수 w의 총 합을 요청 카운트 대신 관찰 변수로 이용함으로써 고안될 수 있다.

따라서, 문서 유사성 리스트는 제안된 유사성 순위 함수들 중의 하나에 따라 "a" 문서에 대한 요청의 소정 근접 윈도우 내에서 요청된 문서들을 분류함으로써 문서 "a"에 대해 추정될 수 있다. 이러한 유사성 리스트들의 질은 동일한 사이트의 문서들 또는 "a" 문서의 하이퍼링크로 직접 언급되는 문서들을 제거함으로써 개선될 수 있다.

또한, 유사성 리스트는 단일 문서 대신 문서 그룹에 대해 추정될 수 있다. 이는 문서 그룹 내의 문서에 대한 어떤 요청도 상기한 설명의 "a" 문서에 대한 레퍼런스로 취급함으로써 쉽게 수행될 수 있다. 다른 방안으로, 예컨대, 상기 문서 그룹과 개별 세션들에 대한 각 액세스 로그들 간의 공통 문서들의 수를 카운트할 수 있는 사용자 유사성 인자에 의한 요청들에 가중치를 부여함으로써 그 유사성이 개선될 수 있다.

예컨대, 개인화된 순위 및 문서 선택은 사용자가 선택한 문서 세에 기초한 문서 유사성 리스트를 추정함으로써 이루어질 수 있다. 사용자는 이들 문서들을 명백히 선택할 수 있거나 또는 클라이언트의 브라우저에 의해 국부적으로 기록되거나 또는 액세스 게이트웨이에 기록된 액세스 히스토리 또는 브라우저 내의 좋아하는 선택에 의해 자동 선택이 이루어질 수도 있다.

검색 서비스 및 경보 서비스는 이 정보를 이용하여 사용자가 개인적된 순위결정 공식을 만들 수 있도록 할 수 있다. 상기 개인적인 순위 결정은 결과 리스트의 하기 문서들을 선호(favor)할 수 있다.

● 사용자에 의해 실제로 공급된 문서들

● 신문 사이트 상의 뉴스 기사와 같은 사용자에 의해 공급된 문서들과 관련된 새로운 능동 페이지들

● 사용자에 의해 공급된 문서들 세트를 가지고 상기한 바와 같이 높은 유사성 요소들을 갖는 문서들

또한, 본 발명은 문서 유사성 토폴로지를 근거로 하여 상관도 알고리즘을 확립하는 데 도움이 될 수 있다.

유사성 순위를 위한 소정의 근접 윈도우의 정의를 개조하는 것은 상기 문서들에 대한 흥미있는 특성들을 끌어낼 수 있다. 예컨대, "a" 요청 후의 10분 및 "a" 요청 전의 10분과 같이, 두 개의 근접 윈도우를 갖는 두 개의 문서 "a" 및 "b" 간의 순위 값을 비교하는 것이 가능하다. 상기 두 개의 값의 차이는 "a" 및 "b" 간의 관계 및 "a"의 컨텐트의 특성에 대한 정보를 줄 것이다. 이들 값들은 실제 사용에 기초한 문서들 간의 실제 유효한 링크 토폴로지를 정의할 것이다. 상기 값들은 하이퍼링크 토폴로지와 비교될 수 있거나 또는 하이퍼링크 토폴로지를 대신하여 문서 상관도 평가를 위한 기초가 될 수 있다. 링크 토폴로지에 기초한 상관도에 대한 종래 기술들이 어떻게 하여 본 발명에 개시된 트래픽 추론 활용 토폴로지(traffic derived usage topology)로 확장될 수 있는지는 당업자에게 자명한 것이다. 이러한 두 가지 방안은 다음과 같다.

● 첫째, 초기 문서 순위는 각 문서에 할당된다. 이것은 모든 문서들에 대해 동일할 수 있거나 또는 상기 문서를 차별화하기 위해 다른 정보 소스들을 고려할 수도 있다. 둘째, 문서 순위는 링크 강도를 갖는 초기 문서 순위에 가중치를 가함으로써 상기한 활용 토폴로지를 통해 퍼지게 된다.

● 상기 페이지 순위 또는 HITS 알고리즘과 같은 종래의 알고리즘은 상기한 활용 토폴로지를 통해 상기 페이지 순위를 퍼뜨리기 위한 반복하는 모델로 이용될 수 있다.

본 발명의 대부분의 웹 및 무선 어플리케이션에서, 사용자 프라이버시가 유지된다는 것이 필수이다. 데이터 네트워크의 액세스 포인트에서의 트래픽 컨텐트의 인덱싱은 잠재적으로 개인 정보가 많은 청취자(large audience)에 대해 검색가능하도록 할 수 있다.

예컨대, HTTPS 프로토콜 같은 웹 객체들을 안전하게 전송하는 별개의 프로토콜들이 고안되었다. 개인 컨텐트 객체들을 호스트하는 웹 서버들이 사용자들에게 대해 신중을 기하고자 한다면, 상기 웹 서버들은 이러한 프로토콜들을 이용해야 한다. 불행히도, 오히려 그 반대가 흔히 있는 일이다. 상기 웹 서버들에서 개인 컨텐트를 숨기기 위해 다양한 방법들이 이용되지만, 실제 컨텐트는 깨끗한 텍스트로 전송된다. 많은 개인 컨텐트가 능동 객체로 호스트되기 때문에, 일반적으로 종래 검색 서비스에서는 이용가능하지 않았다. 본 발명은 능동 객체들이 어떻게 효율적으로 인덱스되고 검색가능하게 되는지를 보여준다.

개인적이거나 민감한 정보의 인덱싱을 피하기 위해 다음의 원리들이 이용될 수 있다.

● HTTPS 프로토콜 같은 보안 프로토콜들은 분명히 인덱스되지 않는다.

● 인덱싱은 HTTP GET 요청들로 국한된다. 예컨대, 상기 서버의 HTTP POST 오퍼레이션을 이용함으로써 다소의 개인 객체들이 회복된다. 상기 오퍼레이션으로부터의 결과는 저장되지 않는다.

● 때때로, 능동적이고 개인적인 컨텐트가 어떤 버전의 HTTP 인증 메커니즘에 의해 보호된다. 이것은 HTTP 요청 헤더의 특정 필드를 셋팅함으로써 이루어진다. 이런 타입의 인증은 인덱싱으로부터 결과 정보를 제외시키기 위해 자동적으로 검색될 수 있다.

● 상기 인덱싱은 소정의 최소 사용자들에 의해 보여진 문서들로 국한될 수 있다. 오직 단일 사용자만이 보아온 정보의 인덱싱은 이러한 방법으로 회피될 수 있다.

● 상기 인덱싱은 쿠키들이 상기 문서를 회복하는 데 필요로 하는 개인 정보를 전송하지 않는다는 것을 보장하기 위해 상기 쿠키들을 포함하지 않는 요청들로 국한될 수 있다.

● 상기 인덱싱은 소정의 사이트들 및 호스트들 세트로 국한될 수 있다.

● 상기 인덱싱은 인덱스되어서는 안되는 소정의 사이트들 및 호스트들을 제외할 수 있다.

● 검출된 문서 레퍼런스들은 결국 리크롤되어(re-crewled) 상기 정보가 실제 누구에게나 유용한지 체크하게 된다.

본 발명은 바람직한 실시예를 참고로 하여 특별히 상기와 같이 설명되었지만, 본 발명의 사상을 벗어나지 않는 범위에서 다양한 변경이 가능하다는 것은 당업자들에게 자명한 일이다. 특별한 프로토콜들 및 포멧들의 이용은 본 발명의 필수적 특징은 아니다. 예컨대, 다른 무선 프로토콜들이 본 발명에서 보여진 원리들을 침범하지 않고 WAP/WML을 대체할 수 있다. 따라서, 첨부된 청구항에 정의된 바와 같이 본 발명의 사상을 벗어나지 않는 범위에서 이러한 변형이 가능하다.

Claims

데이터 네트워크의 액세스 포인트에서 트래픽 컨텐트를 검색 및 분석하는 방법으로서,

상기 데이터 네트워크는 인터넷을 통해 공유되는 네트워크 리소스이고, 상기 액세스 포인트는 인터넷 서비스 제공자에 의해 서비스를 제공받거나 다수의 사용자들에게 어플리케이션 형태로 보급되는 사용자를 위한 인터넷 액세스 포인트 또는 무선 사용자들을 위한 접속 포인트이고, 상기 접속 포인트는 고유 접속 포인트 또는 인터넷 게이트웨이이며, 상기 방법은,

상기 데이터 네트워크의 상기 액세스 포인트에서 정보 흐름으로부터 추출된 데이터 형태로 정보를 수집하는 단계;

상기 수집된 정보를 인덱싱하고 상기 인덱싱된 정보를 검색하는 단계; 및

상기 검색 단계에 기초하여 정보를 찾아내는(retrieving) 단계를 포함하는 방법.
제1항에 있어서, 상기 수집된 정보를 하나 이상의 액세스 포인트에 제공된 하나 이상의 캐시 수단에 캐싱함으로써 상기 수집된 정보를 저장하는 것을 특징으로 하는 방법.
제2항에 있어서, 두 개 이상의 캐시 수단에서 증가하는 시간 구간 세트의 수집된 정보를 캐싱하고, 상기 증가하는 시간 구간 세트에 대해 연관된 검색 인덱스들을 발생하기 위해 상기 각 캐시 수단에 캐싱된 정보를 반복적으로 인덱싱하고, 및 상기 발생된 검색 인덱스들로부터 검색 결과를 결합하는 것을 특징으로 하는 방법.
제2항에 있어서, 캐싱된 정보의 컨텐트가 인덱스될 때까지 캐시 수단에 상기 캐싱된 정보를 보존하는 것을 특징으로 하는 방법.
제4항에 있어서, 임의의 트래픽 컨텐트 유닛의 최종 업데이트 후 경과한 시간에 기초하여 상기 캐싱된 정보의 새로고침 기능을 계산하는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 정보 수집 단계는 외부의 대역폭 요구를 최소화하고, 인덱싱을 위한 새로고침 및 상관도 정보를 유지하기 위해 상기 트래픽 컨텐트를 각각 캐싱하는 서브단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서, 두 개의 전용 캐시 각각에 트래픽 컨텐트를 캐싱하는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 수집된 정보를 인덱싱하여 상기 정보의 인덱스를 생성하기 위해 상기 캐싱된 정보를 반복하여 처리하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 액세스 포인트에서 이전에 관찰되지 않았던 새롭거나 업데이트된 정보를 검출함으로써 상기 인덱스를 점증적으로 업데이트하고, 상기 검색 인덱스에 상기 새롭거나 또는 업데이트된 정보를 추가하는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 캐싱된 정보에 대해 수행되는 최종 인덱싱 동작 이후, 새로운 트래픽 컨텐츠를 가지는 일시적인 검색 인덱스를 발생하기 위해 상기 캐싱된 정보상의 두 개의 인덱싱 동작 사이에서 관측된 상기 트래픽 컨텐츠를 사용하고, 상기 캐싱된 정보를 인덱싱함으로써 발생된 가장 최근의 검색 인덱스와 상기 일시적인 검색 인덱스 모두에서의 검색을 결합함으로써 검색을 수행하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 수집된 정보의 인덱싱을 감도(sensitivity) 필터에 의해 삭제되지 않은 상기 트래픽 컨텐트의 서브 세트로 제한하고, 상기 감도 필터는 포르노그래픽 자료(pornographic material), 개인 자료, 특히 소정의 소수의 사용자들에 의해서만 액세스되는 개인 자료 및 http POST 오퍼레이션으로부터의 자료 중 하나 이상의 자료를 검출하는 데 사용되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 검색 단계는 트래픽 컨텐트 유닛의 기록된 시간 특징(attribute)에 따라 결정되는 상관도의 순위를 결정하거나 또는 데이터를 필터링 하는 서브단계를 포함하고,

상기 기록된 시간 특징은 상기 트래픽 컨텐트 유닛의 생성 시간, 상기 트래픽 컨텐트 유닛이 수정되는 최종 시간, 상기 액세스 포인트에서 임의의 트래픽 컨텐트 유닛의 최초 관찰 시간 및 상기 액세스 포인트에서 임의의 트래픽 컨텐트 유닛의 최종 관찰 시간 중 하나 이상의 시간인 것을 특징으로 하는 방법.
제1항에 있어서, 상기 검색 단계는 액세스 포인트를 통해 개별 트래픽 컨텐트 유닛의 액세스 카운팅에 따라 결정되는 상관도의 순위를 결정하기 위한 서브단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 검색 단계는 적어도 하나의 공조 검색 엔진(collaborating search engine)에 의해 구현되고,

상기 적어도 하나의 공조 검색 엔진에 검색 요청을 발신하는(dispatching) 서브단계, 국부 트래픽 인덱스로부터 검색 결과를 수집하는 서브단계, 상기 적어도 하나의 공조 검색 엔진으로부터 검색 결과를 수집하는 서브단계, 및 초기의 검색 요청에 단일 결과를 제공하기 위해 상기 수집된 검색 결과를 결합하는 서브단계를 포함하는 것을 특징으로 하는 방법.
제14항에 있어서, 상기 공조 검색 엔진은 인터넷 검색 엔진이고, 상기 검색 엔진에 의해 인터넷으로부터 크롤된(crawled) 정보를 인덱싱하는 것을 특징으로 하는 방법.
제14항에 있어서, 상기 검색 단계는 하나 이상의 공조 검색 엔진에 의해 구현되고, 상기 데이터 네트워크의 적어도 하나의 액세스 포인트 각각에 검색 엔진을 제공하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 정보 수집 단계는 액세스 불가능한 요청된 정보를 검출하는 서브단계 및 검색 인덱스, 특히, 공조 검색 인덱스의 연관 엔트리(entry)의 순위를 제거 또는 감소시키기 위해 상기 액세스 불가능한 정보에 대한 정보를 이용하는 서브단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 검색 단계는 적어도 하나의 공조 검색 엔진에 의해 구현되고,

액세스 포인트에서 이전에 관찰되지 않은 새롭거나 또는 업데이트된 정보를 검출하는 서브단계 및 상기 적어도 하나의 공조 검색 엔진의 검색 인덱스를 증가시키기 위해 상기 새롭거나 또는 업데이트된 정보에 대한 정보를 이용하는 서브단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 요청된 문서들에 대한 문서 식별자들을 수집하는 서브단계, 상기 요청을 제기하는 사용자들에 대한 공간 정보로 상기 문서 식별자들에 주석을 다는 서브단계, 공간 지역으로부터의 문서 요청들의 수 및 상기 공간 지역으로부터의 총 요청 수 중 적어도 하나를 포함하는 적어도 하나의 문서에 대한 액세스 통계를 계산하는 서브단계, 및 상기 임의의 공간 지역에 대한 액세스 통계와 적어도 하나의 제 2 공간 지역에 대한 상응하는 액세스 통계를 비교함으로써 어떤 문서들이 임의 공간 지역에 대해 가장 특별한지를 결정하는 서브단계를 포함하는 위치 코딩을 위한 선택 단계를 더 포함하는 것을 특징으로 하는 방법.
제19항에 있어서, 인터넷 서비스 제공자에 의해 기록된 사용자 데이터로부터 상기 공간 정보를 유도하는 것을 특징으로 하는 방법.
제19항에 있어서, 문서를 요청하는 모바일 기기의 위치로부터 상기 공간 정보를 유도하는 것을 특징으로 하는 방법.
제19항에 있어서, 개별 사용자들이 상기 액세스 통계에서 식별될 수 없다는 것을 보장하기 위해, 충분한 수의 사용자들이 모든 공간 지역 내에서 획득되도록 공간 입도(granularity)를 선택하는 것을 특징으로 하는 방법.
제19항에 있어서, 적어도 두 개의 공간 지역에 대한 상기 액세스 통계치가 동일한 통계치 분포에 속하는 가능성을 계산함으로써 문서 특성을 결정하는 것을 특징으로 하는 방법.
제19항에 있어서, 큰 공간 지역을 널 가정(null hypothesis)에 대한 통계치로 이용함으로써 상기 문서 특성을 결정하는 단계 및 임의 공간 지역에 대한 상기 액세스 통계치에서 서로 다른 테스트의 통계적 중요성을 계산하는 것을 특징으로 하는 방법.
제23항에 있어서, 검색 결과의 위치 민감 순위 결정을 제공하기 위해 지역 특정 스코어링(scoring)를 이용하는 것을 특징으로 하는 방법.
제24항에 있어서, 대중적인 지역 특정 문서들의 트래픽 의존 리스트들을 제공하기 위해 지역 특정 스코어링를 이용하는 것을 특징으로 하는 방법.
제26항에 있어서, 상기 문서 리스트를 상기 문서 컨텐트의 자동 카테고리 분석에 의해 카테고리 서브 리스트로 분류하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 요청된 문서들에 대한 문서 식별자들을 수집하는 서브단계, 상기 동일한 사용자로부터의 연속적인 요청이 식별될 수 있도록 문서 요청에 주석을 다는 서브단계, 및 "a" 요청에 근접하는 "b" 요청의 수와 "b" 요청의 평균 빈도를 비교함으로써 문서 "b" 및 참고 문서 "a" 간의 문서 유사성을 계산하는 서브단계를 포함하여 문서들의 유사성을 측정하는 선택 단계를 더 포함하는 것을 특징으로 하는 방법.
제28항에 있어서, 임의의 문서 입력에 기초하여 유사한 문서들의 순위 리스트를 제공하기 위해 유사성 측정치를 이용하는 것을 특징으로 하는 방법.
제29항에 있어서, 상기 입력 문서와 동일한 사이트로부터 문서들을 생략함으로써 상기 순위 리스트를 계산하는 것을 특징으로 하는 방법.
제28항에 있어서, 상기 유사성 측정치를 상기 문서 컨텐트에 기초한 유사성 측정치 또는 코 사이테이션(co-citation) 수의 카운팅에 기초한 유사성 측정치와 조합하는 것을 특징으로 하는 방법.
제28항에 있어서, 문서 식별자 그룹의 문서들 중 하나에 대한 모든 요청을 "a" 문서에 대한 요청으로 취급함으로써, 상기 문서 식별자 그룹에 대한 유사성 측정치를 계산하는 것을 특징으로 하는 방법.
제32항에 있어서, 사용자의 웹 로그 서브세트를 상기 문서 식별자 그룹으로 이용하는 것을 특징으로 하는 방법.
제33항에 있어서, 사용자 선호도를 반영하기 위한 문서들의 그룹을 선택하고, 상기 유사성 측정치에 기초하여 검색 결과의 개인화된 순위를 생성하는 것을 특징으로 하는 방법.
제33항에 있어서, 링크 토폴로지 분석을 기초로 문서 순위를 계산하고, 상기 유사성 측정치는 링크 토폴로지 및 연관된 가중치를 정의하는데 이용되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 데이터 네트워크의 액세스 포인트에서 데이터 흐름으로부터 추출된 정보를 실시간 수집하는 서브단계, 상기 액세스 포인트에서 이전까지는 관찰되지 않은 새로운 및/또는 업데이트된 정보를 검출하는 서브단계, 상기 새로운 및/또는 업데이트된 정보를 사용자 프로파일 세트와 비교하는 서브단계, 및 상기 새로운 및/또는 업데이트된 정보에 의해 트리거된 사용자 프로파일과 연관된 사용자에게 경보 메시지를 보내는 서브단계들을 포함하는 경보를 위한 선택 단계를 더 포함하는 것을 특징으로 하는 방법.