KR20070053282A

KR20070053282A - 정보에 대한 말단 사용자 요청에 응답하는 방법 및 장치

Info

Publication number: KR20070053282A
Application number: KR1020077006298A
Authority: KR
Inventors: 레미기우츠 케이. 팩즈코우스키; 매튜 이. 웨스토버; 도미닉 베네트; 벤자민 린드시; 스콧 반데벨드; 제이슨 페어차일드; 아담 윌리암 핀젤
Original assignee: 클라리아 코포레이션
Priority date: 2004-08-19
Filing date: 2005-08-19
Publication date: 2007-05-23
Also published as: WO2006023765A2; US20060041553A1; IL181323A0; TWI386824B; AU2005277210A1; TW200630828A; NZ553287A; WO2006023765A3; US20060041562A1; EP1779276A4; EP1779276A2; JP2008511057A; US7836009B2; US7444358B2; CA2577841A1

Abstract

본 발명은 고급 검색 엔진에 관한 것이다. 고급 검색 엔진은 말단 사용자의 브라우징 활동을 감시하는 클라이언트 컴포넌트, 클라이언트 컴포넌트로부터 수신된 데이터를 저장하고 처리하는 (하나 이상의 컴퓨터를 포함할 수 있는) 원격 서버, 및 웹 페이지들을 처리하고 검색 결과들을 말단 사용자들에게 제공하는 모듈을 포함할 수 있다. 고급 검색 엔진은, 예를 들어, 하나 이상의 키워드에 대한 정보에 대한 말단 사용자 검색 요청에 응답하여, 증명된 관심 키워드들에 대해 웹 페이지들을 수집하고, 말단 사용자들에 의해 요청된 웹 페이지들을 인출하고, 웹 페이지들의 추상들 또는 스니펫들을 생성하고, 중복 웹 페이지들을 삭제하고, 웹 페이지들의 중요도에 순위를 매기고, 관련 웹 페이지들 또는 웹 페이지들에 대한 링크들을 제공한다. 본 발명의 특정 양태들은 청구범위, 명세서 및 도면에 기재되어 있다.

검색 엔진, 웹 페이지, 키워드, 링크, 카테고리

Description

정보에 대한 말단 사용자 요청에 응답하는 방법 및 장치{METHOD AND APPARATUS FOR RESPONDING TO END-USER REQUEST FOR INFORMATION}

<관련 출원>

본 출원은, Westover 등에 의해 2004년 8월 19일에 출원된 "Method and Apparatus for Responding to End-User Request for Information"이라는 명칭의 미국 가특허출원 번호 제60/603,140호; Wohlers 등에 의해 2004년 12월 20일에 출원된 "Method and Device Publishing Cross-Network User Behavioral Data"라는 명칭의 미국 가특허출원 번호 제60/637,684호; Eagle 등에 의해 2005년 3월 17일에 출원된 "Method and Device for Publishing Behavioral Observations to Customers"라는 명칭의 미국 가특허출원 번호 제60/662,680호; 및 Westover 등에 의해 2005년 3월 11일에 출원된 "Method and Apparatus for Responding to End-User Requests for Information"이라는 명칭의 미국 가특허출원 번호 제60/660,798호의 이익을 주장한다. 본 출원은 Anthony G. Martin에 의해 2004년 12월 17일에 출원된 "Search Engine for a Computer Network"라는 명칭의 미국 특허출원 번호 제11/015,583호의 개시를 일부 계속 출원한다. 이들 식별된 출원들은 모든 목적으로 참조로서 포함된다.

본 발명은 고급 검색 엔진에 관한 것이다. 고급 검색 엔진은 말단 사용자의 브라우징 활동을 감시하는 클라이언트 컴포넌트, 클라이언트 컴포넌트로부터 수신된 데이터를 저장하고 처리하는 원격 서버(하나 이상의 컴퓨터를 포함할 수 있음) 및 웹 페이지들을 처리하고 검색 결과들을 말단 사용자에게 공급하는 모듈을 포함할 수 있다. 고급 검색 엔진은 입증된 관심 키워드에 대한 웹 페이지들을 수집하고, 말단 사용자들에 의해 요청된 웹 페이지들을 인출하고, 웹 페이지들의 추상들 또는 스니펫(snippet)들을 생성하고, 중복 웹 페이지들을 제거하고, 웹 페이지들의 중요도에 순위를 매기고, 예를 들어, 하나 이상의 키워드에 관한 정보에 대한 말단 사용자 검색 요청에 응답하여 관련 웹 페이지들 또는 링크들을 웹 페이지들에 제공할 수 있다. 해결되는 기술적 문제들, 사용되는 수단 및 얻어지는 결과들이 아래에 설명된다.

구글(Google)이 사용하는, 검색 엔진들에 대한 한 접근법은, 전세계의 정보를 조직화하고 이를 보편적으로 액세스 가능하게 하며 유용하게 만드는 것이다. 도그파일(Dogpile)이 한때 사용한 다른 접근법은, 메타 검색 엔진(meta-search engine)이 다른 검색 엔진들의 결과들을 집합시키는 것이다. 이러한 접근법들은 많은 양의 결과들을 생성한다. 예를 들어, 2005년 여름 현재 "값싼 여행(cheap travel)"이라는 키워드에 의해, 구글로부터는 약 18,000,000개의 결과들이 되돌아오고, 야후로부터는 약 85,800,000개의 결과들이 되돌아오며, MSN으로부터는 68,377,619개의 결과들이 되돌아온다.

결과 더미들의 상부에 "원하는 것(needle)"을 떠오르게 하고, 질의에 응답하 여 되돌아오는 링크들에 순위를 매기는 방법들을 고안하기 위해 많은 노력이 행하여져 왔다. 구글의 공개된 특허 출원들은, 그들의 제목들에서, 결과들의 위치를 결정하기 위해 국부적인 상호연결성, 품목 정보, 위치 인식 및 다른 인자들을 사용하는 것을 제안한다. 야후, 오버츄어(Overture) 및 마이크로소프트도 그들의 결과들의 표시를 개선하도록 작업해 왔다.

임의의 정보 세트에서, 검색 용어는 때때로 찾고자 하는 결과들을 결정하기에 충분하지 않다. 어떤 의미에서는, 2005년 6월 16일에 공개된 Bharat 등의 "Generating User Information for Use in Targeted Advertising", US 2005/0131762 A1, 2005년 1월 20일에 공개된 Carrasco 등의 "Disambiguation of Search Phrases Using Interpretation Clusters", US 2005/0015366 A1에서 광범위하게 논의된 바와 같이, 검색 용어는 모호할 수 있다. "재규어(jaguar)"라는 용어는 자동차들, 동물들, 축구팀 또는 운영 체제를 나타낼 수 있다. 용어가 모호하지 않더라도, 상이한 사용자들은 상이한 정보에 액세스하는 것을 선호할 수 있다. 예를 들어, 십대 여행자들, 출장 여행자들 및 부유한 여행자들은 잠재적으로 유사한 검색 용어들을 사용하여 상이한 여행 계획 및 숙박 시설을 찾는다.

검색에 응답하여 또는 보다 일반적으로는 공급되는 정보에 대해 가장 관련 있는 결과들을 되돌려주는 것이 바람직하다. 웹 사이트 상에 공개되는 문서들(및 개인 서버들 상의 액세스 가능한 문서들)의 증가하는 수로 인해, 사용자의 질의들에 응답하는 관련 결과들을 빨리 되돌려주기 위한 대안들 또는 개선된 기술들이 개발되고 있다. 실제로, 키워드가 "값싼 여행"인 특정 사용자에 대해 50 또는 100개 의 가장 관련된 웹 사이트들을 찾아서, 이들을 사용자에게 효과적으로 요약해준다. 이는 또한 사용자의 관심에 기초하여, 콘텐츠, 후원되는 콘텐츠 또는 광고이든 간에 리턴되는 정보를 개인화시키는 기술을 개발시킨다.

도 1은 다양한 실시예들에 사용될 수 있는 예시적인 컴퓨터의 개략도이다.

도 2는 본 기술이 동작할 수 있는 컴퓨팅 환경의 개략도이다.

도 3은 변환 프로세스의 추적을 개략적으로 나타낸다.

도 4는 후원되는 정보 전달 및 후원되지 않는 정보 전달을 개인화(personalize)하는 검색 엔진을 생성하도록 함께 기능할 수 있는 컴포넌트들의 하이 레벨 블록도를 나타낸다.

도 5는 클릭된 URL을 보고하는 쿠키 또는 데이터 기록의 일례이다.

도 6은 가장 최근의 상업용 관심 키워드를 저장하는 쿠키의 일례이다.

도 7은 영구 메모리에 기록될 수 있는 행동 관찰자(behavior watcher)에 의해 유지되는 요약 데이터의 일례이다.

도 8은 카테고리에 의해 추가로 요약된 비트열을 나타낸다.

도 9는 검색 단어들의 사용, 클릭, URL 목적지들 또는 사용자 관심의 다른 표시들의 입력의 최근성(recency)에 적용될 수 있는 버킷(bucket)들을 나타낸다.

도 10은 방문 빈도에 적용될 수 있는 버킷들을 나타낸다.

도 11은 카테고리 ID가 어떻게 카테고리 명칭 및 수입 우선순위 양쪽에 관련될 수 있는지를 나타낸다.

도 12는 사용자 머신 상의 행동 관찰 모듈이 웹 서핑에 대해 제공하는 식견(insight)과 서버가 달성할 수 있는 한정된 뷰(view)를 비교한다.

도 13은 키워드 "자동차들(cars)"에 많이 관련된 웹 페이지를 나타낸다.

도 14는 "자동차들"에 약하게 관련된 페이지의 반례(counter example)이다.

도 15는 본원에 설명된 검색 엔진의 실시예를 갖는 야후!, msn 검색 및 구글로부터 "자동차들"에 대한 결과들을 나란히 배치한다.

도 16은 행동 관찰 모듈로부터의 결과들을 이용하는 사용자 차별화(user differentiation)를 나타낸다.

도 17은 키워드에 의한, 특정 검색 엔진으로부터의 특정 도메인에 대한 트래픽을 나타낸다.

도 18은 링크를 추적하고 콘텐츠를 검색하는 아키텍쳐를 나타낸다.

도 19는 배너 광고에 응답하여, 클릭율(click through rate)에 의해 측정되는 최근 행동의 중요도를 나타낸다.

도 20은 윈도우 스코어링 루틴(window scoring routine)이 어떻게 문서 내의 텍스트의 제1 단어로 시작하는지를 나타낸다.

다음의 상세한 설명은 도면들을 참조하여 이루어진다. 바람직한 실시예들은 청구항들의 범위를 한정하는 것이 아니라 예시하도록 기술된다. 본 기술분야의 당업자는 다음에 오는 설명에 대한 다양한 등가의 변화들을 인식할 것이다. 그러나, 본 기술분야의 당업자는, 설명된 실시예들이 하나 이상의 특정 상세 없이 실행될 수 있다는 것을 인식할 것이다. 다른 경우, 잘 알려진 상세들은 본 실시예의 양태들을 모호하게 하는 것을 피하기 위해 도시되거나 설명되지 않는다.

컴퓨터와 관련되기 때문에, 본원에 개시된 컴포넌트들은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합(예를 들어, 펌웨어)으로 구현될 수 있다는 것이 이해될 수 있을 것이다. 소프트웨어 컴포넌트들은, 메모리, 대용량 저장 장치 또는 착탈식 저장 장치와 같은 컴퓨터 판독가능한 저장 매체에 저장되는 컴퓨터 판독가능한 프로그램 코드의 형태일 수 있다. 예를 들어, 컴퓨터 판독가능한 매체는 특정 컴포넌트의 기능을 수행하기 위한 컴퓨터 판독가능한 프로그램 코드를 포함할 수 있다. 유사하게, 컴퓨터 메모리는, 나중에 프로세서에 의해 실행될 수 있는 하나 이상의 컴포넌트들을 포함하도록 구성될 수 있다. 컴포넌트들은 다수의 모듈에 개별적으로 구현되거나 단일 모듈에 함께 구현될 수 있다.

다양한 기술적 문제점들을 해결하기 위해 아래에서 설명되는 실시예들 및 실시예들의 양태들이 적용될 수 있다. 한 문제점은 큰 네트워크에 해당하는데, 어떻게 사용자들, 검색 엔진들 및 액세스된 문서들 중의 통신 패턴을 감시하고 유용하게 집합하는가이다. 한 시나리오에서, 사용자들은 널리 사용되는 퍼스널 컴퓨터들에서 인터넷을 서핑하고; 검색 엔진들은 Baidu, Google, Yahoo! 및 MSN을 포함하고; 문서들은 전세계에 걸쳐 웹 사이트들 상에 게시(post)된 페이지들이다. 다른 시나리오에서는, 피고용인들은 기업 검색 엔진을 갖는 기업 인트라넷을 사용하여 작업그룹 서버들에 노출된 참조 문서들을 찾는다. 이러한 문제점들을 다루는 것은, 바람직하게는 사용자의 루틴을 중단시키지 않고, 사용 중인 통신 채널들을 감 시할 수 있고 관측물(observation)을 서버에게 보고할 수 있는 행동 관찰 모듈의 배치를 수반할 수 있다. 일 실시예에서, 행동 관찰 모듈은 (데스크톱, 랩톱 또는 핸드헬드 컴퓨터 또는 미디어 센터 디바이스와 같은) 사용자의 퍼스널 컴퓨터 상에서 작동할 수 있다. 그 모듈은 통신과, 통신이 이루어질 때의 사용자의 머신의 상태 양쪽을 관찰할 수 있다. 예를 들어, 사용자가 특정 웹 사이트에 대해 어떤 검색 용어들 및 결과들을 수행하였는가? 그 모듈은 분산된 처리를 달성하고, 보고서들을 필터링하고 활동을 카테고리별로 부호화함으로써 통신 행동을 수집하는데 요구되는 자원들을 실질적으로 줄일 수 있다. 그 모듈은 자원이 이용가능하거나 사용자가 관련 도메인을 브라우징할 때 관측물을 서버에 보고할 수 있다. 액세스한 도메인에 대한 쿠키(cookies)의 일상적인 업로드의 일부로서, 관측 쿠키들이 서버에 전송될 수 있다. 서버는 보고된 통신 패턴을 수집할 수 있다. 하나의 기술적 결과는, 큰 네트워크에 걸쳐 배치된 통신 모니터들로부터의 보고서들을 수신하고, 통신이 이루어지는 경우 개별적인 컴퓨터들의 상태나 양태를 포함하는 패턴들을 수집하는 것이다. 다시, 수집된 통신 패턴들은, 질의 또는 접촉을 예상하고, 검색 또는 게시를 위해 정보를 사전에 조직화하는데 사용될 수 있다.

관련된 기술적 문제점은, 사용자에게 제공되는 제1 기록들의 관련성을 개선하기 위해, 네트워크에 액세스된 특정 단말기의 현재 및 최근 상태에 기초하여 과다한 전자 기록들을 어떻게 조직화할 것인지에 있다. 과다한 전자 기록들은 "재규어"에 대한 웹 사이트들과 같이 전세계의 웹 사이트들로부터 올 수 있다. 또는, 이 전자 기록들은 작업그룹 서버들에 저장된 문서들일 수 있다. 이 전자 기록들 은, "페이지 아래로(page down)"를 반복적으로 누르는 것 등과 같은 것 없이는 사용자의 화면 상에 표시하기에 너무 많다는 의미에서 과다하다는 것이다. 바람직하게는 특정 사용자와 관련된, 단말기의 현재 및 최근 상태는 검색 질의가 제출되기 전의 최근 24시간(또는 소정의 다른 기간) 내에 방문한 웹 사이트들을 포함할 수 있다. 또는, 상태는 작업그룹 서버들로부터 검색된 문서들의 이력을 포함할 수 있다. 어느 한 활동 유형이 전처리되고 카테고리별로 분류될 수 있다. 단말기 상태를 보고하는 기간은, 단말기의 현재 및 최근 상태에 기초하여 정보를 선택하고 필터링하는 개인화된 전자 저널에 대한 질의 또는 요청에 선행할 수 있다. 기술적 방법은 다시 사용자의 컴퓨터 상에서 작동하는 행동 관찰 모듈을 수반한다. 본 실시예에서, 이 모듈은 단말기 상태를 요약하고, 전자 기록(예를 들어, 쿠키)에 그 요약을 게시하고, 그 기록을 검색 엔진 또는 사용자가 접촉한 다른 사이트에 전달한다. 상태 또는 활동의 카테고리별 요약들을 보고함으로써 처리를 분산시키고 서버 기반 자원들에 대한 필요성을 감소시킨다. 검색 엔진은 예를 들어 "재규어"의 어떤 의미에 관심있는지를 결정하기 위해 정보를 사용한다. "재규어"를 검색하는, 자동차 카테고리에 많이 관계된 사용자는 재규어 자동차 관련 링크들을 얻을 것이고, 관련된 카테고리에 관계되지 않는 사람은 자동차, 동물 등의 혼합 링크들을 얻을 것이다. 카테고리 프로파일들이 개발되어 사용자의 관심을 추가로 분류할 수 있다. 교외의 새로운 부모님은 액세스된 콘텐츠로부터 인식될 수 있고 독신 X세대 20대의 사람보다 가정용 액세서리 또는 자동차에 대한 상이한 카테고리에 할당될 수 있다. 결혼, 주택 구입 또는 부모가 되는 것과 같은 삶의 변화 이벤트들도 인 식될 수 있다. "재규어" 예와 유사하게, "이태리 여행" 질의에 대해, 검색 엔진은 사용자가 관심있는 여행의 스타일을 판단하고 이에 따라 과다한 전자 기록들을 조직화할 수 있다. 기술적 결과는 단말기의 최근 활동 또는 상태의 전자 보고에 기초하여 질의 또는 접촉에 응답하고, 단말기의 현재 및 최근 상태에 가장 관련될 것 같은 특정 기록 세트를 과다한 전자 기록들로부터 선택하는 것이다.

웹-와이드 행동 타겟팅(Web-wide behavioral targeting)은 사이트측 행동 타겟팅(site-side behavioral targeting)과는 실질적으로 상이하다. 사이트측 행동 타겟팅을 구현하면, 관련 사이트들의 그룹이 상업적인 행동들을 식별하려고 한다. 포털 및 뉴스 사이트들과 같은 사이트들은 통상적으로 광고를 제공한다. 관련 사이트들에 대한 방문들로부터 인식되는 행동에 응답하는, 메시지들이 관련 사이트들에 표시된다. 사이트측 행동 타켓팅의 결과들은 비행동적으로 타겟팅된 캠페인보다 우수하나, 아래에서 설명되는 도 12에 나타낸 바와 같이, 사용자의 행동의 좁은 부분으로부터 얻어질 수 있는 식견에 의존한다. 사이트측과는 대조적으로 웹-와이드 행동 타겟팅은, 전체 사이트들(광고를 받지 않는 사이트들도 포함)에 걸쳐, 상업적 서핑 행동과 선택적으로 관심있는 비상업적 서핑 행동을 식별할 수 있다. 이는, 상업적인 웹 활동의 90%가 광고를 표시하지 않는 페이지들 또는 사이트들에서 일어나기 때문에 중요하다. 따라서, 포털들은 페이지 뷰에 의해 측정되는 바와 같이, 사용자의 전체 상업 활동의 10% 미만을 볼 수 있다. 포털이 아닌 게시자들은 그들 사용자들의 전체 상업 활동의 3% 미만을 볼 수 있다. 행동 관찰 모듈은 웹 사이트 운영자들과의 관계를 단순화시키고, 사이트측 행동 타겟팅에 참여하는 것 보다 큰 게시자 네트워크에 걸쳐 메시지들이 표시될 수 있게 할 수 있다.

이제, 도 1을 참조하면, 다양한 실시예들에서 사용될 수 있는 예시적인 컴퓨터의 개략도가 도시되어 있다. 그 구성에 따라, 도 1의 예에 보여지는 컴퓨터는, 클라이언트 컴퓨터, 서버 컴퓨터 또는 다른 데이터 처리 장치로서 사용될 수 있다. 도 1의 컴퓨터는 특정 애플리케이션의 요구를 만족시키기 위해 보다 적은 또는 보다 많은 컴포넌트를 가질 수 있다. 도 1에 도시된 바와 같이, 컴퓨터는 예를 들어 인텔사, AMD 또는 IBM의 프로세서들과 같은 프로세서(101)를 포함할 수 있다. 컴퓨터는 그의 다양한 컴포넌트들을 연결하는 하나 이상의 버스(103)를 가질 수 있다. 컴퓨터는 하나 이상의 입력 장치(102)(예를 들어, 키보드, 마우스), 컴퓨터 판독가능한 저장 매체(CRSM)(105)(예를 들어, 플로피 디스크, CD-ROM), CRSM 판독기(104)(예를 들어, 플로피 드라이브, CD-ROM 드라이브), 디스플레이 모니터(109)(예를 들어, 브라운관, 평판 패널 디스플레이), 네트워크에 연결하기 위한 통신 인터페이스(106)(예를 들어, 네트워크 어댑터, 모뎀), 하나 이상의 데이터 저장 장치(107)(예를 들어, 하드 디스크 드라이브, 광 드라이브, FLASH 메모리), 및 주 메모리(108)(예를 들어, RAM)를 포함할 수 있다. 소프트웨어 실시예들은 데이터 저장 장치(107) 또는 주 메모리(108) 내로 전달하는 컴퓨터 판독가능한 저장 매체(105)에 저장될 수 있다. 주 메모리(108) 내의 소프트웨어 실시예들은 프로세서(101)에 의해 실행될 수 있다. 도 1의 예에서, 주 메모리(108)는 아래에서 추가로 설명되는 행동 관찰 및 메시지 전달 프로그램(120)을 포함하는 것으로 도시되어 있다. 주 메모리(108) 내의 행동 관찰 및 메시지 전달 프로그램(120) 및 다른 프 로그램들은 예를 들어, 컴퓨터 판독가능한 저장 매체(105)로부터, 데이터 저장 장치(107)로부터, 또는 통신 인터페이스(106)에 의해 인터넷을 통하여 로딩될 수 있다. 주 메모리(108) 내의 행동 관찰 및 메시지 전달 프로그램(120) 및 다른 프로그램들은 프로세서(101)에 의해 실행될 수 있다.

도 2는 본 기술이 동작할 수 있는 컴퓨팅 환경의 개략도를 나타낸다. 도 2의 예에서, 컴퓨팅 환경은 하나 이상의 웹 서버 컴퓨터(160)(즉, 160-1, 160-2, ...), 하나 이상의 클라이언트 컴퓨터(110), 하나 이상의 메시지 서버 컴퓨터(140) 및 구체적으로 도시되지 않은 다른 컴퓨터들을 포함한다. 도 2의 예에서, 클라이언트 컴퓨터(110)는 서버 컴퓨터(예를 들어, 웹 서버 컴퓨터 또는 메시지 서버 컴퓨터)와 인터넷을 통해 통신한다. 이와 같이, 본 예에서 화살표(201)는 인터넷 액세스를 나타낸다. 게이트웨이들, 라우터들, 브리지들, 인터넷 서비스 제공자 네트워크들, 공중 교환 전화망들(public-switched telephone networks), 프록시 서버들, 방화벽들 및 다른 네트워크 컴포넌트들과 같은 중간 노드들은 명확성을 위해 도시되지 않는다.

클라이언트 컴퓨터(110)는, 반드시 그러한 것은 아니지만, 통상적으로, 예를 들어 마이크로소프트사의 윈도우 TM 운영 체제를 동작시키는 컴퓨터와 같은 퍼스널 컴퓨터이다. 소비자는 적절하게 갖추워진 클라이언트 컴퓨터(110)를 사용하여 인터넷에 액세스하고 그에 연결된 컴퓨터들에 액세스할 수 있다. 예를 들어, 클라이언트 컴퓨터(110)는 웹 서버 컴퓨터(160)로부터의 웹 페이지들에 액세스하는데 사용될 수 있다.

웹 서버 컴퓨터(160)는 웹 사이트를 호스팅하는 서버 컴퓨터일 수 있으며, 웹 사이트는 인터넷 상에서 소비자들의 서핑을 유도하도록 고안된 웹 페이지들을 포함한다. 웹 서버 컴퓨터(160)는 광고들, 다운로드 가능한 컴퓨터 프로그램들, 온라인 구매가 가능한 제품들 등을 지원하는 웹 페이지들을 포함할 수 있다. 이해할 수 있는 바와 같이, 웹 사이트는 하나 이상의 서버 컴퓨터 상에 있을 수 있다.

메시지 서버 컴퓨터(140)는 웹 서버 컴퓨터(160)의 기능들을 포함할 수 있다. 일 실시예에서, 메시지 서버 컴퓨터(140)는 데이터베이스(171)를 더 포함한다. 데이터베이스(171)는 오라클사로부터 입수가능한 데이터베이스와 같은 상업적으로 입수가능한 데이터베이스일 수 있다. 데이터베이스(171)는, 클라이언트 컴퓨터(110)에서 작동하는 행동 관찰 및 메시지 전달 프로그램들(120)로부터 수신되는 클라이언트 데이터를 저장할 수 있다. 클라이언트 데이터는 데이터 패킷(121) 내에서 클라이언트 컴퓨터(110)로부터 메시지 서버 컴퓨터(140)에 전송될 수 있다. 클라이언트 데이터는 소비자의 온라인 활동들을 감시함으로써 행동 관찰 및 메시지 전달 프로그램(120)에 의해 얻어진 내비게이션 및 행동 데이터를 포함할 수 있다. 도 2의 예에서, 메시지 서버 컴퓨터(140)는 예시의 명확성을 위해 하나의 클라이언트 컴퓨터(110)와 통신하는 것으로서 도시되어 있다. 실제로, 메시지 서버 컴퓨터(140)는, 각각이 행동 관찰 및 메시지 전달 프로그램(120)을 갖는 다수의 클라이언트 컴퓨터(110)로부터 클라이언트 데이터를 포함하는 데이터 패킷(121)을 수신한다. 메시지 서버 컴퓨터(140)는, 클라이언트 컴퓨터(110) 상의 소프트웨어 컴포넌트들을 지원하고 갱신하고 유지하기 위한 다운로드가능한 컴퓨터 프로그램들 및 파 일들을 또한 포함할 수 있다. 메시지 서버 컴퓨터(140)는 검색 엔진(650)을 포함하거나 이에 액세스될 수 있다.

웹 서버 컴퓨터(160) 및 메시지 서버 컴퓨터(140)는, 반드시 그러한 것은 아니지만, 통상적으로, Sun Microsystems, Hewlett-Packard 또는 International Business Machines로부터 입수가능한 서버 컴퓨터들과 같은 서버 컴퓨터들이다. 클라이언트 컴퓨터(110)는 클라이언트-서버 프로토콜을 이용하여 웹 서버 컴퓨터(160) 또는 메시지 서버 컴퓨터(140)와 통신할 수 있다. 클라이언트-서버 컴퓨팅은 본 기술분야에 잘 알려져 있고 본원에서 더 이상 설명되지 않을 것이라는 것에 주목한다.

도 2에 도시된 바와 같이, 클라이언트 컴퓨터(110)는 웹 브라우저(112) 및 행동 관찰 및 메시지 전달 프로그램(120)을 포함할 수 있다. 웹 브라우저(112)는 상업적으로 이용가능한 웹 브라우저 또는 웹 클라이언트일 수 있다. 일 실시예에서, 웹 브라우저(112)는 마이크로소프트 인터넷 익스플로러 TM 웹 브라우저를 포함한다. 웹 브라우저는 클라이언트 컴퓨터 상의 소비자가 웹 페이지에 액세스할 수 있게 한다. 도 2의 예에서, 웹 브라우저(112)는 웹 서버 컴퓨터(160)로부터의 웹 페이지(313)를 표시하는 것으로 도시되어 있다. 웹 페이지(113)와 같은 웹 페이지는 "URL(Uniform Resource Locator)"로 불리우는 대응 어드레스를 가지고, 웹 브라우저(112)는 웹 페이지의 URL로 지시되어 클라이언트 컴퓨터(110)에서 그 웹 페이지를 수신한다. 웹 브라우저(112)는, 예를 들어, 웹 브라우저(112)의 어드레스 윈도우에 URL을 입력하거나, 그 URL로 지시되는 링크를 클릭함으로써 URL로 지시될 수 있다.

일 실시예에서, 행동 관찰 및 메시지 전달 프로그램(120)은 메시지 서버 컴퓨터(140) 또는 웹 서버 컴퓨터(160)로부터 다운로드가능하다. 행동 관찰 및 메시지 전달 프로그램(120)은 다른 컴퓨터 프로그램의 다운로드와 함께 클라이언트 컴퓨터(110)에 다운로드될 수 있다. 예를 들어, 행동 관찰 및 메시지 전달 프로그램(120)은, 무료 또는 절감된 비용으로 제공되는 유틸리티 프로그램(181)과 함께 클라이언트 컴퓨터(110)에 다운로드될 수 있다. 유틸리티 프로그램(181)은 예를 들어, 지갑 또는 달력 프로그램일 수 있다. 유틸리티 프로그램(181)은, 행동 관찰 및 메시지 전달 프로그램(120)을 통해 그 소비자의 클라이언트 컴퓨터(110)에 광고를 전달하는 대신에 그 소비자에게 제공될 수 있다. 본질적으로, 소비자에게 전달된 광고들로부터의 수입은 유틸리티 프로그램을 생성하고 유지하는 비용을 지불하는데 도움이 된다. 행동 관찰 및 메시지 전달 프로그램(120)은 온라인 서비스에 대한 무료 또는 절감된 비용의 액세스에 의해 소비자에게 제공될 수도 있다.

행동 관찰 및 메시지 전달 프로그램(120)은, 클라이언트 컴퓨터(110)에 저장되고 그 안에서 작동되는 점에서 클라이언트측 프로그램이다. 행동 관찰 및 메시지 전달 프로그램(120)은, 클라이언트 컴퓨터(110)에 광고를 표시하고 클라이언트 컴퓨터(110) 상의 소비자의 온라인 활동을 감시하기 위한 컴퓨터 판독가능한 프로그램 코드를 포함할 수 있다. 소비자가 클라이언트 컴퓨터(110)에 수신된 웹 페이지들의 URL로 항행하고 있는 곳, 소비자가 방문한 웹 사이트들의 도메인 명칭, 소비자가 웹 페이지 상에 타이핑하고 있는 것, 소비자가 검색 엔진에 제공하고 있는 키워드, 소비자가 링크에 클릭하는지 또는 광고에 클릭하는지, 소비자가 마우스 또는 키보드를 활성화시키는 때 등을 결정하는 것과 같은, 소비자의 온라인 활동을 감시하는 기술은 일반적으로 본 기술분야에 알려져 있으며, 본원에서 추가로 설명되지 않는다는 것에 주목한다. 예를 들어, 행동 관찰 및 메시지 전달 프로그램(120)은 웹 브라우저(112)로부터의 이벤트 통지들을 수신함으로써 소비자의 온라인 활동에 대해 알 수 있다.

행동 관찰 및 메시지 전달 프로그램(120)은 메시지 서버 컴퓨터(140)에 보고하기 위한 소비자의 온라인 활동을 기록할 수 있다. 기록된 소비자 온라인 활동은 "클라이언트 데이터"라고도 불리고, 데이터 패킷들(121)을 사용하여 메시지 서버 컴퓨터(140)에 제공된다. 메시지 서버 컴퓨터(140)는 클라이언트 데이터를 사용하여 소비자에게 목표로 하는 광고를 제공한다. 메시지 서버 컴퓨터(140)는 광고 또는 메시지부(141)에 광고를 표시하기 위한 데이터를 포함할 수 있다. 도 2의 예에서, 목표로 하는 광고는 광고(116)로서 라벨이 붙여지고 표시 수단(presentation vehicle)(115)에 표시된다. 표시 수단(115)은 팝언더(pop-under), 팝업, 개별 브라우저 윈도우, 주문형(custom) 브라우저 윈도우, 또는 컴퓨터 화면에 광고를 표시하기 위한 다른 수단일 수 있다. 클라이언트측 프로그램을 사용하여 클라이언트 컴퓨터들에 광고를 전달하는 기술들은, Scott G. Eagle, David L. Goulden, Anthony G. Martin 및 Eugene A. Veteska에 의해 2002년 5월 21일에 출원된 "Method and Apparatus for Displaying Messages in Computer Systems"라는 명칭의 공동 소유의 미국 출원번호 제10/152,204호에도 개시되어 있고, 이는 그 전체가 참 조로 본원에 포함된다.

아래에서 보다 명백한 바와 같이, 행동 관찰 및 메시지 전달 프로그램들은 검색 엔진 색인을 구축하기 위한 클라이언트 데이터를 얻는데 주로 사용되며, 반드시 클라이언트 컴퓨터(110)에 표시 수단들을 표시하는데 사용되는 것은 아니다. 즉, 행동 관찰 및 메시지 전달 프로그램은 반드시 클라이언트 컴퓨터(110)에 광고를 표시할 필요는 없다. 이는, 소비자가 유틸리티 프로그램의 후원자 또는 제공자로부터의 광고를 보지 않고 무료 또는 절감된 비용의 유틸리티 프로그램(181)(또는 다른 혜택)을 얻을 수 있게 한다는 점에서 이점이 된다.

도 3은 변환 프로세스의 추적을 개략적으로 나타낸다. "변환(conversion)"은 소비자가 자신에게 제시된 광고에 응답하여 등록을 하거나 온라인 구매를 하는 경우 발생한다. 아래에서 보다 명백하게 되는 바와 같이, 이 실시예들은 키워드-링크 조합(keyword-link combination)을 순위화하는데 있어서의 인자로서 변환을 사용할 수 있다. 도 3의 예에서, 웹 페이지(202)(즉, 202-1, 202-2, ...)는 웹 브라우저(112)의 동일한 윈도우 또는 개별적인 윈도우에 순차적으로 표시될 수 있다. 각 웹 페이지(202)는 URL일 수 있는 페이지 식별자(210)(즉, 210-1, 210-2,...)를 포함한다. 행동 관찰 및 메시지 전달 프로그램(120)은 소비자가 보는 웹 페이지(202)의 20개의 URL을 기록할 뿐 아니라 소비자가 각 웹 페이지에 소비한 시간량도 내비게이션 데이터로서 기록한다. 본 개시의 목적으로, 소비자들이 "본(viewed)" 웹 페이지들은 클라이언트 컴퓨터들에 수신된 웹 페이지들이다. 도 3의 예에서, 내비게이션 데이터(627)는 로그 엔트리들(117)(즉, 117-1, 117-2,...) 을 포함한다. 각 로그 엔트리(117)는 클라이언트 컴퓨터(110)(또는 소비자)를 익명으로 식별하는 머신 ID, 페이지 식별자, 및 로그 엔트리(417)가 만들어진 때를 나타내는 시간 스탬프를 포함한다. 로그 엔트리들(117) 간의 시간 스탬프들은 소비자가 나타난 웹 페이지를 보는데 사용한 시간량의 추정을 제공한다. 로그 엔트리(117)는 소비자가 본 각 웹 페이지(202)에 대해 생성될 수 있다. 예를 들어, 로그 엔트리(117-1)는 소비자가 링크(501)를 클릭하여 웹 페이지(202-2)를 수신하는 경우 생성될 수 있다. 클라이언트 컴퓨터(110)에서, 로그 엔트리(117-2)는 소비자가 클라이언트 컴퓨터(110)에서 웹 페이지(202-3)를 수신하는 때 등의 경우에 생성될 수 있다.

도 3의 예에서, 웹 페이지(202-2)는, 웹 페이지(202-1)에 링크를 갖는 광고에 의해 직접적으로 지시된 웹 페이지이기 때문에, "랜딩 페이지(landing page)"로도 지칭된다. 상품을 온라인으로 판매하는 웹 사이트는 또한 "확인 페이지(confirmation page)"(202-5)를 가질 수 있다. 확인 페이지는 방금 완료된 온라인 구매를 확인하기 위해 소비자에게 제공되는 웹 페이지이다. 또는, 확인 페이지는 등록 정보의 확인된 제출을 수반할 수 있다. 웹 사이트는 랜딩 페이지(202-2)와 확인 페이지(202-5) 사이에 "중간 페이지(intermediate page)"(202-3, 202-4) 등을 가질 수 있다. 중간 페이지는 온라인 제품 카탈로그, 쇼핑 카트, 및 다른 유형의 웹 페이지들일 수 있다. 파트너 웹 사이트들 또는 인기있는 랜딩 및 확인 페이지들의 페이지 식별자들은 메시지 서버 컴퓨터(140)의 데이터베이스(171)에 저장될 수 있으며, 랜딩 및 확인 페이지들의 페이지 식별자들을 클라이언트 컴퓨 터(110)의 내비게이션 데이터(627) 내의 식별자들과 비교하여, 특정 웹 페이지로부터 온라인 구매를 하는 소비자들의 수를 결정한다. 이해될 수 있는 바와 같이, 소비자들이 구매하는 웹 페이지들은 많은 관련이 있을 수 있고, 따라서 소비자 선호 페이지라고 생각될 수 있다. 소비자 구매 행동을 감시하는 기술들은 또한 David L. Goulden 및 Dominic Bennett에 의해 2003년 6월 17일에 출원된 "Generation and Statistical Information in a Computer Network"라는 명칭의 공동 소유의 미국 특허출원 번호 제10/464,419호에 개시되어 있으며, 이는 참조로 그 전체가 본원에 포함된다.

프로세스 흐름

도 4는 후원 및 비후원된 정보 전달을 개인화하는 검색 엔진을 생성하기 위해 함께 기능할 수 있는 컴포넌트들의 하이 레벨 블록도이다. 배경으로서, 행동 관찰 모듈들은 현재 미국 및 해외에서 4천만 머신들에서 행동 웹 내비게이션 정보를 캡쳐한다. 수집된 정보는 확장할 것이고, 필요할 경우 적합시켜질 수 있을 것이다. 이러한 내비게이션 행동 정보는 현재 웹-와이드 GMT 광고 수단(예를 들어, 팝업 및 슬라이드-언더(slide-under))을 촉진시킬 뿐 아니라 웹에 걸쳐 소비자 행동에 고유한 통찰을 제공하는 많은 데이터-리치(data-rich) 애플리케이션을 촉진시키는데 사용된다. 행동 관찰 모듈은, 표시되는 결과 링크들, 머문 시간, 본 페이지들, 반복 방문들, 및 클릭후 구매 또는 등록을 포함하는 클릭후 메트릭(post-click metrics)에 입력되는 초기 키워드를 관측함으로써 전체 검색 생활 사이클(life-cycle)을 보는 능력을 갖는다. 사용자의 행동을 수집함으로써, 카테고리 프로파일 및 생활 변화 이벤트들이 결정될 수 있다. 카테고리 관련도 및 검색 엔진 사용과 관련된 사용자 복잡성은 시간에 따라 결정될 수 있다. 이러한 정보를 사용하면, 봇(bot)이 아닌 검색을 요청한 인간들에 의해 필터링된, 검색 결과들을 선택하고 재순위화할 수 있다.

데이터 수집

인터넷 또는 기업 인트라넷을 통해 선택된 검색 엔진들에서 검색하는 사용자들에 대해 행동 관찰 모듈들(120)을 사용하여 웹 사용 통계가 수집된다(401). 모듈들은 그들의 검색 및 그들의 검색이 각각의 특정 키워드에 대해 각각의 특정 검색 엔진 상에서 얼마나 효과적이었는지에 관련된 정보를 반송한다. 정보는 데이터베이스에 캡쳐되어, 매일 또는 소정의 다른 동시 발생하는 빈도로 로딩된다. 이용가능한 정보는, 사용자가 본 것 및 그들이 응답한 방법을 포함한다. 사용자가 보는 URL들은 그 결과들의 알고리즘 또는 자연적 섹션들에 표시될 수 있다. 단일 검색 용어에 대해 이용가능한 적절한 정보는 머신 id, 키워드, 검색이 수행된 검색 엔진, 결과 URL들, 알고리즘 URL들, 입찰된 URL들, 유료 포함 URL들, URL이 클릭되었는지 여부, 본 페이지 수, 머문 시간, 반복 방문들, 및 카테고리 관련성 및 검색 엔진 복잡성과 같은 사용자 메트릭을 포함한다.

미국 사용자들로부터의 일부 통계는 데이터 수집 및 순위화의 분석 범위(analytical reach)에 활기를 띄게 할 수 있다. 백만개의 가장 빈번하게 검색된 키워드들은, 주요 검색 엔진들에서 수행된 검색들의 절반을 갓 넘는 것인 검색들 중 53%가 된다. 45,000개의 가장 빈번하게 검색된 키워드들은 38%가 된다. 검색 들로서 입력된 키워드들의 분포는, 양쪽 축 상에 로그 스케일을 갖는 그래프 상에서 직선으로 그려지는 Zipf 분포에 의해 표현될 수 있다. 예를 들어, 2005년 8월 13일에 http://www.useit.com/alertbox/20030616.html에 액세스했던 Jacob Nielson, "Diversity is Power for Specialized Sites", Alertbox(2003년 6월 16일)를 참조한다. 10,000개의 가장 빈번한 검색을 순위화하는데 충분한 데이터를 2,000개의 행동 관찰 모듈들이 생성할 것으로 추정된다. 20,000개의 행동 관찰 모듈들의 보다 큰 그룹은 45,000개의 가장 빈번하게 검색된 키워드들을 커버할 것이다. 4천만개의 행동 관찰 모듈들의 베이스는, 관측된 1500억 페이지 뷰들로부터 필터링된, 월당 3백억 데이터 행(row)들을 캡쳐할 수 있다. 관측된 페이지 뷰들 중에서, 250만 구매보다 많은 수를 포함하여, 월 80억개 정도의 상업용 이벤트들에 주의한다. 이러한 숫자 및 통계와의 잠깐의 친밀도가 독자를 자극하여, 다수의 검색자들의 행동 및 지능(intelligence)을 수집하고, 대중의 열광에 의해 검색 엔진으로부터의 결과들 중 제1 페이지 상의 가장 두드러진 웹 사이트들을 제공하게 한다. 수집된 소비자 행동을 사용하는 검색 엔진은 검색 요청에 응답하는 페이지들/문서들의 인기도 및 권위를 평가하는데 유리한 입장에 있다.

도 5 내지 도 11은 행동 관찰 모듈로부터 순위화 및 링크-추적 서버(ranking and link-following server) 및 개인화된 결과들을 생성하는 검색 엔진으로 정보를 전달할 수 있는 데이터 기록들 또는 쿠키들의 예들이다. 도 5는 클릭된 URL을 보고하는 쿠키 또는 데이터 기록의 일례이다. 키워드(501), 시간 스탬프(502) 및 사용자에 의해 선택된 하나 이상의 URL 목록(503)이, 예를 들어 인터넷 서핑 행동과 는 독립적으로, 행동 관찰 모듈이 활동을 보고하는 경우의 데이터 기록 또는 사용자가 서버들 중 하나와 관련된 웹 사이트에 도달한 경우의 쿠키로 전달된다. 변환 상태, 변환 상태 리턴, 사용자가 본 목록 내의 순위 등에 관한 추가 데이터가 그러한 쿠키 또는 데이터 기록에 포함될 수 있다.

도 6은 가장 최근의 상업용 관심 키워드를 저장하는 쿠키의 일례이다. 이는, URL 또는 클릭(click-through)과 관련된 키워드 또는 검색으로부터의 가장 최근의 상업용 관심 키워드일 수 있다. 도 6의 예에 따르면, 하나보다 많은 최근의 상업용 관심 키워드는 하나 이상의 쿠키들에 저장될 수 있다. 이러한 쿠키의 한 속성 또는 필드는 크럼(crumb)의 버전(602)이다. 또 다른 것은, 1970년부터 쿠키가 기록된 시간까지 초로 표현될 수 있는, 기록된 시간(604)이다. 상업용 플래그(606)는 예를 들어 현재의 상업용 관심 대상인 키워드들과 판매를 위한 키워드들 간의 키워드 유형을 카테고리화하는데 사용될 수 있다. 키워드(608)는 텍스트 또는 속기(shorthand) 코드로서 포함될 수 있다. UFT-8과 같은 문자 세트(610)가 키워드(608)의 디코딩을 지원하기 위해 포함될 수 있다. 이는 국제적인 설정에서 중요할 수 있다.

도 7은 영구 메모리에 기록될 수 있는 행동 관찰자(120)에 의해 유지되는 요약 데이터의 일례이다. 이 예에서, 카테고리 ID(802)는 특정 카테고리에 대한 속기이다. 빈(bin)들이 날짜와 같은 현재 기간(702)에 대해 할당된다. 기간들은 상이한 길이에 대해 동등한 길이일 수 있다. 일 실시예에서, 비트열이 빈들을 구현한다. 60일의 이력은 60비트 플러스 카테고리 ID에 대한 기억량에 의해 구현될 수 있다. 각 빈은 특정 시간 세그먼트에 대응한다. 비트 플래그는 특정 시간 세그먼트 동안 카테고리에 관련된 활동이 존재했었는지를 나타낸다. 임의의 빈에 의해 표현되는 최단 기간에 대응하는 정규 시간에서, 비트열이 갱신된다. 데이터가 보다 오래된 빈들로 이동하여, 가장 최근 빈에 공간을 만든다. 최근 활동에 관한 데이터는 도면에서 0으로 표시된 가장 최근의 빈 내로 요약된다. 빈들이 동등하지 않는 시간량을 나타내면, 보다 짧은 시간 빈과 보다 긴 시간 빈 사이의 경계들에서 특별한 제공이, 알고리즘적으로 또는 추가 기억량을 할당함으로써 이루어진다. 예를 들어, 전날 동안 임의의 한시간 세그먼트 동안의 활동에 의해, 하루 길이의 시간 세그먼트에 비트 플래그의 설정을 일으킬 수 있다. 자정 갱신이 이루어질 때 자정에서의 시각 세그먼트 플래그가 "0"인 경우에만 하루 길이의 시간 세그먼트는 플래그 "0"이다. 이는, 한 시간 세그먼트와 하루 길이 세그먼트 사이의 경계에서의 알고리즘적 제공의 일례이다. 또는, 특정 시간 세그먼트에서의 방문 횟수를 기록하기 위해 빈들에 대해 저장장치가 할당될 수 있다. 이는, 보고-행동 인식 서버(reported-behavior aware server)(132)가 응답하는 방법을 반드시 변경할 필요 없이 요구되는 저장량을 상당히 증가시킬 수 있다. 수백개의 카테고리들이 존재하고 쿠키의 크기에 대한 실제 한계가 2K 내지 4K 바이트인 경우 소형 저장장치를 선호한다. 쿠키들은 사용자 활동 데이터를 보관하는 서버로 송신될 수 있다. 사용자 활동 데이터는 광고의 목표설정 또는 분석에 사용될 수 있다. 비트열은 도 8 내지 도 10에 도시된, 카테고리에 의해 추가로 요약될 수 있다.

도 9는, 검색 단어들을 사용하는 것, 클릭하는 것, URL 목적지들 또는 사용 자 관심에 대한 다른 표현을 입력하는 것의 최근성(recency)에 적용될 수 있는 버킷들을 나타낸다. 가장 최근 방문이 특정 버킷의 멤버십에 의해 기록된다. 15 또는 16개의 버킷 중 하나는 4비트로 식별될 수 있다. 이 도면에서, 버킷들은 동등하지 않은 길이를 가진다. 도 6에 나타낸 바와 같은, 단일의 가장 최근 방문 기록, 또는 메모리에 보관된 엔트리는 특정 버킷에 카테고리를 할당하는데 사용될 수 있다.

도 19는 클릭율에 의해 측정된, 배너 광고에 응답하는 최근 행동의 중요성을 나타낸다. 광고 카테고리에서의 최종 시간 내에서 행동이 있는 사용자는, 그 카테고리에서 최근 7일 동안 행동이 없는 사용자가 배너 광고에 응답할 가능성의 30배였다. 최종 시간, 2시간 또는 3시간 내의 행동이 관측되어 배너 광고에 대한 응답성에서의 큰 증가를 생성시킨다. 최종 7일 내의 행동조차도 사용자의 관심에 강하게 상관된다. 바람직하게는, 최근성 버킷 크기들의 선택은, 도면에 나타내어진 최근 행동의 관측된 힘을 반영한다.

도 10은 방문 빈도에 적용될 수 있는 버킷들을 나타낸다. 도 7의 비트열이 날짜별로 조직화되는 경우, 카테고리 내의 활동은, 사용자가 관심을 나타낸 최종 60일 중 0, 1, 2, 3, 4 또는 5, 6 내지 10, 11 내지 30, 또는 31 내지 60일과 같은, 상이한 방문 빈도들의 버킷들에 할당될 수 있다. 비트열에 설정된 비트 수가 이러한 카테고리화(categorization)를 사용하여 카운트되고 요약된다.

최근성 및 빈도의 카테고리적 부호화를 명심하면서, 도 8로 돌아가 보기로 한다. 단일 쿠키는 많은 카테고리 ID들(802)에 대한 데이터를 기록할 수 있다. 각 카테고리 ID에 대해, 사용자 관심에 대한 3개 이상의 메트릭이 기록될 수 있다. 하나 이상의 최근성 카테고리들(804)이 기록될 수 있다. 최근성의 기록은, 전술한, 검색 엔진들에 제시된 키워드들 또는 다른 종류들의 사용자 행동에 적용될 수 있다. 하나 이상의 빈도 카테고리들(806)이 기록되고, 제시된 키워드들 또는 다른 종류들의 사용자 행동에 적용될 수 있다. 배너 클릭들(808)은 최근성, 빈도 또는 양자에 의해 개별적으로 카테고리화될 수 있다. 데이터 열(810)에서의 코멘트들은, 표 내의 데이터를 설명하는 사설 코멘트들(editorial comments)이며 데이터의 일부분이 아니다. 카테고리 ID 98409는 최근의 대량의 사용자 관심을 경험하였다. 카테고리 ID 65625는 지난달 대량의 사용자 관심을 경험하였다. 카테고리 ID 68530은 최근 소량의 사용자 관심을 경험하였다. 카테고리 ID 147374는 지난달 소량의 활기(light activity)를 경험하였는데, 이것 또한 아마 빈도(806)에 제로가 아닌 값에 의해 반영되어야 한다.

행동 관찰 모듈(120)은 바람직하게는 도 8의 카테고리 이력 정보를, 가장 중요한 카테고리들이 먼저 목록화되도록 정렬한다. 또는, 시스템은 카테고리 정렬을 보고-행동 응답 서버(reported-behavior responsive server)에 맡길 수 있다. 도 11에 나타낸 바와 같이, 카테고리 ID 1102는 카테고리 명칭(1104) 및 매출 우선순위(1106) 양자와 관련될 수 있다. 매출 우선순위(1106)에 의해 카테고리 이력 정보를 정렬하는 것은, 특히 클라이언트 측의 사용자 행동 데이터의 일부분만이 보고-행동 응답 서버에 전송된 경우, 유용할 수 있다.

웹 사용에 관하여 반환된 통계는 상업용 키워드 검색과 비상업용 키워드 검 색 사이를 구별할 수 있거나 구별 못 할 수 있다. 상업용 용어, 예를 들어 오버츄어에 의해 입찰된 용어들의 끊임없이 변화하는 목록에 대해 키워드들이 체크되는 데이터베이스 내로 로드되는 때에 이러한 구별이 이루어진다. 키워드가 상업용이라고 판정되면, 키워드 id가 할당되며, 이는 오버츄어 키워드 id 목록과 호환될 수 있다. 키워드가 상업용으로 생각되지 않으면, 다른 id가 데이터 로딩 프로세스에서 할당된다.

이러한 두 가지 유형의 데이터(상업용 및 비상업용)가 데이터 웨어하우스(warehouse)의 개별적인 섹션들에 로딩된다. 새로운 검색 엔진 로딩 가동 시에, 키워드 데이터는 상업용 및 비상업용 표 양쪽으로부터 추출된다. 그 결과들은 결합되고 고유한 키워드 id들이 마스터 표로부터 할당된다. 키워드는 때때로 상업용 및 비상업용 문맥들 양쪽에서 발견될 수 있다. 예를 들어, 키워드의 상업성이 키워드가 입찰되고 있는지 여부에 연결되면, 오늘 상업용이 아닌 키워드는 그 키워드가 입찰을 받으면 내일은 상업용이 될 수 있다. 동일한 키워드가 입찰 과정에 의해 생성된 키워드 id와 로드 과정(load process)을 통해 생성된 제2 키워드 양쪽을 가질 수 있기 때문에, 키워드들의 이러한 이중성은 고유하지 않은 키워드 id들을 생성한다. 이러한 것을 없애기 위해, 모든 키워드에 대해 단일의 고유 키워드 id를 생성하고 유지하는 것이 바람직하다. 이 목록은, 새로운 키워드들이 발견되는 경우 갱신되고, 기존 id들을 시스템에 이미 존재하는 키워드들에 할당한다.

보고된 URL들을 단순화하기 위해 행동 관찰 모듈에 의해 일부 전처리가 수행될 수 있다. URL들은 별도의 과정에서 언래핑(unwrapping)되고 클린(clean)된다. URL들은 종종 검색 엔진들에 의해 래핑(wrapping)되어 서비스제공(serving) 검색 엔진이 제공되는 URL들에 대한 클릭들을 추적할 수 있게 한다. 많은 상이한 형태의 URL 래핑이 존재한다. 예를 들어, yahoo.com으로부터의 래핑된 URL은, http://rds.yahoo.com/S=2766679/K=bmw/v=2/SID=w/l=WS1/R=2/SS=100040736/H=1/SHE=0/*-http://www.bmwmotorcycles.com/일 수 있다. URL을 언래핑하면 http://www.bmwmotorcycles.com이 생성된다.

서버의 관점에서, 프로세스는 행동 정보의 수신(402)에 의해 시작한다. 서버는 수신한 정보는 모두 사용한다. 사용자의 관점에서, 행동 관찰 모듈은 그 관측을 보고할 것이고, 사용자는 사용자의 정보를 모으는 순서화된 검색 결과들을 다른 것들과 함께 수신할 것이고, 및/또는 사용자의 최근 행동에 대해 개인화된 것을 수신할 것이다.

디-듀핑(de-duping)은 URL 레벨에서도 발생할 수 있다. 동일한 2개의 URL에 대한 정보는 하나의 단일한 URL로 수집된다. 그러나, 2개의 URL이 아주 약간 다르면(예를 들어, 슬래시(slash)에 의해), 2개의 구별된 버전들이 유지되고, 아래에 설명되는 바와 같이 예를 들어 제목 및 생성된 스니펫(snippet)의 결합을 사용하여 중복 해제(de-duplication)의 또 다른 시도가 이루어진다.

변환 데이터는, 검색 URL 클릭을 소정의 윈도우 내에서 발생된 특정 변환 이벤트에 연결하는 알고리즘에 의해 특정 검색과 연관될 수 있다. 사용 및 변환 데이터는, 머신 id, 질의 시간, 광고자 도메인 레벨에서 클릭을 갖는 광고자 도메인들(URL들)에 대해 정합된다. 특정 광고자 도메인에 대해 클릭을 갖는 특정 머신에 있어, 변환 통계가 소정의 윈도우 내에서 관측되면, 변환은 그 검색 클릭에 대해 속성화(attribute)된다. 변환이 소정의 윈도우 밖에 속하면, 검색 클릭은 속성화되지 않는다.

변환 통계가 속성화된 머신 id-광고자 도메인 쌍들에 대해, 미래의 후속 변환들이 반복 변환들로서 속성화된다. 이러한 속성들은 또한 함께 운반되고 순위화 알고리즘(404)에 의해 사용가능하다. 검색 데이터와 함께 포함되는 메트릭은 방문수, 사용된 시간(머문 시간) 및 본 페이지들을 포함한다.

google.com, msn.com 및 yahoo.com에서의 미국 머신들에 대한 검색 행동을 결합하기 위해, 도메인 이벤트 데이터는, 소스들에 걸친 머신 id-광고자 도메인 레벨에서 사용자 데이터(변환 메트릭을 가짐)에 결합된다. 이러한 결과들은 머신 id 및 광고자 도메인 내에 시계열순으로 입력된다. 검색 클릭에 이어지는 소정의 기간 내에 발생하는 도메인 이벤트들은, 해당 특정 광고자 도메인 상에서의 해당 검색 클릭에 대한 클릭 후 메트릭(post-click metrics)으로서 할당된다. 클릭 후 메트릭이 특정 검색 클릭에 할당되지 않으면, 그 기록은 버려진다.

도메인 이벤트 데이터 요소들 중 일부는 클라이언트가 송신한 통계에 명시된 부정확성을 가진다. 사용된 시간과 본 페이지 양쪽이 가끔 잘못 보고되고, 다른 경우에는 정확하게 보고되나, 논리적으로 추진되는 한계들이 부과될 필요가 있다.

사용된 시간은, 좋지 않거나 부정확한 시계들을 갖는 머신들에 의해 잘못 표현될 수 있다. 머신이 특정 도메인에 연장된 시간 기간 동안 남아있는 경우에, 사용된 시간은 정확히 표현될 수 있지만 캡(cap)들이 필요하다. 아웃라이 어(outlier)들을 캡하고 클릭 후 사이트(403)에서 사용된 시간에 대한 합리적인 임계값을 유지하기 위해, 30분의 시간 한계가 사용되었다. 본 페이지들에 대한 캡도 구현되었고 5로 설정되었다. 다른 시간 및 본 페이지 캡들이 대체될 수 있다. 이러한 캡들은 행동 관찰 클라이언트 측에서, 또는 데이터가 호스트에서 수신된 후 구현될 수 있다. 이외에도, 연장된 비활동 기간이 머문 시간으로서 카운트되지 않도록 행동 관찰 모듈에 의해 사용자 활동이 감시된다.

데이터가 머신 id, 키워드 및 URL 레벨에서 결합되고 수집되는 경우, 결과 데이터 구조는, machine-id, keyword, keyword_id, URL, URL_ID, domainid(URL의 도메인에 대응함), clicks, dwell_per_click, pages_per_click, conversions_per_click, (사용자가 본 검색 결과 목록으로부터의) rank_position을 포함할 수 있다. 선택적으로, 소정의 관심 키워드들만(402)이 처리될 수 있다. 예를 들어, 입찰된 키워드들과 같이 상업용 관심을 갖는 키워드들이 처리될 수 있다.

아웃라이어들을 선택적으로 제거하여(403), 스코어링 예외를 피할 수 있다. 아웃라이어의 일례는, 검색 엔진에 의해 한번만 리턴되고, 리턴되었을 때 사용자가 열심히 따라가는 링크이다. 단일의 강한 샘플 포인트는 링크에게 최강의 평균 스코어를 제공할 수 있다. 키워드가 다시 스코어되기 직전에 나타난 링크는, 단일 샘플에 기초하여 그 키워드에 대해 상위 위치에 잠재적으로 순위화될 수 있다. 따라서, 아웃라이어들을 선택적으로 제거하는 일례는, 아웃라이어들을 소정 횟수로 따라가지 않으면, 링크들을 순위화시키지 않는 것이다. 예를 들어, 링크가 사용자 들에 의해 선택되지 않았고 적어도 10 또는 100회 추적되지 않았다면, 그 활동 레벨들이 소정의 레벨 또는 임계값에 도달할 때까지 순위화되지 않은 채로 남아 있을 수 있다.

순위화 알고리즘

임의의 주어진 키워드에 대한 링크들을 식별하고 순위화하기 위해 URL 순위화 알고리즘(404)이 개발되었다. 아래에서 설명되는 바와 같이, 수집된 관측들을 결합시키는 것에 관한 많은 변화들이 장점을 가진다. 한 결합은 URL 클릭율 및 머문 시간 메트릭(도메인에서의 사용한 시간 및/또는 본 페이지 수)을 사용하여, URL들을 선택하고 순위화한다.

선택적으로, 사용자 응답들은 검색 결과 세트 내의 URL의 위치에 대해 정규화될 수 있다. 위치는 검색 결과들에 대한 URL 클릭 데이터에서의 고유한 바이어스(bias)를 생성하는데, 이는 바람직할 수도 있고 그렇지 않을 수도 있다. 보다 높은 순위를 차지하는 URL은 보다 높은 클릭을 얻는다. 이러한 바이어스를 고려하기 위해, 동등한 기반(footing) 상의 이종의 위치들에서의 링크들을 클릭하는 정규화 알고리즘이 개발되었다.

각 위치에 대한 데이터가 수집되고 평균 클릭율, 평균 사용 시간 및 평균 본 페이지가 계산된다. 각 순위 위치(1-n)에 대해, 그 위치의 중요성에 대한 적어도 3개의 평균 수집 측정값인, 클릭율, 사용 시간 및 본 페이지가 존재한다. 이러한 측정값들의 정규화는 아래와 같이 표현될 수 있다.

위치 n에 대한 본 페이지들의 인플레이션 인자 = 평균 본 페이지들(위치 1)/ 평균 본 페이지들(위치 n)

위치 n에 대한 머문 시간의 인플레이션 인자 = 평균 머문 시간(위치 1)/평균 머문 시간(위치 n)

위치 n에 대한 본 페이지들의 인플레이션 인자 = 평균 본 페이지들(위치 1)/평균 본 페이지들(위치 n)

본 실시예는 관측된 사용자 메트릭에 기초하여 임의의 키워드(404)에 대한 상위 URL들을 계산하고 순위화시킨다.

본 실시예는, 개별적인 머신의 퍼센티지 투표(vote)에 대응하는 시간 공유 메트릭에 기초하여 결과들을 재순위화할 수 있다. 알고리즘은 사용자 웹 서핑 패턴들을 고려하고 사용자들에게 관련 링크들에 대한 동등한 투표를 효과적으로 하게 한다. 그 전제는, 검색 클릭 후 사이트(site post a search click)에서 보내는 특정 시간량을 사용자가 가진다는 것이다. 이러한 시간들이 합계되어, 검색 클릭 후 사이트를 보는데 사용된 개별적인 사용자의 전체 시간값을 형성한다. 그 후, 전체 시간의 퍼센티지는 그 특정 사용자에 의해 이루어진 각 URL 클릭에 대해 계산됨으로써, 시간 비율 투표가 이루어진다.

이러한 방법을 사용함에 있어서, 일반적으로 웹을 서핑하는데 보다 적은 시간을 사용하는 사용자들은, 보다 긴 시간량을 쓰는 경향이 있는 사용자들과 같은 투표력을 가진다. 이는, 모든 카테고리들에 대해 플레잉 필드(playing field)를 평등하게 한다. 대안적으로, 다른 실시예들은 개별적인 사용자의 프로파일을 구성하는 다른 인자들을 고려할 수 있다. 카테고리 전문가들로서 식별된 사용자들은 보다 높은 투표권을 가질 수 있다. 예를 들어, 전자 카테고리에 많이 관계한 사용자는 그 카테고리에 대해 새로운 사용자보다, 클릭된 링크들에 대해 보다 많은 투표수를 가질 수 있다. 투표 블럭들은 특정 카테고리 내에 발생할 수 있고, 전체적으로 모든 카테고리에 대해 발생하지는 않는다.

다음의 상세한 계산 예는 수집 및 클린 프로세스를 통해 특정 키워드-URL 쌍에 적용된다.

보다 높은 위치에 있는 링크들은 보다 많은 클릭을 얻고 그 결과 보다 높은 클릭율을 갖는다. 또한, 사용자는 이러한 보다 높은 순위를 차지하는 URL들에서 보다 긴 시간을 보내고 보다 많은 페이지를 보는 경향이 있다. 이러한 바이어스를 고려하기 위해, 정규화 프로세스가 적용된다.

평균 클릭, 평균 머문 시간 및 평균 본 페이지가 키워드 또는 URL 결합들에 관계없이 각 위치에 대해 계산된다. 이러한 숫자들은 위치 평균들로서 아래에 나타내어 진다. 클릭들, 머문 시간 및 페이지 뷰들의 평균 비율도 이러한 키워드, URL 결합에 대해 도시된다. 이러한 평균 비율은 각 키워드, URL, 위치 그룹화에 대해 모든 머신들이 기울인 각 메트릭의 퍼센티지에 대응한다.

인플레이션 인자들이 각 위치에 대해 계산되고 적절한 관측 메트릭에 대해 적용되어, 각 위치에 대해 정규화시킨다. 정규화 식은 다음과 같다.

위치 n에 대한 인플레이션 인자 = 평균(위치 1)/평균(위치 n)

보다 낮은 위치들에서의 클릭, 머문 시간 및 페이지 뷰에는 그 특정 위치에 대해 관측된 적절한 인플레이션 인자가 고려된다. 아래의 예에서, 정규화 이전의 위치 7에 대한 머문 시간의 평균 비율은 .32였다. 인플레이션 인자를 적용한 후, 머문 시간의 평균 비율은 .53이었다. 이 수는 정규화된 머문 시간이다.

가중화된 평균들이 각 위치에서의 각 메트릭에 대해 계산되고, 클릭들에 대한 위치들, 및 가중화된 평균 비율 측정들 모두, 즉, 클릭, 시간과 페이지 뷰에 걸쳐 총합들이 계산된다.

시간에 따라, 행동 관찰 모듈들로부터의 웹 사용에 관한 새로운 보고들이 있으면, 특정 키워드에 대한 URL들이 자신들의 위치들을 조정할 것이다. 이번 주 위치 1에서의 URL은 다음 주에는 위치 7일 수 있다. 따라서, 위치 조정은 클린업(cleanup) 및 조정 프로세스이다.

임의의 위치에서의, 키워드(01), URL(101)에 대한 정규화된 총합들의 가중 평균들이 최종 결과이다. 모든 키워드, URL 결합에 대해 계산되면, v17.1 알고리즘에 대해 필요한 각 메트릭에 대해 단일 스코어가 계산된다. 이러한 메트릭들은 위치들, 및 다수의 순위 발생들에 대해 정규화된다.

스코어링에 대한 순위는, 사용자가 도메인 상의 페이지들을 보는데 보낸 시간에 기초할 수 있다. 행동 관찰 모듈로부터 수신된 정보는 임의의 뷰잉 세션(viewing session)에 대해 할당될 최대 시간량을 한정하거나, 또는 프로그램들 간의 윈도우 내비게이션, 마우스 클릭(mouse click-through) 또는 마우스 이동과 같은 사용자의 행동을 추적하고 머문 시간을 계산하는 경우 비활동 기간을 무시할 수 있다.

순위화함으로써, 키워드 또는 카테고리에 대한 트래픽 함수 또는 고정된 수로 미리 결정될 수 있는 소정의 횟수보다 적게 사용자가 선택한 링크들을 무시할 수 있다. 아웃라이어 링크들을 무시함으로써(403), 검색 엔진들이 드물게 제공하고 한두번만이 추적되는 링크에 높은 순위를 제공하는 것을 피할 수 있다.

스코어링에 대한 순위들은 또한 클릭율, 머문 시간 및 링크를 따라간 후 본 문서들 또는 페이지들의 수의 결합에 기초할 수 있다. 이러한 인자들을 결합하면, 일부 경우, 인자들 중 하나가 지배적이고; 순위 가중치의 2/3 이상 또는 전부가 클릭율, 머문 시간, 또는 본 문서 또는 페이지들의 수 중 단 하나에 할당될 수 있다. 대안적으로, 이들은 + 또는 - 10%로 동등하게 가중처리될 수 있거나, 또는 대략 2-1-1, + 또는 -10%의 가중 비율들이 인자들에 할당될 수 있어, 결합된 가중치의 대략 절반이 한 인자에 제공된다.

순위화에 사용될 수 있는 또 다른 인자는 리턴 방문(return visit)이다. 사용자가 도메인을 떠난 후 소정 시간 내에 또는 소정 수의 내비게이션 이벤트들 내에 그 도메인으로 리턴하면, 그 사이트로의 사용자의 리턴은 의미있게 할당될 수 있다. 사이트로의 리턴은 다른 사이트들을 고려한 후 선호하는 인상을 반영할 수 있다.

브라우저로부터 구매자 또는 등록 리드(lead)로의 변환은 인자로서 특별히 가치있는 것으로 고려될 수 있다. 다시, 변환은 도메인에서의 구매 및 등록 모두를 포함할 수 있다. 자동차 또는 주택 구매와 같은 일부 경우, 구매는 웹 사이트에서 비현실적이거나 드물게 완료될 수 있기 때문에, 등록이 보다 현실적인 측정값일 수 있다. 리턴 변환(return conversion)도 고려될 수 있다.

결과들은, 스코어링된 순위 및 검색 엔진에 의한 분석을 위해 분리될 수 있다. 그 다음, 개별적인 순위 스코어들이 전체 순위화와 결합될 수 있다.

통계적 분석 또는 다른 분석이 카테고리들 또는 키워드들 내에 적용되어, 순위화 인자들 중 어떤 결합이 사용자가 검색에 응답하는 링크를 추적하게 하는데 최상인지를 결정한다. 순위화 정보는 키워드들의 카테고리들 사이에서 상이하게 사용될 것으로 생각된다. 보낸 시간은 자동차 카테고리에서 중요할 것이다. 변환들은 음악 다운로드 카테고리에서 훨씬 더 중요할 것이다.

선택적으로, 클릭 분할 밴드(click segmentation band)들이 적용될 수 있다. 이러한 밴드들은 높은 클릭수를 갖는 URL들에 우위를 제공한다. 이러한 밴드들을 사용하면 선택된 알고리즘들 상의 결과 링크들을 개선시킬 수 있다.

분할 밴드들은 특정 URL에 의해 수신된 전체 클릭에 기초하여 식별된다. 예를 들면, 다음과 같다.

계층(Tier) 1: 100+ 클릭을 갖는 URL들

계층 2: 50 내지 99 클릭을 갖는 URL들

계층 3: 10 내지 49 클릭을 갖는 URL들

계층 4: 10 아래의 클릭을 갖는 URL들

특정 키워드에 대한 URL들이 먼저 적절한 분할 밴드에 입력된다. 밴드가 식별되면, 이러한 URL들은 순위 스코어에 의한 내림 차순으로 설정된다.

상위 15개 링크와 같은 소정 수의 링크들이 데이터 수집에 대해 선택될 수 있고(405), 스파이더 엔진(spider engine)이 뒤따를 수 있다(406).

아래와 같은 3개의 표가 순위 프로세스로부터의 출력으로서 생성된다.

키워드 표 (KEYWORDID, KEYWORD)

URL 표 (DOMAINID, URL_ID, URL)

순위표 (keyword, URL, rank)

링크 추적(Following Links)

다른 검색 엔진들에서의 전통적인 크롤링(crawling) 프로그램들(예를 들어, 야후!에서의 Slurp, 구글에서의 Googlebot, MSN에서의 MSNBot)이 관련 페이지들의 검색에서 전체 웹을, 주어진 키워드에 대해 표시할 링크들의 순위 순서를 결정하는데 사용될 색인으로 크롤링한다. 본원에 개시된 실시예에는, 대조적으로, 크롤링할 간결한 수의 URL들이 제공되며, 이는 행동 관찰 모듈에 의해 보고(401)된 링크들로부터 선택적으로 선택(405)될 수 있다. 이러한 링크들은 사전에 순위화되고, 그 결과 이러한 정보 검색 프로세스는 주어진 URL의 상대적 중요성을 다른 것에 대한 그의 액세스들로부터 판정할 필요가 없고 오히려 URL로부터 가장 가능성있는 기술적 정보(descriptive information)를 얻는다.

본 실시예는 특정 URL 세트를 갖고 몇몇 특정 태스크를 수행한다. 본 실시예는 모든 HTML 태그들을 제거하고 제1의 1,000k 또는 그 페이지 상의 텍스트의 소정의 또 다른 청크(chunk)를 파일에 리턴한다. 본 실시예는 텍스트 객체의 값으로부터, 텍스트 서명 또는 텍스트 지문으로 사용될 균일한 스칼라 공간으로의 매핑을 취하고 저장한다. 본 실시예는 MD5 또는 문서의 다른 지문(html 태그 유/무)을 계산한다. 본 실시예는 문서로부터 추출된 텍스트 내의 문자들의 요약 카운트를 계산한다.

이 방법은 도 18에 도시된 리눅스 환경에서 동작하는 자바 애플리케이션에 의해 구현될 수 있다. 이 애플리케이션(1811)은, 다수의 Linux 서버들에 대해 동시에 작동하는 대량의 가변가능한 스레드(thread) 수를 허용하는 브로커(broker) 애플리케이션이다. 현재 구성에서, 각 Linux 서버(1821, 1822)는 10개의 스파이더 인스턴스(1831-33, 1834-36)까지 다룰 수 있다. 각 스파이더는 다시 200개의 작업자 스레드들(1841-43, 1844-46)을 작동시킨다(200). 완전 가동 시, 이러한 구성은 초당 800개의 링크를 스파이더할 수 있다.

단일 브로커에 대해 작업하는 전체 스레드는 다음 식에 의에 얻어질 수 있다. 여기서, i개의 스파이더들 각각은 j개의 작업자(스레드)를 가진다.

i# 스파이더들에 대한 전체 스레드:

듀얼 브로커 모델(dual-broker model)(1821, 1822)은 키워드별 속도를 분리할 수 있다. 일반적은 키워드들은 강인하고 강력한 버전의 순위화 알고리즘을 통해 집중된다. 빠르게 이동하는 키워드들(예를 들어, 뉴스, 현재 이벤트들)은, 보다 적은 이력을 사용하는 민첩하고 고속 버전의 순위화 알고리즘을 통해 처리될 수 있다. 키워드 속도는 키워드의 인기가 얼마나 빨리 변하는지에 대한 측정값이다. 가장 높은 속도의 키워드는, 그 이전 24시간(-1일)에 대한 최근 24 시간(0일)에서의 키워드 검색의 수를 비교함으로써 선택될 수 있다. 물론, 4시간 또는 8시간과 같은 상이한 시간 기간이 사용될 수 있다. 0일/-1일의 비율이 "1"에서 얼마나 멀리 변화하는지가 키워드 속도이다. 그 비율이 1보다 작으면, 키워드는 보다 덜 인기있게 되고, "오래된 뉴스"가 된다. 그 비율이 1보다 훨씬 크면, 키워드는 새로운 이야기에 관한 것일 수 있다. 일반적으로, 소정 수의 비교적 높은 속도의 키워드는 소정의 간격에서 또는 자원이 허용하는 대로 다시 색인된다. 일 실시예에서, 상위 10,000개 키워드들이 매일 다시 색인된다. 키워드 속도 또는 휘발성(volatility)에 대한 하나의 메트릭이 설명되었지만, 변경들이 고려된다.

강력한 버전은 순위화된 키워드 URL 쌍들을 다룬다. 이러한 순위화된 키워드 URL 쌍들은 데이터베이스 상의 Oracle 표를 통해 이용가능하게 된다. URL_TABLE는 DOMAINID, URLID, URL, LENGTH, SIGNATURE_H, SIGNATURE_T, SPIDER_DATE 및 HOST를 포함한다.

DOMAINID, URLID 및 URL 필드들은 링크들을 추적하기 이전에 참조 데이터베이스로부터 채워진다. 특정 URL에 대한 링크 추적 프로세스 이후, LENGTH, SIGNATURE_H, SIGNATURE_T, SPIDERDATE 및 HOST 필드들이 다시 데이터베이스에 기입된다.

브로커들은 JDBC(Java Database Connectivity)를 사용하여 Oracle 데이터베이스에 액세스한다. 브로커는 순위화 프로세스로부터의 URL_TABLE에 액세스한다. 브로커는 SPIDER_DATE가 널(null)인 URL 표에서 이용가능한 도메인들의 전체 수의 1/100에 대해 요청한다. 이러한 도메인들과 관련된 모든 URL들은, 도메인에 의해 그룹화된 브로커에 의해 추출된다. 개별적인 스파이더 박스들은 한번에 1,000개 도메인에 대한 URL들을 요청하는 RMI(Remote Method Invocation)을 통해 Broker와 대화한다. 그 다음, 도메인들은 스파이더로부터, 그 도메인과 관련된 모든 URL을 가지고 이러한 URL들에 대해 동작하는 작업자에게 전달된다.

수천개의 요청들이 동시에 도메인들에 쇄도하지 않도록, 일반적으로 수락되는 크롤링 또는 링크 추적 실행들을 수용하기 위해 도메인에 의해 그룹화된 작업자들에게 URL들을 전달한다. 한번에 한 요청보다 많은 요청으로 단일 도메인에 액세스하지 않는 것이 일반적으로 수락되는 실행이다. 링크 추적 프로세스(406)는 주어진 도메인과 관련된 모든 URL을 각 작업자에게 할당함으로써, 이와 같이 일반적으로 수락되는 원리를 존중한다.

링크 추적 프로세스(406)는, 특정 URL로부터 콘텐츠를 인출하고 통계를 계산하는 강인하고, 가변적인 애플리케이션이다. 작업자가 도메인과 그와 관련된 URL들을 수신하면, HTTP 프로토콜을 사용하여 그 URL에 액세스한다. 양호한 응답 코드가 수신되면, 링크 추적 작업자는 그 페이지에서 작업하기 위해 간다. 작업자는 그 시간의 98%보다 많은 200개의 응답 코드(상태 OK)를 수신한다. 페이지가 리다이렉트(redirect)를 나타내는 HTTP 코드(코드 301, 302, 303, 307)를 리턴하면, 그 URL에 관한 정보를 얻기 위해 추가의 조작이 작업자 또는 시스템에 의해 취해져야 한다. 작업자는 포기하기 전에 초기 URL로부터 5개의 리다이렉트까지 추적할 것이다. 작업자가 종점에 도달하면, 후속 태스크들이 발생한다: URL로부터 HTTP 리턴 코드(return code)를 획득한다. 양호한 응답 코드가 얻어지면: 이용가능한 경우 제목 메타 태그를 식별하고; 전체 문서(HTML 및 텍스트 모두)의 MD5 지문을 계산하고; 그 페이지로부터의 HTML을 파싱(parsing)하고, 텍스트의 제1의 1,000K를 다시 디스크에 기입한다.

콘텐츠가 파싱되고 디스크에 다시 기입되면, 후속 조작자가 이어받는다. 이 조작자는 문서 지문에 사용되는 몇몇 계산을 수행하고 이들 통계 및 다른 통계를 다시 Oracle 데이터베이스에 기입한다. 시스템은 다음 필드들, 즉, URL_TABLE, DOMAINID, URLID, URL, LENGTH, SIGNATURE_H, SIGNATURE_T, SPIDER_DATE 및 HOST를 다시 Oracle에 기입한다.

LENGTH는 문서의 텍스트 내의 문자들의 카운트이다(제1의 1,000k). 이 특징은 프로세스에서 나중에 URL들을 디-듀핑하는데 사용될 수 있다(408). SIGNATURE_H는 MD5 해시 코드 서명이다. SIGNATURE_T는 텍스트의 CRC32 체크섬 코드이다(제1의 1,000k). SPIDER_DATE는 특정 URL이 액세스된 날짜와 시간을 나타낸다. HOST는 URL의 텍스트를 저장한 스파이더 머신에 관한 것이다.

다음 시스템은 문서의 중복 해제(de-duplication)를 돕도록 설계된 3개의 상이한 측정값들을 생성할 수 있다(409). 이러한 중복 해제 프로세스는 주어진 키워드 결과 세트 내에서 동일하거나 매우 유사한 문서들을 식별하는 것을 목표로 한다. 개별적으로 도시되지 않은 앞선 단계에서, URL들은 URL 레벨에서 디-듀핑된다. 정확하게 동일한 URL이 2번 발생하는 것과 같이, 용이하게 식별된 중복들은 제거된다. 시스템은 동일한 페이지를 지시하는 것으로 보이지 않으나 실제로 그러한 URL들을 제거하려고 한다. 일 실시예에서, 수학적 서명들(지문들)이 각 URL에 대해 취해지고 주어진 키워드 결과 세트 내의 다른 URL들과 비교된다. 3개의 예시적인 서명들은 길이 서명, MD5 서명 및 CRC32 체크섬이다. 다른 서명들이 대체될 수 있다.

길이 서명에 있어서, 텍스트 문서의 문자 길이가 계산된다. 이 측정값은 디-듀핑 프로세스에서 중복으로 식별된 페이지에 문맥을 제공하는데 도움을 준다. 예를 들어, 2개의 사이트가 동일한 MD5 및 CRC32 서명을 나타내지만, 매우 상이한 URL들을 가지는 경우, 서명이 분석된다. 길이 서명이, 페이지가 작다는 것을 의미하는 것과 같이 낮으면, 이들 2개의 URL들이 예를 들어 성인 콘텐츠 사이트에 들어가기 이전에 발견되는 표준 경고 화면을 공유할 가능성이 있다.

MD5 서명은 통상적으로 데이터 무결성을 검증하는 방식이다. MD5 알고리즘은 임의의 길이의 메시지를 입력으로 취하고 그 입력의 128비트 "지문" 또는 "메시지 다이제스트(message digest)"를 출력으로서 생성한다. MD5 알고리즘은, 큰 파일이 안전한 방식으로 "압축"되어야 하는 디지털 서명 애플리케이션들을 위한 것이다. 시스템은 전체 문서에 대한 MD5 서명을 계산하여, 예를 들어, 아이덴티티 비교 프로세스를 128 비트 비교로 감소시킨다.

CRC32 체크섬은 32 비트 길이의 순환 잉여 체크섬 다항식을 생성한다. 이는 전송되는 데이터의 무결성을 검증하는데 일반적으로 사용된다. CRC는 파일의 "디지털 지문"이다. CRC32를 사용하면, 큰 20MB(또는 훨씬 더 큰) 파일을, 그에 대한 작고 가벼운 참조, 이러한 큰 파일의 전체 내용을 반영하는 7d9c42fb(16진 표기)와 같은 단일의 32비트 수를 갖도록 "삭감(melt down)"할 수 있다. 시스템은 문서의 텍스트의 CRC32 서명을 계산하여, 페이지의 텍스트 내용을 간파한다.

계산되고 사용될 수 있는 또 다른 서명은 Rabin의 지문 알고리즘, 예를 들어 Broeder의 구현인데, 이는 소형 체크섬을 생성한다.

체크섬들 또는 지문들 중 임의의 것이 전체 문서, 보다 적은 HTML 태그들이 제거된 전체 문서, 캐시된 문서의 선택된 청크(chunk), 제목 및 스니펫 또는 문서의 소정의 다른 초록에 적용될 수 있다. 문서의 1,000k보다 많거나 적게 사용될 수 있다.

프로세스는 Oracle 데이터베이스 및 스파이더 박스에 기입되는 데이터를 갖는 특정 URL에 대한 작동을 완료한다. Oracle 데이터베이스는 지문 정보(길이, MD5, crc32), 스파이더 날짜/시간 및 URL_TABLE에 기입된 호스트 위치 정보와 KEYWORD 표에 기입된 스파이더 날짜/시간 스탬프를 수신한다. 스파이더 박스는 추적한 데이터 링크들에 대한 파일들: URL, 제목(URL로부터 초기 인출 동안 획득된 경우) 및 스니펫 생성을 위해 사용될 문서의 텍스트(제1의 1,000k)를 수신한다. 텍스트는 문서의 본문 및 메타 기술(meta description)의 요소들을 포함한다.

스니펫 생성(snippet generation)

스니펫 생성 프로세스는 표시용 스니펫 및 제목을 생성한다(407). 스니펫 프로세스는 키워드 문구 및 URL 결합을 취하고, 그 URL을 기술하는 최상의 제목을 생각해 내고, 키워드와 관련되는 URL에 포함된 정보를 200 문자 공간에 요약하는, 그 URL에 대한 최상의 스니펫(즉, 요약, 설명)을 생성한다. 스니펫 생성은 링크 추적 프로세스를 따라간다. 스니펫들은 선택된 URL로부터 검색된 문서의 텍스트로부터 생성된다.

키워드 "소멕 자전거(Somec bicycles)"는 표시를 위한 다음의 샘플 텍스트를 생성한다.

본 예에서, 제목은 "Upland Sports ... Frames"이다. 스니펫은 제목 다음의 2줄이다. URL은 바닥줄에 있다.

제목들은, 링크가 추적되는 경우, 검색된 페이지의 제목으로부터 일반적으로 생성된다. 대부분의 사이트는 HTML 메타 태그들의 사용을 통해 검색 엔진들에 대한 페이지의 제목을 주해한다. 제목을 식별하는 태그는 모든 URL들 중 97%를 넘는 URL에 존재한다.

HTML 태그들이 제목을 제공하지 않는 3%의 URL들에서, 프로세스는 제목을 작성한다. URL에 대해 이용가능한 텍스트가 존재하면, 프로세스는 (단어 경계들에 관하여) 텍스트의 제1의 대략 70 문자들을 취하고, 제목을 생성한다. URL로부터 생성된 텍스트가 존재하지 않으면, 도메인 명칭이 URL로부터 제거되어(www와 .com 사이의 모든 정보) 제목으로 표시된다.

스니펫 생성은 예술과 과학의 혼합이다. 이 프로세스는 수학식들과 언어 과학을 이용하는(leveraging) 스니펫들을 생성한다. 일 실시예에서, 스니펫들은 1개의 단일 서브-스니펫 또는 타원들(...)에 의해 분리된 3개까지의 서브-스니펫들로 이루어질 수 있다. 스코어링 알고리즘은, 결합될 때(단일 서브-스니펫의 경우는 해당없음) 어느 서브-스니펫이 최상의 스코어를 생성하는지를 결정한다.

스니펫 스코어링 알고리즘은 문서의 텍스트의 다양한 부분에 스코어를 매기는 다단계 프로세스이다. 4개 부분들에서, 키워드 토큰화(tokenization), 윈도우 스코어링, 윈도우 트레이딩 및 최종 결정을 포함한다.

키워드들이 항상 단일 단어가 아니기 때문에 키워드 토큰화가 적용된다. 키워드들은 종종 복수-단어(multi-word) 문구들이다. 이 프로세스는 문구 내의 개별 단어들을 토큰화하거나 뽑아낸다. 개별 단어 토큰들을 식별하는 것은 통상적으로 공간들, 주기들, 콤마들 또는 콜론/세미콜론과 같은 단어 분리자들을 검색하는 것을 포함한다. 키워드 문구의 토큰화가 완료되면, 윈도우 스코어링 루틴이 시작할 수 있다.

한 버전의 윈도우 스코어링에서, 3개의 상이한 크기의 윈도우들이, 예를 들어, 길이 200 문자들, 100 문자들 및 66 문자들의 서브-스니펫에 대해 문서의 텍스트 내에서 계산된다. 다양한 표시 포맷들 및 사용자 선호도들에 대해, 50, 100, 200, 500 또는 1,000 문자의 전체 스니펫 길이가 가장 잘 작동할 수 있다. 본원의 예는 200 문자들이다. 도 20은 어떻게 윈도우 스코어링 루틴이 문서(2004) 내의 텍스트(2003)의 첫번째 단어로 시작하는지를 나타낸다. 첫번째 경우, 윈도우는 200 문자 길이다. 이 윈도우는 몇몇 메트릭에 기초한 스코어를 수신한다. 스코어가 계산되면, 윈도우는 오른쪽으로 1 문자 이동하여 다음 윈도우에 대한 또 다른 스코어를 계산한다. 대안적으로, 윈도우는 오른쪽으로 한 단어 이동하여, 윈도우 시작 또는 윈도우 끝 중 어느 하나를 단어 경계들과 정렬시킨다. 이러한 프로세스는, 최종 윈도우에 대한 스코어가 얻어질 때까지 (2004, 2005)를 반복한다. 지능이 알고리즘에 축적되어, 각 전체 윈도우에 대한 스코어를 계산할 필요는 없으나, 오히려 이전 윈도우의 스코어에 추가 정보를 가산하고, 이동에서 손실된 정보를 차감한다. 제목들(2002)은 또한 전술한 바와 같이 캡쳐될 수 있다.

프로세스가 완료되는 경우, 길이 200의 i 윈도우들(여기서, i=문서 길이 - 200), 길이 100의 j 윈도우들(여기서, j=문서 길이 - 100), 길이 66의 k 윈도우들(여기서 k=문서 길이 - 66)이 존재할 수 있다.

윈도우 스코어링은, 윈도우 내에서 발견된 고유 토큰의 수, 윈도우 내에서 발견된 전체 토큰 수 및/또는 윈도우 내에서 발견된 가장 긴 토큰 스트링과 같은 하나 이상의 메트릭에 기초할 수 있다. 각 윈도우에 대한 수식은 이러한 메트릭의 결합으로부터 계산되고 그 윈도우에 할당된다.

하나의 200 문자 스니펫이 존재하는 경우, 가장 높은 스코어를 갖는 윈도우가 선택된다. 길이 100의 2개의 가장 높은 스코어링 윈도우들이 2개의 서브-스니펫 모델에 대해 선택된다. 길이 66의 3개의 가장 높은 스코어링 윈도우가 3개의 서브-스니펫 모델에 대해 선택된다.

가장 좋은 스코어들이 각 모델(1, 2, 또는 3 서브-스니펫들)에 대해 계산된다. 2 또는 3 윈도우들이 스니펫에 대해 적당한 경우 최종 알고리즘이 적용될 수 있다. 전체적인 윈도우 스코어가, 문자들을 다른 윈도우에 내주는 한 윈도우에 의해 증가될 수 있다면, 그 조작은 이득으로 보여지고, 취해진다. 전체적인 윈도우 스코어가 이러한 방식으로 증가될 수 없다면, 스니펫들이 트레이딩없이 사용된다.

스니펫 생성으로부터의 출력은 5개의 상이한 스코어, 즉, 단일 서브-스니펫 모델의 스코어, 트레이딩되지 않은 2개의 서브-스니펫 모델의 스코어, 트레이딩된 2개의 서브-스니펫 모델의 스코어, 트레이딩되지 않은 3개의 서브-스니펫 모델의 스코어 및/또는 트레이딩된 3개의 서브-스니펫 모델의 스코어를 포함할 수 있다. 이들 중 단일의 가장 높은 스코어가 선택되고 그 서브-스니펫 모델이 그 키워드, URL 결합에 적용된다.

샘플 키워드 = "red dog run"에 대해, 다음의 단계들이 후속된다.

단계 1: 키워드를 3개의 토큰으로 토큰화한다.

토큰1 = red

토큰2 = dog

토큰3 = run

단계 2a: 텍스트 문서 내의 상기 토큰들의 인스턴스를 찾는다.

단계 2b: 윈도우에 스코어를 매기고 상위 것들을 식별한다. 본 예에서, 3개의 서브-스니펫 모델, 최상의 3개 윈도우들이 계산되었다.

단계 3: 트레이딩이 일어나는 것을 허용한다. 이 경우, 윈도우 1이 윈도우 1의 좌측 에지 내의 문자들을 포함하는 비-토큰(non-token) 중 일부를 윈도우 3에 줄 수 있으면, 윈도우 3은 확장하고 최종 토큰 'run'을 포함하여, 스니펫의 전반적인 전체 스코어를 증가시킨다.

대안적인 실시예에서, 스니펫 생성 프로세스는, 관련된 링크에 대한 기술자(descriptor)로서 사용되는 대략 200 바이트 필드의 생성을 수반할 수 있다. 스니펫 생성은 스파이더한 후 발생하고 선택된 URL과 관련된 문서의 완전한 텍스트 또는 저장된 문서의 적어도 일부분으로부터 생성된다.

개인화 및 순위화(Personalization and Ranking)

순위화 알고리즘 내에는, 사용자의 행동 프로파일에 기초하여, 다른 사용자들 보다 많은 링크 카운트의 특정 카테고리들에 대해 투표권을 가지는 익명의 사용자들을 선택하는 능력이 존재한다.

(검색자들의 관측된 검색 행동에 기초하여) 대량 검색자들인 사용자들은 동일한 링크에 대한 신참 검색자들의 투표권보다 많이 클릭하는 링크들에 대해 보다 많은 투표권 카운트를 가질 것이다. 이러한 방식으로, 검색 전문가들은 보다 많은 관련 순위화 결과들을 생성하는데 도움을 준다.

유사하게, 특정 카테고리와 많이 관계되는 사용자들은 그 카테고리에 대해 관계가 없는 사용자들보다 그 카테고리에서 보다 높은 투표 카운트를 가진다. 행동 관찰 모듈들을 사용하면, 디지털 카메라, 환타지 스포츠 또는 자동차와 같은 다양한 카테고리와 많이 관계되는 사용자들을 식별할 수 있다. 예를 들어, 디지털 카메라 카테고리와 많이 관계되는 것으로 식별된 사용자는 'Canon G3'에 대한 검색 이후 그 사용자가 클릭한 링크들에 대해, 그 동일한 키워드에 대한 카테고리 검색에 대해 새로운 사용자보다 많은 투표 카운트를 가진다.

사용자의 카테고리 관계 상태의 식별은 또한 개인화를 진행시킨다. 특정 카테고리에의 높은 관련도를 갖는 사용자는 보다 적게 관계되는 것으로 식별된 사용자와는 상이한 결과를 얻는다. 이러한 제공되는 개인화된 결과들은, 특정 머신에 이용가능한 쿠키와 유사한 객체의 존재를 필요로 한다. 이러한 라이프스타일 쿠키는 검색 엔진에, 사용자 카테고리 내비게이션 패턴들로부터 얻어진 사용자의 행동 프로파일을 제공한다. 이러한 카테고리 특정 내비게이션 패턴들은, 목표하는 광고에 대해 사용될 수도 있는 카테고리 구조 내에 포함된 정보로부터 얻을 수 있다. 상업용 목적을 위해, 할당(budget) 카테고리 또는 가능성있는 할당은 방문한 사이트들로부터 추론될 수 있다. IKEA 및 Target으로의 방문자들은, Sachs Fifth Avenue 또는 Bloomingdale's에의 방문자들과는 의류에 대한 상이한 할당을 가질 가능성이 있다. 유사하게, Hyatt 호텔들은 유스호스텔과는 상이한 할당 카테고리에 있다.

사용자들의 8 - 14%만이 그들의 콘텐츠를 수동으로 개인화했다는 것이 조사결과 나타났기 때문에, 관측된 통신에 기초한 개인화는 사용자 입력 맞춤화보다 훨씬 더 강력하다. 개인화는 도메인에서 본 페이지들과 많이 상관된다: 개인화하는 사용자들은 개인화하지 않는 사용자들보다, 도메인의 130% 보다 많은 페이지를 보는 것으로 보고되었다.

때때로 상이한 행동 프로파일들을 사용하여 검색 결과들에 차이를 생성한다. 다른 경우, 2명의 사용자의 행동 프로파일 간의 차이들은 특정 검색 키워드의 문맥에 도움이 되지 않는다.

일부 예들이 도움이 된다. 먼저, 모호한 검색 용어 예: "재규어"를 검색하는 자동차 카테고리에 많이 관계된 사용자는, 식별할 수 없는 카테고리 관계를 갖는 누군가에 대한 자동차와 동물 관련 링크들의 일반적인 혼합과 비교하면, 재규어 동물 관련 링크들 보다 재규어 자동차 관련 링크들을 더 많이 얻는다. 이러한 행동 프로파일들의 식별 및 사용은, 결과들을 완전히 교체하지 않고 결과들을 치우치게 한다. 상기 예에서, 자동차 카테고리에 관여된 사용자는 100% 자동차 결과들을 얻을 수 있거나, 또는 인기있는 웹 사이트들 사이에서 발견된 자동차 결과들 보다 큰 퍼센티지의 자동차 결과들을 얻을 수 있다.

다음으로, 서브-카테고리 식별 예: 3명의 사용자가 "임대 자동차"라는 키워드를 검색한다. 사용자들에 대해 각각 개인화된 3개의 별도의 결과 세트가 생성된다. 각 사용자는 여행 카테고리 내에서 관측된 그들의 과거 내비게이션 패턴들로부터 얻어진 특정 행동 프로파일을 가진다. 이러한 행동들은 관측된 통신으로부터 용이하게 식별될 수 있다.

사용자 1: 빈번한 업무용 여행자 - 임대 자동차 결과들은 업무용 여행자의 자동차 임대 결과들 쪽으로 치우쳐 지고, 아마도 단골 임대 포인트 등에 관해 보다 더 치우쳐 진다.

사용자 2: 알뜰 여행자(budget traveler) - 임대 자동차 결과들은 알뜰 여행자; 중고차 대여(rent-a-wreck) 유형의 결과들, 특히 서브컴팩트 카(sub-compact car) 등으로 치우쳐 진다.

사용자 3: 부유한 여행자(luxury traveler) - 임대 자동차 결과들은 하이-엔드 고급 여행자; 스포츠 카 대여, 클래식 카 대여 등으로 치우쳐 진다.

도 12는 사용자의 머신 상의 행동 관찰 모듈들이 웹 서핑에 대해 제공하는 식견을 서버가 달성할 수 있는 한정된 시야와 비교한다. 이러한 통계는, 행동 관찰 모듈이 보는 것에 대하여, 야후! 서버가 사용자 행동에 관해 알고 있는 것을 비교하도록 생성되었다. x축(1202)은 웹 사이트들의 카테고리들을 식별한다. y축은, "1"로 스케일된 야후! 서버 관측을 갖는, 상대적 눈금이다. 각 스택에서, 야후!(1203)는 1의 가시성(visibility)을 갖는다. 행동 관찰 모듈은 카테고리들 사이에서 크게 변화하고 보다 높은 상대적 스코어(1204)를 가진다. 이러한 놀라운 차이의 정도는, 많은 관련 사이트를 갖는 널리 사용되는 검색 엔진이 달성할 수 있는 가시성으로부터, 온-머신(on-machine) 행동 관찰 모듈을 확실히 구별한다.

도 13은 "자동차" 키워드와 많이 관련되는 웹 페이지를 나타낸다. 순위화 알고리즘을 적용하면, CarsDirect 홈 페이지는 97/100의 스코어를 얻는다. 이러한 스코어를 계산하는데 사용되는 인자들은 초기 방문 메트릭, 후속 방문 메트릭 및 사용자 레벨 메트릭을 포함할 수 있다. "자동차" 키워드에 응답하는 검색 엔진들에 걸쳐 특정 사이트에 대한 사용자들의 응답을 관측하면, 행동 관찰 모듈은 12%의 클릭율을 관측한다. 이 웹 사이트에서 평균 사용자는, 사이트를 떠나기 전에, 초기 링크 이후 5페이지를 본다. 평균 사용자는 그 페이지들을 보는데 55초를 소비하고 구매보다 가능성이 있는, 변환율, 본원에서는 등록이 80%이다. 후속 기회 시, 검색 또는 제1 방문 후 소정 시간 내에, 평균 복귀자는 15 페이지를 보았고 그 사이트에서 300초를 보냈다. 복귀자는 15%의 변환율로 등록하였다. 이 키워드에 대한 이 링크를 추적하는 사용자들 중에서, 카테고리(예를 들어, 자동차 카테고리) 관여도는 높게 순위화된 "전문가(Expert)"였다. 검색 엔진 사용은, 일반적인 사용자들이 컴퓨터 전문가들보다 빈번하였다는 것을 나타내는 "달인(Maven)"이었다. 이 카테고리에 대해, 미국 사용자들 사이에서, 웹 사이트의 지리적 위치가 중요했다. 미국에서의 웹 사이트들은 해외 웹 사이트들보다 사용자들(예를 들어, 자동차 구매자들)에게 보다 많은 관심이 있었다.

도 14는 "자동차"에 약하게 관련되는 페이지의 반례이다. 이 기사의 제목은 키워드와 일치하지만, 클릭율 및 다른 메트릭들은 사용자들이 이 페이지를 CarsDirect 홈 페이지보다 "자동차" 검색에 훨씬 덜 관련된 것으로 생각한다는 것을 나타낸다. 이 페이지에 대한 계산된 관련성 스코어는 단지 11이다.

도 15는 본원에 설명된 검색 엔진의 실시예를 갖는 야후!, MSN 검색 및 구글로부터의 "자동차"에 대한 결과들을 나란히 배치한다. 관련성 색인(relevancy index)을 사용하면, 본 실시예는 더 관련성 있는 검색 결과들을 생성한다. 관련성 색인은, 검색 결과 목록들 내의 링크들에 대한 사용자의 응답들을 반영하는, 순위화 스코어이다. 샘플 스코어들은 MSN 598, 구글 524 및 야후! 487이다. 본 실시예에 대한 이와 같이 상당히 개선된 스코어는, 온-머신 행동 관찰 모듈의 사용과 선두 검색 엔진들의 순위화 알고리즘으로부터의 다수 사용자들의 집합적 행동들을 확실히 구별한다.

도 16은 행동 관찰 모듈로부터의 결과들을 사용하는 사용자 구별을 나타낸다. 큰 샘플의 사용자 행동, 특히 의류 카테고리에서의 쇼핑이 본 도면에서 보고된다. 사용자들은 카테고리에서의 브라우징의 양(1601) 및 특정 웹 도메인(대안적으로, 판매자, 브랜드 또는 다른 카테고리)에 대한 충성도(1602)의 속성들을 따라 9개의 박스들로 분류되었다. 브라우징의 양은 소량(light), 보통(medium) 또는 대량(heavy)으로 분류되었다. 사용자들 중 1/4는 대량 및 보통 사용 카테고리들 각각에 존재하고, 나머지 절반은 소량 사용 카테고리에 존재한다. 충실도(loyalty)는 충실(Loyal), 소스들 간의 전환자(switcher) 또는 경쟁자들에 대한 충실로 분류된다. 속성들의 3 x 3 배열이 9개의 박스들을 생성한다. 충실한 쇼핑객들 중에서, 약 백만개의 고유 관측들이 이루어졌다. 대량 사용자들은, 검색에 응답하여 특정 결과가 표시되었을때 보다 높은 클릭율을 가지며, 보통 사용자들에 대한 5.40%와 소량 사용자들에 대한 단지 3.00%와 비교하면, 그 클릭율은 7.90%이다. 클릭 이벤트 이후, 대량 사용자들은, 보통 사용자들에 대한 7.20% 및 소량 사용자들에 대한 6.50%와 비교할 경우, 구매 또는 등록으로 변환되는 대량 사용자들은 그 클릭율이 8.00%이다. 별로 놀랍지 않게도, 관측된 특정 도메인에 대한 것보다 많은 전환자들 및 경쟁적인 충실 고유 관측들이 존재한다. 광고와 같은 콘텐츠의 개인화는 사용자가 9개의 박스들 중 어느 박스에 적합한지에 달려있을 수 있다. 예를 들어, 충실한 대량 사용자는 보통 내지 소량의 전환자들과는 상이한 메시지(단골 이용객 유형의 프로그램)를 얻을 것이다. 경쟁자-충실(competitor-loyal) 대량 사용자는 충실한 사용자에게 완전히 잘못 겨냥된 시험적인 제안을 얻을 수 있다. 충실한 대량 사용자에게 광고하는 전략은 그들을 경쟁자들로부터 분리시키는 것이다. 충실한 보통 내지 소량 사용자들에 대해, 이 전략은 타겟-업 판매(target-up selling) 및 크로스-판매(cross-selling)일 수 있다. 대량 내지 보통 전환자들에 대해, 그 목적은 공유를 증가시키는 것이다. 대량 내지 보통의 경쟁적인 충실한 사용자들은 획득에 대한 표적이 된다. 소량 전환자들 및 소량의 경쟁적인 충실한 사용자들은 광고 자원들에 집중하기 위해 무시될 수 있다.

행동 관찰 모듈로부터의 리턴 방문 데이터는 광고자가 특정 광고의 효과성을 측정하는 것을 도울 수 있다. 박스에 의한 사용자 구별은 광고의 선택 및 광고 효과성의 평가와 더 연관될 수 있다.

사용자들의 크로스-브라우징(cross-browsing)도 보고될 수 있다. 사용자들은 이행(follow-through), 예를 들어 모든 클릭 또는 변환들을 갖는 모든 사용자들에 의해 선택될 수 있다. 특정 도메인(예를 들어, 판매자 또는 상표)에서의 변환을 갖는 사용자들은 경쟁자의 도메인들(또는 판매자들 또는 상표들)에 대한 그들 방문의 빈도에 의해 평가될 수 있다.

도 17은 키워드에 의한 특정 검색 엔진으로부터 특정 도메인으로의 트래픽을 나타낸다. 이러한 정보는 광고를 고안하는 회사에 유용할 수 있고, 또한, 검색 엔진 결과 페이지들 상에 위치하는 후원받는 콘텐츠에 대한 키워드들에 입찰하는 경우 유용할 수 있다. 행동 관찰 모듈로부터의 데이터는 인상(impressions), 클릭, 클릭율, 변환율 및 검색 엔진의 결과 페이지 상에서의 위치를 생성할 수 있다.

일부 특정 실시예들

본 발명은 그 방법을 실행하도록 구성된 방법 또는 장치로서 구현될 수 있다. 사용자들로부터 정보를 모으는 서버 측 상에서 또는 사용자의 단말기 또는 퍼스널 컴퓨터에서의 사용자의 관점으로부터 동일한 방법이 보여질 수 있다. 본 발명은 컴퓨터 지원 방법을 수행하는 로직에 의해 특징을 부여하는 미디어와 같은 제조물일 수 있다.

사용자 관점에서, 장치 실시예는, 사용자에 대해 개인화된 정보를 갖는 행동 관측에 응답하는 서버에 연결되는, 사용자의 컴퓨터 상에서 작동하고 행동 관측들을 수집하는 모듈로 구현될 수 있다.

본 발명은 위에서 상세하게 설명된 바람직한 실시예들 및 예들을 참조하여 개시되지만, 이러한 예들은 한정적인 의미라기보다는 예시적인 것으로 의도한다는 것을 이해할 것이다. 컴퓨터 지원 처리는 전술한 실시예들에 함축된다. 따라서, 본 발명은 통신 패턴들을 수집하고, 키워드 검색들에 응답하는 링크들을 전처리하고, 수집된 통신 패턴들을 사용하여 키워드 검색들에 응답하여 응답한 링크들을 순위화하고, 최근 및 현재 내비게이션 정보 시스템들을 사용하여 키워드 검색에 응답하여 사용자 특성에 기초해서 모호함을 해결하거나 및/또는 응답들을 개인화하는 방법으로 구현될 수 있다. 장치들과 같은 다른 실시예들은 이러한 방법을 수행하기 위한 로직 및 자원들을 포함한다. 시스템들로서, 또 다른 실시예들은 단말기들 상의 행동 관찰 모듈들, 행동 데이터를 처리하거나 그에 응답하는 서버들 또는 양자를 포함한다. 기타 실시예들은 본 방법들을 수행하기 위한 로직에 의해 특징을 부여하는 미디어, 본 방법들을 수행하기 위한 로직에 의해 특징을 부여하는 데이터 스트림들, 또는 본 방법들을 수행하는 컴퓨터 액세스가능한 서비스들을 포함한다. 본 기술분야의 당업자에게는 수정들 및 조합들이 용이하게 발생될 것이며, 이러한 수정들 및 조합들은 본 발명의 사상 및 다음 청구범위의 범위 내에 있을 것으로 의도된다.

개시된 실시예들은 본 방법을 실행하도록 구성된 방법 또는 장치로서 실행될 수 있다. 이들은 시스템으로서 실행될 수 있다. 데이터를 수집하는 서버 또는 데이터를 생성하는 행동 관찰 모듈의 관점에서 동일한 방법이 보여질 수 있다. 본 발명은 본 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리와 같은 제조물 또는 본 방법을 수행하는 명령들을 포함하는 데이터 스트림을 포함할 수 있다.

일 실시예는 검색 요청들에 응답하여 사용자들에게 리턴될 수 있는 웹 페이지들을 선택적으로 수집하는 방법이다. 이 방법은 다수의 사용자들의 컴퓨터들 상에서 동작하는 행동 관찰 모듈들로부터, 하나 이상의 검색 엔진들에 걸친 사용자의 검색 엔진 사용에 관한 정보를 수신하는 단계를 포함한다. 이 정보는, 특정 사용자들에 의해 검색 엔진들에 제출된 (문구들을 포함하는) 적어도 키워드들, 검색 엔진들에 의해 반환된 결과들로부터 특정 사용자들에 의해 선택된 링크들, 및 선택된 링크들을 추적하는 경우 특정 사용자들이 보는 문서들 또는 머문 시간 중 적어도 하나를 포함한다. 이 방법은 검색 엔진 사용 정보를 사용하여 관심 키워드들을 선택하고 관심 키워드들에 대응하는 사용자들이 선택한 링크들을 선택하는 단계를 더 포함한다.

본 실시예에서의 다수의 사용자는, 자주 제출된 검색 용어들의 원하는 커버리지에 따라, 2000 또는 100,000 사용자들을 초과할 수 있다. 행동 관찰 모듈들로부터 수신된 정보는, 다수의 연계가 없는 검색 엔진들에 걸쳐 있을 수 있으므로, 어떠한 단일 검색 엔진도 수집할 수 없는 데이터를 제공할 수 있다.

본 실시예는 검색 엔진 사용 정보로부터 계산된 사용자 액세스 비율과 머문 시간 및 본 문서 중 적어도 하나에 기초하여 대응 링크들을, 선택된 키워드들에 대해, 순위화하는 더 단계를 포함할 수 있다. 본 방법은 특정 키워드에 대해 상위 10개 또는 상위 15개 링크들만 추적하는 것과 같이, 순위화의 소정의 적용에 기초하여 콘텐츠의 수집을 제한하는 단계를 더 포함할 수 있다.

일부 실시예들에서, 검색 엔진 사용 정보는, 특정 사용자가 소홀했을 가능성이 있는 기간들 동안 머문 시간을 차감하기 위해 수신 전에 자격이 부여되었다고 공지된다.

본 실시예는 선택된 링크들 중 하나를 추적함으로써 도달된 문서의 콘텐츠로부터 스니펫들을 선택하는 단계를 더 포함할 수 있다. 이러한 스니펫을 선택하는 단계는 문서에 소정 길이의 윈도우를 적용하는 단계, 문서를 통해 윈도우를 반복적으로 이동(shifting)시키는 단계를 포함할 수 있다. 관심 키워드가 문구인 경우 단어들로 분할된다. 본 방법은, 윈도우 내의 단어들의 근접성의 측정값 및 윈도우 내의 단어들의 인스턴스들의 카운트를 포함하여, 윈도우 내의 단어들에 대한 하나 이상의 윈도우 스코어들을 반복적으로 계산하는 단계를 더 포함한다. 윈도우 스코어를 사용하면, 다수의 중첩되지 않은(non-overlapping) 윈도우 위치들이 스니펫들로서 선택된다. 스니펫들 또는 스니펫들에 대한 참조들이 머신 판독가능한 메모리에 저장된다. 본 방법은 많은 방식들로 개선될 수 있다. 윈도우의 반복되는 이동(shift)은 윈도우를 정렬시켜, 그 시작 또는 끝이 단어 경계와 정합한다. 윈도우가 반복적으로 이동됨에 따라, 윈도우로부터 제거된 문자들에 대한 스코어를 감소시키고 윈도우에 추가된 문자들에 대한 스코어를 증가시킴으로써 윈도우 내의 스코어가 계산될 수 있다.

스니펫 생성은 스니펫들의 길이들을 트레이드 오프(trade off)시키고, 모든 스니펫의 결합된 길이를 대략적으로 유지함으로써 개선될 수 있다. 스니펫들의 길이들이 트레이드 오프됨에 따라, 하나 이상의 윈도우 스코어들이 재계산된다. 본 방법은 재계산된 윈도우 스코어들을 사용하여 스니펫 링크들의 특정 트레이드 오프를 선택하고, 선택적으로 스니펫들을 병합하고, 선택된 스니펫들 또는 선택된 스니펫들에 대한 참조들을 머신 판독가능한 메모리에 저장하는 단계를 더 포함한다.

행동 관찰 모듈들의 네트워크의 관점에서 볼 때, 본 방법은 다수의 사용자의 컴퓨터 상에서 동작하는 다수의 행동 관찰 모듈을 사용하는 단계를 포함하고, 행동 관찰 모듈은 하나 이상의 검색 엔진들에 걸쳐 사용자의 검색 엔진 사용에 관한 정보를 수집한다. 수집된 정보는, 특정 사용자들에 의해 검색 엔진들에 제출된 (문구들을 포함하는) 적어도 키워드들, 검색 엔진들에 의해 반환된 결과들로부터 특정 사용자들에 의해 선택된 링크들, 및 선택된 링크들을 추적하는 경우 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나를 포함한다. 본 방법은 하나 이상의 관련 서버들에 검색 엔진 사용 정보를 전자적으로 보고하는 행동 관찰 모듈들을 더 포함한다. 위와 같이, 본 실시예에서의 다수의 사용자는, 빈번하게 제출된 검색 용어들의 원하는 커버리지에 따라, 2000 또는 100,000 사용자들을 초과할 수 있다. 행동 관찰 모듈들로부터 수신된 정보는 다수의 연관성 없는 검색 엔진들에 걸쳐 있으므로, 단일 검색 엔진이 수집할 수 없는 데이터를 제공할 수 있다.

행동 관찰 모듈들은, 특정 사용자가 소홀했을 가능성이 있는 기간들 동안 머문 시간을 차감하기 위해, 보고하기 전에 검색 엔진 사용 정보에 자격을 부여할 수 있다.

행동 관찰 모듈 실시예는, 특정 사용자가 키워드를 이용하여 검색 엔진을 호출하고 보고된 검색 엔진 정보를 반영하도록 구성된 검색 엔진으로부터의 결과들을 수신하는 것을 더 포함할 수 있다.

시스템 실시예는, 적어도 하나의 리스너(listener) 모듈 및 리스너 모듈과 통신하는 적어도 하나의 컴퓨터 또는 컴퓨터들의 클러스터(cluster)를 포함한다. 리스너 모듈은 네트워크에 의해 액세스된 다수의 사용자의 컴퓨터들 상에서 동작하는 행동 관찰 모듈로부터 수신하는 네트워크 인터페이스, 하나 이상의 검색 엔진들에 결친 사용자의 검색 엔진 사용에 관한 정보를 포함한다. 이 정보는 적어도, 특정 사용자들에 의해 검색 엔진들에 제출된 (문구를 포함하는) 키워드들, 검색 엔진들에 의해 반환된 결과들로부터 특정 사용자들에 의해 선택된 링크들, 및 선택된 링크들을 추적하는 경우 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나를 포함한다. 리스너 모듈과 통신하는 컴퓨터 또는 컴퓨터들의 클러스터는, 검색 엔진 사용 정보를 처리하고 관심 키워드들 및 관심 키워드들에 대응하여 사용자들에 의해 선택된 링크들을 선택하고, 선택된 링크들을 추적하여 선택된 링크들에 의해 다루어지는 문서들의 콘텐츠의 적어도 일부를 수집하고, 대응하는 관심 키워드와 수집된 콘텐츠를 연관시키도록 구성된 로직 및 자원들을 포함하는 하나 이상의 모듈들을 동작시킨다.

본 실시예에서 다수의 사용자는, 빈번하게 제출되는 검색 용어들의 원하는 커버리지에 따라, 2000 또는 100,000 사용자들을 초과할 수 있다. 행동 관찰 모듈들로부터 수신된 정보는, 다수의 연관성 없는 검색 엔진들에 걸쳐 있으므로, 단일 검색 엔진이 수집할 수 없는 데이터를 제공한다.

또 다른 실시예는 검색 요청들에 응답하여 사용자들에게 반환될 수 있는 문서의 콘텐츠로부터 스니펫들을 선택하는 방법이다. 스니펫들을 선택하는 방법은, 문서에 소정 길이의 윈도우를 적용하는 단계, 문서를 통해 윈도우를 반복적으로 이동시키는 단계를 포함한다. 관심 키워드가 문구이면, 단어들로 분할된다. 본 방법은, 윈도우 내의 단어들의 인접성의 측정값 및 윈도우 내의 단어들의 인스턴스들의 카운트를 포함하여, 윈도우 내의 단어들에 대한 하나 이상의 윈도우 스코어들을 반복적으로 계산하는 단계는 더 포함한다. 윈도우 스코어들을 사용하면, 다수의 중첩되지 않은 윈도우 위치들이 스니펫들로서 선택된다. 스니펫들 또는 스니펫들에 참조들은 머신 판독가능한 메모리에 저장된다. 이 방법은 많은 방식으로 개선될 수 있다. 윈도우의 반복적인 이동은 윈도우를 정렬시켜 그 시작 또는 끝이 단어 경계와 정합되게 한다. 윈도우가 반복적으로 이동됨에 따라, 윈도우에서 제거되는 문자들에 대한 스코어를 감소시키고 윈도우에 추가된 문자들에 대한 스코어를 증가시킴으로써 윈도우 내의 스코어가 계산될 수 있다.

스니펫 생성은 스니펫들의 길이들을 트레이드 오프하고, 모든 스니펫의 결합된 길이를 대략적으로 유지함으로써 개선될 수 있다. 스니펫들의 길이들이 트레이드 오프됨에 따라, 하나 이상의 윈도우들이 재계산된다. 본 방법은, 재계산된 윈도우 스코어들을 사용하여 스니펫 링크들의 특정 트레이드 오프를 선택하는 단계, 선택적으로 스니펫들을 병합하는 단계, 선택된 스니펫들 또는 선택된 스니펫들에 대한 참조들을 머신 판독가능한 메모리에 저장하는 단계를 더 포함한다.

스니펫 생성은 중복 제거와 결합될 수 있다. 본 방법은 문서들의 제목들 및 계산된 스니펫들에 기초하여 보다 많은 문서들을 평가하는 단계를 더 포함할 수 있다. 제목들 및 스니펫들로부터 계산된 체크섬들 또는 지문들 또는 제목들과 스니펫들이 정합하거나 매우 유사하면, 문서들은 그의 중복을 선언하고 처리할 수 있다.

스니펫 생성 시, 윈도우 내의 단어들의 인스턴스들의 카운트는 키워드 내의 단어들 중 얼마나 많은 단어들이 윈도우 내에 나타나는지 및 단어들이 윈도우 내에 얼마나 많이 나타나는지 양쪽을 카운트하는 것을 포함한다.

다른 실시예는, 다수의 사용자 컴퓨터 상에서 동작하는 행동 관찰 모듈들로부터, 다수의 검색 엔진에 걸친 사용자 검색 엔진 사용에 관한 정보를 수신하는 단계를 포함하는 순위화 방법이다. 수신된 정보는 적어도, 특정 사용자들에 의해 검색 엔진들에 제출된 (문구들을 포함하는) 키워드, 검색 엔진들에 의해 반환된 결과들로부터 특정 사용자들에 의해 선택된 링크들, 및 선택된 링크들을 추적하는 경우 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나를 포함한다. 이 방법은 검색 엔진 사용 정보로부터, ((12번째) 또는 (본 문서들))중 적어도 하나와 양쪽(사용자 액세스 비율)을 사용하여 특정 캐리 키워드(carry keyword)에 대응하는 순위화 링크들을 더 포함한다. 그 후, 순위들은, 특정 키워드로 투표에서의 검색에 응답하여 이용가능한 머신 판독가능한 메모리에 저장된다.

다양한 사용자 액세스 비율의 가중치들, 머문 시간 및 본 페이지 수가 적용될 수 있다. 가중치가 적용되는 데이터의 일 양태는, 특정 사용자가 소홀했을 가능성이 있는 기간들을 차감하기 위해, 머문 시간이 수신 전에 자격을 부여받았다고 공지된 것일 수 있다. 또 다른 양태는, 검색 엔진 사용의 지엽적인 관측을 제거하도록 데이터가 필터링됨으로써, 소정 횟수보다 적은 특정 사용자들에 의해 선택된 링크들을 삭제할 수 있다는 것이다. 유사하게, 소정의 시간 길이를 초과하는 머문 시간들은 데이터가 수신된 후 차감될 수 있다.

사용자 액세스 비율, 머문 시간 및 본 페이지 수를 고려하면, 하나의 변화는 다른 2개를 지배하는 인자들 중 하나를 가진다. 지배적 인자는 클릭 자격, 머문 시간 또는 그 도메인에서 본 페이지 수일 수 있다. 또 다른 변화는 인자들에 평형 대기(balanced waiting), 대략 ±10%를 제공한다. 다른 변화는 약 2-1-1, ±10%의 대기 비율들을 할당하여, 3개의 인자 중 하나가 결합된 대기의 약 1/2로 주어진다.

링크가 선택된 소정의 시간 내의 리턴 방문 및 변환 이벤트들을 순위화하는데 2개의 추가 인자들이 고려될 수 있다. 전술한 바와 같이, 변환 이벤트들은 구매 또는 등록일 수 있다. 변환 및 반복 변환은 개별적으로 가중치가 주어질 수 있다.

순위화에 있어서, 단일 사용자로부터의 결합된 데이터에는, 검색에 소요된 시간량 또는 추적된 링크들의 수를 반영하는 하나 또는 모든 가중치 중 한 가중치가 주어질 수 있다. 그러나, 단일 사용자에게 정규화된 가중치가 주어지면, 행동에 의한 결과 바이어싱(biasing)은 봇 행동을 단일 투표로 감소시킴으로써 완화된다.

본 실시예의 단계에 있어서 순위화는, 전술한 바와 같이, 링크들을 밴드들 내로 마치 그룹화하는 단계 및 밴드들 내의 선택 링크들을 순위화하는 단계를 더 포함한다. 순위화 단계는 또한 특정 검색 엔진들의 사용자들에 의해 선택된 링크들을 개별적으로 순위화한 후 특정 검색 엔진들로부터의 순위화를 전체 순위화로 결합시키는 단계를 포함한다.

추가 실시예는, 사용자에 의해 검색 엔진에 제출된 키워드 검색 용어들 내의 모호함을 해결하는 방법이다. 이 방법은, 사용자의 컴퓨터 상에서 동작하는 행동 관찰 모듈로부터, 사용자의 최근 내비게이션 행동에 대한 정보를 수신하는 단계를 포함한다. 내비게이션 행동은, 특정한 서버측 행동 데이터 수집 네트워크와 전혀 관련되지 않는 문서들에 액세스하는 단계를 포함하고, 마우스 클릭, 엔터 키 스트로크(enter key stroke) 또는 다른 선택 조작 중 적어도 하나와 선택 조작의 문맥으로부터 유도된 적어도 하나의 키워드를 더 포함한다. 서버는 검색 용어가 그럴듯하게 속하는 다수의 관심 카테고리들을 결정하고 최근 내비게이션 정보를 사용하여 다수의 관심 카테고리들 중에서 선택한다.

행동 관찰 모듈 동작의 일 양태는, 관심 카테고리들 및 최근성에 의해 행동들을 카테고리화할 수 있는 것이다. 액세스된 문서들은 웹 페이지들일 수 있고, 서버측 행동 데이터 수집 네트워크는 광고 네트워크일 수 있다.

행동 관찰 모듈의 이러한 시각으로부터, 본 실시예는 네트워크를 통해 액세스가능한 문서들 사이에서의 사용자의 최근 내비게이션 행동을 반영하는 정보를 검색 요청에 제공하는 방법으로서 구현될 수 있다. 이 방법은 사용자 컴퓨터 상에서 행동 관찰 모듈을 동작시키는 단계, 사용자의 최근 내비게이션 행동에 대한 정보를 수집하는 단계를 포함한다. 최근 내비게이션 행동 정보는, 사용자에 의해 전자적으로 액세스된 문서들을 식별하는 것; 액세스된 문서들을 카테고리화하는 것; 및 카테고리들 내의 문서들이 액세스되었을 때를 나타내는 것을 적어도 포함한다. 행동 관찰 모듈은, 검색 엔진을 포함하는 하나 이상의 서버들에 대한 질의와 함께 최근 내비게이션 행동 정보의 적어도 요약을 제출한다. 사용자는, 제출된 최근 내비게이션 행동 정보에 대응하는 관심 카테고리에 대해 질문함으로써 결과 세트를 검색 엔진으로부터 수신한다. 또는, 사용자는, 제출된 최근 내비게이션 행동 정보에 대응하는 할당 카테고리에 대한 결과 세트를 검색 엔진으로부터 수신한다. 보다 일반적으로, 최근 내비게이션 행동과 구별될 수 있는 임의의 카테고리는 질의에 응답하여 수신된 검색 엔진 결과들의 바이어스에 반영될 수 있다.

또 다른 실시예는, 사용자에 의해 검색 엔진에 제출되는 키워드 검색 용어에 응답하여 콘텐츠를 개인화하는 방법이다. 전술한 명확화에 있어서, 이 방법은 사용자의 컴퓨터 상에서 동작하는 행동 관찰 모듈로부터, 사용자의 최근 내비게이션 행동에 대한 정보를 수신하는 단계를 포함한다. 내비게이션 행동은, 특정 서버측 행동 데이터 수집 네트워크와 전혀 관련되지 않는 문서들에 액세스하는 것을 포함하고, 마우스 클릭, 엔터 키 스트로크 또는 다른 선택 조작 중 적어도 하나 및 선택 조작의 문맥으로부터 유도된 적어도 하나의 키워드를 더 포함한다. 서버는 결과들이 속하는 다수의 가능성있는 할당 카테고리를 결정하고, 최근 내비게이션 정보를 사용하여 가능성있는 할당 카테고리들 사이에서 선택한다.

최근 내비게이션 행동을 사용하는 실시예들에 있어, 내비게이션 행동은, 최종 시간 및 최종일에 한 내비게이션들을 포함하여, 최근 내비게이션을 반영할 수 있다. 또는, 정보에 대한 사용자 응답성에 상관시키도록 결정된 시간 기간 내의 최근 내비게이션을 포함할 수 있다. 정보가 수신된 때 또는 정보가 수신된 후 사용자 내비게이션 정보는 가능성있는 할당 카테고리들인 관심 카테고리로 요약될 수 있다. 보다 일반적으로, 최근 내비게이션 행동과 구별될 수 있는 임의의 카테고리가, 질의에 응답하여 수신된 검색 엔진 결과들의 바이어스에 반영될 수 있다.

실시예들 및 전술한 실시예들의 다양한 양태들은, 설명된 방법들 및 그 방법들의 양태들을 수행하기 위한 명령들 또는 머신 판독가능한 명령들을 포함하는 데이터 스트림을 포함하는 머신 판독가능한 메모리로서 구현될 수 있다. 또한, 장치는 하나 이상의 서버, 퍼스널 컴퓨터들 또는 설명된 방법들 및 그 방법들의 양태들을 구현하도록 구성된 로직 및 자원을 갖는 다른 컴퓨터 장치들을 포함할 수 있다.

Claims

검색 요청들에 응답하여 사용자들에게 리턴될 수 있는 웹 페이지들을 선택적으로 수집하는 방법으로서,

하나 이상의 검색 엔진들에 걸친 상기 사용자의 검색 엔진 사용에 관한 정보로서, 적어도,

특정 사용자들에 의해 상기 검색 엔진들에 제출된 키워드들(문구들(phrases)을 포함),

상기 검색 엔진들에 의해 리턴된 결과들로부터 상기 특정 사용자들에 의해 선택된 링크들, 및

상기 선택된 링크들을 추적할 때 상기 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나

를 포함하는 정보를, 복수의 사용자의 컴퓨터들 상에서 동작하는 행동 관찰 모듈들로부터 수신하는 단계;

상기 검색 엔진 사용 정보를 사용하여, 관심 키워드들, 및 상기 관심 키워드들에 대응하여, 상기 사용자들에 의해 선택된 상기 링크들을 선택하는 단계;

상기 선택된 링크들을 추적하여 상기 선택된 링크들에 의해 어드레스된 문서들의 콘텐츠의 적어도 일부를 수집하는 단계; 및

상기 수집된 콘텐츠를 대응하는 관심 키워드와 연관시키는 단계

를 포함하는 방법.
제1항에 있어서,

상기 복수의 사용자는 2,000 사용자를 초과하고, 수신된 상기 검색 엔진 사용 정보는 복수의 관련되지 않은 검색 엔진들에 걸쳐 있는 방법.
제1항에 있어서,

상기 복수의 사용자는 20,000 사용자를 초과하는 방법.
제2항에 있어서,

상기 선택된 키워드들에 대하여, 상기 검색 엔진 사용 정보로부터 계산된 사용자 액세스 비율들(access rates), 및 상기 머문 시간 또는 상기 본 문서들 중 적어도 하나에 기초하여 상기 대응하는 링크들을 순위화하는 단계를 더 포함하는 방법.
제4항에 있어서,

상기 순위화의 미리 결정된 애플리케이션에 기초하여 콘텐츠의 상기 수집을 제한하는 단계를 더 포함하는 방법.
제1항에 있어서,

특정 사용자가 소홀했을 가능성이 있는 기간들 동안 머문 시간을 차감하기 위해, 상기 검색 엔진 사용 정보는 수신 전에 자격이 부여되었다고 공지되는 방법.
제1항에 있어서,

상기 선택된 링크들 중 하나를 추적함으로써 도달되는 문서의 콘텐츠로부터 스니펫들(snippets)을 선택하는 단계를 더 포함하고,

상기 스니펫 선택 방법은,

상기 문서에 소정 길이의 윈도우를 적용하고, 상기 문서를 통해 상기 윈도우를 반복적으로 이동시키는 단계;

상기 관심 키워드(문구인 경우)를 단어들로 분할하는 단계;

상기 윈도우 내의 상기 단어들에 대한 하나 이상의 윈도우 스코어를 반복적으로 계산하는 단계 - 상기 윈도우 스코어는, 상기 윈도우 내의 상기 단어들의 인스턴스(instance)들의 카운트(count), 및 상기 윈도우 내의 상기 단어들의 인접성(adjacency)의 측정값을 포함함 - ;

상기 윈도우 스코어들을 사용하여 복수의 중첩되지 않은 윈도우 위치들을 스니펫들로서 선택하는 단계; 및

상기 스니펫들 또는 상기 스니펫들에 대한 참조들(references)을 머신 판독가능한 메모리에 저장하는 단계를 포함하는 방법.
제7항에 있어서,

상기 윈도우의 상기 반복된 이동들은 상기 윈도우의 시작 또는 상기 윈도우 의 끝을 단어 경계(word boundary)와 정렬시키는 방법.
제7항에 있어서,

상기 스니펫들의 길이들을 트레이드 오프(trade off)하여, 모든 스니펫들의 결합된 길이를 대체적으로 유지하는 단계;

변화된 길이의 상기 스니펫들에 대한 상기 하나 이상의 윈도우 스코어를 재계산하는 단계;

상기 재계산된 윈도우 스코어들을 사용해서 스니펫 길이들의 특정 트레이드 오프를 선택하여, 상기 스니펫들을 선택적으로 병합하는 단계; 및

상기 선택된 스니펫(들) 또는 상기 선택된 스니펫(들)에 대한 참조들을 머신 판독가능한 메모리에 저장하는 단계를 더 포함하는 방법.
제1항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제1항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제1항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 하나 이상의 서버를 포함하는 장치.
서버들의 관련된 시스템에 데이터를 전송하는 행동 관찰 모듈들의 네트워크를 사용하여 데이터를 생성하는 방법으로서,

복수의 사용자의 컴퓨터 상에서 동작하는 복수의 행동 관찰 모듈을 사용하는 단계를 포함하고,

상기 행동 관찰 모듈들은, 하나 이상의 검색 엔진에 걸쳐 상기 사용자의 검색 엔진 사용에 관한 정보로서, 적어도,

특정 사용자들에 의해 상기 검색 엔진들에 제출된 키워드들(문구들을 포함),

상기 검색 엔진들에 의해 리턴된 결과들로부터 상기 특정 사용자들에 의해 선택된 링크들, 및

상기 선택된 링크들을 추적할 때 상기 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나

를 포함하는 정보를 수집하며,

상기 행동 관찰 모듈들은 상기 검색 엔진 사용 정보를 하나 이상의 관련된 서버들에게 전자적으로 보고하는 방법.
제13항에 있어서,

상기 복수의 행동 관찰 모듈은 2,000 사용자들을 초과하고, 상기 행동 관찰 모듈들은 복수의 관련되지 않은 검색 엔진들에 걸쳐 검색 엔진 사용 정보를 수집하는 방법.
제13항에 있어서,

상기 복수의 행동 관찰 모듈은 20,000 사용자들을 초과하는 방법.
제13항에 있어서,

상기 행동 관찰 모듈들은 특정 사용자가 소홀했을 가능성이 있는 기간들 동안 머문 시간을 차감하기 위해, 보고하기 전에 상기 검색 엔진 사용 정보에 자격을 부여하는 방법.
제13항에 있어서,

특정 사용자가 키워드를 이용하여 검색 엔진을 호출하고, 상기 보고된 검색 엔진 정보를 반영하도록 구성된 상기 검색 엔진으로부터의 결과들을 수신하는 단계를 더 포함하는 방법.
제13항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제13항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제13항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 퍼스널 컴퓨터를 포함하는 장치.
검색 요청들에 응답하여 사용자들에게 리턴될 수 있는 웹 페이지들을 선택적으로 수집하는 컴퓨터-구현된 시스템으로서,

하나 이상의 검색 엔진들에 걸쳐 상기 사용자의 검색 엔진 사용에 관한 정보로서, 적어도,

특정 사용자들에 의해 상기 검색 엔진들에 제출된 키워드들(문구들을 포함),

상기 검색 엔진들에 의해 리턴된 결과들로부터 상기 특정 사용자들에 의해 선택된 링크들, 및

상기 선택된 링크들을 추적할 때 상기 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나

를 포함하는 정보를, 네트워크에 의해 액세스된 복수의 사용자의 컴퓨터들 상에서 동작하는 행동 관찰 모듈들로부터 수신하는 네트워크 인터페이스를 갖는 적어도 하나의 리스너(listener) 모듈; 및

상기 리스너 모듈과 통신하여, 상기 검색 엔진 사용 정보를 처리하고 관심 키워드들 및 상기 관심 키워드들에 대응하여, 상기 사용자들에 의해 선택된 상기 링크들을 선택하며, 상기 선택된 링크들을 추적하여 상기 선택된 링크들에 의해 어드레스된 문서들의 콘텐츠의 적어도 일부를 수집하고, 상기 수집된 콘텐츠를 상기 대응하는 관심 키워드와 연관시키도록 구성된 로직 및 자원들을 포함하는 하나 이상의 모듈을 동작시키는 적어도 하나의 컴퓨터 또는 컴퓨터들의 클러스터(cluster)

를 포함하는 시스템.
제21항에 있어서,

상기 리스너 모듈과 통신하며, 상기 사용자들의 컴퓨터들 상에서 동작하는 적어도 2,000개의 행동 관찰 모듈들을 더 포함하는 시스템.
검색 요청들에 응답하여 사용자들에게 리턴될 수 있는 문서의 콘텐츠로부터 스니펫들을 선택하는 방법으로서,

상기 문서에 소정 길이의 윈도우를 적용하고, 상기 문서를 통해 상기 윈도우를 반복적으로 이동시키는 단계;

관심 키워드(문구)를 단어들로 분할하는 단계;

상기 윈도우 내의 상기 단어들에 대한 하나 이상의 윈도우 스코어를 반복적으로 계산하는 단계 - 상기 윈도우 스코어는, 상기 윈도우 내의 상기 단어들의 인스턴스들의 카운트, 및 (상기 키워드가 문구인 경우) 상기 윈도우 내의 상기 단어들의 인접성의 측정값을 포함함 - ;

상기 윈도우 스코어들을 사용하여 복수의 중첩되지 않은 윈도우 위치들을 스니펫들로서 선택하는 단계; 및

상기 선택된 스니펫(들) 또는 상기 선택된 스니펫들에 대한 참조들을 머신 판독가능한 메모리에 저장하는 단계

를 포함하는 방법.
제23항에 있어서,

상기 윈도우의 상기 반복된 이동들은 상기 윈도우의 시작 또는 상기 윈도우의 끝을 단어 경계와 정렬시키는 방법.
제23항에 있어서,

상기 문서들부터의 상기 스니펫들 및 제목들에 기초하여 2개 이상의 문서들이 정확한 중복인지 또는 중복에 가까운 것인지 여부를 평가하는 단계를 더 포함하는 방법.
제23항에 있어서,

상기 인스턴스의 카운트는, 상기 윈도우 내에 상기 단어들 중 몇 개가 나타나는지 및 상기 윈도우 내에 상기 단어들이 몇 회 나타나는지 양쪽을 카운트하는 것을 포함하는 방법.
제23항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제23항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제23항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 하나 이상의 서 버들을 포함하는 장치.
복수의 검색 엔진들에 걸친 상기 사용자들의 검색 엔진 사용에 관한 정보로서, 적어도,

특정 사용자들에 의해 검색 엔진들에 제출된 키워드들(문구들을 포함),

상기 검색 엔진들에 의해 리턴된 결과들로부터 상기 특정 사용자들에 의해 선택된 링크들, 및

상기 선택된 링크들을 추적할 때 상기 특정 사용자들이 본 문서들 또는 머문 시간 중 적어도 하나

를 포함하는 정보를, 복수의 사용자의 컴퓨터들 상에서 동작하는 행동 관찰 모듈들로부터 수신하는 단계;

상기 검색 엔진 사용 정보로부터, ((상기 머문 시간) 또는 (상기 본 문서)) 중 적어도 하나와 (사용자 액세스 비율) 양쪽을 사용하여, 특정 키워드에 대응하는 링크들을 순위화하는 단계; 및

상기 특정 키워드에 의해 호출된 검색에 응답하여 이용가능한, 상기 순위들을 머신 판독가능한 메모리에 저장하는 단계

를 포함하는 방법.
제30항에 있어서,

상기 검색 엔진 사용 정보는, 특정 사용자가 소홀했을 가능성이 있는 기간들 을 차감하기 위해 수신 전에 자격이 부여되었다고 공지되는 방법.
제30항에 있어서,

상기 순위화 단계는, 소정의 횟수보다 적게 상기 검색 엔진들에 의해 리턴된 상기 특정 사용자들에 의해 선택된 링크들을 제거함으로써, 상기 링크들을 순위화하기 전에 상기 검색 엔진 사용의 지엽적인 관측들을 필터링하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는 소정의 시간 길이를 초과한 머문 시간들을 차감함으로써, 상기 링크들을 순위화하기 전에 상기 검색 엔진 사용의 지엽적인 관측들을 필터링하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는 상기 사용자 액세스 비율들 및 상기 본 문서 정보보다 상기 머문 시간 정보를 우세하도록 가중처리하는 단계를 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는, 상기 머문 시간 및 상기 본 문서 정보보다 상기 사용자 액세스 비율들을 우세하도록 가중처리하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는, 상기 사용자 액세스 비율들 및 상기 머문 시간 정보보다 상기 본 문서 정보를 우세하도록 가중처리하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는, ±10%의 대략 동등한 가중처리를 상기 액세스 비율들, 상기 머문 시간, 및 상기 본 문서 정보에 할당하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는, 대략 2-1-1, ±10%의 가중치 비율들을 할당하여, 결합된 가중치의 대략 절반이 상기 사용자 액세스 비율들, 상기 머문 시간, 상기 본 문서 정보 중 하나에 주어지게 하는 방법.
제30항에 있어서,

상기 수신 단계는, 소정 시간 내에 선택된 링크로의 리턴 방문들(return visits)에 관한 정보를 더 포함하고, 상기 순위화 단계는 상기 리턴 방문 정보를 사용하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 수신 단계는, 상기 선택된 링크들에의 액세스를 구매 또는 등록으로 변환하는 것에 관한 정보를 수신하는 단계를 더 포함하고, 상기 순위화 단계는 상기 변환 정보를 사용하는 단계를 더 포함하는 방법.
제30항에 있어서,

얼마간의 검색 엔진 사용을 갖는 다른 사용자들과 대략 동등한 정규화된 가중치를 특정 사용자에 의한 상기 검색 엔진 사용에 제공하도록 상기 검색 엔진 사용 정보를 가중처리하는 단계를 상기 순위화 단계에 더 포함함으로써, 결과-바이어싱 봇 행동(result-biasing bot behavior)이 완화되는 방법.
제30항에 있어서,

상기 순위화 단계는, 선택된 링크들을 밴드(band)들 내로 그룹화하는 단계 및 상기 밴드들 내의 상기 선택된 링크들을 순위화하는 단계를 더 포함하는 방법.
제30항에 있어서,

상기 순위화 단계는, 상기 링크들을 리턴한 상기 특정 검색 엔진에 의해 선택된 링크들을 개별적으로 순위화한 후, 그 개별적인 순위들을 전체 순위로 결합시키는 단계를 더 포함하는 방법.
제30항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제30항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제30항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 하나 이상의 서버를 포함하는 장치.
사용자에 의해 검색 엔진에 제출된 키워드 검색 용어에서의 모호함을 해결하는 방법으로서,

상기 사용자의 컴퓨터를 동작시키는 행동 관찰 모듈로부터 상기 사용자의 최근 내비게이션 행동에 관한 정보로서,

특정 서버측 행동 데이터 수집 네트워크와 모두 관련되지 않는 문서들에의 액세스를 포함하고,

마우스 클릭(mouse click-through), 엔터 키 스트로크 또는 다른 선택 조작 중 적어도 하나와, 상기 선택 조작의 문맥으로부터 유도된 적어도 하나의 키워드를 더 포함하는 정보를 수신하는 단계;

상기 검색 용어가 그럴듯하게 속하는 복수의 관심 카테고리를 결정하는 단계; 및

상기 최근 내비게이션 정보를 사용하여 상기 복수의 관심 카테고리 중에서 선택하는 단계

를 포함하는 방법.
제47항에 있어서,

상기 최근 내비게이션 행동 정보는 관심 카테고리들에 의해, 그리고 행동의 최근성(recency)에 의해 카테고리화되는 방법.
제47항에 있어서,

상기 문서들은 웹 페이지들이고, 상기 서버측 행동 데이터 수집 네트워크는 광고 네트워크인 방법.
제47항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제47항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제47항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 하나 이상의 서버를 포함하는 장치.
네트워크를 통해 액세스가능한 문서들 중에서의 사용자의 최근 내비게이션 행동을 반영하는 정보로 검색 요청을 보완하는 방법으로서,

상기 사용자의 컴퓨터 상에서 행동 관찰 모듈을 동작시키는 단계;

상기 사용자에 의해 전자적으로 액세스된 문서들을 식별하고, 상기 액세스된 문서들을 카테고리화하고, 상기 카테고리들 내의 문서들이 액세스되었을 때를 지시하는 것을 포함하는 상기 사용자의 최근 내비게이션 행동에 관한 정보를 수집하는 단계;

검색 엔진을 포함하는 하나 이상의 서버에 대한 질의와 함께 상기 최근 내비게이션 행동 정보의 적어도 요약을 제출하는 단계; 및

상기 제출된 최근 내비게이션 행동 정보에 대응하는 관심 카테고리에 바이어스된 결과 세트를 상기 검색 엔진으로부터 수신하는 단계

를 포함하는 방법.
제53항에 있어서,

상기 행동 관찰 모듈이 상기 액세스된 문서들을 필터링하고 상기 카테고리들이 액세스되었을 때의 지시를 카테고리화하는 단계를 더 포함하는 방법.
제53항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제53항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제53항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 퍼스널 컴퓨터를 포함하는 장치.
사용자에 의해 검색 엔진에 제출된 키워드 검색 용어에 응답하여 리턴된 콘텐츠를 개인화하는 방법으로서,

특정 서버측 행동 데이터 수집 네트워크와 모두 관련되지 않은 문서들에의 액세스를 포함하고, 마우스 클릭, 엔터 키 스트로크 또는 다른 선택 조작 중 적어도 하나 및 상기 선택 조작의 문맥으로부터 유도된 적어도 하나의 키워드를 더 포함하는 상기 사용자의 내비게이션 행동들에 관한 정보를, 상기 사용자의 컴퓨터를 동작시키는 행동 관찰 모듈들로부터 수신하는 단계;

상기 검색 용어에 응답하는 문서들이 그럴듯하게 관심이 있을 복수의 가능성있는 할당(budget) 카테고리를 결정하는 단계; 및

상기 내비게이션 정보를 사용하여 상기 복수의 가능성있는 할당 카테고리들 중 적어도 하나를 선택하는 단계

를 포함하는 방법.
제58항에 있어서,

상기 사용자 내비게이션 정보는, 적어도 최종 시간 및 최종일 내의 내비게이션들을 포함하는 최근 내비게이션들을 반영하는 방법.
제58항에 있어서,

상기 사용자 내비게이션 정보는 수신된 때 하나 이상의 가능성있는 할당 카테고리들로 요약되는 방법.
제58항에 있어서,

상기 사용자 내비게이션 정보는 수신된 후 하나 이상의 가능성있는 할당 카테고리들로 요약되는 방법.
제58항에 있어서,

상기 선택된 가능성있는 할당 카테고리 내의 적어도 일부의 결과들의 높은 순위쪽으로 바이어스된 결과들로 사용자에게 응답하는 단계를 더 포함하는 방법.
제58항에 있어서,

상기 선택된 가능성있는 할당 카테고리 내의 응답 문서들을 필터링함으로써 선호하는 결과들을 상기 사용자에 응답하는 단계를 더 포함하는 방법.
제58항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제58항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제58항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 하나 이상의 서버를 포함하는 장치.
네트워크를 통해 액세스가능한 문서들 중에서 사용자의 최근 내비게이션 행동을 반영하는 정보로 검색 요청들을 보완하는 방법으로서,

상기 사용자의 컴퓨터 상에서 행동 관찰 모듈을 동작시키는 단계;

상기 사용자에 의해 전자적으로 액세스된 문서들을 식별하고, 상기 액세스한 문서들을 카테고리화하고, 상기 카테고리들 내의 문서들이 액세스되었을 때를 지시하는 것을 포함하는 상기 사용자의 내비게이션 행동에 관한 정보를 수집하는 단계;

검색 엔진에 대한 정보 요청과 함께 상기 내비게이션 행동 정보의 적어도 요약을 제출하는 단계; 및

상기 제출된 내비게이션 행동 정보에 대응하는 가능성있는 할당에 바이어스된 결과 세트를 상기 검색 엔진으로부터 수신하는 단계

를 포함하는 방법.
제67항에 있어서,

상기 행동 관찰 모듈이 상기 액세스된 문서들을 필터링하고 상기 카테고리들이 액세스된 때의 지시를 카테고리화하는 단계를 더 포함하는 방법.
제67항의 방법을 수행하는 명령들을 포함하는 머신 판독가능한 메모리.
제67항의 방법을 수행하는 머신 판독가능한 명령들을 포함하는 데이터 스트림.
제67항의 방법을 구현하도록 구성된 로직 및 자원들을 갖는 하나 이상의 서버를 포함하는 장치.