KR101311022B1 - 클릭 간격 결정 - Google Patents

클릭 간격 결정 Download PDF

Info

Publication number
KR101311022B1
KR101311022B1 KR1020087007702A KR20087007702A KR101311022B1 KR 101311022 B1 KR101311022 B1 KR 101311022B1 KR 1020087007702 A KR1020087007702 A KR 1020087007702A KR 20087007702 A KR20087007702 A KR 20087007702A KR 101311022 B1 KR101311022 B1 KR 101311022B1
Authority
KR
South Korea
Prior art keywords
document
click interval
target
index
documents
Prior art date
Application number
KR1020087007702A
Other languages
English (en)
Other versions
KR20080049804A (ko
Inventor
미하이 페트리우크
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080049804A publication Critical patent/KR20080049804A/ko
Application granted granted Critical
Publication of KR101311022B1 publication Critical patent/KR101311022B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

클릭 간격 값의 효율적인 결정은 집적된 문서 중 각각의 문서에 대해 국부적으로 저장된 반전 인덱스에 포함된 데이터로부터 생성된다. 클릭 간격은 클릭 수 또는 일 문서에서 또 다른 문서로의 네트워크상의 사용자 이동을 측정한 것이다. 특정 단어는 국부적으로 저장된 반전 인덱스에 포함된다. 특정 단어는 원문 문서를 목표 문서의 집합에 관련된다. 특정 단어들 중의 일부에 포함되어 전달된 질의에 따라 반전 인덱스가 목표 문서들의 대응 집합에 대해 질의된 때에, 클릭 간격이 원문 문서에 할당된다. 프로세스는 집적된 문서의 각 문서들에 대해서 반복된다.
Figure R1020087007702
클릭 간격(click determination), 반전 인덱스, 앵커 텍스트

Description

클릭 간격 결정{CLICK DISTANCE DETERMINATION}
텍스트 문서 검색에서, 통상적으로 사용자는 질의를 검색 엔진에 입력한다. 검색 엔진은 인덱싱된 문서들의 데이터베이스에 대해 질의를 평가하여 질의를 가장 잘 만족시키는 문서들의 평가 리스트를 반환한다. 질의를 만족시킨 정도에 대한 측정치를 나타내는 점수는, 검색엔진에 의해 알고리즘으로 생성된다. 통상적으로 이용되는 점수 알고리즘은 질의를 검색어들로 분리하는 단계와 검색될 텍스트 문서의 본문 내의 개별적인 용어들의 등장에 관한 통계 정보를 이용하는 단계에 기초한다. 문서들은 대응 점수에 따라 평가 순서대로 리스트 되며, 따라서 사용자는 검색 결과 리스트의 첫 줄에서 가장 잘 일치하는 검색 결과를 볼 수 있다.
검색엔진이 결과의 질을 향상시키기 위해 사용할 수 있는 또 다른 평가는 순위 결과를 선택된 평가 기능에 의해 변경하는 것이다. 일 예시적인 평가 기능은 일 페이지가 다른 페이지에 링크되는 경우 다른 페이지에 대해 투표를 효과적으로 하는 것을 결정한다. 페이지에 대해 더 많은 표가 투표될수록, 페이지의 중요도는 더 높아진다. 또한 평가 기능은 누가 투표를 했는지를 고려할 수 있다. 페이지의 중요도가 높을수록, 페이지에 투표된 표의 중요도는 더 높아진다. 표들은 집적되고, 네트워크상의 페이지 평가의 컴포넌트로 사용된다.
평가 기능은 평가의 질을 향상시키기 위해 사용된다. 그러나, 평가 기능의 효율성은 네트워크의 망의 형태에 영향을 받을 수 있다. 예를 들어, 위에서 기술된 투표를 이용한 평가 기능은 인트라넷 환경에서 비효율적일 수 있다. 인트라넷은 인터넷과 동일한 몇몇 프로토콜을 사용하는 네트워크이지만, 회사의 직원 같은 하위 집합의 사용자에 의해서만 접근가능하다. 인트라넷의 페이지는 인터넷과 동일하게 설계되거나 연결되지 않으므로, 평가 기능에 의해 생성되는 결과의 관련성은 인터넷 환경과 비교해서 떨어질 수 있다.
본 발명의 태양은 클릭 간격에 따라 검색 결과를 평가하기 위한 단기간 클릭 간격 결정을 제공하는 기술에 관한 것이다. 이 클릭 간격은 다른 클릭 간격 결정 방법들과 관련해서 비교적 단기간의 기간 내에 결정된다. 클릭 간격은 웹 사이트의 주어진 페이지에 도달하는데 필요한 클릭의 수를 측정하는 질의 독립형 관련성 측정치이다. 보통 네트워크상의 문서들은 루트 노드 및 루트 노드에서 다른 노드로 뻗어가는 후속 가지로 이루어진 트리 구조로 구성된다. 보통 인트라넷의 루트 노드는 홈페이지로 지칭된다.
트리 구조에서, 클릭 간격은 루트 노드로부터 통과한 경로 상의 가지 수에 의해 표현된다. 클릭 간격이 일 페이지에 대해서 결정되면, 클릭 간격은 페이지의 점수에 포함될 수 있다. 클릭 간격을 포함하는 페이지의 점수는 검색 결과 내의 다른 페이지 간의 페이지 순위를 결정한다.
일 태양에 따르면, 네트워크는 네트워크의 링크 및 페이지와 연관된 속성 테이블을 생성하기 위해 우선 "크롤링"된다. 크롤은 다수의 문서(또는 정보에 관한 임의의 유사 구별 단위)를 인덱스로 지칭되는 데이터베이스 내로 자동으로 수집하는 것을 의미한다. 크롤은 특정 문서 내의 문서 참조 링크를 따라가서 발견된 각각의 문서들을 처리함으로써 네트워크상의 복수의 문서들을 통과한다. 인덱스를 생성하기 위해 문서들은 문서의 키워드 또는 일반 텍스트를 식별하는 것에 의해 처리된다.
예시적인 인덱스는 단어 열 및 단어가 발견될 수 있는 문서를 표시하는 열을 포함하는 반전 리스트가 될 수 있다. 사용자가 하나 이상의 검색어들을 입력한 경우, 결과는 획득되고 클릭 간격 기능을 포함하는 평가 알고리즘이 적용된다. 일 페이지에 대해 결정된 클릭 간격에 기초하여, 클릭 간격 기능은 사용자에게 반환되는 특정 페이지의 점수에 긍정적으로 또는 부정적으로 영향을 미쳐 결과를 정제한다.
여기 기술된 클릭 간격 결정은, 검색 결과를 평가하는 평가 엔진과 국부적으로 관련하여 클릭 간격 결정을 생성하는 것에 의해, 클릭 간격을 결정하는데 필요한 시간을 감소시킨다. 원문 문서를 식별하는 특정 단어는 반전 인덱스에 포함되고, 원문 문서 및 원문 문서를 공유하는 목표 문서들의 리스트들 간의 연관성을 생성한다. 반전 인덱스를 통과함으로써, 클릭 간격은 특정 단어 및 특정 단어가 관련된 문서들의 리스트들을 검사하는 것에 의해 결정될 수 있다. 반전 인덱스는 다른 데이터 테이블 또는 문서 자료 그 자체를 반복적으로 또는 고비용으로 참고할 필요 없이 검사된다.
발명의 간단한 설명은 실시예에서 더 후술될 개념들을 발췌하여 간단하게 소개하기 위해 제공된다. 발명의 간단한 설명은 청구 대상의 주요 특징 또는 핵심 특징을 식별하거나 청구 대상의 범위를 결정하는데 도움을 주기 위한 목적이 아니다.
본 발명의 비제한적이며 비한정적인 예시들은 달리 특정되지 않는 한, 도면 부호가 그에 대응하는 구성요소를 다양한 관점에서 나타내는 이하의 도면들을 참고하여 기술된다.
도 1은 일 예시적인 실시예가 사용될 수 있는 예시적인 컴퓨팅 장치를 도시한 도.
도 2는 클릭 간격의 단기간 결정을 위한 기능을 포함할 수 있는 검색 결과를 평가하기 위한 시스템을 도시한 도.
도 3은 예시적인 네트워크 그래프를 도시한 도.
도 4는 예시적인 계층 네트워크 그래프를 도시한 도.
도 5는 문서들을 인덱싱하기 위한 예시적인 시스템의 기능 블록도.
도 6은 인덱스의 예시적인 구조에 관한 기능 블록도.
도 7은 본 발명에 따라 클릭 간격을 결정하기 위한 예시적인 프로세스의 논리 흐름도.
본 발명의 실시예는, 출원서의 일부분을 구성하고 본 발명을 실시하기 위한 특정의 예시적인 실시예를 도시하는 첨부된 도면을 참고하여, 이하에서 더 상세히 기술된다. 그러나 실시예는 수많은 상이한 형태로 구현될 수 있으며, 여기 기술된 실시예에 한정되는 것으로 해석되지 않는다. 그보다는, 이러한 실시예는 개시를 완전하게 하고 당업자에게 본 발명의 범위를 완전하게 전달하기 위해서 제공된다. 본 발명의 실시예는 방법, 시스템 또는 장치로 실시될 수 있다. 따라서, 본 발명의 실시예는 완전 하드웨어 구현, 완전 소프트웨어 구현 또는 소프트웨어 및 하드웨어 특성을 조합한 구현의 형태를 취할 수 있다. 따라서, 이하 기술되는 설명은 한정의 의미로 해석될 수 없다.
본 발명의 다양한 실시예의 논리 동작들은 (1) 컴퓨팅 시스템상에서 실행되는 컴퓨터로 구현된 단계들의 시퀀스 및/또는 (2) 컴퓨팅 시스템 내의 상호연결된 머신 모듈들로 구현된다. 이러한 구현은 본 발명을 구현하는 컴퓨팅 시스템의 수행 요건에 달려있는 선택의 문제이다. 따라서, 여기 기술된 본 발명의 실시예를 구성하는 논리 동작들은 동작들, 단계들 또는 모듈들을 선택적으로 의미한다.
예시적인 운영환경
도 1을 참조하여, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨팅 장치(100) 같은 컴퓨팅 장치를 포함한다. 컴퓨팅 장치(100)는 클라이언트, 서버, 휴대 장치 또는 임의의 컴퓨팅 장치일 수 있다. 가장 기본 구성에서, 일반적으로 컴퓨팅 장치(100)는 적어도 하나의 프로세스 유닛(102) 및 시스템 메모리(104)를 포함한다. 컴퓨팅 시스템의 정밀한 구성 및 유형에 따라, 시스템 메모리(104)는 휘발성(예컨대, RAM), 비휘발성(예컨대, ROM, flash memory 등), 또는 이들의 조합일 수 있다. 일반적으로 시스템 메모리(104)는 운영 시스템(105), 하나 이상의 애플 리케이션(106)을 포함하며, 프로그램 데이터(107)를 포함할 수 있다. 일 실시예에서, 애플리케이션(106)은 본 발명의 기능을 구현하기 위한 클릭 간격 결정 애플리케이션(120)을 포함한다. 도 1에서 점선(108) 내의 컴포넌트들은 기본 구성을 도시한다.
컴퓨팅 장치(100)는 부가적인 특징 또는 기능을 가질 수 있다. 예를 들어, 컴퓨팅 장치(100)는 자기 디스크, 광학 디스크, 또는 테이프와 같은 부가적인 데이터 저장 장치(이동가능 및/또는 비이동식)도 포함할 수 있다. 도 1에서 이동식 저장 장치(109) 및 비이동식 저장 장치(110)는 이 같은 부가적인 저장 장치를 도시한다. 컴퓨터 저장 매체는, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터 같은 정보를 저장하기 위해 임의의 방법 또는 기술에 의해 구현된, 휘발성 매체 및 비휘발성 매체, 이동식 매체 및 비이동식 매체를 포함할 수 있다. 시스템 메모리(104), 이동식 저장 장치(109), 그리고 비이동식 저장 장치(110)는 전부 컴퓨터 저장 매체의 예이다. 컴퓨터 저장 매체는, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD(digital versatile disks) 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는데 이용될 수 있고 컴퓨팅 장치(100)에 의해 접근가능한 다른 매체를 포함하지만 이에 한정되지 않는다. 이 같은 임의의 컴퓨터 저장 매체는 장치(100)의 일부분일 수 있다. 또한, 컴퓨팅 장치(100)는 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등과 같은 입력 장치(들)(112)를 포함할 수 있다. 또한, 디스플레이, 스피커, 프린터 등과 같은 출력 장치(들)(114)가 포함될 수 있다.
또한, 컴퓨팅 장치(100)는 예컨대 네트워크상에서 상기 장치가 다른 컴퓨팅 장치(118)와 통신하는데 이용되는 통신 연결(116)을 포함한다. 통신 연결(116)은 통신 매체의 예시이다. 통상적으로, 캐리어 웨이브(carrier wave) 또는 다른 송신 메커니즘 같은 통신 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 변조된 데이터 신호 내의 다른 데이터에 의해 구현될 수 있으며, 임의의 정보 송신 매체를 포함한다. "변조된 데이터 신호"는 하나 이상의 특징 집합을 가지거나, 신호 내에서 정보를 암호화하는 방식으로 변경된 신호를 의미한다. 한정이 아닌 예시로서, 통신 매체는 유선 네트워크 또는 직접 유선 연결 같은 유선 매체와 음파, RF, 적외선 및 다른 무선 매체 같은 무선 매체를 포함한다. 여기서 사용된 컴퓨터 판독가능 매체라는 용어는 저장 매체와 통신 매체를 모두 포함한다.
단기간 클릭 간격 결정을 위한 예시적인 실시예
컴퓨팅 장치(100)를 포함하는 시스템에 의해 실행되는 실시예는 네트워크상에 포함된 특정 문서에 대한 클릭 간격을 결정하기 위해 제공된다. 그런 후, 여기 기술된 바와 같이, 결정된 클릭 간격은 검색 엔진에 의해 생성된 검색 결과의 평가를 정제하기 위해 사용될 수 있다.
여기 기술된 개시 및 청구항이 다양한 대체 실시예를 포함하도록 하는 포괄적 의미를 제외하고는, 개시 및 청구항에 사용된 이하의 용어들은 이하의 의미로 일반적으로 정의된다.
일반적으로 "앵커 텍스트"는 이동을 목표 문서로 연결하는 원문 문서에 포함된 링크와 연관된 텍스트로 정의된다. 검색 질의의 관점에서, 원문 문서에 포함된 앵커 텍스트는 목표 문서의 평가를 향상시킨다. 예를 들어, 질의가 몇몇 앵커 텍스트의 단어와 일치하는 경우, 앵커 텍스트의 목표 문서의 연관성 순위가 상승한다.
일반적으로 "클릭 간격"은 두 문서들(예컨대, 문서 1 및 문서 2) 간을 이동하는데 필요한 클릭들 또는 링크들의 최소 수를 의미한다. 문서 1이 높은 단계의 신빙성을 가진("신뢰성") 웹 페이지로 일반적으로 인식되는 경우, 문서 2의 신뢰성은 두 문서 간의 클릭 간격이 적은 경우 올라간다. 페이지의 신빙성(신뢰성)의 단계는 검색 엔진의 평가 알고리즘에서 사용될 수 있는 질의 독립형 관련성 측정치이다.
일반적으로 "문서"는, 네트워크 문서, 파일, 폴더, 웹 페이지 및 다른 리소스 같이, 검색 질의의 결과 또는 네트워크의 크롤의 결과로 반환될 수 있는 임의의 가능한 리소스를 의미한다.
클릭 간격 결정이 검색 엔진을 위한 평가 기능을 정제하기 위해 사용될 수 있도록, 일반적으로 본 발명의 실시예는 클릭 간격 결정을 생성하는 기술에 관한 것이다. 통상적으로 검색 엔진의 질은 평가 기능에 의해 할당되는 순위를 따르는 문서들의 관련성에 의해 결정된다. 평가 기능은 복수의 특성들에 기초할 수 있다. 이러한 특성들 중 몇몇은 질의에 의존할 수 있는 반면, 다른 특성들은 질의 독립형으로 여겨질 수 있다. 클릭 간격은 홈페이지 또는 신뢰할 만한 URL로부터 주어진 페이지에 대한 질의 독립형 관련성 측정치이다. 웹 그래프(도 3 및 도 4 참조) 상 에서, 클릭 간격은 신뢰성 있는 페이지 및 주어진 페이지 간의 최단 경로를 나타낼 수 있다. 이전 실시예에서, 알고리즘은 폭 1의 통과를 수행했으며 그래프의 주어진 노드에서 다른 모든 노드들 간의 간격을 연산했다. 통과가 완성되기까지 N 회 반복이 필요했으며, N은 그래프의 지름(최단 간격의 최대값)이다. 변수 N은 그래프 상의 노드의 총 개수보다 작을 수 있다.
도 2는 본 발명에 따라 클릭 간격의 단기간 결정을 위한 기능을 포함할 수 있는 검색 결과를 평가하기 위한 시스템을 도시한다. 검색 엔진(200)은 복수의 질의어들을 포함하는 질의를 수신한다. 질의어가 구(phrase)인 경우 각 질의어는 복수의 컴포넌트어들을 포함할 수 있다(예를 들어, "문서 관리 시스템"은 단수의 질의어로 여겨질 수 있다). 추가하여, 질의는 종래의 검색 엔진에 의해 일반적으로 지원되는 불 연산자(Boolean operator), 제약(constraint) 등과 같은 하나 이상의 연산자를 포함할 수 있다.
분산 네트워크상의 복수의 문서들(210, 212, 214, 216)은 검색에 이용될 수 있다. 실제 과정에서, 검색엔진은 소정의 문서 및 통상적으로 다수의 문서(예를 들어 백만 개)를 포함하는 집합을 검색할 수 있다. 인터넷 환경에서 인트라넷 환경으로 갈수록 문서의 분량이 줄어들지만, 십억에서 백만으로 감소하므로 문서의 상대적 수는 여전히 크다. (도시되지 않은) 인덱싱 모듈은 각각의 문서에 대한 개별적인 문서 통계(예를 들어 218, 220, 222, 224)를 생성한다. 문서 통계는 인덱스(226)에 저장된다.
검색 엔진(200)은 질의 및 대응하는 문서 통계에 기초하여 각각의 문서에 대 한 검색 점수(228)를 결정하기 위해 인덱스(226)를 참고한다. 본 발명에서, 포함된 문서 통계 중 일부는 문서의 클릭 간격이다. 또 다른 실시예에서, 또 다른 포함된 문서 통계는 문서와 연관된 URL 거리이다. 그런 후, 클릭 간격 및 URL 거리는 문서의 최종 점수를 만들기 위해 질의 의존형 통계와 결합한다. 그런 후, 검색 알고리즘에 의해 질의와 가장 관련 있는 것으로 여겨지는 문서 리스트를 사용자에게 제공하기 위해서, 문서 점수(228)는 통상적으로 내림차순으로 순위가 매겨진다.
도시된 시스템에서, 검색 엔진(200)은 문서의 검색 점수를 결정하는데 있어서 문서의 클릭 간격을 고려하는 클릭 간격 평가 검색 엔진을 나타낸다. 일 실시예에서, 홈페이지로부터의 클릭 간격은 페이지의 중요도의 측정치이며, 신뢰성 있는 페이지로의 계층에 더 가까이에 있는 페이지들은 계층이 더 낮은 페이지들보다 더 중요도가 높다. 그러나, 반대의 경우가 유효한 다른 시나리오가 존재할 수 있으며, 이 시나리오에서 계층이 낮은 문서는 계층이 높은 페이지들보다 더 중요하게 여겨진다. 질의에 따르기보다는 문서의 전반적인 중요도를 평가하기 때문에, 클릭 간격은 질의 독립형 관련성 측정치로 여겨진다(예를 들어, 질의 의존형 평가 기능은 검색어가 문서에 등장한 횟수를 세는 것이다).
도 3은 본 발명에 따르는 예시적인 네트워크 그래프를 도시한다. 네트워크 그래프는 노드(예컨대, 310) 및 엣지(edge) 또는 링크(예컨대, 320)를 포함한다. 노드들(예컨대, 310)은 페이지 및 검색 질의에 대한 결과로 반환될 수 있는 네트워크상의 다른 리소스를 나타낸다. 링크(예컨대, 320)는 페이지 리스트 상의 이동 링크의 사용을 통해 페이지들 중 각각의 페이지를 서로 연결한다. 링크 정보의 집 합은 특정 페이지에 대한 클릭 간격을 연산하는데 이용될 수 있는 각각의 페이지에 대해 수집될 수 있다.
일 실시예에서, 노드(330)는 고신뢰도 페이지 또는 문서 그룹에 대한 네트워크상의 루트 노드를 나타낸다. 네트워크의 잔여 페이지들에 대한 클릭 간격은 노트(330)로부터 연산된다. 예를 들어, 노드(340)는 노드(330)로부터 두 개 "클릭들"의 클릭 간격을 가진다. 상기 기술된 바와 같이, "클릭들"은 고신뢰도 페이지로부터 가장 짧은 경로 상에서 통과한 가지의 수를 의미한다. 노드(330)로부터의 다른 경로들이 노드(340)에 도달하도록 선택될 수 있었지만, 클릭 간격은 가장 짧은 경로와 연관된다.
네트워크 그래프(300)는 특정 순서를 따르지 않는 노드로 도시되며, 이러한 특성은 인터넷과 유사할 수 있다. 순서의 부재로, 페이지를 평가하기 위한 클릭 간격의 적용가능성을 개념화하기는 난해하다. 그러나, 일반적으로 페이지 및 리소스의 네트워크는 이하의 도 4에 도시된 적용 순서에 따른다.
도 4는 본 발명에 따르는 예시적인 계층 네트워크 그래프를 도시한다. 계층 네트워크 그래프(400)는, 노드(예컨대, 410) 및 링크(예컨대, 420)도 포함한다는 점에서, 도 3에 도시된 네트워크 그래프(300)와 유사하다. 그러나 계층 네트워크 그래프(400)는 구조화된 사이트 또는 인트라넷의 고유 계층에 기초한다. 따라서, 계층 네트워크 그래프(400)는 루트 노드로부터 뻗어가는 가지들을 포함하는 트리 구조로 개념화될 수 있다.
계층 네트워크 그래프(400)에 관해, 클릭 간격의 적용가능성 및 연산은 좀 더 이해가능하다. 예를 들어, 노드(330)는 고신뢰도 노드 또는 트리의 루트 노드에 대응한다. 그러므로 노드(340)는 루트 노드로부터의 3 개의 클릭들 또는 사용자 이동을 의미하는 연관된 클릭 간격 3을 갖는다. 다르게 표현하면, 사용자는 노드(330)에서 노드(340)로 이동하기 위해 트리의 3 개의 가지들을 통과하는 것이 필요하므로, 역시 클릭 간격은 3이다.
도 3 및 도 4에 표현된 네트워크 그래프들은 클릭 간격을 연산하기 위해 문서의 인덱싱 중 메모리에서 구조화된 그래프들의 예이다. 인덱싱 중에 그래프를 구조화하는 것에 의해, 클릭 간격이 인덱스에 저장된 문서 통계들 중에 포함될 수 있고 페이지를 평가하기 위해 사용될 수 있다.
도 5는 본 발명에 따라 문서들을 인덱싱하기 위한 예시적인 시스템의 기능 블록도를 도시한다. 시스템(500)은 인덱스(510), 파이프라인(520), 문서 인터페이스(530), 클라이언트 인터페이스(540), 앵커 텍스트 플러그인(550), 인덱싱 플러그인(560) 및 앵커 텍스트 테이블(570)을 포함한다.
인덱스(510)는 구조화되어 주 파티션을 포함하는 개별 인덱스 파티션 및 앵커 텍스트를 위한 또 다른 파티션을 포함한다. 또 다른 실시예에서, 개별 앵커 텍스트 인덱스는 인덱스(510)에 의해 표현된 반전 인덱스에 부가하여 제공된다. 인덱스(510)의 자세한 설명은 도 6의 설명에서 이하 제공된다. 인덱스의 레코드는 클라이언트 질의에 대한 결과를 제공하는데 이용된다. 일 실시예에서, 인덱스(510)는 인덱스 레코드에 대해 저장장치를 집합적으로 제공하는 복수 데이터베이스에 대응한다.
파이프라인(520)은 인덱싱을 위해 문서 또는 문서의 레코드를 획득하기 위한 수집 메커니즘을 예시적으로 표현한다. 파이프라인(520)은 데이터에 대응하는 레코드가 인덱스(510)에 입력되기 전에 다양한 플러그인들(예컨대, 앵커 텍스트 플러그인(550))에 의한 데이터의 필터링을 허용한다.
문서 인터페이스(530)는 복수의 데이터베이스들 및 네트워크 위치들을 검색하기 위해 프로토콜, 네트워크 액세스 포인트 및 데이터베이스 액세스 포인트를 제공한다. 예를 들어, 문서 인터페이스(530)는 로컬 서버의 데이터베이스에 액세스를 제공할 수 있고 현재의 컴퓨팅 장치의 데이터베이스에도 액세스를 제공할 수 있으며, 인터넷에 액세스를 제공할 수 있다. 다른 실시예는 본 발명의 사상 또는 범위에서 벗어나지 않고 다양한 프로토콜을 사용하여 다른 문서 위치에 액세싱할 수 있다.
클라이언트 인터페이스(540)는 검색을 정의하고 개시하기 위해 클라이언트에 의한 액세스를 제공한다. 검색은 키워드, 인덱스 키 및/또는 "스코프 키"에 따라 정의될 수 있다. 스코프 키는 검색 질의의 범위를 더 좁히기 위해 사용되는 단어를 의미한다. 스코프 키는 특정 파일 형식과 관련될 수 있다. 스코프 키를 검색어로 이용한 검색은 검색 결과의 범위를 파일 형식에 대응하는 문서로 제한한다. 파일 형식 같은 속성, 임의의 데이터베이스 또는 URL 같은 위치에 따라, 또는 검색될 문서의 수를 줄이는 다른 기준으로, 검색의 범위는 스코프 키로 좁혀질 수 있다.
앵커 텍스트 플러그인(550)은 다수의 수집 파이프라인 플러그인들 중 하나이다. 앵커 텍스트 플러그인(550)은 앵커 텍스트 및 문서에 포함되는 관련 속성을 식별한다. 문서 인터페이스(530)를 통과하여 제공된 문서들이 크롤링되기 때문에, 앵커 속성들은 앵커 텍스트 플러그인(550)에 의해 수집된다. 일 실시예에서, 실제로 앵커 텍스트 플러그인(550)의 기능은 개별 플러그인으로 제공되기보다는 속성 플러그인에 포함된다. 속성 플러그인은 문서의 모든 필드 및 앵커 속성을 포함하는 연관된 속성을 식별한다. 일 실시예에서, 앵커 텍스트가 목표 문서에 연관되어 있기 때문에, 목표 문서를 앵커 텍스트에 연관시키는 것은 크롤이 완성될 때까지 연기된다. 예를 들어, 문서 A가 인덱싱되고, 문서 A가 문서 B를 가리키는 앵커 텍스트를 포함하는 경우, 앵커 텍스트는 문서 B에 적용된다. 그러나, 문서 A가 그 시점에 인덱싱되고 있기 때문에, 이 프로세스는 연기된다. 또한, 문서 B가 정확하게 인덱싱되기 전에 발견될 필요가 있는, 문서 B에 적용될 복수의 앵커들이 있을 수 있다. 크롤이 완성된 후 목표 문서를 인덱싱하는 것은 인덱싱된 결과의 정확도를 향상시키지만, 이것이 사용가능한 유일한 방법은 아니다.
인덱싱 플러그인(560)은 파이프라인(520)에 연결된 또 다른 플러그인이다. 인덱싱 플러그인은 인덱스(510)를 생성, 파티셔닝 및 갱신하기 위한 메커니즘을 제공한다. 일 실시예에서, 인덱싱 플러그인(560)은 결과를 인덱스(510)에 보내기 전에 크롤링된 문서로부터 생성된 키워드들 및 앵커 텍스트 키들을 일시적으로 캐싱(cache)한 단어 리스트를 제공한다. 인덱스(510)의 레코드는 단어 리스트에 포함된 크롤 결과로부터 생성된다.
앵커 텍스트 테이블(570)은 앵커 텍스트 플러그인(550)에 의해 수집되었던 앵커 속성을 포함한다. 문서 내의 앵커 텍스트의 예로, 앵커 텍스트 테이블(570)은 앵커 텍스트의 레코드 및 앵커 텍스트와 연관된 속성을 포함한다. 도시된 예시에서, 앵커 텍스트 테이블(570)의 레코드는 개별 필드 내의 현재 문서를 식별하는 원문 ID(572), 링크의 목표 문서를 식별하는 목표 ID(574), 앵커 텍스트 엔트리(576) 및 링크(578)를 포함할 수 있다. 일 실시예에서, 다른 필드가 앵커 텍스트 테이블(570)에 포함될 수 있다.
단기간 클릭 간격 결정을 구현하기 위해, 특정 단어(예컨대, 580) 또는 스코프 키가 앵커 텍스트 엔트리(576)의 앵커 텍스트로 부가된다. 특정 단어(예컨대, 580)는 앵커 텍스트 테이블(570)의 레코드에 포함된 목표 문서에 대한 원문 문서의 지시를 제공한다. 앵커 텍스트 테이블(570)의 제1 레코드를 검사하면, 특정 단어는 앵커 텍스트의 원문이 문서 A라는 것을 지시하는 "문서 A"이다. 일 실시예에서, 각각의 문서는 문서 ID에 의해 식별된다. 그러므로 특정 단어는 목표 문서를 원문 문서에 연관시키는 앵커 텍스트 인덱스에 추가되도록 고유 단어를 제공하는 다양한 문서 ID의 변형이다.
앵커 텍스트 테이블(570)에 추가된 속성과 더불어, 크롤로부터 수집된 앵커 및 링크 속성은 문서에 대응하는 노드 및 링크에 대응하는 가지(도 4 참조)를 포함하는 네트워크 또는 앵커 그래프의 표현을 생성하는데 사용될 수 있다. 그런 후, 앵커 그래프는 메모리에 로딩될 수 있으며 단기간 클릭 간격 결정을 리졸빙하는데 이용할 수 있다.
기능 블록들 간의 일방향 및 쌍방향 통신의 시스템(500)의 도시에 불구하고, 임의의 통신 형식은 본 발명의 사상 또는 범위에서 벗어나지 않고 또 다른 형식으로 변경될 수 있다(예를 들어, 모든 통신은 일방향 통신보다 쌍방향을 필요로 하는 응답 메시지를 포함할 수 있다).
도 6은 본 발명에 따르는 인덱스의 예시적인 구조를 위한 기능 블록도를 도시한다. 인덱스(600)는 주 인덱스(610) 및 앵커 텍스트 인덱스(620)를 포함한다. 일 실시예에서, 검색 엔진 질의 프로세스와 연관된 다른 데이터 구조에 대해서 인덱스(600)는 국부적으로 저장되는 것으로 여겨진다. 본 실시예에서, 문서 자료는 네트워크상에 존재하며, 데이터 수집 모듈, 플러그인(도 5 참조) 및 플러그인 데이터 구조는 서버상에 존재하며, 오직 인덱스(600)만 로컬 저장 장치 위치에 존재한다. 이로 인해 인덱스(600)에 대한 질의는 자료 또는 다른 데이터 구조에 대한 질의보다 훨씬 더 효과적이 된다.
주 인덱스(610)는 키워드에 대응하는 레코드와 문서의 크롤에 대응해서 반환된 다른 인덱스 키를 포함한다. 또한 주 인덱스(610)는 문서의 다른 속성과 관련된 다른 인덱스 파티션을 포함한다. 앵커 텍스트에 대응하는 속성에 대한 레코드는 전환되어 앵커 텍스트 인덱스(620)로 입력된다.
일반적으로, 앵커 텍스트 인덱스(620)는 네트워크상의 문서에 포함된 앵커 텍스트의 목표 문서에 대응하는 레코드를 포함한다. 목표 문서와 연관된 URL 또는 앵커 텍스트에 포함된 단어와 연관해서 리스팅된 목표 문서 ID에 의해, 목표 문서는 반전 인덱스로 구성된다. 앵커 텍스트 인덱스(620)는 크롤이 완성된 후 앵커 텍스트 테이블로부터 생성된다. 목표 문서를 용어에 대해 각각 평가하고 앵커 텍스트 인덱스(620)에 입력하기 위해, 각 목표 문서에 대응하는 앵커 텍스트가 서로 연결된다. 앵커 텍스트를 위한 개별 인덱스 파티션을 포함하는 것에 의해, 앵커 텍스트를 문서의 점수 기능들 중 일 요소로 포함하기 전에, 관련성 연산은 앵커 텍스트에 기초하여 이루어진다. 문서를 평가하기 위한 점수 기능에 앵커 텍스트를 포함하는 것은 이하의 도 6의 설명에서 더 자세히 기술된다.
앵커 텍스트 인덱스(620)에 포함된 부가된 특정 단어와 더불어, 단기간 클릭 간격 결정을 위해, 앵커 텍스트 인덱스(620)의 레코드는 특정 단어에 대응하는 레코드를 또한 포함할 수 있다. 도 5에서 도시된 예시적인 앵커 텍스트 테이블(570)에 의해, 이하의 레코드는 앵커 텍스트 인덱스(620)에 포함될 수 있다.
Figure 112008022829128-pct00001
본 예시는 원문 문서를 목표 문서와 링크하는데 이용되는 앵커 텍스트 "단어"에 대해 목표 ID가 리스팅되는 방식 및 목표 ID가 특정 단어에 제공되는 방식을 보여준다. 특정 단어 리스트는 원문 문서를 앵커 텍스트 인덱스(620) 자체 내의 목표 문서에 연관시킨다. 연관성은 앵커 텍스트 인덱스(620) 내에서 성립되기 때문에, 앵커 텍스트 테이블은 각 문서의 클릭 간격을 결정하기 위해 반복적으로 액세싱 될 필요가 없다. 그 대신에, 클릭 간격을 보다 단기간에 결정하기 위해 폭 1의 통과가 앵커 텍스트 인덱스(620) 상에서 수행될 수 있다. 인덱스의 각각의 문서에 대한 클릭 간격을 결정하기 위한 예시적인 프로세스가 도 7과 관련해서 이하에서 더 자세히 기술된다. 일 예시에서, 클릭 간격을 결정하는 이전의 구현은 여기 명료하게 기술된 실시예의 속도 및 효율성의 증가시키기 위해 완성까지 5시간이 걸린다. 본 실시예에 의해 동일한 결정이 약 30초 걸린다. 속도 및 효율성에 있어서의 극적인 향상에 의해 클릭 간격은 검색 엔진 질의에 대한 결과를 평가하는데 있어서 매우 유용한 요소가 될 수 있다.
도 7은 본 발명에 따라 클릭 간격(CD)을 결정하기 위한 예시적인 프로세스의 논리 흐름도이다. 프로세스(700)는 분산 네트워크상의 문서들이 인덱싱되었고 앵커 그래프의 생성이 개시되었던 블록(702)에서 시작한다. 앵커 그래프를 생성하는 프로세스는 앵커 크롤로 지칭된다. 일 실시예에서, 앵커 크롤은, 링크 및 앵커 텍스트 정보가 도 5에 기술된 바와 같이 앵커 텍스트 테이블에 위치하고 수집되는 프로세스에 의해 수집된 데이터를 크롤링한다. 프로세스는 블록(704)으로 이어진다.
블록(704)에서, 초기 앵커 그래프는 메모리로 로딩된다. 완성된 앵커 그래프는 네트워크로부터 수집된 링크 정보 및 문서 식별(예컨대, 문서 ID)의 구조적인 표현에 대응한다. 앵커 그래프에 대응할 수 있는 네트워크 그래프의 예는 도 3 및 도 4에 나타난다. 앵커 그래프는 네트워크의 문서들에 대응하는 노드 및 문서 간의 앵커 또는 링크에 대응하는 엣지에 대응한다. 프로세스는 블록(706)으로 이어진다.
블록(706)에서, 초기 앵커 그래프의 부모 노드에 대한 클릭 간격(CD) 값 또한 초기화된다. 부모 또는 고신뢰도 노드는 할당된 노드로 지칭된다. 이러한 노 드에는 클릭 간격 값이 0으로 할당된다. 단일 앵커 그래프에 대해 하나 이상의 고신뢰도 노드를 지시할 수 있다. 예를 들어, 관리자는 수동으로 백 개의 노드들의 집합을 평가할 수 있고, 모든 노드들에 고신뢰도 노드를 지시할 수 있다. 추가하여, 고신뢰도 노드는 클릭 간격 값으로 0을 가질 필요가 없고 관리자에 의해 임의의 값이 할당될 수 있다. 고신뢰도 노드의 클릭 값을 변경하는 것은 잔여 알고리즘을 변경하지 않고, 단지 노드의 중요도를 수동으로 지시하기 위한 일 방법을 제공할 뿐이다. 예를 들어, 관리자는 몇몇 노드들의 클릭 간격 점수를 높일 수 있다. 다른 경우에, 관리자는 (클릭 간격을 알고리즘에 의해 연산된 수보다 더 높도록 디폴트로 강제함으로써) 클릭 간격 점수를 낮출 수 있다. 각각의 할당되지 않은 노드들에 대한 클릭 간격은 최대값으로 초기화된다. 일 실시예에서, 최대값은 클릭 간격 값을 무한대로 기본 설정한다. 무한 값을 노드에 할당함으로써 클릭 간격이 연산되지 않는 노드를 인식가능하게 하는 것을 용이하게 할 수 있다. 할당된 노드에 대한 클릭 간격 값의 초기화가 완성되면, 프로세스는 블록(708)으로 이동한다.
블록(708)에서, 최대값을 제외한 연관된 클릭 간격을 가진 노드들이 대기열로 삽입된다. 일 실시예에서, 이러한 단계는 제1 반복에서만 발생한다. 클릭 간격 값이 최대값을 제외한 0과 임의의 값으로 설정되기 때문에, 대기열에 삽입된 노드들은 고신뢰도 노드들에 대응한다. 최대값을 제외한 클릭 간격 값을 가진 노드들이 대기열에 추가되면, 프로세스는 결정 블록(710)으로 이어진다.
결정 블록(710)에서, 대기열이 비어있는지에 대한 결정이 이루어진다. 공 대기열은 목표 노드의 클릭 간격이 연산될 필요가 있는 노드가 없다는 것을 의미한다. 대기열이 비어있는 경우, 프로세스는 프로세스(700)가 종료하는 블록(712)으로 이동한다. 그러나, 대기열이 비어있지 않은 경우, 프로세스는 블록(714)으로 이어진다.
블록(714)에서, 노드는 대기열로부터 검색되고, 앵커에 대한 목표 노드인 노드들의 집합을 결정한다. 여기서 기술된 실시예에 의해, 결정이 효율적이고 단기간에 이루어진다. 반복 질의를 앵커 텍스트 테이블에 행하는 대신에, 단순 질의가 앵커 텍스트 인덱스에 제공될 수 있다. 앵커 인덱스는 특정 형식의 질의를 매우 효율적으로 리졸빙한다. 이러한 형식의 질의는 단어 X가 1개의 단어를 나타내는 "연관된 앵커 텍스트가 단어 X를 포함하는 모든 문서를 반환할 것"을 요청하는 질의로 기술될 수 있다. 클릭 간격 결정을 위해서, 동일한 형식의 질의가 실행된다. 그러나, 앵커 텍스트 인덱스에 대한 클릭 간격 질의에서, 관련된 단어는 앵커 텍스트에 부가되었던 특정 단어이다. 특정 단어는 앵커 텍스트에 대한 원문 문서에 대응한다. 앵커 텍스트 인덱스에서, 각각의 특정 단어는 특정 단어와 연관된 목표 문서의 리스트를 포함한다. 예를 들어, 도 6의 설명에서 상기 기술된 예와 관련해서, "연관된 앵커 텍스트가 문서 A를 포함하는 모든 문서를 반환할 것"을 요청하는 질의는 원문 문서 A의 목표 문서를 나타내는 목표 ID들, B, C 및 D의 리스트를 반환한다. 또한, 국부적으로 저장된 앵커 텍스트 인덱스를 이용하는 것은 클릭 간격의 보다 효율적인 결정을 허용한다. 앵커 텍스트가 국부적으로 저장되기 때문에, 네트워크를 걸쳐 통신하기 위한 통신 프로세스는 필요하지 않다. 더 나아가, 프로세스는 반복적이지 않다. 앵커 텍스트 테이블에 의해 제공되는 구조를 다루는 것과 달리, 앵커 텍스트 인덱스에 대한 질의는 대기열로부터 검색된 노드와 연관된 모든 목표 노드들(예컨대 목표 문서들)을 반환하기 위해 오직 한 번 필요하다. 이러한 노드가 검색되고 목표 노드가 결정되면, 프로세스는 블록(716)으로 이동한다.
블록(716)에서, 후속 목표 노드는 인출된다. 후속 목표 노드는 출처 문서에 의해 링크된 문서들 중 다음 문서를 의미한다. 후속 목표 노드가 인출되면, 프로세스는 블록(718)으로 이어진다.
결정 블록(718)에서, 목표 노드와 연관된 클릭 간격이 현재 페이지의 클릭 간격에 1을 더한 값(CD+1)보다 큰 지에 대한 결정이 이루어진다. 일 실시예에서, (고신뢰도 노드는 0으로 설정되고 관리자는 클릭 간격을 수동으로 설정하지 않았다고 가정할 때) 블록(718)의 조건이 만족하는 유일한 경우는 목표 노드가 무한 값의 클릭 간격을 가지는 경우이다. 예를 들어, 현재 클릭 간격이 1인 경우, CD에 1을 더한 값은 2이다. 2인 클릭 값은 무한 값보다 작고, 조건을 만족시킨다. 이전 예를 사용하면, 목표 노드의 클릭 간격은 1인 경우, 현재 클릭 간격 또한 1이며, 따라서 목표 클릭 간격은 CD에 1을 더한 2보다 크지 않다. 본 예에서, 목표 노드로의 더 짧은 경로는 이미 기록되었므로, 갱신될 필요가 없다. 따라서, 목표 클릭 간격이 현재 클릭 간격에 1을 더한 값보다 크지 않은 경우, 프로세스는 결정 블록(722)으로 나아간다. 그러나, 목표 클릭 간격이 현재 클릭 간격에 1을 더한 값보다 큰 경우, 프로세스는 블록(720)으로 이동한다.
블록(720)에서, 목표 노드의 클릭 간격 값은 갱신되고, 목표 노드는 목표 노드의 클릭 간격 연산이 이루어져야 할 필요가 있는 노드로서 대기열에 추가된다. 목표 노드는 무한 값을 제거하기 위해 새로운 클릭 간격 값으로 갱신되고, 노드에는 연산된 클릭 간격 값을 설정한다. 일 실시예에서, 노드의 클릭 간격 값은 현재 클릭 간격 값에 1을 더한 값(CD+1)으로 설정된다. 프로세스는 결정 블록(722)으로 이어진다.
결정 블록(722)에서, 모든 목표 노드가 대기열로부터 검색된 현재 노드에 대해 인출되었는지에 대한 결정이 이루어진다. 현재 노드에 대해 인출할 목표 노드가 남겨져 있는 경우, 프로세스는 후속 목표 노드가 인출되는 블록(716)으로 돌아간다. 그러나, 현재 노드에 대응하는 모든 목표 노드가 인출된 경우, 프로세스는 대기열이 현재 비어있는지를 재확인하기 위해 결정 블록(710)으로 돌아간다. 대기열이 다시 비어있는 경우, 프로세스는 프로세스(700)가 종료하는 블록(712)으로 이동한다.
프로세스(700)에서 기술된 동작 블록은 네트워크상의 각각의 문서에 클릭 간격 값을 할당하는데 필요한 만큼 반복될 수 있다. 네트워크상의 모든 노드들이 임의의 다른 노드를 통해 고신뢰도 노드에 연결되지 않을 가능성이 있다. 따라서, 본 발명의 또 다른 실시예에서, 고신뢰도 노드와 전혀 연결되지 않은 노드들은 낮은 중요도를 가진 것으로 가정되며, 앵커 그래프에 대한 평균값보다 낮은 클릭 간격이 할당된다.
여기 기술된 단기간 결정 프로세스에 따라 결정된 각 문서의 클릭 간격에 의해, 클릭 간격은 질의에 대한 응답으로 네트워크상의 문서를 평가한 결과를 정제하 기 위한 임의의 점수 또는 평가 기능에서 이용될 수 있다. 점수 기능이 실행되고 문서에 대한 관련성 점수가 연산된 경우, 점수는 문서에 대한 클릭 간격 값을 부분적으로 즉시 반영한다.
본 발명이 구조적 특징 및/또는 방법론적 단계를 특정하여 언어로 기술되었지만, 첨부된 청구항에 정의된 본 발명은 기술된 특정의 특징 또는 단계에 반드시 한정되지 않는다는 것을 이해할 수 있다. 그보다는, 특정 특징 및 단계는 청구 대상을 구현하기 위한 형태로서 개시된다. 본 발명의 수많은 실시예가 본 발명의 사상 및 범위에서 벗어나지 않고 이루어질 수 있기 때문에, 본 발명은 이후 첨부된 청구항의 범위 내에 있다.

Claims (20)

  1. 네트워크상의 문서들과 연관된 클릭 간격을 결정하기 위한 컴퓨터로 구현된 방법으로서,
    상기 문서들에 대한 문서 및 링크 정보를 저장하는 단계;
    상기 문서 및 링크 정보 내에서, 특정 단어를 목표 문서와 연관해서 추가적으로 저장하는 단계 -상기 특정 단어는 상기 목표 문서와 원문 문서를 연관시키는 고유 단어를 제공하는 상기 원문 문서에 대한 문서 식별자의 변형이며, 상기 목표 문서와 연관된 앵커 텍스트에 부가됨- ;
    상기 특정 단어 및 상기 특정 단어의 모든 목표 식별자를 반전 인덱스(inverted index) -국부적으로 저장된 상기 반전 인덱스는 상기 특정 단어를 상기 목표 문서의 식별자와 관련시킴- 에 포함시키는 단계; 및
    상기 특정 단어 내에 포함되어 전달된 질의에 따라 반전 인덱스가 상기 목표 문서에 대해 질의된 때에 클릭 간격을 상기 원문 문서에 할당하는 단계를 포함하는
    클릭 간격 결정 방법.
  2. 제1항에 있어서,
    상기 반전 인덱스는 앵커 텍스트에 포함된 단어들 및 각각의 상기 단어들과 연관되어 식별되는 문서들의 리스트를 저장하도록 구성된 앵커 텍스트 인덱스에 대응하는
    클릭 간격 결정 방법.
  3. 제1항에 있어서,
    상기 문서 및 링크 정보를 저장하는 단계는 상기 원문 문서에 포함된 앵커 텍스트를 상기 목표 문서와 연관되도록 저장하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  4. 제3항에 있어서,
    앵커 텍스트 테이블에 상기 앵커 텍스트를 포함하는 상기 문서 및 링크 정보를 저장하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  5. 제4항에 있어서,
    목표 노드들 중 하나의 클릭 간격이 현재 노드의 클릭 간격에 변수를 더한 값보다 클 때, 상기 목표 노드들 중 하나의 상기 클릭 간격이 상기 현재 노드의 상기 클릭 간격에 상기 변수를 더한 값으로 설정되는
    클릭 간격 결정 방법.
  6. 제1항에 있어서,
    상기 특정 단어를 저장하는 단계는, 상기 특정 단어를 앵커 텍스트 테이블 내에 저장된 앵커 텍스트에 부가하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  7. 제6항에 있어서,
    앵커 그래프를 구축하는 단계를 더 포함하되, 상기 앵커 그래프는 상기 네트워크상의 문서들을 노드들로서 포함하고, 상기 앵커 텍스트 테이블의 레코드들을 상기 앵커 그래프의 링크들로서 더 포함하는
    클릭 간격 결정 방법.
  8. 제1항에 있어서,
    상기 특정 단어를 상기 반전 인덱스에 포함시키는 단계는, 상기 특정 단어가 부가된 앵커 텍스트가 상기 반전 인덱스에도 삽입될 때, 상기 특정 단어를 상기 반전 인덱스 내로 삽입하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  9. 제1항에 있어서,
    상기 클릭 간격을 상기 원문 문서에 할당하는 단계는, 상기 원문 문서가 앵커 그래프 내의 고신뢰도 노드(high authority node)에 대응할 때, 초기 클릭 간격 값을 상기 원문 문서에 할당하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  10. 제9항에 있어서,
    하나 이상의 고신뢰도 노드가 상기 앵커 그래프에 대해 지시되는
    클릭 간격 결정 방법.
  11. 제9항에 있어서,
    상기 원문 문서가 고신뢰도 노드를 제외한 노드에 대응할 때, 초기 무한 값을 상기 클릭 간격 값으로 할당하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  12. 제11항에 있어서,
    상기 원문 문서에 대응하는 노드가 상기 초기 무한 값을 제외한 클릭 간격 값을 가질 때, 상기 원문 문서를 대기열에 삽입하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  13. 제12항에 있어서,
    상기 반전 인덱스를 질의하기 위해 상기 대기열에서 상기 원문 문서를 검색하는 단계를 더 포함하는
    클릭 간격 결정 방법.
  14. 실행될 경우, 제1항의 상기 컴퓨터로 구현된 방법을 구현하는 명령어들을 저장한 컴퓨터 판독 가능 저장 매체.
  15. 프로세서;
    네트워크상에 저장된 문서들로의 액세스를 제공하도록 구성된 문서 인터페이스;
    목표 문서들의 레코드들과 상기 목표 문서들과 연관된 앵커 텍스트를 포함하며, 상기 네트워크상의 문서들에 대응하는 문서 및 링크 정보를 저장하도록 구성된 앵커 텍스트 테이블;
    상기 앵커 텍스트에 부가된 특정 단어들 -상기 특정 단어들 각각은 원문 문서를 하나 이상의 상기 목표 문서들과 연관시키는 고유 단어를 제공하는 원문 문서의 문서 식별자의 변형이며, 상기 목표 문서들의 각각과 연관됨- ;
    앵커 텍스트에 포함된 단어들 및 상기 단어들의 각각과 연관된 상기 목표 문서들을 리스트하도록 구성된 반전 인덱스 -상기 특정 단어들 또한 각각의 특정 단어와 연관된 상기 목표 문서들에 대한 목표 식별자들과 함께 상기 반전 인덱스에 리스트됨- ; 및
    상기 네트워크상에 저장된 상기 문서에 대응하는 상기 목표 문서들에 대해 상기 반전 인덱스로 질의가 이루어질 때, 상기 네트워크상에 저장된 각각의 문서와 연관된 클릭 간격 값을 증가시킴으로써 상기 네트워크상에 저장된 각각의 문서와 연관된 클릭 간격을 결정하는 검색 엔진을 구현하도록 구성된 클라이언트 인터페이스를 포함하는
    클릭 간격 결정 시스템.
  16. 제15항에 있어서,
    상기 반전 인덱스는 상기 앵커 텍스트에 포함된 단어들 및 상기 단어들의 각각과 연관되어 식별되는 문서들의 리스트를 저장하도록 구성된 앵커 텍스트 인덱스에 대응하는
    클릭 간격 결정 시스템.
  17. 제15항에 있어서,
    상기 반전 인덱스는 상기 네트워크상의 상기 문서들에 비해 국부적으로 저장된
    클릭 간격 결정 시스템.
  18. 제15항에 있어서,
    상기 반전 인덱스는 파티셔닝된 인덱스에 대응하고, 제1파티션은 주 인덱스에 대응하고, 제2파티션은 앵커 텍스트 인덱스에 대응하는
    클릭 간격 결정 시스템.
  19. 실행될 경우, 제15항의 시스템을 구현하는 명령어들을 저장한 컴퓨터 판독 가능 저장 매체.
  20. 클릭 간격을 결정하기 위한 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독 가능 저장 매체로서,
    상기 명령어들은,
    네트워크를 나타내는 네트워크 그래프가 메모리에서 개시되도록, 네트워크상의 문서들에 대한 문서 및 링크 정보를 저장하는 단계;
    상기 문서가 제1 클릭 간격 값과 상이한 클릭 간격 값을 가질 때, 상기 네트워크 그래프에 나타난 각각의 문서를 대기열에 저장하는 단계; 및
    상기 대기열이 비어 있지 않을 때,
    상기 대기열로부터 문서를 검색하는 단계; 및
    앵커 인덱스를 질의하여 상기 검색된 문서와 연관된 목표 문서들을 결정하는 단계 -상기 앵커 인덱스는 부가된 특정 단어(appended specialized words)를 포함하며, 상기 특정 단어들은 상기 목표 문서들을 원문 문서들 및 상기 특정 단어에 대한 모든 목표 식별자들과 연관시키는 고유 단어들을 제공하는 원문 문서들에 대한 문서 식별자들의 변형임-;
    상기 검색된 문서와 연관된 각각의 상기 목표 문서들에 대해 클릭 간격을 할당하는 단계 -각각의 상기 목표 문서의 클릭 간격이 제거된 문서와 연관된 상기 클릭 간격에 변수를 더한 값보다 클 때, 상기 제1 클릭 간격 값을 제외한 새로운 클릭 간격 값으로 각각의 상기 목표 문서를 갱신함-;
    갱신된 각각의 상기 목표 문서들을 상기 대기열에 추가하는 단계를 실행하는
    컴퓨터 판독 가능 저장 매체.
KR1020087007702A 2005-09-29 2006-09-25 클릭 간격 결정 KR101311022B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/238,906 2005-09-29
US11/238,906 US7827181B2 (en) 2004-09-30 2005-09-29 Click distance determination
PCT/US2006/037571 WO2007041120A1 (en) 2005-09-29 2006-09-25 Click distance determination

Publications (2)

Publication Number Publication Date
KR20080049804A KR20080049804A (ko) 2008-06-04
KR101311022B1 true KR101311022B1 (ko) 2013-09-24

Family

ID=37906488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087007702A KR101311022B1 (ko) 2005-09-29 2006-09-25 클릭 간격 결정

Country Status (5)

Country Link
US (1) US7827181B2 (ko)
EP (1) EP1934823B1 (ko)
KR (1) KR101311022B1 (ko)
CN (1) CN101273350B (ko)
WO (1) WO2007041120A1 (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US8126866B1 (en) * 2005-09-30 2012-02-28 Google Inc. Identification of possible scumware sites by a search engine
WO2007105759A1 (ja) * 2006-03-15 2007-09-20 Osaka Industrial Promotion Organization 数式記述構造化言語オブジェクト検索システムおよび検索方法
US20160012131A1 (en) * 2006-06-12 2016-01-14 Zalag Corporation Methods and apparatuses for searching content
US8489574B2 (en) 2006-06-12 2013-07-16 Zalag Corporation Methods and apparatuses for searching content
US9047379B2 (en) 2006-06-12 2015-06-02 Zalag Corporation Methods and apparatuses for searching content
WO2007146951A2 (en) * 2006-06-12 2007-12-21 Zalag Corporation Methods and apparatus for searching content
US8140511B2 (en) * 2006-06-12 2012-03-20 Zalag Corporation Methods and apparatuses for searching content
US7987169B2 (en) 2006-06-12 2011-07-26 Zalag Corporation Methods and apparatuses for searching content
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US7562073B2 (en) * 2006-08-02 2009-07-14 Sap Ag Business object search using multi-join indexes and extended join indexes
US20080033943A1 (en) * 2006-08-07 2008-02-07 Bea Systems, Inc. Distributed index search
US9015197B2 (en) 2006-08-07 2015-04-21 Oracle International Corporation Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system
US9165040B1 (en) 2006-10-12 2015-10-20 Google Inc. Producing a ranking for pages using distances in a web-link graph
US8156112B2 (en) * 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US20110113052A1 (en) * 2007-06-08 2011-05-12 Hoernkvist John Query result iteration for multiple queries
US7720860B2 (en) * 2007-06-08 2010-05-18 Apple Inc. Query result iteration
US9098603B2 (en) * 2007-06-10 2015-08-04 Apple Inc. Index partitioning and scope checking
US7783630B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Tuning of relevancy ranking for federated search
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
US9224149B2 (en) * 2007-10-15 2015-12-29 Google Inc. External referencing by portable program modules
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8823709B2 (en) 2007-11-01 2014-09-02 Ebay Inc. User interface framework for viewing large scale graphs on the web
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8825646B1 (en) 2008-08-08 2014-09-02 Google Inc. Scalable system for determining short paths within web link network
CN102110123B (zh) * 2009-12-29 2014-02-05 中国人民解放军国防科学技术大学 倒排索引建立方法
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9183299B2 (en) * 2010-11-19 2015-11-10 International Business Machines Corporation Search engine for ranking a set of pages returned as search results from a search query
US8572096B1 (en) * 2011-08-05 2013-10-29 Google Inc. Selecting keywords using co-visitation information
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN102750380B (zh) * 2012-06-27 2014-10-15 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法
US9348846B2 (en) 2012-07-02 2016-05-24 Google Inc. User-navigable resource representations
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9852230B2 (en) 2013-06-29 2017-12-26 Google Llc Asynchronous message passing for large graph clustering
US9596295B2 (en) 2013-06-29 2017-03-14 Google Inc. Computing connected components in large graphs
CN106933911A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 最短路径识别方法及装置
US10977284B2 (en) * 2016-01-29 2021-04-13 Micro Focus Llc Text search of database with one-pass indexing including filtering
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN109086417A (zh) * 2018-08-06 2018-12-25 清华大学 搜索评价方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060048716A (ko) * 2004-09-30 2006-05-18 마이크로소프트 코포레이션 클릭 거리를 사용하여 검색 결과를 순위화하는 시스템 및방법
US7260573B1 (en) 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US7308643B1 (en) 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system

Family Cites Families (199)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222236A (en) * 1988-04-29 1993-06-22 Overdrive Systems, Inc. Multiple integrated document assembly data processing system
US5527577A (en) * 1993-06-22 1996-06-18 Aptar Group, Inc. Flexible eduction tube for hand dispenser
US6202058B1 (en) * 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US5606609A (en) * 1994-09-19 1997-02-25 Scientific-Atlanta Electronic document verification system and method
US5594660A (en) * 1994-09-30 1997-01-14 Cirrus Logic, Inc. Programmable audio-video synchronization method and apparatus for multimedia systems
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5933851A (en) 1995-09-29 1999-08-03 Sony Corporation Time-stamp and hash-based file modification monitor with multi-user notification and method thereof
US5974455A (en) * 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US6314420B1 (en) 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6222559B1 (en) * 1996-10-02 2001-04-24 Nippon Telegraph And Telephone Corporation Method and apparatus for display of hierarchical structures
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5848404A (en) 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6256675B1 (en) 1997-05-06 2001-07-03 At&T Corp. System and method for allocating requests for objects and managing replicas of objects on a network
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1125104A (ja) 1997-06-30 1999-01-29 Canon Inc 情報処理装置および方法
JPH1125119A (ja) * 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6182113B1 (en) * 1997-09-16 2001-01-30 International Business Machines Corporation Dynamic multiplexing of hyperlinks and bookmarks
US6070191A (en) * 1997-10-17 2000-05-30 Lucent Technologies Inc. Data distribution techniques for load-balanced fault-tolerant web access
US6351467B1 (en) * 1997-10-27 2002-02-26 Hughes Electronics Corporation System and method for multicasting multimedia content
US6128701A (en) 1997-10-28 2000-10-03 Cache Flow, Inc. Adaptive and predictive cache refresh policy
US6594682B2 (en) 1997-10-28 2003-07-15 Microsoft Corporation Client-side system for scheduling delivery of web content and locally managing the web content
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6473752B1 (en) 1997-12-04 2002-10-29 Micron Technology, Inc. Method and system for locating documents based on previously accessed documents
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6145003A (en) 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
KR100285265B1 (ko) * 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6125361A (en) 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
US6151595A (en) 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
US6240407B1 (en) * 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6098064A (en) 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US6285367B1 (en) 1998-05-26 2001-09-04 International Business Machines Corporation Method and apparatus for displaying and navigating a graph
US6182085B1 (en) * 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
ATE263988T1 (de) * 1998-06-08 2004-04-15 Kcsl Inc Methode und verfahren um relevante dokumente in einer datenbank zu finden
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
EP1105819B1 (en) 1998-08-26 2008-03-19 Fractal Edge Limited Methods and devices for mapping data files
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6360215B1 (en) * 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6628304B2 (en) 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6418433B1 (en) 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6763496B1 (en) 1999-03-31 2004-07-13 Microsoft Corporation Method for promoting contextual information to display pages containing hyperlinks
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6327590B1 (en) 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7072888B1 (en) 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
US6973490B1 (en) 1999-06-23 2005-12-06 Savvis Communications Corp. Method and system for object-level web performance and analysis
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6598047B1 (en) 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
US6442606B1 (en) 1999-08-12 2002-08-27 Inktomi Corporation Method and apparatus for identifying spoof documents
US6636853B1 (en) 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US7346604B1 (en) * 1999-10-15 2008-03-18 Hewlett-Packard Development Company, L.P. Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope
AU1039301A (en) 1999-10-29 2001-05-08 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6351755B1 (en) * 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6263364B1 (en) 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6418453B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6418452B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
US6539376B1 (en) * 1999-11-15 2003-03-25 International Business Machines Corporation System and method for the automatic mining of new relationships
US6886129B1 (en) * 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7240067B2 (en) 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6931397B1 (en) 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
US6910029B1 (en) 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6633867B1 (en) 2000-04-05 2003-10-14 International Business Machines Corporation System and method for providing a session query within the context of a dynamic search result set
US6549896B1 (en) * 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US6718365B1 (en) * 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US6859800B1 (en) * 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
JP3573688B2 (ja) 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6601075B1 (en) 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7080073B1 (en) * 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6959326B1 (en) 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
JP3472540B2 (ja) 2000-09-11 2003-12-02 日本電信電話株式会社 サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体
US6598051B1 (en) 2000-09-19 2003-07-22 Altavista Company Web page connectivity server
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2002157271A (ja) * 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
US20020078045A1 (en) * 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US6778997B2 (en) 2001-01-05 2004-08-17 International Business Machines Corporation XML: finding authoritative pages for mining communities based on page structure criteria
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020103798A1 (en) 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US20020107886A1 (en) 2001-02-07 2002-08-08 Gentner Donald R. Method and apparatus for automatic document electronic versioning system
WO2002063493A1 (en) * 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US20030018669A1 (en) * 2001-04-02 2003-01-23 International Business Machines Corporation System and method for associating a destination document to a source document during a save process
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6738764B2 (en) * 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
IES20020336A2 (en) * 2001-05-10 2002-11-13 Changing Worlds Ltd Intelligent internet website with hierarchical menu
US6862561B2 (en) * 2001-05-29 2005-03-01 Entelos, Inc. Method and apparatus for computer modeling a joint
US6782383B2 (en) * 2001-06-18 2004-08-24 Siebel Systems, Inc. System and method to implement a persistent and dismissible search center frame
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7039234B2 (en) * 2001-07-19 2006-05-02 Microsoft Corporation Electronic ink as a software object
US6928425B2 (en) * 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US7076483B2 (en) 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US6970863B2 (en) * 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US6766422B2 (en) 2001-09-27 2004-07-20 Siemens Information And Communication Networks, Inc. Method and system for web caching based on predictive usage
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7428695B2 (en) * 2001-10-22 2008-09-23 Hewlett-Packard Development Company, L.P. System for automatic generation of arbitrarily indexed hyperlinked text
US6763362B2 (en) 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
JP3871201B2 (ja) 2002-01-29 2007-01-24 ソニー株式会社 コンテンツ提供取得システム
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
JP4021681B2 (ja) 2002-02-22 2007-12-12 日本電信電話株式会社 ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
US6934714B2 (en) 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records
US7693830B2 (en) * 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20040006559A1 (en) * 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
WO2003107321A1 (en) 2002-06-12 2003-12-24 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
CA2395905A1 (en) * 2002-07-26 2004-01-26 Teraxion Inc. Multi-grating tunable chromatic dispersion compensator
US7152059B2 (en) 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US7013458B2 (en) * 2002-09-09 2006-03-14 Sun Microsystems, Inc. Method and apparatus for associating metadata attributes with program elements
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7231379B2 (en) * 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US7386527B2 (en) 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
US7020648B2 (en) 2002-12-14 2006-03-28 International Business Machines Corporation System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata
US20040148278A1 (en) 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
US20040181515A1 (en) 2003-03-13 2004-09-16 International Business Machines Corporation Group administration of universal resource identifiers with members identified in search result
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7028029B2 (en) * 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US7216123B2 (en) * 2003-03-28 2007-05-08 Board Of Trustees Of The Leland Stanford Junior University Methods for ranking nodes in large directed graphs
US7451130B2 (en) 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
US7451129B2 (en) 2003-03-31 2008-11-11 Google Inc. System and method for providing preferred language ordering of search results
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7334187B1 (en) * 2003-08-06 2008-02-19 Microsoft Corporation Electronic form aggregation
US20050060186A1 (en) * 2003-08-28 2005-03-17 Blowers Paul A. Prioritized presentation of medical device events
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7552109B2 (en) * 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US20050086192A1 (en) * 2003-10-16 2005-04-21 Hitach, Ltd. Method and apparatus for improving the integration between a search engine and one or more file servers
US7346208B2 (en) * 2003-10-25 2008-03-18 Hewlett-Packard Development Company, L.P. Image artifact reduction using a neural network
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN100495392C (zh) 2003-12-29 2009-06-03 西安迪戈科技有限责任公司 一种智能搜索方法
US7483891B2 (en) 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7310632B2 (en) 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US7281002B2 (en) 2004-03-01 2007-10-09 International Business Machine Corporation Organizing related search results
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7343374B2 (en) 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7693825B2 (en) 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20050251499A1 (en) 2004-05-04 2005-11-10 Zezhen Huang Method and system for searching documents using readers valuation
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7716225B1 (en) * 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US20050283473A1 (en) 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US7428530B2 (en) 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US20060036598A1 (en) * 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US7333963B2 (en) 2004-10-07 2008-02-19 Bernard Widrow Cognitive memory and auto-associative neural network based search engine for computer and network located images and photographs
KR100932318B1 (ko) 2005-01-18 2009-12-16 야후! 인크. 웹 검색 기술 및 웹 컨텐트와 결합된 후원 검색 목록의매칭 및 랭킹
US7689615B2 (en) 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US20060206460A1 (en) 2005-03-14 2006-09-14 Sanjay Gadkari Biasing search results
KR101532715B1 (ko) * 2005-03-18 2015-07-02 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
CA2544324A1 (en) 2005-06-10 2006-12-10 Unicru, Inc. Employee selection via adaptive assessment
US20060282455A1 (en) 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7627564B2 (en) 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US20070150473A1 (en) 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance
US7685091B2 (en) 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
US20080140641A1 (en) 2006-12-07 2008-06-12 Yahoo! Inc. Knowledge and interests based search term ranking for search results validation
US7685084B2 (en) * 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308643B1 (en) 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
US7260573B1 (en) 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
KR20060048716A (ko) * 2004-09-30 2006-05-18 마이크로소프트 코포레이션 클릭 거리를 사용하여 검색 결과를 순위화하는 시스템 및방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Cha Cha, A System For Organizing Intranet Search Results, Computer Science Department, University of California, Berkeley, 1999. *

Also Published As

Publication number Publication date
US7827181B2 (en) 2010-11-02
EP1934823A4 (en) 2012-01-25
CN101273350B (zh) 2010-06-16
CN101273350A (zh) 2008-09-24
WO2007041120A1 (en) 2007-04-12
KR20080049804A (ko) 2008-06-04
EP1934823A1 (en) 2008-06-25
EP1934823B1 (en) 2013-07-24
US20060069982A1 (en) 2006-03-30

Similar Documents

Publication Publication Date Title
KR101311022B1 (ko) 클릭 간격 결정
KR101203312B1 (ko) 클릭 거리를 사용하여 검색 결과를 순위화하는 시스템 및방법
Lamberti et al. A relation-based page rank algorithm for semantic web search engines
Zhao et al. SmartCrawler: a two-stage crawler for efficiently harvesting deep-web interfaces
KR101076894B1 (ko) 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
US7606793B2 (en) System and method for scoping searches using index keys
Fagin et al. Searching the workplace web
US7792833B2 (en) Ranking search results using language types
US20060200460A1 (en) System and method for ranking search results using file types
US7698294B2 (en) Content object indexing using domain knowledge
Zhuang et al. A unified score propagation model for web spam demotion algorithm
Wang et al. KeyLabel algorithms for keyword search in large graphs
Saranya et al. A Study on Competent Crawling Algorithm (CCA) for Web Search to Enhance Efficiency of Information Retrieval
WO2006047407A2 (en) Method of indexing gategories for efficient searching and ranking
Kantorski et al. Choosing values for text fields in web forms
Wang et al. Challenges in crawling the deep web
JP4220483B2 (ja) 情報収集システム、情報収集方法及びプログラム
Mouton et al. Exploiting routing information encoded into backlinks to improve topical crawling
Jayanthi et al. Segregating unique service object from multi-web sources for effective visualization
Arshad et al. Crawling the Deep Net Final Term Paper
Li et al. Efficient top-k keyword search on xml streams
Ola et al. MODIFIED PAGE RANKING SYSTEM
Onyejegbu et al. Modified Page Ranking System
Wichaiwong An exponentiation method for XML element retrieval

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160818

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170818

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180816

Year of fee payment: 6