KR101076894B1 - 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법 - Google Patents
앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법 Download PDFInfo
- Publication number
- KR101076894B1 KR101076894B1 KR1020050058224A KR20050058224A KR101076894B1 KR 101076894 B1 KR101076894 B1 KR 101076894B1 KR 1020050058224 A KR1020050058224 A KR 1020050058224A KR 20050058224 A KR20050058224 A KR 20050058224A KR 101076894 B1 KR101076894 B1 KR 101076894B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- documents
- anchor text
- anchor
- query
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Abstract
네트워크상에서 검색 질의의 검색 결과는 앵커 텍스트를 용어로서 통합하는 스코어링 함수에 따라 랭크된다. 스코어링 함수는, 앵커 텍스트의 타깃 문서가 타깃 문서의 랭킹 내에서 앵커 텍스트 내의 용어의 사용을 반영하도록 조정된다. 초기에, 앵커 텍스트와 관련된 특성들은 네트워크의 크롤 중에 수집된다. 문서의 역 리스트와 앵커 텍스트의 용어를 포함하는 분리 인덱스가 생성된다. 이후에, 인덱스는 문서의 스코어를 계산하기 위해서 질의에 응답하여 참조된다. 스코어는 이후에 문서를 랭크하고 질의 결과를 생성하기 위해서 사용된다.
검색 질의, 앵커 텍스트, 스코어링 함수, 랭킹, 크롤
Description
도 1은 본 발명의 하나의 전형적인 실시예에 사용될 수 있는 전형적인 컴퓨팅 디바이스를 예시한다.
도 2는 본 발명에 따른 인덱스 키들을 사용하여 검색의 범위를 지정하기 위한 전형적인 시스템의 기능 블록도를 예시한다.
도 3은 본 발명에 따른 인덱스의 전형적인 구조에 대한 기능 블록도를 예시한다.
도 4는 본 발명에 따른 전형적인 네트워크 그래프를 예시한다.
도 5는 본 발명에 따라서 문서 랭킹 내에 앵커 텍스트를 포함하도록 앵커 텍스트를 처리하는 전형적인 프로세스의 논리 흐름도를 예시한다.
도 6은 본 발명에 따라서 랭킹 검색 결과 내에 앵커 텍스트를 통합하는 전형적인 프로세스의 논리 흐름도를 예시한다.
<도면의 주요 부분에 대한 부호의 설명>
210 : 인덱스
220 : 파이프라인
230 : 문서 인터페이스
240 : 클라이언트 인터페이스
250 : 앵커 텍스트 플러그인
260 : 인덱싱 플러그인
270 : 앵커 텍스트 테이블
본 발명은, 2004년 3월 18일에 출원된 "Field Weighting in Text Document Searching" 제목의 특허 출원 제10/804,326호와 관련된다. 이 관련 출원은 본 특허 출원의 양수인에게 양도되었으며, 본 명세서에 참조로서 통합된다.
텍스트 문서 검색에서, 사용자는 통상적으로 검색 엔진에 질의(query)를 입력한다. 검색 엔진은 인덱스된 문서들의 데이터베이스에 의지하여 질의를 평가하여 질의를 가장 만족시키는 문서들의 랭킹 리스트를 반환한다. 문서가 질의를 얼마나 잘 만족시키는지의 척도를 나타내는 스코어는, 검색 엔진에 의해 논리적으로 생성된다. 일반적으로 사용되는 스코어링 알고리즘(scoring algorithm)은 질의를 검색 용어로 분할(split)하고 검색될 텍스트 문서들의 바디 내의 개별 용어들의 출현(occurrence)에 대한 통계 정보의 사용에 의존한다. 문서들은 그들의 대응하는 스코어에 따라 랭킹 순서로 리스트되어서, 사용자는 검색 결과 리스트의 최상위에 있는 가장 일치하는 검색 결과를 볼 수 있다.
많은 이러한 스코어링 알고리즘은 각 문서가 단일의, 획일적인 스트링 텍스 트임을 가정한다. 검색 용어들에 대한 질의는 텍스트 스트링(또는 더욱 정확하게는, 각 문서를 나타내는 획일적인 텍스트 스트링으로부터 생성된 통계 자료(statistics))에 적용된다. 그러나, 문서들은 흔히 어떤 내부 구조(예를 들면, 타이틀, 섹션 표제, 메타데이터 필드 등을 포함하는 필드)를 가지며, 이러한 문서들을 획일적인 텍스트 스트링으로 축소하는 것은 이러한 구조적 정보에 의해 제공된 임의의 검색 이득을 잃는다.
몇몇 존재하는 접근법들은 개별 문서 필드들에 대한 통계 자료를 생성하고 개별 필드들에 대한 스코어를 생성함으로써 문서들의 내부 구조를 검색 내부로 통합하려고 한다. 이후에, 개별 문서에 대한 스코어가 그 필드에 대한 스코어의 가중치 합(weighted sum)으로서 계산된다. 몇몇 존재하는 접근법들은 문서의 내부 구조를 통합하려고 하지만, 다른 문서들 내에 포함된 그 문서에 대하여 텍스트를 고려하려고 하지 않는다.
본 발명의 실시예들은 앵커 텍스트(anchor text) 컴포넌트를 통합하는 스코어링 함수를 사용하여 검색 결과를 랭킹하는 시스템 및 방법에 관련한다. 앵커 텍스트는 또 다른 문서를 가리키는 URL(Uniform Resource Locator)과 첨부한 문자 설명으로 구성된다. 이 텍스트는 타깃 문서와 직접 관련되며, 본 발명에서는 타깃 문서와의 관련성의 척도를 제공하는 데 사용된다. 예를 들면, 문서 A는 문서 B를 가리키는 몇몇 앵커 텍스트를 갖는다. 이 앵커 텍스트가 문서 B에 없는 단어를 포함한다면, 이 단어를 포함하는 질의들은 본 발명에 의해 제공된 추가 기능없이 링 크된 문서를 반환하지 않을 것이다. 문서 B가 아닌 문서 A만이 반환될 것이다. 문서 A 내의 설명은 링크된 문서 B를 설명하는 데 사용되기 때문에, 이 텍스트는 링크된 문서의 매우 정확한 요약/설명일 것이다. 본 발명은 앵커 텍스트를 타깃 문서의 랭킹에 통합시킴으로써 이러한 결함을 정정한다.
본 발명의 일 양상에서, 먼저 네트워크가 "크롤링(crawled)"되어 네트워크의 링크 및 페이지에 관련된 특성들의 표를 생성한다. "크롤링(crawling)"은 인덱스로 불리는 데이터 베이스 내의 여러 문서들(또는 임의의 유사한 정보의 이산 단위)을 자동으로 수집하는 것을 말한다. 크롤링은 특정 문서들 내의 문서 참조 링크들을 따른 후, 발견된 각 문서를 처리함으로써 네트워크상에서 다양한 문서들을 가로지른다. 이 문서들은 문서들 내의 키워드 또는 일반 텍스트를 식별함으로써 인덱스를 생성하도록 처리된다. 본 발명의 인덱스는 분리 앵커 텍스트 인덱스 파티션을 포함한다. 본 발명이 인덱싱하는 텍스트는 URL을 따르는 앵커 텍스트에만 제한되지 않는다. 앵커 텍스트는 또한 임의의 다른 오브젝트와 관련한 텍스트를 포함할 수 있다. 예를 들면, 사람, 카테고리, 디렉터리 등이 또한 인덱싱될 수 있다.
본 발명의 또 다른 양상은, 일단 앵커 텍스트가 인덱싱되고 적절한 타깃 문서와 관련되면, 앵커 텍스트는 또한 문서 랭킹을 올리는데(boosting) 사용될 수 있다. 콘텐트와 앵커 텍스트 양쪽에 존재하는 용어들의 용어 빈도가 결합되어, 문서 내의 용어의 총 출현이 증가한다. 특정 타깃 문서를 가리키는 소스 문서들로부터의 앵커 텍스트에 의해 타깃 문서의 길이도 또한 길어진다. 이들 모두는 문서의 관련도를 결정하는 스코어링 함수에서 사용되는 인자들이다.
이제, 본 발명은 그 일부를 형성하고, 예시적으로, 본 발명을 실시하기 위한 특정한 전형적인 실시예들을 도시한 첨부한 도면을 참조하여 이하 더욱 완전하게 설명될 것이다. 그러나, 본 발명은 많은 다른 형태들로 일체화될 수 있으며, 본 명세서에 설명된 실시예들에 한정되어 해석되지 않아야 하며, 오히려, 철저히 그리고 완전히 개시되어 당업자에게 본 발명의 범주를 완전히 전달하도록 이들 실시예들을 제공한다. 다른 것들 중에, 본 발명은 방법 또는 장치로서 일체화될 수 있다. 따라서, 본 발명은 완전히 하드웨어 실시예들, 완전히 소프트웨어 실시예들 또는 소프트웨어와 하드웨어 양상을 겸비한 실시예들의 형태를 취할 수 있다. 그러므로, 다음의 상세한 설명은 제한적 의미로 취해지지 않는다.
예시적 운영 환경
도 1과 관련하여, 본 발명을 구현하기 위한 하나의 전형적인 시스템은 컴퓨팅 디바이스(100)와 같은 컴퓨팅 디바이스를 포함한다. 컴퓨팅 디바이스(100)는 클라이언트, 서버, 이동 장치, 또는 임의의 다른 컴퓨팅 디바이스로서 구성될 수 있다. 매우 기본적인 구성에서, 컴퓨팅 디바이스(100)는 통상적으로 적어도 하나의 프로세싱 유닛(102)과 시스템 메모리(104)를 포함한다. 컴퓨팅 디바이스의 실제 구성 및 타입에 따라, 시스템 메모리(104)는 휘발성(이를테면 RAM), 비휘발성(이를테면 ROM, 플래시 메모리 등) 또는 이들의 조합일 수 있다. 시스템 메모리(104)는 통상적으로 운영 시스템(105), 하나 이상의 애플리케이션들(106)을 포함하며, 프로그램 데이터(107)를 포함할 수도 있다. 일 실시예에서, 애플리케이션들 (106)은 본 발명의 기능을 실행하기 위한 검색 랭킹 애플리케이션(120)을 포함한다. 이러한 기본적인 구성은 파선(108) 내의 이들 컴포넌트들에 의해 도 1에 예시된다.
컴퓨팅 디바이스(100)는 부가적인 특징 또는 기능을 가질 수 있다. 예를 들면, 컴퓨팅 디바이스(100)는 예를 들어, 자기 디스크, 광 디스크, 또는 테이프와 같은 부가적인 데이터 저장 장치들(분리 가능 및/또는 분리 불가능)을 또한 포함할 수 있다. 이러한 부가적인 저장소는 분리 가능 저장소(109) 및 분리 불가능 저장소(110)로 도 1에 도시된다. 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장소에 대한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리 가능 및 분리 불가능 매체를 포함할 수 있다. 시스템 메모리(104), 분리 가능 저장소(109) 및 분리 불가능 저장소(110)는 컴퓨터 저장 매체의 모든 예들이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD, 또는 다른 광 저장소, 자기 카세트, 자기 테이프, 자기 디스크 저장소 또는 다른 자기 저장 장치들, 또는 원하는 정보를 저장하는 데 사용할 수 있고 컴퓨팅 디바이스(100)가 액세스할 수 있는 임의 다른 매체를 포함하지만, 이에 한정되지 않는다. 임의의 이러한 컴퓨터 저장 매체는 디바이스(100)의 일부일 수 있다. 컴퓨팅 디바이스(100)는 또한 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등과 같은 입력 장치(들)(112)를 가질 수 있다. 디스플레이, 스피커, 프린터 등과 같은 출력 장치(들)(114)도 또한 포함할 수 있다.
컴퓨팅 디바이스(100)는 또한 디바이스가 다른 컴퓨팅 디바이스(118)와, 예컨대 네트워크를 통해 통신하게 하는 통신 접속(116)을 포함한다. 통신 접속(116)은 통신 매체의 일례이다. 통신 매체는 통상적으로 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈, 또는 변조된 데이터 신호 내의 다른 데이터, 예컨대 반송파 또는 다른 전송 메커니즘에 의해 일체화될 수 있으며, 임의의 정보 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는 신호 내의 정보를 인코드하는 그러한 방식으로 설정되거나 변화된 하나 이상의 특성을 갖는 신호를 의미한다. 일례로서, 한정하지 않고, 통신 매체는 유선 네트워크 또는 다이렉트-유선 접속과 같은 유선 매체, 및 어코스틱(acoustic), RF, 적외선과 같은 무선 매체 및 다른 무선 매체를 포함한다. 명세서에서 사용된 용어 컴퓨터 판독 가능 매체는 저장 매체 및 통신 매체를 모두 포함한다.
앵커 텍스트를 검색 랭킹에 통합하기 위한 예시적 실시예들
본 발명의 실시예들은 검색 엔진에 대한 랭킹 기능과 관련된다. 검색 엔진의 품질은 통상적으로 랭킹 기능에 의해 할당된 랭크들에 따른 문서들의 관련성에 의해 결정된다. 앵커 텍스트는 HTML 앵커 태그 내의 텍스트로서 정의된다(<A href=http://example>예제 웹</A>). 종종, 앵커 텍스트는 타깃 URL(Uniform Resource Locator)의 짧은 고품질 설명을 포함하며, 주어진 문서를 가리키는 앵커 태그들의 콘텐트를 그 문서에 대한 랭킹 기능으로 통합하는 랭킹 기능에 이롭다.
도 2는 본 발명에 따라서 인덱스 키들을 사용하여 검색의 범위를 정하는 전형적인 시스템의 기능 블록도를 예시한다. 시스템(200)은 인덱스(210), 파이프라 인(220), 문서 인터페이스(230), 클라이언트 인터페이스(240), 앵커 텍스트 플러그인(250), 인덱싱 플러그인(260), 및 앵커 텍스트 테이블(270)을 포함한다.
인덱스(210)는 앵커 텍스트에 대한 메인 파티션과 또다른 파티션을 포함하는 분리 인덱스 파티션을 포함하도록 구성된다. 인덱스(210)의 구조에 대한 더욱 상세한 설명은 이하 도 3의 설명에서 제공된다. 이들 인덱스들의 기록은 클라이언트 질의에 대한 결과를 제공하는 데 사용된다. 일 실시예에서, 인덱스(210)는 인덱스 기록에 저장소를 총괄하여 제공하는 복합 데이터베이스에 대응한다.
파이프라인(220)은 인덱싱을 위해 문서들 또는 문서들의 기록들을 얻기 위한 수집(gathering) 메커니즘의 예시적 표현이다. 파이프라인(220)은, 데이터에 대응하는 기록이 인덱스(210) 내에 입력되기 전에 다양한 플러그인(예를 들면, 앵커 텍스트 플러그인(250))에 의한 데이터의 필터링을 허용한다.
문서 인터페이스(230)는 프로토콜, 네트워크 액세스 포인트, 및 복합 데이터베이스와 네트워크 위치를 통해 문서들을 검색하기 위한 데이터베이스 액세스 포인트를 제공한다. 예를 들면, 문서 인터페이스(230)는 로컬 서버의 데이터베이스에 대한 액세스와 현재 컴퓨팅 디바이스 상의 데이터베이스에 대한 액세스를 제공하면서도 인터넷에 대한 액세스를 제공할 수 있다. 다른 실시예들은 본 발명의 정신과 범주에서 벗어나지 않고 다양한 프로토콜을 사용하여 다른 문서 위치를 액세스할 수 있다.
클라이언트 인터페이스(240)는 검색을 정의하고 초기화하도록 클라이언트에 의한 액세스를 제공한다. 검색은 키워드 및/또는 범위(scope) 키들에 따라 정의될 수 있다. 검색 질의들을 처리하기 위한 전형적인 방법은 이하 도 5의 설명에서 더욱 상세히 설명된다.
앵커 텍스트 플러그인(250)은 여러 수집기(gatherer) 파이프라인 플러그인 중 하나이다. 앵커 텍스트 플러그인(250)은 앵커 텍스트와 문서 내에 포함된 그 관련된 특성을 식별한다. 앵커 특성은 문서 인터페이스(230)를 통해 제공된 문서들이 크롤링됨으로써 앵커 텍스트 플러그인(250)에 의해 수집된다. 일 실시예에서, 앵커 텍스트 플러그인(250)의 기능은 분리 플러그인으로 제공되기보다는 특성 플러그인 내에 실제로 포함된다. 특성 플러그인은 앵커 특성을 포함하는 문서와 그들의 관련 특성들의 모든 필드를 식별한다. 일 실시예에서, 앵커 텍스트는 타깃 문서와 관련되기 때문에, 타깃 문서를 앵커 텍스트와 관련시키는 것은 크롤(crawl)이 완료될 때까지 연기된다. 예를 들면, 문서 A가 인덱싱될 때, 문서 A는 문서 B를 가리키는 앵커 텍스트를 가지며, 이 앵커 텍스트가 문서 B에 적용된다. 그러나, 문서 A가 지금 인덱싱되고 있기 때문에, 이 프로세스는 연기된다. 또한, 문서 B가 정확하게 인덱싱되기 전에 발견되는 것을 요구하는 문서 B에 적용되는 다중 앵커들이 있을 수 있다. 크롤이 완료된 후까지 타깃 문서들의 인덱싱을 연기하는 것은 인덱스된 결과의 정확성을 충분히 보증한다.
인덱싱 플러그인(260)은 파이프라인(220)에 접속된 또 다른 플러그인이다. 인덱싱 플러그인은 인덱스(210)를 생성, 분할(partitioning) 및 갱신하기 위한 메커니즘을 제공한다. 일 실시예에서, 인덱싱 플러그인(260)은 크롤링된 문서들로부터 생성된 키워드 및 앵커 텍스트 키들을 인덱스(210)로 보내기 전에 일시적으로 저장하는 단어 리스트를 제공한다. 인덱스(210)의 기록은 이들 단어 리스트들 내에 포함된 크롤 결과로부터 포퓰레이트(populated)된다.
앵커 텍스트 테이블(270)은 앵커 텍스트 플러그인(250)에 의해 수집된 앵커 특성들을 포함한다. 문서 내의 앵커 텍스트의 인스턴스에 대해, 앵커 텍스트 테이블(270)은 앵커 텍스트와 관련된 특성을 포함하는 앵커 텍스트의 기록을 포함한다. 예를 들면, 앵커 텍스트 테이블(270) 내의 기록은 링크의 타깃 문서를 식별하는 타깃 ID, 현재 문서를 식별하는 소스 ID, 앵커 텍스트 자체, 및 분리 필드 내의 링크를 포함할 수 있다. 다른 실시예들에서, 다른 필드들이 두 개의 문서들 사이의 링킹과 관련된 앵커 텍스트 테이블(270) 내에 포함될 수 있다. 일 실시예에서, 크롤로부터 수집된 앵커 및 링크 특성은 문서에 대응하는 노드들 및 링크에 대응하는 브랜치들로 네트워크의 표현을 생성하는 데 사용된다(도 4 참조). 이 네트워크 그래프는 이후에 메모리 내로 로드되어 앵커 텍스트에 의해 참조된 타깃 문서에 대한 타깃 ID를 분석(resolve)하는 데 사용된다.
기능 블록들 사이에서의 단방향 및 양방향 통신의 시스템(200) 내의 예시에도 불구하고, 이들 통신 타입들 중 임의의 통신 타입은 본 발명의 정신 또는 범주에서 벗어나지 않고 다른 타입으로 변화될 수 있다(예를 들면, 모든 통신들은 단방향 통신 보다는 양방향을 필요로 하는 승인 메시지를 가질 수 있음).
도 3은 본 발명에 따른 인덱스의 전형적인 구조에 대한 기능 블록도를 예시한다. 인덱스(300)는 메인 인덱스(310)와 앵커 텍스트 인덱스(320)를 포함한다.
메인 인덱스(310)는 키워드 및 문서의 크롤에 대응하여 리턴된 인덱스 키들 에 대응하는 기록을 포함한다. 메인 인덱스(310)는 또한 문서의 다른 특성과 관련된 다른 인덱스 파티션을 포함한다. 앵커 텍스트에 대응하는 기록은 앵커 텍스트 인덱스(320)로 전환되어 입력된다.
앵커 텍스트 인덱스(320)는 네트워크상에서 문서 내에 포함된 앵커 텍스트의 타깃 문서에 대응하는 기록들을 포함한다. 이들 타깃 문서들은 역 인덱스(inverted index)로서 타깃 문서와 관련된 앵커 텍스트 또는 URL 내에 포함된 단어와 관련되어 리스트된 타깃 문서 ID를 가지고 조직된다. 앵커 텍스트 인덱스(320)는 크롤이 완료된 후 앵커 텍스트 테이블로부터 생성된다. 각 타깃 문서에 대응하는 앵커 텍스트는, 각 타깃 문서를 용어에 대해서 평가하고 앵커 텍스트 인덱스(320) 내의 타깃 문서를 입력하기 위해서 함께 연결(concatenate)된다. 앵커 텍스트를 위한 분리 인덱스 파티션을 포함함으로써, 인자로서의 앵커 텍스트를 문서의 스코어링 함수에 통합시키기 전에 관련 연산이 앵커 텍스트에 기초하여 행해지게 된다. 문서를 랭킹하기 위해서 앵커 텍스트를 스코어링 함수에 통합시키는 것은 이하 도 6의 설명에서 보다 충분히 기술된다.
도 4는 본 발명에 따른 전형적인 네트워크 그래프를 예시한다. 네트워크 그래프는 노드들(예를 들면, 410) 및 에지들 또는 링크들(예를 들면, 420)로 이루어진다. 노드들(예를 들면, 410)은 검색 질의에 대한 결과들로서 리턴될 수 있는 네트워크상에 있는 페이지들 및 다른 리소스들을 나타낸다. 링크들(예를 들면, 420)은 이들 페이지들 각각을 페이지들 상에 리스트된 탐색 링크들을 사용하여 함께 접속한다. 링크 정보의 집합은 특정 페이지에 대한 앵커 텍스트와 관련된 특성들을 결정하는 데 사용될 수 있는 각 페이지에 대해서 수집될 수 있다.
일 실시예에서, 노드(430)는 노드(440)에 대응하는 타깃 문서에 대한 앵커 태그를 포함하는 현재 문서이다. 예를 들면, 앵커 태그는 HTML의 앵커 태그에 대응할 수 있다(<A href=http://example>샘플 웹</A>. 현재 문서의 ID도 공지되어, 통상적으로 문서의 HTML 내에 포함된다. 앵커 텍스트 테이블(도 2 참조)을 포퓰레이트하기 위해서, 앵커 텍스트와 관련된 타깃 문서 ID는 여전히 분석될 필요가 있다. 네트워크 그래프(400)는 알려지지 않은 특성을 분석하기 위해 워킹될(walked) 수 있는 네트워크의 표현을 제공함으로 타깃 문서 ID를 분석하는 것을 돕는다.
도 5는 본 발명에 따라서 문서 랭킹 내에 앵커 텍스트를 포함하도록 앵커 텍스트를 처리하기 위한 전형적인 프로세스의 논리 흐름도를 예시한다. 프로세스 500은, 문서의 전부(corpus)에 액세스를 제공하는 블록 502에서 시작한다. 프로세싱은 블록 504에서 계속된다.
블록 504에서, 문서 전체는 이들 문서와 관련된 특성(예를 들면, 파일 타입) 뿐만 아니라 존재하는 문서를 결정하기 위해서 크롤링된다. 이후에, 문서들 각각에 대한 식별자 또는 ID 및 관련된 특성들이 크롤의 결과로서 포워드된다. 프로세싱은 블록 506에서 계속된다.
블록 506에서, 앵커 텍스트와 관련된 문서들과 연관된 특성들이 앵커 텍스트 플러그인에 의해 얻어진다. 앵커 텍스트 특성들은 소스 문서의 식별자, 타깃 문서의 식별자, 앵커 텍스트 자체, 및 링크의 URL을 포함할 수 있다. 일단 이들 앵커 특성이 수집되면, 프로세싱은 블록 508로 이동한다.
블록 508에서, 앵커 텍스트 테이블이 생성된다. 앵커 텍스트 테이블은 앵커 텍스트의 각 인스턴스와 관련된 앵커 텍스트 특성을 포함한다. 앵커 텍스트의 각 인스턴스의 특성은 테이블 내에 기록으로서 저장된다. 일단 테이블이 생성되면, 프로세싱은 블록 510에서 계속된다.
블록 510에서, 메인 인덱스 및 앵커 텍스트 인덱스를 포함하는 인덱스가 생성된다. 일 실시예에서, 인덱스는 앵커 텍스트 테이블이 구성한 후에 생성된다. 앵커 텍스트 테이블은 앵커 텍스트 키들과 관련된 문서들의 역 리스트(inverted list)를 포함한다. 앵커 텍스트 키들은, 앵커 태그의 타깃 문서의 앵커 텍스트 또는 URL 내에 포함된 키워드라는 점에서 앵커 텍스트에 대응한다. 따라서, 문서들의 역 리스트는, 앵커 텍스트 키들의 타깃 문서이다. 일단 인덱스가 인스턴스화되면, 프로세싱은 블록 512에서 계속된다.
블록 512에서, 메인 인덱스 및 앵커 텍스트 인덱스는, 앵커 텍스트에 기초한 관련 값들을 스코어링 함수에 통합하기 위해서 앵커 텍스트 테이블에 따라 참조된다. 스코어링 함수는 문서에 대한 관련 스코어를 결정한다. 이후에 문서는 그 스코어에 따라 랭크될 수 있다. 앵커 텍스트를 문서 랭킹에 통합시키는 것에 대한 보다 상세한 설명은 이하 도 6의 설명에서 기술된다. 일단 앵커 텍스트가 랭킹에 통합되면, 프로세싱은 프로세스 500이 종료하는 블록 514로 진행한다.
프로세스 500이 완료된 후, 랭크된 문서들은 검색 엔진에 의한 결과의 전송 및 표시와 관련된 다양한 동작에 의해 사용자에게 리턴될 수 있다. 더욱 높은 정밀도 결과에 대응하는 문서들은 이후에 사용자의 재량으로 선택되고 보여질 수 있 다.
도 6은 본 발명에 따라 앵커 텍스트를 랭킹 검색 결과에 통합하는 전형적이 프로세스의 논리 흐름도를 예시한다. 도 5의 프로세스 500이 블록 512로 진입하고 클라이언트에 의해 질의가 행해질 때 프로세스 600은 블록 602에서 시작한다. 프로세싱은 결정 블록(604)에서 계속된다.
결정 블록(604)에서, 현재 스코어가 계산되는 문서가 질의된 단어에 대한 앵커 텍스트 인덱스 내에 포함되는지 여부를 결정한다. 문서가 앵커 텍스트 인덱스 내에 리스트되지 않는다면, 프로세싱은 블록 608로 이동한다. 그러나, 문서가 앵커 텍스트 인덱스 내에 리스트된다면, 프로세싱은 블록 606에서 계속된다.
블록 606에서 문서의 관련 스코어를 결정하는 스코어링 함수는 앵커 텍스트에 대한 고려 및 가중(weighting)을 통합하도록 조정된다. 일 실시예에서, 스코어링 함수는 2004년 3월 18일에 출원된 "Field Weighting in Text Document Searching" 제목의 특허 출원 번호 제10/804,326호에 기술된 필드 가중 스코어링 함수에 대응함으로써 참조로 통합된다. 제10/804,326호 특허 출원에 제공된 바와 같이, 다음은 필드 가중 스코어링 함수의 표현이다.
여기서, 용어는 다음과 같이 정의된다: wtf는 모든 특성들을 가로지르는 무 게가 곱해진 소정의 용어들의 용어 빈도의 가중 용어 빈도 또는 용어 빈도의 합이다; wdl은 가중된 문서 길이이며; avwdl은 평균 가중된 문서 길이이며; N은 네트워크 상의 문서들의 수이고; n은 모든 질의 용어들을 가로질러 합해진, 소정의 질의 용어를 포함하는 문서들의 수; 및 K1 및 b는 상수이다. 이들 용어들 및 상기 수학식은 10/804,326 특허 출원 내에 상세히 기술되어 있다.
기본 설명으로서, 가중된 용어 빈도(wtf)는 문서 내의 다른 필드들을 통해 가중된 문서 내에 용어 빈도에 대응한다. 평균 가중 문서 길이에 대한 가중된 문서 길이는 현재 문서의 길이가 평균 문서 길이에 얼마나 가까운지의 척도를 포함하며, 스코어링 함수 내의 표준화 용어이다. 소정의 질의 용어를 포함하는 문서의 수(n)에 대한 네트워크 내의 문서의 수(N)의 로그는 문서 빈도의 척도로 제공된다. 이들 정량들은 콘텐트 인덱스로부터 검색되고 발견될 수 있다.
일 실시예에서, 스코어링 함수는 앵커 텍스트 내의 용어의 빈도에 대응하는 추가 가중된 용어 빈도값(wtfAnchor)을 포함함으로써 앵커 텍스트를 통합하도록 조정되어, 새로운 스코어링 함수가 될 수 있다.
따라서, 스코어링 함수의 용어 빈도 컴포넌트는 앵커 텍스트 내의 용어의 빈도로 갱신된다. 그러나, 스코어링 함수의 다른 용어들은 영향을 미치지 않게 된 다. 메인 인덱스와 앵커 텍스트 인덱스를 분리해서 간단히 참고함으로써 스코어링 함수(2)에 대한 용어 빈도를 얻을 수 있다.
또 다른 실시예에서, 가중된 용어 빈도들을 함께 추가하기 전에 문서의 각 필드의 가중된 용어 빈도에 길이 표준화를 적용하도록 스코어링 함수를 조정함으로써 문서 길이 표준화는 앵커 텍스트를 고려하여 조정된다. 앵커 텍스트를 문서 길이 표준화에 통합하기 위해서, 새로운 용어(B)가 다음과 같이 정의된다.
이후에, 수학식 (1)은 다음을 생성하는 새로운 용어에 따라서 재배열될 수 있다.
앵커 텍스트와 관련된 가중된 용어 빈도(wtfAnchor)는 이후에 앵커 텍스트와 관련된 길이 표준에 대응하는 새로운 BAnchor 용어와 함께 수학식에 추가될 수 있어, 수학식 4는,
가 된다.
따라서, 일 실시예에서, BAnchor는 앵커 텍스트 필드로부터 BAnchor의 wdlAnchor 및 avwdlAnchor 컴포넌트를 취함으로써 B와 다르다. 또 다른 실시예에서, 길이 표준화의 강도는 또한 앵커 텍스트 필드에 대한 다른 bAnchor를 선택함으로써 조정된다. 일단, 스코어링 함수가 앵커 텍스트를 설명하도록 조정되면, 프로세싱은 블록 608로 이동한다.
블록 608에서, 스코어링 함수는 현재 문서의 스코어를 계산하기 위한 변수와 포퓰레이트된다. 전술한 바와 같이, 질의는 단지 메인 인덱스와 앵커 텍스트 인덱스를 분리해서 참조함으로써 스코어링 함수를 포퓰레이트하는 용어 빈도를 얻을 수 있다.
블록 610에서, 스코어링 함수가 실행되고 문서에 대한 관련 스코어가 계산된다. 일단 관련 스코어가 계산되면, 메모리에 저장되고 특정 문서와 연관된다. 이후에 프로세싱은 결정 블록 612로 이동한다.
결정 블록 612에서, 모든 문서들에 대한 관련 스코어가 스코어링 함수(2)에 따라 계산되었는지 여부를 결정한다. 스코어는 도시한 바와 같이 연속적으로 또는 병행하여 계산될 수 있다. 모든 스코어들이 계산되지 않았다면, 프로세싱은 블록 604로 리턴하고, 다음 문서에 대한 스코어 계산이 초기화된다. 그러나, 모든 스코어들이 계산된다면, 프로세싱은 블록 614에서 계속된다.
블록 614에서, 질의에 대한 검색 결과들은 그 관련 점수에 따라 랭크된다. 스코어는 이제 문서들 각각의 앵커 텍스트를 참작한다. 따라서, 문서들의 랭킹이 정제되어 앵커 텍스트에서 나타낸 문서는 그 참조를 반영한다. 일단 검색 결과가 랭크되면, 프로세싱은 블록 614로 진행하고, 여기서 프로세싱은 도 5의 프로세스 500의 블록 514로 리턴한다.
상기 명세서, 예제들 및 데이터는 본 발명의 구성의 제조 및 이용을 위한 완벽한 설명을 제공한다. 본 발명의 많은 실시예들은 본 발명의 정신과 범주에서 벗어나지 않기 때문에, 본 발명은 이하 첨부된 특허청구범위 내에 존재한다.
앵커 텍스트 컴포넌트를 통합하는 스코어링 함수를 사용하여 검색 결과를 랭킹하는 시스템 및 방법을 제공한다. 이 텍스트는 타깃 문서와 직접 관련되며, 본 발명에서는 타깃 문서와의 관련성의 척도를 제공하는 데 사용된다.
Claims (26)
- 검색 결과의 랭킹(ranking)을 제시하는 컴퓨터 구현 방법으로서,복수의 문서에 대해 인덱스를 제공하는 단계;- 상기 인덱스는,상기 문서 각각과 상기 문서 각각에 포함된 하나 이상의 용어의 빈도를 연관시키는 메인 인덱스;상기 문서 각각을 참조하는 소스 문서 내의 앵커 텍스트에 포함된 하나 이상의 용어의 앵커 텍스트 빈도와 상기 문서 각각을 연관시키는 앵커 텍스트 인덱스를 포함함 -적어도 하나의 질의 용어를 포함하는 질의를 수신하는 단계;상기 적어도 하나의 질의 용어를 포함하는 상기 문서들 중 하나 이상의 문서를 식별하는 상기 질의의 결과를 산출하기 위해 상기 인덱스에 상기 질의를 적용하는 단계;상기 질의의 결과에 포함된 상기 하나 이상의 문서 각각에 대해 스코어를 생성하기 위해 스코어링 함수를 적용하는 단계- 상기 스코어링 함수는(score)중 하나를 포함하고, 여기서wtf는 해당 문서에 소정의 질의 용어가 포함된 빈도에 가중치를 적용하는 가중된 용어 빈도;wtfAnchor는 해당 문서를 참조하는 앵커 텍스트에 상기 소정의 질의 용어가 포함된 빈도에 가중치를 적용하는 가중된 용어 빈도;k1는 상수;b는 상수;wdl은 스코어링되는 해당 문서의 길이에 가중치를 적용하는, 가중된 문서 길이;avwdl은 스코어링되는 모든 문서의 평균 가중된 문서 길이;N은 네트워크 상의 문서들의 수; 그리고n은 소정의 질의 용어를 적어도 한번 포함하는 문서들의 수임 - ; 및사용자에게 표시될, 랭킹된 상기 질의의 결과의 출력을 생성하는 단계를 포함하는 컴퓨터 구현 방법.
- 제1항에 있어서, 상기 복수의 문서 각각을 처리하여 해당 문서에 포함된 상기 하나 이상의 용어의 빈도를 결정함으로써 상기 인덱스를 구축하는 단계를 더 포함하는, 컴퓨터 구현 방법.
- 제2항에 있어서, 상기 복수의 문서 각각을 처리하여 다른 문서를 각각 참조하는 하나 이상의 앵커 텍스트 엔트리들(entries)을 식별함으로써 상기 인덱스를 구축하는 단계를 더 포함하는, 컴퓨터 구현 방법.
- 제3항에 있어서,앵커 텍스트 테이블을 생성하는 단계 - 앵커 텍스트 엔트리를 포함하는 상기 문서들 각각을 위해 엔트리가 형성되고 상기 앵커 텍스트 테이블은상기 앵커 텍스트 엔트리를 포함하는 상기 문서를 표시하는 소스 식별자;상기 앵커 텍스트 엔트리가 참조하는 타깃 문서를 표시하는 타깃 식별자; 및상기 앵커 텍스트 엔트리의 콘텐트에 포함되는 하나 이상의 용어들중에서 하나 이상을 포함함 -를 더 포함하는, 컴퓨터 구현 방법.
- 제4항에 있어서,상기 문서들 각각에 대하여,상기 문서에 포함된 상기 하나 이상의 용어들의 빈도와, 해당 문서가 상기 타깃 식별자의 상기 타깃 문서로서 리스트된 상기 앵커 테이블 엔트리들의 각각에 대하여 상기 앵커 텍스트 엔트리의 상기 콘텐트에 리스트된 상기 용어들의 빈도를 수집함으로써 상기 인덱스를 생성하는 단계를 더 포함하는, 컴퓨터 구현 방법.
- 제1항에 있어서,가중된 앵커 용어 빈도(wtfAnchor), 가중된 문서 길이(wdl) 및 평균 가중된 문서 길이(avwdl)로부터 도출된 앵커 텍스트 길이 표준화 컴포넌트(BAnchor)를 포함하는 항목들에 따라서 결정되는 스코어링 함수(score)에 따라 상기 문서들을 랭킹하는 단계를 더 포함하는, 컴퓨터 구현 방법.
- 제1항에 있어서, BAnchor에 의해 제공된 길이 표준화의 강도는 BAnchor와 관련된 다른 상수값들을 선택함으로써 조정되는, 컴퓨터 구현 방법.
- 컴퓨팅 시스템에서 실행가능한 명령을 저장하는 컴퓨터 판독가능 저장 매체로서,상기 명령은,네트워크상의 복수의 문서 각각의 콘텐츠를 평가- 상기 평가는상기 문서 내에 포함된 용어들의 빈도를 기록하는 단계; 및다른 문서를 참조하는 앵커 텍스트 엔트리 각각에 대한 앵커 텍스트 테이블에 엔트리를 형성하는 단계를 포함함 - 하는 단계,인덱스를 컴파일- 상기 컴파일은상기 문서 각각을 해당 문서에 상기 적어도 하나의 용어가 포함된 빈도와 연관시키는 메인 인덱스를 생성하는 단계; 및상기 문서 각각을 해당 문서를 참조하는 상기 앵커 텍스트 테이블 내의 앵커 텍스트 엔트리들에 리스트되어 있는 용어들의 빈도와 연관시키는 앵커 텍스트 인덱스를 생성하는 단계를 포함함 - 하는 단계,적어도 하나의 질의 용어를 포함하는 질의를 수신하는 단계,상기 적어도 하나의 질의 용어를 포함하는 상기 문서들 중 하나 이상의 문서를 식별하는 상기 질의의 결과를 산출하기 위해 상기 인덱스에 상기 질의를 적용하는 단계,상기 질의의 결과에 포함된 상기 하나 이상의 문서 각각에 대해 스코어를 생성하기 위해 스코어링 함수를 적용하는 단계,- 상기 스코어링 함수는(score)중 하나를 포함하고, 여기서wtf는 해당 문서에 소정의 질의 용어가 포함된 빈도에 가중치를 적용하는 가중된 용어 빈도;wtfAnchor는 해당 문서를 참조하는 앵커 텍스트에 상기 소정의 질의 용어가 포함된 빈도에 가중치를 적용하는 가중된 용어 빈도;k1는 상수;b는 상수;wdl은 스코어링되는 해당 문서의 길이에 가중치를 적용하는, 가중된 문서 길이;avwdl은 스코어링되는 모든 문서의 평균 가중된 문서 길이;N은 상기 네트워크 상의 문서들의 수; 그리고n은 소정의 질의 용어를 적어도 한번 포함하는 문서들의 수임 -사용자에게 표시될, 랭킹된 상기 질의의 결과의 출력을 생성하는 단계를 수행하도록 하는 명령을 포함하는, 컴퓨터 판독가능 저장 매체.
- 제9항에 있어서, 상기 문서들 각각에 대해 상기 앵커 텍스트 테이블내의 엔트리를 형성하는 단계는,상기 앵커 텍스트 엔트리를 포함하는 상기 문서를 표시하는 소스 식별자를 위해 저장하는 단계;상기 앵커 텍스트 엔트리가 참조하는 타깃 문서를 표시하는 타깃 식별자를 저장하는 단계; 및상기 앵커 텍스트 엔트리의 콘텐트에 포함되는 하나 이상의 용어들을 저장하는 단계를 포함하는, 컴퓨터 판독가능 저장 매체.
- 제9항에 있어서, BAnchor에 의해 제공된 길이 표준화의 강도는 BAnchor와 관련된 다른 상수값들을 선택함으로써 조정되는, 컴퓨터 판독가능 저장 매체.
- 제9항에 있어서, 상기 질의의 상기 랭킹된 결과의 출력이 사용자에게 표시되도록 유발하는 단계를 수행하는 명령을 더 포함하는, 컴퓨터 판독가능 저장 매체.
- 검색 엔진 시스템으로서,프로세서;복수의 문서에 대한 인덱스- 상기 인덱스는,상기 문서 각각과 상기 문서 각각에 포함된 하나 이상의 용어의 빈도를 연관시키는 메인 인덱스; 및상기 문서 각각을 참조하는 소스 문서 내의 앵커 텍스트에 포함된 하나 이상의 용어의 앵커 텍스트 빈도와 상기 문서 각각과 연관시키는 앵커 텍스트 인덱스;를 포함함 - ; 및랭킹 시스템- 상기 랭킹 시스템은,적어도 하나의 질의 용어를 포함하는 질의를 수신하고 상기 적어도 하나의 질의 용어를 포함하는 상기 문서들 중 하나 이상의 문서를 식별하기 위해 상기 인덱스에 상기 질의를 적용하도록 구성된 질의 인터페이스; 및상기 질의의 결과에 포함된 하나 이상의 문서 각각에 대해 스코어를 생성하는 스코어링 함수를 포함하며,상기 스코어링 함수는(score)이고, 여기서,wtf는 해당 문서에 소정의 질의 용어가 포함된 빈도에 가중치를 적용하는 가중된 용어 빈도;wtfAnchor는 해당 문서를 참조하는 앵커 텍스트에 상기 소정의 질의 용어가 포함된 빈도에 가중치를 적용하는 가중된 용어 빈도;k1는 상수;wdl은 스코어링되는 해당 문서의 길이에 가중치를 적용하는, 가중된 문서 길이;avwdl은 스코어링되는 모든 문서의 평균 가중된 문서 길이;N은 네트워크 상의 문서들의 수;n은 소정의 질의 용어를 적어도 한번 포함하는 문서들의 수이고,상기 랭킹 시스템은 또한 상기 질의의 결과에 포함된 문서 각각에 대해 생성된 상기 스코어에 기초하여 상기 질의의 상기 결과를 랭크하도록 구성됨 -을 포함하는, 검색 엔진 시스템.
- 제14항에 있어서,상기 복수의 문서 각각을 처리하여 해당 문서에 포함된 상기 하나 이상의 용어의 빈도를 결정함으로써 상기 인덱스를 구축하도록 구성된 크롤러(crawler)를 더 포함하는, 검색 엔진 시스템.
- 제15항에 있어서,상기 크롤러는 상기 복수의 문서 각각을 처리하여 다른 문서를 각각 참조하는 하나 이상의 앵커 텍스트 엔트리들을 식별함으로써 상기 인덱스를 구축하도록 더 구성된, 검색 엔진 시스템.
- 제16항에 있어서,상기 크롤러는 앵커 텍스트 테이블을 생성하도록 더 구성 - 앵커 텍스트 엔트리를 포함하는 상기 문서들 각각을 위해 엔트리가 형성되고 상기 앵커 텍스트 테이블은상기 앵커 텍스트 엔트리를 포함하는 상기 문서를 표시하는 소스 식별자;상기 앵커 텍스트 엔트리가 참조하는 타깃 문서를 표시하는 타깃 식별자; 및상기 앵커 텍스트 엔트리의 콘텐트에 포함되는 하나 이상의 용어들중에서 하나 이상을 포함함 - 되는, 검색 엔진 시스템.
- 제17항에 있어서,상기 크롤러는 상기 문서들 각각에 대하여,상기 문서에 포함된 상기 하나 이상의 용어들의 빈도와 해당 문서가 상기 타깃 식별자의 상기 타깃 문서로서 리스트된 상기 앵커 테이블 엔트리들의 각각에 대하여 상기 앵커 텍스트 엔트리의 상기 콘텐트에 리스트된 상기 용어들의 빈도를 수집함으로써 상기 인덱스를 생성하도록 더 구성된, 검색 엔진 시스템.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/955,462 US7739277B2 (en) | 2004-09-30 | 2004-09-30 | System and method for incorporating anchor text into ranking search results |
US10/955,462 | 2004-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060049708A KR20060049708A (ko) | 2006-05-19 |
KR101076894B1 true KR101076894B1 (ko) | 2011-10-25 |
Family
ID=35478739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050058224A KR101076894B1 (ko) | 2004-09-30 | 2005-06-30 | 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7739277B2 (ko) |
EP (1) | EP1643383B1 (ko) |
JP (1) | JP4763354B2 (ko) |
KR (1) | KR101076894B1 (ko) |
CN (1) | CN1755678B (ko) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US20060161543A1 (en) * | 2005-01-19 | 2006-07-20 | Tiny Engine, Inc. | Systems and methods for providing search results based on linguistic analysis |
US7599917B2 (en) * | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7711732B2 (en) * | 2006-04-21 | 2010-05-04 | Yahoo! Inc. | Determining related terms based on link annotations of documents belonging to search result sets |
WO2007134184A2 (en) | 2006-05-10 | 2007-11-22 | Google Inc. | Presenting search result information |
EP1862916A1 (en) * | 2006-06-01 | 2007-12-05 | Microsoft Corporation | Indexing Documents for Information Retrieval based on additional feedback fields |
US8555182B2 (en) | 2006-06-07 | 2013-10-08 | Microsoft Corporation | Interface for managing search term importance relationships |
US7624104B2 (en) * | 2006-06-22 | 2009-11-24 | Yahoo! Inc. | User-sensitive pagerank |
CN100456296C (zh) * | 2006-06-28 | 2009-01-28 | 腾讯科技(深圳)有限公司 | 一种多媒体文件搜索引擎的排序方法 |
US8595245B2 (en) * | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
US7562073B2 (en) * | 2006-08-02 | 2009-07-14 | Sap Ag | Business object search using multi-join indexes and extended join indexes |
US8458207B2 (en) * | 2006-09-15 | 2013-06-04 | Microsoft Corporation | Using anchor text to provide context |
US7672943B2 (en) * | 2006-10-26 | 2010-03-02 | Microsoft Corporation | Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling |
US7788253B2 (en) | 2006-12-28 | 2010-08-31 | International Business Machines Corporation | Global anchor text processing |
US7657507B2 (en) * | 2007-03-02 | 2010-02-02 | Microsoft Corporation | Pseudo-anchor text extraction for vertical search |
KR100871470B1 (ko) * | 2007-04-12 | 2008-12-03 | 주식회사 케이티프리텔 | 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법 |
US7853603B2 (en) * | 2007-05-23 | 2010-12-14 | Microsoft Corporation | User-defined relevance ranking for search |
CN101399818B (zh) * | 2007-09-25 | 2012-08-29 | 日电(中国)有限公司 | 基于导航路径信息的主题相关网页过滤方法和系统 |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7840569B2 (en) * | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US7958136B1 (en) * | 2008-03-18 | 2011-06-07 | Google Inc. | Systems and methods for identifying similar documents |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US9342607B2 (en) * | 2009-06-19 | 2016-05-17 | International Business Machines Corporation | Dynamic inference graph |
US10007705B2 (en) | 2010-10-30 | 2018-06-26 | International Business Machines Corporation | Display of boosted slashtag results |
US10726083B2 (en) | 2010-10-30 | 2020-07-28 | International Business Machines Corporation | Search query transformations |
CN102023989B (zh) * | 2009-09-23 | 2012-10-10 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US20120036122A1 (en) * | 2010-08-06 | 2012-02-09 | Yahoo! Inc. | Contextual indexing of search results |
EP2633444A4 (en) * | 2010-10-30 | 2017-06-21 | International Business Machines Corporation | Transforming search engine queries |
CN102567326B (zh) * | 2010-12-14 | 2014-09-03 | 中国移动通信集团湖南有限公司 | 一种信息搜索、及信息搜索排序装置和方法 |
CN102567417A (zh) * | 2010-12-31 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 一种用于确定超链接的锚文本可信度的分析设备和方法 |
US8463799B2 (en) * | 2011-06-29 | 2013-06-11 | International Business Machines Corporation | System and method for consolidating search engine results |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
CN103309894B (zh) * | 2012-03-15 | 2016-04-27 | 阿里巴巴集团控股有限公司 | 基于用户属性的搜索实现方法及系统 |
WO2013142852A1 (en) * | 2012-03-23 | 2013-09-26 | Sententia, LLC | Method and systems for text enhancement |
JP5870815B2 (ja) * | 2012-03-29 | 2016-03-01 | 大日本印刷株式会社 | 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム |
US9348846B2 (en) | 2012-07-02 | 2016-05-24 | Google Inc. | User-navigable resource representations |
CN103106278A (zh) * | 2013-02-18 | 2013-05-15 | 人民搜索网络股份公司 | 权重值的获取方法及装置 |
US9607038B2 (en) * | 2013-03-15 | 2017-03-28 | International Business Machines Corporation | Determining linkage metadata of content of a target document to source documents |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US10733164B2 (en) | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US11281639B2 (en) | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US10229143B2 (en) | 2015-06-23 | 2019-03-12 | Microsoft Technology Licensing, Llc | Storage and retrieval of data from a bit vector search index |
US10552465B2 (en) * | 2016-02-18 | 2020-02-04 | Microsoft Technology Licensing, Llc | Generating text snippets using universal concept graph |
US11115279B2 (en) * | 2018-12-07 | 2021-09-07 | Hewlett Packard Enterprise Development Lp | Client server model for multiple document editor |
US11455312B1 (en) | 2019-11-20 | 2022-09-27 | Sabre Glbl Inc. | Data query system with improved response time |
CN112183087A (zh) * | 2020-09-27 | 2021-01-05 | 武汉华工安鼎信息技术有限责任公司 | 一种敏感文本识别的系统和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
JP2003067419A (ja) | 2001-08-24 | 2003-03-07 | Toshiba Corp | 情報検索方法および情報検索システム |
Family Cites Families (184)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5222236A (en) * | 1988-04-29 | 1993-06-22 | Overdrive Systems, Inc. | Multiple integrated document assembly data processing system |
US5257577A (en) * | 1991-04-01 | 1993-11-02 | Clark Melvin D | Apparatus for assist in recycling of refuse |
US6202058B1 (en) * | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
US5606609A (en) * | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
US5594660A (en) * | 1994-09-30 | 1997-01-14 | Cirrus Logic, Inc. | Programmable audio-video synchronization method and apparatus for multimedia systems |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5933851A (en) | 1995-09-29 | 1999-08-03 | Sony Corporation | Time-stamp and hash-based file modification monitor with multi-user notification and method thereof |
US5974455A (en) * | 1995-12-13 | 1999-10-26 | Digital Equipment Corporation | System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
WO1998014906A1 (fr) | 1996-10-02 | 1998-04-09 | Nippon Telegraph And Telephone Corporation | Procede et appareil d'affichage graphique de structure hierarchique |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US5960383A (en) | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US5848404A (en) | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
US6256675B1 (en) | 1997-05-06 | 2001-07-03 | At&T Corp. | System and method for allocating requests for objects and managing replicas of objects on a network |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
JPH1125104A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
JPH1125119A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | ハイパーテキスト閲覧システム |
US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6182113B1 (en) | 1997-09-16 | 2001-01-30 | International Business Machines Corporation | Dynamic multiplexing of hyperlinks and bookmarks |
US6070191A (en) * | 1997-10-17 | 2000-05-30 | Lucent Technologies Inc. | Data distribution techniques for load-balanced fault-tolerant web access |
US6351467B1 (en) * | 1997-10-27 | 2002-02-26 | Hughes Electronics Corporation | System and method for multicasting multimedia content |
US6594682B2 (en) * | 1997-10-28 | 2003-07-15 | Microsoft Corporation | Client-side system for scheduling delivery of web content and locally managing the web content |
US6128701A (en) | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6473752B1 (en) | 1997-12-04 | 2002-10-29 | Micron Technology, Inc. | Method and system for locating documents based on previously accessed documents |
US6389436B1 (en) | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6145003A (en) | 1997-12-17 | 2000-11-07 | Microsoft Corporation | Method of web crawling utilizing address mapping |
US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
KR100285265B1 (ko) | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US6125361A (en) * | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
US6151595A (en) | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
US6240407B1 (en) * | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6098064A (en) | 1998-05-22 | 2000-08-01 | Xerox Corporation | Prefetching and caching documents according to probability ranked need S list |
US6285367B1 (en) | 1998-05-26 | 2001-09-04 | International Business Machines Corporation | Method and apparatus for displaying and navigating a graph |
US6182085B1 (en) * | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
US6208988B1 (en) * | 1998-06-01 | 2001-03-27 | Bigchalk.Com, Inc. | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes |
WO1999064964A1 (en) * | 1998-06-08 | 1999-12-16 | Kaufman Consulting Services Ltd. | Method and system for retrieving relevant documents from a database |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6216123B1 (en) * | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
AU775871B2 (en) | 1998-08-26 | 2004-08-19 | Fractal Maps Limited | Methods and devices for mapping data files |
US6549897B1 (en) * | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
US6360215B1 (en) * | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
US6628304B2 (en) | 1998-12-09 | 2003-09-30 | Cisco Technology, Inc. | Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6922699B2 (en) * | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
US6418433B1 (en) * | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
US6862710B1 (en) | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
US6510406B1 (en) | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6763496B1 (en) | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
US6327590B1 (en) | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
US7835943B2 (en) | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US7072888B1 (en) * | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
US6973490B1 (en) | 1999-06-23 | 2005-12-06 | Savvis Communications Corp. | Method and system for object-level web performance and analysis |
US6547829B1 (en) * | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US7181438B1 (en) * | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
US6598047B1 (en) * | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
US6442606B1 (en) | 1999-08-12 | 2002-08-27 | Inktomi Corporation | Method and apparatus for identifying spoof documents |
US6636853B1 (en) | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
AU1039301A (en) | 1999-10-29 | 2001-05-08 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6263364B1 (en) * | 1999-11-02 | 2001-07-17 | Alta Vista Company | Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness |
US6351755B1 (en) * | 1999-11-02 | 2002-02-26 | Alta Vista Company | System and method for associating an extensible set of data with documents downloaded by a web crawler |
US6418453B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service for efficient web crawling |
US6418452B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
US6539376B1 (en) * | 1999-11-15 | 2003-03-25 | International Business Machines Corporation | System and method for the automatic mining of new relationships |
US6886129B1 (en) | 1999-11-24 | 2005-04-26 | International Business Machines Corporation | Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages |
US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
US6546388B1 (en) * | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US6883135B1 (en) * | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US7240067B2 (en) | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US6931397B1 (en) | 2000-02-11 | 2005-08-16 | International Business Machines Corporation | System and method for automatic generation of dynamic search abstracts contain metadata by crawler |
US6910029B1 (en) * | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
US6516312B1 (en) * | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6633867B1 (en) | 2000-04-05 | 2003-10-14 | International Business Machines Corporation | System and method for providing a session query within the context of a dynamic search result set |
US6549896B1 (en) * | 2000-04-07 | 2003-04-15 | Nec Usa, Inc. | System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling |
US6718365B1 (en) * | 2000-04-13 | 2004-04-06 | International Business Machines Corporation | Method, system, and program for ordering search results using an importance weighting |
US6772160B2 (en) * | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
US6741986B2 (en) * | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
JP3573688B2 (ja) | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6601075B1 (en) * | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US6633868B1 (en) | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US7080073B1 (en) * | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US6959326B1 (en) | 2000-08-24 | 2005-10-25 | International Business Machines Corporation | Method, system, and program for gathering indexable metadata on content at a data repository |
JP3472540B2 (ja) | 2000-09-11 | 2003-12-02 | 日本電信電話株式会社 | サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体 |
US6598051B1 (en) * | 2000-09-19 | 2003-07-22 | Altavista Company | Web page connectivity server |
US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
US7200606B2 (en) * | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
US6622140B1 (en) * | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
JP2002157271A (ja) * | 2000-11-20 | 2002-05-31 | Yozan Inc | ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法 |
US7925967B2 (en) * | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
US20020078045A1 (en) * | 2000-12-14 | 2002-06-20 | Rabindranath Dutta | System, method, and program for ranking search results using user category weighting |
US6778997B2 (en) | 2001-01-05 | 2004-08-17 | International Business Machines Corporation | XML: finding authoritative pages for mining communities based on page structure criteria |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20020103798A1 (en) | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US20020107886A1 (en) | 2001-02-07 | 2002-08-08 | Gentner Donald R. | Method and apparatus for automatic document electronic versioning system |
US7571177B2 (en) * | 2001-02-08 | 2009-08-04 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
US7269545B2 (en) | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US20020169770A1 (en) | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US6738764B2 (en) * | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
IES20020336A2 (en) * | 2001-05-10 | 2002-11-13 | Changing Worlds Ltd | Intelligent internet website with hierarchical menu |
US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7039234B2 (en) * | 2001-07-19 | 2006-05-02 | Microsoft Corporation | Electronic ink as a software object |
US6928425B2 (en) * | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
US7076483B2 (en) * | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
US6766422B2 (en) * | 2001-09-27 | 2004-07-20 | Siemens Information And Communication Networks, Inc. | Method and system for web caching based on predictive usage |
US6944609B2 (en) | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
US7428695B2 (en) | 2001-10-22 | 2008-09-23 | Hewlett-Packard Development Company, L.P. | System for automatic generation of arbitrarily indexed hyperlinked text |
US6763362B2 (en) * | 2001-11-30 | 2004-07-13 | Micron Technology, Inc. | Method and system for updating a search engine |
JP3871201B2 (ja) | 2002-01-29 | 2007-01-24 | ソニー株式会社 | コンテンツ提供取得システム |
US6829606B2 (en) | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
JP4021681B2 (ja) | 2002-02-22 | 2007-12-12 | 日本電信電話株式会社 | ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 |
US6934714B2 (en) | 2002-03-04 | 2005-08-23 | Intelesis Engineering, Inc. | Method and system for identification and maintenance of families of data records |
US7693830B2 (en) * | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
US20040006559A1 (en) * | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
AU2003243533A1 (en) | 2002-06-12 | 2003-12-31 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
CA2395905A1 (en) * | 2002-07-26 | 2004-01-26 | Teraxion Inc. | Multi-grating tunable chromatic dispersion compensator |
US7152059B2 (en) | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
US7013458B2 (en) * | 2002-09-09 | 2006-03-14 | Sun Microsystems, Inc. | Method and apparatus for associating metadata attributes with program elements |
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7386527B2 (en) * | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
US7020648B2 (en) * | 2002-12-14 | 2006-03-28 | International Business Machines Corporation | System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata |
US20040148278A1 (en) * | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
US20040181515A1 (en) * | 2003-03-13 | 2004-09-16 | International Business Machines Corporation | Group administration of universal resource identifiers with members identified in search result |
US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7028029B2 (en) * | 2003-03-28 | 2006-04-11 | Google Inc. | Adaptive computation of ranking |
US7216123B2 (en) * | 2003-03-28 | 2007-05-08 | Board Of Trustees Of The Leland Stanford Junior University | Methods for ranking nodes in large directed graphs |
US7451129B2 (en) | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
US7451130B2 (en) * | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
US7051023B2 (en) * | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7197497B2 (en) * | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
US7308643B1 (en) | 2003-07-03 | 2007-12-11 | Google Inc. | Anchor tag indexing in a web crawler system |
US20050060186A1 (en) * | 2003-08-28 | 2005-03-17 | Blowers Paul A. | Prioritized presentation of medical device events |
US7505964B2 (en) * | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US20050071328A1 (en) * | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
US7693827B2 (en) * | 2003-09-30 | 2010-04-06 | Google Inc. | Personalization of placed content ordering in search results |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7552109B2 (en) * | 2003-10-15 | 2009-06-23 | International Business Machines Corporation | System, method, and service for collaborative focused crawling of documents on a network |
US20050086192A1 (en) * | 2003-10-16 | 2005-04-21 | Hitach, Ltd. | Method and apparatus for improving the integration between a search engine and one or more file servers |
US7231399B1 (en) * | 2003-11-14 | 2007-06-12 | Google Inc. | Ranking documents based on large data sets |
US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US20050160107A1 (en) * | 2003-12-29 | 2005-07-21 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
US7483891B2 (en) * | 2004-01-09 | 2009-01-27 | Yahoo, Inc. | Content presentation and management system associating base content and relevant additional content |
US7392278B2 (en) | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
US7499913B2 (en) * | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US7281002B2 (en) | 2004-03-01 | 2007-10-09 | International Business Machine Corporation | Organizing related search results |
US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
US7343374B2 (en) | 2004-03-29 | 2008-03-11 | Yahoo! Inc. | Computation of page authority weights using personalized bookmarks |
US7693825B2 (en) | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US20050251499A1 (en) | 2004-05-04 | 2005-11-10 | Zezhen Huang | Method and system for searching documents using readers valuation |
US7257577B2 (en) | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
US7260573B1 (en) | 2004-05-17 | 2007-08-21 | Google Inc. | Personalizing anchor text scores in a search engine |
US20050283473A1 (en) | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
US7363296B1 (en) * | 2004-07-01 | 2008-04-22 | Microsoft Corporation | Generating a subindex with relevant attributes to improve querying |
US7428530B2 (en) | 2004-07-01 | 2008-09-23 | Microsoft Corporation | Dispersing search engine results by using page category information |
US20060036598A1 (en) * | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
WO2006042142A2 (en) | 2004-10-07 | 2006-04-20 | Bernard Widrow | Cognitive memory and auto-associative neural network based pattern recognition and searching |
KR100932318B1 (ko) * | 2005-01-18 | 2009-12-16 | 야후! 인크. | 웹 검색 기술 및 웹 컨텐트와 결합된 후원 검색 목록의매칭 및 랭킹 |
US7689615B2 (en) | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Ranking results using multiple nested ranking |
US7574436B2 (en) | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
US20060206460A1 (en) | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
JP5632124B2 (ja) * | 2005-03-18 | 2014-11-26 | サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー | 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム |
US20060282455A1 (en) | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
US7599917B2 (en) * | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7716226B2 (en) * | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US20070150473A1 (en) * | 2005-12-22 | 2007-06-28 | Microsoft Corporation | Search By Document Type And Relevance |
US7685091B2 (en) | 2006-02-14 | 2010-03-23 | Accenture Global Services Gmbh | System and method for online information analysis |
-
2004
- 2004-09-30 US US10/955,462 patent/US7739277B2/en not_active Expired - Fee Related
-
2005
- 2005-06-09 EP EP05105048A patent/EP1643383B1/en not_active Not-in-force
- 2005-06-15 JP JP2005175173A patent/JP4763354B2/ja not_active Expired - Fee Related
- 2005-06-30 KR KR1020050058224A patent/KR101076894B1/ko not_active IP Right Cessation
- 2005-07-25 CN CN2005100882135A patent/CN1755678B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
JP2003067419A (ja) | 2001-08-24 | 2003-03-07 | Toshiba Corp | 情報検索方法および情報検索システム |
Also Published As
Publication number | Publication date |
---|---|
KR20060049708A (ko) | 2006-05-19 |
JP4763354B2 (ja) | 2011-08-31 |
US20060074871A1 (en) | 2006-04-06 |
CN1755678B (zh) | 2010-08-25 |
EP1643383A1 (en) | 2006-04-05 |
JP2006107433A (ja) | 2006-04-20 |
US7739277B2 (en) | 2010-06-15 |
CN1755678A (zh) | 2006-04-05 |
EP1643383B1 (en) | 2013-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101076894B1 (ko) | 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법 | |
US7792833B2 (en) | Ranking search results using language types | |
US7827181B2 (en) | Click distance determination | |
US7761448B2 (en) | System and method for ranking search results using click distance | |
US20060200460A1 (en) | System and method for ranking search results using file types | |
US8606781B2 (en) | Systems and methods for personalized search | |
US8285702B2 (en) | Content analysis simulator for improving site findability in information retrieval systems | |
US8650483B2 (en) | Method and apparatus for improving the readability of an automatically machine-generated summary | |
KR101683311B1 (ko) | 검색 결과 순위 지정을 위한 정적 관련성 특징으로서 문서 길이를 이용한 정보 제공 방법, 시스템 및 컴퓨터 판독가능 저장 매체 | |
KR101311050B1 (ko) | 문서 사용 통계치를 사용한 랭킹 함수 | |
US9081861B2 (en) | Uniform resource locator canonicalization | |
US20050198559A1 (en) | Document information management system, document information management program, and document information management method | |
US20050165757A1 (en) | Method and apparatus for ranking web page search results | |
US20090187550A1 (en) | Specifying relevance ranking preferences utilizing search scopes | |
US20080114753A1 (en) | Method and a device for ranking linked documents | |
US20100131485A1 (en) | Method and system for automatic construction of information organization structure for related information browsing | |
US7996410B2 (en) | Word pluralization handling in query for web search | |
US8914359B2 (en) | Ranking documents with social tags | |
JP2003186912A (ja) | Webページ検索の適合度計算方法とその装置、Webページ検索の検索結果表示方法とその装置、並びにそれらの方法の実行プログラムとそれらの方法の実行プログラムを記録した記録媒体 | |
KR100645711B1 (ko) | 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 | |
JP4220483B2 (ja) | 情報収集システム、情報収集方法及びプログラム | |
Saoud et al. | Exploiting social annotations to generate resource descriptions in a distributed environment: Cooperative multi-agent simulation on query-based sampling | |
Kapila et al. | Impact of Page rank and Citation Count Algorithm for Digital Libraries-A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |