KR100974906B1

KR100974906B1 - 위치와 관련하여 신뢰성 있는 문서를 식별하는 시스템 및 방법

Info

Publication number: KR100974906B1
Application number: KR1020077017453A
Authority: KR
Inventors: 다니엘 에그노르; 지타 차우드리
Original assignee: 구글 인코포레이티드
Priority date: 2004-12-30
Filing date: 2005-12-30
Publication date: 2010-08-09
Also published as: CA2593424A1; EP1859367A1; JP2008527505A; JP4708436B2; CN101128822A; WO2006074056A1; US20120173544A1; US20060149800A1; US8650197B2; KR20070094941A

Abstract

시스템은 위치와 연관된 문서를 결정하고, 각각의 문서와 연관된 신호의 그룹을 식별하며, 상기 신호에 기초하여 상기 위치에 대한 상기 문서의 신뢰성을 결정한다.

문서, 식별, 신뢰성, 위치, 아웃링크

Description

위치와 관련하여 신뢰성 있는 문서를 식별하는 시스템 및 방법 {SYSTEM AND METHOD FOR IDENTIFYING AUTHORITATIVE DOCUMENTS RELATED TO A LOCATION}

본 명세서에 개시된 실시예들은 일반적으로 정보 검색에 관한 것으로, 더욱 구체적으로는 위치에 대한 문서의 신뢰성(authoritativeness)의 식별에 관한 것이다.

현대의 컴퓨터 네트워크, 특히 인터넷은 널리 쉽게 이용 가능한 대규모 정보의 조직체(body)로 이루어져 있다. 예를 들면, 인터넷 검색 엔진은 인터넷에 링크된 수백만의 웹 문서를 색인화(index)한다. 인터넷에 접속된 사용자는 검색 질의와 관련된 웹 문서를 신속하게 찾기 위해 간단한 검색 질의를 입력할 수 있다.

흔히, 사용자는 특정한 위치(장소)에 관한 문서를 찾는데 관심이 있다. 하지만 위치에 대해 신뢰성 있는 문서는 해당 위치에 대한 주소를 포함하지 않을 수 있다. 때로, 상기 주소는 분석(예컨대, 색인화)될 수 없는 하위 문서(sub-document)나 이미지 중에 위치되어 있다. 이것은 신뢰성 있는 문서의 식별을 어렵게 한다.

일 실시양태에 따르면, 컴퓨터로 판독 가능한 매체는 위치와 연관된 문서를 결정하기 위한 명령어; 상기 문서와 연관된 한 세트의 신호를 결정하기 위한 명령어, 및 상기 신호에 기초하여 상기 위치에 대한 상기 문서의 신뢰성을 결정하기 위한 명령어를 포함하는, 컴퓨터에서 실행 가능한 명령어를 저장할 수 있다.

본 명세서에 통합되어 본 명세서에 일부를 구성하는 첨부도면은 본 발명의 실시예를 예시한 것으로, 상세한 설명(description)과 함께 본 발명을 설명하는 것이다.

도 1은 본 발명의 원리와 일치하는 개념을 설명하는 대표적인 도면이다.

도 2는 본 발명의 원리와 일치하는 시스템 및 방법이 구현될 수 있는 네트워크의 대표적인 예를 나타낸 도면이다.

도 3은 본 발명의 원리와 일치하는 실시예에 따른, 도 2의 클라이언트 또는 서버의 대표적인 예를 나타낸 도면이다.

도 4는 본 발명의 원리와 일치하는 실시예에 따른 위치에 대한 문서의 신뢰성을 결정하기 위한 처리의 대표적인 예를 나타낸 흐름도이다.

도 5는 본 발명의 원리와 일치하는 실시예에 따른 문서를 후보 문서로 선택할 수 있는 방법을 설명하는 대표적인 도면이다.

도 6은 본 발명의 원리와 일치하는 실시예에 따라 문서의 신뢰성을 식별할 때 고려될 수 있는 신호의 대표적인 예를 나타낸 도면이다.

이하, 첨부도면을 참조하여 본 발명에 대해 상세하게 설명한다. 상이한 도면에서의 동일한 도면부호는 동일하거나 유사한 구성요소임을 알 수 있다. 또한, 이하의 상세한 설명은 본 발명을 제한하는 것이 아니다.

개요

도 1은 본 발명의 원리와 일치하는 개념을 설명하는 대표적인 도면이다. 로컬 문서의 코퍼스(corpus)(100)를 고찰해보자. 상기 문서는 반드시 동일한 지리적 지역은 아니지만, 특정한 지리적 지역과 연관되어 있다는 의미에서 로컬 문서이다. 예를 들면, 비즈니스 목록과 관련 있는 문서는, 해당 비즈니스의 특정한 주소와 연관되어있기 때문에 로컬 문서로 간주될 수 있다.

코퍼스(100) 내의 문서를 분석하여, 연관되어 있는 위치를 결정할 수 있다. 예를 들면, 세트(110) 내의 문서는 동일한 위치에 관련한 것이라고 가정하자. 세트(110) 내의 문서 각각은 일정한 방식으로 위치를 나타낼 수 있다. 예를 들면, 세트(110) 내의 문서는 그 위치에서의 비즈니스, 비즈니스의 주소, 및/또는 비즈니스와 연관된 전화번호를 언급할 수 있다. 세트(110) 내의 문서 중 하나는 문서 중의 다른 것보다 위치에 대해 신뢰성이 더 높을 수 있다. 예를 들면, 상기 위치의 레스토랑의 홈 페이지에 대응하는 문서는 그 레스토랑에 관한 비평에 대응하는 문서보다 위치에 대한 신뢰성이 더 높은 것으로 생각될 수 있다. 본 발명의 원리와 일치하는 시스템 및 방법은 위치와 연관된 문서의 신뢰성을 결정할 수 있다..

여기에서 사용된 용어인 "문서(document)"는, 소정의 기계로 판독 가능하고 기계로 저장 가능한 자료(work product)를 포함하는 것으로 광의로 해석되어야 한다. 문서는, 예를 들면 이메일, 웹 사이트, 비즈니스 목록, 파일, 파일들의 조합, 다른 파일에 대한 링크가 삽입된 하나 이상의 파일, 뉴스 그룹 포스팅, 블로그, 웹 광고 등을 포함할 수 있다. 인터넷 환경에서, 일반적인 문서는 웹 페이지이다. 웹 페이지는 흔히 텍스트 정보를 포함하고, (메타 정보, 이미지, 하이퍼링크 등과 같은) 삽입된 정보 및/또는 (자바스크립트 등과 같은) 삽입된 명령어를 포함할 수 있다. 여기에서 사용된 용어인 "링크(link)"는 다른 문서 또는 동일한 문서의 다른 부분으로부터의 어떤 문서에 대한 소정의 참조(reference) 및 어떤 문서로부터의 다른 문서 또는 동일한 문서의 다른 부분에 대한 소정의 참조를 포함하는 것으로 광의로 해석되어야 한다.

대표적인 네트워크 구성

도 2는 본 발명의 원리와 일치하는 시스템 및 방법이 구현될 수 있는 네트워크(200)의 대표적인 예를 나타낸 도면이다. 네트워크(200)는 네트워크(250)를 통해 복수의 서버(220-240)와 연결된 복수의 클라이언트(210)를 포함할 수 있다. 간결하게, 두 개의 클라이언트(210)와 세 개의 서버(220-240)가 네트워크(250)에 연결되어 있는 것으로 예시하였다. 실제로, 클라언트와 서버는 더 많거나 더 적을 수 있다. 또, 어떤 경우에는 클라이언트가 서버의 기능을 수행할 수 있고, 서버가 클라이언트의 기능을 수행할 수도 있다.

클라이언트(210)는 클라이언트 엔티티(entity)를 포함할 수 있다. 엔티티는 무선 전화, 개인용 컴퓨터, 개인용 휴대 정보 단말기(personal digital assistant, PDA), 랩톱 컴퓨터, 또는 다른 타입의 계산 또는 통신 디바이스와 같은 디바이스; 이들 디바이스 중 하나에서 실행되는 스레드(thread)나 프로세스(process); 및/또는 이들 디바이스 중 하나에 의해 실행 가능한 객체(object)로서 규정될 수 있다. 서버(220-240)는 본 발명의 원리와 일치하는 방식으로 문서를 수집(gather), 처리, 검색, 및/또는 유지하는 서버 엔티티들을 포함할 수 있다.

본 발명의 원리와 일치하는 실시예에서, 서버(220)는 클라이언트(21)가 사용 가능한 검색 시스템(225)을 포함할 수 있다. 서버(220)는 문서들의 코퍼스(예를 들면, 웹 문서들)에 접근(crawl)할 수 있고, 그 문서들을 색인화(index)할 수 있으며, 그 문서들과 연관된 정보를 문서들의 저장소에 저장할 수 있다. 서버(230, 240)는, 서버(220)에 의해 접근 또는 분석될 수 있는 문서들을 저장하거나 유지할 수 있다.

서버(220-240)는 별개의 엔티티로 도시되어 있지만, 서버(220-240) 중 하나 이상은 서버(220-240) 중 다른 하나 이상이 갖는 기능 중 하나 이상을 수행하는 것이 가능할 수 있다. 예를 들면, 서버(220-240) 중 둘 이상이 단일 서버로서 구현될 수도 있다. 또한, 서버(220-240) 중 단일한 하나가 둘 이상의 개별 (어쩌면 분산된) 디바이스로서 구현될 수도 있다.

네트워크(250)는 LAN(Local Area Network), WAN(Wide Area Network), PSTN(Pubic Switched Telephone Network)와 같은 전화망, 인트라넷, 인터넷, 메모리 디바이스 또는 네트워크의 조합을 포함할 수 있다. 클라이언트(210)와 서버(220-240)는 유선, 무선, 및/또는 광학적 접속을 통해 네트워크(250)에 연결될 수 있다.

대표적인 서버 아키텍처

도 3은 본 발명의 원리와 일치하는 실시예에 따른, 클라이언트(210) 및/또는 서버(220-240) 중 하나 이상에 대응할 수 있는 클라이언트 또는 서버 엔티티(이하, "클라이언트/서버 엔티티"라고 한다)의 대표적인 예를 나타낸 도면이다. 클라이언트/서버 엔티티는 버스(310), 프로세서(320)), 주 메모리(330), ROM(Read Only Memory)(340), 스토리지 디바이스(350), 입력 디바이스(360), 출력 디바이스(370), 및 통신 인터페이스(380)를 포함할 수 있다. 버스(310)는 클라이언트/서버 엔티티의 구성요소 사이의 통신을 가능하게 하는 경로를 포함할 수 있다.

프로세서(320)는 명령어를 해석하고 실행하는, 종래의 프로세서, 마이크로프로세서 또는 처리 논리회로(processing logic)를 포함할 수 있다. 주 메모리(330)는 프로세서(320)에서 실행하기 위한 정보 및 명령어를 저장할 수 있는 RAM(Random Access Memory) 또는 다른 타입의 동적 스토리지 디바이스(dynamic storage device)를 포함할 수 있다. ROM(340)은 프로세서(320)가 사용하는 정적인 정보 및 명령어를 저장하는 종래의 ROM 디바이스 또는 다른 타입의 정적 스토리지 디바이스를 포함할 수 있다. 스토리지 디바이스(350)는 자기 기록 매체 및/또는 광학 기록 매체와 그에 대응하는 드라이브를 포함할 수 있다.

입력 디바이스(360)는 키보드, 마우스, 펜, 음성 인식(voice recognition) 장치 및/또는 바이오메트릭(biometric) 장치 등과 같이, 조작자가 클라이언트/서버 엔티티에 정보를 입력할 수 있도록 해주는 종래의 장치를 포함할 수 있다. 출력 디바이스(370)는 디스플레이, 프린터, 스피커 등을 포함하여, 조작자에게 정보를 출력하는 이상의 종래의 장치를 포함할 수 있다. 통신 인터페이스(380)는 클라이언트/서버 엔티티가 다른 디바이스 및/또는 시스템과 통신할 수 있도록 해주는 임 의의 송수신기형(transceiver-like) 장치를 포함할 수 있다. 예를 들면, 통신 인터페이스(380)는 네트워크(250)와 같은 네트워크를 통해 다른 디바이스 또는 시스템과 통신하는 장치를 포함할 수 있다.

이하에 상세하게 설명하는 바와 같이, 본 발명의 원리와 일치하는 클라이언트/서버 엔티티는 일정한 문서 처리 관련 동작(document processing-related operation)을 수행할 수 있다. 클라이언트/서버 엔티티는 주 메모리(330)와 같은 컴퓨터로 판독 가능한 매체에 저장된 소프트웨어 명령어를 실행하는 프로세서(320)에 응답하여 이들 동작을 수행할 수 있다. 컴퓨터로 판독 가능한 매체는 물리 또는 논리 메모리 디바이스 및/또는 반송파(carrier wave, 搬送波)로서 규정될 수 있다.

소프트웨어 명령어는 데이터 스토리지 디바이스(350)와 같은, 다른 컴퓨터로 판독 가능한 매체로부터, 또는 통신 인터페이스(380)를 통해 다른 디바이스로부터 주 메모리(330)로 판독될 수 있다. 주 메모리(330)에 저장된 소프트웨어 명령어는 프로세서(320)로 하여금 후술할 프로세스들을 수행하도록 한다. 다르게는, 소프트웨어 명령어 대신에 또는 소프트웨어 명령어와 결합하여 고정 배선 회로(hardwired circuitry)를 사용하여 본 발명의 원리와 일치하는 프로세스들을 구현할 수 있다. 따라서, 본 발명의 원리와 일치하는 실시예들은 하드웨어 회로와 소프트웨어의 어떤 특정 조합으로 한정되는 것은 아니다.

대표적인 처리

도 4는 본 발명의 원리와 일치하는 실시예에 따른 위치에 대한 문서의 신뢰 성을 결정하기 위한 대표적인 처리의 흐름도이다. 일 실시예에서, 도 4의 처리는 서버(220)에 의해 실행된다. 다른 실시예에서, 도 4의 처리는 다른 디바이스 또는 디바이스의 그룹에 의해 실행된다.

처리는 특정한 위치와 연관된 후보 문서의 세트를 식별하는 것으로 시작될 수 있다(블록 410). 문서의 코퍼스를 분석하여, 위치에 대한 완전하거나 부분적인 주소, 및/또는 위치와 연관된 완전하거나 부분적인 주소와 같은, 위치와 연관된 정보를 포함하는 텍스트의 스니핏(snippet)(텍스트의 스니핏을 문서의 일부나 문서 전체로 규정할 수 있는 경우)을 식별할 수 있다. 이들 스니핏과 연관 문서는 후보 문서의 제1 그룹으로서 포함될 수 있다.

흔히, 위치와 연관된 정보를 포함하는 문서는 그 위치에 대해 신뢰성 있는 문서를 링크할 수 있다. 따라서, 제1 그룹 내의 후보 문서에 대해 링크된 문서는 후보 문서의 제2 그룹으로서 포함될 수 있다. 후보 문서의 제3 그룹은 제1 및 제2 그룹 내의 후보 문서의 주소의 스트리핑 부분(stripping portion)에 의해서와 같이, 제1 및 제2 그룹 내의 후보 문서의 주소로부터 식별될 수 있다. 예를 들면, 후보 문서가 주소 http://www.abcdef.com/ghijk/lmnop/qrst. htm을 포함한다고 가정하자. 주소 부분을 스트리핑하여 추가적인 후보 문서를 식별할 수 있다. 예를 들면, 다음의 추가적인 후보 문서가 제3 그룹(존재한다면)에 포함될 수 있다: (1) http://www.abcdef.com/ghijk/lmnop; (2) http://www.abcdef.com/ghijk; 및 (3) http://www.abcdef.com. 후보 문서의 세트는 더욱 확장될 수 있거나 해당 기술분야의 당업자에 명백한 다른 방식으로 확장될 수 있다.

후보 문서의 제1, 제2, 및 제3 그룹은 결합되어 후보 문서의 세트를 구성할 수 있다. 도 5는 본 발명의 원리와 일치하는 실시예에 따른 문서를 후보 문서로 선택할 수 있는 방법을 설명하는 대표적인 도면이다. 도 5에 도시한 바와 같이, 그룹 (A)는 위치에 대한 완전하거나 부분적인 주소, 및/또는 위치와 연관된 완전하거나 부분적인 주소, 및/또는 위치와 연관된 비즈니스에 대한 완전하거나 부분적인 명칭과 같은, 위치와 연관된 정보를 포함하는 텍스트의 스니핏을 가지는 문서를 포함할 수 있고; 그룹 (B)는 그룹 (A) 내의 문서에 대해 링크될 수 있는 문서를 포함할 수 있으며; 그룹 (C)는 그룹 (A) 및 (B) 내의 문서의 주소부터 구성된 문서를 포함할 수있다. 후보 문서의 세트는 그룹 (A), (B) 및 (C) 내의 문서로부터 구성될 수 있다.

도 4로 돌아가서, 후보 문서의 세트와 연관된 신호를 결정할 수 있다(블록 420). 이 신호는 후보 문서와 연관된 메타 데이터(meda data)에 대응할 수 있다. 신호의 한 타입은 다른 후보 문서를 가리키는 후보 문서 내에서의 아웃링크(outlink)의 수와 연관될 수 있다. 신뢰성 있는 문서는 많은 수의 후보 문서로부터의 아웃링크에 대응하는 목적지(destination)일 수 있다.

신호의 다른 타입은 후보 문서를 가리키는 아웃링크의 앵커 텍스트(anchor text)와 연관될 수 있다. 앵커 텍스트는 문서 코퍼스 내의 임의의 문서와 연관될 수 있고 앵커 텍스트가 위치와 연관된 비즈니스의 명칭의 전부 또는 일부와 일치하는지를 결정하기 위해 분석될 수 있다. 비즈니스 명칭이 부분적인 명칭 및/또는 오기(misspelling)를 포함하여, 다르게 표현될(phrased)될 수 있기 때문에 텍스트 매칭은 이 상황에서 까다로울 수 있다. 이로써, 텍스트 유사성 결정 기술(text similarity technique)이 단어 및/또는 바이그램(bigram)의 출현 빈도에 기초하여 단어 및/또는 바이그램에 점수를 부여하기 위해 사용될 수 있다.

단어 및/또는 바이그램의 출현 빈도는 지리적 지역(예컨대, 우편번호) 단위로 문서를 분석함으로써 결정될 수 있다. 예를 들면, 특정한 지리적 지역과 연관되어 있는 것으로 알려진 문서의 세트 내의 모든 단어 및 바이그램을 계수할 수 있다. 바이그램 "New York(뉴욕)"은 New York city(뉴욕시) 지역에서 매우 일반적이어서, 뉴욕시 지역에 대해 계수 값(count value)이 높다고 가정하자. 또 바이그램 "Pandella Shop"은 뉴욕시 지역에서 매우 일반적이지 않아서 뉴욕시 지역에 대해 계수 값이 낮다고 가정하자.

상이한 지리적 지역에 대해, 해당 지리적 지역에 일반적이거나 일반적이지 않은 단어 및/또는 바이그램을 식별하기 위해 막대그래프를 생성할 수 있다. 위의 예에서, 뉴욕시 지역과 연관된 막대그래프는 바이그램 "New York"은 일반적이고(즉, 뉴욕시 지역과 연관된 문서에 빈번하게 출현하고), 바이그램 "Pandella Shop"은 일반적이지 않다(뉴욕시 지역과 연관된 문서에 매우 드물게 출현한다)는 것을 나타낼 수 있다.

임의의 잘 알려진 텍스트 유사성 결정 기술을 사용하여 앵커 텍스트가 위치와 연관된 비즈니스의 명칭의 전부 또는 일부와 일치하는지를 결정할 수 있다. 일반적인 단어 및/또는 바이그램(예컨대, "New York")에 대한 오기보다 일반적이지 않은 단어 및/또는 바이그램(예컨대, "Pandella Shop")에 대한 오기와 일치하는 부 분적인 텍스트 및 텍스트에 관해 더 많은 여지가 부여될 수 있다. 신뢰성 있는 문서는, 앵커 텍스트가 비즈니스의 명칭의 일부 또는 전부와 일치하는 아웃링크에 대응하는 목적지일 수 있다.

신호의 다른 타입은 후보 문서의 문서 타이틀과 연관될 수 있다. 후보 문서의 텍스트를 분석하여 문서의 타이틀이 위치와 연관된 비즈니스의 명칭의 일부 또는 전부와 일치하는지를 결정할 수 있다. 전술한 것과 유사한 텍스트 유사성 결정 기술을 사용하여 후보 문서의 타이틀이 비즈니스 명칭의 전부 또는 일부와 일치하는 경우를 결정할 수 있다. 신뢰성 있는 문서는 비즈니스 명칭과 전부 또는 일부 일치하는 타이틀을 포함할 수 있다.

신호의 다른 타입은 후보 문서와 연관된 도메인 명칭과 연관될 수 있다. 도메인 명칭의 텍스트를 분석하여 텍스트가 위치와 연관된 비즈니스 명칭의 전부 또는 일부와 일치하는지를 결정할 수 있다. 도메인 명칭은 종종 비즈니스 명칭의 모두 푸시(push) 및/또는 절단(truncate)된 버전이다(예컨대, Bob's Billiard Shop은 BobsBilliard.com 또는 BobsBilliardShop.com으로 나타날 수 있다). 전술한 텍스트 유사성 결정 기술 대신에 또는 이에 더해, 임의의 잘 알려진 하위 문자열(sub-string) 매칭 기술을 사용하여 후보 문서와 연관된 도메인 명칭이 비즈니스 명칭의 전부 또는 일부와 일치하는 경우를 결정할 수 있다. 신뢰성 있는 문서는 비즈니스 명칭과 전부 또는 일부 일치하는 도메인 명칭과 연관될 수 있다.

세트 내의 서로 다른 후보 문서에 대한 신호에 가중치를 부여하고 일정한 방식으로 결합하여 신뢰성 있는 점수(authoritative score)(이하, 신뢰 점수라고도 함)를 취득할 수 있다(블록 430). 예를 들면, 값(또는 점수)은 신호에 대해 구해질 수 있고, 그 값(또는 점수)는 일정한 방식으로 가중치가 부여될 수있다. 일 실시예에서, 앵커 텍스트 및/또는 도메인 명칭과 같은, 하나 이상의 신호와 연관된 값(또는 점수)은 다른 하나 이상의 신호와 연관된 값(또는 점수)보다 더 큰 가중치가 부여될 수 있다. 예를 들면, 이 값(또는 점수)을 서로 가산함으로써 결합하여 세트 내의 후보 문서 각각에 대한 신뢰 점수를 얻을 수 있다.

일 실시예에서, 후보 문서에 대한 신뢰 점수는, 후보 문서가 (복수의 위치와 대조적으로) 단일 위치와 연관되어 있는 경우, 증가될 수있다. 몇몇 후보 문서는 상이한 위치를 언급하지만 동일한 문서를 가리키는 텍스트(예컨대, 링크)의 스니핏을 포함할 수 있다. 예를 들면, 하나의 후보 문서는 위치 A 및 문서 A에 대한 링크를 언급할 수 있고, 다른 후보 문서는 위치 B 및 문서 A에 대한 링크도 언급할 수 있다. 또는 일부 후보 문서는 다수의 위치와 연관될 수 있다. 예를 들면, 비니지스가 복수의 위치를 가지는 경우와 같이, 후보 문서는 위치 A 및 B를 언급할 수 있다. 하나의 위치에 특정한 후보 문서에 대한 신뢰 점수는 증대될 수 있다.

후보 문서의 신뢰 점수에 기초하여 후보 문서의 신뢰성을 결정할 수 있다(블록 440). 신뢰 점수가 더 높은 문서는 신뢰 점수가 더 낮은 문서보다 더욱 신뢰성이 있는 것으로 결정될 수있다.

그런 다음 후보 문서를 그 신뢰성에 기초하여 처리할 수 있다(블록 450). 예를 들면, 후보 문서의 신뢰 점수를 사용하여 나중의 상태(phase)를 처리하거나, 순위부여(ranking), 배치(placement), 강조(emphasis), 및/또는 다른 후보 문서에 관한 사용자 인터페이스 요소를 제어할 수 있다. 예를 들면, 위치에 관한 검색 질의가 나중에 수신되면, 신뢰성이 더 높은 문서가 신뢰성이 더 낮은 문서보다 검색 결과 내에 더욱 두드러진 방식으로 표시될 수있다.

예

도 6은 본 발명의 원리와 일치하는 실시예에 따라 문서의 신뢰성을 식별할 때 고려될 수 있는 신호의 대표적인 도면이다. 도 6에 도시된 바와 같이, 문서(610)는 123 Main Street, Oakmnt, Pennsylvania 15302(펜실베니아주 오크몬트 메인 스트리트 123 (우)15302)에 위치한 Big Nick's Pizza Joint와 연관된 위치에 대해 신뢰성이 있는 것으로 결정될 수 있다(즉, 높은 신뢰 점수를 받는다). 전술한 바와 같이, 신호의 결합은 문서(610)를 위치에 대해 신뢰성 있는 것으로서 식별하는 데 사용될 수 있다.

신뢰성 있는 문서(610)는 위치 또는 비즈니스 명칭의 전부 또는 일부를 언급하는 다수의 문서로부터의 아웃링크에 대응하는 목적지이다. 신뢰성 있는 문서(610)는 또한 앵커 텍스트가 비즈니스 명칭의 전부 또는 일부와 일치하는 아웃링크에 대응하는 목적지이다(예컨대, Big Nick's Pizza Joint, Big Nick's Pizza, Big Nick's, Big Nick's Pizza Restaurant, Big Nicks Pizza, 및 Big Nick Pizza Joint). 신뢰성 있는 문서(610)는 또한 비즈니스 명칭의 전부 또는 일부와 일치하는 타이틀을 포함할 수 있다(예컨대, Big Nick's Pizza Joint). 신뢰성 있는 문서(610)는 또한 비즈니스 명칭의 전부 또는 일부와 일치하는 도메인 명칭을 포함할 수 있다(예컨대, www.bignicks.com). 신뢰성 있는 문서(610)는 또한 단일 위치와 연관될 수 있다(예컨대, 123 Main St., Oakmont, PA).

여러 신호가 가중되고 결합되는 경우, 문서(610)는 주소 123 Main Street, Oakmont, PA 15302의 비즈니스 Big Nick's Pizza Joint와 연관된 위치에 대해 높은 신뢰 점수를 받을 수 있다.

결론

본 발명의 원리와 일치하는 시스템 및 방법은, 위치와 연관된 문서의 신뢰성을 결정할 수 있다. 본 명세서에 사용된 바와 같이, "위치(location)"는 주소 및/또는 그 주소에 위치한 비즈니스를 나타내도록 의도된다.

본 발명의 바람직한 실시예에 대한 이상의 설명은, 본 발명에 대한 설명과 예시를 제공하지만, 본 발명을 총망라하거나 개시된 바로 그 형태로 한정하려는 의도는 아니다. 이상의 교시에 비추어, 또는 본 발명의 실시로부터 변경 및 변형 이 가능하다.

예를 들면, 도 4와 관련하여 일련의 동작(행위)를 설명하였지만, 본 발명의 원리와 일치하는 다른 실시예들에서 동작의 순서는 바뀔 수 있다. 또 비종속적인 동작들은 병행하여 실행될 수 있다.

이상에서 설명한 바와 같은 본 발명의 실시양태들이, 도면에 예시된 실시예에서 여러 상이한 형태의 소프트웨어, 펌웨어, 및 하드웨어로 구현될 수 있다는 것은 이 기술분야의 당업자에게 명백할 것이다. 본 발명의 원리와 일치하는 실시양태들을 구현하는데 이용되는 실제의 소프트웨어 코드 또는 전용(specialized)의 제어 하드웨어는 본 발명의 범위를 제한하지 않는다. 따라서, 본 발명의 실시양태에 대한 동작 및 작용을 특별한 소프트웨어 코드를 참조하지 않고 설명하였으며, 당업자라면 본 명세서의 상세한 설명에 기초하여 본 발명의 실시양태를 구현하기 위한 소프트웨어 및 제어 하드웨어를 설계할 수 있다는 것을 알 것이다.

본 출원의 설명에서 사용된 요소(element), 동작(act), 명령어(instruction)는 그러한 것으로 명백히 기술되지 않는 한, 본 발명에서 결정적이거나 필수적인 것으로 해석되어서는 안 된다. 또한, 여기에서 사용된 바와 같이, 관사 "a"는 하나 이상의 아이템을 포함하는 것으로 의도된다. 오직 하나의 아이템이 의도되는 경우, 용어 "하나(one)" 또는 유사한 표현을 사용한다. 또, 구 "...에 기초하여(based on)"는 명백히 다르게 나타내지 않는 한 "적어도 일부는 ...에 기초하여"를 의미하는 것으로 의도된다.

Claims

네트워크 시스템에서 신뢰성 있는 문서를 식별하는 방법으로서,

모두 동일한 위치와 연관되어 있는 한 세트의 문서를, 후보 문서로 식별하는 단계;

상기 후보 문서와 연관된 신호를 식별하는 단계;

상기 신호에 기초하여 상기 동일한 위치에서의 비즈니스에 대한 상기 후보 문서의 신뢰성(authoriativeness)의 크기(measure)를 결정하는 단계; 및

상기 동일한 위치에서의 상기 비즈니스에 대한 상기 후보 문서의 신뢰성의 크기에 기초하여 상기 후보 문서를 처리하는 단계

를 포함하고,

상기 한 세트의 문서를 식별하는 단계는,

문서 코퍼스 내에서 문서를 분석하여 상기 동일한 위치와 연관된 정보를 포함하는 텍스트의 스니핏(snippet)을 식별하는 단계, 및

상기 텍스트의 스니핏을 포함하는 문서를 상기 후보 문서로 식별하는 단계

를 포함하는,

신뢰성 있는 문서를 식별하는 방법.
삭제
제1항에 있어서,

상기 동일한 위치와 연관된 정보는, 상기 동일한 위치의 주소 전부 또는 일부, 상기 동일한 위치와 연관된 전화번호 전부 또는 일부, 또는 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부 중 적어도 하나를 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 한 세트의 문서를 식별하는 단계는,

상기 후보 문서에 링크되어 있는 문서를 식별하는 단계, 및

상기 링크되어 있는 문서를 후보 문서로 식별하는 단계

를 더 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제4항에 있어서,

상기 한 세트의 문서를 식별하는 단계는,

상기 후보 문서의 주소의 스트리핑 부분(stripping portion)에 의해 추가적인 문서를 생성하는 단계, 및

상기 추가적인 문서를 후보 문서로 식별하는 단계

를 더 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 후보 문서와 연관된 신호를 식별하는 단계는,

상기 후보 문서 중의 다른 문서를 가리키는, 상기 후보 문서 중의 문서로부터의 아웃링크(outlink)의 수를 식별하는 단계를 포함하고,

상기 후보 문서의 신뢰성의 크기를 결정하는 단계는,

상기 후보 문서 중의 다른 문서로부터 상기 후보 문서 중 하나의 문서를 가리키는 아웃링크의 수에 기초하여 상기 하나의 문서에 대한 신뢰 점수(authoriative score)를 생성하는 단계를 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 후보 문서와 연관된 신호를 식별하는 단계는,

상기 후보 문서에 대한 링크와 연관된 앵커 텍스트(anchor text)를 식별하는 단계를 포함하고,

상기 후보 문서의 신뢰성의 크기를 결정하는 단계는,

상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 앵커 텍스트가 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는 하나 이상의 링크가 상기 하나의 문서를 가리키는지에 기초하여 생성하는 단계를 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 후보 문서와 연관된 신호를 식별하는 단계는,

상기 후보 문서 중의 문서에 대한 타이틀(title)을 식별하는 단계를 포함하고,

상기 후보 문서의 신뢰성의 크기를 결정하는 단계는,

상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 상기 하나의 문서와 연관된 타이틀이 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는지에 기초하여 생성하는 단계를 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 후보 문서와 연관된 신호를 식별하는 단계는,

상기 후보 문서 중의 문서와 연관된 도메인 명칭(domain name)을 식별하는 단계를 포함하고,

상기 후보 문서의 신뢰성의 크기를 결정하는 단계는,

상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 상기 하나의 문서와 연관된 도메인 명칭이 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는지에 기초하여 생성하는 단계를 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 후보 문서와 연관된 신호를 식별하는 단계는,

상기 후보 문서 중의 문서와 연관되어 있는 위치를 식별하는 단계를 포함하고,

상기 후보 문서의 신뢰성의 크기를 결정하는 단계는,

상기 후보 문서 중 하나의 문서에 대한 신뢰성의 크기를, 상기 하나의 문서가 단일 위치와 연관되어 있는지에 기초하여 증가시키는 단계를 더 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 신호는,

상기 후보 문서 중의 다른 문서를 가리키는, 상기 후보 문서 중의 문서로부터의 아웃링크의 수,

상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는, 상기 후보 문서 중의 문서를 가리키는 링크와 연관된 앵커 텍스트,

상기 비즈니스 명칭의 전부 또는 일부와 일치하는, 상기 후보 문서 중의 문서의 타이틀, 또는

상기 비즈니스 명칭의 전부 또는 일부와 일치하는, 상기 후보 문서 중의 문서와 연관된 도메인 명칭

중 적어도 하나와 연관되어 있는, 신뢰성 있는 문서를 식별하는 방법.
제1항에 있어서,

상기 신호는, 상기 후보 문서와 연관된 복수의 상이한 타입의 데이터와 연관되어 있고,

상기 신뢰성 있는 문서를 식별하는 방법은,

상기 상이한 타입의 데이터에 가중치를 부여하는 단계;

상기 가중치가 부여된 데이터를 상기 후보 문서 중의 문서와 결합하는 단계; 및

상기 결합된, 가중치가 부여된 데이터에 기초하여 상기 후보 문서의 문서에 신뢰 점수를 할당하는 단계

를 더 포함하는, 신뢰성 있는 문서를 식별하는 방법.
제12항에 있어서,

상기 후보 문서를 처리하는 단계는,

상기 후보 문서 중 하나에 대해 그 문서의 신뢰 점수에 기초하여 순위(rank)를 부여하는 단계를 포함하는, 신뢰성 있는 문서를 식별하는 방법.
신뢰성 있는 문서를 식별하는 시스템으로서,

모두 동일한 비즈니스와 연관되어 있는 한 세트의 문서를, 후보 문서로 식별하기 위한 수단;

각각의 상기 후보 문서와 연관된 복수의 신호를 식별하기 위한 수단;

상기 복수의 신호에 기초하여 상기 동일한 비즈니스에 대한 상기 후보 문서의 신뢰성의 크기를 결정하기 위한 수단; 및

상기 동일한 비즈니스에 대한 상기 후보 문서의 신뢰성의 크기에 기초하여 상기 후보 문서를 처리하기 위한 수단

을 포함하고,

상기 한 세트의 문서를 식별하기 위한 수단은,

문서 코퍼스 내에서 문서를 분석하여 상기 동일한 비즈니스와 연관된 정보를 포함하는 텍스트의 스니핏(snippet)을 식별하기 위한 수단, 및

상기 텍스트의 스니핏을 포함하는 문서를 상기 후보 문서로 식별하기 위한 수단을 포함하는,

신뢰성 있는 문서를 식별하는 시스템.
신뢰성 있는 문서를 식별하는 시스템으로서,

명령어를 저장하기 위한 메모리; 및

상기 메모리 내의 명령어를 실행하여,

모두 동일한 위치와 연관되어 있는 한 세트의 문서를, 후보 문서로 식별하고,

각각의 상기 후보 문서와 연관된 복수의 신호를 식별하며,

상기 신호에 기초하여 상기 후보 문서에, 상기 동일한 위치에서의 비즈니스에 대한 상기 후보 문서의 신뢰성의 크기를 나타내는 신뢰 점수를 할당하고,

상기 신뢰 점수에 기초하여 상기 후보 문서를 처리하는

프로세서

를 포함하고,

상기 프로세서는, 한 세트의 문서를 식별할 때, 문서 코퍼스 내에서 문서를 분석하여 상기 동일한 위치와 연관된 정보를 포함하는 텍스트의 스니핏(snippet)을 식별하고, 상기 텍스트의 스니핏을 포함하는 문서를 후보 문서로 식별하는,

신뢰성 있는 문서를 식별하는 시스템.
삭제
제15항에 있어서,

상기 동일한 위치와 연관된 정보는, 상기 동일한 위치의 주소 전부 또는 일부, 상기 동일한 위치와 연관된 전화번호 전부 또는 일부, 또는 상기 동일한 위치에서의 비즈니스 명칭의 전부 일부 중 적어도 하나를 포함하는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

후보 문서를 식별할 때, 상기 프로세서는 또한 상기 후보 문서에 링크되어 있는 추가적인 후보 문서를 식별하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제18항에 있어서,

후보 문서를 식별할 때, 상기 프로세서는 또한 상기 후보 문서의 주소의 스트리핑 부분에 의해 추가적인 후보 문서를 식별하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 복수의 신호를 식별할 때, 상기 프로세서는, 상기 후보 문서 중의 다른 하나의 문서를 가리키는 상기 후보 문서 중의 문서로부터의 아웃링크의 수를 결정하도록 구성되어 있고,

상기 후보 문서에 신뢰 점수를 할당할 때, 상기 프로세서는, 상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 상기 하나의 문서를 가리키는 다른 후보 문서로부터의 아웃링크의 수에 기초하여 생성하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 복수의 신호를 식별할 때, 상기 프로세서는, 상기 후보 문서 중의 문서에 대한 링크와 연관된 앵커 텍스트를 식별하도록 구성되어 있고,

상기 후보 문서에 신뢰 점수를 할당할 때, 상기 프로세서는, 상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 앵커 텍스트가 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는 후보 문서 중의 하나의 문서에 대한 하나 이상의 링크에 기초하여 생성하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 복수의 신호를 식별할 때, 상기 프로세서는, 상기 후보 문서 중의 문서에 대한 타이틀을 식별하도록 구성되어 있고,

상기 후보 문서에 신뢰 점수를 할당할 때, 상기 프로세서는, 상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 상기 하나의 문서가 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는 타이틀을 포함하는지에 기초하여 생성하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 복수의 신호를 식별할 때, 상기 프로세서는, 상기 후보 문서 중의 문서와 연관된 도메인 명칭을 식별하도록 구성되어 있고,

상기 후보 문서에 신뢰 점수를 할당할 때, 상기 프로세서는, 상기 후보 문서 중 하나의 문서에 대한 신뢰 점수를, 상기 하나의 문서가 상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는 도메인 명칭과 연관되어 있는지에 기초하여 생성하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 복수의 신호를 식별할 때, 상기 프로세서는, 상기 후보 문서 중의 문서와 연관되어 있는 위치를 결정하도록 구성되어 있고,

상기 후보 문서에 신뢰 점수를 할당할 때, 상기 프로세서는, 상기 후보 문서 중 하나의 문서에 할당되는 상기 신뢰 점수를, 상기 하나의 문서가 단일 위치와 연관되어 있는 경우에 증가시키도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 신호는,

상기 후보 문서 중의 다른 문서를 가리키는, 상기 후보 문서 중의 문서로부터의 아웃링크의 수,

상기 동일한 위치에서의 비즈니스 명칭의 전부 또는 일부와 일치하는, 상기 후보 문서 중의 문서를 가리키는 링크와 연관된 앵커 텍스트,

상기 비즈니스 명칭의 전부 또는 일부와 일치하는, 상기 후보 문서 중의 문서의 타이틀, 또는

상기 비즈니스 명칭의 전부 또는 일부와 일치하는, 상기 후보 문서 중의 문서와 연관된 도메인 명칭

중 적어도 하나와 연관되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
제15항에 있어서,

상기 신호는 후보 상기 문서와 연관된 복수의 상이한 타입의 데이터와 연관되어 있고,

상기 후보 문서에 신뢰 점수를 할당할 때, 상기 프로세서는

상기 상이한 타입의 데이터에 가중치를 부여하고,

상기 가중치가 부여된 데이터를 상기 후보 문서 중의 문서와 결합하고,

상기 결합된, 가중치가 부여된 데이터에 기초하여 상기 후보 문서 중의 문서에 대한 신뢰 점수를 생성하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템
제15항에 있어서,

상기 후보 문서를 처리할 때, 상기 프로세서는, 상기 후보 문서 중의 하나에 대해 그 문서의 신뢰 점수에 기초하여 순위를 부여하도록 구성되어 있는, 신뢰성 있는 문서를 식별하는 시스템.
컴퓨터에서 실행 가능한 명령어를 저장하는 컴퓨터로 판독 가능한 매체로서,

상기 컴퓨터에서 실행 가능한 명령어는,

모두 동일한 위치와 연관되어 있는 문서를 식별하기 위한 명령어;

상기 문서와 연관된 복수의 신호를 결정하기 위한 명령어; 및

상기 신호에 기초하여 상기 위치에서의 비즈니스에 대한 상기 문서의 신뢰성의 크기를 결정하기 위한 명령어

를 포함하고,

상기 문서와 연관된 복수의 신호를 결정하기 위한 명령어는,

상기 후보 문서 중의 다른 문서를 가리키는, 상기 후보 문서 중의 문서로부터의 아웃링크(outlink)의 수를 결정하기 위한 명령어; 상기 후보 문서에 대한 링크와 연관된 앵커 텍스트(anchor text)를 식별하기 위한 명령어; 상기 후보 문서 중의 문서에 대한 타이틀(title)을 식별하기 위한 명령어; 또는 상기 후보 문서 중의 문서와 연관된 도메인 명칭(domain name)을 식별하기 위한 명령어 중 하나 이상을 포함하는 한 세트의 명령어 중에서 선택되는,

컴퓨터로 판독 가능한 매체.
네트워크 시스템에서 신뢰성 있는 문서를 식별하는 방법으로서,

동일한 위치와 연관되어 있는 한 세트의 문서를, 후보 문서로 식별하는 단계;

각각의 상기 후보 문서에 대해, 상기 후보 문서를 가리키는, 상기 후보 문서 중 하나 이상으로부터의 아웃링크의 수에 기초하여 제1 신호를 식별하는 단계;

각각의 상기 후보 문서에 대해, 상기 후보 문서를 가리키는 링크와 연관된, 상기 동일한 위치와 연관된 비즈니스 명칭의 전부 또는 일부와 일치하는, 앵커 텍스트가 존재하는지에 기초하여 제2 신호를 식별하는 단계;

각각의 상기 후보 문서에 대해, 상기 후보 문서의 타이틀이 상기 비즈니스 명칭의 전부 또는 일부와 일치하는지에 기초하여 제3 신호를 식별하는 단계;

각각의 상기 후보 문서에 대해, 상기 후보 문서와 연관된 도메인 명칭이 상기 비즈니스 명칭의 전부 또는 일부와 일치하는지에 기초하여 제4 신호를 식별하는 단계;

각각의 상기 후보 문서에 대해, 상기 후보 문서가 단일 위치와 연관되어 있는지에 기초하여 제5 신호를 식별하는 단계;

상기 제1, 제2, 제3, 제4, 및 제5 신호에 가중치를 부여하는 단계;

상기 가중치가 부여된 제1, 제2, 제3, 제4, 및 제5 신호를 결합하여 상기 후보 문서 각각에 대한 점수를 생성하는 단계; 및

상기 점수에 기초하여 상기 후보 문서를 처리하는 단계

를 포함하는, 신뢰성 있는 문서를 식별하는 방법.