KR20070094944A - 명백한 지리적 언급의 분류 - Google Patents

명백한 지리적 언급의 분류 Download PDF

Info

Publication number
KR20070094944A
KR20070094944A KR1020077017505A KR20077017505A KR20070094944A KR 20070094944 A KR20070094944 A KR 20070094944A KR 1020077017505 A KR1020077017505 A KR 1020077017505A KR 20077017505 A KR20077017505 A KR 20077017505A KR 20070094944 A KR20070094944 A KR 20070094944A
Authority
KR
South Korea
Prior art keywords
geographic relevance
document
geographic
string
profile
Prior art date
Application number
KR1020077017505A
Other languages
English (en)
Other versions
KR101219366B1 (ko
Inventor
다니엘 에그노르
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20070094944A publication Critical patent/KR20070094944A/ko
Application granted granted Critical
Publication of KR101219366B1 publication Critical patent/KR101219366B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

위치 분류기는 입력 텍스트의 텍스트 문자열에 기초하여 위치 정보를 생성한다. 상기 위치 정보는 상기 입력 텍스트의 잠재적인 지리적 관련성을 규정한다. 상기 위치 정보를 결정할 때, 상기 위치 분류기는 상기 입력 텍스트 내의 하나 이상의 문자열과 연관된 하나 이상의 지리적 관련성 프로파일을 수신하고, 상기 하나 이상의 지리적 관련성 프로파일로부터 상기 문서에 대한 결합된 지리적 관련성 프로파일을 취득하고, 상기 결합된 지리적 관련성 프로파일에 기초하여 상기 입력 텍스트의 지리적 관련성을 결정할 수 있다.
검색 질의, 문서, 지역, 위치 분류기, 위치 정보, 지리적 관련성

Description

명백한 지리적 언급의 분류 {CLASSIFICATION OF AMBIGUOUS GEOGRAPHIC REFERENCES}
본 명세서에 기술한 시스템 및 방법은 검색 엔진에 관한 것이며, 더욱 구체적으로는 지역(geographic region)과 관련 있는 텍스트를 분류하는 기술에 관한 것이다.
월드와이드웹(World Wide Web, 이하 "웹(web)"이라고도 한다)은 엄청난 양의 정보를 포함하고 있다. 하지만 정보의 원하는 부분을 찾아내는 것은 능력을 시험하는 도전일 수 있다. 웹상의 정보의 양과 웹 검색의 경험이 없는 새로운 사용자의 수가 급격하게 증가하고 있기 때문에, 이 문제는 더욱 심해지고 있다.
검색 엔진은 사용자가 관심을 갖는 웹 페이지에 대한 하이퍼링크의 회신을 시도한다. 일반적으로, 검색 엔진은 사용자에 의해 입력된 (검색 질의라고 하는) 검색어에 대한 사용자의 관심에 대한 자신의 결정을 기초로 한다. 검색 엔진의 목적은 검색 질의에 기초하여 고품질의 관련 결과(예컨대, 웹 페이지)에 대한 링크를 사용자에게 제공하는 것이다. 일반적으로, 검색 엔진은 검색 질의 내의 용어를 미리 저장된 웹 페이지들의 코퍼스(corpus)와 대조함으로써 상기 목적을 달성한다. 사용자의 검색어를 포함하는 웹 페이지는 "히트(hit)"하는 것이고 사용자에게 링크 로서 회신된다.
사용자에게 회신되는 웹 페이지의 관련성 및 품질을 증가시키고자 할 때, 검색 엔진은 히트(hit) 리스트를 정렬하여, 히트 리스트의 상위에 있는 최고로 관련 있는 밍/또는 최고 품질의 페이지를 사용자에게 회신하는 것을 시도할 수 있다. 예를 들면, 검색 엔진은 각각의 히트에 순위(rank) 또는 점수(score)를 부여할 수 있고, 점수는 웹 페이지의 관련성 또는 중요도에 대응하는 것으로 지정된다.
로컬 검색 엔진은 특정한 지역 내의 관련 웹 페이지의 회신을 시도하는 검색 엔진이다. 로컬 검색 엔진이 문서를 색인화하는 경우, 적절한 때, 문서 또는 문서의 섹션(section)을 특정한 지역과 연관시킬 수 있는 것이 바람직하다. 예를 들면, New York City(뉴욕시) 내의 레스토랑에 관한 웹 페이지는 New York City와 연관되어야 한다. 많은 경우에, 지리적으로 특정한 웹 페이지는 우편주소 또는 웹 페이지를 지역과 명백하게 연관시키는 다른 지리적 정보를 포함한다. 하지만, 다른 경우에, 웹페이지는 특정한 지역과 관련될 수 있지만, 우편 주소의 일부만을 포함하거나 또는 특정한 지역과 연관되어 있는 것으로 쉽게 인식할 수 없는 다른 용어를 포함할 수 있다. 이것은 웹 페이지가 연관되어 있는 지역을 결정하기 어렵게 만든다.
본 발명의 일 실시양태는, 문서의 지리적 관련성(geographical relevanc)을 결정하는 방법에 관한 것이다. 상기 방법은 상기 문서 내의 하나 이상의 문자열과 연관된 하나 이상의 지리적 관련성 프로파일(geo-relevance profile)을 수신하는 단계; 상기 하나 이상의 지리적 관련성 프로파일로부터 상기 문서에 대한 결합된 지리적 관련성 프로파일을 취득하는 단계; 및 상기 결합된 지리적 관련성 프로파일에 기초하여 상기 문서의 지리적 관련성을 결정하는 단계를 포함한다.
본 발명의 다른 실시양태는, 프로세서에서 실행하기 위한 프로그래밍 명령어를 포함하는 컴퓨터로 판독 가능한 매체에 관한 것이다. 상기 컴퓨터로 판독 가능한 매체는, 상기 문서 내의 각각의 문자열과 연관된 지리적 관련성 프로파일을 수신하기 위한 프로그래밍 명령어를 포함하고, 상기 지리적 관련성 프로파일은 각각 지역에 대한 상기 문자열의 지리적 관련성을 규정한다. 상기 컴퓨터로 판독 가능한 매체는 또한 상기 지리적 관련성 프로파일에 기초하여 상기 문서의 지리적 관련성을 결정하기 위한 프로그래밍 명령어를 더 포함한다.
본 발명의 또 다른 실시양태는, 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법에 관한 것이다. 상기 방법은 각 섹션이 지역과 연관되어 있는, 트레이닝 텍스트의 복수의 섹션을 결정하는 단계; 상기 트레이닝 텍스트의 복수의 섹션 내의 문자열의 출현(occurrence)을 누산하는(accumulating) 단계; 및 상기 문자열의 상기 누적된 출현에 기초하여 상기 지리적 관련성 프로파일을 히스토그램으로 생성하는 단계를 포함한다.
본 명세서에 통합되어 본 명세서에 일부를 구성하는 첨부도면은 본 발명의 실시예를 예시한 것으로, 상세한 설명과 함께 본 발명을 설명하는 것이다.
도 1은 본 발명의 실시양태와 일치하는 일반적인 개념을 나타낸 도면이다.
도 2는 본 발명의 원리와 일치하는 시스템 및 방법이 구현될 수 있는 네트워크의 대표적인 예를 나타낸 도면이다.
도 3은, 도 2의 클라이언트 또는 서버를 나타낸 대표적인 도면이다.
도 4는, 도 1 및 도 2에 나타낸 위치 분류기 엔진을 트레이닝하는 대표적인 절차를 나타낸 흐름도이다.
도 5는 두 개의 지리적 신호가 존재하는 대표적인 문서를 나타낸 도면이다.
도 6은 트레이닝 데이터를 예시하는 대표적인 테이블의 일부를 나타낸 도면이다.
도 7a - 도 7c는 용어/구에 대한 지리적 관련성 프로파일을 나타낸 도면이다.
도 8은 대표적인 예의 용어/구 및 그와 대응하는 지리적 관련성 프로파일을 포함하는 테이블을 개념적으로 나타낸 도면이다.
도 9는 입력 문서에 대해 잠재적으로 관련된 지역을 결정할 시의 위치 분류기의 대표적인 동작을 나타낸 흐름도이다.
도 10a - 도 10c는 결합된 프로파일을 취득하기 위해 다수의 지리적 관련성 프로파일을 결합하는 것을 나타낸 도면이다.
도 11은 검색 엔진의 환경에서 구현되는 위치 분류기의 대표적인 실시예를 나타낸 도면이다.
이하, 첨부도면을 참조하여 본 발명에 대해 상세하게 설명한다. 상이한 도 면에서의 동일한 도면부호는 동일하거나 유사한 구성요소임을 확인할 수 있다. 또한, 이하의 상세한 설명은 본 발명을 제한하는 것이 아니다.
개요
본 명세서에서 위치 분류기(location classifier)는 적절한 때에, 입력 텍스트를 특정한 지역으로 자동으로 분류하는 것으로 설명되어 있다. 본 발명의 실시양태와 일치하는 일반적인 개념을 나타낸 도면으로, 위치 분류기(100)를 포함한다. 위치 분류기(100)의 동작의 예로서, 도 1에 나타낸 대표적인 문서와 같은, Mountain View, California(캘리포니아주 마운틴 뷰)의 Castro Street(카스트로 스트리트)에 대한 비지니스를 설명하는 입력 문서를 생각해보자. 문서는 해당 비스니스를 Bay Area(베이 에이리어)의 Castro Street에 있는 것으로 기술하지만, 구체적으로 완전한 우편 주소, 전화 번호를 포함하지 않으며, 결코 "Mountain View, California"를 명백하게 나타내지 않는다고 가정하자.
위치 분류기(100)는 문서 내의 바이그램 "Bay Area"와 "Castro Street"가 지리적으로 중요하다는 것을 인식할 수 있다. "Bay Area"는, 단독으로, California의 San Francisco bay(샌프란시코 베이) 주변 지역을 나타내는 데 자주 사용되지만, Wisconsin(위스콘신주)의 Green Bay(그린 베이) 지역과 같은, 다른 bay(베이, 만) 위치를 가리키는데 일반적으로 사용되기도 한다. 게다가, Castro Street은, 단독으로 , 일반적인 스트리트 명칭일 수 있다. 위치 분류기(100)는 "Bay Area"와 "Castro Street" 에서의 개별적인 지리적 모호함을, 이 구 모두의 출현은 Mountain View, California에 위치한 Castro Street에 관한 서류를 나타내기 쉽다는 것을 인 식함으로써 해소할 수 있다.
그 다음에, 위치 분류기(100)는 문서 내에 언급된 비지니스와 잠재적으로 대응할 때, Mountain View, CA, 94043와 같은, 완전한 주소나 다른 위치 식별자를 생성할 수 있다.
대표적인 네트워크 개요
도 2는 본 발명의 원리와 일치하는 시스템 및 방법이 구현될 수 있는 대표적인 네트워크(200)를 나타낸 것이다. 네트워크(200)는 네트워크(240)를 통해 서버(220)와 연결된 클라이언트(210)를 포함할 수 있다. 네트워크(240)는 LAN(Local Area Network), WAN(Wide Area Network), PSTN(Pubic Switched Telephone Network)과 같은 전화망, 인트라넷, 인터넷, 또는 네트워크의 조합을 포함할 수 있다. 간결하게, 두 개의 클라이언트(210)와 하나의 서버(220)가 네트워크(240)에 연결되어 있는 것으로 예시하였다. 실제로, 클라언트와 서버는 더 많거나 더 적을 수 있다. 또, 어떤 경우에는 클라이언트가 서버의 기능을 수행할 수 있고, 서버가 클라이언트의 기능을 수행할 수도 있다.
클라이언트(210)는 무선 전화, 개인용 컴퓨터, 개인용 휴대 정보 단말기(personal digital assistant, PDA), 랩톱 컴퓨터, 또는 다른 타입의 계산 또는 통신 디바이스와 같은 디바이스, 이들 디바이스 상에서 실행되는 스레드(thread)나 프로세스(process), 및/또는 이들 디바이스에 의해 실행 가능한 객체(object)를 포함할 수 있다. 서버(220)는 문서를 처리, 검색 및/또는 유지하는 서버 디바이스를 포함할 수 있다. 클라이언트(210) 및 서버(220)는 유선, 무선, 또는 광학적 접속 을 통해 네트워크(240)에 연결될 수 있다.
서버(220)는 클라이언트(210)가 사용 가능한 검색 엔진(225)을 포함할 수 있다. 검색 엔진(225)은 질의기반 문서검색 엔진(query-based document search engine)과 같은 검색 엔진일 수 있다. 몇몇 실시예에서, 검색 엔진(225)은 지역에 대한 결과 로컬(result local)을 회신하도록 특히 설계될 수 있다. 검색 엔진(225)은 위치 분류기(100)를 포함할 수 있다. 위치 분류기(100)는, 부분적인 주소 또는 지리적 관련성을 가지는 용어/구를 포함할 수 있고 입력 문서에 대응하는 지역에 대응하는 하나 이상의 지리적 식별자 생성할 있는, 입력 데이터를 수신할 수 있다. 위치 분류기(100)는 예를 들면 검색 엔진(225)에 의해 사용되어 웹 페이지와 같은, 문서를 지역과 연관시키거나, 사용자 검색 질의가 특정한 지리적 위치와 관련 있는지를 결정할 수 있다.
여기에서 사용된 용어인 문서(document)는, 임의의 기계로 판독 가능하고 기계로 저장 가능한 자료(work product)를 포함하는 것으로 광의로 해석되어야 한다. 문서는 이메일, 검색 질의, 파일, 파일들의 조합, 다른 파일에 대한 링크가 삽입된 하나 이상의 파일, 뉴스 그룹 포스팅 등일 수 있다. 인터넷 환경에서, 일반적인 문서는 웹 페이지이다. 웹 페이지는 흔히 컨텐츠를 포함하고, (메타 정보, 하이퍼링크 등과 같은) 삽입된 정보 및/또는 (자바스크립트 등과 같은) 삽입된 명령어를 포함할 수 있다.
대표적인 클라이언트 서버/ 아키텍처
도 3은 본 발명의 원리와 일치하는 실시예에 따른, 컴퓨팅 디바이스(300)라 고 하는, 클라이언트(210) 또는 서버(220)의 대표적인 예를 나타낸 것이다. 컴퓨팅 디바이스(300)는 버스(310), 프로세서(320), 주 메모리(330), ROM(Read Only Memory)(340), 스토리지 디바이스(350), 입력 디바이스(360), 출력 디바이스(370), 및 통신 인터페이스(380)를 포함할 수 있다. 버스(310)는 컴퓨팅 디바이스(300)의 구성요소 사이의 통신을 가능하게 하는 경로를 포함할 수 있다.
프로세서(320)는 명령어를 해석하고 실행하는, 종래의 프로세서, 마이크로프로세서 또는 처리 논리회로(processing logic)를 포함할 수 있다. 주 메모리(330)는 프로세서(320)에서 실행하기 위한 정보 및 명령어를 저장하는 RAM(Random Access Memory) 또는 다른 타입의 동적 스토리지 디바이스(dynamic storage device)를 포함할 수 있다. ROM(340)은 프로세서(320)가 사용하는 정적인 정보 및 명령어를 저장하는 종래의 ROM 디바이스 또는 다른 타입의 정적 스토리지 디바이스를 포함할 수 있다. 스토리지 디바이스(350)는 자기 기록 매체 및/또는 광학 기록 매체와 그에 대응하는 드라이브를 포함할 수 있다.
입력 디바이스(360)는 키보드, 마우스, 펜, 음성 인식(voice recognition) 장치 및/또는 바이오메트릭(biometric) 장치 등과 같이 조작자가 컴퓨팅 디바이스(300)에 정보를 입력할 수 있도록 해주는 종래의 장치를 포함할 수 있다. 출력 디바이스(370)는 디스플레이, 프린터, 스피커 등을 포함하여, 조작자에게 정보를 출력하는 이상의 종래의 장치를 포함할 수 있다. 통신 인터페이스(380)는 컴퓨팅 디바이스(300)가 다른 디바이스 및/또는 시스템과 통신할 수 있도록 해주는 임의의 송수신기형(transceiver-like) 장치를 포함할 수 있다. 예를 들면, 통신 인터페이 스(380)는 네트워크(240)와 같은 네트워크를 통해 다른 디바이스나 시스템과 통신하는 장치를 포함할 수 있다.
본 발명의 원리와 일치하는 서버(220)는 이하에 상세하게 설명하는 일정한 검색 또는 검색 엔진(225) 및/또는 위치 분류기 엔진(100)을 통해 일정한 검색 또는 문서 검색 관련 동작을 수행할 수 있다. 검색 엔진(225) 및/또는 위치 분류기 엔진(100)은 주 메모리(330)와 같은 컴퓨터로 판독 가능한 매체 내에 저장될 수 있다. 컴퓨터로 판독 가능한 매체는 하나 이상의 물리 또는 논리 메모리 디바이스 및/또는 반송파(carrier wave, 搬送波)로서 규정될 수 있다.
검색 엔진(225)를 규정하는 소프트웨어 명령어는 데이터 스토리지 디바이스(350)와 같은 컴퓨터로 판독 가능한 매체로부터, 또는 통신 인터페이스(380)를 통해 다른 디바이스로부터 주 메모리(330)로 판독될 수 있다. 주 메모리(330)에 저장된 소프트웨어 명령어는 프로세서(320)로 하여금 후술하는 프로세스들을 수행하도록 한다. 다르게는, 소프트웨어 명령어 대신에 또는 소프트웨어 명령어와 결합하여 고정 배선 회로(hardwired circuitry)를 사용하여 본 발명의 원리와 일치하는 프로세스들을 실행할 수 있다. 따라서, 본 발명의 원리와 일치하는 실시예들은 하드웨어 회로와 소프트웨어의 어떤 특정 조합으로 한정되는 것은 아니다.
위치 분류기(100)의 트레이닝
위치 분류기(100)는 입력 문서 또는 문서의 섹셕에 대한 지리적 위치 정보를 자동으로 생성할 수 있다. 위치 분류기(100)는 지리적 위치 정보를 생성할 수 있게 되기 전에, 다수의 트레이닝 문서에 대해 트레이닝될 수 있다. 일 실시예에서, 문서는 웹 페이지일 수 있다.
도 4는 위치 분류기(100)를 트레이닝하는 대표적인 절차를 나타낸 흐름도이다.
위치 분류기(100)는 대량의 웹 문서와 같은, 대량의 문서에 대하여 트레이닝될 수 있다. 위치 분류기(100)는 첫 번째 문서를 검색함으로써 트레이닝을 시작할 수 있고(행위 401), 문서 내의 기지의 지리적 신호를 찾아낸다(행위 402). 기지의 지리적 신호는, 예를 들면 지리적 위치를 명백히 특정하는 완전한 주소를 포함할 수 있다. 지리적 신호는, 예를 들면 주소의 일반적인 형태인 텍스트의 섹션을 찾는 패턴 매칭 기술에 의해 찾아낼 수 있다. 예를 들면, 위치 분류기(100)는 주의 명칭(state name) 또는 주의 약어(state abbreviation) 및 "street(스트리트)", "st.", "drive(드라이브)" 등의 단어를 포함하는 문자열에 이은 일련의 숫자인 스트리트 명칭(street name) 근처에 위치한 5자리 정수인 우편번호를 찾을 수 있다. 이런 식으로, 위치 분류기(100)는 기지의 지리적 신호를, 명백하게 지리적 주소를 나타내는 텍스트의 섹션으로서 찾아낼 수 있다.
도 5는 두 개의 지리적 신호가 존재하는 대표적인 예의 문서(500)를 나타낸 도면이다. 도시된 바와 같이, 문서(500)는 첫 번째 지리적 신호(505), 텍스트의 단락(510), 두 번째 지리적 신호(515), 및 텍스트의 두 번째 단락(520)을 포함한다.
첫 번째 지리적 신호, 신호(505)는 "Coffee Time"이라고 하는 가상의 커피숍에 대해 Coffee Time의 위치를 표준의 우편 주소로써 명기한 것이다. 위치 분류 기(100)는 이 주소를, 주소의 구조 및/또는 우편번호, 거리 명칭, 및 도시 명칭 모두가 California(캘리포니아주)의 기지의 위치와 일치하는 것에 기초하여, 유효한 주소로 인식할 수 있다. 유사하게, 위치 분류기(100)는 지리적 신호(515)도 또한 물리적 위치(장소)와 명백하게 연관된 유효한 주소를 나타내는 것으로 인식할 수 있다. 해당 기술분야의 당업자는, 문서의 수동 분류와 같은, 문서가 지리적 위치와 연관되어 있는지를 결정하기 위한 다른 기술을 사용할 수도 있다는 것을 알 것이다.
행위 402에서 유효한 지리적 신호와 연관되어 있는 것으로 결정된 문서는, 기지의 지역(들)에 대응하는 문서일 거라고 가정된다. 현재 처리되고 있는 문서가, 특정한 지역과 연관되어 있지 않은 웹 문서와 같은, 그러한 문서가 아니면, 다음 문서를 처리할 수 있다(행위 403 및 405). 하지만, 유효한 지리적 신호를 포함하는 문서에 대해, 위치 분류기(100)는 발견된 지리적 신호(들)과 연관된 트레이닝 텍스트로 사용될 문서로부터 텍스트를 선택할 수 있다(행위 404).
행위 404에서 문서와 연관된 트레이닝 텍스트로 선택된 텍스트는 많은 상이한 방식으로 선택될 수 있다. 예를 들면, 각 지리적 신호 주위의 고정된 윈도우(예컨대, 용어 100개의 윈도우)를 트레이닝 텍스트로 선택할 수 있다. 다른 실시예에서는, 문체전체를 선택할 수 있다. 또 다른 실시예에서는 복수의 지리적 신호를 가지는 문서를, 문서 내의 시각적 중단점(visual break)에 기초하여 세그먼트로 나눌 수 있으며, 트레이닝 세트를 세그먼트로부터 취할 수 있다. 예를 들면, 도 5에 도시된 문서의 경우, 단락(510)은 지리적 신호(주소 신호)(505)와 연관될 수 있 고, 단락(520)은 지리적 신호(주소 신호)(515)와 연관될 수 있다.
행위 402-405는 트레이닝 문서로 사용될 수 있는 문서 코퍼스 내의 문서 각각에 대해 반복될 수 있다(행위 406). 일반적으로, 행위 401-405는 다수(대개 많은 수)의 기지의 위치 각각이 텍스트와 연관되어 있는 트레이닝 데이터를 생성하는데 사용된다. 도 6은 행위 402-405에서 생성된 대표적인 트레이닝 데이터를 설명하는 테이블의 일부를 나타낸 도면이다. 테이블(600)은 다수의 위치 식별자 필드(605)와 대응하는 텍스트의 섹션(610)을 포함할 수 있다. 위치 식별자 필드(605)는 지리적 신호를 기초로 할 수 있고, 텍스트 섹션(610)은 지리적 신호 각각에 대해 선택된 텍스트를 포함할 수 있다. 따라서, 찾아낸 각각의 지리적 신호는 테이블(600) 내의 엔트리(entry, 기재 사항)에 대응할 수 있다.
일 실시예에서, 위치 식별자 필드(605)는 행위 402에서 식별된 지리적 신호에 대응하는 우편번호를 포함할 수 있다. 우편 번호는
수치적으로 다른 것에 가까운 우편번호는 지리적으로 다른 것에 가까운 위치에 대응하는 경향이 있기 때문에, 우편 번호는 지리적 위치에 대한 식별자로 사용하기에 특히 유용하다. 하지만, 우편 번호 이외의 위치 식별자도 또한 사용할 수 있다.
테이블(600)에는 특히 두 개의 엔트리를 도시하였다. 이 두 개의 엔트리는 문서(500)의 두 개의 지리적 신호에 대응한다. 첫 번째 엔트리는
찾아낸 식별자인 우편 번호 94040 및 선택된 텍스트인 단락(510)을 포함한다. 두 번째 엔트리는 찾아낸 식별자인 우편번호 94041 및 선택된 텍스트인 단 락(520)을 포함한다.
여기에서 테이블(600) 내의 트레이닝 데이터가 나머지 트레이닝과 동일한 프로세스(즉, 행위 407-410)에서 위치 분류기(100)에 의해 생성되는 것으로 설명하지만, 트레이닝 데이터는 앞서, 또는 다른 구성요소나 디바이스에 의해 생성될 수 있다.
본 발명의 실시양태와 일치하는, 위치 분류기(100)는, 부분적으로, 지리적 신호의 부근에 있는 문서 내의 텍스트가 앞쪽으로 편향되어 있다는 것을 전제로 지리적 신호에 관련 있는 용어 또는 구를 사용하여 동작한다.
위치 분류기(100)는 행위 401-406에서 취득된 트레이닝 데이터를 추가로 처리하여, 행위 407-410을 참조하여 이하에 설명하는 바와 같이, 일정한 용어/구에 대한 지리적 관련성 프로파일을 취득할 수 있다.
위치 분류기(100)는, 선택한 용어 또는 구에 대해, 용어/구(본 명세서에서 텍스트 문자열 또는 단지 문자열이라고도 한다)가 출현하는 위치 식별자에 관한 텍스트의 섹션(610) 내의 용어/구의 출연 전부를 누산함으로써 시작할 수 있다(행위 407). 즉, 위치 분류기(100)는 용어/구의 출현을 위치 식별자에 관련시키는 히스토그램을 생성할 수 있다. 본 명세서에서 이 히스토그램은 용어/구에 대한 지리적 관련성 프로파일이라고도 한다.
도 7a는 바이그램 "capitol hill(캐피톨 힐)에 대한 대표적인 히스토그램(700)을 설명하기 위한 도면이다. 도시된 바와 같이, 이 히스토그램은 3개의 주요 피크(peak)를 가지는데, 큰 피크의 중심은 Washington, DC(워싱턴 DC)의 "Capitol Hill" 지역에 대응하는 우편번호 20515 부근에 있고, 비교적 작은 피크의 중심은 Sacramento, CA(캘리포니아주 새크라멘토)의 "Capitol Hill" 지역에 대응하는 우편번호 95814 부근에 있으며, 중간 정도 피크의 중심은 Seattle, WA(워싱턴주 시애틀)의 "Capitol Hill" 지역에 대응하는 우편번호 98104 부근에 있다. 텍스트 섹션(610)은 "capitol hill"에 대한 다수의 언급이 잠재적으로 포함하고 있었지만, 그 중 많은 것이 Washington, DC; Sacramento; 또는 Seattle의 부근이 아닌 지역과 연관되어 있었고, 히스토그램(700)은 전반적으로, 이 세 위치 중 하나를 나타낼 때 "capito hill"을 사용하는 경향이 있음을 보여준다. 가장 큰 피크에 대응하는 Washington, DC가, 구 "capitol hill"을 사용하는 사람이 의도할 가능성이 가장 높은 지역으로 해석될 수 있다.
도 7b는 다른 대표적인 예의 히스토그램, 바이그램 "bay area"에 대한 히스토그램을 나타낸 도면이다. 히스토그램(710)은 두 개의 피크를 포함하는데, 작은 것은 Gree Bay, WI(위스콘신주의 그린 베이) 주위에 중심이 있고, 큰 것은 San Francisco, CA bay area(캘리포니아주 샌프란시코의 베이 지역)을 규정한다.
위치 분류기(100)는 텍스트 섹션(610)에 나타나는 용어/구의 일부 또는 전부에 대해 행위 407을 실행할 수 있다. 일 실시예에서, 위치 분류기(100)는 텍스트 섹션(610)에 나타나는 모든 바이그램(2 단어로 된 구)에 대해 히스토그램을 생성할 수 있다. 다른 실시예에서는 또한 더 긴 구 또는 단일 용어에 대해서도 히스토그램 생성될 수 있다.
용어/구의 출현을 누산할 때, 어느 정도의 용어/구의 출현을 무시할 수 있 다. 반복 사용 어구(boilerplate language)는 지리적 관련성을 결정하는 데 반드시 관련 있는 것은 아니지만, 트레이닝 문서의 세트에 몇몇 반복 사용 어구가 자주 나타날 수 있다. 따라서, 일부 실시예에서는 또한, 선택 용어/구의 왼쪽 및/또는 오른쪽의 용어를 조사할 수 있으며, 이 용어들이 용어/구의 왼쪽 또는 오른쪽의 용어의 이전의 경우와 다를 때에만 해당 용어/구를 누산할 수 있다. 따라서, 용어/구가 규칙에 맞는(legitimate) 새로운 문장의 전후 관계(context)에 나타나지 않으면, 무시할 수 있다.
다음에 위치 분류기(100)는 지리적으로 관련 있는 용어/구에 대응하는, 생성된 히스토그램을 선택하여 저장할 수 있다(행위 408 및 409). 저장된 히스토그램은 용어/구에 대한 지리적 관련성 프로파일의 역할을 한다. 행위 407에서 히스토그램이 생성된 용어/구 중 다수는 지리적으로 관련이 없을 수 있다. 도 9c는 바이그램 "live bookmarks(라이브 북마크스)"에 대한 대표적인 예의 히스토그램(720)을 나타내는 도면이다. 이 구는 지리적으로 관련이 없으므로, 히스토그램은 상당히 평탄하다. 하지만, 히스토그램(700, 710)은 이들 용어/구가 특정한 지리적 위치와 관련 있을 수 있음을 나타내는 통계적으로 의미 있는 피크를 포함한다. 해당 기술분야의 당업자는, 다수의 공지된 기술을 사용하여 히스토그램이 통계적으로 의미 있는 피크를 포함하는지를 결정할 수 있음을 알 것이다.
행위 408 및 409를 텍스트 섹션(610) 내의 다수의 용어/구에 대해 반복할 수 있다. 일 실시예에서, 위치 분류기(100)는 텍스트 섹션(610) 내에 있는 모든 바이그램마다의 지리적 관련성을 조사한다. 다른 실시예에서, 단일 용어의 지리적 관 련성을 조사하거나 세 개 이상의 용을 가지는 구를 조사할 수 있다.
도 4에 도시한 트레이닝의 결과로서, 위치 분류기(100)는 다수(잠정적으로 많은 수)의 용어/구 및 그에 대응하는 지리적 관련성 프로파일을 저장할 수 있다. 도 8은 대표적인 예의 용어/구와 그에 대응하는 지리적 관련성 프로파일을 포함하는 테이블을 개념적으로 나타낸 도면이다.
일 실시예에서는, 행위 409에서 저장된 지리적 관련성 프로파일을 트레이닝 데이터에서의 우편번호의 전체적인 분포에 기초하여 정규화할 수 있다. 이와 같이, 트레이닝 데이터에 빈번히 언급되어 있는 지역은 지리적 관련성 프로파일에서 지나치게 강조되어 있지 않다.
위치 분류기(100)의 동작
도 9는 입력 문서에 대해 잠재적으로 관련 있는 지역을 결정할 때의 위치 분류기(100)의 동작의 대표적인 예를 나타낸 흐름도이다.
위치 분류기(100)는 입력 문서를 수신함으로써 시작될 수 있다(행위 901). 일반적으로, 입력 문서는 어쩌면 위치에 대한 모호한 언급(reference)을 포함하는 문서일 것이다. 예를 들면, 입력 문서는 검색 질의와 같은 비교적 짧은 텍스트의 섹션, 또는 웹 문서와 같은 보다 긴 텍스트의 블록일 수 있다. 용어/구는 테이블(800)에 저장된 용어/구에 대응하는 입력 문서에서 발견될 수 있다(행위 902). 즉, 지리적 관련성이 있는 것으로 이전에 결정되었던 용어/구가 식별된다.
다음에, 각각의 식별된 용어/구에 대한 지리적 관련성 프로파일을 결합하여 입력 문서에 대한 합성(resultant) 지리적 관련성 프로파일을 생성할 수 있다(행위 903). 일 실시예에서는, 행위 902에서 식별된 각각의 지리적 관련성 프로파일을 곱합으로써 지리적 관련성 프로파일들을 결합할 수 있다. 즉, 각각의 우편번호에 대해, 히스토그램 각각의 값을 모두 곱하여 합성 히스토그램에서의 우편번호의 값을 취득할 수 있다. 도 10a - 도 10c는 다수의 지리적 관련성 프로파일을 결합하여 결합된 프로파일을 취득하는 것을 나타낸 도면이다. 이 예에서, 입력 문서는 테이블(800)에 나타나 있는 두 개의 바이그램을 포함하는 텍스트의 페이지라고 가정하자(즉, 입력 페이지가 두 개의 지리적으로 관련 있는 용어/구를 포함한다). 이 두 개의 바이그램은 "Castro Street(카스트로 스트리트)"와 "Bay Area(베이 에이리어)"이다. Castro Street에 대한 지리적 관련성 프로파일은 도 10a에 도시되어 있고, Bay Area에 대한 지리적 관련성 프로파일은 도 10b에 도시되어 있다. 도 10c는 결합된 지리적 관련성 프로파일을 나타낸 것이다. 도시한 바와 같이, 도 10a 및 도 10b에서의 히스토그램 모두는 다수의 피크를 포함하지만, 두 프로파일이 지리적 관련성을 나타내는 지역을 제외하고는 서로 상쇄되는 경향이 있다. 따라서, 도 10c의 결합된 지리적 관련성 프로파일은 "Castro Street"와 "Bay Area"에 대한 언급이 Northern California Bay Area(캘리포니아주 북부의 베이 지역)에 대한 언급일 가능성이 가장 높다는 것을 정확하게 나타낸다.
도 10c에 도시된 대표적인 예의 프로파일과 같은, 결합된 지리적 관련성 프로파일에 기초하여, 위치 분류기(100)는 하나 이상의 지역에 대한 입력 문서의 가능한 관련성을 규정하는 출력 정보를 생성할 수 있다(행위 904). 이 출력 정보는 일반적으로 피크에 대해 결합된 지리적 관련성 프로파일을 조사함으로써 취득될 수 있다. 도 10c의 예에서, 예를 들면, 출력 정보는 Northern California의 Castro Street을 포함하는 지역에 대한 우편번호를 포함할 수 있다. 일부 실시예들에서, 우편번호는 또한 우편번호에 의해 규정된 지역이 정확하다는 유사성(likeliness) 또는 확실성(certainty)에 관한 값과 연관될 수 있다.
일 실시예에서, 행위 901에서 수신된 문서는, 웹 페이지, 검색 질의, 또는 다른 소스로부터 얻은 부분적인 주소와 같은, 부분적인 주소일 수 있다. 그리고 출력 정보는 부분적인 주소를 명확하게 하는 데 사용될 수 있다. 예를 들면, "650 Castro Stree"과 같은 주소가 문서에서 도시(city) 또는 주(state) 없이 식별되면, 그 주소만으로는 완전한 주소가 아니다. 하지만, 문서가 Mountiain View 우편번호 94043과 관련 있다고 위치 분류기(100)가 결정하면, 그 주소는 명백한 것이고 지리적 위치(위도/경도) 추출에 대한 것을 줄일 수 있다.
대표적인 실시예
도 11은 검색 엔진의 환경에서 구현되는 위치 분류기(100)의 대표적인 실시예를 나타낸 도면이다. 다수의 사용자(1105)는 인터넷과 같은, 네트워크(1115)를 통해 검색 엔진(1110)에 접속할 수 있다. 검색 엔진(1110)은, 데이터베이스(1120)로부터, 사용자가 일정한 지역에 대해 사용하려고 하는 검색 질의에 관련되어 있는, 순위가 부여된 문서의 세트에 대한 링크를 회신하는 로컬 검색 엔진일 수 있다.
위치 분류기(100)는 데이터베이스(1120) 내의 문서에 대해 지리적 관련성을(있다면) 결정할 때 검색 엔진(1110)을 돕는다. 특히, 위치 분류기(100)는 그렇지 않으면 특정한 지역과 연관되어 있는 것으로서 명확하게 식별될 수 없는, 각각의 문서, 또는 문서의 일부를 지리적으로 분류할 수 있다. 그리고 이 지리적 분류 정보를, 검색 엔진(1110)이 사용자 검색 질의에 응답하여 사용할 수 있는 대응하는 문서와 함께 위치 식별자로서 데이터베이스(1120)에 저장할 수 있다.
다른 가능한 대표적인 실시예에서, 위치 분류기(100)는 사용자(1105)로부터 수신한 검색 질의에 대해 동작할 수 있다. 위치 분류기(100)는 따라서 검색 질의에 맞는 지리적 관련성 정보를 제공할 수 있다. 이 지리적 관련성 정보를 사용하여 사용자에게 관련 결과를 회신할 때 검색 엔진(1110)을 도울 수 있다.
결론
이상에서 설명한 바와 같이, 위치 식별기는 입력 텍스트 내의 용어/구에 기초하여 위치 정보를 생성한다. 용어/구는, 보통 지리적으로 명백한 것으로 간주되는 용어/구를 포함할 수 있다.
이상에서 설명한 바와 같은 본 발명의 실시양태들이, 도면에 예시된 실시예에서 소프트웨어, 펌웨어, 및 하드웨어의 여러 상이한 형태로 구현될 수 있다는 것은 이 기술분야의 당업자에게 명백할 것이다. 본 발명의 원리와 일치하는 실시양태들을 구현하는데 이용되는 실제의 소프트웨어 코드 또는 전용(specialized)의 제어 하드웨어는 본 발명의 범위를 제한하지 않는다. 따라서, 본 발명의 실시양태에 대한 동작 및 작용을 특정한 소프트웨어 코드에 대한 언급 없이 설명하였으며, 당업자라면 본 명세서의 상세한 설명에 기초하여 본 발명의 실시양태를 구현하기 위한 소프트웨어 및 제어 하드웨어를 설계할 수 있다는 것을 알 것이다.
본 발명의 바람직한 실시예에 대한 이상의 설명은, 본 발명에 대한 설명과 예시를 제공하지만, 본 발명을 총망라하거나 개시된 바로 그 형태로 한정하려는 의도는 아니다. 이상의 교시에 비추어, 또는 본 발명의 실시예로부터 변경 및 변형 이 가능하다. 예를 들면, 전술한 동작의 대다수는 특정한 순서로 설명하였지만, 동작의 대다수는 동시에 또는 다른 순서로 진행될 여지가 있다. 또, 위치 분류기를 대개 검색 엔진의 일부로서 설명하였지만, 검색 엔진을 위치 분류기와 부니하는 것이 더욱 일반적일 수 있음은 물론이다.
본 출원의 설명에서 사용된 요소(element), 행위(act), 명령어(instruction)는 그러한 것으로 명백히 기술되지 않는 한, 본 발명에서 결정적이거나 필수적인 것으로 해석되어서는 안 된다. 또한, 여기에서 사용된 바와 같이, 관사 "a"는 하나 이상의 아이템을 포함하는 것으로 의도된다. 오직 하나의 아이템이 의도되는 경우, 용어 "하나(one)" 또는 유사한 표현을 사용한다. 또, 구 "...에 기초하여(based on)"는 명백히 다르게 나타내지 않는 한 "적어도 일부는 ...에 기초하여"를 의미하는 것으로 의도된다.

Claims (30)

  1. 문서의 지리적 관련성(geographical relevance)을 결정하는 방법으로서,
    상기 문서 내의 하나 이상의 문자열(string)과 연관된 하나 이상의 지리적 관련성 프로파일(geo-relevance profile)을 수신하는 단계;
    상기 하나 이상의 지리적 관련성 프로파일로부터 상기 문서에 대한 결합된(combined) 지리적 관련성 프로파일을 취득하는 단계; 및
    상기 결합된 지리적 관련성 프로파일에 기초하여 상기 문서의 지리적 관련성을 결정하는 단계
    를 포함하는 문서의 지리적 관련성을 결정하는 방법.
  2. 제1항에 있어서,
    상기 하나 이상의 지리적 관련성 프로파일은 복수의 지리적 관련성 프로파일을 포함하고, 상기 복수의 지리적 관련성 프로파일 각각은 상기 문자열 중 하나의 출현을 지역에 관련시키는 히스토그램인, 문서의 지리적 관련성을 결정하는 방법.
  3. 제2항에 있어서,
    상기 결합된 지리적 관련성 프로파일을 취득하는 단계는,
    상기 복수의 히스토그램을 곱하는 단계를 포함하는, 문서의 지리적 관련성을 결정하는 방법.
  4. 제1항에 있어서,
    상기 결합된 지리적 관련성 프로파일에 기초하여 상기 문서의 지리적 관련성을 결정하는 단계는,
    상기 결합된 지리적 관련성 프로파일을 피크(peak)에 대해 분석하는 단계를 포함하는, 문서의 지리적 관련성을 결정하는 방법.
  5. 제1항에 있어서,
    상기 하나 이상의 지리적 관련성 프로파일을 수신하는 단계는,
    상기 문서를 조사하여 상기 문서 내의 문자열을, 이전에 지리적 관련성 프로파일이 생성된 복수의 문자열과 비교함으로써 상기 하나 이상을 문자열을 찾아내는 단계를 포함하는, 문서의 지리적 관련성을 결정하는 방법.
  6. 제1항에 있어서,
    상기 하나 이상의 문자열은 단일 용어 문자열(single term string)인, 문서의 지리적 관련성을 결정하는 방법.
  7. 제1항에 있어서,
    상기 하나 이상의 문자열은 바이그램(bi-gram)을 포함하는, 문서의 지리적 관련성을 결정하는 방법.
  8. 제1항에 있어서,
    상기 문서는 웹 페이지인, 문서의 지리적 관련성을 결정하는 방법.
  9. 제1항에 있어서,
    상기 문서는 검색 질의인, 문서의 지리적 관련성을 결정하는 방법.
  10. 입력 텍스트를 수신하기 위한 수단;
    이전에 지리적으로 관련있는 것으로 결정되었던 문자열을, 상기 입력 텍스트 내에서 문자열을 찾아내기 위한 수단;
    상기 찾아낸 문자열에 대한 지리적 관련성 프로파일을 검색하기 위한 수단; 및
    상기 검색된 지리적 관련성 프로파일에 기초하여 상기 입력 텍스트가 지리적으로 관련 있는 것인지를 결정하기 위한 수단
    을 포함하는, 위치 분류기.
  11. 제10항에 있어서,
    상기 검색된 지리적 관련성 프로파일들을 결합하기 위한 수단을 더 포함하는 위치 분류기.
  12. 프로세서에서 실행하기 위한 프로그래밍 명령어를 포함하는 컴퓨터로 판독 가능한 매체로서,
    상기 문서 내의 복수의 문자열 각각과 연관된 복수의 지리적 관련성 프로파일을 수신하기 위한 프로그래밍 명령어; 및
    상기 복수의 지리적 관련성 프로파일에 기초하여 상기 문서의 지리적 관련성을 결정하기 위한 프로그래밍 명령어
    를 포함하고,
    상기 지리적 관련성 프로파일은 각각 지역에 대한 상기 문자열의 지리적 관련성을 규정하는,
    컴퓨터로 판독 가능한 매체.
  13. 제12항에 있어서,
    상기 복수의 지리적 관련성 프로파일을 결합하여 상기 문서에 대한 결합된 지리적 관련성 프로파일의 취득하기 위한 프로그래밍 명령어를 더 포함하는 컴퓨터로 판독 가능한 매체.
  14. 제13항에 있어서,
    상기 지리적 관련성 프로파일을 결합하기 위한 프로그래밍 명령어는,
    상기 복수의 지리적 관련성 프로파일을 모두 곱하기 위한 프로그래밍 명령어를 포함하는, 컴퓨터로 판독 가능한 매체.
  15. 제13항에 있어서,
    상기 문서의 지리적 관련성을 결정하기 위한 프로그래밍 명령어는,
    상기 결합된 지리적 관련성 프로파일을 피크(peak)에 대해 분석하기 위한 프로그래밍 명령어를 더 포함하는, 컴퓨터로 판독 가능한 매체.
  16. 제12항에 있어서,
    상기 복수의 지리적 관련성 프로파일은 히스토그램(historam)을 포함하는, 컴퓨터로 판독 가능한 매체.
  17. 제12항에 있어서,
    상기 문자열은 단일 용어의 문자열을 포함하는, 컴퓨터로 판독 가능한 매체.
  18. 제12항에 있어서,
    상기 문자열은 바이그램을 포함하는, 컴퓨터로 판독 가능한 매체.
  19. 제12항에 있어서,
    상기 문서는 웹 페이지인, 컴퓨터로 판독 가능한 매체.
  20. 제12항에 있어서,
    상기 문서는 검색 질의인, 컴퓨터로 판독 가능한 매체.
  21. 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법으로서,
    각 섹션이 지역과 연관되어 있는, 트레이닝 텍스트의 복수의 섹션을 결정하는 단계;
    상기 트레이닝 텍스트의 복수의 섹션 내의 문자열의 출현(occurrence)을 누산하는(accumulating) 단계; 및
    상기 누산된 문자열의 출현에 기초하여 상기 지리적 관련성 프로파일을 히스토그램으로 생성하는 단계
    를 포함하는 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  22. 제21항에 있어서,
    상기 히스토그램은 상기 문자열의 출현을 지역에 관련시키는 것인, 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  23. 제21항에 있어서,
    상기 트레이닝 텍스트의 복수의 섹션을 결정하는 단계는,
    복수의 문서에서 기지(旣知)의 지리적 신호를 찾아내는 단계; 및
    상기 기지의 지리적 신호를 포함하는 상기 복수의 문서 중의 섹션으로부터 상기 트레이닝 텍스트의 섹션을 선택하는 단계를 더 포함하는, 문자열에 대한 지리 적 관련성 프로파일을 생성하는 방법.
  24. 제21항에 있어서,
    상기 문서는 웹 문서인, 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  25. 제21항에 있어서,
    상기 트레이닝 텍스트 내의 지역의 전체적인 분포(global distribution)에 기초하여 상기 생성된 지리적 관련성 프로파일을 정규화(normalizing)하는 단계를 더 포함하는 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  26. 제21항에 있어서,
    상기 지역은 우편번호로 표시되어 있는, 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  27. 제21항에 있어서,
    상기 지리적 관련성 프로파일이 통계적으로 의미있는 피크(statistically relevant peak)를 포함하는 경우, 상기 생성된 지리적 관련성 프로파일을 장래에 사용하기 위해 저장하는 단계를 더 포함하는 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  28. 제21항에 있어서,
    상기 문자열의 출현을 누산하는 단계는, 상기 문자열 주변의 텍스트의 전후 관계가 이전에 출현한 상기 문자열 주변의 텍스트의 전후 관계와 일치하는 경우에, 상기 문자열의 출현을 누산하지 않는 단계를 더 포함하는, 문자열에 대한 지리적 관련성 프로파일을 생성하는 방법.
  29. 프로세서; 및
    상기 프로세서에 연결되고 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
    각 섹션이 지역과 연관되어 있는, 트레이닝 텍스트의 복수의 섹션을 결정하고,
    상기 트레이닝 텍스트의 복수의 섹션 내의 문자열의 출현을 누산하며,
    상기 누산된 문자열의 출현에 기초하여 상기 지역에 대한 상기 문자열의 지리적 관련성 프로파일을 생성하도록 하는
    컴퓨터로 판독 가능한 메모리
    를 포함하는 디바이스.
  30. 문서를 조사하여 지리적 관련성이 있는 것으로 이전에 결정되었던 문자열을 찾아내는 단계;
    상기 문자열과 연관된 지리적 관련성 문자열을 수신하는 단계;
    상기 수신된 지리적 관련성 모두 곱하여 상기 수신된 지리적 관련성 프로파일로부터 상기 문서에 대한 결합된 지리적 관련성 프로파일을 취득하는 단계;
    상기 결합된 지리적 관련성 프로파일을 피크에 대해 분석하는 단계; 및
    피크가 상기 결합된 지리적 관련성 프로파일에 나타나는지에 기초하여 상기 문서의 지리적 관련성 프로파일을 결정하는 단계를 포함하는 방법.
KR1020077017505A 2004-12-30 2005-12-30 명백한 지리적 언급의 분류 KR101219366B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/024,785 2004-12-30
US11/024,785 US7716162B2 (en) 2004-12-30 2004-12-30 Classification of ambiguous geographic references
PCT/US2005/047211 WO2006073977A1 (en) 2004-12-30 2005-12-30 Classification of ambiguous geographic references

Publications (2)

Publication Number Publication Date
KR20070094944A true KR20070094944A (ko) 2007-09-27
KR101219366B1 KR101219366B1 (ko) 2013-01-09

Family

ID=36261057

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077017505A KR101219366B1 (ko) 2004-12-30 2005-12-30 명백한 지리적 언급의 분류

Country Status (8)

Country Link
US (3) US7716162B2 (ko)
EP (1) EP1839208A1 (ko)
JP (1) JP4633803B2 (ko)
KR (1) KR101219366B1 (ko)
CN (1) CN101128821B (ko)
AU (1) AU2005322967B2 (ko)
CA (2) CA2593377C (ko)
WO (1) WO2006073977A1 (ko)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972444B2 (en) * 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US7716162B2 (en) * 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references
US7933929B1 (en) 2005-06-27 2011-04-26 Google Inc. Network link for providing dynamic data layer in a geographic information system
US20070033089A1 (en) * 2005-08-04 2007-02-08 Microsoft Corporation User interface and geo-parsing data structure
US7933897B2 (en) 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
US20080208847A1 (en) * 2007-02-26 2008-08-28 Fabian Moerchen Relevance ranking for document retrieval
WO2008129339A1 (en) * 2007-04-18 2008-10-30 Mitsco - Seekport Fz-Llc Method for location identification in web pages and location-based ranking of internet search results
US20080270375A1 (en) * 2007-04-27 2008-10-30 France Telecom Local news search engine
US7987195B1 (en) 2008-04-08 2011-07-26 Google Inc. Dynamic determination of location-identifying search phrases
US8286171B2 (en) 2008-07-21 2012-10-09 Workshare Technology, Inc. Methods and systems to fingerprint textual information using word runs
CN101661461B (zh) * 2008-08-29 2016-01-13 阿里巴巴集团控股有限公司 确定文档中核心地理信息的方法、系统
US9092636B2 (en) 2008-11-18 2015-07-28 Workshare Technology, Inc. Methods and systems for exact data match filtering
US8768759B2 (en) 2008-12-01 2014-07-01 Topsy Labs, Inc. Advertising based on influence
EP2359276A4 (en) * 2008-12-01 2013-01-23 Topsy Labs Inc ORDERING AND SELECTION OF UNITS PER CALCULATED REPUTATION OR INFLUENCES
US8631007B1 (en) 2008-12-09 2014-01-14 Google Inc. Disambiguating keywords and other query terms used to select sponsored content
US9454586B2 (en) 2009-12-01 2016-09-27 Apple Inc. System and method for customizing analytics based on users media affiliation status
US11122009B2 (en) 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US9110979B2 (en) 2009-12-01 2015-08-18 Apple Inc. Search of sources and targets based on relative expertise of the sources
US11036810B2 (en) 2009-12-01 2021-06-15 Apple Inc. System and method for determining quality of cited objects in search results based on the influence of citing subjects
US9129017B2 (en) 2009-12-01 2015-09-08 Apple Inc. System and method for metadata transfer among search entities
US9280597B2 (en) 2009-12-01 2016-03-08 Apple Inc. System and method for customizing search results from user's perspective
US8892541B2 (en) 2009-12-01 2014-11-18 Topsy Labs, Inc. System and method for query temporality analysis
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US8285716B1 (en) * 2009-12-21 2012-10-09 Google Inc. Identifying and ranking digital resources relating to places
US11030163B2 (en) 2011-11-29 2021-06-08 Workshare, Ltd. System for tracking and displaying changes in a set of related electronic documents
US8635295B2 (en) 2010-11-29 2014-01-21 Workshare Technology, Inc. Methods and systems for monitoring documents exchanged over email applications
US10783326B2 (en) 2013-03-14 2020-09-22 Workshare, Ltd. System for tracking changes in a collaborative document editing environment
US20120296991A1 (en) 2011-02-23 2012-11-22 Nova Spivack Adaptive system architecture for identifying popular topics from messages
US10880359B2 (en) 2011-12-21 2020-12-29 Workshare, Ltd. System and method for cross platform document sharing
US9948676B2 (en) 2013-07-25 2018-04-17 Workshare, Ltd. System and method for securing documents prior to transmission
US10963584B2 (en) 2011-06-08 2021-03-30 Workshare Ltd. Method and system for collaborative editing of a remotely stored document
US9613340B2 (en) 2011-06-14 2017-04-04 Workshare Ltd. Method and system for shared document approval
US10574729B2 (en) 2011-06-08 2020-02-25 Workshare Ltd. System and method for cross platform document sharing
US9170990B2 (en) 2013-03-14 2015-10-27 Workshare Limited Method and system for document retrieval with selective document comparison
KR101584329B1 (ko) 2011-08-16 2016-01-21 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 복수 개의 저장 장치로 데이터의 할당
US9189797B2 (en) 2011-10-26 2015-11-17 Apple Inc. Systems and methods for sentiment detection, measurement, and normalization over social networks
US8832092B2 (en) 2012-02-17 2014-09-09 Bottlenose, Inc. Natural language processing optimized for micro content
US8589404B1 (en) * 2012-06-19 2013-11-19 Northrop Grumman Systems Corporation Semantic data integration
US9009126B2 (en) 2012-07-31 2015-04-14 Bottlenose, Inc. Discovering and ranking trending links about topics
US9094788B2 (en) 2012-08-03 2015-07-28 Blackberry Limited Centralized data store for providing all place-related data to applications on a mobile device
US9173055B2 (en) 2012-08-03 2015-10-27 Blackberry Limited Managing of application access to centrally stored place-related data on a mobile device
US9049547B2 (en) 2012-08-31 2015-06-02 Blackberry Limited Displaying place-related content on a mobile device
US20140074871A1 (en) * 2012-09-07 2014-03-13 Research In Motion Limited Device, Method and Computer-Readable Medium For Recognizing Places
WO2014071055A1 (en) * 2012-10-31 2014-05-08 Virtualbeam, Inc. Distributed association engine
US8762302B1 (en) 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
US11567907B2 (en) 2013-03-14 2023-01-31 Workshare, Ltd. Method and system for comparing document versions encoded in a hierarchical representation
US10911492B2 (en) 2013-07-25 2021-02-02 Workshare Ltd. System and method for securing documents prior to transmission
US10021737B2 (en) 2013-09-17 2018-07-10 Qualcomm Incorporated Techniques for determining common characteristics of groups of wireless access points
CN103678629B (zh) * 2013-12-19 2016-09-28 北京大学 一种地理位置敏感的搜索引擎方法和系统
US10133723B2 (en) 2014-12-29 2018-11-20 Workshare Ltd. System and method for determining document version geneology
US11182551B2 (en) 2014-12-29 2021-11-23 Workshare Ltd. System and method for determining document version geneology
US10395179B2 (en) * 2015-03-20 2019-08-27 Fuji Xerox Co., Ltd. Methods and systems of venue inference for social messages
US11763013B2 (en) 2015-08-07 2023-09-19 Workshare, Ltd. Transaction document management system and method
US10474672B2 (en) * 2015-08-25 2019-11-12 Schlafender Hase GmbH Software & Communications Method for comparing text files with differently arranged text sections in documents
JP6271617B2 (ja) * 2016-02-25 2018-01-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US10621216B2 (en) 2017-02-28 2020-04-14 International Business Machines Corporation Generating a ranked list of best fitting place names
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN114247591A (zh) 2020-09-24 2022-03-29 厦门松霖科技股份有限公司 出液装置除垢机构、出液装置、花洒及龙头

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257242A (en) * 1991-07-24 1993-10-26 Amoco Corporation Method of geophysical exploration
JP3333998B2 (ja) * 1992-08-27 2002-10-15 オムロン株式会社 自動分類付与装置および方法
US6148289A (en) * 1996-05-10 2000-11-14 Localeyes Corporation System and method for geographically organizing and classifying businesses on the world-wide web
US5960435A (en) * 1997-03-11 1999-09-28 Silicon Graphics, Inc. Method, system, and computer program product for computing histogram aggregations
JP3226020B2 (ja) * 1997-05-28 2001-11-05 日本電気株式会社 動きベクトル検出装置
US6006321A (en) * 1997-06-13 1999-12-21 Malleable Technologies, Inc. Programmable logic datapath that may be used in a field programmable device
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
US6701307B2 (en) * 1998-10-28 2004-03-02 Microsoft Corporation Method and apparatus of expanding web searching capabilities
US6694311B1 (en) * 1999-01-25 2004-02-17 International Business Machines Corporation Method and apparatus for fast query approximation using adaptive query vector projection
US6904409B1 (en) * 1999-06-01 2005-06-07 Lucent Technologies Inc. Method for constructing an updateable database of subject behavior patterns
CA2279359C (en) * 1999-07-30 2012-10-23 Basantkumar John Oommen A method of generating attribute cardinality maps
US6993502B1 (en) * 1999-11-11 2006-01-31 Cch Incorporated Transaction tax collection system and method
EP3367268A1 (en) 2000-02-22 2018-08-29 Nokia Technologies Oy Spatially coding and displaying information
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20050105713A1 (en) * 2000-10-03 2005-05-19 Dialtech Llc Intelligent telephone number dialer and method
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US6865295B2 (en) * 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6993515B2 (en) * 2001-09-17 2006-01-31 Coemergence Inc. Intelligence system and a method of generating flags for use therein
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7130865B2 (en) * 2001-12-19 2006-10-31 First Data Corporation Methods and systems for developing market intelligence
US7137062B2 (en) * 2001-12-28 2006-11-14 International Business Machines Corporation System and method for hierarchical segmentation with latent semantic indexing in scale space
US7424438B2 (en) * 2002-03-19 2008-09-09 Marc Vianello Apparatus and methods for providing career and employment services
US20050171948A1 (en) 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
EP1604309A2 (en) * 2003-03-18 2005-12-14 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
US7340460B1 (en) * 2003-04-04 2008-03-04 Yahoo! Inc. Vector analysis of histograms for units of a concept network in search query processing
US20040220907A1 (en) * 2003-04-30 2004-11-04 Camarillo David W. Technique for searching for contact information concerning desired parties
US7389394B1 (en) * 2003-05-02 2008-06-17 Symantec Operating Corporation System and method for performing snapshots in a storage environment employing distributed block virtualization
US20050187823A1 (en) * 2004-02-23 2005-08-25 Howes Jeffrey V. Method and system for geographically-targeted internet advertising
US20050197894A1 (en) * 2004-03-02 2005-09-08 Adam Fairbanks Localized event server apparatus and method
US7716162B2 (en) * 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references
US7483881B2 (en) * 2004-12-30 2009-01-27 Google Inc. Determining unambiguous geographic references

Also Published As

Publication number Publication date
CA2845194A1 (en) 2006-07-13
CA2845194C (en) 2016-08-30
US20150012542A1 (en) 2015-01-08
CA2593377A1 (en) 2006-07-13
CN101128821A (zh) 2008-02-20
EP1839208A1 (en) 2007-10-03
JP2008536195A (ja) 2008-09-04
CA2593377C (en) 2014-05-27
AU2005322967B2 (en) 2009-07-09
CN101128821B (zh) 2010-06-23
US8856143B2 (en) 2014-10-07
KR101219366B1 (ko) 2013-01-09
AU2005322967A1 (en) 2006-07-13
US9323738B2 (en) 2016-04-26
US20100076985A1 (en) 2010-03-25
WO2006073977A1 (en) 2006-07-13
JP4633803B2 (ja) 2011-02-16
US7716162B2 (en) 2010-05-11
US20060149742A1 (en) 2006-07-06

Similar Documents

Publication Publication Date Title
KR101219366B1 (ko) 명백한 지리적 언급의 분류
US7676745B2 (en) Document segmentation based on visual gaps
US8078601B1 (en) Determining unambiguous geographic references
US8433704B2 (en) Local item extraction
US9031898B2 (en) Presentation of search results based on document structure
US20120173544A1 (en) Authoritative document identification
US10140297B2 (en) Supplementing search results with information of interest
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B601 Maintenance of original decision after re-examination before a trial
E801 Decision on dismissal of amendment
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20100601

Effective date: 20120720

S901 Examination by remand of revocation
E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161223

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171226

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181220

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20191219

Year of fee payment: 8