KR100974905B1

KR100974905B1 - 비즈니스 정보를 식별하기 위한 방법 및 시스템

Info

Publication number: KR100974905B1
Application number: KR1020077017429A
Authority: KR
Inventors: 마이클 데니스 라일리
Original assignee: 구글 인코포레이티드
Priority date: 2004-12-30
Filing date: 2005-12-30
Publication date: 2010-08-09
Also published as: EP2372584A1; AU2005322850B2; JP2008527502A; CN101128819A; CA2593378C; JP2011129154A; CN101128819B; CA2593378A1; AU2005322850C1; WO2006074052A1; US20110047151A1; US7831438B2; EP1839211A1; KR20070092755A; US8433704B2; AU2005322850A1; JP5226095B2; US20060149565A1

Abstract

주소를 포함하는 문서를 식별하고 그 문서 내에서 비즈니스 정보(business information )를 찾아내는 시스템이다. 상기 시스템은 상기 비즈니스 정보에 신뢰 점수(confidence score )를 할당하고, 상기 신뢰 점수는 상기 비즈니스 정보가 상기 주소와 연관되어 있을 가능성에 관한 것이다. 상기 시스템은 상기 할당된 신뢰 점수에 기초하여 상기 비즈니스 정보가 상기 주소와 연관있는지 여부를 결정한다.

비즈니스, 정보, 식별, 신뢰 점수, 우편주소

Description

비즈니스 정보를 식별하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR IDENTIFIYING BUSINESS INFORMATION}

본 명세서에 기술된 실시예들은 일반적으로 로컬 정보 검색에 관한 것이며, 더욱 구체적으로는 주소와 연관된 비즈니스 정보의 식별에 관한 것이다.

월드와이드웹(World Wide Web, 이하 "웹(web)"이라고도 한다)은 엄청난 양의 정보를 포함하고 있다. 하지만 정보의 원하는 부분을 찾아내는 것은 능력을 시험하는 도전일 수 있다. 웹상의 정보의 양과 웹 검색의 경험이 없는 새로운 사용자의 수가 급격하게 증가하고 있기 때문에, 이 문제는 더욱 심해지고 있다.

검색 시스템은 사용자가 관심을 갖는 웹 페이지에 대한 하이퍼링크의 회신을 시도한다. 일반적으로, 검색 시스템은 사용자에 의해 입력된 (검색 질의라고 하는) 검색어에 대한 사용자의 관심에 대한 자신의 결정을 기초로 한다. 검색 시스템의 목적은 검색 질의에 기초하여 고품질의 관련 결과(예컨대, 웹 페이지)에 대한 링크를 사용자에게 제공하는 것이다. 일반적으로, 검색 시스템은 검색 질의 내의 용어를 미리 저장된 웹 페이지들의 코퍼스(corpus)와 대조함으로써 상기 목적을 달성한다. 사용자의 검색어를 포함하는 웹 페이지는 "히트(hit)"하는 것이고 사용자에게 링크로서 회신된다.

로컬 검색 시스템은 특정한 지리적 지역(geographic area) 내의 관련 웹 페 이지 및/또는 비즈니스 목록(business listing)의 회신을 시도한다. 어떤 비즈니스가 웹 페이지에 언급되어 있는 경우, 기존의 로컬 검색 시스템은 그 비즈니스를 업종별 전화번호부(yellow page, YP) 데이터와 대조하여 대응하는 비즈니스 목록을 식별할 수 있다. 하지만 이 기술은, 업종별 전화번호부 데이터가 존재하지 않거나 업종별 전화번호부 데이터가 비즈니스에 대해 부정확한 경우, 실제적이지 않다.

본 발명의 일 실시양태에 따른 방법은, 주소를 포함하는 문서를 식별하는 단계, 상기 문서 내에서 비즈니스 정보를 찾아내는 단계, 및 상기 비즈니스 정보에 신뢰 점수(confidence score)를 할당하는 단계를 포함할 수 있으며, 상기 신뢰 점수는, 상기 비즈니스 정보가 상기 주소와 연관되어 있을 확률에 관한 것일 수 있다. 상기 방법은 또한 상기 할당된 신뢰 점수에 기초하여, 상기 비즈니스 정보가 상기 주소와 연관되어 있는지를 결정하는 단계를 더 포함할 수 있다.

본 발명의 다른 실시양태에 따른 방법은, 주소를 포함하는 문서를 식별하는 단계, 상기 문서 내에서 상기 주소에 선행하는 용어의 세트를 식별하는 단계, 및 각각의 상기 용어가 상기 주소와 연관된 타이틀의 일부일 확률을 결정하는 단계를 포함할 수 있다. 상기 방법은 또한 상기 주소와 연관된 타이틀의 일부일 확률이 높은, 상기 용어 중 하나 이상에 기초하여 후보 타이틀(candidate title )을 식별하는 단계, 상기 후보 타이틀에 신뢰 점수를 할당하는 단계, 및 상기 할당된 신뢰 점수에 기초하여 상기 후보 타이틀이 상기 주소와 연관되어 있는지를 결정하는 단계를 포함할 수 있다.

본 발명의 또 다른 실시양태에 따른 발명은, 주소를 포함하는 문서를 식별하는 단계, 상기 문서 내에서 한 세트의 후보 전화번호를 식별하는 단계, 상기 한 세트의 후보 전화번호 내의 각각의 상기 후보 전화번호가 상기 주소와 연관되어 있을 확률을 결정하는 단계, 및 상기 결정한 확률에 기초하여 상기 후보 전화번호 중 하나가 상기 주소와 연관되어 있는지를 결정하는 단계를 포함할 수 있다.

본 발명의 또 다른 실시양태에 따른 발명은, 랜드마크(landmark)를 포함하는 웹 페이지를 식별하는 단계, 상기 웹 페이지의 속성(attribute)을 식별하는 단계, 및 상기 속성에 신뢰 점수를 할당하는 단계를 포함할 수 있으며, 상기 신뢰 점수는 상기 속성이 상기 랜드마크와 연관되어 있는 확률에 관한 것일 수 있다. 상기 방법은 또한 상기 할당된 신뢰 점수에 기초하여 상기 속성이 상기 랜드마크와 연관되어 있는지를 결정하는 단계를 포함할 수 있다.

본 명세서에 통합되어 본 명세서에 일부를 구성하는 첨부도면은 본 발명의 실시예를 예시한 것으로, 상세한 설명(description)과 함께 본 발명을 설명하는 것이다.

도 1은 주소를 포함하는 문서의 일례를 나타낸 도면이다.

도 2는 본 발명의 원리와 일치하는 시스템 및 방법이 구현될 수 있는 네트워크의 대표적인 예를 나타낸 도면이다.

도 3은 본 발명의 원리와 일치하는 실시예에 따른, 도 2의 클라이언트 또는 서버의 대표적인 예를 나타낸 도면이다.

도 4는 본 발명의 원리와 일치하는 실시예에 따른 트레이닝(training) 시스템의 대표적인 예를 나타낸 도면이다.

도 5는 본 발명의 원리와 일치하는 실시예에 따른 통계적 모델을 트레이닝하기 위한 처리의 대표적인 예를 나타낸 흐름도이다.

도 6은 본 발명의 원리와 일치하는 실시예에 따른 로컬 항목 추출기를 나타낸 도면이다.

도 7은 본 발명의 원리와 일치하는 실시예에 따른 주소와 연관된 비즈니스 명칭(타이틀)을 식별하기 위한 처리의 대표적인 예를 나타낸 흐름도이다.

도 8은 본 발명의 원리와 일치하는 실시예에 따른 주소와 연관된 전화번호를 식별하기 위한 처리의 대표적인 예를 나타낸 흐름도이다.

도 9 - 도 15는 본 발명의 원리와 일치하는 실시예에 따른 문서에 대해 수행될 수 있는 처리를 설명하는 도면이다.

이하, 첨부도면을 참조하여 본 발명에 대해 상세하게 설명한다. 상이한 도면에서의 동일한 도면부호는 동일하거나 유사한 구성요소임을 확인할 수 있다. 또한, 이하의 상세한 설명은 본 발명을 제한하는 것이 아니다.

개요

로컬 검색은 특정한 지리적 지역와 연관된 비즈니스 목록의 식별을 포함한다. 웹은 수십억 개의 문서를 포함하고 있고, 그 중 일부는 비즈니스를 언급할 수 있다. 로컬 검색 시스템의 이점은 가능한 한 많은 상이한 비즈니스와 연관된 비즈 니스 정보를 식별하는 것이다. 흔히, 업종별 전화번호부는 비즈니스와 연관되어 있다. 하지만, 때로는 업종별 전화번호부 데이터가 없는 문서에 비즈니스가 언급되어 있거나 업종별 전화번호부 데이터가 어쩌면 부정확할 수 있다.

본 발명의 원리와 일치하는 시스템 및 방법은 웹 문서에 언급된 주소와 연관된 비즈니스 정보를 식별할 수 있다. 일 실시예에서, 비즈니스 정보는 주소와 연관된 비즈니스의 명칭을 포함할 수 있다. 다른 실시예에서, 비즈니스 정보는 주소와 연관된 전화번호를 포함한다. 또 다른 실시예에서, 비즈니스 정보는 영업시간 또는 주소와 연관된 웹 사이트 또는 지도에 대한 링크와 같은, 다른 타입의 정보를 포함할 수 있다.

도 1은 주소를 포함하는 문서의 일례를 나타낸 도면이다. 도시된 바와 같이, Oakmont, Pennsylvania(미국 펜실베니아주 오크몬트) 소재의 레스토랑인 Veltri's Pizza에 대한 비평과 연관된 문서이다. 이 문서가 우편주소(즉, 123 Allegheny Avenue, Oakmont, PA)를 포함하는지를 결정하기 위해 문서를 분석할 수 있다. Veltri's Pizza가 업종별 전화번호부 데이터와 전혀 연관되어 있지 않거나 어쩌면 부정확한 업종별 전화번호부 데이터를 가질 수 있다고 가정하자.

여기에 설명한 기술을 사용하여, 상기 문서를 더욱 분석하여 주소와 연관된 비즈니스 정보를 결정할 수 있다. 이 비즈니스 정보는 비즈니스 명칭(여기서는 "타이틀(title)" 이라고도 한다) 및/또는 주소와 연관된 전화번호를 포함할 수 있다. 이 비즈니스 정보는 주소와 연관된 비즈니스 목록을 생성하거나 정정하는 데 사용될 수 있다.

여기에서 사용된 용어인 "문서(document)"는 소정의 기계로 판독 가능하고 기계에 저장 가능한 자료(work product)를 포함하는 것으로 광의로 해석되어야 한다. 문서는, 예를 들면 이메일, 웹 사이트, 비즈니스 목록, 파일, 파일들의 조합, 다른 파일에 대한 링크가 삽입된 하나 이상의 파일, 뉴스 그룹 포스팅, 블로그, 웹 광고 등을 포함할 수 있다. 인터넷 환경에서, 일반적인 문서는 웹 페이지이다. 웹 페이지는 흔히 텍스트 정보를 포함하고, (메타 정보, 이미지, 하이퍼링크 등과 같은) 삽입된 정보 및/또는 (자바스크립트 등과 같은) 삽입된 명령어를 포함할 수 있다. 여기에서 사용된 용어인 "링크(link)"는 다른 문서 또는 동일한 문서의 다른 부분으로부터의 어떤 문서에 대한 소정의 참조 및 어떤 문서로부터의 다른 문서 또는 동일한 문서의 다른 부분에 대한 소정의 참조를 포함하는 것으로 광의로 해석되어야 한다.

대표적인 네트워크 구성

도 2는 본 발명의 원리와 일치하는 시스템 및 방법이 구현될 수 있는 대표적인 네트워크(200)를 나타낸 것이다. 네트워크(200)는 네트워크(250)를 통해 복수의 서버(220-240)와 연결된 복수의 클라이언트(210)를 포함할 수 있다. 간결하게, 두 개의 클라이언트(210)와 세 개의 서버(220-240)가 네트워크(250)에 연결되어 있는 것으로 예시하였다. 실제로, 클라이언트와 서버는 더 많거나 더 적을 수 있다. 또, 어떤 경우에는 클라이언트가 서버의 기능을 수행할 수 있고, 서버가 클라이언트의 기능을 수행할 수도 있다.

클라이언트(210)는 클라이언트 엔티티(entity)를 포함할 수 있다. 엔티티는 무선 전화, 개인용 컴퓨터, 개인용 휴대 정보 단말기(personal digital assistant, PDA), 랩톱 컴퓨터, 또는 다른 타입의 계산 또는 통신 디바이스와 같은 디바이스, 이들 디바이스 상에서 실행되는 스레드(thread)나 프로세스(process), 및/또는 이들 디바이스에 의해 실행 가능한 객체(object)로서 규정될 수 있다. 서버(220-240)는 본 발명의 원리와 일치하는 방식으로 문서를 수집(gather), 처리, 검색 및/또는 유지하는 서버 엔티티들을 포함할 수 있다.

본 발명의 원리와 일치하는 실시예에서, 서버(220)는 클라이언트(21)가 사용 가능한 검색 엔진(225)을 포함할 수 있다. 서버(220)는 문서들의 코퍼스(예를 들면, 웹 문서들)에 접근(crawl)할 수 있고, 그 문서들을 분류할 수 있으며, 그 문서들과 연관된 정보를 문서들의 저장소에 저장할 수 있다. 서버(230, 240)는, 서버(220)에 의해 접근 또는 분석될 수 있는 문서들을 저장하거나 유지할 수 있다.

서버(220-240)는 별개의 엔티티로 도시되어 있지만, 서버(220-240) 중 하나 이상은 서버(220-240) 중 다른 하나 이상이 갖는 기능 중 하나 이상을 수행하는 것이 가능할 수 있다. 예를 들면, 서버(220-240) 중 둘 이상이 단일 서버로서 구현될 수도 있다. 또한, 서버(220-240) 중 단일한 하나가 둘 이상의 개별 (어쩌면 분산된) 디바이스로서 구현될 수도 있다.

네트워크(250)는 LAN(Local Area Network), WAN(Wide Area Network), PSTN(Pubic Switched Telephone Network)와 같은 전화망, 인트라넷, 인터넷, 메모리 디바이스 또는 네트워크의 조합을 포함할 수 있다. 클라이언트(210)와 서버(220-240)는 유선, 무선, 및/또는 광학적 접속을 통해 네트워크(250)에 연결될 수 있다.

대표적인 서버 아키텍처

도 3은 본 발명의 원리와 일치하는 실시예에 따른, 클라이언트(210) 및/또는 서버(220-240) 중 하나 이상에 대응할 수 있는 클라이언트 또는 서버 엔티티(이하, "클라이언트/서버 엔티티"라고 한다)의 대표적인 예를 나타낸 것이다. 클라이언트/서버 엔티티는 버스(310), 프로세서(320)), 주 메모리(330), ROM(Read Only Memory)(340), 스토리지 디바이스(350), 입력 디바이스(360), 출력 디바이스(370), 및 통신 인터페이스(380)를 포함할 수 있다. 버스(310)는 클라이언트/서버 엔티티의 구성요소 사이의 통신을 가능하게 하는 경로를 포함할 수 있다.

프로세서(320)는 명령어를 해석하고 실행하는, 종래의 프로세서, 마이크로프로세서 또는 처리 논리회로(processing logic)를 포함할 수 있다. 주 메모리(330)는 프로세서(320)에서 실행하기 위한 정보 및 명령어를 저장하는 RAM(Random Access Memory) 또는 다른 타입의 동적 스토리지 디바이스(dynamic storage device)를 포함할 수 있다. ROM(340)은 프로세서(320)가 사용하는 정적인 정보 및 명령어를 저장하는 종래의 ROM 디바이스 또는 다른 타입의 정적 스토리지 디바이스를 포함할 수 있다. 스토리지 디바이스(350)는 자기 기록 매체 및/또는 광학 기록 매체와 그에 대응하는 드라이브를 포함할 수 있다.

입력 디바이스(360)는 키보드, 마우스, 펜, 음성 인식(voice recognition) 장치 및/또는 바이오메트릭(biometric) 장치 등과 같이 조작자가 클라이언트/서버 엔티티에 정보를 입력할 수 있도록 해주는 종래의 장치를 포함할 수 있다. 출력 디바이스(370)는 디스플레이, 프린터, 스피커 등을 포함하여, 조작자에게 정보를 출력하는 이상의 종래의 장치를 포함할 수 있다. 통신 인터페이스(380)는 클라이언트/서버 엔티티가 다른 디바이스 및/또는 시스템과 통신할 수 있도록 해주는 임의의 송수신기형(transceiver-like) 장치를 포함할 수 있다. 예를 들면, 통신 인터페이스(380)는 네트워크(250)와 같은 네트워크를 통해 다른 디바이스나 시스템과 통신하는 장치를 포함할 수 있다.

본 발명의 원리와 일치하는 클라이언트/서버 엔티티는 이하에 상세하게 설명하는 일정한 동작을 수행할 수 있다. 클라이언트/서버 엔티티는 주 메모리(330)와 같은 컴퓨터로 판독 가능한 매체에 저장된 소프트웨어 명령어를 실행하는 프로세서(320)에 응답하여 이들 동작을 수행할 수 있다. 컴퓨터로 판독 가능한 매체는 물리 또는 논리 메모리 디바이스 및/또는 반송파(carrier wave, 搬送波)로서 규정될 수 있다.

소프트웨어 명령어는 데이터 스토리지 디바이스(350)와 같은 컴퓨터로 판독 가능한 매체로부터, 또는 통신 인터페이스(380)를 통해 다른 디바이스로부터 주 메모리(330)로 읽어들일 수 있다. 주 메모리(330)에 저장된 소프트웨어 명령어는 프로세서(320)로 하여금 상세하게 후술할 프로세스들을 수행하도록 한다. 다르게는, 소프트웨어 명령어 대신에 또는 소프트웨어 명령어와 결합하여 고정 배선 회로(hardwired circuitry)를 사용하여 본 발명의 원리와 일치하는 프로세스들을 실행할 수 있다. 따라서, 본 발명의 원리와 일치하는 실시예들은 하드웨어 회로와 소프트웨어의 어떤 특정 조합으로 한정되는 것은 아니다.

대표적인 트레이닝 시스템

도 4는 본 발명의 원리와 일치하는 실시예에 따른 트레이닝 시스템(400)의 대표적인 예를 나타낸 것이다. 일 실시예에서, 트레이닝 시스템(400)은 서버(220)(도 2) 내에 소프트웨어 및/또는 하드웨어, 다른 디바이스, 또는 서버(220)와 분리되어 있거나 서버(220)를 포함하는 디바이스의 그룹에 의해 구현될 수 있다.

도 4에 도시된 바와 같이, 트레이닝 시스템(400)은 트레이닝 세트에 기초한 통계 모델(statistical model)을 생성하는 트레이너(trainer)(410)를 포함할 수 있다. 일 실시예에서, 업종별 전화번호부(YP) 데이터가 있는 주소를 포함하는 문서의 세트를 식별할 수 있다. 일반적으로, 트레이너(410)는 업종별 전화번호부 데이터가 있는 문서의 세트 내의 비즈니스 정보와 공통으로 연관된 특성(feature)을 식별하여 통계 모델(420)을 생성할 수 있다. 통계 모델(420)은 업종별 전화번호부 데이터가 없거나 어쩌면 업종별 전화번호부 데이터가 부정확할 수 있는 주소를 포함하는 문서 내에서 비즈니스 정보를 찾아낼 수 있는 경우를 예측하는 데 사용될 수 있다.

도 5는 본 발명의 원리와 일치하는 실시예에 따른 통계 모델(420)을 트레이닝하기 위한 처리 흐름도의 대표적인 예이다. 처리는 문서들의 코퍼스를 분석하하여 업종별 전화번호부 데이터(YP)가 있는 주소를 포함하는 문서를 식별하는 것에서 개시할 수 있다(블록 510). 예를 들면, 문서 코퍼스 내의 문서들을 분석하여 해당 문서들이 주소를 포함하는지를 결정할 수 있다. 모든 공지의 주소 인식 기술을 사 용하여 문서 내의 주소를 인식할 수 있다.

문서가 주소를 포함하는 것으로 식별된 경우, 그 주소를 업종별 전화번호부 데이터와 대조 분석하여, 업종별 전화번호부 데이터가 그 주소와 일치하는 비즈니스 목록을 포함하는 업종별 전화번호부 데이터인지를 결정할 수 있다. 업종별 전화번호부의 비즈니스 목록으로부터, 비즈니스의 명칭("타이틀") 및/또는 전화번호와 같은 비즈니스 정보를 식별할 수 있다. 그런 다음, 이 비즈니스 정보를 문서 내에서 식별할 수 있다(블록 520). 예를 들면, 문서의 텍스트를 분석하여 텍스트 중 어떤 것이 비즈니스 정보와 일치하는지를 결정할 수 있다.

비즈니스 정보와 일치하는 텍스트가 없는 경우, 해당 문서를 트레이닝 세트에서 제거할 수 있다. 문서의 텍스트가 비즈니스 정보와 일치하는 경우, 문서 내에서 해당 주소 및 비즈니스 정보를 눈에 띄게 표시하고(블록 530), 그 문서를 트레이닝 세트에 포함시킬 수 있다. 임의의 널리 공지된 표시 기술(marking technique)을 사용하여 문서 내에서 해당 주소 및 비즈니스 정보를 표시할 수 있다. 일 실시예에서는, 비즈니스 정보가 주소 근처(예를 들면, 주소의 왼쪽 및/또는 오른쪽에서 20 또는 60개 용어와 같이, 소정의 개수의 용어 이내)에 있는 문서만을 트레이닝 세트에 포함할 수 있다. 다른 실시예에서는, 비즈니스 정보가 문서의 어느 곳이든 있는 문서를 트레이닝 세트에 포함할 수 있다.

수백만 개의 문서를 포함할 수 있는 트레이닝 세트가 일단 확정되었으면, 트레이닝 세트에 기초하여 통계 모델을 생성할 수 있다(블록 540). 예를 들면, 트레이닝 세트의 문서를 분석하여 문서가 주소를 포함하는 경우에 문서 내에서 비즈니 스 정보를 인식하는 방법에 관한 특성을 수집할 수 있다. 이 특성은 후보 용어가 참조 지점(예를 들면, 문서 내의 주소)으로부터 떨어져 있는 거리, 후보 용어의 특징(characteristis), 후보 용어와 연관된 경계 정보, 및/또는 후보 용어와 관련된 구두점 정보에 연관될 수 있다. 타이틀을 결정하는 데 유용한 특정한 특성은 전화번호를 결정하는 데 유용하는 특성과는 다를 수 있다. 또 특성은 다른 타입의 비즈니스 정보를 결정하는 경우에도 다를 수 있다.

후보 타이틀 용어의 특징에 관한 특성의 예는, 용어가 무엇인지; 용어가 숫자인지; 용어가 대문자로 시작하는지, 대문자(uppercase)인지, 굵은체(bolded)인지, 이탤릭체인지, 밑줄이 있는지, 또는 가운데 맞춤(centered)되어 있는지; 용어가 앵커 텍스트(anchor text)의 일부인지; 및 문자 길이(문자수)를 포함할 수 있다. 후보 타이틀의 경계 경보에 관한 특성의 예는 경계 표시의 존재(예를 들면, HTML 태그)에 기초할 수 있고, 단락, 끊김(break), 또는 리스트 항목 마커(marker)가 존재하는지, 그리고 후보 타이틀 용어와 선행 용어나 후행 용어 사이에 표(table) 또는 리스트의 시작이나 끝에 관련된 마커가 존재하는지를 포함할 수 있다. 후보 타이틀 용어에 대한 구두점 정보에 관한 특성의 예는, 콤마, 마침표, 느낌표, 물음표, 콜론, 세미콜론, 대시(dash), 단일 또는 이중 따옴표, 괄호, 또는 후보 타이틀 용어와 선행 용어나 후행 용어 사이의 공백이 존재하는지를 포함할 수 있다. 다른 특성들도 또한 이 기술분야의 당업자에게 명백할 것이다.

후보 전화번호 용어의 특징에 관한 특성의 예는, 용어가 무엇인지; 문자들 내의 용어의 길이, 그리고 전화번호가 지역번호를 포함하는 경우에 그 지역번호가 주소를 찾아낸 지리적 지역에 적절하게 나타나 있는지를 포함할 수 있다. 후보 전화번호 용어의 경계 정보에 관한 특성의 예는 경계 표시(예를 들면, HTML 태그)의 존재에 기초할 수 있고, 단락, 끊김, 또는 리스트 항목 마커가 존재하는지, 그리고 후보 전화번호 용어와 어드레스 사이에 표 또는 리스트의 시작이나 끝에 관련된 마커가 존재하는지를 포함할 수 있다. 후보 전화번호 영어에 관한 몇몇 다른 특성은, 일반적인 전화번호 용어(예: 호출, 연락, 전화 등; call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))가 후보 전화번호 용어 이전의 소정의 수의 용어 이내에 나타나는지, 일반적인 패스번호 용어(예: 팩스 등; fax, faxing, (F))가 후보 팩스 용어 이전의 소정의 수의 용어 이내에 나타나는지, 후보 전화번호 용어와 어드레스 사이에 다른 전화번호가 존재하는지를 포함할 수 있다. 다른 특성들도 또한 이 기술분야의 당업자에게 명백할 것이다.

문서 내의 용어와 연관된 특성에 기초한 통계 모델을 사용하여, 용어가 문서 내의 주소와 연관된 비즈니스 정보의 일부인지를 예측할 수 있다. 다시 말해, 통계 모델은 트레이닝 세트로부터 많은 상이한 단서(clue)를 식별하고, 그 단서들을 사용하여 문서 내에서 타이틀의 시작 및 끝이 될 것 같은 위치 및/또는 문서 내의 주소에 대응할 것 같은 전화번호를 결정할 수 있다.

대표적인 로컬 항목 추출기

도 6은 본 발명의 원리와 일치하는 실시예에 따른 로컬 항목 추출기(600)의 대표적인 예를 나타낸 도면이다. 일 실시예에서, 로컬 항목 추출기(600)는 서버(220)(도 2) 내의 소프트웨어 및/또는 하드웨어, 다른 디바이스, 또는 서버(220) 와 분리되어 있거나 서버(220)를 포함하는 디바이스의 그룹에 의해 구현될 수 있다.

도 6에 도시된 바와 같이, 로컬 항목 추출기(600)는 주소를 가지는 문서를 분석하여 통계 모델(420)에 기초하여 그 주소와 연관된 비즈니스 정보를 결정할 수 있는 분류기(610)를 포함할 수 있다. 분류기(610)에 의해 분석된 문서는, 대응하는 업종별 전화번호부 데이터가 존재하지 않는 주소를 가지는 문서 및/또는 업종별 전화번호부 데이터가 부정확할 수 있는 주소를 가지는 문서를 포함할 수 있다. 분류기(610)에 의해 실행되는 기능은 비즈니스 정보가 비즈니스 명칭(타이틀) 정보 또는 전화번호 정보에 대응하는지에 따라 달라질 수 있다. 비즈니스 정보가 비즈니스 명칭이나 전화번호 정보 이외의 정보를 포함하는 경우에는 또 다른 기능이 수행될 수 있다.

도 7은 본 발명의 원리와 일치하는 실시예에 따른, 주소와 연관된 비즈니스 명칭(타이틀)을 식별하기 위한 처리의 대표적인 예를 나타낸 흐름도이다. 처리는 주소를 포함하는 문서를 식별하는 것으로 시작될 수 있다(블록 710). 임의의 공지의 주소 인식 기술을 사용하여 문서 내의 주소를 인식할 수 있다.

주소 근처의 용어를 분석하여 각각의 용어가 타이틀의 일부일 확률을 결정할 수 있다(블록 720 및 730). 일 실시예에서는, 문서 내의 주소 직전의 용어를 사용하여 분석을 시작할 수 있다. 다시 말해, 타이틀의 검색은 주소에서 시작하여 문서의 텍스트를 거슬러 역방향으로(backward) 검색할 수 있다. 이 이론은 주소와 연관하여 문서 내에 타이틀이 나타나는 경우, 거의 항상 문서 내에서 주소 이전에 나타난다는 것이다.

후보 용어를 분석할 때, 통계 모델에 기초하여, 후보 용어가 선행하는 용어에 대한 예측으로 주어진, 그리고 후보 용어 주위의 용어의 윈도우(예: 좌우의 소정의 개수의 용어를 조사)에 주어진 타이틀의 일부일 확률을 결정할 수 있다. 확률 결정은 후보 용어의 특성 및 윈도우 내의 기타 용어에 기초하여 이루어질 수 있다. 후보 용어와 연관된 특성은, 예를 들면 주소로부터의 후보 용어의 거리, 후보 용어의 특징, 후보 용어와 선행 용어나 후행 용어 사이의 경계 정보, 및/또는 후보 용어와 선행 용어나 후행 용어 사이의 구두점 정보를 포함할 수 있다.

0 또는 1인 t(i)를, 주소의 시작 위치에 선행하는 i번째 용어가 타이틀 내의 용어인지(=1) 또는 타이틀 내의 용어가 아닌지(=0)의 예측결과(pridiction)라고 한자. x(i)를 i번째 용어라고 하고, s(i)를 x(i)의 속성(예: 거리 및 특징)이라 하며, h(i)를 x(i)와 후행(또는 선행) 용어 사이의 경계 정보라고 하고, q(i)를 x(i)와 후행(또는 선행) 용어 사이의 구두점 정보라고 하자. 그러면 x(i)가 문자의 전후 상황으로 보아 타이틀의 일부일 확률은 다음과 같이 나타낼 수 있다:

위 식에서, x(i+2)x(i+1)x(i)x(i-1)x(i-2)는 x(i) 주위의 용어의 윈도우를 가리킬 수 있고(용어의 윈도우는 x(i) 오른쪽의 용어 2개와 왼쪽의 용어 2개로 나타나 있지만, 본 발명의 원리와 일치하는 다른 실시예들에서는 더 크거나 더 작을 수 있다), s(i+2)s(i+1)s(i)s(i-1)s(i-2)는 윈도우 내의 용어의 속성을 가리킬 수 있으며, h(i+1)h(i)h(i-1)h(i-2)는 윈도우 내의 용어들 사이의 경계 정보를 가리킬 수 있고, q(i+1)q(i)q(i-1)q(i-2)는 윈도우 내의 용어들 사이의 구두점 정보를 가리킬 수 있으며, t(i-1)는 x(i)에 선행하는 용어에 관한 예측결과를 가리킬 수 있다.

X = x(n)x(n-1)...x(2)x(1)라 하면, n은 고려되는 텍스트 문자열의 크기(예: 용어 20개)를 가리킨다, S = s(n)s(n-1)...s(2)s(1), H = h(n-1)...h(2)h(1), Q = q(n-1)...q(2)q(1), 및 T = t(n)t(n-1)...t(2)t(1)이다. 그러면, 문자열 전체의 확률은 Prob(T given X, S, H, Q)에 의해 결정될 수 있다. 조건부 확률(conditional probability)의 정의 및 마르코프형 가설(Markov-like assumption)(즉, 오직 로컬 문맥 내용(local context matter))에 기초하여, 문자열의 확률은 다음과 같이 나타낼 수 있다:

Prob(T given X, S, H, Q) = k F(n)F(n-1)...F(2)F(1),

위 식에서 k는 이 문맥(context)의 상수이고, 식 오른쪽의 F(i)의 t(i) 및 t(i-1)은 식의 왼쪽의 T에 있는 것과 일치한다.

그리고 T는 T 내의 모든 1이 인접한다는 제약을 받는 Prob(T given X, S, H, Q)를 최대화하도록 선택될 수 있다. 이렇게 함으로써, 전역 검색(exhaustive search)이 T의 2n에 걸쳐 실행될 수 있고, 각각의 T에 대해 Prob(T given X, S, H, Q)를 구할 수 있다. 단지 최선의 타이틀을 얻기 위해, 공지의 단일 소스 최단 경로 알고리즘(single-source shortest path algorithm)을 사용할 수 있다. 또 j 최선의 타이틀을 얻기 위해, 공지의 j-최선 알고리즘(j-best algorithm)을 사용할 수 있다.

식별된 각각의 후보 타이틀에 신뢰 점수를 할당할 수 있다(블록 740). 신뢰 점수는 타이틀(예: Prob(T given X, S, H, Q))과 연관된 확률과 관한 것일 수 있다. 선택적으로, 후보 타이틀의 세트로부터 주소에 대한 최상의 타이틀을 결정할 수 있다(블록 750). 일 실시예에서, 주소에 대한 최상의 타이틀은 신뢰 점수가 최고인 후보 타이틀로서 식별될 수 있다. 다른 실시예에서, 문서의 그룹 내에 주소가 나타나는 경우, 그 주소에 대한 최상의 타이틀이 문서의 그룹 전체에서 최고의 신뢰 점수를 가지는 후보 타이틀 또는 문서의 그룹 내의 대부분의 문서에 나타나는 최고의 신뢰 점수를 가지는 후보 타이틀로서 식별될 수 있다.

그리고 타이틀은 비즈니스 목록을 형성 또는 추가하기 위한 주소와 연관될 수 있다. 연관된 타이틀을 가지는 주소는 함께 메모리에 기억될 수 있다.

도 8은 본 발명의 원리와 일치하는 실시예에 따른, 주소와 연관된 전화번호를 식별하기 위한 처리의 대표적인 예를 나타낸 흐름도이다. 주소를 포함하는 문서를 식별하는 것으로 처리를 시작할 수 있다(블록 810). 임의의 공지의 주소 인식 기술을 사용하여 문서 내에서 주소를 인식할 수 있다.

문서 내에서 후보 전화번호의 세트를 식별할 수 있다(블록 820). 일 실시예에서는, 문서 내의 모든 전화주소를 후보 전화번호로서 식별할 수 있다. 다른 실시예에서는, 주소의 일정한 거리 이내에 있는 전화번호를 후보 전화번호로서 식별할 수 있다. 임의의 공지된 패턴 매칭 기술을 사용하여 후보 전화번호의 세트를 식별할 수 있다.

통계 모델에 기초하여, 각각의 후보 전화번호가 선행하는 후보 전화번호에 대한 예측결과로 주어진, 그리고 후보 전화번호 주위의 용어의 윈도우(예: 좌우의 소정의 개수의 용어를 조사)에 주어진 확률을 결정할 수 있다(블록 830). 확률 결정은 또한 후보 전화번호와 연관된 특성에 기초할 수 있다. 전술한 바와 같이 특성은, 주소로부터의 후보 전화번호의 거리, 후보 전화번호의 특징, 후보 전화번호와 주소 사이의 경계 정보, 및/또는 후보 전화번호와 주소 사이의 구두점 정보를 포함할 수 있다.

후보 전화번호에 대해 결정된 확률에 기초하여, 후보 전화 번호에 신뢰 점수를 할당할 수 있다(블록 840). 선택적으로, 주소에 대한 최선의 전화번호를 결정할 수 있다(블록 850). 일 실시예에서는, 최고의 신뢰 점수를 가지는 후보 전호번로를 주소에 대한 최선의 전화번호로서 식별할 수 있다. 다른 실시예에서는, 문서의 그룹 내에 주소가 나타나는 경우, 그 주소에 대한 최선의 전화번호는 문서의 그룹 전체에서 신뢰 점수가 최고인 후보 전화번호 또는 문서의 그룹 내의 대부분의 문서에 나타나는 신뢰 점수가 최고인 후보 전화번호로서 식별될 수 있다.

그리고 전화번호는 비즈니스 목록을 형성 또는 추가하기 위한 주소와 연관될 수 있다. 연관된 전화번호가 있는 주소는 전화번호와 함께 메모리에 기억될 수 있다.

예

도 9 - 도 15는 본 발명의 원리와 일치하는 실시예에 따른 대표적인 예의 문서에 대해 수행될 수 있는 처리를 예시한 도면이다. 도 9에 도시된 바와 같이, 문 서는 Washington, DC(미국의 워싱턴 DC) 소재의 Morton's 레스토랑의 비평과 연관된 웹 페이지이다. 이 웹 페이지를 공지의 주소 인식 기술을 사용하여 분석하여 웹 페이지가 우편주소를 포함하는지를 결정할 수 있다. 도 10에 도시된 바와 같이, 주소는 123 Connecticut Avenue, Washington, DC 20200에 대응한다. Morton's 레스토랑이 어떠한 연관된 업종별 전화번호부 데이터가 없거나 어쩌면 부정확한 업종별 전화번호부 데이터를 가진다고 가정하자.

주소와 연관된 비즈니스 명칭(타이틀)을 식별하고자 할 때, 검색은 주소 직전의 용어에서 시작하여 역방향으로 할 수 있다. 이 경우에, 도 11에 도시된 바와 같이, 검색은 용어 "at"에서 시작할 수 있다. 후보 용어 "at"이 주어진 후보 용어 주위의 용어의 윈도우에서 타이틀의 일부일 확률이 얼마인지, 윈도우 내의 용어와 연관되어 있는지, 그리고 예측결과가 이전의 용어와 연관되어 있는지를 결정할 수 있다.

확률은 F(at) = Prob[t(at) given "visited Morton's at 123 Connecticut," s(visited)s(Morton's)s(at)s(123)s(Connecticut),h(Morton's)h(at)h(123)h(Connecticut), q(Morton's)q(at)q(123)q(Connecticut), 0]으로 표현될 수 있으며, 이 식에서, 예를 들면 s(at)는 용어 "at"의 속성을 나타낼 수 있고, h(at)는 용어 "at"과 그 다음 용어인 "Morton's" 사이의 경계 정보를 나타낼 수 있으며, q(at)는 용어 "at"과 그 다음 용어인 "Morton's" 사이의 구두점 정보를 나타낼 수 있고, "0"는 이전 용어에 대한 예측결과로, 이 경우에는 주소의 일부에 대응한다. 간단한 이 예에서는 후보 용어의 좌우의 용어 2개를 윈도우로 가정하였지만, 실제 윈도우 는 더 크거나 작을 수 있다.

후보 용어 "at"과 연관된 속성은 주소로부터의 용어 "at"의 거리를 포함할 수 있다. 이 경우에, 용어 "at"은 주소 직전에 있다. 또한 속성은 용어 "at"의 특징을 포함할 수 있다. 이 경우에, 용어는 "at"이고; 숫자가 아니며; 대문자로 시작하지 않고, 대문자, 굵은체, 이탤릭체, 밑줄, 또는 가운데 맞춤이 아니며; 앵커 텍스트의 일부가 아니고; 문자의 길이는 2문자이다. 경계 정보에 대해, 용어 "at"의 왼쪽(또는 오른쪽)에 경계 마커가 없다고 가정하자. 또한, 용어 "at"의 왼쪽(또는 오른쪽)에 구두점 정보도 없다고 하자. 확률 결정은 "at"이 타이틀의 일부가 아니라는 예측결과를 낳는다고 하자(예: t(at) = 0).

도 12에 도시된 바와 같이 용어 "Morton's"를 사용하여 검색을 계속할 수 있다. 후보 용어 "Morton's"가 후보 용어 주위의 소정의 용어의 윈도우에서 타이틀의 일부일 확률이 얼마인지, 용어의 윈도우 내의 용어와 연관된 특성, 및 이전의 용어와 연관된 예측결과를 결정할 수 있다.

상기 확률은, P(Morton's) = Prob[t(Morton's) given "recently visited Morton's at 123," s(recently)s(visited)s(Morton's)s(at)s(123), h(visited)h(Morton's)h(at)h(123), q(visited)q(Morton's)q(at)q(123), 0]으로 나타낼 수 있다. 용어 "Morton's"와 연관된 속성은 주소로부터의 용어 "Morton's"의 거리를 포함할 수 있다. 이 경우에, 용어 "Morton's"는 주소로부터 용어 1개만큼 떨어져 있다. 또한 속성은 용어 "Morton's"의 특징을 포함할 수 있다. 이 경우에, 용어는 "Morton's"이고; 숫자가 아니며; 첫 번째 문자가 대문자로 시작하고, 대문자, 굵은체, 이탤릭체, 밑줄, 또는 가운데 맞춤이 아니며; 앵커 텍스트의 일부가 아니고; 문자의 길이는 8문자이다. 경계 정보에 대해, 용어 "Morton's"의 왼쪽(또는 오른쪽)에 경계 마커가 없다고 가정하자. 또한, 용어 "Morton's"의 왼쪽(또는 오른쪽)에 구두점 정보도 없다고 하자. 확률 결정은 용어 "Morton's"가 타이틀의 일부라는 예측결과를 낳는다고 하자(예: t(Morton's) = 1).

도 13에 도시된 바와 같이 용어 "visited"를 사용하여 검색을 계속할 수 있다. 후보 용어 "visited"가 후보 용어 주위의 소정의 용어의 윈도우에서 타이틀의 일부일 확률이 얼마인지, 용어의 윈도우 내의 용어와 연관된 특성, 및 이전의 용어와 연관된 예측결과를 결정할 수 있다.

상기 확률은, P(visited) = Prob[t(visited) given "I recently visited Morton's at," s(I)s(recently)s(visited)s(Morton's)s(at), h(recently)h(visited)h(Morton's)h(at), q(recently)q(visited)q(Morton's)q(at), 1]으로 나타낼 수 있다. 용어 "visited"와 연관된 속성은 주소로부터의 용어 "visited"의 거리를 포함할 수 있다. 이 경우에, 용어 "visited"는 주소로부터 용어 2개만큼 떨어져 있다. 또한 속성은 용어 "visited"의 특징을 포함할 수 있다. 이 경우에, 용어는 "visited"이고; 숫자가 아니며; 대문자로 시작하지 않고, 대문자, 굵은체, 이탤릭체, 밑줄, 또는 가운데 맞춤이 아니며; 앵커 텍스트의 일부가 아니고; 문자의 길이는 7 문자이다. 경계 정보에 대해, 용어 "visited"의 왼쪽(또는 오른쪽)에 경계 마커가 없다고 가정하자. 또한, 용어 "visited"의 왼쪽(또는 오른쪽)에 구두점 정보도 없다고 하자. 확률 결정은, 용어 "visited"가 타이틀의 일부가 아니라는 예측결과를 낳는다고 하자(예: t(visited) = 0).

일단 (웹 페이지 내의 용어의 세트 또는 웹 페이지 내의 용어 전부에 대해) 각각의 용어 후보가 타이틀의 일부인지를 예측하였으면, 용어의 슬라이딩 문자열(sliding string)은, 그 문자열로 이루어지는 용어가 타이틀을 포함할 확률을 최대화하는 문자열을 식별하는 것으로 간주될 수 있다. 이 처리는 "Morton's"를 주소에 대한 후보 타이틀로서 식별한다고 가정하자. 전술한 바와 같이, 후보 타이틀에 신뢰 점수를 할당할 수 있다.

주소와 연관된 전화번호를 식별하려 할 때, 도 14에 도시된 바와 같이, 공지의 패턴 매칭 기술을 사용하여 웹 페이지 내의 모든 전화번호를 식별함으로써 검색을 시작할 수 있다. 이 경우에, 두 개의 후보 전화번호: 202-987-6543 및 202-987-6542가 식별되었다.

각각의 후보 전화번호가 후보 전화번호 주위의 소정의 용어의 윈도우에서 주소에 대한 전화번호일 확률이 얼마인지, 후보 전화번호 연관된 특성, 및 이전의 전화번호와 연관된 예측결과를 결정할 수 있다. 후보 전화번호와 연관된 특성은 주소로부터의 전화번호의 거리를 포함할 수 있다. 이 경우에, 두 후보 전화번호는 대략 용어 150개만큼 주소로부터 떨어져 있다. 또한 특성은 전화번호와 주소 사이에 어떤 경계 정보가 존재하는지를 포함할 수 있다. 이 경우에는, 후보 전화번호와 주소 사이에 두 개의 단락(paragraph) 경계가 존재한다.

전화번호와 관련된 다른 몇몇 특성은, 일반적인 전화번호 용어[예: 전화, 전화 주세요(call, calling, telephone, telephoning, phone, phoning), 전화번호( tel, tele, (T), T) 등]가 전화번호 이전의 소정개수의 용어 이내에 나타나는지, 일반적인 팩스번호 용어[예: 팩스, 팩스 주세요(fax, faxing,) (F), F 등]가 전화번호 이전의 소정개수의 용어 이내에 나타나는지, 그 전화번화 주소 사이에 다른 전화번호가 존재하는지를 포함한다. 이 경우에, 확률 결정은 202-987-6543 전화번호 후보가 202-987-6542 전화번호 후보보다 해당 주소에 적합한 전화번호일 가능성이 더 있다는 예측결과를 낳을 수 있다. 주소와 연관되어 있는 확률에 기초하여 후보 전호번호에 신뢰 점수를 할당할 수 있다.

도 15에 도시한 바와 같이, 최고의 신뢰 점수를 가지는 타이틀 및/또는 전화번호의 정보를 사용하여 주소와 연관된 비즈니스 목록을 만들거나 추가할 수 있다. 비즈니스 목록은 비즈니스에 연관된 문서의 링크, 비즈니스에 대한 주소 정보, 비즈니스에 대한 전화번호, 비즈니스를 언급하는 문서로부터의 스니핏(snippet), 및/또는 비즈니스를 가리키는 문서들에 대한 하나 이상의 링크를 포함할 수 있다.

결론

본 발명의 원리와 일치하는 시스템 및 방법은, 문서 내에 몇몇 랜드마크(예: 우편주소)가 주어지면, 랜드마크의 속성(예를 들면, 비즈니스 명칭, 전화번호, 영업 시간 또는 웹 사이트 또는 지도에 대한 링크 등)을 찾아낼 수 있다. 이상의 설명은 문서 내의 주소와 연관된 비즈니스 정보를 찾아내는 것에 초점을 맞추었지만, 반드시 그런 것은 아니다. 다른 실시예에서, 전술한 처리는 제품(랜드마크)과 연관된 가격(속성) 또는 제품 식별 번호(속성)과 같은, 다른 랜드마크와 속성을 사용 할 수 있다. 문서에 나타날 수 있는 다른 타입의 랜드마크 및 속성은 해당 기술분야의 당업자에게 명백할 것이다.

본 발명의 바람직한 실시예에 대한 이상의 설명은, 본 발명에 대한 설명과 예시를 제공하지만, 본 발명을 총망라하거나 개시된 바로 그 형태로 한정하려는 의도는 아니다. 이상의 교시에 비추어 또는 본 발명의 실시로부터 변경 및 변형이 가능하다.

예를 들면, 도 5, 도 7 및 도 8과 관련하여 일련의 동작(act)을 설명하였지만, 본 발명의 원리와 일치하는 다른 실시예들에서 동작의 순서는 바뀔 수 있다. 또 비종속적인 동작들은 병행하여 실행될 수 있다.

또한 후보 용어가 주소와 연관된 비즈니스 정보의 일부일 확률은, 해당 용어 주위의 용어의 윈도우, 이전의 용어에 대한 예측결과, 및 속성, 경계 정보, 윈도우 내의 하나 이상의 용어와 연관된 속성, 경계 정보, 및 구두점과 같은, 특성에 기초한다. 다른 실시예에서는, 더 많거나, 적거나, 또는 다른 특성들이 후보 용어가 주소와 연관된 비즈니스 정보의 일부인지를 예측하는 데 사용될 수 있다.

이상에서 설명한 바와 같은 본 발명의 실시양태들이, 도면에 예시된 실시예에서 여러 상이한 형태의 소프트웨어, 펌웨어, 및 하드웨어로 구현될 수 있다는 것은 이 기술분야의 당업자에게 명백할 것이다. 본 발명의 원리와 일치하는 실시양태들을 구현하는데 이용되는 실제의 소프트웨어 코드 또는 전용(specialized)의 제어 하드웨어는 본 발명의 범위를 제한하지 않는다. 따라서, 본 발명의 실시양태에 대한 동작 및 작용을 특별한 소프트웨어 코드를 참조하지 않고 설명하였으며, 당업 자라면 본 명세서의 상세한 설명에 기초하여 본 발명의 실시양태를 구현하기 위한 소프트웨어 및 제어 하드웨어를 설계할 수 있다는 것을 알 것이다.

본 출원의 설명에서 사용된 요소(element), 동작(act), 명령어(instruction)는 그러한 것으로 명백히 기술되지 않는 한, 본 발명에서 결정적이거나 필수적인 것으로 해석되어서는 안 된다. 또한, 여기에서 사용된 바와 같이, 관사 "a"는 하나 이상의 아이템을 포함하는 것으로 의도된다. 오직 하나의 아이템이 의도되는 경우, 용어 "하나(one)" 또는 유사한 표현을 사용한다. 또, 구 "...에 기초하여(based on)"는 명백히 다르게 나타내지 않는 한 "적어도 일부는 ...에 기초하여"를 의미하는 것으로 의도된다.

Claims

주소와 연관된 비즈니스 정보를 식별하기 위한 비즈니스 정보 식별 방법으로서,

지리적 주소를 포함하는 문서를 식별하는 단계;

후보 비즈니스 정보가 상기 지리적 주소와 연관되어 있을 확률을 결정하고, 상기 후보 비즈니스 정보에, 상기 후보 비즈니스 정보가 상기 지리적 주소와 연관되어 있을 확률에 관한 신뢰 점수(confidence score)를 할당하는 것에 의해 상기 문서 내에서 후보 비즈니스 정보를 찾아내는 단계; 및

상기 할당한 신뢰 점수에 기초하여 상기 후보 비즈니스 정보가 상기 지리적 주소와 연관되어 있는지를 결정하는 단계

를 포함하고,

상기 후보 비즈니스 정보가 상기 지리적 주소와 연관되어 있을 확률은, 기지(旣知)의 주소들 및 연관된 비즈니스 정보를 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는, 비즈니스 정보 식별 방법.
제1항에 있어서,

상기 후보 비즈니스 정보는 타이틀에 대응하고,

상기 문서 내에서 상기 후보 비즈니스 정보를 찾아내는 단계는,

상기 문서 내에서 상기 지리적 주소에 선행하는 복수의 용어를 분석하는 단계,

각각의 상기 용어가 상기 주소과 연관된 타이틀의 일부일 확률을 결정하는 단계, 및

상기 주소와 연관된 상기 타이틀의 일부일 확률이 있는 복수의 용어 중 하나 이상에 기초하여 후보 타이틀을 식별하는 단계

를 포함하는,

비즈니스 정보 식별 방법.
제2항에 있어서,

상기 복수의 용어는, 상기 문서 내에서 상기 지리적 주소 직전에 있는 제1 용어와 상기 문서 내의 상기 제1 용어에 선행하는 하나 이상의 제2 용어를 포함하는, 비즈니스 정보 식별 방법.
제2항에 있어서,

상기 복수의 용어 각각이 타이틀에 포함되어 있을 확률을 결정하는 단계는,

상기 복수의 용어 중 하나가 상기 타이틀의 일부인지를 예측하는 단계, 및

상기 복수의 용어 중 하나에 대한 예측에 기초하여, 상기 용어 중 다른 하나가 상기 타이틀의 일부인지를 예측하는 단계

를 포함하는,

비즈니스 정보 식별 방법.
제2항에 있어서,

상기 복수의 용어 중 하나가 상기 타이틀에 포함되어 있을 확률은, 상기 복수의 용어 중 하나의 주위의 용어들의 윈도우(window)에 기초하는, 비즈니스 정보 식별 방법.
제2항에 있어서,

상기 복수의 용어 중 하나가 상기 타이틀에 포함되어 있을 확률은, 상기 복수의 용어 중 다른 하나와 연관되어 있을 확률에 기초하는, 비즈니스 정보 식별 방법.
제2항에 있어서,

상기 복수의 용어 중 하나가 상기 타이틀에 포함되어 있을 확률은, 상기 복수의 용어 중 하나와 연관된 한 세트의 특성(feature)에 기초하는, 비즈니스 정보 식별 방법.
제7항에 있어서,

상기 한 세트의 특성은, 상기 지리적 주소로부터의 상기 복수의 용어 중 하나의 거리, 상기 복수의 용어 중 하나의 특징(characteristic), 상기 복수의 용어 중 하나와 상기 복수의 용어의 선행 용어나 후행 용어 사이의 경계 정보, 또는 상기 복수의 용어 중 하나와 상기 복수의 용어의 선행 용어나 후행 용어 사이의 구두점 정보 중 적어도 하나를 포함하는, 비즈니스 정보 식별 방법.
제2항에 있어서,

상기 복수의 용어 중 하나가 타이틀에 포함되어 있을 확률은, 기지(旣知)의 주소 및 연관된 타이틀을 가지는 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는, 방법.
제1항에 있어서,

상기 후보 비즈니스 정보는 타이틀에 대응하고,

상기 문서 내에서 상기 후보 비즈니스 정보를 찾아내는 단계는,

상기 문서 내에서 지리적 주소에 선행하는 복수의 용어를 분석하는 단계,

상기 복수의 용어의 각각이 상기 지리적 주소와 연관된 타이틀의 일부일 확률을 결정하는 단계, 및

상기 주소와 연관된 타이틀의 일부일 확률이 있는 상기 용어의 하나 이상의 그룹에 기초하여, 복수의 후보 타이틀을 식별하는 단계

를 포함하는, 비즈니스 정보 식별 방법.
제1항에 있어서,

상기 후보 비즈니스 정보는 전화번호에 대응하고,

상기 문서 내에서 후보 비즈니스 정보를 찾아내는 단계는,

상기 문서 내에서 한 세트의 후보 전화번호를 식별하는 단계, 및

상기 한 세트의 후보 전화번호 내의 각각의 후보 전화번호가 상기 지리적 주소와 연관되어 있을 확률을 결정하는 단계

를 포함하는, 비즈니스 정보 식별 방법.
제11항에 있어서,

상기 한 세트의 후보 전화번호 중 하나가 상기 지리적 주소와 연관되어 있을 확률은, 상기 한 세트의 후보 전화번호 중 하나와 연관된 한 세트의 특성에 기초하는, 비즈니스 정보 식별 방법.
제12항에 있어서,

상기 한 세트의 특성은,

상기 문서 내에서, 상기 지리적 주소로부터의 상기 한 세트의 후보 전화번호 중 하나의 거리,

상기 한 세트의 후보 전화번호 중 하나와 상기 지리적 주소 사이의 경계 정보,

특정 전화번호 용어가 상기 한 세트의 후보 전화번호 중 하나의 이전에 나타나는지에 관한 정보,

특정 팩스번호 용어가 상기 한 세트의 후보 전화번호 중 하나의 이전에 나타나는지에 관한 정보, 또는

다른 후보 전화번호가 상기 한 세트의 후보 전화번호 중 하나와 상기 지리적 주소 사이에 존재하는지에 관한 정보

중 적어도 하나를 포함하는, 비즈니스 정보 식별 방법.
제12항에 있어서,

상기 한 세트의 후보 전화번호 중 하나가 상기 지리적 주소와 연관되어 있을 확률은, 기지의 주소 및 연관된 전화번호를 가지는 복수의 문서와 연관된 특성을 분석함으로써 생성된 상기 통계 모델에 의해 결정되는, 비즈니스 정보 식별 방법.
삭제
제1항에 있어서,

상기 후보 비즈니스 정보는, 타이틀, 전화번호, 영업시간, 또는 상기 지리적 주소와 연관된 웹 사이트나 지도에 대한 링크 중 적어도 하나를 포함하는, 비즈니스 정보 식별 방법.
제1항에 있어서,

상기 후보 비즈니스 정보가 상기 지리적 주소와 연관되어 있는지를 결정하는 단계는,

상기 문서 내에 있는 용어들로 된 문자열들(strings)을 분석하는 단계, 및

상기 문자열들 중 하나의 문자열을 결정하되, 상기 하나의 문자열의 용어들이 상기 후보 비즈니스 정보를 포함할 확률이 최대로 되는, 상기 하나의 문자열을 결정하는 단계

를 포함하는, 비즈니스 정보 식별 방법.
제1항에 있어서,

상기 후보 비즈니스 정보가 상기 지리적 주소와 연관되어 있을 때, 상기 후보 비즈니스 정보 및 상기 지리적 주소에 기초하여 비즈니스 목록을 생성하거나 추가하는 단계를 더 포함하는 비즈니스 정보 식별 방법.
주소와 연관된 비즈니스 정보를 식별하기 위한 비즈니스 정보 식별 시스템으로서,

지리적 주소를 포함하는 문서를 식별하기 위한 수단;

기지(旣知)의 지리적 주소들 및 연관된 비즈니스 정보를 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 하나 이상의 비즈니스 정보 후보가 상기 지리적 주소와 연관되어 있을 확률을 결정하기 위한 수단과, 상기 생성된 통계 모델에 기초하여 상기 연관된 비즈니스 정보가 상기 지리적 주소와 연관되어 있을 확률을 식별하기 위한 수단, 및 상기 하나 이상의 비즈니스 정보 후보의 각각에게 신뢰 점수를 할당하기 위한 수단을 포함하는, 상기 문서 내에서 하나 이상의 비즈니스 정보 후보를 찾아내기 위한 수단; 및

상기 할당한 신뢰 점수에 기초하여, 상기 하나 이상의 비즈니스 정보 후보가 상기 지리적 주소와 연관되어 있는지를 결정하기 위한 수단

을 포함하고,

상기 비즈니스 정보 후보 중 하나와 연관된 상기 신뢰 점수는 상기 비즈니스 정보 후보가 상기 지리적 주소와 연관되어 있을 확률에 관한 것인,

비즈니스 정보 식별 시스템.
주소와 연관된 비즈니스 정보를 식별하기 위한 비즈니스 정보 식별 시스템으로서,

통계 모델을 저장하는 메모리; 및

상기 메모리에 연결된 프로세서

를 포함하고,

상기 프로세서는,

지리적 주소를 포함하는 문서를 식별하고,

상기 문서 내에서 비즈니스 정보를 식별하며,

기지(旣知)의 주소들 및 연관된 비즈니스 정보를 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 상기 비즈니스 정보 후보가 상기 지리적 주소와 연관되어 있을 확률을 결정하며,

상기 확률에 기초하여 상기 비즈니스 정보가 상기 지리적 주소와 연관되어 있는지를 결정하는,

비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 비즈니스 정보는 타이틀에 대응하고,

상기 문서 내에서 비즈니스 정보를 식별할 때, 상기 프로세서는 또한,

상기 문서 내에서 상기 지리적 주소에 선행하는 복수의 용어를 분석하고,

상기 통계 모델에 기초하여, 상기 복수의 용어의 각각이 상기 주소와 연관된 타이틀의 일부일 확률을 결정하며,

상기 지리적 주소와 연관된 타이틀의 일부일 확률이 있는 상기 복수의 용어 중 하나 이상에 기초하여, 후보 타이틀을 식별하도록 구성된,

비즈니스 정보 식별 시스템.
제21항에 있어서,

상기 복수의 용어는, 상기 문서 내에서 상기 지리적 주소 직전에 있는 제1 용어와 상기 문서 내에서 상기 제1 용어에 선행하는 하나 이상의 제2 용어를 포함하는, 비즈니스 정보 식별 시스템.
제21항에 있어서,

상기 복수의 용어의 각각이 타이틀 내에 포함되어 있을 확률을 결정할 때, 상기 프로세서는 또한,

상기 복수의 용어 중 하나가 상기 타이틀의 일부인지를 예측하고,

상기 복수의 용어 중 하나에 대한 예측에 기초하여, 상기 복수의 용어 중 다른 하나가 상기 타이틀의 일부인지를 예측하도록 구성된, 비즈니스 정보 식별 시스템.
제21항에 있어서,

상기 복수의 용어 중 하나가 타이틀에 포함되어 있을 확률이 상기 복수의 용어 중 하나의 주위의 용어들의 윈도우에 기초하는, 비즈니스 정보 식별 시스템.
제21항에 있어서,

상기 복수의 용어 중 하나가 타이틀에 포함되어 있을 확률이 상기 복수의 용어 중 다른 하나와 연관된 확률에 기초하는, 비즈니스 정보 식별 시스템.
제21항에 있어서,

상기 복수의 용어 중 하나가 타이틀에 포함되어 있을 확률이 상기 복수의 용어 중 하나와 연관된 한 세트의 특성에 기초하는, 비즈니스 정보 식별 시스템.
제26항에 있어서,

상기 한 세트의 특성은,

상기 문서 내에서 상기 지리적 주소로부터의 상기 복수의 용어 중 하나의 거리,

상기 복수의 용어 중 하나의 특징,

상기 복수의 용어 중 하나와 상기 복수의 용어 중 하나의 선행 용어나 후행 용어 사이의 경계 정보, 또는

상기 복수의 용어 중 하나와 상기 복수의 용어 중 하나의 상기 선행 용어나 후행 용어 사이의 구두점 정보

중 적어도 하나를 포함하는, 비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 통계 모델은 기지(旣知)의 주소 및 연관된 타이틀들을 가지는 복수의 문서와 연관된 특성을 분석함으로써 생성되는, 비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 비즈니스 정보는 타이틀에 대응하고,

상기 문서 내에서 비즈니스 정보를 식별할 때, 상기 프로세서는 또한,

상기 문서 내에서 주소에 선행하는 복수의 용어를 분석하고,

상기 통계 모델에 기초하여, 상기 복수의 용어 각각이 상기 지리적 주소와 연관된 타이틀의 일부일 확률을 결정하며,

상기 지리적 주소와 연관된 타이틀의 일부일 확률이 있는 상기 복수의 용어의 하나 이상의 그룹에 기초하여, 후보 타이틀을 식별하는,

비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 비즈니스 정보는 전화번호에 대응하고,

상기 문서 내에서 비즈니스 정보를 식별할 때, 상기 프로세서는 또한,

상기 문서 내에서 한 세트의 후보 전화번호를 식별하고,

상기 통계 모델에 기초하여, 상기 한 세트의 후보 전화번호 내의 각각의 후보 전화번호가 상기 지리적 주소와 연관되어 있을 확률을 결정하도록 구성된

비즈니스 정보 식별 시스템.
제30항에 있어서,

상기 한 세트의 후보 전화번호 중 하나가 상기 주소와 관련되어 있을 확률은, 상기 한 세트의 후보 전화번호 중 하나와 연관된 한 세트의 특성에 기초하는, 비즈니스 정보 식별 시스템.
제31항에 있어서,

상기 한 세트의 특성은,

상기 주소로부터의 상기 한 세트의 후보 전화번호 중 하나의 거리,

상기 한 세트의 후보 전화번호 중 하나와 상기 지리적 주소 사이의 경계 정보,

일반 전화번호 용어가 상기 한 세트의 후보 전화번호 중 하나의 이전에 나타나는지에 관한 정보,

일반 팩스번호 용어가 상기 한 세트의 후보 전화번호 중 하나의 이전에 나타나는지에 관한 정보, 또는

상기 한세트의 후보 전화번호 중 하나와 상기 지리적 주소 사이에 다른 후보 전화번호가 존재하는지에 관한 정보 중 적어도 하나를 포함하는, 비즈니스 정보 식별 시스템.
제31항에 있어서,

상기 통계 모델은 기지(旣知)의 주소 및 연관된 타이틀들을 가지는 복수의 문서와 연관된 특성을 분석함으로써 생성되는, 비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 통계 모델은 기지(旣知)의 주소 및 연관된 비즈니스 정보를 가지는 복수의 문서와 연관된 특성을 분석함으로써 생성되는, 비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 비즈니스 정보는, 타이틀, 전화번호, 영업시간, 또는 상기 지리적 주소와 연관된 웹 사이트나 지도에 대한 링크 중 적어도 하나를 포함하는, 비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 비즈니스 정보가 상기 지리적 주소와 연관되어 있는지를 결정할 때, 상기 프로세서는 또한,

상기 문서 내에 있는 용어들의 문자열들을 분석하고,

상기 문자열들 중 하나의 문자열을 결정하며,

상기 하나의 문자열의 용어들이 상기 비즈니스 정보를 포함할 확율이 최대로 되는, 비즈니스 정보 식별 시스템.
제20항에 있어서,

상기 프로세서는 또한, 상기 비즈니스 정보가 상기 지리적 주소와 연관되어 있는 경우, 상기 비즈니스 정보와 상기 지리적 주소에 기초하여 비즈니스 목록을 생성하거나 추가하도록 구성된, 비즈니스 정보 식별 시스템.
주소와 연관된 비즈니스 정보를 식별하기 위한 비즈니스 정보 식별 방법으로서,

지리적 주소를 포함하는 문서를 식별하는 단계;

상기 문서 내에서 상기 주소에 선행하는 복수의 용어를 식별하는 단계;

기지(旣知)의 주소들 및 연관된 타이틀들을 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 상기 복수의 용어의 각각이 상기 지리적 주소와 연관된 타이틀의 일부일 확률을 결정하는 단계;

상기 지리적 주소와 연관된 타이틀의 일부일 확률이 있는 상기 복수의 용어 중 하나 이상에 기초하여 후보 타이틀을 식별하는 단계;

상기 후보 타이틀에 신뢰 점수를 할당하는 단계; 및

상기 할당한 신뢰 점수에 기초하여 상기 후보 타이틀이 상기 지리적 주소와 연관되어 있는지를 결정하는 단계

를 포함하는 비즈니스 정보 식별 방법.
주소와 연관된 비즈니스 정보를 식별하기 위한 비즈니스 정보 식별 방법으로서,

지리적 주소를 포함하는 문서를 식별하는 단계;

상기 문서 내에서 한 세트의 후보 전화번호를 식별하는 단계;

기지(旣知)의 주소들 및 연관된 전화 번호들을 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 상기 한 세트의 후보 전화번호 내의 각각의 후보 전화 번호가 상기 지리적 주소와 연관되어 있을 확률을 결정하는 단계

상기 결정한 확률에 기초하여 상기 하나의 후보 전화번호가 상기 지리적 주소와 연관되어 있는지를 결정하는 단계

를 포함하는 비즈니스 정보 식별 방법.
주소와 연관된 비즈니스 정보를 식별하기 위한 비즈니스 정보 식별 방법으로서,

랜드마크(landmark)를 포함하는 웹 페이지를 식별하는 단계;

상기 웹 페이지의 속성(attribute)을 식별하는 단계;

기지의 랜드마크와 연관된 속성을 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 각각의 속성이 상기 랜드마크와 연관되어 있을 확률을 결정하는 단계;

상기 속성에 신뢰 점수를 할당하는 단계; 및

상기 할당한 신뢰 점수에 기초하여 상기 속성이 상기 랜드마크와 연관되어 있는지를 결정하는 단계

를 포함하고,

상기 신뢰 점수는 상기 속성이 상기 랜드마크와 관련되어 있을 확률에 관한 것인

비즈니스 정보 식별 방법.
제40항에 있어서,

상기 랜드마크는 우편주소(postal address)에 대응하고,

상기 속성은 타이틀, 전화번호, 영업시간, 또는 상기 우편주소와 연관된 웹사이트나 지도에 대한 링크 중 하나에 관한 정보에 대응하는, 비즈니스 정보 식별 방법.
제40항에 있어서,

상기 랜드마크는 제품(product)에 대응하고,

상기 속성은 가격 또는 제품 식별 번호 중 하나에 대응하는, 비즈니스 정보 식별 방법.
제19항에 있어서,

상기 하나 이상의 비즈니스 정보 후보의 각각은 타이틀에 대응하고,

상기 문서 내에서 하나 이상의 비즈니스 정보 후보를 찾아내기 위한 수단은,

상기 문서 내에서 상기 지리적 주소에 선행하는 복수의 용어를 분석하기 위한 수단과,

기지(旣知)의 지리적 주소들 및 연관된 타이틀을 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 상기 복수의 용어의 각각이 상기 지리적 주소와 연관된 타이틀의 일부일 확률을 결정하기 위한 수단과,

상기 지리적 주소와 연관된 타이틀의 일부일 확률을 가진 하나 이상의 용어에 기초하여 후보 타이틀을 식별하기 위한 수단

을 포함하는, 비즈니스 정보 식별 시스템
제19항에 있어서,

상기 하나 이상의 비즈니스 정보의 각각은 전화 번호에 대응하고,

상기 문서 내에서 하나 이상의 비즈니스 정보 후보를 찾아내기 위한 수단은,

상기 문서 내에서 한 세트의 후보 전화 번호를 식별하기 위한 수단과,

기지의 주소들 및 연관된 전화 번호를 가진 복수의 문서와 연관된 특성을 분석함으로써 생성된 통계 모델에 의해 결정되는 확률로서, 상기 한 세트의 후보 전화 번호 중 각각의 후보 전화 번호가 상기 지리적 주소와 연관되어 있을 확률을 결정하기 위한 수단과,

결정된 확률에 기초하여 상기 후보 전화 번호 중 하나를 상기 지리적 주소와 연관시킬 것인지를 결정하기 위한 수단

을 포함하는, 비즈니스 정보 식별 시스템.
제38항에 있어서,

상기 복수의 용어 중 하나의 용어가 타이틀 내에 포함되어 있을 확률은 상기 복수의 용어 중 상기 하나의 용어와 연관된 한 세트의 특성에 기초하는, 비즈니스 정보 식별 방법.
제45항에 있어서,

상기 한 세트의 특성은, 상기 문서 내에서 상기 지리적 주소로부터의 상기 하나의 용어의 거리, 상기 하나의 용어의 특징(characteristic), 상기 하나의 용어와 상기 복수의 용어의 선행 용어나 후행 용어 사이의 경계 정보, 또는 상기 하나의 용어와 상기 복수의 용어의 선행 용어나 후행 용어 사이의 구두점 정보 중 적어도 하나를 포함하는, 비즈니스 정보 식별 방법.