KR20060070487A - 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 - Google Patents

회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 Download PDF

Info

Publication number
KR20060070487A
KR20060070487A KR1020057024053A KR20057024053A KR20060070487A KR 20060070487 A KR20060070487 A KR 20060070487A KR 1020057024053 A KR1020057024053 A KR 1020057024053A KR 20057024053 A KR20057024053 A KR 20057024053A KR 20060070487 A KR20060070487 A KR 20060070487A
Authority
KR
South Korea
Prior art keywords
category
company
search query
search
model
Prior art date
Application number
KR1020057024053A
Other languages
English (en)
Other versions
KR100820662B1 (ko
Inventor
래디카 말파니
비부 미탈
Original Assignee
구글, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=33516984&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20060070487(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 구글, 인코포레이티드 filed Critical 구글, 인코포레이티드
Publication of KR20060070487A publication Critical patent/KR20060070487A/ko
Application granted granted Critical
Publication of KR100820662B1 publication Critical patent/KR100820662B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

범주 분류 컴포넌트는 사용자의 검색 질의에 적용되는 적절한 범주를 검색한다. 범주는 옐로 페이지(yellow page)일 수 있다. 범주 분류 컴포넌트는 하나 또는 그 이상의 다수의 입수 가능한 훈련 데이터 소스(training source)로 자동적으로 훈련된 범주 모델을 포함할 수 있다. 훈련 데이터 소스는 디렉토리 목록과, 웹 문서와, 질의 트래픽, 및 광고 트래픽을 포함할 수 있다.
범주, 카테고리(category), 분류, 컴포넌트(component), 검색 질의(search query), 옐로 페이지(yellow page), 트래픽(traffic), 광고, 웹 문서

Description

회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치{SEARCH QUERY CATEGORIZATION FOR BUSINESS LISTINGS SEARCH}
본 발명은 대략적으로 텍스트 분류 방법 및 장치에 관한 것이며, 더욱 구체적으로는 사용자의 질의에 응답하여 옐로 페이지(yellow page)를 결정하는 방법 및 장치에 관한 것이다.
기존의 온라인판 옐로 페이지는 사용자의 검색 질의에 기초하여 회사 이름을 반환한다. 종래에는 사용자에게 바람직한 적절한 결과를 생성하기 위해서 검색 질의에 포함된 용어는 회사 이름과 일치하였다. 따라서, 예를 들면, 검색 질의 "피자(pizza)"는 "피자헛(Pizza Hut)"이나 "라운드 테이블 피자(Round Table Pizza)"를 검색할 수 있었지만, "피자(pizza)"라는 용어가 포함되지 않은 "파파 존스(Pappa John's)"와 같은 피자 식당은 검색할 수 없었다.
회사 이름을 검색하는 경우에는 범주 일치를 사용할 수도 있다. 범주 일치는 사용자에게 표시될 수 있고, 또한 검색된 회사 이름을 다듬을 때 사용될 수도 있다. 예를 들면, 검색 질의가 "피제리아(pizzeria)"인 경우에 범주 이름 중의 동일한 단어에 대해서 "pizzeria"라는 검색 용어와의 일치에 기초하여 "피제리아 식당(pizzeria restaurant)"이라는 범주가 표시될 수 있다. 그러나 "피제리아 (pizzeria)"에 대해서 검색하는 경우에, 이 질의에 "식당(restaurant)"이라는 용어가 포함되어 있지 않은 경우에는 일반적인 범주의 "식당(restaurant)"에 대한 결과를 얻을 수 없을 수도 있다. 이는 문제가 될 수 있는데, 이를테면 범주와 검색 용어에 어떠한 공통적인 단어도 포함되지 않았지만 "사진 인화(photo finishing)"이라는 범주에 대해서 "필름 현상(film development)"이라는 검색과 일치시키기 위해서는 중요하기 때문이다.
정확한 범주를 검색할 수 없다는 이상과 같은 문제점을 회피하기 위한 시도 중에서, 검색 질의에 대해서 범주를 일치시키기 위한 기존의 기법들은 사용자의 질의 중에 임의의 단어가 범주 이름 내의 임의의 단어(word)와 일치할 때 임의의 범주가 일치한다고 간주하기도 하였다. 그러나 이 기법은 다양한 경우를 해결할 수 없었으며, 범주화가 불량해질 수도 있었다.
범주 일치에 대한 기존의 다른 기법은 범주 이름 또는 사용자의 검색 질의를 확장시키는 동의어(또는 유의어, synonym)를 사용하는 것이었다. 동의어는 기존의 동의어 목록에서 입수할 수 있다. 그러나 동의어를 사용한다고 해도 최적화되지는 않았는데, 이는 범주 이름이 특이할 수도 있었고, 또한 종래의 동의어 목록과 항상 대응하지도 않았기 때문이었다. 예를 들면, "필름(film)"이라는 용어는 다른 맥락(문맥, context)에서 다른 의미를 가질 수 있다. 예를 들면, "필름(film)"은 영화를 가리킬 수도 있고, 사진 필름을 가리킬 수도 있으며, 또는 화학 실험실의 장비를 가리킬 수도 있다.
따라서 검색 질의를 하나 또는 그 이상의 적절한 회사 범주 목록으로 분류할 수 있는 더욱 효과적인 방법이 필요하였다.
본 발명의 원칙과 일치하는 검색 질의 범주화 기법은 훈련 데이터(training data)에 기초하여 범주 분류 모델(category classification model)을 자동적으로 구축한다. 이 훈련 데이터는 다수의 데이터로부터 입수할 수도 있다.
본 발명의 일 형태는 검색 질의에 대해 적절한 회사 범주(business category)를 생성하는 방법에 관한 것이다. 상기 방법은 사용자로부터 검색 질의를 수신하는 단계와, 이 검색 질의를 분류 컴포넌트(classification component)로 입력하는 단계를 포함하고 있다. 분류 컴포넌트는 용어를 회사 범주와 결부시키는 하나 이상의 정보원(information source)으로부터의 훈련 데이터로 훈련된 범주 모델을 포함하고 있다. 본 발명의 방법은 또한 입력된 검색 질의에 반응하여 분류 컴포넌트로부터 하나 또는 그 이상의 범주를 수신하는 단계와, 사용자에게 하나 또는 그 이상의 범주를 전송하는 단계를 포함하고 있다.
본 발명의 다른 형태는 검색 질의와 이 검색 질의에 적절한 회사 범주를 관련시키는 통계적인 모델을 구현한 범주 분류 컴포넌트(category classification component)를 포함하고 있는 범주 분류 장치에 관한 것이다. 범주 분류 컴포넌트는 상기 범주 분류 컴포넌트가 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드와, 상기 범주 분류 컴포넌트가 입력된 검색 질의에 응답하여 적절한 회사 범주를 생성하는 제 2 모드에서 동작할 수 있다. 또한, 범주 모델은 확률(probability) 집합으로서 검색 질의와 회사 범주 사이의 관련성을 저장하고 있다. 범주 모델은 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이터 중의 하나로부터 선택된 훈련 데이터에 기초하여 구축된다.
본 발명의 또 다른 형태는 프로세서와, 이 프로세서에 결합된 메모리를 포함하고 있는 컴퓨터 장치(computing device)에 관한 것이다. 메모리는 범주 분류 프로그램을 포함하고 있으며, 또한 범주 분류 프로그램은 범주 분류 컴포넌트와 범주 모델을 더 포함하고 있다. 범주 분류 컴포넌트는 검색 질의와, 이 검색 질의와 관련된 사업 범주를 관련시키는 통계적인 모델을 구현한다. 범주 분류 컴포넌트는 상기 범주 분류 컴포넌트가 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드와, 상기 범주 분류 컴포넌트가 입력된 검색 질의에 응답하여 적절한 회사 범주를 생성하는 제 2 모드에서 동작한다. 범주 모델은 확률(probability) 집합으로서 검색 질의와 회사 범주 사이의 관련성을 저장하고 있다. 범주 모델은 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이터 중의 하나로부터 선택된 훈련 데이터에 기초하여 구축된다.
본 발명의 또 다른 형태는 모델을 훈련시켜 검색 질의와 범주를 관련시키는 방법에 관한 것이다. 이 방법은 검색 질의와 각각 관련되는 범주 항목의 집합으로서의 훈련 데이터를 수신하는 단계를 포함하고 있으며, 이 때 각각의 검색 질의는 하나 또는 그 이상의 검색 용어(search term)로 표현된다. 상기 방법은 또한 범주 항목 중의 특정한 범주 항목과 관련되어 있는 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 훈련 데이터에 기초하여 통계적인 기반의 범주 모델을 자동적으로 생성하는 단계를 포함하고 있다.
도 1은 본 발명에 일치하는 개념이 구현될 수 있는 예시적인 시스템을 나타낸 도면.
도 2는 사용자에 의해서 수행되는 예시적인 범주 검색의 결과를 나타낸 도면.
도 3은 도 1에 나타낸 분류 컴포넌트의 훈련을 나타낸 개념도.
도 4는 디렉토리(directory) 목록으로부터 획득된 예시적인 훈련 데이터의 일부를 나타낸 도면.
도 5는 본 발명의 일 형태와 일치하는 분류 컴포넌트의 동작을 나타낸 플로 차트.
이하, 첨부한 도면을 참조하여 본 발명을 상세하게 설명한다. 서로 다른 도면에서의 동일한 도면 부호는 동일한 부재일 수 있다. 발명의 상세한 설명은 본 발명을 제한하지 않는다. 대신, 본 발명의 범위는 첨부한 특허 청구 범위 및 이의 등가물에 의해서 한정된다.
본 발명에서 설명되는 바와 같이, 본 발명의 일 형태에 따르면 분류 컴포넌트는 텍스트 기반의 분류 모델을 사용하여 회사 범주 목록과 검색 질의를 일치시킨 다. 분류 컴포넌트는 하나 또는 그 이상의 다수의 데이터로부터 자동적으로 훈련될 수 있으며, 디렉토리 목록(directory listing)과, 웹 문서(web document), 질의 트래픽, 및 광고 트래픽을 포함한다. 일 실시예에서, 상기 분류는 순수 베이즈 분류법(
Figure 112005073313477-PCT00001
Bayes classification)에 기초할 수 있다.
<<시스템 개괄(SYSTEM OVERVIEW)>>
도 1은 본 발명과 일치하는 개념들이 구현될 수 있는 예시적인 시스템(100)을 나타낸 도면이다. 시스템(100)은 복수의 클라이언트 장치(102)와, 서버 장치(110), 및 예를 들면 인터넷(Internet)이 될 수 있는 네트워크(101)를 포함하고 있다. 클라이언트 장치(102)는 각각, 프로세서(108)에 결합된, 예를 들면 랜덤 액세스 메모리(random access memory)와 같은 컴퓨터가 판독할 수 있는 메모리(109)를 포함하고 있다. 프로세서(108)는 메모리(109) 내에 저장된 프로그램 명령을 실행한다. 클라이언트 장치(102)는 또한 다수의 외장 또는 내장 장치, 예를 들면 제한하지 않고, 마우스(mouse)와, CD-ROM과, 키보드, 및 표시 장치를 포함하고 있다.
클라이언트 장치(102)를 통해서, 사용자(105)는 네트워크(101)를 통해 사용자끼리 서로 통신할 수 있고, 다른 시스템과도 통신할 수 있으며, 또한, 예를 들면 서버 장치(110)와 같은 네트워크(101)에 결합된 장치들과도 통신할 수 있다. 일반적으로, 클라이언트 장치(102)는 네트워크에 접속된 어떠한 형태의 컴퓨터 플랫폼(computing platform)이라도 무방하며, 상기 컴퓨터 플랫폼은 디지털 정보 단말기(digital assistant) 또는 "스마트(smart)" 휴대폰 또는 무선 호출 수신기(pager) 등과 같은 응용 프로그램(application program)과 상호 작용한다.
클라이언트 장치(102)와 마찬가지로, 서버 장치(110)는 컴퓨터가 판독 가능한 메모리(112)에 결합된 프로세서(111)를 포함하고 있다. 서버 장치(110)는 데이터베이스(130)와 같은 2차 저장 소자를 추가적으로 포함할 수도 있다.
클라이언트 프로세서(108) 및 서버 프로세서(111)는 다수의 공지된 임의의 컴퓨터 프로세서일 수 있다. 도면에서는 단일 컴퓨터 시스템으로 나타내었지만, 서버(110)는 컴퓨터 프로세서의 네크워크로 구현될 수도 있다.
메모리(112)는 범주 분류 컴포넌트(120)를 포함할 수 있다. 범주 분류 컴포넌트(120)는 사용자의 검색 질의에 기초하여 옐로 페이지와 유사한 회사 범주와 같은 범주들을 반환한다. 특히, 사용자(105)는 서버 장치(110)로 검색 질의를 보낼 수 있으며, 상기 서버 장치는 이에 반응하여 검색 질의 중의 용어(즉, 단어)에 기초하여 사용자(105)에게 하나 또는 그 이상의 관련된 범주를 반환한다. 일부 구현에 있어서, 데이터베이스(130)는 서버 장치(110)에 의해서 사용되어 분류 컴포넌트(120)에 의해서 사용되는 분류 모델을 저장할 수도 있다.
도 2는 사용자(105) 중의 하나에 의해서 수행되는 예시적인 범주 검색의 결과를 나타낸 도면이다. 결과 페이지(200)는 범주 분류 컴포넌트(120)를 사용하여 서버 장치(110)에 의해서 생성될 수 있다. 상기 결과는, 예를 들면 사용자가 종래의 웹 브라우저 프로그램으로 볼 수 있는 하이퍼 텍스트 마크업 언어(HTML, hyper-text markup language) 문서로서 사용자(105)에게 전송될 수 있다.
결과 페이지(200)는 사용자가 요청한 검색 질의(210)를 표시할 수 있다. 본 예에서, 사용자는 이탈리아 식당의 이름인 "올리브 가든(Olive Garden)"을 입력하 였다. 페이지(200)는 범주 분류 컴포넌트(120)가 가장 일치하는 범주로 결정한 범주를 나열(list)한 범주(220)를 표시할 수 있다. 본 예에서는, 주범주(main category)인 "식당(Restaurant)"과 하위 범주인 "이탈리아 식당(Italian restaurant)"이 반환되어 있다. 다른 구현에서는 사용자에게 복수의 잠재적인 범주가 보여질 수 있다.
범주 목록(220)의 아래에는 다수의 특정한 회사(230)가 나타나 있다. 회사(230)는 "이탈리아 식당(Italian Restaurant)"이라는 하위 범주 하에 나열된 회사일 수 있다. 일부 구현에서는 범주(220) 내에 있지는 않지만 검색 질의(210)와 거의 일치하는 회사가 나열될 수도 있다. 본 예에서는, 세 개의 이탈리아 식당(231)이 나열되어 있으며, 여기에 대응하는 전화 번호(232)와 주소(233)도 나열되어 있다.
<<분류 컴포넌트(120)>>
분류 컴포넌트(120)는 훈련 데이터에 기초하여 범주와 검색 질의 사이의 관련성을 자동적으로 학습하는 통계 모델을 구현한다. 분류 컴포넌트(120)는 훈련 모드(training mode)와 실행 시간 분류 모드(run-time classification mode)의 2 개의 주 모드(main mode) 중의 하나에서 동작할 수 있다. 훈련 모드에서, 분류 컴포넌트(120)는 정확하게 대응하는 범주와 관련된 예시적인 검색 질의를 포함하는 훈련 데이터를 수신한다. 이 훈련 데이터에 기초하여, 분류 컴포넌트(120)는 범주와 검색 질의 사이의 관련성을 학습한다. 실행 시간 모드에서, 분류 컴포넌트(120)는 사용자의 검색 질의를 수신하고, 하나 또는 그 이상의 범주를 반환한다. 반환된 범 주는 학습된 연관성에 기초하고 있으며, 또한 훈련 데이터에서는 명시적으로 제시되지 않은 검색 질의에 기초하여 일반화된 범주일 수도 있다.
도 3은 분류 컴포넌트(120)의 훈련을 나타낸 개념도이다. 훈련 중에 분류 컴포넌트(120)는 검색 질의와 범주가 관련된 범주 모델(301)을 구축한다. 범주 모델(301)은 하나 또는 그 이상의 다수의 입수 가능한 훈련 데이터 소스(310)로부터 파생된 범주/검색 질의 관련성에 기초하여 구축될 수 있다.
분류 컴포넌트(120)는 텍스트 기반의 검색 질의와 소정의 범주를 연관시키는 텍스트형 분류자(textual classifier)로서 동작한다. 종래 기술에서 다수의 텍스트형 분류자가 공지되어 있으며, 분류 컴포넌트(120)를 구현하는데 사용할 수 있다. 텍스트형 분류 모델 중의 적절한 범주 중의 하나는 순수 베이즈 추정(
Figure 112005073313477-PCT00002
Bayes assumption)에 기초한 모델이다.
순수 베이즈 분류자(
Figure 112005073313477-PCT00003
Bayes classifier)는 다음의 수학식 1에 의해서 주어지는 베이즈 정리(Bayes' theorem)에 기초한 통계적인 분류자이다.
Figure 112005073313477-PCT00004
수학식 1에서,
Figure 112005073313477-PCT00005
는 N 개의 가능한 클래스(범주)를 나타내며, 이 때 정수 i는 [1, N] 사이에 있다. Y는 적절한 범주
Figure 112005073313477-PCT00006
로 분류되어져야 할 검색 질의 등과 같은 사건(event)을 나타낸다. 따라서 수학식 1은 검색 질의 Y가 주어졌을 때 특정 범주
Figure 112005073313477-PCT00007
의 조건부 확률(conditional probability)을 나타낸다. 특정한 검색 질의어 Y는 다수의 속성(attribute)(즉, 검색 용어)으로 이루어질 수 있다.
수학식 1의 우측의 확률은 훈련 중에 범주 모델(301) 내에 저장될 수 있다. 범주
Figure 112005073313477-PCT00008
가 발생할 확률을 나타내는
Figure 112005073313477-PCT00009
는, 예를 들면
Figure 112005073313477-PCT00010
에 포함되는 훈련 샘플(training sample)을 계수(count)하고, 또한 훈련 집합(training set)의 크기로 나누는 것에 의해서 추정할 수 있다.
Figure 112005073313477-PCT00011
는 Y의 속성값(attribute value)이 독립적이라고 가정하는 (잠재적으로는 적합하지 않는) 순수 베이즈 가정을 사용하여 추정할 수 있다. 예를 들면, Y가 속성 "올리브(olive)"와 "가든(garden)"을 갖는 경우에, 분류 컴포넌트(120)는
Figure 112005073313477-PCT00012
로서
Figure 112005073313477-PCT00013
를 추정할 수 있다. 따라서 범주 모델(301)은
Figure 112005073313477-PCT00014
Figure 112005073313477-PCT00015
를 저장할 수 있다. 이들 확률들은, 예를 들면 특정 범주 내에 용어의 출현 빈도를 계수하고, 또한 전체 i 개의 범주에 걸쳐서 상기 용어의 전체 출현 빈도로 나누는 것에 의해서 임의의 어떠한 특정한 용어에 적합하게 추정될 수 있다.
수학식 1에서의 분모가 i와는 독립적(또한 항상 비음적(nonnegative))이기 때문에, 특정한 검색 질의 Y에 대한 가장 발생 가능성이 높은 범주인
Figure 112005073313477-PCT00016
는 최대값의 분자에 상응하게 된다. 따라서 범주 분류를 수행하기 위해서, 분류 컴포넌트(120)는 각각의
Figure 112005073313477-PCT00017
에 대해서 수학식 1의 분자를 계산한 다음 최대값을 갖는
Figure 112005073313477-PCT00018
을 선택하기만 하면 된다.
순수 베이즈 분류자는, 상술한 바와 같이 범주의 확률
Figure 112005073313477-PCT00019
, 및 특정한 범주로 주어진 검색 질의 내의 각각의 용어의 독립적인 확률(예를 들면
Figure 112005073313477-PCT00020
)에 기초하여 특정한 범주에 속하는 검색 질의의 확률을 모델링(model)한다. 이들 확률들은 훈련 데이터(310)에 기초하여 파생될 수 있으며, 또한 범주 모델(301) 내에 저장될 수 있다. 본 기술 분야에서 통상의 지식을 가진 자는 상술한 간단한 순수 베이즈 기반의 분류자 대신에 다른 텍스트 기반의 분류 모델을 분류 컴포넌트(120)를 구현하는데에 대안으로 사용할 수 있다는 점을 알 수 있을 것이다. 이들 텍스트 기반의 분류 모델의 각각에서의 공통적인 문제는 이들이 반드시 훈련되어야 한다는 점이다.
본 발명의 일 형태에 일치하도록, 훈련 데이터(310)는 하나 또는 그 이상의 데이터 소스로부터 파생될 수 있다. 도 3에 나타낸 바와 같이, 훈련 데이터 소스(310)는 디렉토리 목록(311)과, 범주화된 웹 사이트(312)와, 기타 사전에 분류된 회사 데이터(313)와, 질의 트래픽 데이터(314), 및 광고 트래픽 데이터(315)를 포함할 수 있다.
디렉토리 목록(311)은 다양한 통신 업체(phone company)들이 수집한 것들과 같은 옐로 페이지 디렉토리 목록을 포함할 수 있다. 이와 같은 디렉토리 목록(311)은 회사 범주 뿐만 아니라 상기 각각의 회사 범주와 관련된 회사 이름도 포함할 수 있다. 도 4는 디렉토리 목록(311)으로부터 획득된 예시적인 훈련 데이터의 일부를 나타낸 도면이다. 도면에 나타낸 바와 같이, 각각의 훈련 항목(401)은 범주(401) 및 관련된 검색 질의(402)를 포함하고 있다. 본 예에서, 각각의 검색 질의(402)에 적합한 용어는 디렉토리 목록(311)으로부터의 회사 이름 내의 단어로서 정의된다. 따라서 디렉토리 목록(311)으로부터, 훈련 데이터 항목(410)은 일련의 회사 범주 및 관련된 회사 이름으로서 생성될 수 있다.
순수 베이즈 분류자의 맥락에서, 임의의 범주의 독립 확률
Figure 112005073313477-PCT00021
는 범주 내의 훈련 항목(410)의 수를 항목의 총수로 나눈 값으로 추정될 수 있다. 검색 질의(402) 중의 특정 용어의 확률은 특정 범주 내의 상기 용어의 출현 빈도를 전체 훈련 항목(410) 중의 용어의 총 출현 빈도로 나눈 값으로서 추정될 수 있다.
범주화된 웹 사이트(312)는 범주가 공지된 회사 웹 사이트를 포함할 수 있다. 예를 들면, 회사(XYZ)는 기업용 웹 사이트(corporate web site)를 가지고 있다고 가정한다. 이 웹 사이트는 회사에 대한 정보, 예를 들면 회사가 제조하거나 회사와 관련된 제품(product) 또는 서비스(service) 등에 대한 정보를 포함할 수 있다. 또한, 회사(XYZ)의 정확한 범주는, 예를 들면 디렉토리 목록(311) 내의 목록으로부터 공지되어 있다고 가정한다.
훈련 중에, 분류 컴포넌트(120)는 범주화된 웹 사이트(312)에 기초하여 범주 모델(301)에 용어를 첨가하거나 범주 모델의 확률을 변경할 수 있다. 특히, 범주 모델(301) 내에 저장된 확률을 변경하는데 기업용 웹 사이트의 용어를 이용할 수도 있다. 예를 들면, 회사(XYZ)의 범주가 P[Y'|"XYZ"]로 주어지면, 특정 용어 Y'의 확률은 기업용 웹 사이트 내의 Y'의 출현에 기초하여 범주 모델(301)에서 변경될 수 있다.
일 구현에서, 출현 빈도가 낮아지는 경향의 용어는 범주화된 웹 사이트(312)에 기초하여 범주 모델(301)을 변경할 때 더 많은 가중치(weight)가 부여될 수 있다. 역문서 출현 빈도(idf, inverse document frequency)는 얼마나 자주 어떤 용어가 출현하는지를 정량화하는데 사용할 수 있는 함수(function)의 일례이다. 어떤 용어의 idf는 용어가 출현하는 수집된 문서의 수 f와 수집된 문서의 갯수 J의 함수로서 정의될 수 있다. 웹 페이지와 같은 웹 문서의 맥락에서, 수집된 문서는 입수할 수 있는 웹 페이지의 집합(set) 또는 부분 집합(subset)을 가리킬 수도 있다. 더욱 구체적으로는, idf에 대한 한 가지 정의는
Figure 112005073313477-PCT00022
와 같이 주어질 수 있다. 그러나, 일반적으로 임의의 함수 g(x)를 사용할 수 있으며, 이 때 g(x)는 증가하는 x 값에 대해서 볼록 함수(convex function)이고 또한 단조 감소하는 것이 바람직하다. 더욱 높은 idf 값은 어떤 용어가 낮은 idf 값을 가진 용어에 비해서 상대적으로 더욱 중요하다는 점을 나타내고 있다. 따라서, 예를 들면 기업용 웹 사이트 내의 어떤 용어 Y'이 상대적으로 높은 idf 값을 가진 경우에, 범주 모델(301) 내의 대응하는 확률
Figure 112005073313477-PCT00023
은 상기 용어 Y'이 범주
Figure 112005073313477-PCT00024
와 관련하여 증가된 확률을 반영하도록 변경될 수 있다.
기타 사전 분류된 회사 데이터(313)는 소비자 보고서의 정보나, 식당 안내, 또는 웹 기반의 디렉토리 목록과 같은 다른 데이터 소스의 사전 분류된 회사 데이터를 포함할 수 있다. 기타 사전 분류된 회사 데이터(313)는 범주화된 웹 사이트(312)에서와 동일한 방식으로 범주 모델(301)을 변경하는데 사용될 수 있다. 즉, 기타 회사 데이터(313)는 임의의 범주
Figure 112005073313477-PCT00025
와 관련된 단어를 포함하고 있는 하나 또는 그 이상의 문서라고 간주될 수 있다. 상기 단어는 이 단어의 idf에 기초하여 범주 모델(301) 내의 확률
Figure 112005073313477-PCT00026
을 변경하는데 사용될 수 있다.
질의 트래픽 데이터(314)는 분류 컴포넌트(120)와 사용자의 상호 작용(interaction)으로부터 취해진 훈련 데이터를 포함할 수 있다. 질의 트래픽 데이터(314)는 분류 컴포넌트(120)에 의해서 모호한 용어에서의 다양한 의미(sense)의 가능도(likelihood)를 추정하는데 사용될 수 있다. 예를 들면, 사용자가 검색 질의 "필름(film)"을 입력하고, "극장(theater)" 범주 내에 있는 일부 목록과 "사진 필름(photographic film)" 범주 내의 일부 목록을 포함하는 다수의 회사 목록을 수신한 경우를 가정한다. 이후에, 사용자는 "사진 필름(photographic film)" 범주에 대응하는 목록 중의 하나를 선택할 수 있다. 이 경우에, 분류 컴포넌트(120)는 "필름(film)"에 대응하는 확률
Figure 112005073313477-PCT00027
을 변경할 수 있으며, 이때 Y'은 "필름(film)"에 대응하여 범주
Figure 112005073313477-PCT00028
(이때 i는 사진 필름(photographic film)을 나타냄)와 관련된 확률이 범주
Figure 112005073313477-PCT00029
(이때 i는 극장(theater)을 나타냄)보다 더욱 가능성이 있음을 나타내고 있다.
광고 트래픽 데이터(315)는 사용자와 광고의 상호 작용으로부터 취한 훈련 데이터를 포함할 수 있다. 상업용 검색 엔진(search engine)은 일반적으로 사용자의 질의 결과와 함께 사용자에게 광고를 표시하고 있다. 사용자에게 광고가 더욱 적절하게 되도록 하기 위해서, 광고는 사용자의 질의에 기초하여 선택될 수 있다. 사용자가 표시된 광고를 선택하는 것은 이 광고가 사용자의 질의와 관련되어 있다는 점을 표시하는 것일 수 있다. 따라서, 검색 질의 및 선택된 광고의 범주는 질의 트래픽 데이터(314)에 적합하게 수행된 훈련에서와 유사한 방식으로 범주 모델(301)을 변경하거나 초기 훈련시키는데 사용될 수 있는 훈련 데이터로 간주될 수 있다.
도 5는 본 발명의 일 형태와 일치하는 분류 컴포넌트(120)의 동작을 나타낸 플로 차트이다. 분류 컴포넌트(120)는 하나 또는 그 이상의 데이터 소스(311 내지 313)로부터 훈련 데이터를 수신하는 단계(단계 501)와, 또한 이 훈련 데이터에 기초하여 범주 모델(301)을 훈련시키는 단계(단계 502)에 의해서 시작될 수 있다. 이런 방식으로, 자동화되고 또한 감독되는 학습 절차를 통해서 분류 문제에 대한 해결책이 달성된다. 일 구현에서, 분류 컴포넌트(120)는 범주 모델(301)의 감독된 훈련에 적합한 순수 베이즈 기반의 텍스트형 분류 기법을 사용할 수 있다. 본 기술 분야에서 통상의 지식을 가진 자는 대안적으로 다른 분류 기법을 사용할 수 있음을 알 것이다.
본 발명의 일 실시예에서, 훈련시킨 이후에 분류 컴포넌트(120)는 실행 시간 분류 모드에서 동작할 수 있다. 분류 컴포넌트(120)는 사용자의 검색 질의를 수신할 수 있다(단계 503). 다음에 분류 컴포넌트(120)는, 범주 모델(301) 내에 저장된 값에 기초하여 사용자의 검색 질의와 관련된 가장 가능성이 높은 범주를 결정할 수 있다(단계 504). 상술한 바와 같이, 검색 질의는 수학식 1을 사용하여 평가되어 각각의 가능한 범주
Figure 112005073313477-PCT00030
에 대응하는 검색 질의의 가능도를 결정할 수 있는 하나 또는 그 이상의 단어를 포함할 수 있다. 분류 컴포넌트(120)에 의해서 수행되는 범주 분류의 가능한 예로서, 단어 "가든(garden)" 자체는 범주 "홈 앤드 가든(Home & Garden)"에 속하는 0.5의 가능도와, 범주 "휴양지 및 공원(Recreation & Parks)"에 속하는 0.8의 가능도, 및 범주 "식당(Restaurant)"에 속하는 0.1의 가능도를 가질 수 있다. 그러나 단어 "올리브(olive)"와 함께 고려했을 때의 가능도는 "홈 앤드 가든(Home & Garden)"에 대해서는 0.01, "휴양지 및 공원(Recreation & Parks)"에 대해서는 0.001, 및 "이탈리아 식당(Italian Restaurant)"에 대해서는 0.05일 수 있다. 따라서, 결합된 가능도는 이탈리아 식당에 대해서 가장 높게 된다.
범주 분류 컴포넌트(120)에 의해서 생성된 범주들은 네트워크(101)를 통해서 사용자에게 반환될 수 있다(단계 505). 상술한 바와 같이, 일부 구현에서, 범주 분류 컴포넌트(120)는 질의 트래픽 데이터(314) 및/또는 광고 트래픽 데이터(315)와 같은 실행 시간 훈련 데이터에 기초하여 범주 모델(301)을 동적으로(dynamically) 갱신될 수 있다(단계 506).
<<결론>>
상술한 바와 같이, 분류 컴포넌트(120)는 목록으로 작성된 범주와 같은 범주와 검색 질의를 지능적으로 관련시킨다. 이 관련은 다수의 서로 다른 훈련 데이터 소스로부터 자동적으로 훈련될 수 있는 범주 모델에 기초할 수 있다.
본 기술 분야에서 통상의 지식을 가진 자에게, 상술한 바와 같이 도면에서 도시된 구현에서 본 발명의 형태들은 서로 다른 많은 형태의 소프트웨어, 펌웨어, 및 하드웨어로 구현될 수 있음이 명백하게 될 것이다. 본 발명과 일치하는 형태를 구현하기 위해서 사용된 실제 소프트웨어 코드 또는 특화된 제어용 하드웨어는 본 발명을 제한하지 않을 것이다. 따라서 상기 형태들의 동작 및 거동은 특정한 소프트웨어 코드를 참조하지 않고도 설명되었으며, 본 기술 분야에서 통상의 지식을 가진 자는 본 발명의 상세한 설명에 기초하여 형태들을 구현하기 위한 소프트웨어 및 제어용 하드웨어를 설계할 수 있음을 알아야 한다.
본 발명의 바람직한 실시예에 대한 상술한 상세한 설명은 도면 및 상세한 설명으로 제공되지만, 개시된 정확한 형태(form)로 본 발명을 완전하게 망라하거나 제한하고자 의도되지는 않는다. 상술한 개시 내용 또는 본 발명의 실시로부터 얻어질 수 있는 것으로부터 변경 및 변형이 가능하다.
본 발명의 상세한 설명에서 사용된 부재, 단계 또는 명령어 중 어떠한 것도 이들이 그와 같이 명시적으로 기술되지 않는 이상 본 발명에 대해 중대하거나 필수적인 것이라고 간주되어서는 안된다. 또한 본 발명에서 사용된 바와 같이, 부정 관사("a")는 하나 또는 그 이상의 항목을 포함하는 것으로 의도되었다. 단지 하나의 항목만이 의도되는 경우에, 하나("one") 또는 이와 유사한 술어를 사용하였다.
본 발명의 범위는 특허 청구 범위 및 이들의 등가물(equivalent)에 의해 한정된다.

Claims (32)

  1. 검색 질의와 관련된 범주를 식별하기 위한 방법에 있어서,
    상기 검색 질의를 수신하는 단계와,
    용어와 범주를 관련시키는 하나 또는 그 이상의 정보원(source of information)으로부터의 훈련 데이터로 훈련된 범주 모델을 포함하고 있는 분류 컴포넌트에 상기 검색 질의를 입력하는 단계와,
    상기 검색 질의에 응답하여 상기 분류 컴포넌트로부터 하나 또는 그 이상의 범주를 수신하는 단계, 및
    상기 하나 또는 그 이상의 범주를 전송하는 단계를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 범주는 회사 목록 검색 범주인 검색 질의와 관련된 범주를 식별하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 분류 컴포넌트는 베이즈(Bayes) 기반의 분류 기법을 사용하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  4. 제 1 항에 있어서,
    상기 하나 또는 그 이상의 정보원은 소정의 옐로 페이지 디렉토리 목록을 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  5. 제 4 항에 있어서,
    상기 소정의 옐로 페이지 디렉토리 목록으로부터 상기 용어에 대응하는 회사 이름 및 이 회사 이름과 관련된 회사 범주로서 훈련 데이터를 추출하는 단계를 더 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  6. 제 1 항에 있어서,
    상기 하나 또는 그 이상의 정보원은 사전 범주화된 회사 웹 사이트를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  7. 제 6 항에 있어서,
    상기 회사 웹 사이트는 소정의 옐로 페이지 디렉토리 목록 내의 정보에 기초하여 적어도 하나의 회사 범주와 관련되어 있는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  8. 제 6 항에 있어서,
    상기 회사 웹 사이트 내의 용어는 상기 범주 모델을 변경하는데 사용되는 검 색 질의와 관련된 범주를 식별하기 위한 방법.
  9. 제 8 항에 있어서,
    상기 회사 웹 사이트 내의 상기 용어는 상기 회사 웹 사이트 내의 상기 용어의 역문서 출현 빈도(inverse document frequency)에 기초하여 상기 범주 모델을 변경하는데 사용되는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  10. 제 1 항에 있어서,
    상기 하나 또는 그 이상의 정보원은 적어도 하나의 소비자 보고서의 정보와, 식당 안내를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  11. 제 1 항에 있어서,
    상기 하나 또는 그 이상의 정보원은 질의 트래픽 데이터를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  12. 제 11 항에 있어서,
    상기 분류 컴포넌트는 상기 범주 모델 내의 모호한 용어들의 가능도(likelihood)를 추정하기 위해 상기 질의 트래픽 데이터를 사용하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  13. 제 11 항에 있어서,
    상기 질의 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 단계를 더 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  14. 제 1 항에 있어서,
    상기 하나 또는 그 이상의 정보원은 광고 트래픽 데이터를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  15. 제 14 항에 있어서,
    상기 광고 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 단계를 더 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
  16. 범주 분류 장치에 있어서,
    검색 질의와 상기 검색 질의와 관련된 회사 범주를 관련시키는 통계학적인 모델을 구현하도록 구성되며, 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드 및 입력된 검색 질의에 응답하여 관련된 회사 범주를 생성하는 제 2 모드에서 동작하는 범주 분류 컴포넌트, 및
    확률 집합으로서 상기 검색 질의와 상기 회사 범주 사이의 관련성을 저장하도록 구성되며, 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이 터 중의 하나로부터 선택된 훈련 데이터에 기초하여 구축되는 범주 모델을 포함하는 범주 분류 장치.
  17. 제 16 항에 있어서,
    상기 범주 분류 컴포넌트는 통계적인 분류자(statistical classifier)를 구현하는 범주 분류 장치.
  18. 제 16 항에 있어서,
    상기 범주 분류 컴포넌트는 질의 트래픽 데이터 또는 광고 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 범주 분류 장치.
  19. 컴퓨터 장치에 있어서,
    프로세서, 및
    상기 프로세서에 결합된 메모리를 포함하며, 상기 메모리는
    검색 질의와 상기 검색 질의와 관련된 회사 범주를 관련시키는 통계학적인 모델을 구현하도록 구성되고, 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드 및 입력된 검색 질의에 응답하여 관련된 회사 범주를 생성하는 제 2 모드에서 동작하며, 상기 훈련 데이터는 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이터 중의 하나로부터 선택되는 범 주 분류 장치, 및
    상기 검색 질의와 상기 회사 범주 사이의 관련성을 확률 집합으로서 저장하도록 구성되며, 상기 훈련 데이터에 기초하여 구축되는 범주 모델을 포함하는 컴퓨터 장치.
  20. 제 19 항에 있어서,
    상기 범주 분류 컴포넌트는 통계적인 분류자를 구현하는 컴퓨터 장치.
  21. 제 19 항에 있어서,
    상기 범주 분류 컴포넌트는 질의 트래픽 데이터 또는 광고 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 범주 분류 장치.
  22. 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법에 있어서,
    하나 또는 그 이상의 검색 용어로 표현되는 각각의 검색 질의와 관련된 범주 항목의 집합으로서 훈련 데이터를 수신하는 단계, 및
    범주 항목 중의 특정한 범주 항목과 관련되어 있는 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 상기 훈련 데이터에 기초하여 통계적인 분류 모델을 자동적으로 생성하는 단계를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  23. 제 22 항에 있어서,
    상기 훈련 데이터는 소정의 디렉토리 목록을 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  24. 제 22 항에 있어서,
    상기 소정의 디렉토리 목록으로부터 상기 검색 용어에 대응하는 회사 이름 및 범주 항목에 대응하는 회사 범주로서 훈련 데이터를 추출하는 단계를 더 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  25. 제 22 항에 있어서,
    상기 훈련 데이터는 사전 범주화된 회사 웹 사이트를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  26. 제 25 항에 있어서,
    상기 회사 웹 사이트 내의 용어는 상기 회사 웹 사이트 내의 상기 용어의 역문서 출현 빈도(inverse document frequency)에 기초하여 상기 범주 모델을 변경하는데 사용되는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  27. 제 22 항에 있어서,
    상기 훈련 데이터는 적어도 하나의 소비자 보고서의 정보와, 식당 안내를 포 함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  28. 제 22 항에 있어서,
    상기 훈련 데이터는 질의 트래픽 데이터를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  29. 제 22 항에 있어서,
    상기 훈련 데이터는 광고 트래픽 데이터를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  30. 제 22 항에 있어서,
    상기 범주 항목은 회사 범주를 결정하는 항목인 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
  31. 하나 또는 그 이상의 검색 용어로 표현되는 각각의 검색 질의와 각각 관련된 회사 범주 항목의 집합으로서 훈련 데이터를 생성하기 위한 수단, 및
    상기 회사 범주 항목 중의 특정한 범주 항목과 관련되어 있는 상기 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 상기 훈련 데이터에 기초하여 범주 모델을 생성하기 위한 수단을 포함하는 장치.
  32. 프로그램 실행 명령을 포함하는 있는 컴퓨터가 판독 가능한 매체에 있어서,
    프로세서가 실행될 때 상기 프로세서가 하나 또는 그 이상의 검색 용어로 표현되는 각각의 검색 질의와 각각 관련된 회사 범주 항목의 집합으로서 훈련 데이터를 생성하고, 또한
    상기 회사 범주 항목 중의 특정한 범주 항목과 관련되어 있는 상기 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 상기 훈련 데이터에 기초하여 통계적인 분류자 모델을 자동적으로 생성하는 프로그램 실행 명령을 포함하는 있는 컴퓨터가 판독 가능한 매체.
KR1020057024053A 2003-06-17 2004-06-17 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 KR100820662B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/462,818 US20040260677A1 (en) 2003-06-17 2003-06-17 Search query categorization for business listings search
US10/462,818 2003-06-17

Publications (2)

Publication Number Publication Date
KR20060070487A true KR20060070487A (ko) 2006-06-23
KR100820662B1 KR100820662B1 (ko) 2008-04-10

Family

ID=33516984

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057024053A KR100820662B1 (ko) 2003-06-17 2004-06-17 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치

Country Status (7)

Country Link
US (2) US20040260677A1 (ko)
EP (1) EP1634204A2 (ko)
KR (1) KR100820662B1 (ko)
CN (1) CN1806243A (ko)
CA (1) CA2528887C (ko)
IL (1) IL172248A0 (ko)
WO (1) WO2004114162A2 (ko)

Families Citing this family (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7233942B2 (en) * 2000-10-10 2007-06-19 Truelocal Inc. Method and apparatus for providing geographically authenticated electronic documents
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US20050149507A1 (en) * 2003-02-05 2005-07-07 Nye Timothy G. Systems and methods for identifying an internet resource address
US7613687B2 (en) * 2003-05-30 2009-11-03 Truelocal Inc. Systems and methods for enhancing web-based searching
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20050131872A1 (en) * 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US20050203934A1 (en) * 2004-03-09 2005-09-15 Microsoft Corporation Compression of logs of language data
US20050222987A1 (en) * 2004-04-02 2005-10-06 Vadon Eric R Automated detection of associations between search criteria and item categories based on collective analysis of user activity data
US7836408B1 (en) * 2004-04-14 2010-11-16 Apple Inc. Methods and apparatus for displaying relative emphasis in a file
US7624006B2 (en) * 2004-09-15 2009-11-24 Microsoft Corporation Conditional maximum likelihood estimation of naïve bayes probability models
US8180722B2 (en) * 2004-09-30 2012-05-15 Avaya Inc. Method and apparatus for data mining within communication session information using an entity relationship model
US8107401B2 (en) * 2004-09-30 2012-01-31 Avaya Inc. Method and apparatus for providing a virtual assistant to a communication participant
US7936863B2 (en) * 2004-09-30 2011-05-03 Avaya Inc. Method and apparatus for providing communication tasks in a workflow
US8270320B2 (en) * 2004-09-30 2012-09-18 Avaya Inc. Method and apparatus for launching a conference based on presence of invitees
US7953723B1 (en) * 2004-10-06 2011-05-31 Shopzilla, Inc. Federation for parallel searching
US7412442B1 (en) 2004-10-15 2008-08-12 Amazon Technologies, Inc. Augmenting search query results with behaviorally related items
US7428533B2 (en) * 2004-12-06 2008-09-23 Yahoo! Inc. Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7779009B2 (en) * 2005-01-28 2010-08-17 Aol Inc. Web query classification
US20060224571A1 (en) * 2005-03-30 2006-10-05 Jean-Michel Leon Methods and systems to facilitate searching a data resource
AU2012216254C1 (en) * 2005-03-30 2015-12-03 Ebay, Inc. Methods and systems to process search information
JP2006285855A (ja) * 2005-04-04 2006-10-19 Ntt Docomo Inc 検索サーバ
US20070112778A1 (en) * 2005-11-15 2007-05-17 Marek Graczynski Scientific information systems and methods for global networking opportunities
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US9459622B2 (en) 2007-01-12 2016-10-04 Legalforce, Inc. Driverless vehicle commerce network and community
US7953740B1 (en) 2006-02-13 2011-05-31 Amazon Technologies, Inc. Detection of behavior-based associations between search strings and items
US7756881B2 (en) * 2006-03-09 2010-07-13 Microsoft Corporation Partitioning of data mining training set
US9064288B2 (en) 2006-03-17 2015-06-23 Fatdoor, Inc. Government structures and neighborhood leads in a geo-spatial environment
US9098545B2 (en) 2007-07-10 2015-08-04 Raj Abhyanker Hot news neighborhood banter in a geo-spatial social network
US9373149B2 (en) 2006-03-17 2016-06-21 Fatdoor, Inc. Autonomous neighborhood vehicle commerce network and community
US20080240397A1 (en) * 2007-03-29 2008-10-02 Fatdoor, Inc. White page and yellow page directories in a geo-spatial environment
KR100785928B1 (ko) * 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
US7774360B2 (en) * 2006-09-08 2010-08-10 Microsoft Corporation Building bridges for web query classification
US20080097982A1 (en) * 2006-10-18 2008-04-24 Yahoo! Inc. System and method for classifying search queries
US20080313142A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Categorization of queries
US20090132513A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Correlation of data in a system and method for conducting a search
US7809721B2 (en) * 2007-11-16 2010-10-05 Iac Search & Media, Inc. Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search
US20090132645A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with multiple-field comparison
US8145703B2 (en) * 2007-11-16 2012-03-27 Iac Search & Media, Inc. User interface and method in a local search system with related search results
US20090132573A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with search results restricted by drawn figure elements
US20090132236A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Selection or reliable key words from unreliable sources in a system and method for conducting a search
US20090132512A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Search system and method for conducting a local search
US7921108B2 (en) 2007-11-16 2011-04-05 Iac Search & Media, Inc. User interface and method in a local search system with automatic expansion
US20090132572A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with profile page
US20090132486A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in local search system with results that can be reproduced
US20090132929A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method for a boundary display on a map
US20090132485A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system that calculates driving directions without losing search results
US20090132927A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method for making additions to a map
US8090714B2 (en) * 2007-11-16 2012-01-03 Iac Search & Media, Inc. User interface and method in a local search system with location identification in a request
US20090132514A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. method and system for building text descriptions in a search database
US8732155B2 (en) * 2007-11-16 2014-05-20 Iac Search & Media, Inc. Categorization in a system and method for conducting a search
US20090132505A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Transformation in a system and method for conducting a search
US20090132484A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system having vertical context
US9239882B2 (en) * 2007-12-17 2016-01-19 Iac Search & Media, Inc. System and method for categorizing answers such as URLs
US7930322B2 (en) * 2008-05-27 2011-04-19 Microsoft Corporation Text based schema discovery and information extraction
US8180771B2 (en) 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US8086631B2 (en) * 2008-12-12 2011-12-27 Microsoft Corporation Search result diversification
US8103661B2 (en) * 2008-12-19 2012-01-24 International Business Machines Corporation Searching for a business name in a database
US20100306235A1 (en) * 2009-05-28 2010-12-02 Yahoo! Inc. Real-Time Detection of Emerging Web Search Queries
US8560539B1 (en) * 2009-07-29 2013-10-15 Google Inc. Query classification
WO2011056636A1 (en) 2009-10-28 2011-05-12 Pushkart, Llc Methods and systems for offering discounts
WO2011079415A1 (en) * 2009-12-30 2011-07-07 Google Inc. Generating related input suggestions
WO2011097739A1 (en) * 2010-02-15 2011-08-18 Research In Motion Limited Devices and method for searching data on data sources associated with a category
US20110270815A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Extracting structured data from web queries
CN102236663B (zh) * 2010-04-30 2014-04-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
CN102236691A (zh) * 2010-05-04 2011-11-09 张文广 精确导向搜索工具系统
US8612432B2 (en) 2010-06-16 2013-12-17 Microsoft Corporation Determining query intent
CN102456058B (zh) * 2010-11-02 2014-03-19 阿里巴巴集团控股有限公司 类目信息提供方法及装置
CN101986306B (zh) * 2010-11-03 2013-08-28 百度在线网络技术(北京)有限公司 一种用于基于查询序列获取黄页信息的方法与设备
US9053208B2 (en) 2011-03-02 2015-06-09 Microsoft Technology Licensing, Llc Fulfilling queries using specified and unspecified attributes
US9152701B2 (en) 2012-05-02 2015-10-06 Google Inc. Query classification
US9405832B2 (en) * 2012-05-31 2016-08-02 Apple Inc. Application search query classifier
CN103870507B (zh) * 2012-12-17 2017-04-12 阿里巴巴集团控股有限公司 一种基于类目的搜索方法和装置
CN103902545B (zh) * 2012-12-25 2018-10-16 北京京东尚科信息技术有限公司 一种类目路径识别方法及系统
US10255363B2 (en) 2013-08-12 2019-04-09 Td Ameritrade Ip Company, Inc. Refining search query results
US9439367B2 (en) 2014-02-07 2016-09-13 Arthi Abhyanker Network enabled gardening with a remotely controllable positioning extension
US9457901B2 (en) 2014-04-22 2016-10-04 Fatdoor, Inc. Quadcopter with a printable payload extension system and method
US9022324B1 (en) 2014-05-05 2015-05-05 Fatdoor, Inc. Coordination of aerial vehicles through a central server
US20150324868A1 (en) * 2014-05-12 2015-11-12 Quixey, Inc. Query Categorizer
US9971985B2 (en) 2014-06-20 2018-05-15 Raj Abhyanker Train based community
US9441981B2 (en) 2014-06-20 2016-09-13 Fatdoor, Inc. Variable bus stops across a bus route in a regional transportation network
US9451020B2 (en) 2014-07-18 2016-09-20 Legalforce, Inc. Distributed communication of independent autonomous vehicles to provide redundancy and performance
CN104199851B (zh) * 2014-08-11 2018-05-08 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
US11200466B2 (en) * 2015-10-28 2021-12-14 Hewlett-Packard Development Company, L.P. Machine learning classifiers
US10515402B2 (en) * 2016-01-30 2019-12-24 Walmart Apollo, Llc Systems and methods for search result display
US10313348B2 (en) * 2016-09-19 2019-06-04 Fortinet, Inc. Document classification by a hybrid classifier
US20180113938A1 (en) * 2016-10-24 2018-04-26 Ebay Inc. Word embedding with generalized context for internet search queries
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
US10467261B1 (en) 2017-04-27 2019-11-05 Intuit Inc. Methods, systems, and computer program product for implementing real-time classification and recommendations
US10467122B1 (en) 2017-04-27 2019-11-05 Intuit Inc. Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
US10528329B1 (en) 2017-04-27 2020-01-07 Intuit Inc. Methods, systems, and computer program product for automatic generation of software application code
US10705796B1 (en) * 2017-04-27 2020-07-07 Intuit Inc. Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data
US10520948B2 (en) 2017-05-12 2019-12-31 Autonomy Squared Llc Robot delivery method
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN108446336B (zh) * 2018-02-27 2019-11-05 平安科技(深圳)有限公司 机构名称的智能搜索方法、装置、设备及存储介质
US11487991B2 (en) * 2019-09-04 2022-11-01 The Dun And Bradstreet Corporation Classifying business summaries against a hierarchical industry classification structure using supervised machine learning

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JP3198932B2 (ja) * 1996-08-02 2001-08-13 松下電器産業株式会社 文書検索装置
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6078916A (en) * 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US7050992B1 (en) * 1998-03-03 2006-05-23 Amazon.Com, Inc. Identifying items relevant to a current query based on items accessed in connection with similar queries
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
US6513031B1 (en) * 1998-12-23 2003-01-28 Microsoft Corporation System for improving search area selection
US6968513B1 (en) * 1999-03-18 2005-11-22 Shopntown.Com, Inc. On-line localized business referral system and revenue generation system
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
US6519585B1 (en) * 1999-04-27 2003-02-11 Infospace, Inc. System and method for facilitating presentation of subject categorizations for use in an on-line search query engine
US6505184B1 (en) * 1999-07-30 2003-01-07 Unisys Corporation Autognomic decision making system and method
US6434549B1 (en) * 1999-12-13 2002-08-13 Ultris, Inc. Network-based, human-mediated exchange of information
JP2001202310A (ja) * 2000-01-20 2001-07-27 Square Co Ltd 情報提供方法およびその方法を実現するためのプログラムを記録した記録媒体、ならびに、情報提供システム
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
KR20000049427A (ko) * 2000-03-10 2000-08-05 김종민 인터넷 정보 검색 방법 및 그의 엔진
US20010044837A1 (en) * 2000-03-30 2001-11-22 Iqbal Talib Methods and systems for searching an information directory
US6463430B1 (en) * 2000-07-10 2002-10-08 Mohomine, Inc. Devices and methods for generating and managing a database
US7359951B2 (en) * 2000-08-08 2008-04-15 Aol Llc, A Delaware Limited Liability Company Displaying search results
US7225180B2 (en) * 2000-08-08 2007-05-29 Aol Llc Filtering search results
US7146416B1 (en) * 2000-09-01 2006-12-05 Yahoo! Inc. Web site activity monitoring system with tracking by categories and terms
US20020111847A1 (en) * 2000-12-08 2002-08-15 Word Of Net, Inc. System and method for calculating a marketing appearance frequency measurement
US6920505B2 (en) * 2000-12-14 2005-07-19 Ask Jeeves, Inc. Method and apparatus for determining a navigation path for a visitor to a world wide web site
US6778975B1 (en) * 2001-03-05 2004-08-17 Overture Services, Inc. Search engine for selecting targeted messages
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7013303B2 (en) * 2001-05-04 2006-03-14 Sun Microsystems, Inc. System and method for multiple data sources to plug into a standardized interface for distributed deep search
US20030004781A1 (en) * 2001-06-18 2003-01-02 Mallon Kenneth P. Method and system for predicting aggregate behavior using on-line interest data
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US20050108200A1 (en) * 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
US6804669B2 (en) * 2001-08-14 2004-10-12 International Business Machines Corporation Methods and apparatus for user-centered class supervision
US7149732B2 (en) * 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries
US20030078928A1 (en) * 2001-10-23 2003-04-24 Dorosario Alden Network wide ad targeting
US7673234B2 (en) * 2002-03-11 2010-03-02 The Boeing Company Knowledge management using text classification
US6920459B2 (en) * 2002-05-07 2005-07-19 Zycus Infotech Pvt Ltd. System and method for context based searching of electronic catalog database, aided with graphical feedback to the user
US20030216930A1 (en) * 2002-05-16 2003-11-20 Dunham Carl A. Cost-per-action search engine system, method and apparatus
US20030220913A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation Techniques for personalized and adaptive search services
US7076497B2 (en) * 2002-10-11 2006-07-11 Emergency24, Inc. Method for providing and exchanging search terms between internet site promoters

Also Published As

Publication number Publication date
EP1634204A2 (en) 2006-03-15
WO2004114162A2 (en) 2004-12-29
CA2528887A1 (en) 2004-12-29
CN1806243A (zh) 2006-07-19
IL172248A0 (en) 2006-04-10
KR100820662B1 (ko) 2008-04-10
US20100191768A1 (en) 2010-07-29
CA2528887C (en) 2012-08-28
US20040260677A1 (en) 2004-12-23
WO2004114162A3 (en) 2005-03-03

Similar Documents

Publication Publication Date Title
KR100820662B1 (ko) 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치
US20180322201A1 (en) Interest Keyword Identification
US10191999B2 (en) Transferring information across language understanding model domains
US8468156B2 (en) Determining a geographic location relevant to a web page
US7809721B2 (en) Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search
US8732155B2 (en) Categorization in a system and method for conducting a search
US8768954B2 (en) Relevancy-based domain classification
RU2387004C2 (ru) Способ и система для вычисления значения важности блока в дисплейной странице
US7774348B2 (en) System for providing geographically relevant content to a search query with local intent
US8185538B2 (en) System for determining the geographic range of local intent in a search query
TWI544352B (zh) 促進內容與網路中廣告資訊匹配之系統及方法
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
US20100235311A1 (en) Question and answer search
US20080313142A1 (en) Categorization of queries
US20100306249A1 (en) Social network systems and methods
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
US20210191995A1 (en) Generating and implementing keyword clusters
EP1556788A2 (en) Intelligent classification system
WO2009064318A1 (en) Search system and method for conducting a local search
JP2020067864A (ja) 知識検索装置、知識検索方法、および、知識検索プログラム
US8065297B2 (en) Semantic enhanced link-based ranking (SEL Rank) methodology for prioritizing customer requests
CN107423298B (zh) 一种搜索方法和装置
WO2009064312A1 (en) Transformation in a system and method for conducting a search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
J204 Request for invalidation trial [patent]
J301 Trial decision

Free format text: TRIAL DECISION FOR INVALIDATION REQUESTED 20080710

Effective date: 20090729

FPAY Annual fee payment

Payment date: 20130322

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140324

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee