KR20060070487A - 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 - Google Patents
회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 Download PDFInfo
- Publication number
- KR20060070487A KR20060070487A KR1020057024053A KR20057024053A KR20060070487A KR 20060070487 A KR20060070487 A KR 20060070487A KR 1020057024053 A KR1020057024053 A KR 1020057024053A KR 20057024053 A KR20057024053 A KR 20057024053A KR 20060070487 A KR20060070487 A KR 20060070487A
- Authority
- KR
- South Korea
- Prior art keywords
- category
- company
- search query
- search
- model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
범주 분류 컴포넌트는 사용자의 검색 질의에 적용되는 적절한 범주를 검색한다. 범주는 옐로 페이지(yellow page)일 수 있다. 범주 분류 컴포넌트는 하나 또는 그 이상의 다수의 입수 가능한 훈련 데이터 소스(training source)로 자동적으로 훈련된 범주 모델을 포함할 수 있다. 훈련 데이터 소스는 디렉토리 목록과, 웹 문서와, 질의 트래픽, 및 광고 트래픽을 포함할 수 있다.
범주, 카테고리(category), 분류, 컴포넌트(component), 검색 질의(search query), 옐로 페이지(yellow page), 트래픽(traffic), 광고, 웹 문서
Description
본 발명은 대략적으로 텍스트 분류 방법 및 장치에 관한 것이며, 더욱 구체적으로는 사용자의 질의에 응답하여 옐로 페이지(yellow page)를 결정하는 방법 및 장치에 관한 것이다.
기존의 온라인판 옐로 페이지는 사용자의 검색 질의에 기초하여 회사 이름을 반환한다. 종래에는 사용자에게 바람직한 적절한 결과를 생성하기 위해서 검색 질의에 포함된 용어는 회사 이름과 일치하였다. 따라서, 예를 들면, 검색 질의 "피자(pizza)"는 "피자헛(Pizza Hut)"이나 "라운드 테이블 피자(Round Table Pizza)"를 검색할 수 있었지만, "피자(pizza)"라는 용어가 포함되지 않은 "파파 존스(Pappa John's)"와 같은 피자 식당은 검색할 수 없었다.
회사 이름을 검색하는 경우에는 범주 일치를 사용할 수도 있다. 범주 일치는 사용자에게 표시될 수 있고, 또한 검색된 회사 이름을 다듬을 때 사용될 수도 있다. 예를 들면, 검색 질의가 "피제리아(pizzeria)"인 경우에 범주 이름 중의 동일한 단어에 대해서 "pizzeria"라는 검색 용어와의 일치에 기초하여 "피제리아 식당(pizzeria restaurant)"이라는 범주가 표시될 수 있다. 그러나 "피제리아 (pizzeria)"에 대해서 검색하는 경우에, 이 질의에 "식당(restaurant)"이라는 용어가 포함되어 있지 않은 경우에는 일반적인 범주의 "식당(restaurant)"에 대한 결과를 얻을 수 없을 수도 있다. 이는 문제가 될 수 있는데, 이를테면 범주와 검색 용어에 어떠한 공통적인 단어도 포함되지 않았지만 "사진 인화(photo finishing)"이라는 범주에 대해서 "필름 현상(film development)"이라는 검색과 일치시키기 위해서는 중요하기 때문이다.
정확한 범주를 검색할 수 없다는 이상과 같은 문제점을 회피하기 위한 시도 중에서, 검색 질의에 대해서 범주를 일치시키기 위한 기존의 기법들은 사용자의 질의 중에 임의의 단어가 범주 이름 내의 임의의 단어(word)와 일치할 때 임의의 범주가 일치한다고 간주하기도 하였다. 그러나 이 기법은 다양한 경우를 해결할 수 없었으며, 범주화가 불량해질 수도 있었다.
범주 일치에 대한 기존의 다른 기법은 범주 이름 또는 사용자의 검색 질의를 확장시키는 동의어(또는 유의어, synonym)를 사용하는 것이었다. 동의어는 기존의 동의어 목록에서 입수할 수 있다. 그러나 동의어를 사용한다고 해도 최적화되지는 않았는데, 이는 범주 이름이 특이할 수도 있었고, 또한 종래의 동의어 목록과 항상 대응하지도 않았기 때문이었다. 예를 들면, "필름(film)"이라는 용어는 다른 맥락(문맥, context)에서 다른 의미를 가질 수 있다. 예를 들면, "필름(film)"은 영화를 가리킬 수도 있고, 사진 필름을 가리킬 수도 있으며, 또는 화학 실험실의 장비를 가리킬 수도 있다.
따라서 검색 질의를 하나 또는 그 이상의 적절한 회사 범주 목록으로 분류할 수 있는 더욱 효과적인 방법이 필요하였다.
본 발명의 원칙과 일치하는 검색 질의 범주화 기법은 훈련 데이터(training data)에 기초하여 범주 분류 모델(category classification model)을 자동적으로 구축한다. 이 훈련 데이터는 다수의 데이터로부터 입수할 수도 있다.
본 발명의 일 형태는 검색 질의에 대해 적절한 회사 범주(business category)를 생성하는 방법에 관한 것이다. 상기 방법은 사용자로부터 검색 질의를 수신하는 단계와, 이 검색 질의를 분류 컴포넌트(classification component)로 입력하는 단계를 포함하고 있다. 분류 컴포넌트는 용어를 회사 범주와 결부시키는 하나 이상의 정보원(information source)으로부터의 훈련 데이터로 훈련된 범주 모델을 포함하고 있다. 본 발명의 방법은 또한 입력된 검색 질의에 반응하여 분류 컴포넌트로부터 하나 또는 그 이상의 범주를 수신하는 단계와, 사용자에게 하나 또는 그 이상의 범주를 전송하는 단계를 포함하고 있다.
본 발명의 다른 형태는 검색 질의와 이 검색 질의에 적절한 회사 범주를 관련시키는 통계적인 모델을 구현한 범주 분류 컴포넌트(category classification component)를 포함하고 있는 범주 분류 장치에 관한 것이다. 범주 분류 컴포넌트는 상기 범주 분류 컴포넌트가 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드와, 상기 범주 분류 컴포넌트가 입력된 검색 질의에 응답하여 적절한 회사 범주를 생성하는 제 2 모드에서 동작할 수 있다. 또한, 범주 모델은 확률(probability) 집합으로서 검색 질의와 회사 범주 사이의 관련성을 저장하고 있다. 범주 모델은 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이터 중의 하나로부터 선택된 훈련 데이터에 기초하여 구축된다.
본 발명의 또 다른 형태는 프로세서와, 이 프로세서에 결합된 메모리를 포함하고 있는 컴퓨터 장치(computing device)에 관한 것이다. 메모리는 범주 분류 프로그램을 포함하고 있으며, 또한 범주 분류 프로그램은 범주 분류 컴포넌트와 범주 모델을 더 포함하고 있다. 범주 분류 컴포넌트는 검색 질의와, 이 검색 질의와 관련된 사업 범주를 관련시키는 통계적인 모델을 구현한다. 범주 분류 컴포넌트는 상기 범주 분류 컴포넌트가 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드와, 상기 범주 분류 컴포넌트가 입력된 검색 질의에 응답하여 적절한 회사 범주를 생성하는 제 2 모드에서 동작한다. 범주 모델은 확률(probability) 집합으로서 검색 질의와 회사 범주 사이의 관련성을 저장하고 있다. 범주 모델은 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이터 중의 하나로부터 선택된 훈련 데이터에 기초하여 구축된다.
본 발명의 또 다른 형태는 모델을 훈련시켜 검색 질의와 범주를 관련시키는 방법에 관한 것이다. 이 방법은 검색 질의와 각각 관련되는 범주 항목의 집합으로서의 훈련 데이터를 수신하는 단계를 포함하고 있으며, 이 때 각각의 검색 질의는 하나 또는 그 이상의 검색 용어(search term)로 표현된다. 상기 방법은 또한 범주 항목 중의 특정한 범주 항목과 관련되어 있는 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 훈련 데이터에 기초하여 통계적인 기반의 범주 모델을 자동적으로 생성하는 단계를 포함하고 있다.
도 1은 본 발명에 일치하는 개념이 구현될 수 있는 예시적인 시스템을 나타낸 도면.
도 2는 사용자에 의해서 수행되는 예시적인 범주 검색의 결과를 나타낸 도면.
도 3은 도 1에 나타낸 분류 컴포넌트의 훈련을 나타낸 개념도.
도 4는 디렉토리(directory) 목록으로부터 획득된 예시적인 훈련 데이터의 일부를 나타낸 도면.
도 5는 본 발명의 일 형태와 일치하는 분류 컴포넌트의 동작을 나타낸 플로 차트.
이하, 첨부한 도면을 참조하여 본 발명을 상세하게 설명한다. 서로 다른 도면에서의 동일한 도면 부호는 동일한 부재일 수 있다. 발명의 상세한 설명은 본 발명을 제한하지 않는다. 대신, 본 발명의 범위는 첨부한 특허 청구 범위 및 이의 등가물에 의해서 한정된다.
본 발명에서 설명되는 바와 같이, 본 발명의 일 형태에 따르면 분류 컴포넌트는 텍스트 기반의 분류 모델을 사용하여 회사 범주 목록과 검색 질의를 일치시킨 다. 분류 컴포넌트는 하나 또는 그 이상의 다수의 데이터로부터 자동적으로 훈련될 수 있으며, 디렉토리 목록(directory listing)과, 웹 문서(web document), 질의 트래픽, 및 광고 트래픽을 포함한다. 일 실시예에서, 상기 분류는 순수 베이즈 분류법( Bayes classification)에 기초할 수 있다.
<<시스템 개괄(SYSTEM OVERVIEW)>>
도 1은 본 발명과 일치하는 개념들이 구현될 수 있는 예시적인 시스템(100)을 나타낸 도면이다. 시스템(100)은 복수의 클라이언트 장치(102)와, 서버 장치(110), 및 예를 들면 인터넷(Internet)이 될 수 있는 네트워크(101)를 포함하고 있다. 클라이언트 장치(102)는 각각, 프로세서(108)에 결합된, 예를 들면 랜덤 액세스 메모리(random access memory)와 같은 컴퓨터가 판독할 수 있는 메모리(109)를 포함하고 있다. 프로세서(108)는 메모리(109) 내에 저장된 프로그램 명령을 실행한다. 클라이언트 장치(102)는 또한 다수의 외장 또는 내장 장치, 예를 들면 제한하지 않고, 마우스(mouse)와, CD-ROM과, 키보드, 및 표시 장치를 포함하고 있다.
클라이언트 장치(102)를 통해서, 사용자(105)는 네트워크(101)를 통해 사용자끼리 서로 통신할 수 있고, 다른 시스템과도 통신할 수 있으며, 또한, 예를 들면 서버 장치(110)와 같은 네트워크(101)에 결합된 장치들과도 통신할 수 있다. 일반적으로, 클라이언트 장치(102)는 네트워크에 접속된 어떠한 형태의 컴퓨터 플랫폼(computing platform)이라도 무방하며, 상기 컴퓨터 플랫폼은 디지털 정보 단말기(digital assistant) 또는 "스마트(smart)" 휴대폰 또는 무선 호출 수신기(pager) 등과 같은 응용 프로그램(application program)과 상호 작용한다.
클라이언트 장치(102)와 마찬가지로, 서버 장치(110)는 컴퓨터가 판독 가능한 메모리(112)에 결합된 프로세서(111)를 포함하고 있다. 서버 장치(110)는 데이터베이스(130)와 같은 2차 저장 소자를 추가적으로 포함할 수도 있다.
클라이언트 프로세서(108) 및 서버 프로세서(111)는 다수의 공지된 임의의 컴퓨터 프로세서일 수 있다. 도면에서는 단일 컴퓨터 시스템으로 나타내었지만, 서버(110)는 컴퓨터 프로세서의 네크워크로 구현될 수도 있다.
메모리(112)는 범주 분류 컴포넌트(120)를 포함할 수 있다. 범주 분류 컴포넌트(120)는 사용자의 검색 질의에 기초하여 옐로 페이지와 유사한 회사 범주와 같은 범주들을 반환한다. 특히, 사용자(105)는 서버 장치(110)로 검색 질의를 보낼 수 있으며, 상기 서버 장치는 이에 반응하여 검색 질의 중의 용어(즉, 단어)에 기초하여 사용자(105)에게 하나 또는 그 이상의 관련된 범주를 반환한다. 일부 구현에 있어서, 데이터베이스(130)는 서버 장치(110)에 의해서 사용되어 분류 컴포넌트(120)에 의해서 사용되는 분류 모델을 저장할 수도 있다.
도 2는 사용자(105) 중의 하나에 의해서 수행되는 예시적인 범주 검색의 결과를 나타낸 도면이다. 결과 페이지(200)는 범주 분류 컴포넌트(120)를 사용하여 서버 장치(110)에 의해서 생성될 수 있다. 상기 결과는, 예를 들면 사용자가 종래의 웹 브라우저 프로그램으로 볼 수 있는 하이퍼 텍스트 마크업 언어(HTML, hyper-text markup language) 문서로서 사용자(105)에게 전송될 수 있다.
결과 페이지(200)는 사용자가 요청한 검색 질의(210)를 표시할 수 있다. 본 예에서, 사용자는 이탈리아 식당의 이름인 "올리브 가든(Olive Garden)"을 입력하 였다. 페이지(200)는 범주 분류 컴포넌트(120)가 가장 일치하는 범주로 결정한 범주를 나열(list)한 범주(220)를 표시할 수 있다. 본 예에서는, 주범주(main category)인 "식당(Restaurant)"과 하위 범주인 "이탈리아 식당(Italian restaurant)"이 반환되어 있다. 다른 구현에서는 사용자에게 복수의 잠재적인 범주가 보여질 수 있다.
범주 목록(220)의 아래에는 다수의 특정한 회사(230)가 나타나 있다. 회사(230)는 "이탈리아 식당(Italian Restaurant)"이라는 하위 범주 하에 나열된 회사일 수 있다. 일부 구현에서는 범주(220) 내에 있지는 않지만 검색 질의(210)와 거의 일치하는 회사가 나열될 수도 있다. 본 예에서는, 세 개의 이탈리아 식당(231)이 나열되어 있으며, 여기에 대응하는 전화 번호(232)와 주소(233)도 나열되어 있다.
<<분류 컴포넌트(120)>>
분류 컴포넌트(120)는 훈련 데이터에 기초하여 범주와 검색 질의 사이의 관련성을 자동적으로 학습하는 통계 모델을 구현한다. 분류 컴포넌트(120)는 훈련 모드(training mode)와 실행 시간 분류 모드(run-time classification mode)의 2 개의 주 모드(main mode) 중의 하나에서 동작할 수 있다. 훈련 모드에서, 분류 컴포넌트(120)는 정확하게 대응하는 범주와 관련된 예시적인 검색 질의를 포함하는 훈련 데이터를 수신한다. 이 훈련 데이터에 기초하여, 분류 컴포넌트(120)는 범주와 검색 질의 사이의 관련성을 학습한다. 실행 시간 모드에서, 분류 컴포넌트(120)는 사용자의 검색 질의를 수신하고, 하나 또는 그 이상의 범주를 반환한다. 반환된 범 주는 학습된 연관성에 기초하고 있으며, 또한 훈련 데이터에서는 명시적으로 제시되지 않은 검색 질의에 기초하여 일반화된 범주일 수도 있다.
도 3은 분류 컴포넌트(120)의 훈련을 나타낸 개념도이다. 훈련 중에 분류 컴포넌트(120)는 검색 질의와 범주가 관련된 범주 모델(301)을 구축한다. 범주 모델(301)은 하나 또는 그 이상의 다수의 입수 가능한 훈련 데이터 소스(310)로부터 파생된 범주/검색 질의 관련성에 기초하여 구축될 수 있다.
분류 컴포넌트(120)는 텍스트 기반의 검색 질의와 소정의 범주를 연관시키는 텍스트형 분류자(textual classifier)로서 동작한다. 종래 기술에서 다수의 텍스트형 분류자가 공지되어 있으며, 분류 컴포넌트(120)를 구현하는데 사용할 수 있다. 텍스트형 분류 모델 중의 적절한 범주 중의 하나는 순수 베이즈 추정( Bayes assumption)에 기초한 모델이다.
수학식 1에서, 는 N 개의 가능한 클래스(범주)를 나타내며, 이 때 정수 i는 [1, N] 사이에 있다. Y는 적절한 범주 로 분류되어져야 할 검색 질의 등과 같은 사건(event)을 나타낸다. 따라서 수학식 1은 검색 질의 Y가 주어졌을 때 특정 범주 의 조건부 확률(conditional probability)을 나타낸다. 특정한 검색 질의어 Y는 다수의 속성(attribute)(즉, 검색 용어)으로 이루어질 수 있다.
수학식 1의 우측의 확률은 훈련 중에 범주 모델(301) 내에 저장될 수 있다. 범주 가 발생할 확률을 나타내는 는, 예를 들면 에 포함되는 훈련 샘플(training sample)을 계수(count)하고, 또한 훈련 집합(training set)의 크기로 나누는 것에 의해서 추정할 수 있다. 는 Y의 속성값(attribute value)이 독립적이라고 가정하는 (잠재적으로는 적합하지 않는) 순수 베이즈 가정을 사용하여 추정할 수 있다. 예를 들면, Y가 속성 "올리브(olive)"와 "가든(garden)"을 갖는 경우에, 분류 컴포넌트(120)는 로서 를 추정할 수 있다. 따라서 범주 모델(301)은 와 를 저장할 수 있다. 이들 확률들은, 예를 들면 특정 범주 내에 용어의 출현 빈도를 계수하고, 또한 전체 i 개의 범주에 걸쳐서 상기 용어의 전체 출현 빈도로 나누는 것에 의해서 임의의 어떠한 특정한 용어에 적합하게 추정될 수 있다.
수학식 1에서의 분모가 i와는 독립적(또한 항상 비음적(nonnegative))이기 때문에, 특정한 검색 질의 Y에 대한 가장 발생 가능성이 높은 범주인 는 최대값의 분자에 상응하게 된다. 따라서 범주 분류를 수행하기 위해서, 분류 컴포넌트(120)는 각각의 에 대해서 수학식 1의 분자를 계산한 다음 최대값을 갖는 을 선택하기만 하면 된다.
순수 베이즈 분류자는, 상술한 바와 같이 범주의 확률 , 및 특정한 범주로 주어진 검색 질의 내의 각각의 용어의 독립적인 확률(예를 들면 )에 기초하여 특정한 범주에 속하는 검색 질의의 확률을 모델링(model)한다. 이들 확률들은 훈련 데이터(310)에 기초하여 파생될 수 있으며, 또한 범주 모델(301) 내에 저장될 수 있다. 본 기술 분야에서 통상의 지식을 가진 자는 상술한 간단한 순수 베이즈 기반의 분류자 대신에 다른 텍스트 기반의 분류 모델을 분류 컴포넌트(120)를 구현하는데에 대안으로 사용할 수 있다는 점을 알 수 있을 것이다. 이들 텍스트 기반의 분류 모델의 각각에서의 공통적인 문제는 이들이 반드시 훈련되어야 한다는 점이다.
본 발명의 일 형태에 일치하도록, 훈련 데이터(310)는 하나 또는 그 이상의 데이터 소스로부터 파생될 수 있다. 도 3에 나타낸 바와 같이, 훈련 데이터 소스(310)는 디렉토리 목록(311)과, 범주화된 웹 사이트(312)와, 기타 사전에 분류된 회사 데이터(313)와, 질의 트래픽 데이터(314), 및 광고 트래픽 데이터(315)를 포함할 수 있다.
디렉토리 목록(311)은 다양한 통신 업체(phone company)들이 수집한 것들과 같은 옐로 페이지 디렉토리 목록을 포함할 수 있다. 이와 같은 디렉토리 목록(311)은 회사 범주 뿐만 아니라 상기 각각의 회사 범주와 관련된 회사 이름도 포함할 수 있다. 도 4는 디렉토리 목록(311)으로부터 획득된 예시적인 훈련 데이터의 일부를 나타낸 도면이다. 도면에 나타낸 바와 같이, 각각의 훈련 항목(401)은 범주(401) 및 관련된 검색 질의(402)를 포함하고 있다. 본 예에서, 각각의 검색 질의(402)에 적합한 용어는 디렉토리 목록(311)으로부터의 회사 이름 내의 단어로서 정의된다. 따라서 디렉토리 목록(311)으로부터, 훈련 데이터 항목(410)은 일련의 회사 범주 및 관련된 회사 이름으로서 생성될 수 있다.
순수 베이즈 분류자의 맥락에서, 임의의 범주의 독립 확률 는 범주 내의 훈련 항목(410)의 수를 항목의 총수로 나눈 값으로 추정될 수 있다. 검색 질의(402) 중의 특정 용어의 확률은 특정 범주 내의 상기 용어의 출현 빈도를 전체 훈련 항목(410) 중의 용어의 총 출현 빈도로 나눈 값으로서 추정될 수 있다.
범주화된 웹 사이트(312)는 범주가 공지된 회사 웹 사이트를 포함할 수 있다. 예를 들면, 회사(XYZ)는 기업용 웹 사이트(corporate web site)를 가지고 있다고 가정한다. 이 웹 사이트는 회사에 대한 정보, 예를 들면 회사가 제조하거나 회사와 관련된 제품(product) 또는 서비스(service) 등에 대한 정보를 포함할 수 있다. 또한, 회사(XYZ)의 정확한 범주는, 예를 들면 디렉토리 목록(311) 내의 목록으로부터 공지되어 있다고 가정한다.
훈련 중에, 분류 컴포넌트(120)는 범주화된 웹 사이트(312)에 기초하여 범주 모델(301)에 용어를 첨가하거나 범주 모델의 확률을 변경할 수 있다. 특히, 범주 모델(301) 내에 저장된 확률을 변경하는데 기업용 웹 사이트의 용어를 이용할 수도 있다. 예를 들면, 회사(XYZ)의 범주가 P[Y'|"XYZ"]로 주어지면, 특정 용어 Y'의 확률은 기업용 웹 사이트 내의 Y'의 출현에 기초하여 범주 모델(301)에서 변경될 수 있다.
일 구현에서, 출현 빈도가 낮아지는 경향의 용어는 범주화된 웹 사이트(312)에 기초하여 범주 모델(301)을 변경할 때 더 많은 가중치(weight)가 부여될 수 있다. 역문서 출현 빈도(idf, inverse document frequency)는 얼마나 자주 어떤 용어가 출현하는지를 정량화하는데 사용할 수 있는 함수(function)의 일례이다. 어떤 용어의 idf는 용어가 출현하는 수집된 문서의 수 f와 수집된 문서의 갯수 J의 함수로서 정의될 수 있다. 웹 페이지와 같은 웹 문서의 맥락에서, 수집된 문서는 입수할 수 있는 웹 페이지의 집합(set) 또는 부분 집합(subset)을 가리킬 수도 있다. 더욱 구체적으로는, idf에 대한 한 가지 정의는 와 같이 주어질 수 있다. 그러나, 일반적으로 임의의 함수 g(x)를 사용할 수 있으며, 이 때 g(x)는 증가하는 x 값에 대해서 볼록 함수(convex function)이고 또한 단조 감소하는 것이 바람직하다. 더욱 높은 idf 값은 어떤 용어가 낮은 idf 값을 가진 용어에 비해서 상대적으로 더욱 중요하다는 점을 나타내고 있다. 따라서, 예를 들면 기업용 웹 사이트 내의 어떤 용어 Y'이 상대적으로 높은 idf 값을 가진 경우에, 범주 모델(301) 내의 대응하는 확률 은 상기 용어 Y'이 범주 와 관련하여 증가된 확률을 반영하도록 변경될 수 있다.
기타 사전 분류된 회사 데이터(313)는 소비자 보고서의 정보나, 식당 안내, 또는 웹 기반의 디렉토리 목록과 같은 다른 데이터 소스의 사전 분류된 회사 데이터를 포함할 수 있다. 기타 사전 분류된 회사 데이터(313)는 범주화된 웹 사이트(312)에서와 동일한 방식으로 범주 모델(301)을 변경하는데 사용될 수 있다. 즉, 기타 회사 데이터(313)는 임의의 범주 와 관련된 단어를 포함하고 있는 하나 또는 그 이상의 문서라고 간주될 수 있다. 상기 단어는 이 단어의 idf에 기초하여 범주 모델(301) 내의 확률 을 변경하는데 사용될 수 있다.
질의 트래픽 데이터(314)는 분류 컴포넌트(120)와 사용자의 상호 작용(interaction)으로부터 취해진 훈련 데이터를 포함할 수 있다. 질의 트래픽 데이터(314)는 분류 컴포넌트(120)에 의해서 모호한 용어에서의 다양한 의미(sense)의 가능도(likelihood)를 추정하는데 사용될 수 있다. 예를 들면, 사용자가 검색 질의 "필름(film)"을 입력하고, "극장(theater)" 범주 내에 있는 일부 목록과 "사진 필름(photographic film)" 범주 내의 일부 목록을 포함하는 다수의 회사 목록을 수신한 경우를 가정한다. 이후에, 사용자는 "사진 필름(photographic film)" 범주에 대응하는 목록 중의 하나를 선택할 수 있다. 이 경우에, 분류 컴포넌트(120)는 "필름(film)"에 대응하는 확률 을 변경할 수 있으며, 이때 Y'은 "필름(film)"에 대응하여 범주 (이때 i는 사진 필름(photographic film)을 나타냄)와 관련된 확률이 범주 (이때 i는 극장(theater)을 나타냄)보다 더욱 가능성이 있음을 나타내고 있다.
광고 트래픽 데이터(315)는 사용자와 광고의 상호 작용으로부터 취한 훈련 데이터를 포함할 수 있다. 상업용 검색 엔진(search engine)은 일반적으로 사용자의 질의 결과와 함께 사용자에게 광고를 표시하고 있다. 사용자에게 광고가 더욱 적절하게 되도록 하기 위해서, 광고는 사용자의 질의에 기초하여 선택될 수 있다. 사용자가 표시된 광고를 선택하는 것은 이 광고가 사용자의 질의와 관련되어 있다는 점을 표시하는 것일 수 있다. 따라서, 검색 질의 및 선택된 광고의 범주는 질의 트래픽 데이터(314)에 적합하게 수행된 훈련에서와 유사한 방식으로 범주 모델(301)을 변경하거나 초기 훈련시키는데 사용될 수 있는 훈련 데이터로 간주될 수 있다.
도 5는 본 발명의 일 형태와 일치하는 분류 컴포넌트(120)의 동작을 나타낸 플로 차트이다. 분류 컴포넌트(120)는 하나 또는 그 이상의 데이터 소스(311 내지 313)로부터 훈련 데이터를 수신하는 단계(단계 501)와, 또한 이 훈련 데이터에 기초하여 범주 모델(301)을 훈련시키는 단계(단계 502)에 의해서 시작될 수 있다. 이런 방식으로, 자동화되고 또한 감독되는 학습 절차를 통해서 분류 문제에 대한 해결책이 달성된다. 일 구현에서, 분류 컴포넌트(120)는 범주 모델(301)의 감독된 훈련에 적합한 순수 베이즈 기반의 텍스트형 분류 기법을 사용할 수 있다. 본 기술 분야에서 통상의 지식을 가진 자는 대안적으로 다른 분류 기법을 사용할 수 있음을 알 것이다.
본 발명의 일 실시예에서, 훈련시킨 이후에 분류 컴포넌트(120)는 실행 시간 분류 모드에서 동작할 수 있다. 분류 컴포넌트(120)는 사용자의 검색 질의를 수신할 수 있다(단계 503). 다음에 분류 컴포넌트(120)는, 범주 모델(301) 내에 저장된 값에 기초하여 사용자의 검색 질의와 관련된 가장 가능성이 높은 범주를 결정할 수 있다(단계 504). 상술한 바와 같이, 검색 질의는 수학식 1을 사용하여 평가되어 각각의 가능한 범주 에 대응하는 검색 질의의 가능도를 결정할 수 있는 하나 또는 그 이상의 단어를 포함할 수 있다. 분류 컴포넌트(120)에 의해서 수행되는 범주 분류의 가능한 예로서, 단어 "가든(garden)" 자체는 범주 "홈 앤드 가든(Home & Garden)"에 속하는 0.5의 가능도와, 범주 "휴양지 및 공원(Recreation & Parks)"에 속하는 0.8의 가능도, 및 범주 "식당(Restaurant)"에 속하는 0.1의 가능도를 가질 수 있다. 그러나 단어 "올리브(olive)"와 함께 고려했을 때의 가능도는 "홈 앤드 가든(Home & Garden)"에 대해서는 0.01, "휴양지 및 공원(Recreation & Parks)"에 대해서는 0.001, 및 "이탈리아 식당(Italian Restaurant)"에 대해서는 0.05일 수 있다. 따라서, 결합된 가능도는 이탈리아 식당에 대해서 가장 높게 된다.
범주 분류 컴포넌트(120)에 의해서 생성된 범주들은 네트워크(101)를 통해서 사용자에게 반환될 수 있다(단계 505). 상술한 바와 같이, 일부 구현에서, 범주 분류 컴포넌트(120)는 질의 트래픽 데이터(314) 및/또는 광고 트래픽 데이터(315)와 같은 실행 시간 훈련 데이터에 기초하여 범주 모델(301)을 동적으로(dynamically) 갱신될 수 있다(단계 506).
<<결론>>
상술한 바와 같이, 분류 컴포넌트(120)는 목록으로 작성된 범주와 같은 범주와 검색 질의를 지능적으로 관련시킨다. 이 관련은 다수의 서로 다른 훈련 데이터 소스로부터 자동적으로 훈련될 수 있는 범주 모델에 기초할 수 있다.
본 기술 분야에서 통상의 지식을 가진 자에게, 상술한 바와 같이 도면에서 도시된 구현에서 본 발명의 형태들은 서로 다른 많은 형태의 소프트웨어, 펌웨어, 및 하드웨어로 구현될 수 있음이 명백하게 될 것이다. 본 발명과 일치하는 형태를 구현하기 위해서 사용된 실제 소프트웨어 코드 또는 특화된 제어용 하드웨어는 본 발명을 제한하지 않을 것이다. 따라서 상기 형태들의 동작 및 거동은 특정한 소프트웨어 코드를 참조하지 않고도 설명되었으며, 본 기술 분야에서 통상의 지식을 가진 자는 본 발명의 상세한 설명에 기초하여 형태들을 구현하기 위한 소프트웨어 및 제어용 하드웨어를 설계할 수 있음을 알아야 한다.
본 발명의 바람직한 실시예에 대한 상술한 상세한 설명은 도면 및 상세한 설명으로 제공되지만, 개시된 정확한 형태(form)로 본 발명을 완전하게 망라하거나 제한하고자 의도되지는 않는다. 상술한 개시 내용 또는 본 발명의 실시로부터 얻어질 수 있는 것으로부터 변경 및 변형이 가능하다.
본 발명의 상세한 설명에서 사용된 부재, 단계 또는 명령어 중 어떠한 것도 이들이 그와 같이 명시적으로 기술되지 않는 이상 본 발명에 대해 중대하거나 필수적인 것이라고 간주되어서는 안된다. 또한 본 발명에서 사용된 바와 같이, 부정 관사("a")는 하나 또는 그 이상의 항목을 포함하는 것으로 의도되었다. 단지 하나의 항목만이 의도되는 경우에, 하나("one") 또는 이와 유사한 술어를 사용하였다.
본 발명의 범위는 특허 청구 범위 및 이들의 등가물(equivalent)에 의해 한정된다.
Claims (32)
- 검색 질의와 관련된 범주를 식별하기 위한 방법에 있어서,상기 검색 질의를 수신하는 단계와,용어와 범주를 관련시키는 하나 또는 그 이상의 정보원(source of information)으로부터의 훈련 데이터로 훈련된 범주 모델을 포함하고 있는 분류 컴포넌트에 상기 검색 질의를 입력하는 단계와,상기 검색 질의에 응답하여 상기 분류 컴포넌트로부터 하나 또는 그 이상의 범주를 수신하는 단계, 및상기 하나 또는 그 이상의 범주를 전송하는 단계를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 범주는 회사 목록 검색 범주인 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 분류 컴포넌트는 베이즈(Bayes) 기반의 분류 기법을 사용하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 하나 또는 그 이상의 정보원은 소정의 옐로 페이지 디렉토리 목록을 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 4 항에 있어서,상기 소정의 옐로 페이지 디렉토리 목록으로부터 상기 용어에 대응하는 회사 이름 및 이 회사 이름과 관련된 회사 범주로서 훈련 데이터를 추출하는 단계를 더 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 하나 또는 그 이상의 정보원은 사전 범주화된 회사 웹 사이트를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 6 항에 있어서,상기 회사 웹 사이트는 소정의 옐로 페이지 디렉토리 목록 내의 정보에 기초하여 적어도 하나의 회사 범주와 관련되어 있는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 6 항에 있어서,상기 회사 웹 사이트 내의 용어는 상기 범주 모델을 변경하는데 사용되는 검 색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 8 항에 있어서,상기 회사 웹 사이트 내의 상기 용어는 상기 회사 웹 사이트 내의 상기 용어의 역문서 출현 빈도(inverse document frequency)에 기초하여 상기 범주 모델을 변경하는데 사용되는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 하나 또는 그 이상의 정보원은 적어도 하나의 소비자 보고서의 정보와, 식당 안내를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 하나 또는 그 이상의 정보원은 질의 트래픽 데이터를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 11 항에 있어서,상기 분류 컴포넌트는 상기 범주 모델 내의 모호한 용어들의 가능도(likelihood)를 추정하기 위해 상기 질의 트래픽 데이터를 사용하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 11 항에 있어서,상기 질의 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 단계를 더 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 1 항에 있어서,상기 하나 또는 그 이상의 정보원은 광고 트래픽 데이터를 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 제 14 항에 있어서,상기 광고 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 단계를 더 포함하는 검색 질의와 관련된 범주를 식별하기 위한 방법.
- 범주 분류 장치에 있어서,검색 질의와 상기 검색 질의와 관련된 회사 범주를 관련시키는 통계학적인 모델을 구현하도록 구성되며, 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드 및 입력된 검색 질의에 응답하여 관련된 회사 범주를 생성하는 제 2 모드에서 동작하는 범주 분류 컴포넌트, 및확률 집합으로서 상기 검색 질의와 상기 회사 범주 사이의 관련성을 저장하도록 구성되며, 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이 터 중의 하나로부터 선택된 훈련 데이터에 기초하여 구축되는 범주 모델을 포함하는 범주 분류 장치.
- 제 16 항에 있어서,상기 범주 분류 컴포넌트는 통계적인 분류자(statistical classifier)를 구현하는 범주 분류 장치.
- 제 16 항에 있어서,상기 범주 분류 컴포넌트는 질의 트래픽 데이터 또는 광고 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 범주 분류 장치.
- 컴퓨터 장치에 있어서,프로세서, 및상기 프로세서에 결합된 메모리를 포함하며, 상기 메모리는검색 질의와 상기 검색 질의와 관련된 회사 범주를 관련시키는 통계학적인 모델을 구현하도록 구성되고, 훈련 데이터에 기초하여 상기 검색 질의와 상기 회사 범주 사이의 관련성을 학습하는 제 1 모드 및 입력된 검색 질의에 응답하여 관련된 회사 범주를 생성하는 제 2 모드에서 동작하며, 상기 훈련 데이터는 적어도 소정의 옐로 페이지 목록과, 범주화된 회사 웹 사이트와, 소비자 보고서의 정보와, 식당 안내와, 질의 트래픽 데이터, 및 광고 트래픽 데이터 중의 하나로부터 선택되는 범 주 분류 장치, 및상기 검색 질의와 상기 회사 범주 사이의 관련성을 확률 집합으로서 저장하도록 구성되며, 상기 훈련 데이터에 기초하여 구축되는 범주 모델을 포함하는 컴퓨터 장치.
- 제 19 항에 있어서,상기 범주 분류 컴포넌트는 통계적인 분류자를 구현하는 컴퓨터 장치.
- 제 19 항에 있어서,상기 범주 분류 컴포넌트는 질의 트래픽 데이터 또는 광고 트래픽 데이터에 기초하여 상기 범주 모델 내의 확률을 동적으로 갱신하는 범주 분류 장치.
- 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법에 있어서,하나 또는 그 이상의 검색 용어로 표현되는 각각의 검색 질의와 관련된 범주 항목의 집합으로서 훈련 데이터를 수신하는 단계, 및범주 항목 중의 특정한 범주 항목과 관련되어 있는 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 상기 훈련 데이터에 기초하여 통계적인 분류 모델을 자동적으로 생성하는 단계를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 훈련 데이터는 소정의 디렉토리 목록을 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 소정의 디렉토리 목록으로부터 상기 검색 용어에 대응하는 회사 이름 및 범주 항목에 대응하는 회사 범주로서 훈련 데이터를 추출하는 단계를 더 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 훈련 데이터는 사전 범주화된 회사 웹 사이트를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 25 항에 있어서,상기 회사 웹 사이트 내의 용어는 상기 회사 웹 사이트 내의 상기 용어의 역문서 출현 빈도(inverse document frequency)에 기초하여 상기 범주 모델을 변경하는데 사용되는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 훈련 데이터는 적어도 하나의 소비자 보고서의 정보와, 식당 안내를 포 함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 훈련 데이터는 질의 트래픽 데이터를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 훈련 데이터는 광고 트래픽 데이터를 포함하는 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 제 22 항에 있어서,상기 범주 항목은 회사 범주를 결정하는 항목인 모델을 훈련시켜 범주와 검색 질의를 관련시키는 방법.
- 하나 또는 그 이상의 검색 용어로 표현되는 각각의 검색 질의와 각각 관련된 회사 범주 항목의 집합으로서 훈련 데이터를 생성하기 위한 수단, 및상기 회사 범주 항목 중의 특정한 범주 항목과 관련되어 있는 상기 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 상기 훈련 데이터에 기초하여 범주 모델을 생성하기 위한 수단을 포함하는 장치.
- 프로그램 실행 명령을 포함하는 있는 컴퓨터가 판독 가능한 매체에 있어서,프로세서가 실행될 때 상기 프로세서가 하나 또는 그 이상의 검색 용어로 표현되는 각각의 검색 질의와 각각 관련된 회사 범주 항목의 집합으로서 훈련 데이터를 생성하고, 또한상기 회사 범주 항목 중의 특정한 범주 항목과 관련되어 있는 상기 검색 용어의 확률을 결정하는 가치 집합(a set of values)으로서 상기 훈련 데이터에 기초하여 통계적인 분류자 모델을 자동적으로 생성하는 프로그램 실행 명령을 포함하는 있는 컴퓨터가 판독 가능한 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/462,818 US20040260677A1 (en) | 2003-06-17 | 2003-06-17 | Search query categorization for business listings search |
US10/462,818 | 2003-06-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060070487A true KR20060070487A (ko) | 2006-06-23 |
KR100820662B1 KR100820662B1 (ko) | 2008-04-10 |
Family
ID=33516984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057024053A KR100820662B1 (ko) | 2003-06-17 | 2004-06-17 | 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (2) | US20040260677A1 (ko) |
EP (1) | EP1634204A2 (ko) |
KR (1) | KR100820662B1 (ko) |
CN (1) | CN1806243A (ko) |
CA (1) | CA2528887C (ko) |
IL (1) | IL172248A0 (ko) |
WO (1) | WO2004114162A2 (ko) |
Families Citing this family (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7233942B2 (en) * | 2000-10-10 | 2007-06-19 | Truelocal Inc. | Method and apparatus for providing geographically authenticated electronic documents |
US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
US7685224B2 (en) * | 2001-01-11 | 2010-03-23 | Truelocal Inc. | Method for providing an attribute bounded network of computers |
US20050149507A1 (en) * | 2003-02-05 | 2005-07-07 | Nye Timothy G. | Systems and methods for identifying an internet resource address |
US7613687B2 (en) * | 2003-05-30 | 2009-11-03 | Truelocal Inc. | Systems and methods for enhancing web-based searching |
US7240049B2 (en) * | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US20050131872A1 (en) * | 2003-12-16 | 2005-06-16 | Microsoft Corporation | Query recognizer |
US20050203934A1 (en) * | 2004-03-09 | 2005-09-15 | Microsoft Corporation | Compression of logs of language data |
US20050222987A1 (en) * | 2004-04-02 | 2005-10-06 | Vadon Eric R | Automated detection of associations between search criteria and item categories based on collective analysis of user activity data |
US7836408B1 (en) * | 2004-04-14 | 2010-11-16 | Apple Inc. | Methods and apparatus for displaying relative emphasis in a file |
US7624006B2 (en) * | 2004-09-15 | 2009-11-24 | Microsoft Corporation | Conditional maximum likelihood estimation of naïve bayes probability models |
US8180722B2 (en) * | 2004-09-30 | 2012-05-15 | Avaya Inc. | Method and apparatus for data mining within communication session information using an entity relationship model |
US8107401B2 (en) * | 2004-09-30 | 2012-01-31 | Avaya Inc. | Method and apparatus for providing a virtual assistant to a communication participant |
US7936863B2 (en) * | 2004-09-30 | 2011-05-03 | Avaya Inc. | Method and apparatus for providing communication tasks in a workflow |
US8270320B2 (en) * | 2004-09-30 | 2012-09-18 | Avaya Inc. | Method and apparatus for launching a conference based on presence of invitees |
US7953723B1 (en) * | 2004-10-06 | 2011-05-31 | Shopzilla, Inc. | Federation for parallel searching |
US7412442B1 (en) | 2004-10-15 | 2008-08-12 | Amazon Technologies, Inc. | Augmenting search query results with behaviorally related items |
US7428533B2 (en) * | 2004-12-06 | 2008-09-23 | Yahoo! Inc. | Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US7779009B2 (en) * | 2005-01-28 | 2010-08-17 | Aol Inc. | Web query classification |
US20060224571A1 (en) * | 2005-03-30 | 2006-10-05 | Jean-Michel Leon | Methods and systems to facilitate searching a data resource |
AU2012216254C1 (en) * | 2005-03-30 | 2015-12-03 | Ebay, Inc. | Methods and systems to process search information |
JP2006285855A (ja) * | 2005-04-04 | 2006-10-19 | Ntt Docomo Inc | 検索サーバ |
US20070112778A1 (en) * | 2005-11-15 | 2007-05-17 | Marek Graczynski | Scientific information systems and methods for global networking opportunities |
US7627548B2 (en) * | 2005-11-22 | 2009-12-01 | Google Inc. | Inferring search category synonyms from user logs |
US9459622B2 (en) | 2007-01-12 | 2016-10-04 | Legalforce, Inc. | Driverless vehicle commerce network and community |
US7953740B1 (en) | 2006-02-13 | 2011-05-31 | Amazon Technologies, Inc. | Detection of behavior-based associations between search strings and items |
US7756881B2 (en) * | 2006-03-09 | 2010-07-13 | Microsoft Corporation | Partitioning of data mining training set |
US9064288B2 (en) | 2006-03-17 | 2015-06-23 | Fatdoor, Inc. | Government structures and neighborhood leads in a geo-spatial environment |
US9098545B2 (en) | 2007-07-10 | 2015-08-04 | Raj Abhyanker | Hot news neighborhood banter in a geo-spatial social network |
US9373149B2 (en) | 2006-03-17 | 2016-06-21 | Fatdoor, Inc. | Autonomous neighborhood vehicle commerce network and community |
US20080240397A1 (en) * | 2007-03-29 | 2008-10-02 | Fatdoor, Inc. | White page and yellow page directories in a geo-spatial environment |
KR100785928B1 (ko) * | 2006-07-04 | 2007-12-17 | 삼성전자주식회사 | 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템 |
US7774360B2 (en) * | 2006-09-08 | 2010-08-10 | Microsoft Corporation | Building bridges for web query classification |
US20080097982A1 (en) * | 2006-10-18 | 2008-04-24 | Yahoo! Inc. | System and method for classifying search queries |
US20080313142A1 (en) * | 2007-06-14 | 2008-12-18 | Microsoft Corporation | Categorization of queries |
US20090132513A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Correlation of data in a system and method for conducting a search |
US7809721B2 (en) * | 2007-11-16 | 2010-10-05 | Iac Search & Media, Inc. | Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search |
US20090132645A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system with multiple-field comparison |
US8145703B2 (en) * | 2007-11-16 | 2012-03-27 | Iac Search & Media, Inc. | User interface and method in a local search system with related search results |
US20090132573A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system with search results restricted by drawn figure elements |
US20090132236A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Selection or reliable key words from unreliable sources in a system and method for conducting a search |
US20090132512A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Search system and method for conducting a local search |
US7921108B2 (en) | 2007-11-16 | 2011-04-05 | Iac Search & Media, Inc. | User interface and method in a local search system with automatic expansion |
US20090132572A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system with profile page |
US20090132486A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in local search system with results that can be reproduced |
US20090132929A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method for a boundary display on a map |
US20090132485A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system that calculates driving directions without losing search results |
US20090132927A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method for making additions to a map |
US8090714B2 (en) * | 2007-11-16 | 2012-01-03 | Iac Search & Media, Inc. | User interface and method in a local search system with location identification in a request |
US20090132514A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | method and system for building text descriptions in a search database |
US8732155B2 (en) * | 2007-11-16 | 2014-05-20 | Iac Search & Media, Inc. | Categorization in a system and method for conducting a search |
US20090132505A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | Transformation in a system and method for conducting a search |
US20090132484A1 (en) * | 2007-11-16 | 2009-05-21 | Iac Search & Media, Inc. | User interface and method in a local search system having vertical context |
US9239882B2 (en) * | 2007-12-17 | 2016-01-19 | Iac Search & Media, Inc. | System and method for categorizing answers such as URLs |
US7930322B2 (en) * | 2008-05-27 | 2011-04-19 | Microsoft Corporation | Text based schema discovery and information extraction |
US8180771B2 (en) | 2008-07-18 | 2012-05-15 | Iac Search & Media, Inc. | Search activity eraser |
US8086631B2 (en) * | 2008-12-12 | 2011-12-27 | Microsoft Corporation | Search result diversification |
US8103661B2 (en) * | 2008-12-19 | 2012-01-24 | International Business Machines Corporation | Searching for a business name in a database |
US20100306235A1 (en) * | 2009-05-28 | 2010-12-02 | Yahoo! Inc. | Real-Time Detection of Emerging Web Search Queries |
US8560539B1 (en) * | 2009-07-29 | 2013-10-15 | Google Inc. | Query classification |
WO2011056636A1 (en) | 2009-10-28 | 2011-05-12 | Pushkart, Llc | Methods and systems for offering discounts |
WO2011079415A1 (en) * | 2009-12-30 | 2011-07-07 | Google Inc. | Generating related input suggestions |
WO2011097739A1 (en) * | 2010-02-15 | 2011-08-18 | Research In Motion Limited | Devices and method for searching data on data sources associated with a category |
US20110270815A1 (en) * | 2010-04-30 | 2011-11-03 | Microsoft Corporation | Extracting structured data from web queries |
CN102236663B (zh) * | 2010-04-30 | 2014-04-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
CN102236691A (zh) * | 2010-05-04 | 2011-11-09 | 张文广 | 精确导向搜索工具系统 |
US8612432B2 (en) | 2010-06-16 | 2013-12-17 | Microsoft Corporation | Determining query intent |
CN102456058B (zh) * | 2010-11-02 | 2014-03-19 | 阿里巴巴集团控股有限公司 | 类目信息提供方法及装置 |
CN101986306B (zh) * | 2010-11-03 | 2013-08-28 | 百度在线网络技术(北京)有限公司 | 一种用于基于查询序列获取黄页信息的方法与设备 |
US9053208B2 (en) | 2011-03-02 | 2015-06-09 | Microsoft Technology Licensing, Llc | Fulfilling queries using specified and unspecified attributes |
US9152701B2 (en) | 2012-05-02 | 2015-10-06 | Google Inc. | Query classification |
US9405832B2 (en) * | 2012-05-31 | 2016-08-02 | Apple Inc. | Application search query classifier |
CN103870507B (zh) * | 2012-12-17 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种基于类目的搜索方法和装置 |
CN103902545B (zh) * | 2012-12-25 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 一种类目路径识别方法及系统 |
US10255363B2 (en) | 2013-08-12 | 2019-04-09 | Td Ameritrade Ip Company, Inc. | Refining search query results |
US9439367B2 (en) | 2014-02-07 | 2016-09-13 | Arthi Abhyanker | Network enabled gardening with a remotely controllable positioning extension |
US9457901B2 (en) | 2014-04-22 | 2016-10-04 | Fatdoor, Inc. | Quadcopter with a printable payload extension system and method |
US9022324B1 (en) | 2014-05-05 | 2015-05-05 | Fatdoor, Inc. | Coordination of aerial vehicles through a central server |
US20150324868A1 (en) * | 2014-05-12 | 2015-11-12 | Quixey, Inc. | Query Categorizer |
US9971985B2 (en) | 2014-06-20 | 2018-05-15 | Raj Abhyanker | Train based community |
US9441981B2 (en) | 2014-06-20 | 2016-09-13 | Fatdoor, Inc. | Variable bus stops across a bus route in a regional transportation network |
US9451020B2 (en) | 2014-07-18 | 2016-09-20 | Legalforce, Inc. | Distributed communication of independent autonomous vehicles to provide redundancy and performance |
CN104199851B (zh) * | 2014-08-11 | 2018-05-08 | 北京奇虎科技有限公司 | 通过黄页信息提取电话号码的方法及云端服务器 |
US11200466B2 (en) * | 2015-10-28 | 2021-12-14 | Hewlett-Packard Development Company, L.P. | Machine learning classifiers |
US10515402B2 (en) * | 2016-01-30 | 2019-12-24 | Walmart Apollo, Llc | Systems and methods for search result display |
US10313348B2 (en) * | 2016-09-19 | 2019-06-04 | Fortinet, Inc. | Document classification by a hybrid classifier |
US20180113938A1 (en) * | 2016-10-24 | 2018-04-26 | Ebay Inc. | Word embedding with generalized context for internet search queries |
CN107169036A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 确定企业所属行业类别的方法及系统 |
US10467261B1 (en) | 2017-04-27 | 2019-11-05 | Intuit Inc. | Methods, systems, and computer program product for implementing real-time classification and recommendations |
US10467122B1 (en) | 2017-04-27 | 2019-11-05 | Intuit Inc. | Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks |
US10528329B1 (en) | 2017-04-27 | 2020-01-07 | Intuit Inc. | Methods, systems, and computer program product for automatic generation of software application code |
US10705796B1 (en) * | 2017-04-27 | 2020-07-07 | Intuit Inc. | Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data |
US10520948B2 (en) | 2017-05-12 | 2019-12-31 | Autonomy Squared Llc | Robot delivery method |
CN110019769A (zh) * | 2017-07-14 | 2019-07-16 | 元素征信有限责任公司 | 一种智能企业分类算法 |
CN108446336B (zh) * | 2018-02-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 机构名称的智能搜索方法、装置、设备及存储介质 |
US11487991B2 (en) * | 2019-09-04 | 2022-11-01 | The Dun And Bradstreet Corporation | Classifying business summaries against a hierarchical industry classification structure using supervised machine learning |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5675710A (en) * | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
JP3198932B2 (ja) * | 1996-08-02 | 2001-08-13 | 松下電器産業株式会社 | 文書検索装置 |
US6038560A (en) * | 1997-05-21 | 2000-03-14 | Oracle Corporation | Concept knowledge base search and retrieval system |
US6078916A (en) * | 1997-08-01 | 2000-06-20 | Culliss; Gary | Method for organizing information |
US6269368B1 (en) * | 1997-10-17 | 2001-07-31 | Textwise Llc | Information retrieval using dynamic evidence combination |
US5991756A (en) * | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US7050992B1 (en) * | 1998-03-03 | 2006-05-23 | Amazon.Com, Inc. | Identifying items relevant to a current query based on items accessed in connection with similar queries |
US6405188B1 (en) * | 1998-07-31 | 2002-06-11 | Genuity Inc. | Information retrieval system |
US6513031B1 (en) * | 1998-12-23 | 2003-01-28 | Microsoft Corporation | System for improving search area selection |
US6968513B1 (en) * | 1999-03-18 | 2005-11-22 | Shopntown.Com, Inc. | On-line localized business referral system and revenue generation system |
US6393415B1 (en) * | 1999-03-31 | 2002-05-21 | Verizon Laboratories Inc. | Adaptive partitioning techniques in performing query requests and request routing |
US6519585B1 (en) * | 1999-04-27 | 2003-02-11 | Infospace, Inc. | System and method for facilitating presentation of subject categorizations for use in an on-line search query engine |
US6505184B1 (en) * | 1999-07-30 | 2003-01-07 | Unisys Corporation | Autognomic decision making system and method |
US6434549B1 (en) * | 1999-12-13 | 2002-08-13 | Ultris, Inc. | Network-based, human-mediated exchange of information |
JP2001202310A (ja) * | 2000-01-20 | 2001-07-27 | Square Co Ltd | 情報提供方法およびその方法を実現するためのプログラムを記録した記録媒体、ならびに、情報提供システム |
US6751621B1 (en) * | 2000-01-27 | 2004-06-15 | Manning & Napier Information Services, Llc. | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors |
KR20000049427A (ko) * | 2000-03-10 | 2000-08-05 | 김종민 | 인터넷 정보 검색 방법 및 그의 엔진 |
US20010044837A1 (en) * | 2000-03-30 | 2001-11-22 | Iqbal Talib | Methods and systems for searching an information directory |
US6463430B1 (en) * | 2000-07-10 | 2002-10-08 | Mohomine, Inc. | Devices and methods for generating and managing a database |
US7359951B2 (en) * | 2000-08-08 | 2008-04-15 | Aol Llc, A Delaware Limited Liability Company | Displaying search results |
US7225180B2 (en) * | 2000-08-08 | 2007-05-29 | Aol Llc | Filtering search results |
US7146416B1 (en) * | 2000-09-01 | 2006-12-05 | Yahoo! Inc. | Web site activity monitoring system with tracking by categories and terms |
US20020111847A1 (en) * | 2000-12-08 | 2002-08-15 | Word Of Net, Inc. | System and method for calculating a marketing appearance frequency measurement |
US6920505B2 (en) * | 2000-12-14 | 2005-07-19 | Ask Jeeves, Inc. | Method and apparatus for determining a navigation path for a visitor to a world wide web site |
US6778975B1 (en) * | 2001-03-05 | 2004-08-17 | Overture Services, Inc. | Search engine for selecting targeted messages |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7013303B2 (en) * | 2001-05-04 | 2006-03-14 | Sun Microsystems, Inc. | System and method for multiple data sources to plug into a standardized interface for distributed deep search |
US20030004781A1 (en) * | 2001-06-18 | 2003-01-02 | Mallon Kenneth P. | Method and system for predicting aggregate behavior using on-line interest data |
US7089226B1 (en) * | 2001-06-28 | 2006-08-08 | Microsoft Corporation | System, representation, and method providing multilevel information retrieval with clarification dialog |
US20050108200A1 (en) * | 2001-07-04 | 2005-05-19 | Frank Meik | Category based, extensible and interactive system for document retrieval |
US6804669B2 (en) * | 2001-08-14 | 2004-10-12 | International Business Machines Corporation | Methods and apparatus for user-centered class supervision |
US7149732B2 (en) * | 2001-10-12 | 2006-12-12 | Microsoft Corporation | Clustering web queries |
US20030078928A1 (en) * | 2001-10-23 | 2003-04-24 | Dorosario Alden | Network wide ad targeting |
US7673234B2 (en) * | 2002-03-11 | 2010-03-02 | The Boeing Company | Knowledge management using text classification |
US6920459B2 (en) * | 2002-05-07 | 2005-07-19 | Zycus Infotech Pvt Ltd. | System and method for context based searching of electronic catalog database, aided with graphical feedback to the user |
US20030216930A1 (en) * | 2002-05-16 | 2003-11-20 | Dunham Carl A. | Cost-per-action search engine system, method and apparatus |
US20030220913A1 (en) * | 2002-05-24 | 2003-11-27 | International Business Machines Corporation | Techniques for personalized and adaptive search services |
US7076497B2 (en) * | 2002-10-11 | 2006-07-11 | Emergency24, Inc. | Method for providing and exchanging search terms between internet site promoters |
-
2003
- 2003-06-17 US US10/462,818 patent/US20040260677A1/en not_active Abandoned
-
2004
- 2004-06-17 EP EP04755418A patent/EP1634204A2/en not_active Withdrawn
- 2004-06-17 WO PCT/US2004/019241 patent/WO2004114162A2/en active Application Filing
- 2004-06-17 CA CA2528887A patent/CA2528887C/en not_active Expired - Fee Related
- 2004-06-17 CN CNA200480016890XA patent/CN1806243A/zh active Pending
- 2004-06-17 KR KR1020057024053A patent/KR100820662B1/ko not_active IP Right Cessation
-
2005
- 2005-11-29 IL IL172248A patent/IL172248A0/en unknown
-
2010
- 2010-04-08 US US12/756,580 patent/US20100191768A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP1634204A2 (en) | 2006-03-15 |
WO2004114162A2 (en) | 2004-12-29 |
CA2528887A1 (en) | 2004-12-29 |
CN1806243A (zh) | 2006-07-19 |
IL172248A0 (en) | 2006-04-10 |
KR100820662B1 (ko) | 2008-04-10 |
US20100191768A1 (en) | 2010-07-29 |
CA2528887C (en) | 2012-08-28 |
US20040260677A1 (en) | 2004-12-23 |
WO2004114162A3 (en) | 2005-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100820662B1 (ko) | 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치 | |
US20180322201A1 (en) | Interest Keyword Identification | |
US10191999B2 (en) | Transferring information across language understanding model domains | |
US8468156B2 (en) | Determining a geographic location relevant to a web page | |
US7809721B2 (en) | Ranking of objects using semantic and nonsemantic features in a system and method for conducting a search | |
US8732155B2 (en) | Categorization in a system and method for conducting a search | |
US8768954B2 (en) | Relevancy-based domain classification | |
RU2387004C2 (ru) | Способ и система для вычисления значения важности блока в дисплейной странице | |
US7774348B2 (en) | System for providing geographically relevant content to a search query with local intent | |
US8185538B2 (en) | System for determining the geographic range of local intent in a search query | |
TWI544352B (zh) | 促進內容與網路中廣告資訊匹配之系統及方法 | |
KR101644817B1 (ko) | 탐색 결과들을 생성하는 방법 | |
US20100235311A1 (en) | Question and answer search | |
US20080313142A1 (en) | Categorization of queries | |
US20100306249A1 (en) | Social network systems and methods | |
US20100235343A1 (en) | Predicting Interestingness of Questions in Community Question Answering | |
US20210191995A1 (en) | Generating and implementing keyword clusters | |
EP1556788A2 (en) | Intelligent classification system | |
WO2009064318A1 (en) | Search system and method for conducting a local search | |
JP2020067864A (ja) | 知識検索装置、知識検索方法、および、知識検索プログラム | |
US8065297B2 (en) | Semantic enhanced link-based ranking (SEL Rank) methodology for prioritizing customer requests | |
CN107423298B (zh) | 一种搜索方法和装置 | |
WO2009064312A1 (en) | Transformation in a system and method for conducting a search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
J204 | Request for invalidation trial [patent] | ||
J301 | Trial decision |
Free format text: TRIAL DECISION FOR INVALIDATION REQUESTED 20080710 Effective date: 20090729 |
|
FPAY | Annual fee payment |
Payment date: 20130322 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140324 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |