KR101109236B1

KR101109236B1 - 복수-의미 질의에 대한 관련 용어 제안

Info

Publication number: KR101109236B1
Application number: KR1020050031502A
Authority: KR
Inventors: 벤유 즈항; 후아-준 젱; 리 리; 다레크 나즘; 웨이-잉 마; 잉 리; 즈헹 첸
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-04-15
Filing date: 2005-04-15
Publication date: 2012-01-30
Also published as: US20050234879A1; CN100517311C; MXPA05004099A; US7428529B2; KR20060045770A; AU2005201682A1; JP2005302042A; CA2504106C; CA2504106A1; RU2005111000A; CN1684072A; JP4726528B2; BRPI0501320A; EP1587011A1; RU2393533C2

Abstract

관련 용어 제안을 위한 시스템 및 방법이 기재된다. 일 양태에서, 용어 클러스터들은 용어 벡터들의 계산된 유사성의 함수로서 생성된다. 각각의 용어 벡터는 검색 엔진에 이전에 제시된 높은 FOO(frequency of occurrence) 이력의 질의들(historical queries)의 집합과 연관된 검색 결과들로부터 생성된다. 객체로부터 용어/구문의 수신에 응답하여, 용어/구문은 용어 클러스터들의 용어들/구문들의 관점에서 평가되어 한 개 이상의 관련 용어 제안들을 식별한다.

관련 용어 제안, 용어 벡터, 용어 클러스터

Description

복수-의미 질의에 대한 관련 용어 제안{RELATED TERM SUGGESTION FOR MULTI-SENSE QUERY}

도 1은 복수-의미 질의에 대한 관련 용어 제안을 위한 시스템의 예를 도시한 도면.

도 2는 복수-의미 질의에 대한 관련 용어 제안을 위한 과정의 예를 도시한 도면.

도 3은 복수-의미 질의에 대한 관련 용어 제안을 위한 과정의 예를 도시한 도면. 여기서 본 절차의 동작들은 도 2의 동작들에 기초한다.

도 4는 복수-의미 질의에 대한 관련 용어 제안을 위해 후속적으로 기재된 시스템, 장치, 및 방법이 완전히 또는 부분적으로 구현될 수 있는 적합한 컴퓨팅 환경의 예를 도시한 도면.

<도면의 주요 부분에 대한 부호의 설명>

132 : 검색 엔진

120 : 높은 FOO 질의 용어들

122 : 낮은 FOO 질의 용어들

102 : 편집 확인 서버

112 : 검색 용어 제안 모듈(예를 들어, 웹 페이지 검색, 특징 추출, 차원 감 소, 정규화, 클러스터링, 및 매칭)

114 : 분류 모듈

110 : 제안된 용어 리스트

116 : 이력의 질의들

132 : 검색 결과들

134 : 추출된 특징들

136 : 용어 벡터(들)

138 : 용어 클러스터들

140 : 훈련된 분류기

124 : 기타 데이타(예를 들어, 유사성 측정치(들), 훈련된 분류기, 용어/구문 카테고리들 등)

128 : 질의 로그(들)(질의 용어들)

106 : 클라이언트 컴퓨팅 디바이스

본원은 각각이 공통적으로 본원의 양수인에게 양도되고 본 명세서에서 참조되는 다음 특허 출원서들과 관련이 있다:

2003년 5월 1일에 출원된, "층간 링크들을 사용한 객체 클러스터링(Object Clustering Using InterLayer Links)"의 표제의 미국 특허출원 제 10/427,548호; 및

2004년 4월 15일에 출원된, "검색 용어 제안을 위한 복수-유형 데이타 객체들의 강화된 클러스터링(Reinforced Clustering of Multi-Type Data Objects for Search Term Suggestion)"의 표제의 미국 특허출원 제 10/826,159.

본 발명의 시스템 및 방법은 데이타 마이닝(data mining)과 관련된다.

핵심어(keyword)나 구문은 WWW(World Wide Web)에서 연관된 웹 페이지/사이트를 검색할 때 검색 엔진에게 웹 서퍼(Web sufer)에 의해 제출되는 단어 또는 용어들의 집합이다. 검색 엔진들은 페이지/사이트에 나타나는 핵심어들 또는 핵심어 구문들에 기초하여 웹 사이트의 관련성을 결정한다. 웹 사이트 교통량의 큰 퍼센트가 검색 엔진의 사용으로부터 귀결하므로, 웹 사이트 프로모터들(promoters)은 적합한 핵심어/구문 선택은 원하는 사이트의 노출을 얻기 위한 사이트 교통량의 증대에 매우 중요함을 안다. 검색 엔진 결과 최적화를 위해 웹 사이트에 관련된 핵심어들을 식별하는 기술들은, 예를 들어, 웹 사이트 내용과 관련 핵심어(들)을 식별하기 위한 목적에 대한 인간에 의한 평가를 포함한다. 이 평가는 핵심어 인기도 도구의 사용을 포함할 것이다. 그런 도구들은 얼마나 많은 사람들이 검색 엔진으로 핵심어를 포함하는 특정 핵심어 또는 구문을 제출했는지를 결정한다. 웹 사이트에 관련있고 검색 질의들의 생성에 더 자주 사용되는 것으로 판정된 핵심어들은 일반적으로 웹 사이트에 대해 검색 엔진 결과 최적화를 위해 선택된다.

웹 사이트의 검색 엔진 결과 최적화를 위한 핵심어들의 집합을 식별한 후에, 프로모터는 웹 사이트가 검색 엔진의 결과들에서 더 높은 위치에 오르기를 원할 것이다(다른 웹 사이트 검색 엔진 결과들의 디스플레이된 위치들에 비교하여). 이를 위해, 프로모터는 핵심어(들)에 입찰하여 웹 서퍼가 핵심어(들)와 연관된 프로모터의 리스트들을 클릭할 때마다 프로모터가 얼마를 지불할 것인지를 지시한다. 부연하면, 핵심어 입찰은 클릭-당-지불(pay-per-click) 입찰이다. 동일 핵심어에 대한 다른 입찰들에 비교하여 핵심어 입찰의 양이 많을수록, 검색 엔진은 그 핵심어에 기초한 검색 결과들에서 연관된 웹 사이트를 더 높이(중요성에서 더 현저함) 디스플레이할 것이다.

상술된 관점에서, 웹 사이트 내용에 관련된 핵심어들을 더 잘 식별하기 위한 시스템 및 방법은 웹 사이트 프로모터들에 의해 환영될 것이다. 이것은 프로모터들이 사용자 선호된 용어들을 입찰하도록 할 것이다. 이상적으로는, 이들 시스템 및 방법은 인간이 웹 사이트 내용을 평가하여 검색 엔진 최적화와 핵심어 입찰을 위한 관련 핵심어들을 식별하도록 하는 필요성과는 무관할 것이다.

관련 용어 제안을 위한 시스템 및 방법이 기재된다. 일 양태에서, 용어 클러스터들은 용어 벡터들의 계산된 유사성의 함수로서 생성된다. 각각의 용어 벡터는 검색 엔진에 이전에 제시된 높은 FOO(frequency of occurrence) 이력의 질의들(historical queries)의 집합과 연관된 검색 결과들로부터 생성된다. 객체로부터 용어/구문의 수신에 응답하여, 용어/구문은 용어 클러스터들에서 용어들/구문들의 관점에서 평가되어 한 개 이상의 관련 용어 제안들을 식별한다.

도면들에서, 컴포넌트 참조 부호의 최좌측의 수는 컴포넌트가 처음 나타나는 특정 도면을 식별한다.

관련 용어/구문을 제안하는 가장 단순한 방법은, 한 개의 용어/구문이 다른 용어/구문의 단어들의 일부 또는 전부를 포함할 때 2개의 용어들/구문들이 관련있는 것으로 판정하는 서브스트링(substring) 매칭 접근법의 사용임이 보여질 것이다. 그러나, 이 기술은 크게 제한적이다. 이 방법은, 관련 용어들이 공통 단어들을 포함할 필요는 없으므로, 다수의 의미상으로 관련된 용어들을 간과할 것이다. 예를 들어, 신발 회사가 "신발"과 관련된 용어들을 알기를 원한다고 고려한다. 종래 매칭 접근법이 사용되면, 단지 "여자 신발", "할인 신발" 등만이 제안될 것이다. 그러나, "운동화", "등산화", "나이키" 등과 같은 다수의 다른 관련된 용어들이 존재한다.

복수-의미 질의에 대한 관련 용어 제안을 위한 다음 시스템 및 방법은 이들 종래 서브스트링 매칭 기술들의 제한점들을 해결한다. 이를 위해, 시스템 및 방법은 최종 사용자(예를 들어, 웹 사이트 프로모터, 광고자 등)가 제출한 용어들/구문들에 의미적으로 관련된 용어들/구문들에 대한 검색 엔진 결과들을 마이닝한다. 의미적 관계는, 컨텍스트가 용어/구문의 의미를 나타낼 수 있는 용어/구문을 둘러싸는, 검색 엔진 결과들로부터의 컨텍스트(예를 들어, 텍스트 및/또는 기타등등)를 마이닝하여 구성된다. 더 구체적으로, 질의 용어들의 집합은 그들의 FOO가 세어지고 이력의 질의 로그(log)로부터 수집된다. 이들 질의 용어들은 검색 엔진에게 하 나씩 제출된다. 일 실시예에서, 제시된 이력의 질의 로그 용어들은 다른 이력의 질의 로그 용어들의 FOO에 비교하여 비교적 높은 FOO를 갖는다.

제시된 질의들의 각각 것의 수신에 응답하여, 검색 엔진은 각각의 결과의 URL, 결과 표제, 및 짧은 설명 및/또는 제시된 질의를 둘러싸는 컨텍스트를 포함하는 검색 결과들의 순위화된 리스트를 반환한다. 검색 엔진 결과들이 수신되면, 시스템 및 방법은 반환된 검색 결과들로부터 선택된 것들(예를 들어, 한 개 이상의 상위에 등급매겨진 결과들)로부터 특징들의 집합(핵심어들 및 공지된 TFIDF 기술들을 사용하여 계산된 대응하는 가중치들)을 추출한다. 제시된 검색 질의들로부터 대응하는 검색 엔진 결과들의 특징들을 추출한 후에, 추출된 특징들은 정규화된다. 정규화된 특징들은 각각의 제시된 질의들을 나타내기 위해 사용되고, 텍스트 클러스터링 알고리즘에서 제시된 질의 용어들을 클러스터들로 집단화하기 위해 사용된다.

최종 사용자로부터의 용어/구문 수신에 응답하여, 용어/구문은 용어 클러스터들에서 용어들/구문들 중의 각각의 것들에 비교된다. 용어 클러스터들은 서로 컨텍스트에서 관련된 용어들을 포함하므로, 용어/구문이 클러스터들 내의 용어들과 비교될 때, 용어 구문은 임의의 복수 개의 관련된 컨텍스트들, 또는 "의미들(senses)"의 관점에서 평가된다. 일 실시예에서, 용어/구문이 클러스터로부터의 용어와 매치하면, 클러스터는 제안된 용어 리스트의 최종 사용자에게 반환된다. 제안된 용어 리스트는 각각의 용어/구문이 용어/구문 유사성 측정치(신뢰도 값) 및 각각의 용어/구문 FOO에 의미적으로 및/또는 개념적으로 관련된다고 결정된 용어들 /구문들을 포함한다. 반환된 리스트는 FOO와 신뢰도 값의 조합으로 등급매겨진다. 용어/구문이 한 개 이상의 용어 클러스터들의 용어들과 매치하면, 복수 개의 제안된 용어 리스트들이 생성된다. 리스트들은 클러스터 크기들에 의해 순서화되고, 각각의 리스트 내의 용어들은 FOO와 신뢰도 값의 조합에 의해 등급매겨진다. 매칭 클러스터들이 식별되지 않으면, 질의 용어는 낮은 FOO를 갖는 질의 용어들로부터 생성된 확장된 클러스터들에 대해 더 매치된다.

일 실시예에서, 낮은 FOO를 갖는 질의 용어들은 높은 FOO 이력의 질의 로그 용어들로부터 생성된 용어 클러스터들을 위한 분류기(예를 들어, K-최근접 이웃 분류기(K-nearest neighbor classifier))를 훈련시켜서 클러스터링된다. 낮은 FOO를 갖는 것으로 결정된 이력의 질의 용어들은 검색 엔진에 하나씩 제시된다. 그 다음, 반환된 검색 결과들 중의 선택된 것들(예를 들어, 최상위에 순위화된 웹 페이지 및/또는 기타등등)로부터 특징들이 추출된다. 추출된 특징들은 낮은 FOO를 갖는 질의 용어들을 나타내기 위해 정규화되어 사용된다. 그 다음, 질의 용어들은 기존 클러스터들에 분류되어 훈련된 분류기에 기초하여 확장된 클러스터들을 생성한다. 그 다음, 최종 사용자가 제출한 용어/구문은 이들 확장된 클러스터들의 관점에서 평가되어 제안된 용어 리스트를 식별하여 최종-사용자에게 반환한다.

복수-의미 질의에 대한 관련된 용어/핵심어 제안을 위한 시스템 및 방법의 이들 및 다른 양태들은 이제 더 상세히 기재된다.

<시스템의 예>

도면들을 참조하면, 유사 참조 부호들은 유사 소자들을 참조하고, 복수-의미 질의에 대한 관련 용어 제안을 위한 시스템 및 방법은 적합한 컴퓨팅 환경에서 구현되는 것으로 기재되고 도시된다. 요구되지는 않지만, 본 발명은 개인용 컴퓨터에 의해 실행되는 컴퓨터-실행가능 명령어들(프로그램 모듈들)의 일반 문맥으로 기재된다. 프로그램 모듈들은 일반적으로 특정 작업들을 수행하거나 특정 추상 데이타 유형들을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이타 구조 등을 포함한다. 시스템 및 방법이 상술된 문맥에서 기재되는 한편, 본 명세서에 기재되는 동작 및 연산은 또한 하드웨어에서도 구현될 수 있다.

도 1은 복수-의미 질의에 대한 관련 용어 제안을 위한 시스템(100)의 예를 도시한다. 이 실시예에서, 시스템(100)은 통신망(104)을 통해 클라이언트 컴퓨팅 디바이스(106)에 결합된 편집 확인 서버(EVS)(102)를 포함한다. 예를 들어, 클라이언트 컴퓨팅 디바이스(106) 또는 EVS(102)에서 실행하는 다른 응용 프로그램(도시 안됨)으로부터 용어/구문(108)의 수신에 응답하여, EVS(102)는 클라이언트 컴퓨팅 디바이스(106)에 제안된 용어 리스트(110)를 생성하여 통신하여 실제로 용어/구문에 입찰하기 전에 용어/구문(108)에 의미적으로/개념적으로 관련된 용어들의 집합을 최종-사용자가 평가하도록 한다. 통신망(104)은, 사무실, 기업체 컴퓨터망, 인트라넷, 및 인터넷에서 일반적인 것들과 같은, 구내 통신망(LAN)과 광역 통신망(WAN) 환경의 임의의 조합을 포함할 수 있다. 시스템(100)이 클라이언트 컴퓨팅 디바이스(106)를 포함할 때, 클라이언트 컴퓨팅 디바이스는 개인용 컴퓨터, 랩톱, 서버, 휴대용 컴퓨팅 디바이스(예를 들어, 셀폰, PDA, 또는 핸드헬드 컴퓨터) 등과 같은 임의의 유형의 컴퓨팅 디바이스이다.

제안된 용어 리스트(110)는, 예를 들어, 각각의 용어/구문이 용어/구문(108) 유사성 측정치(신뢰도 값) 및 각각의 용어/구문 FOO -이력의 질의 로그의 빈도수- 에 관련된 것으로 결정된 용어들/구문들을 포함한다. 관련된 용어/구문을 식별하는 것, 유사성 측정치를 생성하는 것, 및 FOO 값들을 생성하는 것을 위한 기술들은 핵심어 마이닝, 특징 추출, 및 용어 클러스터링의 표제의 섹션들을 참조하여 아래 더 상세히 기재된다.

표 1은 "mail"의 용어/구문(108)과 관련된 것으로 결정된 용어들의 제안된 용어 리스트(110)의 예를 도시한다. 용어/구문(108)에 관련된 용어들은 이 예에서 "제안된 용어들"의 표제의 1열에 도시된다.

표 1을 참조하면, 제안된 용어 리스트의 용어들은 용어 유사성 값들("유사성" 표제의 2열 참조) 및 FOO 점수들("빈도수" 표제의 3 열 참조)에 매핑됨을 주목한다. "용어 클러스터링"의 표제의 섹션에서 아래 기재된 바와 같이 계산된, 각각의 용어 유사성 값은 대응하는 제안된 용어(1열)와, 이 예에서 "mail"인, 용어/구문(108) 간의 유사성 측정치를 제공한다. 각각의 빈도수 값, 또는 점수, 은 제안된 용어가 이력의 질의 로그에 발생하는 횟수를 지시한다. 제안된 용어 리스트는 작업 목적의 함수로서 용어 유사성 및/또는 FOO 점수의 함수로서 정렬된다.

임의의 주어진 용어/구문(108)(예를 들어, mail 등)은 입찰 용어가 사용될 수 있는 한 개 이상의 컨텍스트를 가질 수 있다. 이를 설명하기 위해, STS 모델(112)은 제안된 용어들이 용어/구문(108)의 복수 개의 컨텍스트들에 대응하는 제안된 용어 리스트(110)에서 지시를 제공한다. 예를 들어, 표 1을 참조하면, "mail"의 용어/구문(108)은 2개의 컨텍스트들을 갖는다: (1) 종래 오프라인 메일 및 (2) 온라인 이메일. 관련된 용어들의 각각의 리스트는 이들 2개의 입찰 용어 컨텍스트들의 각각에 대해 나타난다.

추가로, 임의의 용어/구문(108)에 대해 제안된 용어들은 그 입찰 용어의 유사어들 이상일 수 있다. 예를 들어, 표 1을 참조하면, 제안된 용어 "usps"는, 입찰 용어 "mail"에 대한 유사어가 아닌, 메일을 핸들링하는 조직에 대한 머릿글자이다. 그러나, "usps"는 또한 "mail" 입찰 용어와 매우 관련된 용어이고, 그러므로 제안된 용어 리스트(110)에 보여진다. 일 실시예에서, STS 모델(112)은 관련된 용어 R(예를 들어, "usps")과 타겟 용어 T(예를 들어, "mail") 간의 관계를 다음 연계 규칙의 함수로서 결정한다: itr(T)

itr(R), 여기서, "itr"은 "interested in"을 나타낸다. 사용자(광고자, 웹 사이트 프로모터, 및/또는 기타등등)가 R에 관심이 있으면, 사용자는 또한 T에 관심이 있을 것이다.

EVS(102)는 다수의 컴퓨터 프로그램 모듈들을 포함하여 제안된 용어 리스트(110)를 생성한다. 컴퓨터 프로그램 모듈들은, 예를 들어, 검색 용어 제안(STS) 모듈(112) 및 분류 모듈(114)를 포함한다. STS 모듈(112)은 질의 로그(118)로부터 이력의 질의들(116)의 집합을 검색한다. 이력의 질의들은 검색 엔진에 이전에 제시된 검색 질의 용어들을 포함한다. STS 모듈(112)은 이력의 질의들(116)을 FOO의 함수로서 평가하여 높은 FOO 검색 용어들(120)과 비교적 더 낮은 FOO 검색 용어들(122)을 식별한다. 이 구현에서, 설정가능한 임계치는 이력의 질의가 비교적 더 높거나 낮은 FOO를 갖는지를 결정하기 위해 사용된다. 예를 들어, 적어도 임계치의 횟수만큼 발생하는 이력의 질의들(116)에서 검색 질의 용어들은 높은 FOO를 가졌다고 말해진다. 유사하게, 임계치 횟수보다 더 적게 발생하는 이력의 질의들(116)의 검색 질의 용어들은 낮은 FOO를 가졌다고 말해진다. 설명 목적으로, 그런 임계치는 "다른 데이타"(124)의 각각의 부분으로서 나타내진다.

<핵심어 마이닝과 특징 추출>

STS 모듈(112)은 검색 엔진(126)에게 각각의 질의를 하나씩(검색 질의(128)) 제출하여 의미적으로/개념적으로 높은 FOO 질의 용어들(120)을 마이닝한다. 검색 질의(128)의 수신에 응답하여, 검색 엔진(126)은 STS 모듈(112)에게 검색 결과(130)의 순위화된 리스트(그 숫자는 설정가능함)를 반환한다. 순위화된 리스트는 URL, 결과 표제, 및 간단한 설명 및/또는 제시된 검색 질의(128)에 관련된 질의 용어의 컨텍스트들을 포함한다. 순위화된 리스트는 검색 결과(132)에 저장된다. 그런 검색 결과의 검색는 각각의 검색 질의(128)에 대해 수행된다.

STS 모듈(112)은 웹 페이지 HTML(HyperText Markup Language)를 파스하여 URL, 결과 표제, 간단한 설명, 및/또는 각각의 검색된 검색 결과(132)로부터 각각의 질의 용어(120)에 대한 질의 용어의 컨텍스트들을 추출한다. URL, 결과 표제, 짧은 설명, 및/또는 질의 용어의 컨텍스트, 및 검색된 검색 결과(132)를 얻기 위해 사용되는 검색 질의(128)는 STS 모듈(112)에 의해 추출된 특징들(134)의 각각의 레코드에 저장된다.

높은 FOO 질의 용어들(120)에 대한 검색 결과들(130)를 파스한 후에, STS 모듈(112)은 추출된 특징들(134)에 텍스트 전처리 동작들을 수행하여 추출된 특징들로부터 개별 핵심어들로 언어 토큰들(토큰화(tokenize))을 생성한다. 토큰들의 차원을 감소시키기 위해, STS 모듈(112)은 임의의 스톱-단어(stop-word)(예를 들어, "the", "a", "is" 등)를 삭제하고 공통 접미어들을 삭제하여, 예를 들어, 공지된 포터 스테밍 알고리즘(Porter stemming algorithm)을 사용하여 핵심어들을 정규화한다. STS 모듈(112)은 결과적으로 추출된 특징들(134)을 한 개 이상의 용어 벡터들(136)에 배열한다.

각각의 용어 벡터(136)는 용어 빈도수 및 반전된 도큐먼트 빈도수(Term Frequency and Inverted Document Frequency;TFIDF) 점수들에 기초하여 차원들을 갖는다.

번째 벡터의

번째 핵심어의 가중치는 다음과 같이 계산된다:

여기서,

는 용어 빈도수(

번째 레코드에 핵심어

의 발생 횟수)를 나타내고,

은 질의 용어들의 총 수이고,

은 핵심어

를 포함하는 레코드들의 수이다.

<용어 클러스터링>

STS 모듈(112)은 유사 용어들을 집단화하여 용어 벡터들(136)로부터 용어 클러스터들(138)을 생성한다. 이를 위해, 이 실시예에서, 각각의 용어의 주어진 벡터 표현에서, 코사인 함수는 용어 쌍 간의 유사성을 측정하기 위해 사용된다(벡터들이 정규화됨을 기억한다):

그러므로, 2개의 용어들 간의 거리(유사성 측정치)는 다음식으로 정의된다:

그런 유사성 측정치들은 "다른 데이타"(124)의 각각의 부분으로서 나타내진다. 그런 유사성 값들의 예는 표 1의 제안된 용어 리스트(110)의 예에서 보여진다.

STS 모듈(112)은 계산된 유사성 측정치(들)을 사용하여 핵심어 벡터들(134)에 의해 표현된 용어들을 용어 클러스터(들)(138)로 클러스터/집단화한다. 더 구체적으로, 이 실시예에서, STS 모듈(112)은 공지된 밀도-기반 클러스터링 알고리즘(DBSCAN)을 사용하여 용어 클러스터(들)(138)를 생성한다. DBSCAN은 2개의 파라미터들을 사용한다: Eps와 MinPts. Eps는 클러스터(138)의 점들 간의 최대 거리를 나타낸다. 여기서, 각각의 벡터의 꼬리가 원점으로 이동될 때 각각의 벡터는 벡터 머리의 점에 의해 표현될 수 있으므로, 점들은 벡터들과 동일하다. MinPts는 클러스터(138)의 점들의 최소수를 표현한다. 클러스터(138)를 생성하기 위해, DBSCAN은 임의의 점

에서 시작하고, Eps와 MinPts에 관련하여

로부터 모든 밀도-도달가능한(density-reachable) 점들을 수취한다.

가 중심점이면, 이 과정은 Eps와 MinPts에 대해 클러스터(138)를 생성한다.

가 경계점이면,

로부터 밀도-도달가능한 점은 없고, DBSCAN은 다음 점으로 간다.

<용어 매칭>

최종 사용자(예를 들어, 광고자, 웹 사이트 프로모터 등)로부터 용어/구문(108)의 수신에 응답하여, STS 모듈(112)은 용어/구문(108)을 용어 클러스터들(138)의 각각의 용어/구문과 비교한다. 용어 클러스터들(138)은 서로 컨텍스트에서 관련된 용어들을 포함하므로, 용어/구문(108)은 복수 개의 관련된 이력의 컨텍스트들 또는 "의미들"의 관점에서 평가된다. 일 실시예에서, STS 모듈(112)이 용어/구문(108)이 클러스터(138)로부터의 용어/구문과 매칭함을 결정하면, 검색 용어 제안 모듈(112)은 클러스터(138)로부터 제안된 용어 리스트(110)를 생성한다. 이 실시예에서, 매치는 정확한 매치이거나, 또는, 단수/복수 형태, 철자법 오류, 구두점 등과 같은 소수의 상이점들을 갖는 매치일 수 있다. 반환된 리스트는 FOO와 신뢰도 값의 조합으로 등급매겨진다.

STS 모듈(112)이 용어/구문(108)이 복수 개의 용어 클러스터들(138)의 용어들과 매치함을 결정하면, 검색 용어 제안 모듈(112)은 클러스터들(138) 중의 복수 개들의 용어들로부터 복수 개의 제안된 용어 리스트들(110)을 생성한다. 리스트들은 클러스터 크기에 의해 순서화되고, 각각의 리스트 내의 용어들은 FOO와 신뢰도 값의 조합에 의해 등급매겨진다.

<낮은 FOO 용어들의 분류>

높은 FOO 질의 용어들(120)로부터 생성된 용어 클러스터들(138)이 최종 사용자 입력 용어/구문(108)에 동일한 용어들을 포함하지 않으면, 분류 모듈(114)은 제안된 용어 리스트(110)를 생성한다. 이를 위해, 분류 모듈(114)은 높은 FOO 질의 로그 용어들(120)로부터 생성된 용어 클러스터들(138)로부터 훈련된 분류기(140)를 생성한다. 용어 클러스터들(138)의 용어들은 이미 분류 동작들에 적합한 벡터 공간 모델에서 대응하는 핵심어 벡터들을 갖는다. 추가로, 스톱-단어 제거 및 단어 스테밍(접미어 제거)은 용어 벡터들(136)의 차원(클러스터들(138)이 기초됨)을 감소시킨다. 일 실시예에서, 예를 들어, 특징 선택 또는 재파라미터화(re-parameterization)와 같은 추가적 차원 감소 기술들이 채용될 수 있다.

이 실시예에서, 부류(class)가 알려지지 않은 질의 용어(120)를 분류하기 위해, 분류 모듈(114)은 k-최근접 이웃 분류기 알고리즘을 사용하여, 그들의 대응하는 특징 벡터들에 의존하여, 모든 부류가 알려진 질의 용어들(120)의 k 개의 가장 유사한 이웃들을 발견하고, 이웃들의 부류 라벨들의 가중된 대다수를 사용하여 새 질의 용어의 부류를 예측한다. 여기서, 용어 클러스터들(138)에 이미 있는 각각의 질의 용어는 그들의 대응하는 클러스터의 라벨에 동일한 라벨이 할당되는 한편, 각각의 클러스터(138)는 단순히 순차적 수들에 의해 라벨화된다. 이들 이웃들은

에의 각각의 이웃의 유사성을 사용하여 가중화되고, 여기서, 유사성은 2개의 벡터들 간의 유클리드 거리 또는 코사인 값에 의해 측정된다. 코사인 유사성은 다음식과 같다:

여기서,

는 테스트 용어이고 -즉, 벡터로서 분류되고 표현되는 질의 용어-,

은

번째 훈련 용어이고,

는

와

에 의해 공유되는 단어이고,

은

의 핵심어

의 가중치이고,

는

의 핵심어

의 가중치이고,

은

의 놈(norm)이고,

는

의 놈이다. 그러므로, 테스트 용어

의 부류 라벨은 모든 이웃들의 부류 라벨들 중의 가중된 최대치이다:

다른 실시예에서, 최근접-이웃 분류 기술과는 다른 통계 분류 및 기계 학습 기술(예를 들어, 회귀(regression) 모델, 베이즈(Bayesian) 분류기, 결정 트리(decision tree), 신경망, 및 서포트 벡터 머신(support vector machines))은 훈련된 분류기(140)를 생성하기 위해 사용된다.

분류 모듈(114)은 검색 엔진(126)에게 낮은 FOO 질의 용어들(122)을 하나씩(각각의 검색 질의(128)를 통해) 제출한다. 특정 검색 질의(128)와 연관된 검색 결과(130)의 수신에 응답하고, 이미 기재된 기술들을 사용하여, 분류 모듈(114)은 검색 결과(130)에 의해 식별된 한 개 이상의 검색된 검색 결과들(132)로부터 특징들(추출된 특징들(134))을 추출한다. 이 실시예에서, 특징들은 제1로 등급매겨진 검색 결과(132)로부터 추출된다. 각각의 검색되고 파스된 검색 결과(132)에 대해, 분류 모듈(114)은 추출된 특징들(134)의 각각의 레코드에 다음 정보를 저장한다: URL, 결과 표제, 짧은 설명 및/또는 질의 용어의 컨텍스트들, 및 검색된 검색 결과(132)를 얻기 위해 사용되는 검색 질의(128). 다음, 분류 모듈(114)은 차원을 토큰화하고 감소시키고, 낮은 FOO 질의 용어들(122)로부터 유도된 추출된 특징들(134)을 정규화하여 용어 벡터들(136)을 생성한다. 그 다음, 분류 모듈(114)은 질의 용어들을 클러스터들(138)의 각각의 집합으로 클러스터링한다. 이 클러스터링 동작은 훈련된 분류기(140)(높은 FOO 질의 용어들(120)로부터 생성됨)를 사용하여 수행된다.

분류 모듈(114)은 이들 확장된 용어 클러스터들(낮은 FOO 질의 용어들(122)에 기초하여 생성됨)의 관점으로 최종 사용자가 제출한 용어/구문(108)을 평가하여 최종 사용자에게 한 개 이상의 제안된 용어 리스트들(110)을 식별하여 반환한다. 그런 과정의 예는 상술된 문단[0032]과 문단[0033], 및 다음 섹션에서 기재된다.

<과정의 예>

도 2는 복수-의미 질의에 대한 관련 용어 제안을 위한 과정(200)의 예를 도시한다. 논의 목적으로, 과정의 동작들은 도 1의 컴포넌트들에 관련하여 논의된다. (모든 참조 부호들은 컴포넌트가 처음 나타난 도면 번호로 시작함) 블럭(202)에서, 검색 용어 제안(STS) 모듈(112)(도 1)은 질의 로그(120)로부터 이력의 질의 용어들(116)을 수집한다. STS 모듈(112)은 이력의 질의 용어들(116)을 FOO의 함수로서 구성한다. 블럭(204)에서, STS 모듈(112)은 검색 엔진(132)에게 높은 FOO 질의 용어들(120)을 전송하여, 대응하는 검색 결과들(130)을 수신한다. 블럭(206)에서, STS 모듈(112)은 각각의 검색 결과(130)로부터 단편 설명들을 추출하고, 단편 설명들(추출된 특징들(134))을 병합하여 용어 벡터들(136)을 형성한다. 각각의 용어 벡터(136)는 각각의 높은 FOO 질의 용어(120)에 대해 생성된다.

블럭(208)에서, STS 모듈(112)은 클러스터링 알고리즘을 적용하여 용어 벡터들(136)에 기초하여 거의 유사한 용어들을 용어 클러스터들(138)에 집단화한다. 블럭(210)에서, 최종 사용자로부터의 용어/구문(108)의 수신에 응답하여, STS 모듈(112)은 용어/구문(108)에 크게 유사하도록 결정된 용어 클러스터들(138)의 임의의 핵심어/핵심구문으로부터 제안된 용어 리스트(110)를 생성한다. 블럭(212)에서, STS 모듈(112)은 핵심어 클러스터들(138)로부터 임의의 핵심어/구문이 용어/구문(108)에 크게 유사하도록 결정되는지를 판정한다. 그렇다면, 과정은 블럭(214)에서 계속하고, 여기서 STS 모듈(112)은 최종 사용자에게 제안된 용어 리스트(110)를 전송한다. 그렇지 않으면, 페이지 위의 참조 "A"로 표현된 바와 같이, 과정은 도 3의 블럭(302)에서 계속한다.

도 3은 복수-의미 질의에 대해 관련 용어 제안을 위한 과정(300)의 예를 도시한다. 과정(300)의 동작들은 도 2의 과정(200)의 동작들에 기초한다. 논의 목적으로, 과정의 동작들은 도 1의 컴포넌트들에 관련되어 논의된다. (모든 참조 부호들은 컴포넌트들이 처음 나타난 도면 번호로 시작함) 블럭(302)에서, STS 모듈(112)은 이 시점에 높은 FOO 질의 용어들(120)에 기초하는 용어 클러스터들(138)로부터 분류기(140)를 생성한다. 블럭(304)에서, STS 모듈(112)은 검색 엔진(132)에게 낮은 FOO 질의 용어들(122)을 하나씩 전송하여, 대응하는 검색 결과들(130)을 수신한다. 블럭(306)에서, STS 모듈(112)은 검색 결과들(130)로부터 단편 설명들(추출된 특징(134))을 추출하고, 그들로부터 용어 벡터들(136)을 생성한다. 블럭(308)에서, STS 모듈(112)은 훈련된 분류기(140)의 관점에서 낮은 FOO 질의 용어들(122)로부터 생성된 용어 벡터들(136)을 분류하여 낮은 FOO 질의 용어들에 기초하여 각각의 용어 클러스터들(138)을 생성한다.

블럭(310)에서, STS 모듈(112)은 용어/구문(108)에 크게 유사한 것으로 결정된 낮은 FOO 질의 용어들(122)에 기초하여 용어 클러스터들(138)로부터의 핵심어/핵심구문으로부터 제안된 용어 리스트(110)를 생성한다. 블럭(312)에서, STS 모듈(112)은 최종 사용자에게 제안된 용어 리스트(110)를 전송한다.

<운영 환경의 예>

도 4는 복수-의미 질의에 대한 관련 용어 제안을 위한 도 1의 시스템(100)과 도 2 내지 도 3의 방법이 완전히 또는 부분적으로 구현될 수 있는 적합한 컴퓨팅 환경(400)의 예를 도시한다. 컴퓨팅 환경(400)의 예는 적합한 컴퓨팅 환경의 단지 일 예일뿐이고, 본 명세서에 기재된 시스템 및 방법의 사용이나 기능의 범위에 대해 임의의 제한을 제안하려는 의도는 아니다. 컴퓨팅 환경(400)은 컴퓨팅 환경(400)에서 도시된 컴포넌트들 중의 임의의 것이나 조합에 관련된 임의의 종속성이나 요구사항을 갖는 것으로 해석되어서는 안된다.

본 명세서에서 기재된 방법 및 시스템은 다수의 다른 일반 목적 또는 특수 목적 컴퓨팅 시스템 환경이나 구성과 동작된다. 사용하기에 적합할 수 있는 잘 공지된 컴퓨팅 시스템, 환경, 및/또는 구성의 예들은 개인용 컴퓨터, 서버 컴퓨터, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 통신망 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상술된 시스템이나 디바이스 중의 임의의 것을 포함하는 분산 컴퓨팅 환경, 및 기타등등을 포함하지만, 이에 제한되지는 않는다. 프레임워크의 컴팩트 또는 부분집합 버젼들은 또한 핸드헬드 컴퓨터들이나 기타 컴퓨팅 디바이스들과 같은 제한된 자원들의 클라이언트들에 구현될 수 있다. 본 발명은 통신망을 통해 링크된 원격 처리 디바이스들에 의해 수행되는 분산 컴퓨팅 환경에서 실시된다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 로컬 및 원격 메모리 저장 디바이스들 모두에 위치될 수 있다.

도 4를 참조하면, 복수-의미 질의에 대한 관련 용어 제안을 위한 시스템의 예는 컴퓨터(410)의 형태로 일반 목적 컴퓨팅 디바이스를 포함한다. 다음 기재된 컴퓨터(410)의 양태들은 클라이언트 컴퓨팅 디바이스 PSS 서버(102)(도 1) 및/또는 클라이언트 컴퓨팅 디바이스(106)의 구현의 예이다. 컴퓨터(410)의 컴포넌트들은 처리 장치(들)(420), 시스템 메모리(430), 및 처리 장치(420)로 시스템 메모리를 포함하는 다양한 시스템 컴포넌트들을 결합하는 시스템 버스(421)를 포함할 수 있지만, 이에 제한되는 것은 아니다. 시스템 버스(421)는 메모리 버스나 메모리 제어기, 주변 버스, 및 다양한 버스 아키텍쳐들 중의 임의의 것을 사용하는 로컬 버스를 포함하는 여러 유형들의 버스 구조들 중의 임의의 것일 수 있다. 예를 들어, 그런 아키텍쳐들은 산업 표준 아키텍쳐(ISA) 버스, 마이크로 채널 아키텍쳐(MCA) 버스, 개선된 ISA(EISA) 버스, 비디오 전자 표준 학회(VESA) 로컬 버스, 및 메자닌 버스라고도 알려진 주변 컴포넌트 상호연결(PCI) 버스를 포함할 수 있지만, 이에 제한되지는 않는다.

컴퓨터(410)는 통상적으로 다양한 컴퓨터-판독가능 매체를 포함한다. 컴퓨터-판독가능 매체는 컴퓨터(410)에 의해 액세스가능한 임의의 이용가능한 매체일 수 있고, 휘발성과 비휘발성, 분리형과 비분리형 매체를 모두 포함한다. 예를 들어, 컴퓨터-판독가능 매체는 컴퓨터 저장 매체와 통신 매체를 포함할 수 있지만, 이에 제한되지는 않는다. 컴퓨터 저장 매체는 컴퓨터-판독가능 명령어, 데이타 구조, 프로그램 모듈, 또는 기타 데이타와 같은 정보 저장을 위한 임의의 방법이나 기술로 구현되는 휘발성과 비휘발성, 분리형과 비분리형 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리나 기타 메모리 기술, CD-ROM, 디지탈 다용도 디스크(DVD)나 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치나 다른 자기 저장 디바이스, 또는 원하는 정보를 저장하기 위해 사용될 수 있고 컴퓨터(410)에 의해 액세스가능한 임의의 다른 매체를 포함하지만, 이에 제한되는 것은 아니다.

통신 매체는 통상적으로 컴퓨터-판독가능 명령어, 데이타 구조, 프로그램 모듈, 또는 반송파나 기타 전송 메카니즘과 같은 변조 데이타 신호의 기타 데이타를 구현하고, 임의의 정보 전달 매체를 포함한다. "변조 데이터 신호"라는 용어는 신호에서 정보 인코딩을 위한 방식에서 그것의 한 개 이상의 특징이 설정되거나 변경된 신호를 의미한다. 예를 들어, 통신 매체는 유선 통신망이나 직접 유선 접속과 같은 유선 매체, 및 음향, RF, 적외선, 및 기타 무선 매체와 같은 무선 매체를 포함하지만, 이에 제한되지는 않는다. 상술된 것들 중의 임의의 것의 조합들은 또한 컴퓨터-판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(430)는 읽기용 메모리(ROM)(431)와 랜덤 액세스 메모리(RAM)(432)와 같은 휘발성 및/또는 비휘발성 메모리의 형태로 컴퓨터 저장 매체를 포함한다. 스타트업과 같은 동안에, 컴퓨터(410) 내의 소자들 간에 정보 전송을 돕는 기본 루틴들을 포함하는 기본 입/출력 시스템(BIOS)(433)은 통상적으로 ROM(431)에 저장된다. RAM(432)은 통상적으로 즉시 액세스가능하고 및/또는 처리 장치(420)에 의해 현재 동작 중인 데이타 및/또는 프로그램 모듈들을 포함한다. 예를 들어, 도 4는 운영 시스템(434), 응용 프로그램들(435), 기타 프로그램 모듈들(436), 및 프로그램 데이타(437)를 도시하지만, 이에 제한되지는 않는다. 일 실시예에서, 컴퓨터(410)는 PSS 서버(102)이다. 이 시나리오에서, 응용 프로그램들(435)은 검색 용어 제안 모델(112) 및 분류 모델(114)을 포함한다. 이 동일 시나리오에서, 프로그램 데이터(437)는 용어/구문(108), 제안된 용어 리스트(110), 이력의 질의들(116), 검색 질의(128), 검색 결과(130), 검색 결과들(132), 추출된 특징들(134), 용어 벡터들(136), 핵심어 클러스터들(138), 훈련된 분류기(140), 및 기타 데이타(124)를 포함한다.

컴퓨터(410)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예를 들어, 도 4는 비분리형 비휘발성 자기 매체에 읽고 쓰는 하드 디스크 드라이브(441), 분리형 비휘발성 자기 디스크(452)에 읽고 쓰는 자기 디스크 드라이브(451), 및 CD-ROM이나 기타 광 매체와 같은 분리형 비휘발성 광 디스크(456)에 읽고 쓰는 광 디스크 드라이브(455)를 도시한다. 운영 환경의 예에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD, 디지탈 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 포함하지만, 이에 제한되지는 않는다. 하드 디스크 드라이브(441)는 통상적으로 인터페이스(440)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(421)에 접속되고, 자기 디스크 드라이브(451)와 광 디스크 드라이브(455)는 통상적으로, 인터페이스(450)와 같은, 분리형 메모리 인터페이스에 의해 시스템 버스(421)로 접속된다.

위에 논의되고 도 4에 도시된 드라이브들과 그들의 연관된 컴퓨터 저장 매체는 컴퓨터-판독가능 명령어, 데이타 구조, 프로그램 모듈, 및 컴퓨터(410)에 대한 기타 데이타의 저장을 제공한다. 도 4에서, 예를 들어, 하드 디스크 드라이브(441)는 운영 시스템(444), 응용 프로그램들(445), 기타 응용 프로그램 모듈들(446), 및 프로그램 데이타(447)를 저장하는 것으로 도시된다. 이들 컴포넌트들은 운영 시스템(434), 응용 프로그램들(435), 기타 프로그램 모듈들(436), 및 프로그램 데이타(437)와 동일하거나 상이할 수 있음을 주목한다. 운영 시스템(444), 응용 프로그램들(445), 기타 프로그램 모듈들(446), 및 프로그램 데이타(447)는 본 명세서에서 다른 부호들이 주어져서 그들이 적어도 다른 복사본들임을 나타낸다.

사용자는 키보드(462), 및 일반적으로 마우스, 트랙볼, 또는 터치 패드라고 일컬어지는, 포인팅 디바이스와 같은 입력 디바이스들을 통해 컴퓨터(410)에 커맨드와 정보를 입력할 수 있다. 다른 입력 디바이스들(도시 안됨)로는 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 스캐너 등을 포함할 수 있다. 이들과 다른 입력 디바이스들은 종종 시스템 버스(421)에 결합된 사용자 입력 인터페이스(460)를 통해 처리 장치(420)에 접속되지만, 병렬 포트, 게임 포트, 또는 범용 직렬 버스(USB)와 같은, 다른 인터페이스와 버스 구조들로 접속될 수도 있다.

모니터(191) 또는 기타 유형의 디스플레이 디바이스는 또한, 비디오 인터페이스(490)와 같은, 인터페이스를 통해 시스템 버스(421)에 접속된다. 모니터에 추가하여, 컴퓨터들은 또한 출력 주변기기 인터페이스(495)를 통해 접속될 수 있는 스피커들(497) 및 프린터(496)와 같은 다른 주변 출력 디바이스들을 포함할 수 있다.

컴퓨터(410)는, 원격 컴퓨터(480)와 같은, 한 개 이상의 원격 컴퓨터들로의 논리 접속을 사용하여 통신망 환경에서 동작한다. 원격 컴퓨터(480)는 개인용 컴퓨터, 서버, 라우터, 통신망 PC, 피어 디바이스, 또는 기타 일반 통신망 노드일 수 있고, 단지 메모리 저장 디바이스(481)만이 도 4에 도시되었지만, 그것의 특정 구현의 함수로서, 컴퓨터(410)에 대해 상술된 소자들의 다수 또는 전체를 포함할 수 있다. 도 4에 도시된 논리 접속들은 구내 통신망(LAN)(471)과 광역 통신망(WAN)(473)을 포함하지만, 또한 다른 통신망들을 포함할 수 있다. 그런 통신망 환경은 사무실, 기업체-기반 컴퓨터망, 인트라넷, 및 인터넷에서 일반적이다.

LAN 통신망 환경에서 사용될 때, 컴퓨터(410)는 통신망 인터페이스나 어댑터(470)를 통해 LAN(171)에 접속된다. WAN 통신망 환경에서 사용될 때, 컴퓨터(410)는 통상적으로, 인터넷과 같은, WAN(473)을 통해 통신을 개설하는 모뎀(472)이나 기타 수단을 포함한다. 내장이나 외장일 수 있는 모뎀(472)은 사용자 입력 인터페이스(460) 또는 기타 적합한 메카니즘을 통해 시스템 버스(421)에 접속될 수 있다. 통신망 환경에서, 컴퓨터(410), 또는 그것의 일부,에 관련되어 도시된 프로그램 모듈들은 원격 메모리 저장 디바이스에 저장될 수 있다. 예를 들어, 도 4는 원격 응용 프로그램들(485)을 메모리 디바이스(481)에 존재하는 것으로 도시한다. 도시된 통신망 접속은 예이고, 컴퓨터들 간에 통신 링크를 개설하는 다른 수단이 사용될 수 있다.

복수-의미 질의에 대한 관련 용어 제안을 위한 시스템 및 방법은 언어에 고유하게 구조 특징들 및/또는 방법적 동작들이나 액션들로 기재되었지만, 첨부된 청구범위에서 정의된 구현들은 기재된 특정 특징들 또는 액션들에 제한될 필요는 없음을 이해할 것이다. 따라서, 특정 특징들과 액션들은 청구되는 내용을 구현하는 형태의 예들로서 개시되었다.

객체로부터 용어/구문의 수신에 응답하여, 용어/구문은 용어 클러스터들에서 용어들/구문들의 관점에서 평가되어 한 개 이상의 관련 용어 제안들을 식별하는 방법 및 시스템이 개시된다. 각각의 용어 벡터는 검색 엔진에 이전에 제시된 높은 FOO 이력의 질의들의 집합과 연관된 검색 결과들로부터 생성된다. 일 양태에서, 용어 클러스터들은 용어 벡터들의 계산된 유사성의 함수로서 생성된다.

Claims

관련 용어 제시를 위한 컴퓨터 구현 방법으로서 - 상기 방법은 컴퓨팅 디바이스에 의해 수행됨 -,

복수 의미 질의(multi-sense query)를 통해 검색 결과들을 마이닝(mining)하는 단계 - 상기 복수 의미 질의는,

제출된 용어들 또는 구문들에 의미상 관련된 용어들 또는 구문들을 결정하는 단계 - 의미상 관계들은 의미를 결정하기 위해 용어들 또는 구문들의 문맥(context)을 마이닝함으로써 발견됨 -;

임계 FOO(frequency of occurrence) 값을 구성하는 단계;

상기 구성된 임계 FOO 값에 기초하여 높은 FOO 또는 낮은 FOO에 이력 질의들(historical queries)을 할당하는 단계 - 상기 높은 FOO는 상기 구성된 임계 FOO 값 이상인 FOO 값을 나타내고, 상기 낮은 FOO는 상기 구성된 임계 FOO 값 미만인 FOO 값을 나타냄 -;

검색 엔진에 이미 제출된 높은 FOO 이력 질의들의 집합과 관련된 검색 결과들로부터 용어 벡터들을 생성하는 단계; 및

용어 벡터들의 계산된 유사성(similarity)의 함수로서 용어 클러스터들을 생성하는 단계 - 계산된 유사성인, sim(q_j, q_k)는, 다음식과 같이 정해지는데,

;

여기서, d는 벡터 차원(vector dimension)을 나타내고, q는 쿼리를 나타내고, k는 차원 인덱스이고,
번째 벡터의
번째 용어에 대한 가중치
는 다음식에서 계산되고,

;

여기서,
는 용어 빈도수를 나타내고,
은 질의 용어들의 총 수이고,
는 상기
번째 벡터의
번째 용어를 포함하는 추출된 특징 레코드들의 수임 - 를 포함함 -;

객체(entity)로부터 용어 또는 구문의 수신에 응답하여, 한 개 이상의 관련 용어 제시를 식별하기 위해 상기 용어 클러스터들의 용어들 또는 구문들을 고려하여 상기 복수 의미 질의를 통해 상기 용어 또는 구문을 평가하는 단계 - 상기 식별은 FOO와 신뢰도 값의 조합에 기초함 -; 및

상기 FOO와 신뢰도 값의 조합에 의해 순서화된 적어도 하나의 제시된 용어 리스트를 반환하는 단계 - 복수개의 제시된 용어 리스트는 상기 용어 또는 구문이 둘 이상의 용어 클러스터 내의 용어들과 매치하는 경우에 생성됨 -

를 포함하는 컴퓨터 구현 방법.
제1항에 있어서,

질의 로그(log)로부터 이력의 질의 용어들을 수집하는 단계; 및

상기 이력의 질의 용어들 중 높은 FOO를 갖는 질의 용어들을 결정하는 단계

를 더 포함하는 컴퓨터 구현 방법.
제1항에 있어서, 상기 평가하는 단계는,

상기 용어 또는 구문과 한 개 이상의 용어 클러스터로부터의 용어(들) 또는 구문(들) 간의 매치를 식별하는 단계; 및

상기 식별하는 단계에 응답하여, 상기 용어(들) 또는 구문(들)을 포함하는 관련 용어 제시(들)를 생성하는 단계

를 더 포함하는 컴퓨터 구현 방법.
제1항에 있어서, 상기 용어 클러스터들을 생성하는 단계는,

상기 검색 결과들을 얻기 위해 상기 검색 엔진에게 상기 높은 FOO 이력 질의들 중 각각의 질의를 전송하는 단계;

상기 각각의 질의에 대응하는 검색 결과들의 적어도 부분집합으로부터 특징들을 추출하는 단계; 및

상기 특징들로부터 상기 용어 벡터들을 상기 용어 및 반전된(inverted) 문서 빈도수들의 함수로서 생성하는 단계

를 더 포함하는 컴퓨터 구현 방법.
제1항에 있어서, 상기 용어 클러스터들은 용어 클러스터들의 제1 집합이고,

상기 컴퓨터 구현 방법은,

상기 용어 또는 구문과 상기 용어들 또는 구문들 간의 매치가 없음을 결정하는 단계; 및

상기 결정하는 단계에 응답하여,

용어 벡터들의 계산된 유사성으로부터 용어 클러스터들의 제2 집합을 구성하는 단계 - 각각의 용어 벡터는 상기 검색 엔진에 이전에 제출된 낮은 FOO 이력 질의들의 집합과 연관된 검색 결과들로부터 생성됨 -; 및

한 개 이상의 관련 용어 제시를 식별하기 위해 용어 클러스터들의 상기 제2 집합의 용어들 또는 구문들을 고려하여 상기 용어 또는 구문을 평가하는 단계

를 더 포함하는 컴퓨터 구현 방법.
컴퓨팅 디바이스에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금 방법을 수행하게 하는 컴퓨터 실행가능 명령어들을 저장하는 유형의(tangible) 컴퓨터 판독가능 데이터 저장 매체로서, 상기 방법은,

복수 의미 질의를 통해 검색 결과들을 마이닝하는 단계 - 상기 복수 의미 질의는,

제출된 용어들 또는 구문들에 의미상 관련된 용어들 또는 구문들을 결정하는 단계 - 의미상 관계들은 의미를 결정하기 위해 용어들 또는 구문들의 문맥을 마이닝함으로써 발견됨 -;

임계 FOO(frequency of occurrence) 값을 구성하는 단계;

상기 구성된 임계 FOO 값에 기초하여 높은 FOO 또는 낮은 FOO에 이력 질의들을 할당하는 단계 - 상기 높은 FOO는 상기 구성된 임계 FOO 값 이상인 FOO 값을 나타내고, 상기 낮은 FOO는 상기 구성된 임계 FOO 값 미만인 FOO 값을 나타냄 -;

검색 엔진에 이미 제출된 높은 FOO 이력 질의들의 집합과 관련된 검색 결과들로부터 용어 벡터들을 생성하는 단계; 및

용어 벡터들의 계산된 유사성의 함수로서 용어 클러스터들을 생성하는 단계 - 계산된 유사성인, sim(q_j, q_k)는, 다음식과 같이 정해지는데,

;

여기서, d는 벡터 차원을 나타내고, q는 쿼리를 나타내고, k는 차원 인덱스이고,
번째 벡터의
번째 용어에 대한 가중치
는 다음식에서 계산되고,

;

여기서,
는 용어 빈도수를 나타내고,
은 질의 용어들의 총 수이고,
는 상기
번째 벡터의
번째 용어를 포함하는 추출된 특징 레코드들의 수임 - 를 포함함 -;

객체(entity)로부터 용어 또는 구문의 수신에 응답하여, 한 개 이상의 관련 용어 제시를 식별하기 위해 상기 용어 클러스터들의 용어들 또는 구문들을 고려하여 상기 복수 의미 질의를 통해 상기 용어 또는 구문을 평가하는 단계 - 상기 식별은 FOO와 신뢰도 값의 조합에 기초함 -; 및

상기 FOO와 신뢰도 값의 조합에 의해 순서화된 적어도 하나의 제시된 용어 리스트를 반환하는 단계 - 복수개의 제시된 용어 리스트는 상기 용어 또는 구문이 둘 이상의 용어 클러스터 내의 용어들과 매치하는 경우에 생성됨 -

를 포함하는 유형의 컴퓨터 판독가능 데이터 저장 매체.
제6항에 있어서, 상기 복수 의미 질의를 통해 상기 용어 또는 구문을 평가하는 단계는,

상기 용어 또는 구문과 한 개 이상의 용어 클러스터들로부터의 용어(들) 또는 구문(들) 간의 매치를 식별하는 단계; 및

상기 식별하는 단계에 응답하여, 상기 용어(들) 또는 구문(들)을 포함하는 관련 용어 제시(들)를 생성하는 단계

를 포함하는 유형의 컴퓨터 판독가능 데이터 저장 매체.
제6항에 있어서, 상기 용어 클러스터들은 용어 클러스터들의 제1 집합이고,

상기 방법은,

상기 용어 또는 구문과 상기 용어들 또는 구문들 간의 매치가 없음을 결정하는 단계; 및

상기 용어 또는 구문과 상기 용어들 또는 구문들 간의 매치가 없음을 결정하는 단계에 응답하여, 용어 벡터들의 계산된 유사성으로부터 용어 클러스터들의 제2 집합을 구성하는 단계 - 각각의 용어 벡터는 상기 검색 엔진에 이미 제출된 낮은 FOO 이력 질의들의 집합과 연관된 검색 결과들로부터 생성됨 -; 및 한 개 이상의 관련 용어 제시를 식별하기 위해 용어 클러스터들의 상기 제2 집합의 용어들 또는 구문들을 고려하여 상기 용어 또는 구문을 평가하는 단계

를 더 포함하는 유형의 컴퓨터 판독가능 데이터 저장 매체.
컴퓨팅 디바이스로서,

프로세서; 및

상기 프로세서에 결합된 메모리

를 포함하고,

상기 메모리는 상기 프로세서에 의해 실행가능한 컴퓨터 프로그램 명령어들을 포함하며,

상기 명령어들은,

복수 의미 질의를 통해 검색 결과들을 마이닝하는 명령어 - 상기 복수 의미 질의는,

제출된 용어들 또는 구문들에 의미상 관련된 용어들 또는 구문들을 결정하는 것 - 의미상 관계들은 의미를 결정하기 위해 용어들 또는 구문들의 문맥을 마이닝함으로써 발견됨 -;

임계 FOO(frequency of occurrence) 값을 구성하는 것;

상기 구성된 임계 FOO 값에 기초하여 높은 FOO 또는 낮은 FOO에 이력 질의들을 할당하는 것 - 상기 높은 FOO는 상기 구성된 임계 FOO 값 이상인 FOO 값을 나타내고, 상기 낮은 FOO는 상기 구성된 임계 FOO 값 미만인 FOO 값을 나타냄 -;

검색 엔진에 이미 제출된 높은 FOO 이력 질의들의 집합과 관련된 검색 결과들로부터 용어 벡터들을 생성하는 것; 및

용어 벡터들의 계산된 유사성의 함수로서 용어 클러스터들을 생성하는 것 - 계산된 유사성인, sim(q_j, q_k)는, 다음식과 같이 정해지는데,

;

여기서, d는 벡터 차원을 나타내고, q는 쿼리를 나타내고, k는 차원 인덱스이고,
번째 벡터의
번째 용어에 대한 가중치
는 다음식에서 계산되고,

;

여기서,
는 용어 빈도수를 나타내고,
은 질의 용어들의 총 수이고,
는 상기
번째 벡터의
번째 용어를 포함하는 추출된 특징 레코드들의 수임 - 을 포함함 -;

객체(entity)로부터 용어 또는 구문의 수신에 응답하여, 한 개 이상의 관련 용어 제시를 식별하기 위해 상기 용어 클러스터들의 용어들 또는 구문들을 고려하여 상기 복수 의미 질의를 통해 상기 용어 또는 구문을 평가하는 명령어 - 상기 식별은 FOO와 신뢰도 값의 조합에 기초함 -; 및

상기 FOO와 신뢰도 값의 조합에 의해 순서화된 적어도 하나의 제시된 용어 리스트를 반환하는 명령어 - 복수개의 제시된 용어 리스트는 상기 용어 또는 구문이 둘 이상의 용어 클러스터 내의 용어들과 매치하는 경우에 생성됨 -

를 포함하는 컴퓨팅 디바이스.
제9항에 있어서, 상기 평가하는 명령어는 상기 프로세서에 의해 실행가능한 컴퓨터 프로그램 명령어들을 포함하며,

상기 명령어들은,

상기 용어 또는 구문과 한 개 이상의 용어 클러스터들로부터의 용어(들) 또는 구문(들) 간의 매치를 식별하는 명령어; 및

상기 식별하는 것에 응답하여, 상기 용어(들) 또는 구문(들)을 포함하는 관련 용어 제시(들)를 생성하는 명령어

를 포함하는 컴퓨팅 디바이스.
제9항에 있어서, 상기 용어 클러스터들을 생성하는 것은 상기 프로세서에 의해 실행가능한 컴퓨터 프로그램 명령어들을 더 포함하며,

상기 명령어들은,

상기 검색 결과들을 얻기 위해 상기 검색 엔진에 상기 높은 FOO 이력 질의들의 각각의 질의를 전송하는 명령어;

상기 각각의 질의에 대응하는 검색 결과들의 적어도 부분집합으로부터 특징들을 추출하는 명령어; 및

상기 특징들로부터 용어 벡터들을 용어와 반전된 문서 빈도수들의 함수로서 생성하는 명령어

를 포함하는 컴퓨팅 디바이스.
적어도 하나의 프로세서를 포함하는 컴퓨팅 디바이스로서,

복수 의미 질의를 통해 검색 결과들을 마이닝하는 수단 - 상기 복수 의미 질의는,

제출된 용어들 또는 구문들에 의미상 관련된 용어들 또는 구문들을 결정하는 수단 - 의미상 관계들은 의미를 결정하기 위해 용어들 또는 구문들의 문맥을 마이닝함으로써 발견됨 -;

임계 FOO(frequency of occurrence) 값을 구성하는 수단;

상기 구성된 임계 FOO 값에 기초하여 높은 FOO 또는 낮은 FOO에 이력 질의들을 할당하는 수단 - 상기 높은 FOO는 상기 구성된 임계 FOO 값 이상인 FOO 값을 나타내고, 상기 낮은 FOO는 상기 구성된 임계 FOO 값 미만인 FOO 값을 나타냄 -;

검색 엔진에 이미 제출된 높은 FOO 이력 질의들의 집합과 관련된 검색 결과들로부터 용어 벡터들을 생성하는 수단; 및

용어 벡터들의 계산된 유사성의 함수로서 용어 클러스터들을 생성하는 수단 - 계산된 유사성인, sim(q_j, q_k)는, 다음식과 같이 정해지는데,

;

여기서, d는 벡터 차원을 나타내고, q는 쿼리를 나타내고, k는 차원 인덱스이고,
번째 벡터의
번째 용어에 대한 가중치
는 다음식에서 계산되고,

;

여기서,
는 용어 빈도수를 나타내고,
은 질의 용어들의 총 수이고,
는 상기
번째 벡터의
번째 용어를 포함하는 추출된 특징 레코드들의 수임 - 을 포함함 -;

객체(entity)로부터 용어 또는 구문의 수신에 응답하여, 한 개 이상의 관련 용어 제시를 식별하기 위해 상기 용어 클러스터들의 용어들 또는 구문들을 고려하여 상기 복수 의미 질의를 통해 상기 용어 또는 구문을 평가하는 수단 - 상기 식별은 FOO와 신뢰도 값의 조합에 기초함 -; 및

상기 FOO와 신뢰도 값의 조합에 의해 순서화된 적어도 하나의 제시된 용어 리스트를 반환하는 수단 - 복수개의 제시된 용어 리스트는 상기 용어 또는 구문이 둘 이상의 용어 클러스터 내의 용어들과 매치하는 경우에 생성됨 -

을 더 포함하는 컴퓨팅 디바이스.
제12항에 있어서, 상기 평가하는 수단은,

상기 용어 또는 구문과 한 개 이상의 용어 클러스터들로부터의 용어(들) 또는 구문(들) 간의 매치를 식별하는 식별 수단; 및

식별에 응답하여, 상기 용어(들) 또는 구문(들)을 포함하는 관련 용어 제시(들)를 생성하는 생성 수단

을 더 포함하는 컴퓨팅 디바이스.
제12항에 있어서, 상기 용어 클러스터들을 생성하는 수단은,

상기 검색 결과들을 얻기 위해 상기 검색 엔진에게 상기 높은 FOO 이력 질의들의 각각의 질의를 전송하는 전송 수단;

상기 각각의 질의에 대응하는 검색 결과들의 적어도 부분집합으로부터 특징들을 추출하는 추출 수단; 및

상기 특징들로부터 용어 벡터들을 생성하는 생성 수단

을 더 포함하는 컴퓨팅 디바이스.
제12항에 있어서, 상기 용어 클러스터들은 용어 클러스터들의 제1 집합이고,

상기 컴퓨팅 디바이스는,

상기 용어 또는 구문과 상기 용어들 또는 구문들 간에 매치가 없음을 결정하는 결정 수단; 및

상기 결정에 응답하여,

용어 벡터들의 계산된 유사성으로부터 용어 클러스터들의 제2 집합을 구성하는 구성 수단 - 각각의 용어 벡터는 상기 검색 엔진에 이전에 제출된 낮은 FOO 이력 질의들의 집합과 연관된 검색 결과들로부터 생성됨 -; 및

한 개 이상의 관련 용어 제시를 식별하기 위해 용어 클러스터들의 상기 제2 집합의 용어들 또는 구문들을 고려하여 상기 용어 또는 구문을 평가하는 평가 수단

을 더 포함하는 컴퓨팅 디바이스.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제