KR102080362B1 - 쿼리 확장 - Google Patents

쿼리 확장 Download PDF

Info

Publication number
KR102080362B1
KR102080362B1 KR1020157001356A KR20157001356A KR102080362B1 KR 102080362 B1 KR102080362 B1 KR 102080362B1 KR 1020157001356 A KR1020157001356 A KR 1020157001356A KR 20157001356 A KR20157001356 A KR 20157001356A KR 102080362 B1 KR102080362 B1 KR 102080362B1
Authority
KR
South Korea
Prior art keywords
query
degree
target
similarity
target query
Prior art date
Application number
KR1020157001356A
Other languages
English (en)
Other versions
KR20150036117A (ko
Inventor
리 주
징 동
윤핑 후앙
Original Assignee
알리바바 그룹 홀딩 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알리바바 그룹 홀딩 리미티드 filed Critical 알리바바 그룹 홀딩 리미티드
Publication of KR20150036117A publication Critical patent/KR20150036117A/ko
Application granted granted Critical
Publication of KR102080362B1 publication Critical patent/KR102080362B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

본 개시는 예시적인 쿼리 확장 방법 및 시스템을 제공한다. 사용자에 의해 입력된 쿼리가 수신된다. 쿼리의 정규화된 쿼리가 그 쿼리에 따라서 결정된다. 정규화된 쿼리는 쿼리의 확장 용어로서 사용되어 쿼리 확장을 시행한다. 예를 들면, 사용자의 검색 로그에서 세션 정보가 획득된다. 단일 세션에서 출현하는 모든 쿼리가 획득되고 각 쿼리 마다 득표수가 계산되거나 카운트된다. 단일 쿼리와 타겟 쿼리 간의 득표 유사성이 결정되고 단일 쿼리와 타겟 쿼리 간의 상관 정도가 득표 유사성에 따라서 결정된다. 타겟 쿼리의 정규화된 쿼리는 상관 정도에 따라서 결정된다. 본 기술은 정확하게 쿼리를 확장하고 쿼리 시간을 줄이게 되어, 시스템 응답 속도 및 처리 효율을 개선한다.

Description

쿼리 확장{QUERY EXPANSION}
관련 특허 출원의 상호 참조
본 출원은 2012년 7월 20일, "Query Expansion Method and System (쿼리 확장 방법 및 시스템"이라는 명칭으로 출원한 중국 특허 출원 제 201210254810.0 호의 외국 우선권을 주장하며, 이 출원의 전체는 참조문헌으로 인용된다.
기술분야
본 개시는 컴퓨터 데이터 처리의 분야에 관한 것으로, 특히, 쿼리 확장 방법 및 시스템에 관한 것이다.
네트워크 기술의 발전에 따라, 검색 엔진이 연이어 개선되었으며 각종 정보가 이 검색 엔진을 통해 인터넷으로부터 구해질 수 있다. 검색 엔진은 사용자가 인터넷에서 신속하게 정보를 구하는데 도움을 주는 주요 방법 중 하나가 되고 있다. 사용자는 질의 용어(쿼리)를 검색 엔진에 제출하고, 이 검색 엔진은 쿼리에 대응하는 검색 결과를 사용자에게 반환한다.
전자 상거래 웹사이트에서, 더 특별하게는 대형 전자 상거래 웹사이트에서, 사용자는 보통 쿼리를 사용하여 그의/그녀의 희망하는 제품을 검색하고 찾아야 한다. 사용자에 의해 입력된 쿼리는 보통 사용자의 희망에 따라서 구성되므로, 쿼리에 대응하는 결과가 많거나 적어지는 결과를 가져올 수 있고, 그래서 검색 결과의 낮은 정확성과 빈번한 검색을 초래한다. 그래서, 검색 엔진은 보통 쿼리 정보를 풍부하게 하고 사용자에 의해 입력된 쿼리를 지능적으로 최적화하기 위해 쿼리를 확장하거나 재작성할 수 있으며, 그에 따라 검색 결과의 정확성을 개선함과 동시에 사용자에 의한 잦은 검색으로 인해 서버에 가해지는 압력이 줄어들게 된다.
통상의 쿼리 확장 방법은 쿼리 엔드(a query end)와 인덱스 엔드(an index end)에서 확장을 포함한다. 쿼리 엔드에서 확장은 주로 쿼리의 추가, 대체, 및 삭제를 포함한다. 즉, 특정한 문자나 특정한 부분이 사용자에 의해 입력된 쿼리로부터 추가되거나, 대체되거나 또는 삭제된다. 예를 들면, 만일 사용자에 의해 입력된 쿼리가 "노키아™ 모바일 폰"인 경우, 추가 동작은 쿼리를 "노키아™ N95 모바일 폰"으로 변경하도록 쿼리에 적용할 수 있고, 삭제 동작은 쿼리를 "노키아™" 또는 "모바일 폰"으로 변경하도록 쿼리에 적용할 수 있고, 또는 대체 동작은 쿼리를 "삼성™ 모바일 폰" 또는 "애플™ 모바일 폰" 등으로 변경하도록 쿼리에 적용할 수 있다. 인덱스 엔드에서 확장은 주로 인덱스 엔드에서 쿼리의 동의어 확장을 말한다. 동의어 집합은 보통 통상의 데이터 마이닝(data mining)을 통해 구해진다. 어떤 용어가 출현할 때, 그의 동의어들이 확장을 위해 동의어 집합으로부터 추출된다. 검색 결과 및 쿼리의 정확성을 보장하기 위하여, 쿼리 엔드 및 인덱스 엔드에서 동시적인 확장이 채택될 수 있다. 다시 말해서, 쿼리는 쿼리 엔드 및 인덱스 엔드 양쪽에서 각기 확장되며, 동일한 확장 용어에 대응하는 결과는 확장 결과로서 선택된다.
실제 처리 동안, 검색 엔진은 보통 특정 시퀀스에 따라 검색하기 위해 쿼리 엔드에서 하나씩 확장 용어를 선택하고, 그 확장 용어를 인덱스 엔드에서 확장 용어와 매치시키고, 만일 확장 용어들 사이에서 매치가 있다면 그 확장 용어의 검색 결과를 반환할 수 있다. 이러한 프로세스 동안, 쿼리 엔드에서는 복수의 확장 용어가 있지만 인덱스 엔드에서는 하나의 확장 용어만이 있는 일이 가능하다. 그래서, 시퀀스에 따라서, 쿼리 엔드에서 마지막 확장 용어는 인덱스 엔드에서 쿼리 용어와 매치한다. 검색 엔진은 쿼리 엔드에서 마지막 확장 용어가 인덱스 엔드에서 확장 용어와 매치할 때까지 복수 회 검색하여야 한다. 따라서, 검색 엔진의 무효한 검색 시간 뿐만 아니라 시스템이 검색 결과를 반환하는 시간이 증가되고, 시스템 응답 속도가 줄어들며, 시스템 자원 점유율이 늘어난다.
이 요약은 아래의 상세한 설명에서 추가 설명되는 개념들 중 선택된 개념을 간략한 형태로 소개하기 위해 제공된다. 이 요약은 청구된 주제의 모든 주요 특징 또는 본질적인 특징을 식별하려는 것도 아니고, 청구된 주제의 범위를 결정하는데 도움으로서만 사용되게 하려는 것도 아니다. 예를 들면 "기술"이라는 용어는 본 개시의 앞부분과 전체의 맥락에 의해 용인되는 것으로서 장치(들), 시스템(들), 방법(들) 및/또는 컴퓨터-판독가능한 명령어를 말할 수 있다.
본 개시는 쿼리 확장 방법 및 시스템을 제공한다. 예를 들면, 본 기술은 검색 엔진에 의해 쿼리를 반복하여 검색하고 매치시키는 것 때문에 발생하는, 시스템 응답 속도 및 효율에도 영향을 주는 과도한 검색 시간 및 시스템 자원 점유 문제를 해결할 수 있다.
본 개시는 예시적인 쿼리 확장 방법을 기술한다. 사용자에 의해 입력된 쿼리가 수신된다. 쿼리의 정규화된 쿼리가 쿼리에 따라서 결정된다. 정규화된 쿼리는 쿼리의 확장 용어로서 사용되어 쿼리 확장을 시행한다.
쿼리의 정규화된 쿼리는 다음의 방법을 이용하여 결정될 수 있다. 사용자의 검색 로그에 있는 세션 정보가 획득된다. 단일의 세션에서 출현하는 모든 쿼리가 획득되며 각 쿼리마다 득표수가 계산되거나 카운트된다. 단일의 세션에서, 각 쿼리의 출현 시퀀스에 따라서, 특정 쿼리의 앞에 출현하는 임의의 쿼리는 (특정 쿼리에 대해) 하나의 득표로서 카운트된다.
단일 쿼리와 타켓 쿼리 간의 득표 유사성 정도는 모든 세션에서 타겟 쿼리의 총 득표수 및 타켓 쿼리에 대한 단일 쿼리의 득표수에 따라서 결정된다. 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도에 따라서 결정된다. 타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 결정된다.
예를 들면, 모든 세션에서 타겟 쿼리의 총 득표수는 다음과 같이 계산되거나 카운트된다. 타겟 쿼리를 포함하는 하나 이상의 세션이 획득된다. 각각의 세션에서 타겟 쿼리의 득표수가 카운트된다. 각각의 세션에서 득표수가 누적되어 타겟 쿼리의 총 득표수를 획득한다.
예를 들면, 타겟 쿼리에 대한 단일 쿼리의 득표수는 다음과 같이 계산되거나 카운트된다. 단일 쿼리 및 타겟 쿼리를 포함하는 하나 이상의 세션이 획득된다. 단일 쿼리가 각각의 세션에서 타겟 쿼리에 득표를 제공하는지의 여부가 결정된다. 만일 결정 결과가 긍정이면, 각각의 세션이 선택된다. 선택된 세션의 개수가 계산되어 타겟 쿼리에 대한 단일 쿼리의 득표수를 획득한다.
예를 들면, 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도는 다음과 같이 결정될 수 있다. 타겟 쿼리에 대한 단일 쿼리의 총 득표수 대 (단일 제품에 대해) 타겟 쿼리에 대한 모든 쿼리의 총 득표 점수의 비율을 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도로서 사용한다.
다른 예로, 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도는 또한 다음과 같이 결정될 수 있다. 타겟 쿼리에 대한 각 득표의 가중치 및 기수(a base number)가 결정된다. 가중치 및 기수에 따라서 각 득표의 점수가 계산된다. 타겟 쿼리에 대한 단일 쿼리의 총 득표 점수 대 타겟 쿼리에 대한 모든 쿼리의 총 득표 점수의 비율은 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도로서 사용된다.
예를 들면, 타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 다음과 같이 결정될 수 있다. 정규화된 쿼리의 임계치가 설정된다. 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도의 값이 정규화된 쿼리의 임계치를 초과하면, 단일 쿼리가 타겟 쿼리의 정규화된 쿼리로서 결정된다.
다른 예로, 타겟 쿼리의 정규화된 쿼리는 또한 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 다음과 같이 결정될 수 있다. 정규화된 쿼리의 카테고리가 동의어 정규화된 쿼리, 상관 정규화된 쿼리, 및 확장 정규화된 쿼리로 분리된다. 세가지 카테고리의 값 범위가 상관 정도 값에 따라서 제각기 내림차순으로 설정된다. 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도가 속하는 값 범위에 상응하는 카테고리가 단일 쿼리 및 타겟 쿼리의 세부화된 카테고리로서 사용된다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 상관 정도가 득표 유사성 정도에 따라서 결정되기 전에, 이 방법은 다음과 같은 동작을 더 포함할 수 있다. 사용자의 검색 로그에 있는 검색 결과의 클릭 정보가 획득된다. 타겟 쿼리를 포함하는 검색 결과가 클릭 정보로부터 추출된다. 단일 쿼리와 타겟 쿼리 간의 클릭 유사성 정도가 타겟 쿼리를 포함하는 검색 결과의 총 클릭수 및 타겟 쿼리를 포함하면서 단일 쿼리에 상응하는 검색 결과의 총 클릭수에 따라서 결정된다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 클릭 유사성 정도에 따라서 결정된다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 클릭 유사성 정도에 따라서 다음과 같이 결정될 수 있다. 득표 유사성 정도와 클릭 유사성 정도 사이에서 더 큰 값이 타겟 쿼리와 타겟 쿼리 간의 상관 정도로서 사용된다.
대안으로, 득표 유사성 정도 및 클릭 유사성 정도의 가중치가 결정된다. 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 클릭 유사성 정도 뿐만 아니라 이들 각각의 가중치에 기초하여 하나 이상의 미리 정해진 규칙에 따라 계산된다.
예를 들면, 득표 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정하는 단계 이전에, 이 방법은 다음의 동작을 더 포함한다. 서버에 저장된 판매자 데이터가 획득된다. 판매자 데이터는 판매자가 제품을 설명할 때 정해진 제품 설명 정보를 포함한다. 판매자 데이터가 분석되고 쿼리 및 쿼리의 특성 용어가 판매자 데이터로부터 추출된다. 특성 유사성 정도는 단일 쿼리 및 타겟 쿼리의 특성 용어에 따라서 결정된다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 상관 정도는 다음과 같이 결정될 수 있다. 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 특성 유사성 정도에 따라서 결정될 수 있다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 특성 유사성 정도에 따라서 다음과 같이 결정될 수 있다. 각 특성 용어의 특성 값이 계산된다. 특성 값은 특성 용어 및 그의 상응하는 쿼리의 클릭 정보에 따라서 계산된다. 단일 쿼리와 타겟 쿼리 간의 특성 유사성 정도는 특성 값에 따라서 계산된다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정하는 단계 이전에, 본 방법은 다음의 동작을 더 포함할 수 있다. 단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성 정도 및/또는 카테고리 유사성 정도가 결정된다.
타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 다음과 같이 결정될 수 있다. 타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 시맨틱 유사성에 따라서 결정될 수 있다. 대안으로, 타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 카테고리 유사성에 따라서 결정될 수 있다. 대안으로, 타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도, 시맨틱 유사성, 및 카테고리 유사성에 따라서 결정될 수 있다.
예를 들면, 단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성의 결정은 다음 동작을 포함할 수 있다. 단일 쿼리와 타겟 쿼리 간의 편집 거리가 결정된다. 편집 거리는 하나의 용어에서 다른 용어로 변환하는 최소 개수의 편집 동작을 말한다. 편집 거리는 정규화되어 상관 정도와 동일한 양적 수준을 갖는 시맨틱 유사성 정도를 획득한다.
본 개시는 또한 예시적인 쿼리 확장 시스템을 제공한다. 시스템은 쿼리 입력 모듈, 정규화된 쿼리 결정 모듈, 및 쿼리 확장 모듈을 포함할 수 있다.
쿼리 입력 모듈은 사용자에 의해 입력된 쿼리를 획득한다. 정규화된 쿼리 결정 모듈은 쿼리에 따라서 쿼리의 정규화된 쿼리를 결정한다. 쿼리 확장 모듈은 정규화된 쿼리를 쿼리의 확장 용어로서 사용하여 쿼리 확장을 시행한다.
정규화된 쿼리 결정 모듈은 세션 정보 획득 모듈, 쿼리 득표 계산 모듈, 득표 유사성 정도 결정 모듈, 상관 정도 결정 모듈, 및 정규화된 쿼리 결정 모듈을 포함할 수 있다.
세션 정보 획득 모듈은 사용자의 검색 로그로부터 세션 정보를 획득한다.
쿼리 득표 계산 모듈은 단일 세션에서 출현하는 모든 쿼리를 획득하고, 각 쿼리마다 득표를 카운트한다. 단일 세션에서, 각 쿼리의 출현 시퀀스에 따라서, 특정 쿼리 앞에 출현하는 임의의 쿼리는 (특정 쿼리에 대해) 하나의 득표로서 카운트된다.
득표 유사성 정도 결정 모듈은 모든 세션에서 타겟 쿼리의 총 득표수 및 타겟 쿼리에 대한 단일 쿼리의 득표수에 따라서 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도를 결정한다.
상관 정도 결정 모듈은 득표 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정한다.
정규화된 쿼리 결정 모듈은 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정한다.
예를 들면, 득표 유사성 정도 결정 모듈은 기수 및 가중치 결정 유닛, 점수 계산 유닛, 비율 계산 유닛을 포함할 수 있다. 기수 및 가중치 결정 유닛은 타겟 쿼리에 대하여 각 득표의 가중치 및 기수를 결정한다. 점수 계산 유닛은 가중치 및 기수에 따라서 각 득표의 점수를 계산한다. 비율 계산 유닛은 타겟 쿼리에 대한 단일 쿼리의 총 득표 점수 대 타겟 쿼리에 대한 모든 쿼리의 총 득표 점수의 비율을 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도로서 사용한다.
예를 들면, 정규화된 쿼리 결정 모듈은 정규화된 쿼리의 임계치를 설정하고 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도 값이 정규화된 쿼리의 임계치를 초과하는 경우 단일 쿼리를 타겟 쿼리의 정규화된 쿼리로서 결정하는 정규화된 쿼리 임계치 설정 유닛을 포함할 수 있다.
다른 예로, 정규화된 쿼리 결정 모듈은 정규화된 쿼리 카테고리 분류 유닛, 값 범위 설정 유닛, 및 카테고리 결정 유닛을 포함할 수 있다. 정규화된 쿼리 카테고리 분류 유닛은 정규화된 쿼리 카테고리를 동의어 정규화된 쿼리, 상관 정규화된 쿼리, 및 확장 정규화된 쿼리로 분리한다.
값 범위 설정 유닛은 세 가지 카테고리의 값 범위를 상관 정도 값에 따라서 내림차순으로 설정한다.
카테고리 결정 유닛은 단일 쿼리와 타겟 쿼리 간의 상관 정도가 속하는 값 범위에 상응하는 카테고리를 단일 쿼리 및 타겟 쿼리의 세부화된 카테고리로서 결정한다.
예를 들면, 정규화된 쿼리 결정 모듈은 클릭 정보 획득 모듈, 검색 결과 추출 모듈, 및 클릭 유사성 정도 결정 모듈을 포함할 수 있다. 클릭 정보 획득 모듈은 사용자의 검색 로그로부터 검색 결과의 클릭 정보를 획득한다. 검색 결과 추출 모듈은 클릭 정보로부터 타겟 쿼리를 포함하는 검색 결과를 추출한다. 클릭 유사성 정도 결정 모듈은 타겟 쿼리를 포함하는 검색 결과의 총 클릭 수 및 타겟 쿼리를 포함하면서 단일 쿼리에 상응하는 검색 결과의 총 클릭 수에 따라서 단일 쿼리와 타겟 쿼리 간의 클릭 유사성 정도를 결정한다. 상관 정도 결정 모듈은 득표 유사성 정도 및 클릭 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정한다.
예를 들면, 정규화된 쿼리 결정 모듈은 또한 판매자 데이터 획득 모듈, 데이터 분석 모듈, 및 특성 유사성 정도 결정 모듈을 더 포함할 수 있다.
판매자 데이터 획득 모듈은 서버에 저장된 판매자 데이터를 획득한다. 판매자 데이터는 판매자가 제품을 설명할 때 정해진 제품 설명 정보를 포함한다.
데이터 분석 모듈은 판매자 데이터를 분석하고 판매자 데이터로부터 쿼리뿐만 아니라 쿼리의 특성 용어를 추출한다. 특성 유사성 정도 결정 모듈은 단일 쿼리 및 타겟 쿼리의 특성 용어에 따라서 특성 유사성을 결정한다. 상관 정도 결정 모듈은 득표 유사성 정도 및 특성 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정한다.
예를 들면, 특성 유사성 정도 결정 모듈은 각 특성 용어의 특성 값 및 특성 값에 따라서 단일 쿼리와 타겟 쿼리 간의 특성 유사성을 계산하는 특성 값 계산 유닛을 포함할 수 있다. 특성 값은 특성 용어 및 그의 상응하는 쿼리의 클릭 정보에 따라서 계산된다.
다른 예로, 정규화된 쿼리 결정 모듈은 또한 단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성 정도 및/또는 카테고리 유사성 정도를 각기 결정하는 시맨틱 유사성 정도 결정 모듈 및/또는 카테고리 유사성 정도 결정 모듈을 포함할 수 있다.
정규화된 쿼리 결정 모듈은 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 시맨틱 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정한다. 대안으로, 정규화된 쿼리 결정 모듈은 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 카테고리 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정한다. 대안으로, 정규화된 쿼리 결정 모듈은 단일 쿼리와 타겟 쿼리 간의 상관 정도, 시맨틱 유사성 정도, 및 카테고리 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정한다.
예를 들면, 시맨틱 유사성 정도 결정 모듈은 편집 거리 결정 유닛 및 정규화 처리 유닛을 포함할 수 있다. 편집 거리 결정 유닛은 단일 쿼리와 타겟 쿼리 간의 편집 거리를 결정한다. 편집 거리는 하나의 용어를 다른 용어로 변환하는 최소 개수의 편집 동작을 말한다. 정규화 처리 유닛은 편집 거리를 정규화하여 상관 정도와 동일한 양적 수준을 갖는 시맨틱 유사성 정도를 획득한다.
본 개시의 쿼리 확장 방법 및 시스템은 사용자의 검색 로그 내 세션 정보를 활용함으로써 쿼리를 정규화하며, 동일하거나 유사한 의미를 가진 쿼리를 동일하거나 유사한 쿼리로서 취급한다. 쿼리를 획득한 후, 본 기술은 쿼리를 자동으로 정규화하고 동시에 검색을 확장할 수 있으며, 검색 결과의 범위를 증가시킬 때 동시에 검색 결과의 정확도를 보장할 수 있다. 본 기술은 사용자의 검색 로그 내 세션 정보를 이용하여 정규화를 수행하고, 각 세션에 포함된 쿼리를 추출하며, 쿼리의 시퀀스에 따라서 사용자 행위를 분석함으로써, 검색 중에 각 사용자의 쿼리 변경 프로세스를 획득할 수 있다. 단일 세션은 더 짧고 연속하는 시간 내에 사용자 검색 정보를 기록하므로, 단일 세션에서 쿼리들 간의 상관 정도가 커질 수 있다. 그러므로, 확장된 쿼리 처리는 세션 정보의 그러한 특성에 기초하여 처리되어 정규화 처리 효과를 개선하고 정규화 이후 두 쿼리들 간의 충분히 높은 상관 정도를 보장하게 되어, 최종 검색 결과의 정확성을 보장하고 검색 시간을 줄일 수 있다. 따라서, 시스템 자원 점유율이 줄어들고 시스템 응답 속도 및 쿼리 확장 효율이 개선된다.
게다가, 세션 정보의 특성에 기초하여, 작은 상관 정도를 가진 쿼리들이 동일 세션에서 출현하는 확률이 줄어든다. 그래서, 정규화 처리할 데이터 범위가 줄어든다. 처리 속도가 개선되며 처리 시간이 절감된다.
또한, 처리를 위해 세션 정보를 고려하는 것 이외에도, 본 기술은 사용자 클릭 정보 및 판매자 데이터와 같은 다른 차원을 추가로 고려하여 정규화 처리의 정확성을 더욱 개선할 수 있다.
분명, 본 개시의 임의의 제품은 전술한 특징 모두를 갖고 있을 필요는 없다.
본 개시의 실시예를 더 잘 설명하기 위하여, 실시예의 설명에서 사용될 도면에 대해 다음과 같이 간략히 소개한다. 다음의 도면들은 단지 본 개시의 일부 실시예에 관련될 뿐이라는 것이 자명하다. 본 기술에서 통상의 지식을 가진 자들이라면 창조적인 노력 없이도 본 개시에 있는 도면들에 따라서 다른 도면을 얻을 수 있다.
도 1은 본 개시의 제 1의 예시적인 실시예에 따른 예시적인 쿼리 확장 방법의 플로우차트를 도시한다.
도 2는 본 개시의 제 1의 예시적인 실시예에 따른 쿼리의 정규화된 쿼리를 결정하는 예시적인 방법의 플로우차트를 도시한다.
도 3은 본 개시의 제 2의 예시적인 실시예에 따른 쿼리의 정규화된 쿼리를 결정하는 다른 예시적인 방법의 플로우차트를 도시한다.
도 4는 본 개시의 제 3의 예시적인 실시예에 따른 쿼리의 정규화된 쿼리를 결정하는 다른 예시적인 방법의 플로우차트를 도시한다.
도 5는 본 개시에 따른 예시적인 쿼리 확장 시스템의 다이어그램을 도시한다.
도 6은 본 개시에 따른 제 1의 예시적인 정규화된 쿼리 결정 모듈의 다이어그램을 도시한다.
도 7은 본 개시에 따른 제 2의 예시적인 정규화된 쿼리 결정 모듈의 다이어그램을 도시한다.
도 8은 본 개시에 따른 제 3의 예시적인 정규화된 쿼리 결정 모듈의 다이어그램을 도시한다.
본 개시의 목적, 특성 및 장점을 명료히 하고 이해하기 쉽게 하기 위해, 다음의 설명은 도면과 일부 예시적인 실시예를 참조하여 기술된다.
본 개시에서 쿼리는 예상된 결과를 질의하고 구하기 위해 사용자에 의해 입력된 주요 용어일 수 있다. 예를 들면, 쿼리는 제품 이름, 제품 상표, 제품 모델, 또는 다른 용어를 포함할 수 있다. 특수한 분야에서, 쿼리는 특수한 카테고리의 용어일 수 있다. 예를 들면, 전자 상거래 웹사이트를 이용할 때, 쿼리는 모바일 폰, 드레스 등과 같은 제품 이름이나 카테고리를 표현하는 제품 용어일 수 있다. 제품 용어는 제품 용어가 검색 결과와 사용자 예상 간의 매칭 정도를 상대적이고 효과적으로 개선하기 때문에 공용의 쿼리이다.
예를 들면, 사용자의 검색 로그를 분석함으로써, 쿼리의 약 57 퍼센트는 제품 용어를 활용하여 검색되며 쿼리의 거의 88 퍼센트는 제품 용어를 포함하고 있다. 게다가, 전자 상거래 웹사이트에서 제품 공급자는 제품을 설명하고 그 설명을 서버에 저장할 수 있다. 설명은 제품 이름 및 그 제품의 상세한 설명을 포함할 수 있다. 일반적인 검색 방법에서, 전자 상거래 웹사이트의 검색 엔진은 사용자에 의해 입력된 제품 용어를 서버 내의 제품 이름과 매치하여 매칭 결과에 따라 검색 결과를 구한다. 그러므로, 사용자에 의해 입력된 제품 용어를 제품 공급자에 의해 서버에 저장된 제품 이름과 상관시키는 것은 검색 결과의 정확성을 개선하는 중요한 전제이다.
또한, 일부의 대형 웹사이트에서 정보 데이터 량은 방대하다. 그러나, 정보 데이터에 포함된 쿼리는 총 정보 데이터보다 훨씬 적다. 그래서, 만일 쿼리가 정규화되고 동일하거나 유사한 의미를 표현하는 쿼리가 질의하는 동안 동일하거나 유사한 것으로서 상관되고 간주된다면, 데이터 중복성은 더욱 줄어들 수 있으며, 검색 엔진의 응답 속도는 개선될 수 있다. 예를 들어 대형 전자 상거래 웹사이트를 이용하면, 그의 제품 용어는 총 정보 데이터보다 훨씬 적을 수 있다.
따라서, 본 개시는 쿼리의 정규화된 처리를 실현하기 위한 예시적인 쿼리 확장 방법 및 시스템을 제공한다.
도 1 및 도 2는 본 개시의 제 1의 예시적인 실시예에 따른 예시적인 쿼리 확장 방법을 도시한다.
(102)에서, 사용자에 의해 입력된 쿼리가 획득된다.
(104)에서, 쿼리의 정규화된 쿼리가 그 쿼리에 따라서 결정된다.
(106)에서, 정규화된 쿼리가 쿼리 확장을 시행하는 쿼리의 확장 용어로서 사용된다.
예를 들면, (104)에서, 동작은 다음을 포함할 수 있다.
(1020)에서, 사용자의 검색 로그에 있는 세션 정보가 획득된다.
세션 정보는 웹사이트에서 (보통 수 분 내지 수 시간 사이의) 연이은 기간에 걸쳐 사용자의 일련의 행위를 기술하는 정보를 말한다. 사용자가 웹사이트 페이지를 둘러보기 시작할 때부터 둘러보기를 그만두기 까지 전체 프로세스 동안, 웹사이트 서버는 자동으로 세션 ID를 사용자에게 할당하고, 그 기간 동안 사용자 행위를 기록할 수 있다. 사용자가 오랜 간격 후 다시 웹사이트 페이지를 둘러볼 때, 웹사이트 서버는 다른 세션 ID를 사용자에게 할당하고 사용자 행위를 기록할 수 있다. 일반적으로, 연이은 둘러보기 기간 내에서 사용자 행위들은 보통 특정한 상관을 갖는다. 즉, 하나의 세션 내에서 사용자 행위들은 상관되는 것으로 간주된다. 그러면 검색 및 질의하는 동안 사용자에 의해 세션에 기록되고 사용된 쿼리는 또한 특정한 상관을 가질 수 있다. 그러므로, 본 개시는 예를 들면, 세션 정보에 기초하여 쿼리에 대해 정규화 처리를 시행할 수 있다.
웹사이트 서버는 세션 정보를 포함하는 사용자의 검색 로그를 저장하기 위한 특정 데이터베이스를 포함할 수 있다. 데이터 용량을 줄이기 위해, 특정 기간 내의 사용자의 검색 로그가 획득될 수 있다. 대안으로, 상이한 기간 내의 사용자의 검색 로그가 획득될 수 있고, 그럼으로써 데이터의 객관성이 개선될 수 있다.
(1022)에서, 단일의 세션에서 출현하는 모든 쿼리가 획득되고 각 쿼리마다 득표가 카운트된다. 단일의 세션에서, 각 쿼리의 출연 시퀀스에 따라서, 특정 쿼리의 앞에 출현하는 임의의 쿼리가 (특정 쿼리에 대해) 하나의 득표로서 카운트된다.
하나의 세션에서, 사용자는 복수 회 검색할 수 있으며, 세션 정보는 복수의 쿼리를 포함할 수 있다. 세션 정보는 쿼리의 출현 시퀀스인 사용자의 검색 시퀀스를 기록할 수 있다. 쿼리의 출현 시퀀스는 세션 정보에 기록된 각 쿼리 시간에 따라서 결정될 수 있다.
각 쿼리마다 득표를 카운트하는 예시적인 상세한 프로세스는 다음과 같다.
쿼리는 쿼리의 출현 시퀀스에 따라서 순서화된다. 각 쿼리의 득표는 그 쿼리의 앞에 나오는 쿼리들의 총 개수이다.
예를 들면, 다섯 개의 쿼리 a, b, c, d 및 e 가 하나의 세션에 포함되어 있고 이들의 출현 순서에 따라서 a, b, c, d 및 e 로서 배열되어 있다. 앞에서의 정의에 따르면, 각 쿼리 앞의 임의의 쿼리는 각 쿼리에 대한 득표로서 카운트된다. 즉, 쿼리 b의 경우, 그의 득표는 1, 즉 a 에서 b까지이다. 쿼리 c의 경우, 득표는 2인데, 즉 a 에서 c까지 그리고 b에서 c까지이다. 쿼리 e의 경우, 득표는 4, 즉 a, b, c 및 d 각각에서부터의 득표이다. 즉, 각 쿼리의 득표는 각 쿼리 앞에 출현하는 쿼리들의 총 개수를 말한다.
(1024)에서, 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도는 모든 세션에서 타겟 쿼리의 총 득표수 및 타겟 쿼리에 대한 단일 쿼리의 득표수에 따라서 결정된다.
복수의 사용자가 동일한 기간 내에 웹사이트를 방문할 때, 복수의 세션이 존재할 수 있다. 다른 세션에서 각 쿼리 별로 득표를 카운트하는 방법은 (1022)에서 기술된 방법과 동일할 수 있다.
모든 세션에서 타겟 쿼리의 총 득표수는 다음과 같이 카운트될 수 있다.
A1에서, 타겟 쿼리를 포함하는 세션이 획득된다.
A2에서, 각 세션에서 타겟 쿼리의 득표수가 획득된다.
A3에서, 각 세션에서 득표수가 누적되어 타겟 쿼리의 총 득표수를 구한다.
전술한 득표의 정의에 따르면, 각 세션에서 타겟 쿼리의 앞에 출현하는 임의의 쿼리는 타겟 쿼리에 한번 득표를 제공한다. 예를 들면, 각 세션에서 각 쿼리는 타겟 쿼리에 대해 많아 봐야 하나의 득표로서 카운트될 수 있다. 만일 쿼리가 타겟 쿼리 앞에 출현하면, 쿼리는 하나의 득표를 타겟 쿼리에 제공하고, 그렇지 않으면, 쿼리는 타겟 쿼리에 득표를 제공하지 않는다. 그러므로, 타겟 쿼리에 대한 단일 쿼리의 득표수를 결정할 때, 이는 단일 쿼리 및 타겟 쿼리 둘 다 포함하며 그리고 단일 쿼리가 타겟 쿼리의 앞에 출현하는 세션들의 개수를 결정함으로써 결정될 수 있다. 예시적인 상세한 동작은 다음과 같다.
B1에서, 단일 쿼리 및 타겟 쿼리를 둘 다 포함하는 세션들이 획득된다.
B2에서, 단일 쿼리가 각 세션에서 타겟 쿼리에 득표를 제공하는지 여부가 결정된다. 만일 결정 결과가 긍정이면, 각 세션이 선택된다.
B3에서, 모든 선택된 세션의 개수가 카운트되어 타겟 쿼리에 대한 단일 쿼리의 득표수를 구한다.
타겟 쿼리를 포함하는 세션 또는 단일 쿼리 및 타겟 쿼리를 둘 다 포함하는 세션을 구하는 것은 매칭함으로써 시행될 수 있다. 즉, 타겟 쿼리 및/또는 단일 쿼리가 먼저 결정되고, 결정된 용어가 세션에 포함된 모든 쿼리들과 매칭된다. 만일 용어가 매치되면, 이 세션은 타겟 쿼리 또는 두 단일 쿼리 및 타겟 쿼리를 포함하는 것으로 결정된다.
특정한 득표수가 결정될 수 있다면 총 득표수 및 타겟 쿼리에 대한 단일 쿼리의 득표수를 카운트하는 다른 방법이 사용될 수 있다.
예를 들면, 타겟 쿼리에 대하여 각 세션에서 각 쿼리의 득표는 라우트 방식에 의해 표현될 수 있다. 총 득표수는 총 라우트를 카운트함으로써 계산될 수 있다. 타겟 쿼리에 대한 단일 쿼리의 득표는 동일한 라우트 방식으로 계산되고 표현될 수 있으며 라우트는 이전에 카운트된 모든 라우트와 매치된다. 만일 라우트가 완전히 매치되면, 하나의 득표가 카운트된다. 완전히 매치된 라우트의 개수는 타겟 쿼리에 대한 단일 쿼리의 득표수이다.
단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도는 타겟 쿼리에 대한 단일 쿼리의 득표수 대 타겟 쿼리의 총 득표수의 비율에 따라서 직접 결정될 수 있다. 즉, 특정한 비율 값은 득표 유사성 정도의 값이다. 타겟 쿼리에 대한 단일 쿼리의 득표 대 타겟 쿼리의 총 득표수의 비율이 높을 수록, 사용자들이 단일 쿼리에서 타겟 쿼리로의 라우트 변경을 더 많이 채택하며 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도가 더 높아진다.
타겟 쿼리에 대한 단일 쿼리의 득표는 상이한 세션에서 상이할 수 있다. 예를 들면, 단일 쿼리는 바로 타겟 쿼리로 전환될 수 있거나 또는 타겟 쿼리로 복수 회만큼 전환될 수 있다. 예를 들어, 하나의 세션에서 쿼리가 a, b 및 c일 수 있고, 다른 세션에서 쿼리가 a 및 c일 수 있다. 카운트할 때, 두 세션은 a부터 c까지의 득표를 포함하지만, 이들 중 하나는 b에 의해 떨어져 있고, 반면에 다른 것은 그렇지 않다. 그러므로, a부터 c까지의 두 득표는 어떤 차이를 갖는다. 단일 쿼리와 타겟 쿼리 간의 상관 정도를 더욱 객관적으로 계산하기 위해, 아래와 같은 예시적인 동작이 시행될 수 있다.
타겟 쿼리에 대한 각 득표의 가중치 및 기수가 결정된다. 가중치 및 기수에 따라서 각 득표 점수가 계산된다. 타겟 쿼리에 대한 단일 쿼리의 총 득표 점수 대 타겟 쿼리에 대한 모든 쿼리들의 총 득표 점수의 비율은 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도로서 사용된다.
특정한 계산 동안, 각 득표의 기수를 가중치로 곱해주는 방식이 채택되어 각 득표 점수를 계산하며, 최종적으로 점수들이 가산되어 총 득점을 구한다. 예를 들면, 각 득표의 기수가 1이라고 가정하고, 만일 한 세션에서 어떤 쿼리가 바로 타겟 쿼리로 전환되면, 그 어떤 쿼리의 가중치는 1로서 설정될 수 있고, 그러면 득표의 최종 계산 결과는 그대로 1이다. 만일 다른 세션에서 어떤 쿼리가 다른 용어를 건너뛴 후 타겟 쿼리로 전환되면, 그 어떤 쿼리의 가중치는 0.9로서 설정될 수 있고, 그러면 득표의 최종 계산 결과는 0.9이다. 다른 예로, 매번 어떤 쿼리로부터 타겟 쿼리로의 전환이 스텝 길이(a step length)로서 기록되면, 가중치는 스텝 길이의 역수로서 결정될 수 있다.
상이한 득표들 간의 차이를 보여줄 수 있다면 가중치를 결정하는 임의의 다른 방법이 사용될 수 있다.
(1026)에서, 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도에 따라서 결정된다.
일예의 실시예에서, 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도는 둘 간의 상관 정도이다.
이러한 예의 실시예는 상관 정도를 결정할 때 득표 유사성 정도인 한 가지 차원만을 고려한 것일 뿐이다. 일부 예의 실시예에서, 상관 정도를 결정할 때 일부 다른 차원이 고려될 필요가 있을 수 있다. 득표 유사성 정도의 값 및 다른 차원의 수치 값은 동일한 양적 레벨을 갖도록 정규화되어 비교적 정확한 상관 정도를 결정할 수 있다.
(1028)에서, 타겟 쿼리의 정규화된 쿼리는 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 결정된다.
정규화된 쿼리의 임계치는 미리 정해질 수 있다. 즉, 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도 값이 정규화된 쿼리의 임계치를 초과한다면, 단일 쿼리는 타겟 쿼리의 정규화된 쿼리로서 결정된다.
또한, 단일 쿼리가 타겟 쿼리의 정규화된 쿼리로서 결정된 후, 단일 쿼리는 특정 상관 정도 값에 따라서 더욱 세부화될 수 있다. 예를 들면, 정규화된 쿼리는 동의어 정규화된 쿼리, 상관 정규화된 쿼리, 확장 정규화된 쿼리 등으로 세부화될 수 있다. 카테고리들의 값 범위는 제각기 결정될 수 있다. 상관 정도 값이 특정 값 범위 내이면, 특정 값 범위에 상응하는 카테고리는 정규화된 쿼리의 세부화된 카테고리로서 결정된다. 예를 들면, 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도가 동의어 정규화된 쿼리에 상응하는 값 범위 내이면, 단일 쿼리는 타겟 쿼리의 동의어 정규화된 쿼리로서 결정되며; 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도가 상관 정규화된 쿼리에 상응하는 값 범위 내이면, 단일 쿼리는 타겟 쿼리의 상관 정규화된 쿼리로서 결정되며; 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도가 동의어 확장 정규화된 쿼리에 상응하는 값 범위 내이면, 단일 쿼리는 타겟 쿼리의 확장 정규화된 쿼리로서 결정된다.
전술한 방법은 세션에서의 정보에 기초하여 쿼리에 대해 정규화 처리를 시행한다. 세션은 하나의 쿼리 프로세스에서 상이한 사용자들의 쿼리의 라우트 변경 또는 전환을 기록할 수 있다. 사용자 행위의 객관적인 분석은 객관적이고 정확한 정규화 처리 결과를 얻을 수 있다.
쿼리의 정규화 처리를 더 잘 시행하기 위해, 세션에서의 정보 이외에 다른 차원으로부터의 분석이 추가로 시행될 수 있다. 정규화 처리 결과는 세션에서의 정보 및 다른 차원을 통해 구한 결과에다 선호도를 제공함으로써 포괄적으로 구해질 수 있고, 그럼으로써 처리 결과의 객관성을 개선할 수 있다. 예를 들면, 사용자의 클릭 행위가 분석될 수 있거나 또는 시스템에 저장된 쿼리의 설명 정보가 분석될 수 있다.
도 3은 본 개시의 제 2의 예시적인 실시예에 따른 다른 예시적인 쿼리 확장 방법을 도시한다. 제 1의 예시적인 실시예에서 (104)의 동작에 대응하여, (도 3에서 (308)에 대응하는) (1026) 앞에는 다음과 같은 동작들이 있다.
(302)에서, 사용자의 검색 로그에서 검색 결과의 클릭 정보가 구해진다.
특정 쿼리를 이용하여 검색하고 검색 결과 집합을 구한 후, 사용자는 보통 검색 결과 집합에 있는 특정한 검색 결과를 클릭할 수 있다. 검색 결과의 클릭 정보는 클릭된 검색 결과, 클릭된 검색 결과의 제목 및 설명 정보 등을 포함할 수 있다.
(304)에서, 클릭 정보 내 타겟 쿼리를 포함하는 검색 결과가 추출된다.
검색 결과는 이 결과에서 판매되는 제품을 나타내는 쿼리를 포함할 수 있다. 그러므로, 각 검색 결과를 얻기 위한 쿼리는 클릭 정보에서 각 검색 결과의 제목 및 설명 정보를 분석함으로써 결정될 수 있다. 그런 다음 타겟 쿼리는 실제 요구에 따라서 추출될 수 있다. 예를 들면, 사용자는 "모바일 폰"이라는 쿼리를 사용하여 검색하고 일련의 검색 결과를 구하지만 한편으로 각 검색 결과를 얻기 위한 쿼리는 "아이폰™", "삼성™ 모바일 폰", "노키아™ 모바일폰" 등일 수 있다. 만일 "아이폰™"이 타겟 쿼리로서 사용되면, "아이폰™"을 포함하는 모든 검색 결과가 추출될 수 있다.
(306)에서, 단일 쿼리와 타겟 쿼리 간의 클릭 유사성이 타겟 쿼리를 포함하는 모든 검색 결과의 총 클릭 수 및 타겟 쿼리를 포함하면서 단일 쿼리에 상응하는 검색 결과의 클릭 수에 따라서 결정된다.
타겟 쿼리를 포함하면서 단일 쿼리에 상응하는 검색 결과의 클릭 수는 단일 쿼리를 사용하여 검색 한 후에 구한 검색 결과 집합에서 타겟 쿼리를 포함하는 검색 결과의 클릭 수를 말한다.
타겟 쿼리를 포함하는 모든 검색 결과의 총 클릭 수는 모든 쿼리에 상응하면서 타겟 쿼리를 포함하는 모든 검색 결과의 총 클릭 수를 말한다.
예를 들면, 만일 "아이폰™"이 타겟 쿼리이면, "모바일 폰" 및 "스마트 폰"이 제각기 검색을 위한 쿼리로서 사용될 수 있다. 하나의 검색 결과 집합이 "모바일 폰"이라는 쿼리를 이용하여 검색 후 구해지는데, 이 때 "아이폰™"을 포함하는 검색 결과의 클릭 수는 5이다. 단일 쿼리인 "모바일 폰"에 상응하면서 타겟 쿼리인 "아이폰™"을 포함하는 검색 결과의 클릭 수는 5이다. 또한, 다른 검색 결과 집합이 "스마트 폰"이라는 쿼리를 사용하여 검색 후 구해지는데, 이 때 "아이폰™"을 포함하는 검색 결과의 클릭 수는 20이다. 단일 쿼리인 "스마트 폰"에 상응하면서 타겟 쿼리인 "아이폰™"을 포함하는 검색 결과의 클릭 수는 20이다. 그러면 타겟 쿼리인 "아이폰™"을 포함하는 모든 검색 결과의 총 클릭 수는 25이다.
타겟 쿼리를 포함하는 모든 검색 결과의 총 클릭 수 및 단일 쿼리에 상응하면서 타겟 쿼리를 포함하는 클릭 수는 다음과 같이 처리될 수 있다. 단일 쿼리에 상응하면서 타겟 쿼리를 포함하는 클릭 수 대 타겟 쿼리를 포함하는 모든 검색 결과의 총 클릭 수의 비율이 계산된다.
이러한 예시적인 실시예는 두 가지 차원을 고려한다. 그래서, 두 가지 차원 하에서 유사성 값은 단일 쿼리와 타겟 쿼리 간의 상관 정도가 결정될 때 고려하는 것이 필요하다. 따라서, 도 3의 (308)에 대응하는 도 2에서 (1026)의 동작은 득표 유사성 정도 및 클릭 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정함에 따라서 대응적으로 수정될 필요가 있다.
예를 들면, 득표 유사성 정도와 클릭 유사성 정도 사이에서 더 큰 값이 단일 쿼리와 타겟 쿼리 간의 상관 정도로서 사용될 수 있다.
다른 예로, 득표 유사성 정도의 가중치 및 클릭 유사성 정도의 가중치가 각기 결정된다. 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 클릭 유사성 정도 뿐만 아니라 이들 각각의 가중치를 하나 이상의 미리 정해진 규칙에 따라 계산함으로써 구해진다.
도 4는 본 개시의 제 3의 예시적인 실시예에 따른 다른 예시적인 쿼리 확장 방법을 도시한다. 제 1의 예시적인 실시예에서 (104)의 단계 및 제 2의 예시적인 실시예에서 대응하는 동작에 대하여, (도 4의 (408)에 대응하는) 도 2에서 (1026)의 동작 앞에는 다음과 같은 동작들이 있다.
(402)에서, 서버에 저장된 판매자 데이터가 획득된다. 판매자 데이터는 판매자가 제품을 설명할 때 정해진 제품 설명 정보를 말한다.
(404)에서, 판매자 데이터가 분석되고 쿼리뿐만 아니라 쿼리의 특성 용어가 추출된다. 쿼리의 특성 용어는 쿼리의 특성을 설명하는 용어를 말한다.
(406)에서, 특성 유사성 정도가 단일 쿼리의 특성 용어 및 타겟 쿼리의 특성 용어에 따라서 결정된다.
예를 들면, 특성 유사성 정도는 다음과 같이 결정될 수 있다. 즉,
각 특성 용어의 특성 값이 결정된다. 단일 쿼리와 타겟 쿼리 간의 특성 유사성은 특성 값에 따라서 결정된다.
각 특성 용어의 특성 값은 특성 용어와 상응하는 쿼리 간의 상호 정보를 계산함으로써 획득질 수 있다. 예시적인 계산 공식은 다음과 같다.
Figure 112015005175929-pct00001
CP는 쿼리를 나타내며 Word는 설명 용어를 나타낸다. P( CP )P( Word )는 각기 두 용어 각각이 데이터 집합에서 독립적으로 출현하는 확률을 나타낸다. P(CP&Word)는 두 용어가 데이터 집합에서 출현하는 확률을 나타낸다. C( CP )C(Word)는 각기 두 용어 각각이 데이터 집합에서 독립적으로 출현하는 정보 개수를 타나낸다. C( CP & Word )는 두 용어가 데이터 집합에서 함께 출현하는 정보 개수를 나타낸다. N은 데이터 집합에서 총 정보 개수를 나타낸다.
특성 값에 따라서 단일 쿼리와 타겟 쿼리 간의 특성 유사성 정도를 계산하는 것은 특성 유사성 정도를 구하기 위하여 단일 쿼리 및 타겟 쿼리의 각 차원의 특성 용어들 간의 유사성 정도를 계산하는 것으로 간주될 수 있다. 예를 들어, 특성 유사성 정도를 계산하기 위해 코사인 유사성 정도가 사용될 수 있다. 최종 값이 높을 수록, 둘 간의 유사성 정도는 높아진다.
전술한 설명에 따르면, 판매자 데이터가 새로운 차원으로서 추가되므로, 추가된 차원은 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정하면서 고려되어야 한다.
새로운 차원은 제 1 실시예와 조합되거나 제 2 실시예와 조합될 수 있다는 것을 납득할 수 있다. 즉, 두 가지 차원 및 세 가지 차원이 모두 고려될 수 있다. 새로운 차원이 제 1 실시예와 조합될 때, (408)의 동작에 상응하는 제 1 실시예에서 (1026)의 동작은 대응적으로 다음과 같이 수정될 수 있다. 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도 및 특성 유사성 정도에 따라서 결정된다.
세 가지 차원이 조합될 때, (408)의 동작에 상응하는 제 1 실시예에서 (1026)의 동작은 대응적으로 다음과 같이 수정될 수 있다. 단일 쿼리와 타겟 쿼리 간의 상관 정도는 득표 유사성 정도, 클릭 유사성 정도, 및 특성 유사성 정도에 따라서 결정된다.
제 2 실시예의 유사한 방법이 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정하기 위해 참조될 수 있다. 예를 들면, 유사성 값이 높은 것은 상관 정도로서 선택될 수 있다. 대안으로, 각 유사성 정도의 가중치가 제각기 결정될 수 있고, 그런 다음 선형 피팅(linear fitting)과 같은 사전-결정된 방법이 가중치 및 값에 기초한 계산을 위해 사용될 수 있다. 간략화를 목적으로, 본 출원에서 세부 내용은 논의되지 않는다.
다른 예로, 정규화 처리가 시행될 때 상관 정도 이외에도 다른 요인이 더 고려될 수 있고, 그럼으로써 처리 결과가 더욱 정확해질 수 있다. 예를 들면, 단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성 정도, 또는 단일 쿼리와 타겟 쿼리 간의 카테고리 유사성 정도 등이 추가로 고려될 수 있다.
그러므로, 제 1의 예시적인 실시예, 제 2의 예시적인 실시예, 및/또는 제 3의 예시적인 실시예에서 동작(1028) 앞에는 다음과 같은 동작들이 수행될 수 있다.
단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성 정도가 결정된다. 예를 들면, 단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성 정도는 편집 거리에 따라서 결정될 수 있다. 편집 거리는 하나의 문자열을 다른 문자열(또는 쿼리)로 변환하는 최소 개수의 편집 동작을 말한다. 레벤시타인 거리(a Levenshtein distance)는 편집 거리의 예이다. 레벤시타인에서 편집 동작은 하나의 문자를 다른 문자로 대체하고, 하나의 문자를 삽입하고 하나의 문자를 삭제하는 동작을 포함한다. 두 문자열 간의 편집 거리는 다이나믹 플래닝 방법(a dynamic planning method)을 통해 계산될 수 있다. 편집 거리가 계산된 후, 시맨틱 유사성이 상관 정도와 동일한 양적 수준을 가질 수 있도록 정규화 처리가 편집 거리에 적용되어 시맨틱 유사성 정도를 구하며, 그럼으로써 후속 처리의 편의성이 제공된다.
대안으로, 제 1의 예시적인 실시예, 제 2의 예시적인 실시예, 및/또는 제 3의 예시적인 실시예에서 동작(1028) 앞에는 다음과 같은 동작들이 수행될 수 있다.
단일 쿼리와 타겟 쿼리 간의 카테고리 유사성이 결정된다.
예를 들면, 전자 상거래 웹사이트에서, 제품을 분류하고 관리하기 위하여 카테고리가 미리 정해질 수 있다. 각각의 쿼리는 이 쿼리가 속하는 카테고리를 갖는다. 일반적으로, 카테고리는 복수의 레벨로 분리될 수 있다. 즉, 하나의 제 1 레벨 카테고리는 복수의 제 2 레벨 카테고리를 포함할 수 있으며, 각각의 제 2 레벨 카테고리는 복수의 제 3 레벨 카테고리 등으로 더 분리될 수 있다. 카테고리 유사성 정도는 쿼리들이 동일한 제 1 레벨 카테고리, 제 2 레벨 카테고리, 제 3 레벨 카테고리 등에 속하는지 여부를 판단함으로써 결정될 수 있다. 유사하게, 카테고리 유사성 정도가 상관 정도와 동일한 양적 수준을 갖도록 결정 프로세스 동안 정규화 처리가 카테고리 유사성 정도에 적용된다.
하나 이상의 새로운 요인이 고려되므로, 전술한 세 개의 실시예에서 (1028)의 동작은 대응적으로 수정될 수 있다.
만일 상관 정도 및 시맨틱 유사성 정도가 고려된다면, (1028)의 동작은 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 시맨틱 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정하는 것으로 수정될 수 있다.
만일 상관 정도 및 카테고리 유사성 정도가 고려된다면, (1028)의 동작은 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 카테고리 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정하는 것으로 수정될 수 있다.
만일 세가지가 모두 동시에 고려된다면, (1028)의 동작은 단일 쿼리와 타겟 쿼리 간의 상관 정도, 시맨틱 유사성 정도, 및 카테고리 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정하는 것으로 수정될 수 있다.
예를 들면, 세부화된 처리 동안, 선형 피팅이 두 가지 또는 세 가지 요인에 적용되어 단일 쿼리 및 타겟 쿼리의 정규화 점수를 구할 수 있으며, 타겟 쿼리의 정규화된 쿼리가 정규화 점수에 따라서 결정된다.
예를 들면, 제 1의 예시적인 실시예를 참조하여, 임계치가 시행을 위해 사용될 수 있다. 즉, 정규화된 쿼리의 임계치가 미리 정해진다. 정규화 점수가 임계치를 초과하는 경우 단일 쿼리가 타겟 쿼리의 정규화된 쿼리로서 결정된다. 더욱이, 정규화된 쿼리는 더 분류될 수 있다. 즉, 상이한 카테고리에 상응하는 상이한 값이 제각기 설정된다. 정규화 정수가 특정 값 범위에 있을 때, 그 값 범위에 상응하는 카테고리는 정규화된 쿼리의 세부화된 카테고리로서 결정된다. 제 1 실시예에서의 특정 방법이 참조될 수 있다. 간략화를 목적으로, 본 출원에서 세부 사항은 논의되지 않는다.
어떤 예시적인 실시예의 어떤 특정한 동작 앞에 추가된 전술한 동작들에 대하여, 그렇게 추가된 동작들은 그 어떤 특정 동작과 상호 독립적이므로, 그렇게 추가된 동작들은 특정 동작에 앞서 시행될 수 있거나, 또는 특정 동작 앞의 그러한 동작들과 동시에 또는 특정 동작 앞의 그러한 동작에 앞서 시행될 수 있다는 것이 납득될 수 있다. 본 개시는 본 출원에서 임의의 제한을 부과하지 않는다. 예를 들면, 제 2의 예시적인 실시예에서 추가되는 (302)부터 (306)까지의 동작들에 대하여, 이 동작들은 (1024)의 동작과 (1028)의 동작 사이에서 시행될 수 있다. 대안으로, 이 동작들은 (1020)부터 (1024)까지의 동작과 동시에 시행될 수 있다. 대안으로, 이 동작들은 (1020)의 단계에 앞서 시행될 수 있다. 본 개시는 본 출원에서 임의의 제한을 부과하지 않는다. 다른 예의 실시예가 유사한 처리를 가질 수 있으며, 이는 본 출원에서 상세히 설명되지 않는다.
도 5는 본 개시에 따른 제 1의 예시적인 쿼리 확장 시스템(500)을 도시한다. 시스템(500)은 하나 이상의 프로세서(들)(502) 및 메모리(504)를 포함할 수 있다. 메모리(504)는 컴퓨터-판독가능한 매체의 일 예이다. 본 출원에서 사용된 바와 같이, "컴퓨터-판독가능한 매체"는 컴퓨터 저장 매체 및 통신 매체를 포함한다.
컴퓨터 저장 매체는 컴퓨터-실행 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 제거가능한 및 제거가능하지 않은 매체를 포함한다. 이에 반해, 통신 매체는 컴퓨터-판독가능한 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 캐리어 웨이브와 같이 변조된 데이터 신호로 구현할 수 있다. 본원에서 정의된 바와 같이, 컴퓨터 저장 매체는 통신 매체를 포함하지 않는다. 메모리(204)는 내부에 프로그램 유닛 또는 모듈 및 프로그램 데이터를 저장할 수 있다.
도 5의 예에서, 메모리(504)는 그 안에 쿼리 입력 모듈(506), 정규화된 쿼리 결정 모듈(508), 및 쿼리 확장 모듈(510)을 저장할 수 있다. 쿼리 입력 모듈(506)은 사용자에 의해 입력된 쿼리를 획득한다. 정규화된 쿼리 결정 모듈(508)은 쿼리에 따라서 쿼리의 정규화된 쿼리를 결정한다. 쿼리 확장 모듈(510)은 정규화된 쿼리를 쿼리의 확장 용어로서 사용하여 쿼리 확장을 시행한다.
도 6은 예시적인 정규화된 쿼리 결정 모듈(600)을 도시한다. 예시적인 정규화된 쿼리 결정 모듈(600)은 세션 정보 획득 모듈(602), 쿼리 득표 계산 모듈(604), 득표 유사성 정도 결정 모듈(606), 상관 정도 결정 모듈(608), 및 정규화된 쿼리 결정 모듈(610)을 포함할 수 있다.
세션 정보 획득 모듈(602)은 사용자의 검색 로그로부터 세션 정보를 획득한다.
쿼리 득표 계산 모듈(604)은 단일의 세션에서 출현하는 모든 쿼리를 획득하고, 각 쿼리 마다 득표를 카운트한다. 단일 세션에서, 각 쿼리의 출현 시퀀스에 따라서, 특정 쿼리 앞에 출현하는 임의의 쿼리는 (그 특정 쿼리에 대해) 하나의 득표로서 카운트된다.
득표 유사성 정도 결정 모듈(606)은 모든 세션에서 타겟 쿼리의 총 득표수 및 타겟 쿼리에 대한 단일 쿼리의 득표수에 따라서 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도를 결정한다. 예를 들면, 득표 유사성 정도 결정 모듈(606)은 기수 및 가중치 결정 유닛, 점수 계산 유닛, 및 비율 계산 유닛을 포함할 수 있다. 기수 및 가중치 결정 유닛은 타겟 쿼리에 대한 각 득표의 가중치 및 기수를 결정한다. 점수 계산 유닛은 가중치 및 기수에 따라서 각 득표의 점수를 계산한다. 비율 계산 유닛은 타겟 쿼리에 대한 단일 쿼리의 총 득표 점수 대 타겟 쿼리에 대한 모든 쿼리의 총 득표 점수의 비율을 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도로서 사용한다.
상관 정도 결정 모듈(608)은 득표 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정한다.
정규화된 쿼리 결정 모듈(610)은 단일 쿼리와 타겟 쿼리 간의 상관 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정한다.
예를 들면, 정규화된 쿼리 결정 모듈(610)은 정규화된 쿼리의 임계치를 설정하고 만일 단일 쿼리와 타겟 쿼리 간의 상관 정도 값이 정규화된 쿼리의 임계치를 초과하는 경우 단일 쿼리를 타겟 쿼리의 정규화된 쿼리로서 결정하는 정규화된 쿼리 임계치 설정 유닛을 포함할 수 있다.
다른 예로, 정규화된 쿼리 결정 모듈(610)은 또한 정규화된 쿼리 카테고리 분류 유닛, 값 범위 설정 유닛, 및 카테고리 결정 유닛을 포함할 수 있다. 정규화된 쿼리 카테고리 분류 유닛은 정규화된 쿼리 카테고리를 동의어 정규화된 쿼리, 상관 정규화된 쿼리, 및 확장 정규화된 쿼리로 분리한다. 값 범위 설정 유닛은 상관 정도 값에 따라서 세 가지 카테고리의 값 범위를 내림차순으로 설정한다. 카테고리 결정 유닛은 단일 쿼리와 타겟 쿼리 간의 상관 정도가 속하는 값 범위에 상응하는 카테고리를 단일 쿼리 및 타겟 쿼리의 세부화된 카테고리로서 결정한다.
도 7은 제 2의 예시적인 정규화된 쿼리 결정 모듈(700)을 포함하는 제 2의 예시적인 쿼리 확장 시스템을 도시한다. 세션 정보 획득 모듈(602), 쿼리 득표 계산 모듈(604), 득표 유사성 정도 결정 모듈(606), 상관 정도 결정 모듈(608), 및 정규화된 쿼리 결정 모듈(610)에 추가하여, 정규화된 쿼리 결정 모듈(700)은 클릭 정보 획득 모듈(702), 검색 결과 추출 모듈(704), 및 클릭 유사성 정도 결정 모듈(706)을 더 포함한다. 클릭 정보 획득 모듈(702)은 사용자의 검색 로그로부터 검색 결과의 클릭 정보를 획득한다. 검색 결과 추출 모듈(704)은 클릭 정보로부터 타겟 쿼리를 포함하는 검색 결과를 추출한다. 클릭 유사성 정도 결정 모듈(706)은 타겟 쿼리를 포함하는 검색 결과의 총 클릭 수 및 타겟 쿼리를 포함하면서 단일 쿼리에 대응하는 검색 결과의 총 클릭 수에 따라서 단일 쿼리와 타겟 쿼리 간의 클릭 유사성 정도를 결정한다. 상관 정도 결정 모듈(610)은 득표 유사성 정도 및 클릭 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정한다.
도 8은 제 3의 예시적인 정규화된 쿼리 결정 모듈(800)을 포함하는 제 3의 예시적인 쿼리 확장 시스템을 도시한다. 세션 정보 획득 모듈(602), 쿼리 득표 계산 모듈(604), 득표 유사성 정도 결정 모듈(606), 상관 정도 결정 모듈(608), 및 정규화된 쿼리 결정 모듈(610)에 추가하여, 정규화된 쿼리 결정 모듈(800)은 판매자 데이터 획득 모듈(802), 데이터 분석 모듈(804), 및 특성 유사성 정도 결정 모듈(806)을 더 포함한다.
판매자 데이터 획득 모듈(802)은 서버에 저장된 판매자 데이터를 획득한다. 판매자 데이터는 판매자가 제품을 설명할 때 정해진 제품 설명 정보를 포함한다.
데이터 분석 모듈(804)은 판매자 데이터를 분석하고 판매자 데이터로부터 쿼리뿐만 아니라 쿼리의 특성 용어를 추출한다.
특성 유사성 정도 결정 모듈(806)은 단일 쿼리 및 타겟 쿼리의 특성 용어에 따라서 특성 유사성을 결정한다. 예를 들면, 특성 유사성 정도 결정 모듈(806)은 각 특성 용어의 특성 값을 계산하는 특성 값 계산 유닛을 포함할 수 있다. 특성 값은 특성 용어 및 그의 상응하는 쿼리의 상호 정보에 따라서 계산된다.
상관 정도 결정 모듈(608)은 득표 유사성 정도 및 특성 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정한다.
제 2의 예시적인 실시예 및 제 3의 예시적인 실시예에서 기술된 관련 데이터는 처리를 위해서 동시에 추가 고려될 수 있다는 것이 납득될 수 있다. 즉, 상관 정도 결정 모듈(608)은 추가로 득표 유사성 정도, 클릭 유사성 정도, 및 특성 유사성 정도에 따라서 단일 쿼리와 타겟 쿼리 간의 상관 정도를 결정할 수 있다. 상세한 상관 정도를 결정하는 동안, 셋 중 가장 큰 것이 상관 정도로서 사용될 수 있다. 대안으로, 상관 정도로서 최종 값을 획득하기 위해 선형 피팅이 세 개의 유사성 정도에 적용될 수 있다.
득표 유사성 정도가 클릭 유사성 정도 또는 특성 유사성 정도와 조합될 때, 둘 중에서 더 큰 것이 상관 정도로서 선택될 수 있다는 것이 납득 가능하다. 대안으로, 상관 정도로서 최종 값을 구하기 위해 선형 피팅이 두 가지 유사성 정도에 적용될 수 있다.
다른 예로, 예시적인 시스템들 중 하나 이상은 단일 쿼리와 타겟 쿼리 간의 시맨틱 유사성 정도 및/또는 카테고리 유사성 정도를 각기 결정하는 시맨틱 유사성 정도 결정 모듈 및/또는 카테고리 유사성 정도 결정 모듈을 더 포함할 수 있다.
이에 상응하여, 정규화된 쿼리 결정 모듈(610)은 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 시맨틱 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정할 수 있거나, 단일 쿼리와 타겟 쿼리 간의 상관 정도 및 카테고리 유사성 정도에 따라 타겟 쿼리의 정규화된 쿼리를 결정할 수 있거나, 또는 단일 쿼리와 타겟 쿼리 간의 상관 정도, 시맨틱 유사성 정도, 및 카테고리 유사성 정도에 따라서 타겟 쿼리의 정규화된 쿼리를 결정할 수 있다.
예를 들면, 시맨틱 유사성 정도 결정 모듈은 편집 거리 결정 유닛 및 정규화 처리 유닛을 포함할 수 있다. 편집 거리 결정 유닛은 단일 쿼리와 타겟 쿼리 간의 편집 거리를 결정한다. 편집 거리는 하나의 용어를 다른 용어로 변환하는 최소 개수의 편집 동작을 말한다. 정규화 처리 유닛은 편집 거리의 정규화 처리를 시행하여 상관 정도와 동일한 양적 수준을 갖는 시맨틱 유사성 정도를 획득한다.
본 개시에서 예시적인 모든 실시예들이 계속하여 기술되고 있다. 각각의 예시적인 실시예는 다른 예의 실시예와 상이함을 강조하고 있다. 예시적인 실시예들의 동일 또는 유사한 부분은 상호 참조될 수 있다. 예시적인 시스템 실시예들은 기본적으로 예시적인 방법 실시예와 유사하기 때문에, 예시적인 시스템 실시예들은 상세히 기술되지 않는다. 관련 부분은 예시적인 실시예들의 부분으로 참조될 수 있다.
본 개시의 몇몇 예시적인 쿼리 확장 방법 및 시스템은 본 출원에서 상세히 기술되지 않는다. 본 개시는 몇몇 예를 이용하여 본 기술의 원리 및 구현을 기술한다. 예시적인 실시예들은 그저 본 개시의 방법 및 핵심 개념을 이해하는데 도움을 주려 의도된 것이다. 한편, 본 기술에서 통상의 지식을 가진 자들이라면 본 개시의 개념에 따라서 예시적인 실시예 또는 애플리케이션을 수정하거나 변경할 수 있으며, 이는 여전히 본 개시의 보호 범위에 속할 것이다. 본 개시는 본 기술에 대한 제한으로 이해되어서는 안될 것이다.

Claims (20)

  1. 타겟 쿼리를 획득하는 단계와,
    획득된 상기 타겟 쿼리에 따라서 정규화된 쿼리를 결정하는 단계를 포함하되,
    상기 결정하는 단계는,
    검색 로그에서 세션 정보를 획득하는 단계와;
    상기 세션 정보에 기초하여 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도(a vote similarity degree)를 결정하는 단계 - 상기 득표 유사성 정도를 결정하는 단계는
    상기 타겟 쿼리를 포함하여 단일 세션에서 출현하는 모든 쿼리를 획득하는 단계와,
    상기 타겟 쿼리마다 득표수를 계산하는 단계 - 상기 계산하는 단계는 상기 단일 세션에서 상기 타겟 쿼리 앞에 출현하는 상기 단일 쿼리를 상기 타겟 쿼리에 대한 상기 단일 쿼리부터의 득표로서 카운트하는 단계를 포함함 - 와,
    계산된 상기 득표수에 따라서 상기 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도를 결정하는 단계를 포함함 - 와;
    상기 득표 유사성 정도에 부분적으로 기초하여 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도(a correlation degree)를 결정하는 단계와;
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도에 부분적으로 기초하여 상기 정규화된 쿼리를 결정하는 단계를 포함하는
    방법.
  2. 제 1 항에 있어서,
    상기 정규화된 쿼리를 상기 획득된 타겟 쿼리의 확장 용어로서 사용하는 단계를 더 포함하는
    방법.
  3. 제 1 항에 있어서,
    상기 계산된 득표수에 따라서 상기 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도를 결정하는 단계는, 모든 세션에서 상기 타겟 쿼리의 총 득표수 및 상기 타겟 쿼리에 대한 상기 단일 쿼리의 득표수에 기초하는
    방법.
  4. 제 3 항에 있어서,
    모든 세션에서 상기 타겟 쿼리의 총 득표수를 계산하는 단계를 더 포함하되, 상기 타겟 쿼리의 총 득표수를 계산하는 단계는,
    상기 타겟 쿼리를 포함하는 하나 이상의 세션을 획득하는 단계와,
    각각의 세션에서 상기 타겟 쿼리의 득표수를 카운트하는 단계와,
    각각의 세션에서 상기 타겟 쿼리의 득표수를 누적하여 상기 타겟 쿼리의 총 득표수를 획득하는 단계를 포함하는
    방법.
  5. 제 3 항에 있어서,
    상기 타겟 쿼리에 대한 상기 단일 쿼리의 득표수를 계산하는 단계를 더 포함하되, 상기 타겟 쿼리에 대한 상기 단일 쿼리의 득표수를 계산하는 단계는,
    상기 단일 쿼리 및 상기 타겟 쿼리를 포함하는 하나 이상의 세션을 획득하는 단계와,
    상기 단일 쿼리가 각각의 세션에서 상기 타겟 쿼리에 득표를 제공하는지 여부를 결정하는 단계와,
    상기 단일 쿼리가 각각의 세션에서 상기 타겟 쿼리에 득표를 제공한다고 결정한 것에 응답하여, 상기 각각의 세션을 선택하는 단계와,
    선택된 세션의 개수를 카운트하여 상기 타겟 쿼리에 대한 상기 단일 쿼리의 득표수를 획득하는 단계를 포함하는
    방법.
  6. 제 1 항에 있어서,
    상기 계산된 득표수에 따라서 상기 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도를 결정하는 단계는 상기 타겟 쿼리에 대한 상기 단일 쿼리의 총 득표수 대 상기 타겟 쿼리의 총 득표수의 비율을 상기 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도로서 사용하는 단계를 포함하는
    방법.
  7. 제 1 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도를 결정하는 단계는,
    상기 타겟 쿼리의 각 득표의 가중치 및 기수(a base number)를 결정하는 단계와,
    각각의 상기 가중치 및 각각의 상기 기수에 따라서 각 득표의 점수를 계산하는 단계와,
    상기 타겟 쿼리에 대한 상기 단일 쿼리의 총 득표 점수 대 상기 타겟 쿼리에 대한 모든 쿼리의 총 득표 점수의 비율을 상기 단일 쿼리와 상기 타겟 쿼리 간의 득표 유사성 정도로서 사용하는 단계를 더 포함하는
    방법.
  8. 제 1 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도에 부분적으로 기초하여 상기 정규화된 쿼리를 결정하는 단계는,
    정규화된 쿼리의 임계치를 설정하는 단계와,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도의 값이 상기 정규화된 쿼리의 임계치를 초과한다고 결정한 것에 응답하여, 상기 단일 쿼리를 상기 타겟 쿼리의 정규화된 쿼리로서 결정하는 단계를 포함하는
    방법.
  9. 제 1 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도에 부분적으로 기초하여 상기 정규화된 쿼리를 결정하는 단계는,
    상기 정규화된 쿼리의 카테고리를, 동의어 정규화된 쿼리, 상관 정규화된 쿼리, 및 확장 정규화된 쿼리로 분리하는 단계와,
    상기 동의어 정규화된 쿼리, 상기 상관 정규화된 쿼리, 및 상기 확장 정규화된 쿼리의 각각의 값 범위를 상관 정도 값에 따라서 내림차순으로 설정하는 단계와,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도가 속하는 값 범위에 상응하는 카테고리를 상기 단일 쿼리 및 상기 타겟 쿼리의 세부화된 카테고리로서 사용하는 단계를 포함하는
    방법.
  10. 제 1 항에 있어서,
    상기 검색 로그에서 검색 결과의 클릭 정보를 획득하는 단계와,
    상기 클릭 정보에 따라서 타겟 쿼리를 포함하는 하나 이상의 검색 결과를 추출하는 단계와,
    상기 타겟 쿼리를 포함하는 검색 결과의 총 클릭수 및 상기 단일 쿼리에 대응하면서 상기 타겟 쿼리를 포함하는 검색 결과의 클릭수에 따라서 상기 단일 쿼리와 상기 타겟 쿼리 간의 클릭 유사성 정도를 결정하는 단계를 더 포함하고,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 결정하는 단계는 상기 득표 유사성 정도 및 상기 클릭 유사성 정도에 기초하는
    방법.
  11. 제 10 항에 있어서,
    상기 득표 유사성 정도 및 상기 클릭 유사성 정도에 기초하여 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 결정하는 단계는 상기 득표 유사성 정도와 상기 클릭 유사성 정도 사이에서 가장 큰 값을 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도로서 선택하는 단계를 포함하는
    방법.
  12. 제 10 항에 있어서,
    상기 득표 유사성 정도 및 상기 클릭 유사성 정도에 기초하여 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 결정하는 단계는,
    상기 득표 유사성 정도 및 상기 클릭 유사성 정도의 가중치를 각기 결정하는 단계와,
    상기 득표 유사성 정도 및 상기 클릭 유사성 정도 그리고 이들 각각의 가중치에 따라서 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 하나 이상의 미리 정해진 규칙에 따라 계산하는 단계를 포함하는
    방법.
  13. 제 1 항에 있어서,
    서버에 저장된 판매자 데이터를 획득하는 단계 - 상기 판매자 데이터는 제품 설명 정보를 포함함 - 와,
    상기 판매자 데이터를 분석하여 쿼리 및 상기 쿼리의 특성 용어를 추출하는 단계와,
    상기 단일 쿼리와 상기 타겟 쿼리의 각각의 특성 용어에 따라서 특성 유사성 정도를 결정하는 단계를 더 포함하고,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 결정하는 단계는 상기 득표 유사성 정도 및 상기 특성 유사성 정도에 기초하는
    방법.
  14. 제 13 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리의 각각의 특성 용어에 따라서 상기 특성 유사성 정도를 결정하는 단계는,
    상기 각각의 특성 용어 및 상기 각각의 특성 용어에 대응하는 쿼리 간의 상호 정보에 기초하여 각 특성 용어의 특성 값을 계산하는 단계와,
    상기 특성 값에 따라서 상기 단일 쿼리와 상기 타겟 쿼리 간의 특성 유사성 정도를 계산하는 단계를 포함하는
    방법.
  15. 제 1 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 시맨틱 유사성 정도를 결정하는 단계를 더 포함하고,
    상기 타겟 쿼리의 정규화된 쿼리를 결정하는 단계는 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도 및 시맨틱 유사성 정도에 기초하는
    방법.
  16. 제 1 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 카테고리 유사성 정도를 결정하는 단계를 더 포함하고,
    상기 타겟 쿼리의 정규화된 쿼리를 결정하는 단계는 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도 및 카테고리 유사성 정도에 기초하는
    방법.
  17. 제 1 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 시맨틱 유사성 정도를 결정하는 단계와,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 카테고리 유사성 정도를 결정하는 단계를 더 포함하고,
    상기 타겟 쿼리의 정규화된 쿼리를 결정하는 단계는 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도, 시맨틱 유사성 정도, 및 카테고리 유사성 정도에 기초하는
    방법.
  18. 검색 로그에서 세션 정보를 획득하는 단계와,
    상기 세션 정보에 기초하여 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도를 결정하는 단계 - 상기 득표 유사성 정도를 결정하는 단계는
    상기 타겟 쿼리를 포함하여 단일 세션에서 출현하는 모든 쿼리를 획득하는 단계와,
    상기 타겟 쿼리마다 득표수를 계산하는 단계 - 상기 계산하는 단계는 상기 단일 세션에서 상기 타겟 쿼리 앞에 출현하는 상기 단일 쿼리를 상기 타겟 쿼리에 대한 상기 단일 쿼리부터의 득표로서 카운트하는 단계를 포함함 - 와,
    상기 계산된 득표수에 따라 상기 단일 쿼리와 상기 타겟 쿼리 간의 상기 득표 유사성 정도를 결정하는 단계를 포함함 - 와,
    상기 득표 유사성 정도에 기초하여 상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 결정하는 단계와,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 시맨틱 유사성 정도를 결정하는 단계와,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상기 상관 정도 및 상기 시맨틱 유사성 정도에 기초하여 정규화된 쿼리를 결정하는 단계를 포함하는
    방법.
  19. 제 18 항에 있어서,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 시맨틱 유사성 정도를 결정하는 단계는,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 편집 거리를 결정하는 단계 - 상기 편집 거리는 하나의 용어에서 다른 용어로 변경하는 최소 횟수의 편집 동작임 - 와,
    상기 편집 거리를 정규화하여 상관 정도와 동일한 양적 수준을 갖는 상기 시맨틱 유사성 정도를 획득하는 단계를 포함하는
    방법.
  20. 쿼리를 확장하는 시스템으로서,
    하나 이상의 프로세서와,
    상기 하나 이상의 프로세서와 통신가능하게 연결된 메모리 디바이스와,
    타겟 쿼리를 획득하도록 상기 하나 이상의 프로세서에 의해 실행가능한 명령어들을 갖는 쿼리 입력 모듈과,
    상기 획득된 타겟 쿼리에 따라서 정규화된 쿼리를 결정하도록 상기 하나 이상의 프로세서에 의해 실행가능한 명령어들을 갖는 정규화된 쿼리 결정 모듈과,
    상기 정규화된 쿼리를 상기 획득된 타겟 쿼리의 확장 용어로서 사용하여 쿼리 확장을 구현하도록 상기 하나 이상의 프로세서에 의해 실행가능한 명령어들을 갖는 쿼리 확장 모듈을 포함하고,
    상기 획득된 타겟 쿼리에 따라서 상기 정규화된 쿼리를 결정하는 것은,
    검색 로그에서 세션 정보를 획득하는 것과,
    상기 세션 정보에 기초하여 단일 쿼리와 타겟 쿼리 간의 득표 유사성 정도를 결정하는 것 - 상기 득표 유사성 정도를 결정하는 것은,
    상기 타겟 쿼리를 포함하여 단일 세션에서 출현하는 모든 쿼리를 획득하는 것과,
    상기 타겟 쿼리마다 득표수를 계산하는 것 - 상기 계산하는 것은 상기 단일 세션에서 상기 타겟 쿼리 앞에 출현하는 상기 단일 쿼리를 상기 타겟 쿼리에 대한 상기 단일 쿼리로부터의 득표로서 카운트하는 것을 포함함 - 과,
    상기 계산된 득표수에 따라 상기 단일 쿼리와 상기 타겟 쿼리 간의 상기 득표 유사성 정도를 결정하는 것을 포함함 - 과,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상관 정도를 결정하는 것과,
    상기 단일 쿼리와 상기 타겟 쿼리 간의 상기 상관 정도에 부분적으로 기초하여 정규화된 쿼리를 결정하는 것을 포함하는
    시스템.
KR1020157001356A 2012-07-20 2013-07-18 쿼리 확장 KR102080362B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210254810.0 2012-07-20
CN201210254810.0A CN103577416B (zh) 2012-07-20 2012-07-20 扩展查询方法及系统
PCT/US2013/051140 WO2014015176A1 (en) 2012-07-20 2013-07-18 Query expansion

Publications (2)

Publication Number Publication Date
KR20150036117A KR20150036117A (ko) 2015-04-07
KR102080362B1 true KR102080362B1 (ko) 2020-02-21

Family

ID=48916206

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157001356A KR102080362B1 (ko) 2012-07-20 2013-07-18 쿼리 확장

Country Status (6)

Country Link
US (1) US9317550B2 (ko)
JP (1) JP6247292B2 (ko)
KR (1) KR102080362B1 (ko)
CN (1) CN103577416B (ko)
TW (1) TWI544351B (ko)
WO (1) WO2014015176A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
US11461319B2 (en) * 2014-10-06 2022-10-04 Business Objects Software, Ltd. Dynamic database query efficiency improvement
CN104346480B (zh) * 2014-11-27 2018-06-26 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
WO2016093407A1 (en) * 2014-12-12 2016-06-16 University-Industry Cooperation Group Of Kyung Hee University Clinical decision support system and method for evidence adaption using external resources
US9824385B2 (en) 2014-12-29 2017-11-21 Ebay Inc. Method for performing sequence labelling on queries
CN104615680B (zh) 2015-01-21 2016-11-02 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN104715022B (zh) * 2015-02-28 2018-07-31 北京奇艺世纪科技有限公司 一种相关搜索方法和装置
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105260084A (zh) * 2015-11-03 2016-01-20 百度在线网络技术(北京)有限公司 输入序列的处理方法及装置
TWI567577B (zh) * 2015-11-05 2017-01-21 英業達股份有限公司 解決方案搜尋系統之操作方法及解決方案搜尋系統
US10339135B2 (en) 2015-11-06 2019-07-02 International Business Machines Corporation Query handling in search systems
US10762583B2 (en) * 2016-03-10 2020-09-01 Microsoft Technology Licensing, Llc Generating content feeds based on expanded network engagement
JP6856466B2 (ja) * 2017-07-14 2021-04-07 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
US10878473B1 (en) * 2017-11-16 2020-12-29 Amazon Technologies, Inc. Content modification
CN107885875B (zh) * 2017-11-28 2022-07-08 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109493166B (zh) * 2018-10-23 2021-12-28 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN112115335A (zh) * 2019-06-20 2020-12-22 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
US11188512B2 (en) 2020-01-03 2021-11-30 International Business Machines Corporation Rewriting corpus content in a search index and processing search queries using the rewritten search index
US11249996B2 (en) 2020-01-03 2022-02-15 International Business Machines Corporation Query adaptation for a search service in a content management system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253427A1 (en) * 2005-05-04 2006-11-09 Jun Wu Suggesting and refining user input based on original user input

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287025B2 (en) 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
US20050149499A1 (en) 2003-12-30 2005-07-07 Google Inc., A Delaware Corporation Systems and methods for improving search quality
US7565345B2 (en) * 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
KR100544514B1 (ko) * 2005-06-27 2006-01-24 엔에이치엔(주) 검색 쿼리 연관성 판단 방법 및 시스템
US7552112B2 (en) * 2006-09-18 2009-06-23 Yahoo! Inc. Discovering associative intent queries from search web logs
US7689548B2 (en) 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
US8321448B2 (en) 2007-02-22 2012-11-27 Microsoft Corporation Click-through log mining
US8145660B2 (en) * 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
KR100893129B1 (ko) 2007-10-24 2009-04-15 엔에이치엔(주) 멀티 미디어 컨텐츠의 추천 키워드 추출 시스템 및 그 방법
TWI393018B (zh) 2009-02-06 2013-04-11 Inst Information Industry 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體
US20110145226A1 (en) 2009-12-10 2011-06-16 Microsoft Corporation Product similarity measure
US20110258212A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic query suggestion generation using sub-queries
US20120010996A1 (en) 2010-07-07 2012-01-12 Microsoft Corporation Recommendations and targeted advertising based upon directions requests activity and data
US9465864B2 (en) 2010-09-29 2016-10-11 Excalibur Ip, Llc Training a search query intent classifier using wiki article titles and a search click log
JP5426526B2 (ja) * 2010-12-21 2014-02-26 日本電信電話株式会社 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253427A1 (en) * 2005-05-04 2006-11-09 Jun Wu Suggesting and refining user input based on original user input

Also Published As

Publication number Publication date
WO2014015176A1 (en) 2014-01-23
TWI544351B (zh) 2016-08-01
JP2015526809A (ja) 2015-09-10
KR20150036117A (ko) 2015-04-07
JP6247292B2 (ja) 2017-12-13
US20140025701A1 (en) 2014-01-23
CN103577416A (zh) 2014-02-12
CN103577416B (zh) 2017-09-22
US9317550B2 (en) 2016-04-19
TW201405342A (zh) 2014-02-01

Similar Documents

Publication Publication Date Title
KR102080362B1 (ko) 쿼리 확장
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
TWI525458B (zh) Recommended methods and devices for searching for keywords
CN108304444B (zh) 信息查询方法及装置
CN103049575B (zh) 一种主题自适应的学术会议搜索系统
CN103186574B (zh) 一种搜索结果的生成方法和装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20140258283A1 (en) Computing device and file searching method using the computing device
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
TWI547815B (zh) Information retrieval method and device
CN103294681B (zh) 一种搜索结果的生成方法和装置
JP2005085285A5 (ko)
JP6355840B2 (ja) ストップワード識別方法および装置
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN103365910A (zh) 一种信息检索的方法和系统
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN103425650A (zh) 推荐搜索方法和系统
US9262510B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
US8949254B1 (en) Enhancing the content and structure of a corpus of content
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
CN103034709B (zh) 检索结果重排序系统及其方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant