KR20190128246A

KR20190128246A - 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체

Info

Publication number: KR20190128246A
Application number: KR1020197032313A
Authority: KR
Inventors: 밍 리우; 다야오 첸; 멩멩 팡; 타오 펭; 지쟈오 젱; 영차오 웨이; 웬빈 판
Original assignee: 베이징 싼콰이 온라인 테크놀로지 컴퍼니, 리미티드
Priority date: 2017-03-31
Filing date: 2017-12-12
Publication date: 2019-11-15
Also published as: SG11201909119YA; CA3059929C; CN108664515A; CN108664515B; EP3608799A1; US20200110778A1; CA3059929A1; WO2018176913A1; US11144594B2; JP2020512651A; EP3608799A4

Abstract

본 출원은 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체를 제공한다. 일 실시예에 따르면, 상기 방법은, 검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 단계 ― 각각의 제 1 검색 정책은 적어도 하나의 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치에 대응함 ―; 각각의 제 1 검색 정책에 대응하는 각각의 제 1 텍스트 인덱스 필드에 기초하여 상기 질의 텍스트에 대한 검색 동작을 수행하는 단계; 및 모든 검색 동작들의 검색 결과들을 병합 및 출력하는 단계를 포함한다.

Description

검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체

본 출원은 컴퓨터 기술들에 관한 것이며, 구체적으로 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체에 관한 것이다.

본 특허 출원은 출원번호가 201710209677.X이고, 출원일이 2017년 3월 31일이고, 발명의 명칭이 "SEARCH METHOD AND APPARATUS AND ELECTRONIC DEVICE"인 중국 특허 출원에 대한 우선권을 주장하며, 상기 중국 특허 출원은 전체로서 여기에 참조로 통합된다.

인터넷 기술들의 발전을 통해, 인터넷 상의 정보는 폭발적으로 증가하고 있으며, 점점더 많은 사용자들이 인터넷 상의 정보 검색을 통해서 관심 컨텐츠(content of interest)를 획득하고 있다. 예를 들어, 검색 엔진은 사용자에 의해 입력된 텍스트에 기초하여 정보에 대하여 검색하고 텍스트 정정에 기초하여 검색 서비스를 수행하는데 이용될 수 있다. 검색 엔진들의 개발 초기 단계에서, 웹 페이지들은 또한 인터넷 상에서 주요한 정보 전달자들이었다. 그러므로, 사용자에 대한 관심 컨텐츠는 기본적으로 웹 페이지를 검색함으로써 획득될 수 있다. 그러나, 모바일 인터넷의 발전으로, 온라인-대-온라인(O2O) 플랫폼들에 의해 제공되는 현지 생활-지향(local life-oriented) 서비스들은 사람들의 삶을 편리하게 해주며, O2O 플랫폼들을 통한 검색 요구들이 점차적으로 증가하고 있다. 웹 페이지들과 다르게, O2O 플랫폼 상의 정보 디스크립션 캐리어는 상이한 관점들로부터의 플랫폼 서비스들을 설명하기 위한 다수의 텍스트 인덱스 필드들을 가질 수 있다. 예를 들어, 케이터링 서비스들을 제공하는 머천트(merchant)의 관심 포인트(POI)들은 머천트 이름, 머천트가 등록된 회사 이름, 브랜드 이름, 머천트의 사업 영역, 머천트 주소, 머천트 메인디쉬들 및 머천트 운영 시간들과 같은 관점들로부터 설명될 수 있다. 이러한 경우에, 종종 O2O 플랫폼들 상에 50개까지 또는 그보다 많은 설명적 텍스트 인덱스 필드들이 존재할 수 있다. 또한, 이러한 텍스트 인덱스 필드들에서 설명되는 정보는 관련성있지 않을 수 있으며, 이는 웹 페이지 검색 방법을 이용함으로써 모든 텍스트 인덱스 필드들에 있는 정보를 검색함으로써 포괄적이고 정확한 사용자들의 관심 컨텐츠를 획득하는 것을 어렵게 한다.

본 출원은 검색 방법을 제공하며, 그 결과 다수의 텍스트 인덱스 필드들을 갖는 정보에 대하여 상대적으로 정확한 검색 결과가 획득될 수 있다.

제 1 양상에 따르면, 본 출원의 일 실시예는 검색 방법을 제공하며, 상기 검색 방법은,

검색될(to-be-searched) 질의(query) 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책(search policy)을 결정하는 단계 ― 각각의 제 1 검색 정책은 적어도 하나의 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치(search weight)에 대응함 ―;

각각의 제 1 검색 정책에 대응하는 각각의 제 1 텍스트 인덱스 필드에 기초하여 상기 질의 텍스트에 대한 검색 동작을 수행하는 단계; 및

모든 검색 동작들의 검색 결과들을 병합(merge) 및 출력하는 단계을 포함한다.

제 2 양상에 따르면, 본 출원의 일 실시예는 검색 장치를 제공하며, 상기 검색 장치는 프로세서 및 비-일시적 컴퓨터-판독가능 저장 매체를 포함하며, 상기 비-일시적 컴퓨터-판독가능 저장 매체는 상기 프로세서에 의해 실행가능한 기계 실행가능 명령을 저장하고, 상기 기계 실행가능 명령은 상기 프로세서가 본 출원의 제 1 양상에서 제시되는 검색 방법을 수행하게 한다.

제 3 양상에 따르면, 본 출원의 일 실시예는 비-일시적 컴퓨터-판독가능 저장 매체를 제공하며, 상기 비-일시적 컴퓨터-판독가능 저장 매체는 기계 실행가능 명령을 저장하며, 프로세서에 의해 인보크(invoke)되고 실행될 때, 상기 기계 실행가능 명령은 상기 프로세서가 본 출원의 제 1 양상에서 제시되는 검색 방법을 수행하게 한다.

본 출원의 실시예들에서 제시되는 검색 방법에서, 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 결정되며, 각각의 제 1 검색 정책은 적어도 하나의 텍스트 인덱스 필드 및 상기 텍스트 인덱스 필드와 매칭하는 검색 가중치에 대응하며; 그 다음에 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드에 기초하여 상기 질의 텍스트에 대한 검색 동작이 수행되며; 최종적으로 모든 검색 동작들의 검색 결과들이 병합 및 출력된다. 상대적으로 정확한 검색 결과가 다수의 텍스트 인덱스 필드들을 갖는 정보에 대하여 획득될 수 있다. 검색 동작은 질의 텍스트와 연관되는 텍스트 인덱스 필드에서만 수행되고 모든 텍스트 인덱스 필드들을 검색할 필요가 없으며, 그 결과 무관한 텍스트 인덱스 필드 상의 리터럴 히트(literal hit)에 기인하는 부정확한 리콜링(recalling)이 회피될 수 있으며, 그에 의해 검색 결과의 상관을 효과적으로 향상시킬 수 있다. 또한, 상이한 텍스트 필드 인덱스들에 대한 매칭 검색 가중치들을 설정함으로써 검색 결과의 정확도가 효과적으로 향상될 수 있다.

본 출원의 실시예의 기술적 솔루션들을 보다 명확하게 기술하기 위해, 다음은 실시예들의 기술을 설명하기 위해 필요한 첨부 도면들을 간략하게 설명한다. 다음의 설명에서의 첨부 도면들은 단지 본 출원의 몇몇 실시예들을 보여주는 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 창조적인 노력들 없이 이러한 첨부 도면들로부터 다른 도면들을 도출할 수 있다.
도 1은 본 출원의 일 실시예에 따른 검색 방법의 플로우차트이다.
도 2는 본 출원의 다른 실시예에 따른 검색 방법의 플로우차트이다.
도 3은 본 출원의 또다른 실시예에 따른 검색 방법의 플로우차트이다.
도 4는 본 출원의 일 실시예에 따른 검색 장치의 하드웨어 구조의 개략적인 다이어그램이다.
도 5는 본 출원의 일 실시예에 따른 검색 로직의 기능적 블록 다이어그램이다.
도 6은 본 출원의 다른 실시예에 따른 검색 로직의 기능적 블록 다이어그램이다.
도 7은 본 출원의 또다른 실시예에 따른 검색 로직의 기능적 블록 다이어그램이다.
도 8은 본 출원의 또다른 실시예에 따른 검색 로직의 기능적 블록 다이어그램이다.

다음은 첨부 도면들과 관련하여 본 출원의 실시예들의 기술적 솔루션들을 명확하고 완전하게 기술한다. 명백하게, 설명된 실시예들은 본 출원의 모든 실시예들이라기 보다는 몇몇 실시예들이다. 창조적인 노력들 없이 본 출원의 실시예들에 기초하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 획득되는 모든 다른 실시예들은 본 출원의 보호 범위 내에 속해야 한다.

본 출원은 검색 방법을 제시한다. 도 1에 도시된 바와 같이, 상기 방법은 단계 100 내지 단계 120을 포함한다.

본 출원의 검색 방법은 두가지 타입들의 검색 정책들, 즉, 제 1 검색 정책 및 제 2 검색 정책을 포함할 수 있다. 제 1 검색 정책은 검색 자료(search material)에 있는 몇몇 텍스트 인덱스 필드들에 대하여 검색 동작을 수행할 수 있다. 제 2 검색 정책은 검색 자료에 있는 모든 텍스트 인덱스 필드들에 대하여 검색 동작을 수행할 수 있다.

단계 100: 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정한다.

각각의 제 1 검색 정책은 적어도 하나의 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치와 대응할 수 있다.

제 1 검색 정책은 질의될(to-be-queried) 검색 자료의 텍스트 인덱스 필드 및 상기 텍스트 인덱스 필드와 매칭하는 검색 가중치를 제한하는데 사용될 수 있다. 각각의 제 1 검색 정책은 적어도 하나의 텍스트 인덱스 필드와 대응할 수 있으며, 텍스트 인덱스 필드들은 동일하거나 또는 상이한 검색 가중치들을 가질 수 있다. 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드들은 동일하거나 또는 상이한 질의 텍스트들에 대응할 수 있다. 텍스트 인덱스 필드는 인덱스, 예를 들어, 역 인덱스(inverted index)를 생성하는데 사용될 수 있다. 텍스트 인덱스 필드의 컨텐츠는 통상적으로 검색 자료의 일 양상(aspect)을 설명하는데 사용될 수 있는 중요(meaningful) 텍스트이다. 케이터링 서비스를 제공하는 머천트는 일례로서 사용된다. 검색 자료의 관심 포인트(POI)는 머천트 이름, 등록된 회사 이름, 브랜드 이름, 사업 영역, 주소, 메인디쉬들 및 운영 시간들과 같은 필드들 중 적어도 하나를 포함할 수 있다. 이러한 텍스트 필드들은 텍스트 인덱스 필드들이다. 예를 들어, 검색 자료 "Jinbaiwan Wangjing Garden Branch Store"의 poi_name은 Jinbaiwan Roast Duck Restaurant (Wangjing Garden Store)일 수 있다. poi_name은 시스템에 기록되는 텍스트 인덱스 필드의 이름이다. 예를 들어, 상기 이름은 머천트 이름 "Jinbaiwan Roast Duck Restaurant"일 수 있다. poi_name 후의 텍스트는 텍스트 인덱스 필드의 특정 컨텐츠이며, 역 인덱스를 생성하는데 사용될 수 있다. 텍스트 인덱스 필드는 검색 자료의 필드를 나타내는데 사용될 수 있다. 이러한 방식으로, 검색될 질의 텍스트가 획득된 후에, 질의 텍스트와 매칭하는 제 1 검색 정책이 먼저 결정될 수 있다. 예를 들어, 다수의 제 1 검색 정책들의 텍스트 인덱스 필드들은 미리 설정될 수 있으며, 각각의 제 1 검색 정책에 대응하는 질의 텍스트가 설정된다. 예를 들어, 제 1 검색 정책들은 머천트 정책, 랜드마크 정책, 요리 이름 정책 등을 포함할 수 있다. 그 다음에, 각각의 제 1 검색 정책에 대응하는 질의 텍스트가 설정될 수 있다. 예를 들어, 머천트 정책에 대응하는 질의 텍스트들은 Jinbaiwan, KFC, Quanjude 등을 포함할 수 있다.

검색될 질의 텍스트는 클라이언트의 검색 바에서 사용자에 의해 입력될 수 있거나, 또는 사용자의 히스토리 행동 로그(historical behavior log)에 따라 클라이언트에 의해 자동적으로 생성될 수 있다. 예를 들어, 여성 사용자가 화장품 판매 페이지로 진입한 것을 검출하면, 클라이언트는 사용자의 연령 정보에 따라 사용자에게 관련있는 검색 결과들을 푸쉬(push)할 수 있다. 이러한 경우에, 클라이언트는 먼저 사용자 정보에 따라 질의 텍스트(예를 들어, 중년 여성)를 생성할 수 있고, 그 다음에 검색 엔진이 자동적으로 생성된 질의 텍스트에 대한 검색 동작을 수행하도록 인보크할 수 있다.

질의 텍스트에 매칭하는 적어도 하나의 제 1 검색 정책이 질의 텍스트들 및 제 1 검색 정책들 사이의 대응관계(correspondence)에 기초하여 결정될 때, 질의 텍스트들 및 제 1 검색 정책들 사이의 대응관계는 미리 수동적으로(manually) 확립(establish)될 수 있다. 예를 들어, 질의 텍스트 "KFC" 또는 "Jinbaiwan"에 대응하는 검색 정책은 머천트 정책으로 설정될 수 있다. 질의 텍스트들 및 제 1 검색 정책들 사이의 대응관계가 설정되면, 각각의 제 1 검색 정책에 포함되는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드에 대한 검색 가중치가 또한 설정될 수 있다. 예를 들어, 머천트 정책은 머천트 이름, 브랜드 이름 및 등록된 회사 이름과 같은 텍스트 인덱스 필드들을 포함하도록 설정될 수 있다. 또한, 머천트 정책에 대응하는 각각의 텍스트 인덱스 필드에 대한 검색 가중치는 다음과 같이 설정될 수 있다: 머천트 이름에 대한 검색 가중치는 50%이다. 브랜드 이름에 대한 검색 가중치는 30%이다. 등록된 회사 이름에 대한 검색 가중치는 20%이다. 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 대응하는 텍스트 인덱스 필드에 대한 검색 가중치는 사전 지식에 따라 설정될 수 있다.

검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 것은: 제 1 검색 정책들 및 질의 텍스트들 사이의 미리 설정된 대응관계에 따라 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 결정될 수 있다. 대안적으로, 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책은 미리 트레이닝된 분류자를 이용함으로써 질의 텍스트를 식별함으로써 결정될 수 있다. 제 1 검색 정책은 미리 수동적으로 확립될 수 있거나, 또는 사용자 히스토리 행동들에 따라 트레이닝을 통해 획득되는 식별 모델을 이용함으로써 식별을 통해 결정될 수 있다.

질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 미리 트레이닝된 분류자를 이용함으로써 결정될 때, 분류자는 먼저 검색 로그에 따라 트레이닝될 수 있다. 예를 들어, 일정 시간 기간에 걸쳐 검색 로그들이 획득된 후에, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하기 위해, 획득된 검색 로그들은 검색 로그들에 있는 매칭 텍스트들, 텍스트 인덱스 필드들 및 질의 텍스트들과 같은 정보에 따라 클러스터링될 수 있다. 검색 로그에 기초하는 트레이닝을 통해 획득되는 분류자는 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는데 이용될 수 있다.

단계 110: 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드에 기초하여 질의 텍스트에 대한 검색 동작을 수행한다.

하나의 질의 텍스트는 다수의 제 1 검색 정책들에 대응할 수 있고, 각각의 제 1 검색 정책은 다수의 텍스트 인덱스 필드들을 포함할 수 있다. 질의 텍스트와 매칭하는 제 1 검색 정책들이 결정된 후에, 각각의 제 1 검색 정책에 있는 텍스트 인덱스 필드에 기초하여 질의 텍스트에 대한 검색 동작이 수행될 수 있다. 예를 들어, 질의 텍스트 "Jinbaiwan"에 따라 결정될 수 있는 제 1 검색 정책들은 머천트 정책 및 랜드마크 정책을 포함한다. 머천트 정책에서, 질의 텍스트 "Jinbaiwan"과 매칭하는 텍스트 인덱스 필드들은 머천트 이름 및 브랜드 이름을 포함한다. 랜드마크 정책에서, 질의 텍스트 "Jinbaiwan"과 매칭하는 텍스트 인덱스 필드는 빌딩을 포함한다. 3개의 텍스트 인덱스 필드들: 머천트 이름, 브랜드 이름 및 빌딩에 기초하여 검색 자료에서 질의 텍스트 "Jinbaiwan"에 대하여 검색 동작이 수행될 수 있으며, 검색 결과들의 3개의 리스트들이 획득될 수 있다. 상이한 텍스트 인덱스 필드들에 기초하여 검색 자료에서 질의 텍스트에 대한 검색 동작이 수행될 때, 질의 텍스트 및 검색 자료 간의 상관은 각각의 텍스트 인덱스 필드에 대한 검색 가중치와 관련하여 계산될 수 있다.

검색 결과의 누락(missing)을 피하기 위해서, 대안적으로 검색 동작은 제 2 검색 정책에 기초하여 수행될 수 있다. 제 2 검색 정책은 모든 텍스트 인덱스 필드들에 대응한다. 이러한 방식으로 제 2 검색 정책에 기초하여 모든 텍스트 인덱스 필드들에서 질의 텍스트에 대한 검색 동작을 수행함으로써 획득되는 제 2 검색 결과는 제 1 검색 정책에 기초하여 대응하는 텍스트 인덱스 필드에서 질의 텍스트에 대한 검색 동작을 수행함으로써 획득되는 제 1 검색 결과에 대한 보충(supplement)으로서 이용될 수 있다.

단계 120: 모든 검색 동작들의 검색 결과들을 병합 및 출력한다.

모든 검색 동작들의 검색 결과들이 병합되고 출력되면, 검색 결과들은 먼저 소팅(sort)될 수 있고, 그 다음에 중복 검색 결과들이 필터링 아웃(filter out)되고, 남아있는 검색 결과들이 출력된다. 검색 결과들이 소팅될 때, 블록-기반 랭킹은 검색 정책 우선순위들에 기초하여 검색 결과들에 대하여 수행될 수 있거나, 또는 블록-기반 랭킹은 각각의 검색 정책의 판별 스코어(discriminant score)에 기초하여 검색 결과들에 대하여 수행될 수 있거나; 또는 검색 결과들의 평가 스코어들에 기초하여 혼합된 소팅이 모든 검색 결과들에 대하여 수행될 수 있다. 수행되는 검색 동작이 제 2 검색 정책에 기초하여 수행되는 질의 텍스트에 대한 검색 동작을 포함하는 경우, 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 제 2 검색 결과는 맨 아래로 랭크될 수 있다.

본 출원의 이러한 실시예에서 제시되는 검색 방법에 따르면, 검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 먼저 결정될 수 있다. 각각의 제 1 검색 정책은 적어도 하나의 텍스트 인덱스 필드에 대응하고, 각각의 텍스트 인덱스 필드는 미리 설정된 검색 가중치를 가진다. 그 다음에, 질의 텍스트에 대한 검색 동작이 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드에 기초하여 수행된다. 최종적으로, 모든 검색 동작들의 검색 결과들이 병합 및 출력된다. 이러한 방식으로, 검색 자료가 다수의 텍스트 인덱스 필드들에 관한 정보를 가지고 있는 경우라도, 상대적으로 정확한 검색 결과가 획득될 수 있다. 검색 동작은 질의 텍스트와 연관되는 텍스트 인덱스 필드에서만 수행되고 모든 텍스트 인덱스 필드들을 검색할 필요가 없으며, 그 결과 무관한 텍스트 인덱스 필드 상의 리터럴 히트에 기인하는 부정확한 리콜링이 회피될 수 있으며, 그에 의해 검색 결과의 상관을 효과적으로 향상시킬 수 있다. 또한, 상이한 텍스트 필드 인덱스들에 대한 검색 가중치들을 설정함으로써 검색 결과의 정확도가 효과적으로 향상될 수 있다.

본 출원의 일 실시예는 검색 방법을 제시한다. 도 2에 도시된 바와 같이, 상기 방법은 단계 200 내지 단계 250을 포함한다.

단계 200: 검색 로그에 기초하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝한다.

질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 분류자를 사용함으로써 결정될 때, 분류자는 먼저 검색 로그에 따라서 트레이닝될 수 있다. 검색 로그에 기초하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하는 동작은: 검색 로그를 클러스터링(cluster)하고, 검색 정책 공간 정의(search policy space definition)를 생성하는 동작 ― 검색 정책 공간 정의는 검색 로그에 있는 질의 텍스트 및 각각의 제 1 검색 정책 간의 매핑 관계를 나타내는데 사용됨 ―; 검색 정책 공간 정의에 기초하여 각각의 제 1 검색 정책에 대응하는 검색 로그를 획득하는 동작; 및 각각의 제 1 검색 정책에 대응하는 검색 로그에 기초하여, 대응하는 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하는 동작을 포함할 수 있다.

검색 로그를 클러스터링하고, 검색 정책 공간 정의를 생성하는 동작은: 질의 텍스트 카테고리를 획득하기 위해, 피처(feature)로서 텍스트 인덱스 필드에 있는 각각의 검색 로그에 따라 추출되는 질의 텍스트의 히트 스코어(hit score)를 이용함으로써 검색 로그를 클러스터링하는 동작을 포함할 수 있다. 각각의 질의 텍스트 카테고리는 하나 이상의 검색 정책들에 대응할 수 있다.

트레이닝을 통해 분류자가 획득되기 전에, 제 2 검색 정책에 기초한 검색 동작의 수행의 검색 로그가 먼저 획득될 수 있다. 트레이닝을 통해 획득되는 분류자를 보다 정확하게 만들기 위해, 그리고 트레이닝의 계산량을 최소화하기 위해, 오더-배치(order-placing) 행동들의 검색 로그들이 분류자를 트레이닝하기 위해 선택될 수 있다. 검색 서버에 기록되는 검색 로그들은 상이한 시스템들에서 달라진다. 예를 들어, 검색 로그는 검색 시간, 질의 텍스트, 매칭 텍스트, 텍스트 인덱스 필드, 결과 제시 리스트, 클리킹(clicking) 또는 오더링(ordering)과 같은 행동의 식별자 등을 포함할 수 있다. 오더-배치 행동들의 검색 로그들이 모든 검색 로그들에서 매우 낮은 비율을 차지하는 경우, 클릭 로그들 및 오더-배치 로그들은 분류자를 공동으로 트레이닝하기 위해 선택될 수 있다. 클릭 로그들 및 오더-배치 로그들이 분류자를 공동으로 트레이닝하기 위해 선택되는 경우, 클릭 로그들의 행동 타입 가중치는 오더-배치 로그들의 행동 타입 가중치보다 작을 수 있다.

각각의 텍스트 인덱스 필드의 히트 스코어는 획득된 검색 로그에 기초하여 계산될 수 있다. 예를 들어, 검색 로그에 있는 각각의 텍스트 인덱스 필드의 히트 스코어 score_i는 다음의 수학식 1을 이용함으로써 계산될 수 있다.

검색 동작이 질의 텍스트에 대하여 수행될 때 match_i는 i번째 텍스트 인덱스 필드에 있는 질의 텍스트와 매칭하는 텍스트를 나타내고, len(match_i)는 i번째 텍스트 인덱스 필드에 있는 질의 텍스트와 매칭하는 텍스트의 길이를 나타낸다. field_i는 i번째 텍스트 인덱스 필드의 컨텐츠를 나타내고, len(field_i)는 i번째 텍스트 인덱스 필드의 텍스트의 길이를 나타낸다. 통상적으로, len(match_i)≤len(field_i)이다. N은 평활 인자(smooth factor)이고, 수학식 1의 분모는 텍스트 인덱스 필드에 있는 텍스트의 길이 및 길이 제한 N 중 더 작은 값이 사용됨을 나타낸다. 전체 스코어가 너무 작지 않도록, 길이 제한 N은 분모의 상위 제한(upper limit)으로서 사용된다. type_j는 현재의 j번째 검색 로그에 대응하는 사용자 행동 타입의 가중치를 나타낸다. 예를 들어, 클릭 로그의 행동 타입 가중치 type은 0.8과 동일하고, 오더-배치 로그의 행동 타입 가중치 type은 1과 동일하다. 클릭 또는 오더-배치 행동이 발생하는 각각의 로그에서의 각각의 텍스트 인덱스 필드에 기초하여, 로그에 있는 텍스트 인덱스 필드의 히트 스코어로서 적어도 하나의 비-제로(non-zero) 값이 획득될 수 있음이 이해될 수 있다. 검색 서비스의 기능에 의존하여, N은 30과 같은 자연수로 설정될 수 있다.

텍스트 인덱스 필드 벡터가 초기화되고, 벡터의 차원(dimension)들은 검색 로그에 있는 텍스트 인덱스 필드들의 수량(quantity)과 동일하다. 예를 들어, 검색 로그는 M개의 텍스트 인덱스 필드들을 포함한다. 이러한 경우에, 텍스트 인덱스 필드 벡터는 M 차원의 벡터일 수 있다. 각각의 검색 로그에 있는 각각의 텍스트 인덱스 필드의 히트 스코어 score_i는 수학식 1을 이용함으로써 계산될 수 있다. 이러한 방식으로, M 차원의 벡터가 각각의 검색 로그에 대하여 획득될 수 있다. [0, 0, 1.0, 0.8, 0,..., 및 0] 또는 [0, 0, 0.9, 0.9, 0,..., 및 0]과 유사한 M차원의 다수의 벡터들이 다수의 검색 로그들에 대하여 획득될 수 있다. M은 검색 로그에 있는 텍스트 인덱스 필드들의 수량이고, M 차원의 각각의 벡터의 i번째 차원의 값은 각각의 검색 로그에 있는 i번째 텍스트 인덱스 필드의 히트 스코어에 대응한다.

M 차원의 다수의 비-제로 벡터들이 다수의 오더-배치 행동 로그들 및/또는 클릭 행동 로그들에 따라 획득된 후에, M 차원의 다수의 벡터들이 클러스터링되고, 다시 말하면, 매칭이 텍스트 인덱스 필드에서 유사한 케이스들을 갖는 검색들의 타입에 대하여 수행되고 검색들이 동일한 카테고리로 클러스터링되어, 그 결과 검색 로그에 있는 질의 텍스트 및 각각의 제 1 검색 정책 간의 매칭 관계가 확립될 수 있다. 일 실시예에서, M 차원의 획득된 벡터들은 Dbscan 클러스터링 알고리즘 또는 k-means 클러스터링 알고리즘과 같은 다-차원 공간의 수치적(numerical) 클러스터링 방법을 이용함으로써 클러스터링될 수 있다. 이용되는 클러스터링 알고리즘은 본 출원에서 한정되지 않는다.

클러스터링 계산 후에, 클러스터링의 중심 포인트는 제 1 검색 정책의 공간 정의로서 고려될 수 있다. 질의 텍스트의 특정 카테고리가 특정 제 1 검색 정책과 대응할 수 있도록, 제 1 검색 정책의 공간 정의는 제 1 검색 정책 및 검색 로그에 있는 질의 텍스트 간의 매핑 관계를 나타내는데 이용될 수 있다. 예를 들어, 사용자가 "Jinbaiwan", "Haidilao" 또는 "Jiutouying Jiujia"와 같은 질의 텍스트를 입력한 경우에, 사용자는 통상적으로 대응하는 머천트를 검색한다. 전술한 클러스터링 방법에 따르면, 질의 텍스트들 "Jinbaiwan", "Haidilao" 및 "Jiutouying Jiujia"는 하나의 타입으로서 클러스터링된다. 학습될 수 있는 바와 같이, 검색 로그에 따른 클러스터링 프로세스는 실제적으로 지도 학습(supervised learning)이 겉보기로 채워진(seemingly cluttered) 검색 결과들에 대하여 수행되는 프로세스이며, 질의 텍스트의 특정 타입의 이용에 의한 몇몇 텍스트 인덱스 필드들에서의 검색이 질의 텍스트의 특정 타입의 이용에 의한 모든 텍스트 인덱스 필드들에서의 검색보다 더 효율적임이 학습된다. 클러스터링 결과들은 통상적으로 너무 정밀(fine)하지 않아야 하며, 클러스터링 결과들의 양(quantity)이 100개 이내에 있도록 제어하는 것이 더 양호하다. 자동 클러스터링 방법을 이용하는 동안, 제 1 검색 정책의 특정 의미에 주목함이 없이 그리고 제 1 검색 정책을 미리정의함이 없이, 질의 텍스트에 대응하는 제 1 검색 정책이 결정될 수 있고 추가적으로 제 1 검색 정책에 대응하는 텍스트 인덱스 필드가 결정될 수 있다. 이러한 방법은 효과적으로 수동으로 정책들을 구성하는데 있어 에러들의 가능성을 감소시키고 잠재적인(potential) 발견하기-어려운(difficult-to-discover) 데이터 법칙들을 식별할 수 있다.

그 다음에, 제 1 검색 정책을 식별하기 위한 분류자가 질의 텍스트들의 각각의 카테고리에 기초하여 트레이닝될 수 있다.

일 실시예에서, 질의 텍스트들의 각각의 카테고리는 포지티브 샘플들로서 이용될 수 있으며, 특정 양의 네거티브 샘플들이 수집된다. 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하기 위해, 포지티브 샘플들 및 네거티브 샘플들은 지도 학습을 위한 트레이닝 샘플 데이터로서 사용된다. 각각의 질의 텍스트 카테고리는 하나의 제 1 검색 정책에 대응할 수 있다. 일 실시예에서, 멀티-분류자를 구현하기 위한 두가지 방식들이 존재할 수 있으며; 하나의 방식은 하나의 멀티-분류자이고; 다른 방식은 복수의 이진 분류자들의 피팅(fit)이다. 예를 들어, 복수의 이진 분류자들이 이러한 실시예에서 피팅될 수 있다. 분류 모델들을 위한 복수의 선택들이 존재할 수 있다. 이러한 실시예에서, 분류자의 트레이닝 프로세스는 일례로서 트레이닝 샘플 데이터의 지도 학습을 위한 서포트 벡터 머신(SVM) 분류자의 사용을 이용함으로써 기술된다. 먼저, 샘플 피처들이 트레이닝 샘플 데이터로부터 추출된다. 추출된 샘플 피처들은 적어도 질의 텍스트의 텍스트 피처들, 예를 들어, 질의 텍스트 및 워드 세그멘테이션(word segmentation)이 질의 텍스트에 대하여 수행된 후에 획득되는 워드 세그멘테이션 조합을 포함할 수 있다. 트레이닝 샘플 데이터로부터 추출되는 샘플 피처들은 질의 길이, 프리픽스(prefix), 서픽스(suffix), POS+바이그램(POS+bigram), POS+유니그램(POS+unigram), POS 및 다른 조합된 피처들을 더 포함할 수 있다. 질의 길이는 질의 텍스트의 길이이고, 프리픽스 및 서픽스는 각각 질의 텍스트의 프리픽스 및 서픽스이고, 유니그램 및 바이그램은 질의 텍스트의 텍스트 피처들이고, POS+유니그램은 질의 텍스트의 텍스트 피처의 위치이다.

제 1 검색 정책을 식별하기 위한 분류자를 획득하기 위해, 전술한 추출된 샘플 피처들은 SVM 분류자를 이용함으로써 트레이닝될 수 있다. 샘플 피처들에 기초하여 분류자를 트레이닝하기 위해 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게 친숙한 임의의 기술이 이용될 수 있다. 세부내용들이 여기에서 설명되지는 않는다.

샘플 트레이닝 이후에, 각각의 질의 텍스트 카테고리에 대하여, 후속적으로 획득된 질의 텍스트를 식별하기 위하여, 제 1 검색 정책을 식별하기 위한 대응하는 분류자가 획득될 수 있다.

단계 210: 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정한다.

각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하는 두가지 방식들이 존재한다. 제 1 방식에서, 제 1 검색 정책이 수동으로 미리설정되는 경우, 제 1 검색 정책에 있는 텍스트 인덱스 필드 및 질의 텍스트 간의 대응관계는 또한 수동으로 미리설정되고, 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드와 매칭하는 검색 가중치는 또한 수동으로 미리설정될 수 있다. 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치는 경험(experience)에 따라 프로그램 코드로 수동으로 미리설정될 수 있거나, 또는 요구되는 대로 사용자 인터페이스를 제공함으로써 사용자에 의해 설정될 수 있다. 세부내용들이 여기에서 설명되지는 않는다.

제 2 방식에서, 각각의 제 1 검색 정책의 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치는 검색 로그에 따라 설정된다. 예를 들어, 각각의 제 1 검색 정책에 대응하는 모든 검색 로그들은 각각의 제 1 검색 정책에 대하여 획득될 수 있다. 그 다음에, 각각의 텍스트 인덱스 필드에서 제 1 검색 정책에 대응하는 검색 로그에서 질의 텍스트의 히트 스코어에 따라서 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드의 평균 가중치에 대하여 반복적인 계산이 수행된다. 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 텍스트 인덱스 필드와 매칭하는 검색 가중치는 제 1 검색 정책에 대응하는 텍스트 인덱스 필드의 평균 가중치에 따라서 결정된다. 검색 로그는 제 2 검색 정책을 이용함으로써 모든 텍스트 인덱스 필드들에 대한 검색 동작을 수행함으로써 획득되는 검색 로그일 수 있다. 예를 들어, 각각의 제 1 검색 정책에 대응하는 검색 로그를 결정하기 위해, 제 1 검색 정책의 공간 정의가 클러스터링을 통해 획득될 때 사용되는 검색 로그가 인덱싱될 수 있다.

대안적으로 검색 로그는 텍스트 인덱스 필드의 초기화된 검색 가중치를 사용함으로써 각각의 제 1 검색 정책에 따라 모든 텍스트 인덱스 필드들에 대하여 검색 동작을 수행함으로써 획득되는 검색 로그일 수 있다. 일례로서 M개의 텍스트 인덱스 필드들을 포함하는 검색 자료를 이용하여, 각각의 제 1 검색 정책이 M개의 텍스트 인덱스 필드들에 대응하고 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치가 1/M이라고 가정된다. 그 다음에, 가정된 제 1 검색 정책이 실행되고, 가정된 제 1 검색 정책에 따라 질의 텍스트에 대하여 검색 동작이 수행되고, 일정 시간 기간 내에 검색 동작의 검색 로그들이 획득된다.

검색 서버는 각각의 제 1 검색 정책에 대응하는 검색 로그를 획득하는데 사용될 수 있으며, 검색 로그의 획득은 각각의 검색 로그의 질의 텍스트, 히트 텍스트, 텍스트 인덱스 필드, 행동 타입 등을 획득하는 것을 포함한다. 히트 텍스트는 텍스트 인덱스 필드에 있는 질의 텍스트의 매칭 텍스트이다. 이러한 출원의 일 실시예에서, 각각의 텍스트 인덱스 필드에서 각각의 제 1 검색 정책에 대응하는 각각의 검색 로그에서 질의 텍스트의 히트 스코어에 따라서 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드의 평균 가중치에 대하여 반복적인 계산이 수행되는 것은 다음의 4개의 단계들을 포함할 수 있다.

단계 1. 각각의 검색 로그에서 모든 텍스트 인덱스 필드들의 단일 로그 가중치들을 획득한다. 일례로서 M개의 텍스트 인덱스 필드들을 포함하는 검색 자료를 사용하여, 각각의 검색 로그는 적어도 하나의 텍스트 인덱스 필드와 매칭한다. 히트 스코어가 계산되기 전에, M개의 텍스트 인덱스 필드들의 검색 가중치들은 개별적으로 1/M으로 초기화될 수 있다. 그 다음에, 각각의 검색 로그에서 각각의 텍스트 인덱스 필드의 단일 로그 가중치가 다음의 수학식 2를 이용하여 계산될 수 있다.

type_j는 j번째 검색 로그의 행동 타입 가중치이다. 예를 들어, j번째 검색 로그가 클릭 로그인 경우, type_j는 0.8과 동일하거나, 또는 j번째 검색 로그가 순서-배치(order-placing) 로그인 경우, type_j는 1과 동일하다. 클릭 로그의 행동 타입 가중치가 순서-배치 로그의 행동 타입 가중치보다 작은 경우, type_j는 대안적으로 다른 값일 수 있다. field_i는 i번째 텍스트 인덱스 필드의 컨텐츠를 나타내고, len(field_i)는 i번째 텍스트 인덱스 필드의 컨텐츠의 길이를 나타낸다. match_i는 i번째 텍스트 인덱스 필드에서 j번째 검색 로그의 질의 텍스트의 매칭 컨텐츠를 나타내며, 검색 프로세스에서 획득될 수 있다. 대안적으로 각각의 검색 로그에서 각각의 텍스트 인덱스 필드의 단일 로그 가중치는 다른 수학식을 이용함으로써 계산될 수 있다. 이러한 실시예에서, 매끄러운(smooth) 상한치를 획득하기 위해, 지수 비율(exponent proportion)이 단일 로그 가중치의 상한치를 제어하는데 사용된다.

각각의 검색 로그에서 모든 텍스트 인덱스 필드들의 단일 로그 가중치들은 전술한 수학식 2를 이용함으로써 획득될 수 있다. 예를 들어, 전체 Y개의 순서-배치 로그들이 있으며 각각의 순서-배치 로그가 M개의 텍스트 인덱스 필드들을 가진다고 가정된다. 이러한 경우에, Y개의 순서-배치 로그들에서 모든 M개의 텍스트 인덱스 필드들의 단일 로그 가중치들이 수학식 2를 이용함으로써 개별적으로 획득된 후에, 각각의 텍스트 인덱스 필드는 Y개의 단일 로그 가중치들에 대응한다.

각각의 제 1 검색 정책이 적어도 하나의 텍스트 인덱스 필드에 대응할 수 있기 때문에, 각각의 텍스트 인덱스 필드는 복수의 제 1 검색 정책들에 대응할 수 있다. 예를 들어, 머천트 정책은 3개의 텍스트 인덱스 필드들: 머천트 이름, 주소 및 머천트 브랜드에 대응할 수 있으며, 랜드마크 정책은 2개의 텍스트 인덱스 필드들: 머천트 이름 및 주소에 대응할 수 있다. 각각의 제 1 검색 정책에 대응하는 각각의 검색 로그에서 모든 텍스트 인덱스 필드들의 단일 로그 가중치들을 획득하기 위해, 각각의 제 1 검색 정책에 대응하는 모든 검색 로그들은 전술한 수학식 2를 이용함으로써 개별적으로 계산될 수 있다.

단계 2. 각각의 제 1 검색 정책에 대응하는 각각의 검색 로그에서 모든 텍스트 인덱스 필드들의 단일 로그 가중치들에 기초하여 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드의 평균 가중치를 계산한다. 예를 들어, 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드의 평균 가중치를 획득하기 위해, 각각의 제 1 검색 정책에 대응하는 각각의 검색 로그에서 각각의 텍스트 인덱스 필드의 단일 로그 가중치에 대하여 평균 값이 계산될 수 있다. 수학식 3은 다음과 같다:

weight_i는 제 1 검색 정책에 대응하는 검색 로그에서 i번째 텍스트 인덱스 필드의 단일 로그 가중치이고, count_i는 제 1 검색 정책에 대응하는 모든 검색 로그들에서 i번째 텍스트 인덱스 필드의 비-제로(non-zero) 단일 로그 가중치들의 수량이고, weight_avg_i는 제 1 검색 정책에 대응하는 i번째 텍스트 인덱스 필드의 평균 가중치를 나타낸다.

일례로서 클러스터링을 통한 P개의 제 1 검색 정책들(예를 들어, P개의 제 1 검색 정책들은 G1, G2,..., 및 Gp로서 개별적으로 표시될 수 있음)의 획득을 이용하여, 제 1 검색 정책 G1은, 개별적으로 T1, T2 및 T3로 표시될 수 있는, 3개의 텍스트 인덱스 필드들에 대응한다고 가정된다. 제 1 검색 정책 G1에 대응하는 텍스트 인덱스 필드 T1의 평균 가중치 weight_avg₁, 제 1 검색 정책 G1에 대응하는 텍스트 인덱스 필드 T2의 평균 가중치 weight_avg₂, 및 제 1 검색 정책 G1에 대응하는 텍스트 인덱스 필드 T3의 평균 가중치 weight_avg₃이 계산된다.

단계 3. 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드의 평균 가중치의 정규화된(normalized) 가중치 값을 획득한다.

각각의 제 1 검색 정책에 대응하는 M개의 텍스트 인덱스 필드들의 평균 가중치들은 전술한 두 단계들에서 계산을 통해 획득될 수 있으며, 몇몇은 비-제로 평균 가중치들이고, 나머지 평균 가중치들은 0과 동일하다. 평균 가중치들의 정규화된 가중치 값을 획득하기 위해, 비-제로 평균 가중치들은 다음의 수학식을 이용함으로써 정규화될 수 있다. 수학식 4는 다음과 같다:

weight_avg_j는 제 1 검색 정책에 대응하는 j번째 텍스트 인덱스 필드의 비-제로 평균 가중치이고, weight'_i는 제 1 검색 정책에 대응하는 i번째 텍스트 인덱스 필드의 정규화된 가중치 값이고, N은 비-제로 평균 가중치들의 수량이다. 예를 들어, 제 1 검색 정책 G1에 대응하는 모든 텍스트 인덱스 필드들 T1, T2 및 T3의 정규화된 가중치 값들 weight'₁, weight'₂ 및 weight'₃을 획득하기 위해, 제 1 검색 정책 G1에 대응하는 텍스트 인덱스 필드 T1의 평균 가중치 weight_avg₁, 제 1 검색 정책 G1에 대응하는 텍스트 인덱스 필드 T2의 평균 가중치 weight_avg₂ 및 제 1 검색 정책 G1에 대응하는 텍스트 인덱스 필드 T3의 평균 가중치 weight_avg₃이 정규화된다. 정규화 후에, 각각의 제 1 검색 정책에 대응하는 모든 텍스트 인덱스 필드들의 가중치들의 합은 1이다.

단계 4. 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드로서 비-제로 정규화된 가중치 값을 갖는 텍스트 인덱스 필드를 결정한다. 비-제로 정규화된 가중치 값은 제 1 검색 정책에서 텍스트 인덱스 필드의 검색 가중치이다.

전술한 반복적인 계산 후에, 사용자가 관심있는 텍스트 인덱스 필드가 검색 자료로부터 선택될 수 있도록 각각의 제 1 검색 정책에 대하여 비-제로 정규화된 가중치 값들을 갖는 복수의 텍스트 인덱스 필드들이 결정되고, 텍스트 인덱스 필드의 정규화된 가중치 값은 검색 자료의 상관을 계산하기 위한 검색 가중치로서 사용될 수 있다.

각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드의 획득된 비-제로 정규화된 가중치 값은 너무 작을 수 있다. 노이즈(noise)를 피하기 위해, 임계치가 너무 작은 비-제로 정규화된 가중치 값을 제거하도록 설정될 수 있다. 각각의 텍스트 인덱스 필드에서 제 1 검색 정책에 대응하는 각각의 검색 로그에서 질의 텍스트의 히트 스코어에 따라서 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드의 평균 가중치에 대하여 반복적인 계산이 수행되는 것은: 텍스트 인덱스 필드의 정규화된 가중치 값이 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드로서 미리설정된 임계치보다 큰 텍스트 인덱스 필드를 결정하는 것을 더 포함할 수 있다. 미리설정된 임계치는 1/(비-제로 정규화된 가중치 값들의 수량)일 수 있다.

제 1 검색 정책의 식별 동안에, 질의 텍스트가 현재의 제 1 검색 정책에 대하여 적절한지 여부를 표시하는 결과를 획득하기 위해, 전체 질의 텍스트가 트레이닝된 분류자로 입력될 수 있다.

단계 220: 검색될 질의 텍스트를 획득한다.

검색될 질의 텍스트는 클라이언트의 검색 바에서 사용자에 의해 입력된 질의 텍스트일 수 있거나, 또는 사용자의 히스토리 행동 로그에 따라 클라이언트에 의해 자동적으로 생성되는 질의 텍스트일 수 있다. 예를 들어, 여성 사용자가 화장품 판매 페이지로 진입한 것을 클라이언트가 검출한 후에, 클라이언트는 사용자의 연령 정보에 따라 사용자에게 관련있는 검색 결과들을 푸쉬할 수 있다. 이러한 경우에, 클라이언트는 먼저 사용자 정보에 따라 질의 텍스트(예를 들어, 중년 여성)를 생성하고, 그 다음에 검색 엔진이 자동적으로 생성된 질의 텍스트에 대한 검색 동작을 수행하도록 인보크한다.

단계 230: 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정한다.

각각의 제 1 검색 정책은 적어도 하나의 텍스트 인덱스 필드 및 텍스트 인덱스 필드와 매칭하는 검색 가중치와 대응된다.

질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 것은: 제 1 검색 정책들 및 질의 텍스트들 간의 미리설정된 대응관계에 따라 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 것; 또는 미리트레이닝된 분류자의 이용에 의해 질의 텍스트를 식별함으로써 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 것을 포함할 수 있다. 미리트레이닝된 분류자의 이용에 의해 질의 텍스트를 식별함으로써 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 결정될 때, 각각의 분류자의 식별 결과를 획득하기 위해, 질의 텍스트는 복수의 미리트레이닝된 분류자들로 개별적으로 입력될 수 있다. 분류자 또는 몇몇 분류자들에 의한 식별이 질의 텍스트로 적용가능할 때, 이러한 분류자 또는 분류자들에 대응하는 제 1 검색 정책이 질의 텍스트와 매칭하는 제 1 검색 정책으로서 사용된다.

단계 240: 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드에 기초하여 질의 텍스트에 대한 검색 동작을 수행한다.

하나의 질의 텍스트가 하나 이상의 제 1 검색 정책들과의 매칭으로서 식별될 수 있으며, 각각의 제 1 검색 정책은 각각의 텍스트 인덱스 필드 및 검색 가중치와 대응한다. 각각의 제 1 검색 정책에 대응하는 리콜(recall) 결과 세트를 획득하기 위해, 검색 서버는 복수의 제 1 검색 정책들에 따라 검색 동작을 개별적으로 수행할 수 있다.

각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드에 기초하여 질의 텍스트에 대한 검색 동작을 수행하는 것은: 검색 자료에 있는 텍스트 인덱스 필드 및 질의 텍스트 간의 상관에 따라 자료 리콜을 수행하는 것을 포함한다. 상관은 텍스트 인덱스 필드에 대한 검색 가중치에 기초하여 결정될 수 있다. 각각의 제 1 검색 정책에 대응하는 리콜 결과 세트를 획득하기 위해, 검색 서버는 멀티스레딩 기술을 이용함으로써 복수의 제 1 검색 정책들에 기초하여 병렬적으로 검색 동작을 수행할 수 있다. 각각의 제 1 검색 정책은 각각의 제 1 검색 정책의 개별적인 텍스트 인덱스 필드 및 검색 가중치에 대응한다. 그러므로, 전체 검색 서버의 리콜 결과 소팅 효과가 효과적으로 향상될 수 있도록, 검색 자료 및 질의 텍스트 간의 상관 스코어를 계산함으로써 보다 중요한 텍스트 인덱스 필드가 더 높은 상관 스코어를 획득하도록 인에이블(enable)될 수 있다.

예를 들어, 검색 서버는 상관 스코어로서 선형 상관 가중된 스코어를 이용한다고 가정된다. 수학식 5는 다음과 같다:

예를 들어, 머천트 "KFC"는 2개의 텍스트 인덱스 필드들에 대응한다: 첫번째 텍스트 인덱스 필드는 "머천트 이름"이고, 대응하는 질의 텍스트는 "KFC"이고; 두번째 텍스트 인덱스 필드는 "위치"이고, 대응하는 질의 텍스트는 "Wudaokou 지하철역의 서쪽"이다. 머천트 "Pizza Hut"은 동일한 2개의 텍스트 인덱스 필드들에 대응할 수 있다: 첫번째 텍스트 인덱스 필드는 "머천트 이름"이고, 대응하는 질의 텍스트는 "Pizza Hut"이고; 두번째 텍스트 인덱스 필드는 "위치"이고, 대응하는 질의 텍스트는 "KFC Wudaokou 스토어의 동쪽"이다. 질의 텍스트가 "KFC"일 때, "머천트 이름"에 대응하는 텍스트 인덱스 필드의 검색 가중치가 더 큰 경우에, 머천트 "KFC"의 상관 스코어는 머천트 "Pizza Hut"의 상관 스코어보다 더 높다.

단계 250: 모든 검색 동작들의 검색 결과들을 병합 및 출력한다.

모든 검색 동작들의 검색 결과들의 병합 및 출력은: 미리설정된 정책에 따라 적어도 하나의 제 1 검색 정책에 기초하여 검색 결과들을 소팅; 더 낮게 랭킹되는 중복 검색 결과들을 필터링 아웃; 및 남아있는 검색 결과들의 출력을 포함할 수 있다. 모든 검색 동작들의 검색 결과들이 병합 및 출력될 때, 검색 결과들은 미리설정된 정책에 따라 먼저 소팅될 수 있다. 검색 결과들이 소팅될 때, 블록-기반 랭킹이, 수동으로 설정된 우선순위들에 따라서, 복수의 제 1 검색 정책들에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과들에 대하여 수행될 수 있거나; 또는 블록-기반 랭킹이 각각의 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과들의 상관 스코어들에 따라 수행될 수 있거나; 또는 혼합된 소팅이, 검색 결과들의 상관 스코어들에 따라서, 모든 제 1 검색 정책들에 대하여 획득되는 검색 결과들에 대하여 수행될 수 있다. 그 다음에, 더 낮게 랭킹되는 중복 검색 결과들이 필터링 아웃되고, 남아있는 검색 결과들이 출력된다.

본 출원의 이러한 실시예에서 제시되는 검색 방법에서, 제 1 검색 정책을 식별하기 위한 분류자가 검색 로그에 기초하여 트레이닝될 수 있고, 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치가 결정될 수 있다. 이러한 방식으로, 검색 프로세스에서, 획득된 검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 질의 텍스트에 따라서 결정될 수 있으며, 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드에 기초하여 검색 동작이 질의 텍스트에 대하여 개별적으로 수행된 후에, 모든 검색 동작들의 검색 결과들이 병합 및 출력된다. 동일한 질의 텍스트가 대응하는 텍스트 인덱스 필드에서만 검색을 위해 사용되고 모든 텍스트 인덱스 필드들을 검색할 필요가 없도록, 검색 동작은 질의 텍스트와 연관된 텍스트 인덱스 필드에서 수행되며, 그에 의해 무관한 텍스트 인덱스 필드 상의 리터럴 히트에 기인하는 부정확한 리콜링이 회피될 수 있고, 복수의 텍스트 인덱스 필드들에 대한 정보와 검색 결과의 상관을 효과적으로 향상시킬 수 있다. 또한, 상이한 텍스트 필드 인덱스들에 기초하여 매칭되는 검색 가중치들의 이용에 의해 검색 결과들의 랭킹들을 최적화시킴으로써 검색 결과들의 정확도가 효과적으로 향상될 수 있다.

제 1 검색 정책을 식별하기 위한 분류자는 검색 로그에 기초하여 트레이닝되고, 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하기 위해 반복적인 계산이 검색 로그에 기초하여 수행되며, 그 결과 사용자의 검색 예상이 충분하게 반영될 수 있고, 그에 의해 검색 결과들의 정확도를 추가적으로 효과적으로 향상시킬 수 있다.

본 출원의 일 실시예는 검색 방법을 제시한다. 도 3에 도시된 바와 같이, 상기 방법은 단계 300 내지 단계 370을 포함할 수 있다.

단계 300: 검색 로그에 기초하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝한다.

트레이닝의 특정 구현을 위해, 검색 로그에 기초하여, 제 1 검색 정책을 식별하기 위한 분류자는 전술한 실시예를 참조한다. 세부내용들이 여기에서 다시 설명되지는 않는다.

단계 310: 각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정한다.

각각의 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하는 특정한 구현에 대하여 전술한 실시예를 참조한다. 세부내용들이 여기에서 다시 설명되지는 않는다.

단계 320: 검색될 질의 텍스트를 획득한다.

검색될 질의 텍스트를 획득하는 특정한 구현에 대하여 전술한 실시예를 참조한다. 세부내용들이 여기에서 다시 설명되지는 않는다.

단계 330: 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정한다.

각각의 제 1 검색 정책은 적어도 하나의 텍스트 인덱스 필드 및 텍스트 인덱스 필드와 매칭하는 검색 가중치에 대응될 수 있다.

질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 특정한 구현에 대하여 전술한 실시예를 참조한다. 세부내용들이 여기에서 다시 설명되지는 않는다.

단계 340: 적어도 하나의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드에서 질의 텍스트에 대한 검색 동작을 수행한다.

적어도 하나의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드에 기초하여 질의 텍스트에 대한 검색 동작을 수행하는 특정한 구현에 대하여 전술한 실시예를 참조한다. 세부내용들이 여기에서 다시 설명되지는 않는다.

단계 350: 제 2 검색 정책에 기초하여 질의 텍스트에 대한 검색 동작을 수행한다.

제 2 검색 정책은 검색 자료의 모든 텍스트 인덱스 필드들과 대응하며, 모든 텍스트 인덱스 필드들의 검색 가중치들은 동일하다.

시스템 견고성(robustness)을 증가시키기 위해, 질의 텍스트에 대한 검색 동작은 제 2 검색 정책에 기초하여 모든 텍스트 인덱스 필드들에 대하여 추가적으로 수행될 수 있다. 소팅에서, 결과가 없을 때 리콜링을 피하기 위해, 제 2 검색 정책에 대응하는 검색 결과는 제 1 검색 정책에 대응하는 검색 결과 뒤에 배치된다.

단계 360: 모든 검색 동작들의 검색 결과들을 병합 및 출력한다.

모든 검색 동작들의 검색 결과들을 병합 및 출력하는 것은: 미리설정된 정책에 따라 제 1 검색 정책에 기초하여 수행된 모든 검색 동작들의 검색 결과들을 소팅하는 것; 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과 뒤에 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과를 배치하는 것; 더 낮게 랭킹되는 중복 검색 결과들을 필터링 아웃하는 것; 및 남아있는 검색 결과들의 출력하는 것을 포함할 수 있다. 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과들을 소팅하기 위한 특정한 구현에 대하여 전술한 실시예를 참조한다. 세부내용들이 여기에서 다시 설명되지는 않는다. 그 다음에, 더 낮게 랭킹되는 중복 검색 결과들이 필터링 아웃되고 남아있는 검색 결과들이 출력된다.

단계 370: 미리설정된 조건이 만족되면, 제 2 검색 정책에 대응하는 검색 로그에 기초하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝 및 업데이트한다.

사용자의 사용 습관들이 변하거나 또는 검색 자료들이 끊임없이 증가하기 때문에, 제 1 검색 정책은 사용자 검색 요구를 충족할 수 있지 않을 수 있다. 이러한 경우에, 사용자는 제 2 검색 정책에 기초하여 검색 동작을 수행한 후에 리턴되는 검색 결과를 빈번하게 선택할 수 있다. 이러한 경우에, 제 1 검색 정책은 제공되는 검색 결과에 대하여 사용자의 선택 행동 로그에 기초하여 업데이트될 필요가 있다. 미리설정된 조건은 미리설정된 업데이트 주기에 도달한 것, 및 제 1 연결-클릭(click-through) 레이트 대 제 2 연결-클릭 레이트의 비가 미리설정된 임계치보다 작은 것 중 적어도 하나를 포함한다. 제 1 연결-클릭 레이트는 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과의 연결-클릭 레이트이고, 제 2 연결-클릭 레이트는 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과의 클릭-연결 레이트이다.

미리설정된 업데이트 주기는 검색 자료의 업데이트 속도에 따라서 결정될 수 있거나 또는 수동으로 설정될 수 있으며, 예를 들어, 1달일 수 있다. 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과에 대한 사용자의 제 1 연결-클릭 레이트 및 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과에 대한 사용자의 제 2 클릭-연결 레이트는 검색 서버의 검색 로그의 통계적 분석을 통해서 획득될 수 있다.

미리설정된 업데이트 주기에 도달한 때, 또는 제 1 연결-클릭 레이트 대 제 2 연결-클릭 레이트의 비가 미리설정된 임계치보다 작을 때, 단계 300 및 단계 310은 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 로그에 기초하여 수행될 수 있고, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하는 동작 및 제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하는 동작은 검색 로그에 기초하여 반복적으로 수행되고, 트레이닝을 통해 획득된 분류자 및 제 1 검색 정책이 원래의 제 1 검색 정책에 보충(supplement)된다.

제 2 검색 정책과 관련하여 검색 동작을 수행하는 것은 누락된 검출에 기인하여 결과가 없을 때 리콜링을 회피할 수 있다. 추가적으로, 제 2 검색 정책에 대응하는 검색 결과와 관련하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하는 동작을 반복적으로 수행함으로써 사용자의 사용 습관들에서의 변화 및 새로운 제 1 검색 정책에 기인하여 제 1 검색 정책이 더이상 적절하지 않게 되는 문제점이 시기 적절한 방식으로 발견될 수 있다.

전술한 검색 방법에 대응하여, 본 출원의 일 실시예는 검색 장치를 추가적으로 제공한다. 도 4는 검색 장치의 하드웨어 구조의 개략적인 다이어그램이다. 검색 장치는 프로세서(401) 및 기계 실행가능한 명령을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체(402)를 포함할 수 있다. 프로세서(401)는 시스템 버스(403)를 통해 비-일시적 컴퓨터-판독가능 저장 매체(402)와 통신할 수 있다. 또한, 프로세서(401)는 비-일시적 컴퓨터-판독가능 저장 매체(402)에 있는 검색 로직에 대응하는 기계 실행가능한 명령을 판독 및 실행함으로써 전술한 검색 방법을 수행할 수 있다. 검색 장치는 PC, 모바일 단말, 개인 디지털 어시스턴트, 태블릿 컴퓨터 등일 수 있다.

본 명세서에서 언급되는 비-일시적 컴퓨터-판독가능 저장 매체(402)는 임의의 전자적, 자기적, 광학적 또는 다른 물리적 저장 장치일 수 있으며, 실행가능한 명령 또는 데이터와 같은 정보를 포함하거나 또는 저장할 수 있다. 예를 들어, 비-일시적 컴퓨터-판독가능 저장 매체는 랜덤-액세스 메모리(RAM), 휘발성 메모리, 비-휘발성 메모리, 플래시 메모리, (하드디스크 드라이브와 같은) 스토리지 디바이스, 솔리드-스테이트 드라이브, (콤팩트 디스크 또는 DVD와 같은) 임의의 타입의 스토리지 디스크, 유사한 저장 매체, 또는 이들의 조합일 수 있다.

도 5는 본 출원의 일 실시예에 따른 검색 로직의 기능적 블록 다이어그램이다. 도 5에 도시된 바와 같이, 기능적 분할과 관련하여, 검색 로직은 제 1 검색 정책 결정 모듈(510), 검색 모듈(520) 및 검색 결과 출력 모듈(530)을 포함할 수 있다.

제 1 검색 정책 결정 모듈(510)은 검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하도록 구성되며, 여기서 각각의 제 1 검색 정책은 적어도 하나의 제 1 텍스트 인덱스 필드 및 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치에 대응한다.

검색 모듈(520)은 제 1 검색 정책 결정 모듈(510)에 의해 결정되는 각각의 제 1 검색 정책에 대응하는 각각의 제 1 텍스트 인덱스 필드에 기초하여 질의 텍스트에 대한 검색 동작을 수행하도록 구성된다.

검색 결과 출력 모듈(530)은 모든 검색 동작들의 검색 결과들을 병합 및 출력하도록 구성된다.

본 출원의 이러한 실시예에서 제시되는 검색 장치에서, 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책이 결정되며, 각각의 제 1 검색 정책은 적어도 하나의 제 1 텍스트 인덱스 필드 및 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치에 대응하며; 그 다음에 질의 텍스트에 대한 검색 동작이 각각의 제 1 검색 정책에 대응하는 각각의 텍스트 인덱스 필드에 기초하여 수행되고; 최종적으로 모든 검색 동작들의 검색 결과들이 병합 및 출력된다. 이러한 방식으로, 복수의 텍스트 인덱스 필드들을 가지는 정보에 대하여 상대적으로 정확한 검색 결과가 획득될 수 있다. 검색 동작은 질의 텍스트와 연관되는 텍스트 인덱스 필드에서만 수행되고 모든 텍스트 인덱스 필드들을 검색할 필요가 없으며, 그 결과 무관한 텍스트 인덱스 필드 상의 리터럴 히트에 기인하는 부정확한 리콜링이 회피될 수 있으며, 그에 의해 검색 결과의 상관을 효과적으로 향상시킬 수 있다. 또한, 상이한 텍스트 필드 인덱스들에 대한 매칭 검색 가중치들을 설정함으로써 검색 결과의 정확도가 효과적으로 향상될 수 있다.

일 실시예에서, 도 6에 도시된 바와 같이, 제 1 검색 정책 결정 모듈(510)은:

제 1 검색 정책들 및 질의 텍스트들 간의 미리설정된 대응관계에 따라 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하도록 구성되는, 제 1 결정 유닛(511)을 포함한다.

다른 실시예에서, 도 7에 도시된 바와 같이, 제 1 검색 정책 결정 모듈(510)은:

각각의 제 1 검색 정책을 식별하기 위해 트레이닝된 분류자의 사용에 의해 질의 텍스트를 식별함으로써 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하도록 구성되는, 제 2 결정 유닛(512)을 포함한다.

일 실시예에서, 제 2 결정 유닛(512)이 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는데 사용되는 경우, 도 7에 도시된 바와 같이, 검색 로직은:

검색 로그에 기초하여 분류자를 트레이닝하도록 구성되는, 검색 정책 분류자 트레이닝 모듈(540)을 더 포함한다.

각각의 제 1 검색 정책에 대응하는 제 1 텍스트 인덱스 필드 및 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하도록 구성되는, 텍스트 필드 및 가중치 결정 모듈(550)을 더 포함한다.

일 실시예에서, 도 7에 도시된 바와 같이, 검색 정책 분류자 트레이닝 모듈(540)은:

검색 로그를 클러스터링하고 검색 정책 공간 정의를 생성하도록 구성되는, 공간 정책 공간 정의 결정 유닛(541) ― 검색 정책 공간 정의는 검색 로그에 있는 질의 텍스트 및 각각의 제 1 검색 정책 간의 매핑 관계를 나타내는데 사용됨; 및

검색 정책 공간 정의에 기초하여 각각의 제 1 검색 정책에 대응하는 검색 로그를 획득하고; 각각의 제 1 검색 정책에 대응하는 검색 로그에 기초하여, 대응하는 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하도록 구성되는, 트레이닝 유닛(542)을 포함한다.

일 실시예에서, 도 7에 도시된 바와 같이, 텍스트 필드 및 가중치 결정 모듈(550)은 로그 획득 유닛(551), 가중치 계산 유닛(552) 및 텍스트 필드 및 가중치 결정 유닛(553)을 포함한다.

로그 획득 유닛(551)은 제 1 검색 정책에 대응하는 검색 로그를 획득하도록 구성된다.

가중치 계산 유닛(552)은 검색 자료에서 각각의 제 2 텍스트 인덱스 필드에 있는 제 1 검색 정책에 대응하는 검색 로그에서 질의 텍스트의 히트 스코어에 따라 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치에 대한 반복적인 계산을 수행하도록 구성된다. 일 실시예에서, 가중치 계산 유닛(552)은 제 1 검색 정책에 대응하는 각각의 검색 로그에서 각각의 제 2 텍스트 인덱스 필드의 단일 로그 가중치를 획득하고; 제 1 검색 정책에 대응하는 각각의 검색 로그에서 제 2 텍스트 인덱스 필드의 단일 로그 가중치에 기초하여 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치를 계산하도록 추가적으로 구성될 수 있다.

텍스트 필드 및 가중치 결정 유닛(553)은 제 1 검색 정책에 대응하는 제 2 텍스트 인덱스 필드의 평균 가중치에 따라 제 1 검색 정책에 대응하는 제 1 텍스트 인덱스 필드 및 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하도록 구성된다. 일 실시예에서, 텍스트 필드 및 가중치 결정 유닛(553)은 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치에 기초하여 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 정규화된 가중치 값을 계산하고; 미리설정된 임계치보다 큰 정규화된 가중치 값에 대응하는 제 2 텍스트 인덱스 필드를 제 1 검색 정책에 대응하는 제 1 텍스트 인덱스 필드로서 결정하고; 그리고 제 1 텍스트 인덱스 필드에 대응하는 정규화된 가중치 값을 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치로서 결정하도록 추가적으로 구성될 수 있다.

제 1 검색 정책에 대응하는 텍스트 인덱스 필드 및 각각의 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하기 위해 제 1 검색 정책 및 제 1 검색 정책의 분류자가 검색 로그에 기초하여 트레이닝되고 반복적인 계산이 검색 로그에 기초하여 수행되며, 그 결과 사용자의 검색 예상이 충분하게 반영될 수 있고, 그에 의해 검색 결과들의 정확도를 효과적으로 향상시킬 수 있다.

일 실시예에서, 검색 모듈(520)은 구체적으로:

검색 자료에서 각각의 제 1 텍스트 인덱스 필드의 컨텐츠 및 질의 텍스트 간의 상관에 따라 자료 리콜링을 수행하도록 구성되고, 여기서 상관은 제 1 텍스트 인덱스 필드의 검색 가중치에 기초하여 결정된다.

일 실시예에서, 도 8에 도시된 바와 같이, 검색 로직은:

제 2 검색 정책에 기초하여 질의 텍스트에 대한 검색 동작을 수행하도록 구성되는, 보조 검색 모듈(560)을 더 포함하며, 여기서 제 2 검색 정책은 검색 자료의 모든 제 2 텍스트 인덱스 필드들에 대응하고, 모든 제 2 텍스트 인덱스 필드들의 검색 가중치들은 동일하다.

일 실시예에서, 도 8에 도시된 바와 같이, 검색 로직은:

미리설정된 조건이 만족될 때, 제 2 검색 정책에 대응하는 검색 로그에 기초하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝 및 업데이트하도록 구성되는, 검색 정책 업데이트 모듈(570)을 더 포함한다.

일 실시예에서, 미리설정된 조건은 미리설정된 업데이트 주기에 도달한 것, 및 제 1 연결-클릭 레이트 대 제 2 연결-클릭 레이트의 비가 미리설정된 임계치보다 작은 것 중 적어도 하나를 포함하며, 제 1 연결-클릭 레이트는 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과의 연결-클릭 레이트이고, 제 2 연결-클릭 레이트는 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과의 클릭-연결 레이트이다.

제 2 검색 정책과 관련하여 검색 동작을 수행하는 것은 누락된 검출에 기인하여 결과가 없을 때 리콜링을 회피할 수 있다. 추가적으로, 제 2 검색 정책에 대응하는 검색 결과와 관련하여, 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하는 동작을 반복적으로 수행함으로써, 사용자의 사용 습관들에서의 변화 및 새로운 제 1 검색 정책에 기인하여 제 1 검색 정책이 더이상 적절하지 않게 되는 문제점이 시기 적절한 방식으로 발견될 수 있다.

본 출원은, 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 전술한 실시예들에서의 검색 방법의 단계들이 구현되는, 컴퓨터 프로그램을 저장하는, 비-일시적 컴퓨터-판독가능 저장 매체를 제시한다.

본 명세서에서의 실시예들은 모두 진행형 방식으로 설명되었다. 실시예들 각각의 설명들은 다른 실시예들과의 차이들에 초점을 맞추었다. 실시예들은 실시예들 사이에서 동일한 또는 유사한 부분들에 대하여 상호-참조된다. 장치 실시예는 기본적으로 방법 실시예와 유사하며, 그러므로 간략하게 기술되었다. 관련된 부분들에 대하여, 방법 실시예에 있는 부분 설명들이 참조된다.

본 출원의 실시예들에서 제공되는 검색 방법 및 장치는 위에서 상세하게 설명되었다. 본 출원의 원리 및 구현들을 정교화하기 위한 구체적인 예시들이 본 명세서에서 사용되었다. 실시예들의 전술한 설명들은 단지 본 출원의 방법 및 핵심 아이디어의 이해를 돕도록 의도된 것이다. 또한, 본 출원이 속하는 기술 분야에서 통상의 지식을 가진 자에 대하여, 본 출원의 아이디어에 따라 구체적인 구현들 및 적용 범위에 대한 변경들이 이루어질 수 있다. 결론적으로, 본 명세서의 내용은 본 출원에 대한 제한으로서 해석되지 않아야 한다.

전술한 구현들에 대한 설명을 통해서, 본 출원이 속하는 기술 분야에서 통상의 지식을 가진 자는 각각의 구현이 필요한 범용 하드웨어 플랫폼과 결합하여 소프트웨어에 의해 구현될 수 있으며, 확실하게 또한 하드웨어를 이용함으로써 구현될 수 있다는 것을 명확하게 이해할 수 있다. 이러한 이해에 기초하여, 필수적인 전술한 기술적 솔루션들 또는 종래 기술에 기여하는 부분은 소프트웨어 제품(software product)의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 ROM/RAM, 자기 디스크 또는 광학 디스크와 같은 컴퓨터-판독가능 저장 매체에 저장될 수 있으며, (개인용 컴퓨터, 서버 또는 네트워크 디바이스일 수 있는) 컴퓨터 디바이스가 실시예들 또는 실시예들의 몇몇 부분들에서 설명되는 방법들을 수행하도록 명령하기 위한 여러 명령들을 포함한다.

Claims

검색 방법으로서,
검색될(to-be-searched) 질의(query) 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책(search policy)을 결정하는 단계 ― 각각의 제 1 검색 정책은 적어도 하나의 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치(search weight)에 대응함 ―;
각각의 제 1 검색 정책에 대응하는 각각의 제 1 텍스트 인덱스 필드에 기초하여 상기 질의 텍스트에 대한 검색 동작을 수행하는 단계; 및
모든 검색 동작들의 검색 결과들을 병합(merge) 및 출력하는 단계를 포함하는,
검색 방법.
제 1 항에 있어서,
상기 검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 단계는,
제 1 검색 정책들 및 질의 텍스트들 간의 미리 설정된 대응관계(correspondence)에 따라 상기 질의 텍스트와 매칭하는 상기 적어도 하나의 제 1 검색 정책을 결정하는 단계를 포함하는,
검색 방법.
제 1 항에 있어서,
상기 검색될 질의 텍스트와 매칭하는 적어도 하나의 제 1 검색 정책을 결정하는 단계는,
각각의 제 1 검색 정책을 식별하기 위해 미리 트레이닝된(pretrained) 분류자(classifier)를 이용함으로써 상기 질의 텍스트를 식별함으로써 상기 질의 텍스트와 매칭하는 상기 적어도 하나의 제 1 검색 정책을 결정하는 단계를 포함하는,
검색 방법.
제 3 항에 있어서,
검색 로그에 기초하여 상기 분류자를 트레이닝하는 단계를 더 포함하는,
검색 방법.
제 4 항에 있어서,
상기 검색 로그에 기초하여 상기 분류자를 트레이닝하는 단계는,
상기 검색 로그를 클러스터링(cluster)하고, 검색 정책 공간 정의(search policy space definition)를 생성하는 단계 ― 상기 검색 정책 공간 정의는 상기 검색 로그에 있는 질의 텍스트 및 각각의 제 1 검색 정책 간의 매핑 관계를 나타내는데 사용됨 ―;
상기 검색 정책 공간 정의에 기초하여 각각의 제 1 검색 정책에 대응하는 검색 로그를 획득하는 단계; 및
각각의 제 1 검색 정책에 대응하는 상기 검색 로그에 기초하여, 대응하는 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝하는 단계를 포함하는,
검색 방법.
제 1 항에 있어서,
각각의 제 1 검색 정책에 대응하는 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하는 단계를 더 포함하는,
검색 방법.
제 6 항에 있어서,
상기 각각의 제 1 검색 정책에 대응하는 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치를 결정하는 단계는,
상기 제 1 검색 정책에 대응하는 검색 로그를 획득하는 단계;
검색 자료(search material)에 있는 각각의 제 2 텍스트 인덱스 필드에 있는 상기 제 1 검색 정책에 대응하는 상기 검색 로그에 있는 질의 텍스트의 히트 스코어(hit score)에 따라 상기 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치에 대한 반복적인 계산을 수행하는 단계; 및
상기 제 1 검색 정책에 대응하는 상기 제 2 텍스트 인덱스 필드의 평균 가중치에 따라 상기 제 1 검색 정책에 대응하는 상기 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 상기 검색 가중치를 결정하는 단계를 포함하는,
검색 방법.
제 7 항에 있어서,
상기 검색 자료에 있는 각각의 제 2 텍스트 인덱스 필드에 있는 상기 제 1 검색 정책에 대응하는 상기 검색 로그에 있는 질의 텍스트의 히트 스코어에 따라 상기 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치에 대한 반복적인 계산을 수행하는 단계는,
상기 제 1 검색 정책에 대응하는 각각의 검색 로그에 있는 각각의 제 2 텍스트 인덱스 필드의 단일 로그 가중치를 획득하는 단계; 및
상기 제 1 검색 정책에 대응하는 각각의 검색 로그에 있는 상기 제 2 텍스트 인덱스 필드의 상기 단일 로그 가중치에 기초하여 상기 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치를 계산하는 단계를 포함하는,
검색 방법.
제 7 항에 있어서,
상기 제 1 검색 정책에 대응하는 상기 제 2 텍스트 인덱스 필드의 평균 가중치에 따라 상기 제 1 검색 정책에 대응하는 상기 제 1 텍스트 인덱스 필드 및 상기 제 1 텍스트 인덱스 필드와 매칭하는 상기 검색 가중치를 결정하는 단계는,
상기 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 평균 가중치에 기초하여 상기 제 1 검색 정책에 대응하는 각각의 제 2 텍스트 인덱스 필드의 정규화된 가중값을 계산하는 단계;
상기 제 1 검색 정책에 대응하는 상기 제 1 텍스트 인덱스 필드로서 미리 설정된 임계치보다 큰 상기 정규화된 가중값에 대응하는 상기 제 2 텍스트 인덱스 필드를 결정하는 단계; 및
상기 제 1 텍스트 인덱스 필드와 매칭하는 검색 가중치로서 상기 제 1 텍스트 인덱스 필드에 대응하는 정규화된 가중값을 결정하는 단계를 포함하는,
검색 방법.
제 1 항에 있어서,
상기 각각의 제 1 검색 정책에 대응하는 각각의 제 1 텍스트 인덱스 필드에 기초하여 상기 질의 텍스트에 대한 검색 동작을 수행하는 단계는,
검색 자료에 있는 각각의 제 1 텍스트 인덱스 필드의 컨텐츠 및 상기 질의 텍스트 간의 상관에 따라 자료 리콜(recalling)을 수행하는 단계를 포함하는,
검색 방법.
제 1 항에 있어서,
제 2 검색 정책에 기초하여 상기 질의 텍스트에 대한 검색 동작을 수행하는 단계를 더 포함하며,
상기 제 2 검색 정책은 검색 자료의 모든 제 2 텍스트 인덱스 필드들에 대응하며, 상기 모든 제 2 텍스트 인덱스 필드들의 검색 가중치들은 동일한,
검색 방법.
제 11 항에 있어서,
미리 설정된 조건이 만족될 때, 상기 제 2 검색 정책에 대응하는 검색 로그에 기초하여, 상기 제 1 검색 정책을 식별하기 위한 분류자를 트레이닝 및 업데이트하는 단계를 더 포함하는,
검색 방법.
제 12 항에 있어서,
상기 미리 설정된 조건은,
미리 설정된 업데이트 주기에 도달한 것; 및
제 1 연결-클릭(click-through) 레이트 대 제 2 연결-클릭 레이트의 비(ratio)가 미리 설정된 임계치보다 작은 것 중 적어도 하나를 포함하며,
상기 제 1 연결-클릭 레이트는 상기 제 1 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과의 연결-클릭 레이트이고, 상기 제 2 연결-클릭 레이트는 상기 제 2 검색 정책에 기초하여 검색 동작을 수행함으로써 획득되는 검색 결과의 클릭-연결 레이트인,
검색 방법.
검색 장치로서,
프로세서; 및
비-일시적 컴퓨터-판독가능 저장 매체를 포함하며,
상기 비-일시적 컴퓨터-판독가능 저장 매체는 상기 프로세서에 의해 실행가능한 기계 실행가능 명령을 저장하고, 상기 기계 실행가능 명령은 상기 프로세서가 제 1 항 내지 제 13 항 중 어느 한 항에 따른 검색 방법을 수행하게 하는,
검색 장치.
비-일시적 컴퓨터-판독가능 저장 매체로서,
상기 비-일시적 컴퓨터-판독가능 저장 매체는 기계 실행가능 명령을 저장하며, 프로세서에 의해 인보크(invoke)되고 실행될 때, 상기 기계 실행가능 명령은 상기 프로세서가 제 1 항 내지 제 13 항 중 어느 한 항에 따른 검색 방법을 수행하게 하는,
비-일시적 컴퓨터-판독가능 저장 매체.