KR20130029787A

KR20130029787A - 리서치 미션 식별

Info

Publication number: KR20130029787A
Application number: KR1020127033741A
Authority: KR
Inventors: 데보라 도나토; 프란세스코 본치; 리앙-유 치
Original assignee: 야후! 인크.
Priority date: 2010-05-31
Filing date: 2011-05-11
Publication date: 2013-03-25
Also published as: WO2011152971A2; WO2011152971A3; JP5543020B2; CN102934110A; KR101452082B1; EP2577522A4; EP2577522A2; US8768861B2; JP2013528873A; US20110295776A1

Abstract

검색 엔진의 사용자가 리서치 미션을 수행하고 있는지를 자동 판정하고, 다음으로 리서치 미션이 수행되고 있다고 판정한 것에 응답하여 하나 이상의 리서치 도구, 하나 이상의 특수화된 검색, 하나 이상의 지향성 광고, 및/또는 하나 이상의 마켓플레이스 이벤트를 제공하는 시스템 및 방법이 설명된다. 리서치 미션의 판정에 응답하여 다양한 이벤트들 및/또는 도구들을 자동 제공하는 것은 리서치 미션을 수행하고 있는 사용자의 경험을 유리하게 개선할 수 있다.

Description

리서치 미션 식별{RESEARCH MISSION IDENTIFICATION}

본 발명은 일반적으로, 웹 검색 엔진의 사용자를 포함하지만 그에 한정되지는 않는 정보 검색 시스템(information retrieval system)의 사용자의 정보 요구를 자동으로 알아내기 위한 시스템 및 방법에 관한 것이다.

사용자의 정보 요구를 다루는 것은 웹 검색 엔진들의 초창기부터 그들의 주된 목표 중 하나였다. 일부 경우들에서, 사용자들은 단순히 그들의 요구가 지나치게 복합적이고 단일의 웹 또는 검색 결과 페이지에 의해 커버되지 않는 다수의 양태를 포함하는 것으로 인해, 자신의 요구가 검색 결과에 의해 즉각적으로 답해지는 것을 확인할 수 없다. 이것은 전형적으로 사용자들이 다수의 페이지로부터 사실 및 정보를 수집할 것을 필요로 하는 경우가 많은 교육, 여행 또는 건강과 같은 영역의 소정 주제를 조사할 때 발생한다. 이러한 유형의 활동들은 "리서치 미션(research missions)"이라고 지칭될 수 있다. 이들 "리서치 미션"이 사용자 세션의 10％, 그리고 전체 질의 볼륨의 25％ 초과를 차지할 수 있는 것으로 관찰되었다.

그러한 "리서치 미션"은 그것이 수행되는 도중에 고도의 정확도로 자동 식별될 수 있으면 유리할 것이다. 이들 "리서치 미션"은 전체 질의 볼륨의 상당한 비율을 차지할 수 있으므로, 그러한 큰 비율의 사용자 질의에 대한 사용자 요구를 인식하고 그에 답하면 사용자의 경험이 향상될 것이다. 종래의 시스템들은 개별 질의들을 조사하는 경향이 있는 반면에, "리서치 미션"의 식별은 웹 검색 엔진으로 하여금, 다르게는 관련없는 질의들 배후의 사용자 의도를 이해하게 할 것이다. "리서치 미션"을 자동 식별함으로써, 그리고 그에 의해 사용자의 의도를 이해함으로써, 웹 검색 엔진은 특수화된 검색, 리서치 도구, 지향성 광고(directed ads), 마켓플레이스 이벤트(들) 및/또는 다른 특징들을 능동적으로 제공하여 사용자의 요구를 다룰 수 있다.

본 발명의 실시예에 따른 시스템 및 방법은 검색 엔진의 사용자가 특정 주제에 관한 리서치 미션을 수행하고 있을 때를 자동 검출한다. 그러면, 그러한 자동 검출에 기초하여, 사용자는 리서치 관련 도구 및 특수화된 검색과 같은 하나 이상의 특징으로의 액세스를 제공받을 수 있고, 또한 리서치 미션에 관련된 지향성 광고 및/또는 마켓플레이스 이벤트도 제공받을 수 있다. 리서치 미션의 검출에 응답하여 이들 다양한 도구, 광고 및 이벤트를 자동 제공하는 것은 리서치 미션을 수행하는 사용자의 경험을 유리하게 개선할 수 있다.

구체적으로, 검색 엔진의 사용자가 리서치 미션을 수행하고 있는지를 자동 판정하기 위한 방법이 여기에 설명된다. 방법에 따르면, 사용자에 의해 검색 엔진에 의해 제출된 질의들의 시리즈에 관련된 복수의 특징(features)이 생성된다. 복수의 특징의 제1 부분집합에 기초하여, 제1 머신 학습된 검출기(machine learned detector)를 이용하여 사용자가 복합 리서치(complex research)를 수행하고 있는지가 판정된다. 복수의 특징의 제2 부분집합에 기초하여, 제2 머신 학습된 검출기를 이용하여 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지가 검출된다. 적어도, 복합 리서치 검출 및 미션 검출에 응답하여 사용자가 리서치 미션을 수행하고 있는지가 판정된다.

시스템도 여기에 기술된다. 시스템은 검색 엔진 및 리서치 미션 식별 시스템을 포함한다. 검색 엔진은 사용자에 의해 제출된 질의들의 시리즈를 수신하고, 또한 질의들의 시리즈 내의 각각의 질의에 응답하여 하나 이상의 문서를 식별하도록 구성된다. 리서치 미션 식별 시스템은 세션 유닛, 특징 유닛, 리서치 검출기, 미션 검출기 및 믹서를 포함한다. 세션 유닛은 질의들의 시리즈를 수신하고, 구조화된 질의들의 시리즈를 생성하도록 구성된다. 특징 유닛은 구조화된 질의들의 시리즈의 분석에 기초하여 복수의 특징을 생성하도록 구성된다. 리서치 검출기는 제1 머신 학습된 규칙들을 이용하여, 복수의 특징의 제1 부분집합에 기초하여, 사용자가 복합 리서치를 수행하고 있는지를 검출하도록 구성된다. 미션 검출기는 제2 머신 학습된 규칙들을 이용하여, 복수의 특징의 제2 부분집합에 기초하여 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 판정하도록 구성된다. 믹서는 적어도, 복합 리서치 검출 및 미션 검출에 기초하여 사용자가 리서치 미션을 수행하고 있는지를 판정하도록 구성된다.

다른 시스템도 여기에 설명된다. 시스템은 검색 엔진 및 리서치 미션 식별 시스템을 포함한다. 검색 엔진은 사용자에 의해 제출된 질의들의 시리즈를 수신하고, 또한 질의들의 시리즈 내의 각각의 질의에 응답하여 하나 이상의 문서를 식별하도록 구성된다. 리서치 미션 식별 시스템은 특징 유닛, 검출기 유닛 및 머신 학습된 시스템을 포함한다. 특징 유닛은 질의들의 시리즈의 분석에 기초하여 복수의 특징을 생성하도록 구성된다. 검출기 유닛은 검색 내에서의 사용자의 참여 수준을 측정함으로써 복수의 특징에 기초하여 사용자가 복합 리서치를 수행하고 있는지를 검출하도록 구성된다. 검출기 유닛은 또한 연속적인 질의들 간의 주제 일관성(topical coherency)을 측정함으로써 복수의 특징에 기초하여 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 판정하도록 구성된다. 머신 학습된 시스템은 적어도, 복합 리서치 검출 및 미션 검출에 기초하여 사용자가 리서치 미션을 수행하고 있는지를 판정하도록 구성된다.

본 발명의 다른 특징들 및 이점들과, 본 발명의 다양한 실시예들의 구조 및 동작은 이하에서 첨부 도면들을 참조하여 상세하게 설명된다. 본 발명은 여기에 설명된 특정 실시예들에 한정되지 않음에 유의해야 한다. 그러한 실시예들은 여기에 오직 설명을 목적으로만 제공된 것이다. 관련 기술분야에 숙련된 지식을 가진 자들은 여기에 포함된 교시에 기초하여 추가의 실시예들을 분명하게 알 수 있을 것이다.

여기에 포함되어 본 명세서의 일부를 형성하는 첨부 도면들은 본 발명을 예시하며, 상세한 설명과 함께 본 발명의 원리들을 설명하고, 관련 기술분야의 숙련된 자가 본 발명을 구현하고 이용할 수 있게 하는 역할을 한다.
도 1은 본 발명의 실시예가 구현될 수 있는 정보 검색 시스템의 블록도이다.
도 2는 사용자에 의해 검색 엔진에 제출될 수 있는 예시적인 질의를 보여준다.
도 3은 본 발명의 실시예에 따라 사용자가 리서치 미션을 수행하고 있는지를 자동 판정하기 위한 방법의 흐름도를 도시한다.
도 4는 본 발명의 실시예에 따라 사용자가 리서치 미션을 수행하고 있는지를 자동 판정하기 위한 시스템을 도시하는 블록도이다.
도 5는 본 발명의 실시예에 따라 사용자에 의해 검색 엔진에 게시되는 예시적인 질의들의 시리즈를 보여준다.
도 6a는 본 발명의 실시예에 따라 머신 학습 시스템으로서 구현되는 검출기를 도시하는 도면이다.
도 6b는 본 발명의 실시예에 따라 머신 학습 시스템으로서 구현되는 믹서를 도시하는 도면이다.
도 7은 본 발명의 실시예에 따라 사용자가 리서치 미션을 수행하고 있는지를 자동 판정하기 위한 대안적인 시스템을 도시한 블록도이다.
도 8은 본 발명의 실시예들이 구현될 수 있는 예시적인 컴퓨터 시스템의 블록도이다.
본 발명의 특징 및 이점들은 이하에 제시된 상세한 설명들을 도면들과 함께 취함으로써 더 분명해질 것이고, 도면들 전체에서 유사한 참조 기호들은 대응하는 요소들을 식별한다. 도면들에서, 유사한 참조 번호들은 일반적으로 동일하고, 기능적으로 유사하고/거나 구조적으로 유사한 요소들을 나타낸다. 요소가 처음으로 출현하는 도면은 대응 참조 번호의 가장 왼쪽의 숫자(들)에 의해 나타내어진다.

A. 서론

본 명세서는 본 발명의 특징을 포함하는 하나 이상의 실시예를 개시한다. 개시된 실시예(들)는 본 발명을 예시할 뿐이다. 본 발명의 범위는 개시된 실시예들로 한정되지 않는다. 본 발명은 여기에 첨부된 청구항들에 의해 정의된다.

본 명세서에서의 "일 실시예", "실시예", "예시적인 실시예" 등에 대한 언급은 설명된 실시예가 특정한 특징, 구조 또는 특성을 포함할 수 있음을 나타내지만, 모든 실시예가 반드시 그 특정한 특징, 구조 또는 특성을 포함하지는 않을 수 있다. 더욱이, 그러한 문구가 반드시 동일한 실시예를 지칭하고 있지는 않다. 또한, 특정한 특징, 구조 또는 특성이 실시예에 관련하여 설명될 때, 명시적으로 설명되어 있든 아니든 간에, 그러한 특징, 구조 또는 특성을 다른 실시예들과 관련하여 구현하는 것은 본 기술분야의 숙련된 자의 지식의 범위 내에 드는 것으로 한다.

본 발명의 실시예에 따른 시스템 및 방법은 검색 엔진의 사용자가 특정 주제에 관한 리서치 미션을 수행하고 있을 때를 자동 검출한다. 그러면, 그러한 자동 검출에 기초하여, 사용자는 리서치 관련 도구 및 특수화된 검색과 같은 하나 이상의 특징으로의 액세스를 제공받을 수 있고/거나 리서치 미션에 관련된 지향성 광고 및/또는 마켓플레이스 이벤트를 제공받을 수 있지만, 이러한 예들은 제한적인 것으로 의도된 것이 아니다. 리서치 미션의 검출에 응답하여 이들 다양한 도구, 광고 및 이벤트를 자동 트리거하는 것은 리서치 미션을 수행하는 사용자의 경험을 유리하게 개선할 수 있다.

도 1은 본 발명의 실시예가 구현될 수 있는 정보 검색 시스템(100)의 블록도이다. 여기에서 시스템(100)은 오직 설명을 목적으로 기술되며, 본 발명의 실시예들은 대안적인 환경들에서 구현될 수 있음에 유의해야 한다. 도 1에 도시된 바와 같이, 시스템(100)은 검색 엔진(106)을 포함한다. 제1 컴퓨터(104a), 제2 컴퓨터(104b) 및 제3 컴퓨터(104c)와 같은 하나 이상의 컴퓨터(104)는 통신 네트워크(105)에 접속된다. 네트워크(105)는 근거리 네트워크(LAN), 광역 네트워크(WAN) 또는 통신 네트워크들의 조합과 같은 임의의 유형의 통신 네트워크일 수 있다. 실시예들에서, 네트워크(105)는 인터넷 및/또는 인트라넷을 포함할 수 있다. 컴퓨터들(104)은 네트워크(105)를 통해 엔터티들로부터 문서를 검색할 수 있다. 네트워크(105)가 인터넷을 포함하는 실시예들에서, 월드 와이드 웹(102)의 일부를 형성하는 문서(103)를 포함하는 문서들의 컬렉션은 네트워크(105)를 통한 컴퓨터들(104)에 의한 검색에 이용가능하다. 인터넷 상에서, 문서들은 http://www.yahoo.com과 같은 URL(uniform resource locator)에 의해, 및/또는 다른 메커니즘에 의해 식별될/찾아질 수 있다. 컴퓨터들(104)은 문서(103)에 대응하는 URL을 문서 서버(도 1에는 도시되지 않음)에 공급함으로써 네트워크(105)를 통해 문서(103)에 액세스할 수 있다.

도 1에 도시된 바와 같이, 검색 엔진(106)은 네트워크(105)에 연결된다. 검색 엔진(106)은 월드 와이드 웹(102)의 문서들과 같은 문서들을 인덱싱하는 저장된 인덱스(114)에 액세스한다. 특정 주제에 관련된 하나 이상의 문서를 검색하고 싶지만 그러한 문서의 식별자/위치를 알지 못하는 컴퓨터(104a)의 사용자는 네트워크(105)를 통해 질의(112)를 검색 엔진(106)에 제출할 수 있다. 검색 엔진(106)은 질의(112)를 수신하고, 인덱스(114)를 분석하여, 질의(112)에 관련된 문서들을 찾는다. 예를 들어, 검색 엔진(106)은 질의(112)의 용어들을 포함하는 인덱스(114)에 의해 인덱싱된 문서들의 집합을 식별할 수 있다. 문서들의 집합은 수십, 수백, 수천, 수백만 또는 심지어는 수십억 개의 문서를 포함하는 임의의 개수의 문서를 포함할 수 있다. 검색 엔진(106)은 검색된 문서들의 집합의 문서들을 사용자에 대한 관련도 순으로 순위화하기 위해 순위 또는 관련도 함수를 이용할 수 있다. 사용자가 문서들의 집합 전체를 분석하지 않아도 되도록 하기 위해, 가장 관련있을 것으로 결정된 집합의 문서들이 리턴되는 문서 리스트의 최상단에 제공될 수 있다. 리턴되는 문서들의 리스트는 "검색 결과 페이지"라고 칭해지는 문서의 컨텍스트 내에서 제공될 수 있다.

검색 엔진(106)은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 임의의 조합으로 구현될 수 있다. 예를 들어, 검색 엔진(106)은 하나 이상의 서버와 같이, 하나 이상의 컴퓨터 시스템의 하나 이상의 프로세서에서 실행되는 소프트웨어/펌웨어를 포함할 수 있다. 네트워크(105)를 통해 액세스가능한 검색 엔진(106)의 예들은 Yahoo! Search™(http://www.yahoo.com), Ask.com™(http://www.ask.com) 및 Google™(http://www.google.com)을 포함하지만, 그에 한정되지 않는다.

도 2는 도 1의 컴퓨터들(104a-104c) 중 하나의 사용자에 의해 검색 엔진(106)에 제출될 수 있는 예시적인 질의(112)를 보여준다. 도 2에 도시된 바와 같이, 질의(112)는 제1 용어(202a), 제2 용어(202b) 및 제3 용어(202c)와 같은 하나 이상의 용어(202)를 포함한다. 임의의 개수의 용어(202)가 질의 내에 제공될 수 있다. 도 2에 나타난 바와 같이, 질의(112)의 용어들(202a, 202b 및 202c)은 각각 "1989", "red" 및 "corvette"이다. 검색 엔진(106)은 이러한 용어들(202a-202c)을 인덱스(114)에 적용하여, "1989", "red" 및 "corvette"에 일치하는 하나 이상의 인덱스된 문서에 대해 URL과 같은 문서 로케이터를 검색하고, 문서들의 리스트를 순위에 따라 순서화할 수 있다.

또한, 도 1에 도시되어 있는 바와 같이, 검색 엔진(106)은 질의 로그(108)를 생성할 수 있다. 질의 로그(108)는 검색 엔진(106)을 이용하여 이루어진 검색들의 기록이다. 질의 로그(108)는 예를 들어, 질의로부터 발생된 문서들의 리스트, 리스트를 검토하고 있는 사용자에 의해 선택/클릭된(클릭된) 리스트 내의 문서들의 리스트/표시, 클릭된 문서들의 순위, 질의가 검색 엔진(106)에 의해 수신된 때를 나타내는 타임스탬프, 질의어를 제출한 고유 디바이스(예를 들어, 컴퓨터, 셀폰 등)를 식별하는 IP(인터넷 프로토콜) 어드레스, 질의어를 제출한 사용자에 연관된 식별자(예를 들어, 웹 브라우저 쿠키 내의 사용자 식별자) 및/또는 추가의 정보/속성들과 같이, 각각의 질의를 위한 추가의 정보/속성들과 함께 질의어들(예를 들어, 질의(112)의 용어들(202))을 나열함으로써 질의 리스트를 포함할 수 있다.

도 1에 더 나타나 있는 바와 같이, 시스템(100)은 검색 엔진(106) 및 질의 로그(108)에 접속된 리서치 미션 식별 시스템(116)도 포함한다. 리서치 미션 식별 시스템(116)은 검색 엔진(106)의 사용자가 특정 주제에 관한 리서치 미션을 수행하고 있는지를 판정하도록 구성된다. 리서치 미션 식별 시스템(116)이 검색 엔진(106)의 사용자가 특정 토픽에 관한 리서치 미션을 수행하고 있다고 판정하면, 리서치 미션 식별 시스템(116)은 애플리케이션(118)의 실행을 자동 트리거할 수 있다. 구현에 따라, 애플리케이션(118)은 Yahoo! Search Pad와 같은 리서치 도구, 특수화된 검색 애플리케이션, 직접 광고 전달 애플리케이션(direct ad delivery application) 또는 마켓플레이스 이벤트를 포함할 수 있지만, 이들 예들은 제한적인 것이 아니다. 예를 들어, 사용자는 적어두기(note taking) 및/또는 체계화(organization)를 위해 리서치 도구들로의 액세스를 획득함으로써 더 나은 검색 경험을 가질 수 있다. 리서치 미션 식별 시스템(116)은 사용자의 리서치 미션의 의도를 반영한 특수화된 검색을 제공할 수 있을 수 있다. 사용자의 리서치 미션에 관한 지향성 광고 및/또는 마켓플레이스 이벤트들의 자동 제공은 리서치 미션에 대한 사용자의 의도를 활용하는 것을 도울 것이다.

리서치 미션의 자동 검출에 응답하여 애플리케이션(118)의 실행을 트리거하기 위한 트리거 신호를 자동으로 어서트함으로써, 리서치 미션 식별 시스템(116)은 리서치 미션을 수행하는 사용자의 경험을 유리하게 개선할 수 있다. 예를 들어, 소정 실시예들에 따르면, 그러한 특징은 리서치 미션에 관한 특수화된 검색들 및/또는 리서치 관련 도구(들)에의 액세스가 적절한 시간에 사용자에게 편리한 컨텍스트 내에서 제공될 것을 보장한다. 이러한 접근방식은 사용자가 특정 주제에 관한 리서치 미션이 개시되고 있음을 사전에 인식하고, 이러한 인식에 기초하여, 임의의 특수화된 검색들 및/또는 리서치 도구(들)를 개시하기 위해 능동적인 단계들을 취해야만 하는 것에 비해 개선을 나타낸다. 이러한 후자의 접근방식은 사용자에 의한 추가의 계획 및 노력을 요구한다. 리서치 미션 식별 시스템(116)에 의해 구현되는 접근방식은 또한 리서치 도구, 특수화된 검색, 지향성 광고 및/또는 마켓플레이스 이벤트가 항상 사용자에게 제공되는 것에 비해 더 바람직하다고 여겨질 수 있는데, 왜냐하면 특히 그러한 이벤트들 및 도구(들)가 사용자에 의해 수행되는 대부분의 검색 세션들에서 유용하지 않은 경우에, 이것이 실제로는 사용자로 하여금 그들을 무시하는 데에 익숙해지게 할 수 있기 때문이다.

리서치 미션 식별 시스템(116)이 사용자가 검색 엔진(106)을 이용하여 리서치 미션을 수행하고 있는지를 자동 판정하는 방식, 및 리서치 미션 식별 시스템(116)이 그러한 판정에 응답하여 트리거 신호를 어서트하는 방식은 이하에 더 상세하게 설명될 것이다.

검색 엔진(106)과 마찬가지로, 리서치 미션 식별 시스템(116)은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 임의의 조합으로 구현될 수 있다. 예를 들어, 리서치 미션 식별 시스템(116)은 하나 이상의 서버와 같은 하나 이상의 컴퓨터 시스템의 하나 이상의 프로세서에서 실행되는 소프트웨어/펌웨어를 포함할 수 있다.

B. 리서치 미션 식별

도 3은 본 발명의 실시예에 따라, 검색 엔진(예를 들어, 검색 엔진(106))의 사용자가 특정 주제에 관한 리서치 미션을 수행하고 있음을 자동 판정하기 위한 방법의 흐름도(300)를 도시한다. 흐름도(300)의 방법은 시스템(100)의 구성요소들을 참조하여 설명될 것이다. 그러나, 방법이 그러한 구현들에 한정되는 것은 아님에 유의해야 한다. 또한, 흐름도(300)의 방법은 대안적인 실시예(들)를 도출해내기 위해, 본 기술분야의 숙련된 자들에 의해 수정될 수 있다. 또한, 원하는 대로, 단계들은 도시된 것과 다른 순서로 발생할 수 있으며, 일부 단계들은 동시에 수행될 수 있고, 일부 단계들은 다른 단계들과 조합될 수 있고/거나 일부 단계들은 존재하지 않을 수 있다.

도 3에 나타나 있는 바와 같이, 흐름도(300)의 방법은 리서치 미션 식별 시스템(116)이 사용자에 의해 검색 엔진(106)에 제출된 질의들의 시리즈에 관련된 복수의 특징을 생성하는 단계(302)에서 시작한다. 사용자는 예를 들어 컴퓨터들(104a-104c)의 사용자들 중 임의의 사용자일 수 있으며, 질의들은 위에서 설명된 방식으로, 컴퓨터들(104a-104c) 중의 임의의 컴퓨터로부터 네트워크(105)를 통해 검색 엔진(106)에 제출될 수 있다. 특징들은 개별적으로 및/또는 쌍으로 질의들을 특징짓는 특징 함수들에 의해 생성될 수 있다. 각각의 특징은 다른 것들 중에서도 특히, 시리즈 내의 질의의 총 개수, 질의에 응답하여 검색된 문서들의 개수, 질의간 경과 시간과 같은 질의의 상이한 양태에 관련될 수 있다. 예시적인 특징들은 이하에 더 상세하게 설명될 것이다. 질의들은 리서치 미션 식별 시스템(116)이 질의들에 대해 (예를 들어, 특징 함수들을 이용하여) 복수의 특징을 생성하기 전에 (예를 들어 구조화된 질의들로) 포맷될 수 있음에 유의해야 한다.

구현에 따라, 특징 함수들은 질의 로그(108)로부터, 및/또는 검색 엔진(106)으로부터 직접, 질의들의 시리즈를 특징지을 수 있다. 추가로, 질의들의 시리즈에 관련된 정보의 전부 또는 일부가 검색 엔진(106)을 유지하는 동일 엔터티에 의해 유지될 수 있는 브라우즈 히스토리 로그(도 1에 도시되지 않음)로부터 획득될 수 있다. 브라우즈 히스토리 로그는 사용자가 검색 엔진(106)에 의해 제공되는 검색 결과 페이지와 같은 인터페이스를 통해 문서를 액세스했는지에 무관하게, 사용자에 의해 이전에 액세스되었던 문서들의 리스트를 유지한다. 구현에 따라, 특정 사용자에 대한 브라우즈 히스토리 정보의 유지는 문서들에 액세스하기 위해 이용되는 컴퓨터 상에 소정 브라우저 소프트웨어가 설치될 것을 요구할 수도 있고 요구하지 않을 수도 있다. 또한, 질의들의 시리즈에 관련된 정보의 전부 또는 일부가 검색 엔진(106)을 유지하는 동일 엔터티에 의해 유지될 수 있는 하나 이상의 네트워크 레벨 서버 로그들로부터 획득될 수 있다. 또한, 질의들의 시리즈에 관련된 정보의 전부 또는 일부가 컴퓨터들(104a-104c) 중 하나에 국부적으로 저장될 수 있고, 다음으로 컴퓨터와 검색 엔진(106) 사이의 상호작용의 일부로서 네트워크(105)를 통해 통신될 수 있다.

이제 도 3의 설명으로 되돌아가면, 단계(302)에서 사용자에 의해 제출된 질의들의 시리즈에 관련하여 특징들이 생성된 후, 특징들의 일부(특징들의 제1 부분집합)가 제1 머신 학습된 검출기에 의해 수신된다. 제1 머신 학습된 검출기는 단계(304)에서 나타난 바와 같이, 질의들의 시리즈에 대해 생성된 복수의 특징의 제1 부분집합을 이용하여 검색 엔진(106)의 사용자가 복합 리서치를 수행하고 있는지를 검출한다. 구체적으로, 제1 머신 학습된 검출기는 검색 내에서의 사용자의 참여 수준을 측정함으로써 복합 리서치 검출을 수행한다.

특징들의 제1 부분집합은 다른 것들 중에서도 특히, 질의들 사이에 경과된 시간, 동일한 질의의 결과들을 위한 링크들에 대한 연속적인 사용자 클릭들과 같이, 검색 내에서의 사용자의 개인적인 개입의 표시를 위해, 질의들의 시리즈 중의 둘 이상의 연속적인 질의를 분석하기 위해 제1 머신 학습된 검출기에 의해 이용된다. 제1 머신 학습된 검출기가 검색 엔진(106)의 사용자가 복합 리서치를 수행하고 있는지를 검출하기 위해 특징들의 제1 부분집합을 이용하는 구체적인 방식은 이하에 더 상세하게 설명될 것이다. 이러한 단계의 출력은 "복합 리서치 검출"이라고 표시되고, 구현에 따라 다양한 방식들 중 하나 이상으로 다음 단계에 전달/전파될 수 있다.

제2 머신 학습된 검출기는 질의들의 시리즈에 대해 생성된 복수의 특징의 제2 부분집합을 수신하고, 다음으로 단계(306)에 나타난 바와 같이, 검색 엔진(106)의 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출하기 위해 복수의 특징의 제2 부분집합을 이용한다. 구체적으로, 제2 머신 학습된 검출기는 연속적인 질의들이 동일 주제에 관련되었다는(따라서 동일 미션의 일부라는) 표시를 찾는 것에 의한 것과 같이, 질의들의 시리즈 중의 둘 이상의 연속적인 질의 간의 주제 일관성(topical coherency)을 측정함으로써 미션 검출을 수행한다.

제2 부분집합 내의 특징들은 연속적인 질의들 간의 텍스트 유사성(textual similarity)과 같은 텍스트 특징들을 포함할 수 있다. 특징들의 제2 부분집합은 시간적(예를 들어, 시간 관련된) 특징들도 이용할 수 있다. 제2 머신 학습된 검출기가 검색 엔진(106)의 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출하기 위해 특징들의 제2 부분집합을 이용하는 구체적인 방식은 이하에 더 상세하게 설명될 것이다. 이러한 단계의 출력은 "미션 검출"이라고 표시되며, 구현에 따라 다양한 방식 중 하나 이상으로 후속 단계에 전달/전파될 수 있다.

선택적으로, 주제 유사성 검출기는 선택적인 단계(308)에 나타나 있는 바와 같이, 예를 들어 주제 분류체계(taxonomy) 트리를 이용하는 것에 의해, 둘 이상의 연속적인 질의의 제1 및 제2 주제를 결정할 수 있다. 그러면, 주제 유사성 검출기는 예를 들어 계층적으로 조직화된 분류체계 내의 각 질의에 연관된 주제 범주들 간의 거리를 결정하는 것에 의해, 둘 이상의 연속적인 질의 중 제1 질의와 제2 질의 간에 주제 유사성이 있는지를 검출할 수 있다. 여기에서, 주제 검출기는 연속적인 질의들을 직접 분석할 수 있고, 반드시 임의의 특징을 수신하지는 않을 수 있다. 주제 유사성 검출기가 제1 및 제2 주제를 결정한 다음, 둘 간의 임의의 유사성을 검출하는 방식은 이하에 더 상세하게 설명될 것이다. 이 단계의 출력은 "주제 유사성 검출"이라고 표시되고, 구현에 따라 다양한 방식들 중 하나 이상으로 다음 단계에 전달/전파될 수 있다.

단계(310)에서, 사용자가 복합 리서치를 수행하고 있는지 및 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지의 검출에 응답하여(그리고, 선택적으로는 주제 유사성 검출에 응답하여), 리서치 미션 식별 시스템(116)은 사용자가 리서치 미션을 수행하고 있는지를 판정한다. 리서치 미션 식별 시스템(116)은 판정을 내리기 전에, 수 개의 연속적인 질의 쌍에 대해 머신 학습된 검출기들로부터의 검출 정보를 수신할 수 있다. 예를 들어, 일 실시예에서, 리서치 미션 식별 시스템(116)은 다수의 연속적인 질의 쌍에 연관된 검출 정보를 저장하고, 다수의 연속적인 질의 쌍들에 대한 검출 정보에 기초하여 판정을 내린다. 리서치 미션 식별 시스템(116)이 사용자가 리서치 미션을 수행하고 있는지를 판정하는 구체적인 방식은 이하에 상세하게 설명될 것이다. 이 단계의 출력은 "리서치 미션 트리거"라고 표시된다.

1. 리서치 미션 식별 시스템

이하에서는, 도 4를 참조하여 리서치 미션 식별 시스템(116)이 더 상세하게 설명될 것이다. 리서치 미션 식별 시스템(116)은 검색 엔진(106)과 같은 검색 엔진의 사용자가 특정 주제에 관한 리서치 미션을 수행하고 있음을 자동 검출하기 위한 방법(300)을 구현할 수 있다. 도 4의 블록도는 예시적인 것에 지나지 않음에 유의해야 한다. 또한, 도 4의 다양한 블록들/유닛들은 원하는 대로, 도시된 것과는 다른 순서로 제공될 수 있거나, 제공되지 않을 수 있다. 또한, 다양한 추가의 블록들/유닛들이 원하는 대로 포함될 수 있다.

예를 들어, 방법(300)을 수행하는 리서치 미션 식별 시스템(116)이 하드웨어로 구현되는 경우, 방법을 구현하는 다양한 블록들/유닛들 사이에서 물리적 및/또는 논리적 신호가 전파될 수 있다. 예를 들어, 리서치 미션 식별 시스템(116)은 다른 것들 중에서도 특히, FPGA와 같은 프로그래머블 로직을 이용하여, 또는 ASIC과 같은 커스텀 하드웨어 칩을 이용하여 구현될 수 있다. 방법(300)이 소프트웨어로 구현되는 경우, 소프트웨어 개체, 값, 데이터, 데이터 어드레스, 포인터 및/또는 함수 호출이 이용될 수 있다. 리서치 미션 식별 시스템(116)은 또한 소프트웨어 및 하드웨어 둘 다로 구현될 수 있다. 예를 들어, 방법(300)의 일부분은 하드웨어로 구현될 수 있는 한편, 다른 부분은 소프트웨어 기반 머신 학습 컴포넌트들과 같은 소프트웨어 기반 컴포넌트들을 이용하여 구현될 수 있다.

세션 유닛(402)은 사용자에 의해 검색 엔진(106)에 제출된 질의들의 시리즈와, 질의들의 시리즈에 대한 임의의 검색 결과 및/또는 검색 결과들에 의해 링크된 임의의 문서/웹 페이지들을 수신하고, 구조화된 질의들의 시리즈를 생성할 수 있다. 위에서 설명된 바와 같이, 사용자들은 예를 들어 도 1의 컴퓨터들(104a-104c)의 사용자들 중 임의의 사용자일 수 있다. 예를 들어, 사용자는 하나 이상의 리서치 세션 동안 검색 엔진(106)을 이용하고 있을 수 있다. 리서치 세션은 다양한 이유로 수행될 수 있고, 따라서 다양한 관련 및 비관련 주제들에 대해 검색하는 질의들의 시리즈를 포함할 수 있다. 세션 유닛(402)은 검색 엔진(106) 및/또는 질의 로그(108)로부터 질의들의 시리즈/검색 결과들/문서들/웹 페이지들을 수신할 수 있다. 다음으로, 세션 유닛(402)은 질의들의 시리즈로부터 구조화된 질의들의 시리즈를 생성할 수 있다. 구조화된 질의는 단순히 질의들에 균일한 포맷을 제공할 수 있다. 하나의 그러한 균일한 포맷은 <q, u, t, C> 포맷인데, 여기에서 q는 질의이고, u는 사용자이고, t는 질의가 제출된 시간이고, C는 세션에 대한 클릭 정보이며, 이들은 질의 로그(108) 내에 저장될 수 있다. 본 명세서에서, "질의들의 시리즈"라는 용어는 질의들의 시리즈 또는 구조화된 질의들의 시리즈를 지칭할 수 있음에 유의해야 한다.

특징 유닛(404)은 방법 단계(302)를 참조하여 위에서 설명된 바와 같이, 세션 유닛(402)으로부터의 질의들의 시리즈(예를 들어, 구조화된 질의들의 시리즈)와, 질의들의 시리즈에 대한 임의의 검색 결과 및/또는 검색 결과들에 의해 링크된 임의의 문서들을 수신하고 분석할 수 있다. 구체적으로, 특징 유닛(404)은 예를 들어 질의 쌍마다, 질의들의 시리즈를 분석하는 하나 이상의 특징 함수(특징 함수)를 적용함으로써 질의들의 시리즈/검색 결과들/문서들을 분석할 수 있다. 즉, 특징 유닛(404)은 질의 쌍에 대한 복수의 특징을 한 번에 출력할 수 있다. 특징 유닛(404)은 또한 검색 결과들 및/또는 문서들을 특징짓는 복수의 특징을 출력할 수 있다.

이하의 예에서, 하나 이상의 특징 함수가 질의들에 적용되지만, 검색 결과들/문서들을 분석할 때 동일한 원리가 적용된다. 다양한 특징 함수들이 리서치 미션 식별 시스템(116) 내의 특징 유닛(404)에 의해 이용될 수 있다. 그들 각각의 특징 함수에 의해 생성된 이들 특징들 중 하나 이상은 리서치 검출기(406) 및/또는 미션 검출기(408) 중 하나 이상에 의해 고려될 수 있다. 일 실시예에서, 검출기들(406 및 408) 각각은 각각의 질의 쌍에 대한 검출 함수를 수행하기 위해 특징들의 상이한 부분집합을 이용할 수 있다. 이하의 특징들은 오직 예시로서만 설명된 것이며, 본 발명을 제한하도록 의도된 것이 아님에 유의해야 한다.

특징 유닛(404)의 특징 함수들은 질의들의 시리즈들의 둘 이상의 연속적인 질의에 적용될 수 있다. 예를 들어, 도 5의 질의들의 시리즈(500)에서, 특징 함수들은 제1 질의 q1(502) 및 제2 질의 q2(504)에 적용될 수 있다. 특징 함수들은 다른 것들 중에서도 특히, 텍스트 특징, 세션 특징 및 시간 관련 특징에 관한 함수들을 포함할 수 있다. 텍스트 특징에 관한 특징 함수들은 둘 이상의 연속적인 질의 간의 텍스트 유사성을 계산할 수 있다. 세션 특징에 관한 특징 함수들은 둘 이상의 연속적인 질의에 대한 세션 속성들을 계산할 수 있다. 시간 관련 특징들에 관한 특징 함수들은 둘 이상의 연속적인 질의들에 대한 시간 속성들을 계산할 수 있다.

다음으로, 제1 및 제2 머신 학습된 검출기(406 및 408)는 질의들의 시리즈/검색 결과들/문서들에 관련된 특징 유닛(404)으로부터의 출력(즉, 복수의 특징)을 수신할 수 있다. 일 실시예에서, 제1 머신 학습된 검출기(406)는 리서치 검출기일 수 있고, 제2 머신 학습된 검출기(408)는 미션 검출기일 수 있다. 수신된 복수의 특징에 기초하여, 제1 및 제2 머신 학습된 검출기(406 및 408)는 각각 질의들의 시리즈들/검색 결과들/문서들에 관한 각각의 판정을 수행할 수 있다.

위의 예를 계속하면, 리서치 검출기(406) 및 미션 검출기(408)는 2개의 질의 q1(502) 및 q2(504)를 특징짓는 복수의 특징을 수신할 수 있다. 리서치 검출기(406) 및 미션 검출기(408) 각각은 복수의 특징의 상이한 부분집합을 수신 및/또는 이용할 수 있는데, 예를 들어 리서치 검출기(406)는 복수의 특징의 제1 부분집합(제1 특징 부분집합)을 수신 및/또는 이용할 수 있고, 미션 검출기(408)는 복수의 특징의 제2 부분집합(제2 특징 부분집합)을 수신 및/또는 이용할 수 있다. 구현에 따라, 제1 및 제2 특징 부분집합은 상이한 특징들, 동일한 특징들을 포함할 수 있고, 또는 2개의 특징 부분집합은 겹치는 특징들을 포함할 수 있다. 특징 부분집합들은 각각의 개별 검출기(406 및 408)가 필요로 하는 방식으로 질의들을 특징짓는 능력에 기초하여 (예를 들어, 시스템 개발자에 의해) 선택될 수 있다.

리서치 검출기(406) 및 미션 검출기(408) 둘 다는 머신 학습된 규칙들을 이용하여 제1 및 제2 특징 부분집합을 프로세싱하여, 그들 각자의 머신 학습된 규칙에 기초하여 각각의 판정을 수행할 수 있다. 리서치 검출기(406) 및 미션 검출기(408) 둘 다는 복수의 특징을 수신하기 전에 트레이닝될 수 있다. 예를 들어, 도 6a에 도시된 바와 같이, (간단히 하기 위하여 각각 검출기(602)로서 나타나 있는) 리서치 검출기(406) 및 미션 검출기(408) 둘 다는 트레이닝 데이터(604)의 집합을 입력함으로써 트레이닝될 수 있다. 일 실시예에서, 트레이닝 데이터(604)는 질의 쌍들의 집합을 포함하고, 각각의 질의 쌍에 대하여, 특징들의 집합 및 예상되는 결과를 포함한다. 예상되는 결과는 인간 편집자(예를 들어, 주석자(annotator))에 의해 제공될 수 있다. 예를 들어, 인간 편집자는 각각의 질의 쌍에 대해 라벨(즉, 예상되는 결과)을 제공하여, 질의 쌍이 리서치 검출기(406)를 위한 리서치를 표현하는지, 또는 질의 쌍이 미션 검출기(408)를 위한 미션을 표현하는지를 나타낼 수 있다.

검출기(602)는 예를 들어 본 기술분야에 알려져 있는 통제된 학습 방법들(supervised learning methods) 중 임의의 것을 이용하는 것에 의해, 머신 학습된 규칙들을 구성하기 위해 트레이닝 데이터를 자동적으로 프로세싱하도록 구성된다. 예를 들어, 검출기(602)는 부스팅된 판정 트리들(boosted decision trees)에 기초하여 머신 학습된 규칙들을 생성할 수 있다. 따라서, 검출기(602)는 특징들에 기초하여 질의 쌍이 (리서치 검출기(406)를 위한) 리서치 또는 (미션 검출기(408))를 위한 미션을 표현하는지를 판정하기 위한 모델 또는 알고리즘을 도출하기 위해 자신의 개별 트레이닝 데이터를 이용할 수 있다. 일 실시예에서, 검출기(602)는 특정한 특징이 이러한 판정을 내리는 데에 특히 관련이 있음을 학습할 수 있다. 이 경우, 그 특징은 알고리즘 내에서 더 많이 중요할 것이다. 반대로, 검출기(602)가 특정 특징이 결정을 내리는 데에 관련이 없음을 학습하는 경우, 그 특징은 알고리즘 내에서 많이 중요하지 않거나 전혀 중요하지 않을 수 있다. 검출기(602)에 대해 머신 학습된 규칙들이 생성되고 나면, 머신 학습된 규칙들은 본 기술분야에 알려져 있는 기법들 중 임의의 것을 이용하여 검증될 수 있다.

따라서, 검출기(602)에 의해 수신된 트레이닝 데이터(604)는 도 5의 질의들의 시리즈(500)와 같이, 연속적인 질의들의 트레이닝 쌍들에 대응하는 특징들(즉, 특징 함수에 의한 분석의 결과들)의 집합을 포함할 수 있다. 예를 들어, 질의들의 시리즈(500) 중의 5개의 연속적인 질의는 4개의 질의 쌍: 질의 q1(502) 및 질의 q2(504), 질의 q2(504) 및 질의 q3(506), 질의 q3(506) 및 질의 q4(508), 및 질의 q4(508) 및 질의 q5(510)를 포함한다. 질의들의 시리즈(500)를 분석하고 특징짓고, 또한 트레이닝하는 데에 이용되는 질의들의 시리즈(500)를 위한 (예를 들어, 2개의 연속적인 질의로 구성되는 질의 쌍의) 이동 윈도우의 개념을 예시하기 위해, 5개의 연속적인 질의 q1-q5(502-510)에 대한 4개의 질의 쌍이 보여졌다.

검출기(602)의 머신 트레이닝 동안, 질의들은 그들의 특징을 생성하기 위해 특징 유닛(404)에 입력될 수 있다. 또한, 예상되는 트레이닝 결과가 연속적인 질의들의 각 쌍에 연관된다. 예를 들어, 리서치 검출기(406)를 위한 트레이닝 결과들은 트레이닝 질의 쌍들이 복합 리서치를 수행하고 있는 사용자에 대응하는지(예를 들어, 사용자가 리서치에 참여하고 있음)를 나타낼 수 있다. 마찬가지로, 미션 검출기(408)를 위한 트레이닝 결과들은 트레이닝 질의 쌍이 특정 정보 요구에 관련된 미션을 수행하고 있는 사용자에 대응하는지(예를 들어, 각각의 질의 쌍이 주제 일관성을 가짐)를 나타낼 수 있다. 각각의 질의 쌍에 대한 트레이닝 결과들은 인간 주석자에 의한 것과 같이 수동으로, 또는 트레이닝 프로그램에 의한 것과 같이 자동으로 생성될 수 있다.

리서치 검출기

이제 도 4의 설명으로 되돌아가면, 리서치 검출기(406)는 수행되고 있는 실제 검색에서의 사용자의 참여 수준을 테스트함으로써, 2개의 연속적인 질의가 복합 리서치의 일부인지를 테스트할 수 있다. 예를 들어, 사용자는 하나 이상의 리서치 세션 동안, 검색 엔진(106)과 같은 검색 엔진을 이용하고 있을 수 있다. 리서치 세션은 다양한 이유로 수행될 수 있고, 따라서 다양한 관련 및 비관련 주제들에 대한 검색 질의들을 포함할 수 있다. 리서치 검출기(406)는 질의 쌍에 대한 특징들의 제1 부분집합을 조사할 수 있고, (특징들의 제1 부분집합에 머신 학습된 규칙들을 적용함으로써 결정된) 사용자의 참여에 기초하여 질의 쌍이 복합 리서치의 일부인지를 판정하기 위해 머신 학습된 규칙들을 적용할 수 있다. 리서치 검출기(406)에 대한 머신 학습된 규칙들은 실제 검색에서의 사용자의 참여 수준의 수준을 나타내는 세션 기반 특징들과 같은 특징들을 조사할 수 있다. 예를 들어, 리서치 검출기(406)를 위한 머신 학습된 규칙들은 수신된 특징들이 많은 수의 사용자 클릭, 검색 세션의 시작 이후로의 많은 수의 질의 및/또는 실제 질의들의 길이가 길다는 것(질의가 길수록 복합 질의를 나타낼 수 있음)을 나타내는 경우에 복합 리서치를 검출할 수 있다. 리서치 검출기(406)는 주로 검색 프로세스 동안, 사용자의 참여 수준, 예를 들어 사용자가 한 수고에 대해 테스트한다.

따라서, 리서치 검출기(406)는 위에서 방법 단계(304)를 참조하여 설명된 바와 같이, 둘 이상의 질의에 대한 제1 특징 부분집합을 수신할 수 있고, 다음으로 사용자가 둘 이상의 질의에 대한 복합 리서치를 수행하고 있는지를 검출하기 위해 머신 학습된 규칙을 이용할 수 있다. 예를 들어, 리서치 검출기(406)는 제1 질의 q1(502) 및 제2 질의 q2(504)에 대한 제1 특징 부분집합을 수신하고, 사용자가 제1 질의 q1(502) 및 제2 질의 q2(504)에 대한 복합 리서치를 수행하고 있는지를 지정하는 리서치 검출 결과를 생성하기 위해 머신 학습된 규칙을 이용할 수 있다. 리서치 검출 결과를 생성하는 것에 더하여, 리서치 검출기(406)는 또한 리서치 검출 결과에 대한 신뢰도의 통계적 척도를 나타내는 연관된 신뢰도 레벨을 생성할 수 있다(예를 들어, 신뢰도 레벨 90은 100개의 테스트 결과 중에서 90개가 동일한 예상 결과를 가질 것으로 기대될 수 있음을 나타낼 수 있다). 리서치 검출기(406)에 대한 머신 학습된 규칙들은 여기에서 제1 머신 학습된 규칙이라고 지칭될 수 있다.

미션 검출기

미션 검출기(408)는 수행되고 있는 검색 내의 연속적인 질의들 간에서 주제 일관성에 대해 테스트함으로써 2개의 연속적인 질의(즉, 질의 쌍)가 동일 미션의 일부인지를 테스트할 수 있다. 예를 들어, 리서치 세션은 다양한 이유로 수행될 수 있고, 따라서 다양한 관련 및 비관련 주제에 대한 검색 질의를 포함할 수 있다. 미션 검출기(408)는 질의 쌍에 대한 특징들의 제1 부분집합을 조사할 수 있고, 머신 학습된 규칙들을 적용하여 (학습된 규칙들을 특징들의 제2 부분집합에 적용함으로써 결정된) 주제 일관성에 기초하여, 질의들의 쌍이 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있음을 나타내는지를 판정할 수 있다. 미션 검출기(408)에 대한 머신 학습된 규칙들은 질의 쌍 내의 제1 질의와 제2 질의 사이의 텍스트 유사성을 나타내는 텍스트 기반 특징들과, 제1 질의와 제2 질의가 시간적으로 얼마나 가까운지를 보여줄 수 있는 시간 관련 특징들과 같은 특징들을 조사할 수 있다. 예를 들어, 질의 q1(502)과 질의 q2(504) 사이에 텍스트 유사성이 있다면, 미션 검출기(408)를 위한 머신 학습된 규칙들은 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있음을 검출할 수 있다. 일 실시예에서, 미션 검출기(408)는 또한 2개의 질의 q1(502) 및 질의 q2(504)가 시간적으로 가깝게 이루어졌는지를 알기 위해 시간 관련 특징들을 이용할 수 있다.

따라서, 미션 검출기(408)는 제2 특징 부분집합을 수신할 수 있고, 다음으로 방법 단계(306)를 참조하여 위에서 설명된 바와 같이, 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출할 수 있다. 예를 들어, 미션 검출기(408)는 제1 및 제2 질의(502 및 504)에 대한 제2 특징 부분집합을 수신할 수 있고, 사용자가 제1 및 제2 질의(502 및 504)에 대하여 특정 정보 요구에 관련된 미션을 수행하고 있는지를 지정하는 미션 검출 결과를 생성하기 위해 머신 학습된 규칙들을 사용할 수 있다. 미션 검출 결과를 생성하는 것에 더하여, 미션 검출기(408)는 또한 미션 검출 결과에 대한 신뢰도의 통계적 척도를 나타내는 연관된 신뢰도 수준을 발생시킬 수 있다. 미션 검출기(408)를 위한 머신 학습된 규칙들은 여기에서 제2 머신 학습 규칙이라고 지칭될 수 있다.

주제 분류기

선택적인 방법 단계(308)를 참조하여 위에서 설명된 바와 같이, 주제 분류기(410)는 또한 세션 유닛(402)으로부터 질의들의 시리즈/검색 결과들/문서들을 수신할 수 있고, 질의들의 시리즈(500) 내에서 제1 및 제2 연속 질의(예를 들어, 각각 제1 질의(502) 및 제2 질의(504))에 대한 제1 및 제2 주제를 결정할 수 있다. 다음으로, 주제 분류기(410)는 제1 주제와 제2 주제 사이에 유사성이 존재하는지를 판정할 수 있고, 그에 의해 제1 질의(502)와 제2 질의(504) 사이에 주제 유사성이 존재하는지를 판정할 수 있다.

주제 분류기(410)는 주제 범주들의 계층적으로 조직화된 분류체계(hierarchically-organized taxonomy of topic categories)에 기초하는 계층 트리를 이용하여 제1 질의(502) 및 제2 질의(504)를 특징지을 수 있다. 그러한 계층적으로 조직화된 분류체계의 일례는 깊이 7을 갖는 계층 트리 내에 조직화된 1026개의 주제 범주를 포함하지만, 상이한 개수의 주제 범주 및/또는 깊이를 갖는 다른 계층적 시스템들도 대신 이용될 수 있다. 여기에 설명된 것에 더하여, 또는 그를 대신하여 다른 계층적으로 조직화된 분류체계 기법들이 이용될 수 있다. 일 실시예에서, 주제 분류기(410)에 의해 이용되는 주제 분류 시스템은 검색 엔진(106)에 의해 이미 이용된 것일 수 있다.

다음으로, 주제 분류기(410)는 제1 질의(502) 및 제2 질의(504) 각각에 대해 주제 범주(즉, 계층 트리의 노드)를 결정하기 위해 주제 결정 함수를 이용할 수 있다. 주제 분류기(410)는 제1 질의(502) 및 제2 질의(504)에 대해 계층 트리의 개별 노드들 간의 거리를 결정할 수 있다. 예를 들어, 제1 질의(502)에 연관된 주제 범주를 위한 노드와 제2 질의(504)에 연관된 주제 범주를 위한 노드 간의 계층 트리 상에서의 거리가 미리 정해진 값(예를 들어, 거리 2) 내에 있다면, 주제 분류기(410)는 제1 질의(502)와 제2 질의(504) 사이에서 주제 유사성이 검출되었음을 나타내는 결과를 출력할 수 있다. 주제 분류기(410)는 또한 주제 유사성 결과에 연관된 신뢰도 수준을 출력할 수 있다.

예를 들어, 일 실시예에서, 제1 질의(502) "Rome" 및 제2 질의(504) "Paris"는 둘 다 계층 트리의 별개의 노드들에 맵핑되어, 동일한 직계 부모 노드 "Europe"을 공유할 수 있다. 제1 질의(502)에 연관된 노드와 제2 질의(504)에 연관된 노드 둘 다가 동일한 부모 노드 "Europe"을 공유하므로, 제1 질의(502)에 연관된 노드와 제2 질의(504)에 연관된 노드 간의 거리는 2이다. 둘 간의 거리가 미리 정해진 값 내에 있을 수 있으므로, 주제 분류기(410)는 제1 질의(502)와 제2 질의(504) 사이에 주제 유사성이 검출되었음을 나타낼 수 있다. 그러나, 다른 주제 분류 및 주제 유사성 검출 방법들이 가능하다.

믹서

다음으로, 믹서(412)는 질의들의 시리즈(500)에 대하여, 리서치 검출기(406), 미션 검출기(408), 및 (선택적으로) 주제 분류기(410) 각각으로부터 결과들을 수신할 수 있다. 믹서(412)는 또한 특징 유닛(404)으로부터 특징들을 수신할 수 있고, 또한 각각의 검출기(406 및 408)로부터(그리고, 선택적으로는 주제 분류기(410)로부터) 결과들에 연관된 신뢰도 수준을 수신할 수 있다. 믹서(412)는 머신 학습된 규칙들의 다른 집합을 이용하여, 적어도 복합 리서치 검출 및 미션 검출에 기초하여, 그리고 선택적으로는 주제 분류기 검출에도 기초하여, 사용자가 리서치 미션을 수행하고 있는지를 판정(310)할 수 있다. 일 실시예에서, 믹서(412)는 2개의 연속적인 질의 쌍을 이용하여 판정(310)을 내릴 수 있다. 다른 실시예들에서, 믹서(412)는 판정(310)을 내릴 때, 3, 4 또는 그 이상의 연속적인 질의 쌍을 이용할 수 있다. 대안적으로, 믹서(412)는 판정(310)을 내릴 때, 비-연속적인 질의 쌍들을 이용할 수 있다.

도 5와 관련하여, 믹서(412)는 질의 q1(502) 및 q2(504)의 제1 쌍에 대해, 그리고 다음으로 질의 q2(504) 및 q3(506)의 제2 쌍에 대해, 리서치 검출기(406) 및 미션 검출기(408)로부터의 결과들과, 선택적으로는 주제 분류기(410)로부터의 결과들을 이용할 수 있다. 믹서(412)는 또한 특징 유닛(404)으로부터 직접 수신된 대로, 직접 이들 2개의 질의 쌍에 대한 하나 이상의 특징을 조사할 수 있다. 다수의 질의 쌍에 대한 판정(310)을 내리기 위해, 믹서(412)는 이전의 복합 리서치 검출, 미션 검출 및/또는 주제 분류기의 결과와, 사용자가 리서치 미션을 수행하고 있었는지의 이전의 판정(310)을 저장하기 위해 상태 데이터(414)를 이용한다. 즉, 믹서(412)는 사용자의 리서치 미션에 관한 현재의 판정(310)을 내리는 데에 있어서, 이전의 질의 쌍들에 대한 저장된 검출 결과들을 이용한다.

일 실시예에서, 믹서(412)의 결과는 (리서치 도구(들), 특수화된 검색(들), 지향성 광고(들) 및/또는 마켓플레이스 이벤트(들)과 같은) 애플리케이션(118)을 트리거하기 위해 이용될 수 있으므로, 믹서(412)는 또한 이벤트 데이터(416) 내에서 애플리케이션(118)이 현재 제공되는지를 추적할 수 있다. 애플리케이션(118)이 이미 제공된 경우, 믹서(412)는 사용자가 리서치 미션을 수행하고 있다고 판정하더라도 다른 트리거 신호를 발생시키지 않을 수 있다. 대안적으로, 믹서(412)는 현재의 이벤트 상태에 무관하게(이벤트 데이터(416)가 애플리케이션(118)이 제공되었음을 나타내는지에 무관하게) 사용자가 리서치 미션을 수행하고 있다고 판정하는 경우에 트리거 신호를 발생시킬 수 있고, 따라서 트리거 신호를 수신한 임의의 블록/로직.유닛은 트리거 신호에 어떻게 반응할지를 결정할 필요가 있을 것이다.

일 실시예에서, 믹서(412)는 사용자가 리서치 미션을 수행하고 있는지를 판정(310)하는 믹서 판정기 유닛(418)을 포함할 수 있다. 믹서 판정기 유닛(418)은 질의 q1(502) 및 질의 q2(504)의 제1 쌍과 질의 q2(504) 및 질의 q3(506)의 제2 쌍에 대하여, 리서치 검출기(406) 및 미션 검출기(408)로부터의, 그리고 선택적으로는 주제 분류기(410)로부터의 저장된 결과들을 이용할 수 있다(예를 들어, 상태 데이터(414)를 이용). 믹서 판정기 유닛(418)은 또한 특징 유닛(404)으로부터 직접 수신된 이들 두 개의 질의 쌍들에 대한 하나 이상의 특징과, 임의의 다른 상태 데이터(414) 및/또는 이벤트 데이터(416)를 조사할 수 있다.

믹서(412)(및/또는 믹서 판정기 유닛(418))는 다른 머신 학습된 시스템으로서 구현될 수 있다. 이 경우, 믹서(412)는 로지스틱 회귀(logistic regression)를 이용하여 규칙들을 학습할 수 있지만, 다른 머신 학습 기법들도 대신하여 이용될 수 있다. 예를 들어, 믹서(412)는 도 6a를 참조하여 설명된 것과 유사한 방식으로, 도 6b에 도시된 바와 같이 트레이닝될 수 있다. 믹서(612)의 트레이닝 동안, 다수의 질의 쌍에 대하여, 검출기들(406 및 408)(그리고 선택적으로는 주제 분류기(410)) 및 특징 유닛(404)으로부터의 결과들을 시뮬레이션하는 트레이닝 데이터(614)가 믹서(612)에 입력될 수 있다. 트레이닝 데이터(614)는 또한 각각의 질의 쌍에 연관된 예상 트레이닝 결과를 포함한다. 트레이닝 데이터(614)는 수 개의 연속적인 질의 쌍에 대한 데이터를 포함할 수 있다. 믹서(612)가 머신 규칙들을 학습하고 나면, 그들은 필요에 따라 검증될 수 있다.

따라서, 믹서(412)(및/또는 믹서 판정기 유닛(418))를 위한 규칙들이 학습되고 나면(그리고, 선택적으로는 검증되고 나면), 믹서(412)는 내부적으로 사용자가 리서치 미션을 수행하고 있는지의 확률을 나타내는 확률 p를 생성할 수 있다. 따라서, 확률 p는 학습된 규칙들이 2개의 연속적인 질의 쌍에 대한 검출기들(406 및 408)(그리고, 선택적으로는 주제 분류기(410))로부터의 결과들에 걱용된 결과일 수 있다. 일 실시예에서, 다음으로, 믹서(412)는 2개의 연속적인 질의 쌍에 대해 확률 p를 이용하여, 다른 것들 중에서도 특히 트리거 임계 T, 부스팅 인자 B와, 소정의 추가 규칙들을 생성할 수 있다. 여기에 설명된 예시적인 것들을 대신하여, 또는 그에 더하여 다른 임계들 및/또는 인자들이 이용될 수 있음에 유의해야 한다. 추가적인 규칙들은 현재 판정을 부스팅하거나 블랙리스트에 올릴 수 있다.

구체적으로, 믹서(412)가 주제 분류기(410)로부터, 제1 및 제2 주제 중 적어도 하나가 미리 정해진 인기있는 리서치 주제를 포함한다는 신호를 수신하는 경우, 둘 이상의 연속적인 질의에 대한 중요도는 예를 들어 임계 T를 감소시키는 것에 의해 증가될 수 있다. 예를 들어, 제1 또는 제2 주제 중 어느 하나가 미리 정해진 인기있는 리서치 주제인 경우(예를 들어, 부스트 리스트에 있음), 임계 T는 부스팅 인자 B에 의해 나누어질 수 있으며, 이에 의해 임계 T가 낮아진다. 예시적인 인기있는 리서치 주제는 다른 것들 중에서도 특히, 여행, 건강 및 직업 검색에 관한 검색 주제들을 포함한다.

대안적으로, 믹서(412)가 주제 분류기(410)로부터, 제1 및 제2 주제 중 적어도 하나가 블랙리스트에 오른 리서치 주제를 포함한다는 신호를 수신하는 경우, 둘 이상의 연속적인 질의의 중요도는 적어도 상당히 제한될 수 있고, 또는 판정이 완전히 취소될 수 있다. 예를 들어, 트리거 임계 T가 미리 정해진 계수(예를 들어, 블랙리스트 계수)만큼 증가될 수 있다. 일 실시예에서, 믹서(412)는 다른 검출기들(406 및 408)로부터의(또는 주제 분류기(410)로부터의) 결과들에 무관하게, 단순히 사용자가 리서치 미션을 수행하고 있지 않다고 판정할 수 있다. 블랙리스트에 오른 예시적인 주제는 성인용 주제 검색, 불법적인 검색 및 그와 유사한 것을 포함할 수 있다.

2. 특징들

복수의 특징이 질의들의 시리즈(500)를 분석하고 특징짓기 위해 적용되는 복수의 특징 함수를 이용하여 특징 유닛(404)에 의해 생성될 수 있다. 예를 들어, 특징 함수들은 질의들의 시리즈(500)를 분석하기 위해 (제1 질의(502) 및 제2 질의(504)와 같은) 질의 쌍마다 적용될 수 있다. 특징 유닛(404)은 각각의 질의 쌍에 대해 복수의 특징을 생성할 수 있다. 각각의 검출기(406 및 408)는 그들 각자의 검출에 대해 필요한 대로 복수의 특징의 상이한 부분집합을 이용할 수 있다.

텍스트 특징(Textual Features)

일 실시예에서, 둘 이상의 연속적인 질의 간의 텍스트 유사성을 계산하기 위해, 텍스트 특징들에 관한 특징 함수들(텍스트 특징 함수들)이 적용된다. 예를 들어, 텍스트 특징들은 제1 질의 q1(502) 및 제2 질의 q2(504)에 대해 계산될 수 있다. 텍스트 특징들은 다른 것들 중에서도 특히, 2개의 연속적인 질의 q1 및 q2 각각에서의 질의어들의 길이 및/또는 개수, 2개의 연속적인 질의 q1 및 q2 간의 코사인 유사성, 2개의 연속적인 질의 q1 및 q2에 대한 자카드 계수, 2개의 연속적인 질의 q1 및 q2에 대한 특성들의 교차 크기, 및/또는 2개의 연속적인 질의 q1 및 q2 간의 레벤스타인 에디트 거리(Levenshtein edit distance)를 포함할 수 있다. 질의들의 시리즈 내의 질의들의 용어들 간의 텍스트 유사성의 척도는 또한 2개의 질의(502 및 504)에 대한 상이한 단어들 또는 단어열들(strings of words) 간의 텍스트 유사성을 측정하는 것에 관하여 본 기술분야에 알려져 있는 다양한 기법들 중 임의의 것을 포함할 수 있다. 예를 들어, 그러한 기법들은 상이한 단어들 또는 단어열들 간의 공통 용어 또는 기저 개념(underlying concepts)을 식별하는 것을 수반할 수 있다.

세션 특징들

일 실시예에서, 제1 질의(502) 및 제2 질의(504)와 같은 둘 이상의 연속적인 질의에 대한 세션 속성들을 계산하기 위해, 세션 특징들에 관한 특징 함수들(세션 특징 함수들)이 적용된다. 예를 들어, 세션 특징들은 다른 것들 중에서도 특히, 현재 검색 세션 내에서의 사용자 클릭 및/또는 질의의 수, 및/또는 최종 사용자 클릭 이후의 사용자 클릭 및/또는 질의의 수를 포함할 수 있다. 다른 세션 특징들은 정보 검색 세션 동안 액세스되는 문서들의 개수를 포함할 수 있다. 예를 들어, 사용자가 검색 엔진(106)에 의해 제공된 검색 결과 페이지 상의 문서에 대한 링크를 활성화할 때, 문서가 액세스될 수 있다. 액세스되는 문서의 개수는 단독으로, 문서들이 식별된 특정 질의들에 관련하여, 또는 사용자에 의해 제출된 질의의 총 개수에 관련하여 분석될 수 있다.

시간 특징들(Time Features)

일 실시예에서, 시간 관련 특징들에 관한 특징 함수들(시간 관련 특징 함수)은 제1 질의(502) 및 제2 질의(504)와 같은 둘 이상의 연속적인 질의에 대한 시간 속성을 계산하도록 구성된다. 예를 들어, 시간 관련 특징들은 다른 것들 중에서도 특히, 사용자가 제1 질의(502)를 게시한 것과 제2 질의(504)를 게시한 것 사이에 경과된 시간, 2개의 질의 사이에서 경과된 시간의 역수, 및 2개의 질의(502 및 504)를 포함하는 세션(즉, 정보 검색 세션)에 대한 전체 세션 시간을 포함한다.

다른 특징들

일 실시예에서, 특징 함수들은 또한 2개의 연속적인 질의(502 및 504) 각각을 수신한 것에 응답하여, 검색 엔진(106)에 의해 식별되는 문서들 간의 유사성을 측정할 수 있다. 이러한 문서 관련 특징들은 사용자 측의 리서치 미션 의도를 파악하기 위해서도 이용될 수 있다. 문서들을 비교하는 것은 2개의 연속적인 질의(502 및 504)에 응답하여 검색 엔진(106)에 의해 식별된 문서들의 부분집합만을 비교하는 것을 포함할 수 있다. 예를 들어, 2개의 연속적인 질의(502 및 504) 각각에 가장 관련있는 것으로서 식별된 미리 정의된 수의 문서만이 비교될 수 있다. 대안적으로는, 2개의 연속적인 질의(502 및 504)를 포함하는 정보 검색 세션 동안 사용자에 의해 액세스되는 문서들만이 비교에 이용될 수 있다.

예를 들어, 문서들을 비교하는 것은 문서들 내의 텍스트를 비교하는 것, 또는 문서들의 제목, 문서들에 연관된 URL들, 검색 엔진(106)에 의해 생성된 문서들의 요약 또는 개요, 문서들에 연관된 태그들, 또는 문서들에 연관된 다양한 메타데이터와 같은 문서들의 내용을 나타내는 다른 정보를 비교하는 것을 포함할 수 있다. 다수의 문서 내의 텍스트를 비교할 때, 텍스트의 선택된 부분만이 비교될 수 있다. 예를 들어, 일 실시예에서, 각각의 문서 내에서 가장 빈번하게 출현하는 소정 개수의 용어들만이 비교된다. 비교될 정보가 텍스트를 포함하는 경우, 상이한 단어들 또는 단어열들 간의 유사성을 측정하는 것에 관해 본 기술분야에 알려져 있는 광범위하게 다양한 기법들 중 임의의 것이 유사성 척도를 제공하기 위해 이용될 수 있다. 위에서 언급된 바와 같이, 그러한 기법들은 상이한 단어들 또는 단어열들 간의 공통 용어들 또는 기저 개념들을 식별하는 것을 수반할 수 있다. 이러한 방식으로 식별되는 공통 용어들 또는 기저 개념들은 리서치 세션이 검출되는 경우에 그 리서치 세션의 주제를 식별하고 기술하는 것을 돕기 위해 더 이용될 수 있다.

관련 기술분야(들)의 숙련된 자들은 상기 나열된 특징들의 다른 유형들이 설명된 것들을 대신하여, 또는 그들에 추가하여 고려될 수 있음을 쉽게 알 것이다.

3. 리서치 미션 식별 시스템의 튜닝

일 실시예에서, 시스템 관리자는 예를 들어 믹서(412) 및/또는 믹서 판정기 유닛(418)을 튜닝하는 것에 의해, 리서치 미션 식별 시스템(116)의 트리거 감도를 튜닝할 수 있다. 예를 들어, 믹서(412)의 트리거 임계 T는 실세계 트리거 데이터, 예를 들어 이벤트가 지나치게 빠르게 또는 충분히 빠르지 않게 트리거되는지에 따라, 더 높게 또는 더 낮게 설명될 수 있다. 실세계 트리거 데이터는 유용성 연구, 마케팅 연구, 사용자(들)의 특정 요구와, 지리학적 고려사항들로부터 수집될 수 있다. 예를 들어, 트리거 임계 T는 정밀도 또는 호출 능력(recall)을 장려하기 위해 수정될 수 있다. 더 높은 정밀도는 사용자가 리서치 미션을 수행하고 있을 더 높은 확률을 나타내고, 더 높은 호출 능력은 트리거의 더 높은 확률을 나타낸다. 일부 지리적 영역들은 정밀도를 장려할 수 있는데, 이는 리서치 미션 식별 시스템(116)이 리서치 미션이 발생하고 있다는 높은 수준의 신뢰도를 갖지 않으면 이벤트(들)가 트리거되지 않을 것임을, 즉 허위 긍정(false positives)의 확률이 작을 것임을 의미한다. 반대로, 다른 지리적 영역들은 호출 능력을 장려할 수 있는데, 이는 리서치 미션 식별 시스템(116)이 리서치 미션이 발생하고 있을 중간 신뢰도를 갖고 있더라도 이벤트(들)가 트리거될 것임을, 즉 허위 긍정의 확률이 더 높을 것임을 의미한다.

더욱이, 일 실시예에서, 시스템 관리자는 리서치 미션 식별 시스템(116) 내의 믹서(412) 및/또는 믹서 판정기 유닛(418)에 의해 이용되는 검출기들 각각의 상대적인 영향을 튜닝할 수 있다. 예를 들어, 주제 분류기(410)의 상대적인 가중은 사용자의 특정 요구 및/또는 다른 고려사항에 기초하여 증가 또는 감소될 수 있다. 일 실시예에서, 믹서(412)는 시스템 관리자가 믹서(412)에 의해 이용되는 검출기 각각의 상대적인 영향을 튜닝한 것에 응답하여, 그것의 머신 학습된 규칙들을 재학습 및/또는 수정하기 위해 다시 트레이닝될 수 있다. 일 실시예에서, 시스템 관리자가 믹서(412)에 의해 이용되는 검출기들 각각의 상대적인 영향을 튜닝한 것에 응답하여, 믹서(412)가 새로운 머신 학습된 규칙들을 학습하기 위해 다시 트레이닝될 필요없이, 믹서(412)는 단순히 그것의 머신 학습된 규칙들 내에서 각 검출기에 대한 상이한 가중치들 및/또는 계수들을 이용할 수 있을 수 있다.

4. 대안적인 리서치 미션 식별 시스템

도 7에 도시된 바와 같이, 일 실시예에서, 리서치 미션 식별 시스템(116)은 세션 유닛(702), 특징 유닛(704), 검출기(들)(706), 및 머신 학습된 시스템(들)(708)을 포함할 수 있다. 세션 유닛(702)은 실질적으로는 도 4의 세션 유닛(402)과 유사할 수 있고, 유사한 기능성을 가질 수 있다. 또한, 특징 유닛(704)은 도 4의 특징 유닛(404)과 실질적으로 유사할 수 있고, 유사한 기능성을 가질 수 있다. 검출기(706)는 리서치 검출기(406), 미션 검출기(408), 및 선택적으로는 주제 분류기(410)의 기능성을 수행하도록 구성될 수 있다. 예를 들어, 검출기(706)는 특징 유닛(704)으로부터 복수의 특징을 수신하고, 머신 학습된 규칙들(또는 하드 코딩된 규칙들의 집합)을 적용하여 연관된 신뢰도 수준을 갖는 둘 이상의 개별 결과를 생성하도록 구성될 수 있다. 따라서, 검출기(706)는 사용자가 복합 리서치를 수행하고 있는지를 검출하고, 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 판정하고, 선택적으로는 생성된 특징들에 기초하여 질의들의 시리즈 내의 둘 이상의 연속적인 질의 간에 주제 유사성이 있는지를 검출한다.

따라서, 검출기(706)는 리서치 검출기(406) 및 미션 검출기(408)의 기능성, 그리고 선택적으로는 주제 분류기(410)의 기능성도 수행할 수 있는 머신 학습된 규칙들의 단일 집합을 가질 수 있다. 대안적으로, 검출기(706)는 리서치 검출기(406) 및 미션 검출기(408) 각각의 기능성, 그리고 선택적으로는 주제 분류기(410)의 기능성을 위한 머신 학습된 규칙들의 별개의 집합들을 가질 수 있다. 어느 경우에서든, 검출기(706)는 머신 학습된 규칙들을 머신 학습된 시스템(708)에 적용한 것의 결과를 전파할 수 있다. 대안적으로, 검출기(706)는 리서치 검출기(406) 및 미션 검출기(408) 각각의 기능성, 그리고 선택적으로는 주제 분류기(410)의 기능성을 위한 하드코딩된 규칙들을 이용할 수 있다.

머신 학습된 시스템(708)은 내부 상태 데이터(414) 및 이벤트 데이터(416)가 둘 다 상태 유닛(710)에 의해 저장될 수 있다는 점을 제외하고는 도 4의 믹서(412)와 유사한 방식으로 작동할 수 있다. 리서치 미션 식별 시스템(116)은 원하는 대로, 도 4 및 도 7을 참조하여 설명된 실시예들의 임의의 조합으로서 구현될 수 있음을 이해해야 한다.

5. 모듈식 시스템(Modular System)

일 실시예에서, 리서치 미션 식별 시스템(116)은 모듈식 시스템일 수 있다. 모듈 방식은 리서치 미션 식별 시스템(116)의 다른 부분들에 반드시 영향을 주지 않고서도 리서치 미션 식별 시스템(116)의 다양한 부분들이 추가, 제거 및/또는 수정될 수 있게 한다. 소정의 상황들에서, 믹서(412) 및/또는 하나 이상의 검출기(406 및 408)의 머신 학습된 규칙들이 다시 트레이닝될 필요가 있을 수 있다.

예를 들어, 리서치 미션 식별 시스템(116)은 도 4 및 도 7을 참조하여 설명된 것들에 더하여, 추가의 검출기 모듈들을 이용할 수 있을 수 있다. 예를 들어, 새로운 검출기 유닛은 2개의 연속적인 질의에 대한 특징들의 제3 부분집합이 2개의 연속적인 질의가 동일한 상품에 관련됨을 나타내는지를 검출하도록 구성될 수 있다.

다른 예에서, 추가의 특징들이 특징 유닛(404)에 추가될 수 있다. 이러한 추가의 특징들은 미션 검출기(408)가 아니라 리서치 검출기(406)에 의해서만 이용될 수 있다. 이 경우, 리서치 검출기(406)를 위한 머신 학습된 규칙들만이 (예를 들어, 새로운 또는 변경된 제1 머신 학습된 규칙들을 학습하기 위해 리서치 검출기(406)를 다시 트레이닝함으로써) 재학습될 필요가 있을 수 있다. 리서치 검출기(406)에 의한 추가 특징들의 사용은 리서치 검출기(406)를 더 정확하게 만들 수 있다. 그러나, 믹서(412)에 대한 리서치 검출기(406)의 출력은 동일하고, 따라서 믹서(412) 내에서의 머신 학습된 규칙들은 이러한 추가 특징들에 의해 영향을 받지 않는다.

따라서, 리서치 미션 식별 시스템(116)의 모듈 방식은 커스텀 리서치 미션 식별 시스템(116)을 설계하고 유지하는 데에 있어서의 많은 유연성을 시스템 아키텍트에 제공한다는 것을 알 수 있다.

6. 특수화된 검색 애플리케이션을 위한 다음 질의 식별

일 실시예에서, 리서치 미션 식별 시스템(116)은 리서치 미션의 부분으로 식별되는 질의들에 대한 검색 결과들을 개선하기 위해 이용될 수 있다. 예를 들어, 질의들의 시리즈 내의 3개의 연속적인 질의가 리서치 미션의 부분인 것으로 식별되는(즉, 리서치 미션을 식별하기 위해 이용되는) 경우, 리서치 미션 식별 시스템(116)은 질의들의 시리즈 내의 제4 질의를 추측할 수 있을 수 있다. 제4 질의는 사용자가 제4 질의를 실질적으로 발행할 수 있기 전에, 결과들을 찾아서 검색 엔진(106)의 사용자에게 제안하기 위해, 특수화된 검색 애플리케이션(및/또는 검색 엔진(106)의 임의의 컴포넌트)과 같은 애플리케이션(118)에 의해 이용될 수 있다. 즉, 리서치 미션 식별 시스템(116)은 그것이 발행되기 전에 사용자의 다음 질의를 추측하고 이용하도록 구성될 수 있다. 일 실시예에서, 믹서(412)는 질의들의 시리즈 내의 다음 질의를 추측하기 위해 머신 학습된 규칙들을 이용할 수 있지만, 리서치 미션 식별 시스템(116)의 다른 컴포넌트(들)가 대신 이용될 수 있다.

그러나, 본 발명은 그러한 실시예들로 한정되지 않으며, 검색 엔진의 사용자가 리서치 미션을 수행하고 있는지를 판정하기 위한 다른 수단이 이용될 수 있다.

C. 예시적인 컴퓨터 시스템 구현

시스템, 방법/프로세스, 및/또는 장치를 포함하는 여기에 설명된 실시예들은 도 8에 도시된 컴퓨터(800)와 같은 공지된 서버들/컴퓨터들을 이용하여 구현될 수 있다. 예를 들어, 도 1의 검색 엔진(106) 및 리서치 미션 식별 시스템(116), 도 3에 도시된 흐름도에 설명된 방법, 및 도 4 및/또는 도 7의 리서치 미션 식별 시스템(116)은 하나 이상의 컴퓨터(800)를 이용하여 구현될 수 있다.

컴퓨터(800)는 IBM(International Business Machines), Apple, Sun, HP, Dell, Cray 등으로부터 입수할 수 있는 컴퓨터들과 같이, 여기에 설명된 기능들을 수행할 수 있는 임의의 상용화되고 공지된 컴퓨터일 수 있다. 컴퓨터(800)는 데스크탑 컴퓨터, 서버 등을 포함하는 임의의 유형의 컴퓨터일 수 있다.

컴퓨터(800)는 프로세서(804)와 같은 하나 이상의 프로세서(중앙 처리 유닛 또는 CPU라고도 지칭됨)를 포함한다. 프로세서(804)는 통신 버스와 같은 통신 기반구조(802)에 접속된다. 일부 실시예들에서, 프로세서(804)는 다수의 컴퓨팅 스레디를 동시에 작동시킬 수 있다.

컴퓨터(800)는 또한 RAM(random access memory)과 같은 1차 또는 주 메모리(806)를 포함한다. 주 메모리(806)에는 제어 로직(828A)(컴퓨터 소프트웨어) 및 데이터가 저장되어 있다.

컴퓨터(800)는 또한 하나 이상의 2차 저장 디바이스(810)를 포함한다. 2차 저장 디바이스들(810)은 예를 들어 하드 디스크 드라이브(812) 및/또는 이동식 저장 디바이스 또는 드라이브(814)는 물론, 메모리 카드 및 메모리 스틱과 같은 다른 유형의 저장 디바이스도 포함한다. 예를 들어, 컴퓨터(800)는 메모리 스틱과 같은 디바이스들과 인터페이스하기 위해 USB(universal serial bus) 인터페이스와 같은 산업 표준 인터페이스를 포함할 수 있다. 이동식 저장 드라이브(814)는 플로피 디스크 드라이브, 자기 테이프 드라이브, 컴팩트 디스크 드라이브, 광학 저장 디바이스, 테이프 백업 등을 표현한다.

이동식 저장 드라이브(814)는 이동식 저장 유닛(816)과 상호작용한다. 이동식 저장 유닛(816)은 컴퓨터 소프트웨어(828B)(제어 로직) 및/또는 데이터가 저장되어 있는 컴퓨터 사용가능한 또는 판독가능한 저장 매체(824)를 포함한다. 이동식 저장 유닛(816)은 플로피 디스크, 자기 테이프, 컴팩트 디스크, DVD, 광학 저장 디스크 또는 임의의 다른 컴퓨터 데이터 저장 디바이스를 표현한다. 이동식 저장 드라이브(814)는 잘 알려진 방식으로 이동식 저장 유닛(816)으로부터 판독하거나 거기에 기입한다.

컴퓨터(800)는 또한 모니터, 키보드, 포인팅 디바이스 등과 같은 입력/출력/디스플레이 디바이스들(822)을 포함한다.

컴퓨터(800)는 통신 또는 네트워크 인터페이스(818)를 더 포함한다. 통신 인터페이스(818)는 컴퓨터(800)가 원격 시스템들 및 디바이스들과 통신하는 것을 가능하게 한다. 예를 들어, 통신 인터페이스(818)는 컴퓨터(800)가 LAN, WAN, 인터넷 등과 같은 통신 네트워크 또는 매체(842)를 통해 통신하는 것을 허용한다. 네트워크 인터페이스(818)는 유선 또는 무선 접속을 통해 원격 사이트 또는 네트워크와 인터페이스할 수 있다.

제어 로직(828C)은 통신 매체(842)를 통해 컴퓨터(800)에, 그리고 그로부터 전송될 수 있다. 더 구체적으로, 컴퓨터(800)는 통신 매체(842)를 통해 제어 로직(828C)으로 변조된 반송파들(전자기 신호들)을 수신 및 전송할 수 있다.

제어 로직(소프트웨어)이 저장되어 있는 컴퓨터 사용가능한 또는 판독가능한 매체를 포함하는 임의의 장치 또는 제조물은 여기에서 컴퓨터 프로그램 제품 또는 프로그램 저장 디바이스라고 지칭된다. 이것은 컴퓨터(800), 메인 메모리(806), 2차 저장 디바이스(810), 및 이동식 저장 유닛(816)을 포함하지만, 그에 한정되지 않는다. 하나 이상의 데이터 프로세싱 디바이스에 의해 실행될 때 그러한 데이터 프로세싱 디바이스로 하여금 여기에 설명된 바와 같이 동작하도록 하는 제어 로직이 저장되어 있는 그러한 컴퓨터 프로그램 제품은 본 발명의 실시예들을 나타낸다.

본 발명은 여기에 설명된 것들 외의 소프트웨어, 하드웨어 및/또는 운영 체제 구현과 함께 작동할 수 있다. 여기에 설명된 기능들을 수행하기에 적합한 임의의 소프트웨어, 하드웨어 및 운영 체제 구현이 이용될 수 있다.

D. 결론

본 발명의 다양한 실시예들이 위에서 설명되었지만, 그들은 제한이 아니라 오직 예시로서만 제시된 것임을 이해해야 한다. 관련 기술분야의 숙련된 자들에게는, 첨부된 청구항들에 정의된 본 발명의 취지 및 범위를 벗어나지 않고서, 위에서 설명된 실시예들에 다양한 형태 및 세부 변경이 이루어질 수 있음이 분명할 것이다. 따라서, 본 발명의 폭 및 범위는 위에서 설명된 예시적인 실시예들 중 어떠한 것에 의해서도 제한되어서는 안 되며, 이하의 청구항들 및 그들의 균등물에 따라서만 정의되어야 한다.

Claims

검색 엔진의 사용자가 리서치 미션(research mission)을 수행하고 있는지를 판정하기 위한 컴퓨터 구현 방법으로서,
상기 사용자에 의해 상기 검색 엔진에 제출된 질의들의 시리즈에 관련된 복수의 특징(features)을 생성하는 단계;
상기 복수의 특징의 제1 부분집합에 기초하여, 제1 머신 학습된 검출기(machine learned detector)를 이용하여 상기 사용자가 복합 리서치(complex research)를 수행하고 있는지를 검출하는 단계;
상기 복수의 특징의 제2 부분집합에 기초하여, 제2 머신 학습된 검출기를 이용하여 상기 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출하는 단계; 및
적어도, 복합 리서치 검출 및 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계
를 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 질의들의 시리즈 내의 제1 질의의 제1 주제를 결정하는 단계;
상기 질의들의 시리즈 내의 제2 질의의 제2 주제를 결정하는 단계; 및
적어도 상기 제1 주제와 상기 제2 주제 사이에 주제 유사성이 있는지를 검출하는 단계
를 더 포함하고, 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계는 주제 유사성 검출에 또한 기초하는 컴퓨터 구현 방법.
제2항에 있어서,
상기 제1 질의의 제1 주제를 결정하는 단계는 주제 범주들의 계층적으로 조직화된 분류체계(hierarchically-organized taxonomy of topic categories)로부터의 제1 주제 범주를 상기 제1 질의에 할당하는 단계를 포함하고,
상기 제2 질의의 제2 주제를 결정하는 단계는 상기 주제 범주들의 계층적으로 조직화된 분류체계로부터의 제2 주제 범주를 상기 제2 질의에 할당하는 단계를 포함하고,
적어도 상기 제1 주제와 상기 제2 주제 사이에 주제 유사성이 있는지를 검출하는 단계는 상기 주제 범주들의 계층적으로 조직화된 분류체계 내에서의 상기 제1 주제 범주와 상기 제2 주제 범주 사이의 거리를 결정하는 단계를 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 적어도, 복합 리서치 검출 및 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계는,
적어도, 상기 복합 리서치 검출 및 상기 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있을 확률을 계산하는 단계; 및
상기 확률이 미리 정의된 임계치를 초과하는지를 판정하는 단계
를 포함하는 컴퓨터 구현 방법.
제4항에 있어서,
상기 질의들의 시리즈 내의 질의들 중 적어도 하나의 질의의 주제를 결정하는 단계; 및
상기 주제가 미리 정해진 인기있는 리서치 주제를 포함하는 경우, 상기 미리 정해진 인기있는 리서치 주제에 연관된 부스팅 인자(boosting factor)만큼 상기 미리 정의된 임계치를 감소시키는 단계
를 더 포함하는 컴퓨터 구현 방법.
제4항에 있어서,
상기 질의들의 시리즈 내의 질의들 중 적어도 하나의 질의의 주제를 결정하는 단계; 및
상기 주제가 블랙리스트에 오른 리서치 주제를 포함하는 경우, 상기 사용자가 리서치 미션을 수행하고 있지 않다고 판정하는 단계
를 더 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제1 머신 학습된 검출기를 이용하여 상기 사용자가 복합 리서치를 수행하고 있는지를 검출하는 단계는,
상기 제1 머신 학습된 검출기가, 상기 질의들의 시리즈의 둘 이상의 연속적인 질의에 대하여 상기 복수의 특징의 상기 제1 부분집합을 수신하는 단계; 및
상기 제1 머신 학습된 검출기가, 상기 복수의 특징의 상기 제1 부분집합에 하나 이상의 머신 학습된 규칙을 적용하여 복합 리서치 검출 결과 및 연관된 신뢰도 수준을 생성하는 단계 - 상기 복합 리서치 검출 결과는 검색 내에서의 사용자의 참여 수준을 나타냄 -
를 포함하고, 상기 복수의 특징의 상기 제1 부분집합은 세션 특징들 및 시간 관련 특징들을 포함하는 컴퓨터 구현 방법.
제7항에 있어서,
상기 세션 특징들은, 둘 이상의 연속적인 질의가 이루어졌던 세션에 관련된 다양한 클릭가능한 이벤트들을 나타내고,
상기 시간 관련 특징들은 상기 다양한 클릭가능한 이벤트들 및 상기 세션에 대한 다양한 시간 속성들을 나타내는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제2 머신 학습된 검출기를 이용하여 상기 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출하는 단계는,
상기 제2 머신 학습된 검출기가, 상기 질의들의 시리즈의 둘 이상의 연속적인 질의에 대하여 상기 복수의 특징의 상기 제2 부분집합을 수신하는 단계; 및
상기 제2 머신 학습된 검출기가, 상기 복수의 특징의 상기 제2 부분집합에 하나 이상의 머신 학습된 규칙을 적용하여 미션 검출 결과 및 연관된 신뢰도 수준을 생성하는 단계 - 상기 미션 검출 결과는 상기 둘 이상의 연속적인 질의 사이의 주제 일관성을 나타냄 -
를 포함하고, 상기 복수의 특징의 상기 제2 부분집합은 텍스트 특징들(textual features)을 포함하고, 상기 텍스트 특징들은 상기 둘 이상의 연속적인 질의 사이의 텍스트 유사성을 나타내는 컴퓨터 구현 방법.
제1항에 있어서,
상기 적어도, 복합 리서치 검출 및 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계는 2개의 연속적인 질의 쌍에 대하여 수행되고, 상기 2개의 연속적인 쌍 중 제1 쌍의 제2 질의와 상기 2개의 연속적인 쌍 중 제2 쌍의 제1 질의는 동일한 질의인 컴퓨터 구현 방법.
제1항에 있어서,
상기 판정하는 단계에 기초하여,
하나 이상의 리서치 도구;
하나 이상의 특수화된 검색;
하나 이상의 지향성 광고(directed ads); 및
하나 이상의 마켓플레이스 이벤트(marketplace events)
중 하나 이상을 트리거하는 단계를 더 포함하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 사용자가 리서치 미션을 수행하고 있는지에 대한 이전의 판정들;
상기 복합 리서치 검출;
상기 미션 검출; 및
상기 사용자에 의해 제출된 상기 질의들의 시리즈의 적어도 일부분
중 하나 이상에 대한 상태 데이터를 유지하는 단계를 더 포함하고,
상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계는 상기 상태 데이터에 또한 기초하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 복합 리서치 검출 및 상기 미션 검출 중 하나 이상은 연관된 신뢰도 수준을 갖고,
상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계는 상기 복합 리서치 검출과 상기 미션 검출 중 하나 이상에 대한 각각의 연관된 신뢰도 수준을 이용하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 적어도, 복합 리서치 검출 및 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하는 단계는 머신 학습된 시스템을 이용하는 단계를 포함하고,
상기 머신 학습된 시스템은 하나 이상의 머신 학습된 규칙을 상기 복합 리서치 검출 및 상기 미션 검출에 적용하여 리서치 미션 판정 및 연관된 리서치 미션 판정 신뢰도를 생성하는 컴퓨터 구현 방법.
리서치 미션을 검출하기 위한 시스템으로서,
사용자에 의해 제출된 질의들의 시리즈를 수신하고, 상기 질의들의 시리즈 내의 각각의 질의에 응답하여 하나 이상의 문서를 식별하도록 구성된 검색 엔진; 및
리서치 미션 식별 시스템
을 포함하고, 상기 리서치 미션 식별 시스템은,
상기 질의들의 시리즈를 수신하고, 구조화된 질의들의 시리즈를 생성하도록 구성된 세션 유닛;
상기 구조화된 질의들의 시리즈의 분석에 기초하여 복수의 특징을 생성하도록 구성된 특징 유닛;
제1 머신 학습된 규칙들을 이용하여, 상기 복수의 특징의 제1 부분집합에 기초하여 상기 사용자가 복합 리서치를 수행하고 있는지를 검출하도록 구성된 리서치 검출기;
제2 머신 학습된 규칙들을 이용하여, 상기 복수의 특징의 제2 부분집합에 기초하여 상기 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출하도록 구성된 미션 검출기; 및
적어도, 복합 리서치 검출 및 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하도록 구성된 믹서
를 포함하는 시스템.
제15항에 있어서,
상기 리서치 미션 식별 시스템은,
상기 구조화된 질의들의 시리즈에 기초하여 상기 질의들의 시리즈 내의 둘 이상의 연속적인 질의 사이에 주제 유사성이 있는지를 검출하도록 구성된 주제 분류기
를 더 포함하고, 상기 믹서는, 주제 유사성 검출에도 또한 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하도록 구성되는 시스템.
제15항에 있어서,
상기 리서치 검출기는,
상기 질의들의 시리즈의 둘 이상의 연속적인 질의에 대하여 상기 복수의 특징의 상기 제1 부분집합을 수신하고;
상기 복수의 특징의 상기 제1 부분집합에 하나 이상의 머신 학습된 규칙을 적용하여 복합 리서치 검출 결과 및 연관된 신뢰도 수준을 생성하도록
또한 구성되고, 상기 복합 리서치 검출 결과는 검색 내에서의 사용자의 참여 수준을 나타내고,
상기 복수의 특징의 상기 제1 부분집합은 세션 특징들 및 시간 관련 특징들을 포함하는 시스템.
제15항에 있어서,
상기 미션 검출기는 또한,
상기 질의들의 시리즈의 둘 이상의 연속적인 질의에 대하여 상기 복수의 특징의 상기 제2 부분집합을 수신하고;
상기 복수의 특징의 상기 제2 부분집합에 하나 이상의 머신 학습된 규칙을 적용하여 미션 검출 결과 및 연관된 신뢰 수준을 생성하도록
구성되고, 상기 미션 검출 결과는 상기 둘 이상의 연속적인 질의 간의 주제 일관성을 나타내고,
상기 복수의 특징의 상기 제2 부분집합은 텍스트 특징들을 포함하고, 상기 텍스트 특징들은 상기 둘 이상의 연속적인 질의 간의 텍스트 유사성을 나타내는 시스템.
리서치 미션을 검출하기 위한 시스템으로서,
사용자에 의해 제출된 질의들의 시리즈를 수신하고, 상기 질의들의 시리즈 내의 각각의 질의에 응답하여 하나 이상의 문서를 식별하도록 구성된 검색 엔진; 및
리서치 미션 식별 시스템
을 포함하고, 상기 리서치 미션 식별 시스템은,
상기 질의들의 시리즈에 대한 복수의 특징을 생성하도록 구성된 특징 유닛;
검색 내에서의 사용자의 참여 수준을 측정함으로써 상기 복수의 특징에 기초하여 상기 사용자가 복합 리서치를 수행하고 있는지를 검출하고,
연속적인 질의들 간의 주제 일관성을 측정함으로써 상기 복수의 특징에 기초하여 상기 사용자가 특정 정보 요구에 관련된 미션을 수행하고 있는지를 검출하도록
구성된 검출기; 및
적어도, 복합 리서치 검출 및 미션 검출에 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하도록 구성된 머신 학습된 시스템
을 포함하는 시스템.
제19항에 있어서,
상기 검출기는 또한, 상기 질의들의 시리즈 내의 둘 이상의 연속적인 질의 사이에 주제 유사성이 있는지를 검출하도록 구성되고,
상기 머신 학습된 시스템은 주제 유사성 검출에도 또한 기초하여 상기 사용자가 리서치 미션을 수행하고 있는지를 판정하도록 구성되는 시스템.