KR101330273B1

KR101330273B1 - 콘텍스트 기반 리소스 관련성

Info

Publication number: KR101330273B1
Application number: KR1020127003870A
Authority: KR
Inventors: 아론 숀; 매튜 지츠맨; 클라이드 디. 맥퀸; 존 버지; 마이클 스키너
Original assignee: 구글 인코포레이티드
Priority date: 2009-08-14
Filing date: 2010-08-12
Publication date: 2013-11-18
Also published as: US20110040768A1; AU2010282449B2; US8620929B2; WO2011019877A3; AU2010282449A1; CA2771088C; WO2011019877A2; KR20120068829A; CA2771088A1

Abstract

리소스 콘텍스트 시스템("콘텍스트 시스템")은 리소스에 대한 콘텍스트 프로파일을, 그 리소스에 대한 선택 데이터 및 그 리소스에 관련이 있는 것으로 식별된 그 밖의 리소스들의 콘텍스트 프로파일들에 기초하여 계산한다. 콘텍스트 프로파일은 상응하는 복수의 토픽 각각에 대한 리소스의 관련성 척도를 특정하는 값을 포함한다. 콘텍스트 프로파일은 광고 관리 시스템 또는 검색 시스템과 같은 처리 시스템에 제공된다. 처리 시스템은 리소스가 관련된 토픽을 콘텍스트 프로파일에 기초하여 식별할 수 있다.

Description

콘텍스트 기반 리소스 관련성{CONTEXT BASED RESOURCE RELEVANCE}

본 발명은 데이터 처리에 관한 것이다.

사용자는 검색 엔진에 검색 쿼리를 제출함으로써, 인터넷 상에서 가용한 리소스(즉, 웹페이지, 이미지, 특정 토픽에 관한 기사, 오디오 파일, 비디오 파일 및 그 밖의 대화형 미디어)를 찾을 수 있다. 검색 쿼리는 예컨대, 사용자가 찾고자 하는 리소스의 토픽을 나타내는 단어를 포함하는 텍스트 쿼리일 수 있다. 검색 시스템은 검색 쿼리에 상응하는 리소스를 식별하고 그 리소스에 대한 참조(reference)를 포함하는 검색 결과를 제공한다. 리소스는 예컨대, 검색 쿼리에 관련하여 리소스에 대하여 계산된 관련성 점수(relevance score)에 기초하여 식별될 수 있다. 검색 시스템은 리소스에 대한 관련성 점수를, 예컨대 그 리소스와 연관된 텍스트, 리소스가 이전의 검색 결과에서 참조되었을 때 그 리소스에 대한 사용자 선택 데이터, 및 리소스가 관련된 토픽을 나타내는 그 밖의 콘텍스트 데이터(contextual data)에 기초하여 계산할 수 있다.

광고 관리 시스템은 리소스와 함께 제시하기 위한 관련 광고를 선택하는데, 관련성 점수 또는 관련성이나 콘텍스트의 다른 척도(measure)를 또한 이용할 수 있다. 예를 들어, 광고 관리 시스템은 리소스가 관련된 것으로 식별되는 토픽과 매치하는 키워드를 갖는 광고를 선택하고, 그 선택된 광고를 그 리소스와 함께 제시하기 위하여 제공할 수 있다.

리소스 콘텍스트 시스템은 리소스에 대한 콘텍스트 프로파일을 그 리소스에 대한 선택 데이터 및 그 리소스에 대하여 관련이 있는 것으로 식별된 다른 리소스의 콘텍스트 프로파일에 기초하여 계산한다. 콘텍스트 프로파일은 복수의 상응하는 토픽 각각에 대한 그 리소스의 관련성 척도를 지정하는 값을 구비한다. 콘텍스트 프로파일은 광고 관리 시스템 또는 검색 시스템과 같은 처리 시스템에 제공된다. 처리 시스템은 리소스가 관련된 토픽을 콘텍스트 프로파일에 기초하여 식별할 수 있다.

일반적으로, 본 발명의 일 양태는 방법으로 구현될 수 있고, 이 방법은 제1 리소스에 대한 제1 콘텍스트 프로파일―상기 제1 콘텍스트 프로파일은 복수의 토픽 각각에 대한 제1 리소스의 관련성 척도들을 나타내는 토픽값들을 특정함―을 선택하는 단계; 상기 제1 리소스에 관련된 것으로 식별된 제2 리소스를 식별하는 단계; 상기 제2 리소스에 대한 제2 콘텍스트 프로파일을 상기 제1 콘텍스트 프로파일의 함수에 기초하여 계산하는 단계; 및 상기 제2 콘텍스트 프로파일을 처리 시스템―여기서, 상기 처리 시스템은 토픽값 임계를 초과하는 제2 콘텍스트 프로파일 내 적어도 하나의 토픽값에 기초하여 상기 제2 리소스를 적어도 하나의 토픽에 관련된 것으로 식별하도록 구성됨 ―에 제공하는 단계를 포함한다. 이 구현예 및 다른 구현예는 상응하는 시스템, 장치 및 컴퓨터 프로그램 제품을 포함할 수 있다.

실시예는 후술하는 특징들 중 하나 이상을 포함할 수 있다. 예를 들어, 제2 리소스는 제1 리소스에 대한 공동 선택 리소스인 리소스일 수 있고, 상기 제2 콘텍스트 프로파일은 상기 제2 콘텍스트 프로파일에 대한 토픽값들을 초기 토픽값들로 초기화함으로써 계산될 수 있다. 본 방법은 상기 초기 토픽값들과 상기 제1 콘텍스트 프로파일의 함수에 기초하여 콘텍스트 프로파일 결과를 계산하는 단계; 상기 콘텍스트 프로파일 결과의 토픽 점수들을 정규화된 토픽 점수들로 정규화하는 단계; 정규화된 토픽 점수 각각을 토픽 점수 임계치와 비교하는 단계; 상기 토픽 점수 임계치보다 작은 값을 갖는 정규화된 토픽 점수들을 기준 값에 대해 조정하는 단계; 및 상기 조정된 토픽 점수들에 기초하여 상기 토픽 점수들을 재-정규화하는 단계를 포함한다.

특정 구현예는 후술 하는 하나 이상의 장점을 실현할 수 있다. 예를 들어, 리소스들이 순차적으로 선택된 리소스들의 콘텍스트 프로파일들에 기초하여 리소스들에 대한 콘텍스트 프로파일들이 계산될 수 있다. 콘텍스트 프로파일들이 계산될 수 있는 리소스들은 가용한 콘텍스트 데이터가 없거나 적은 리소스들을 포함한다. 계산된 콘텍스트 프로파일들은 처리 시스템들에 제공될 수 있다. 처리 시스템들은 계산된 콘텍스트 프로파일들에 기초하여 토픽들에 관련된 것으로 리소스들을 식별할 수 있다.

하나 이상 실시예들의 상세 내용이 첨부 도면 및 이하의 상세한 설명에 기재된다. 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구항으로부터 명확하게 된다.

도1은 검색 시스템이 검색 서비스를 제공하고, 광고 관리 시스템이 타켓화된 광고 서비스를 제공하는 예시적 환경의 블록도이다.
도2는 공동 선택 리소스에 대한 콘텍스트 프로파일을 계산하는 예시적 프로세스의 흐름도이다.
도3은 사용자 세션 데이터가 생성되고 인덱스되는 예시적 환경의 블록도이다.
도4는 선택 데이터가 사용되어 생성된 가중 그래프의 예시이다.
도5는 가중 그래프를 생성하는 예시적 프로세서의 흐름도이다.
도6은 업데이트된 콘텍스트 프로파일을 계산하는 예시적 프로세스의 흐름도이다.
여러 도면에서 유사한 번호와 지시자는 유사한 요소를 가리킨다.

리소스 콘텍스트 시스템("콘텍스트 시스템")은 리소스에 대한 콘텍스트 프로파일을, 그 리소스에 대한 선택 데이터 및 그 리소스에 관련이 있는 것으로 식별된 그 밖의 리소스들의 콘텍스트 프로파일들에 기초하여 계산한다. 일부 구현예에서, 동일한 사용자 세션 동안 리소스들의 선택에 기초하여, 리소스들은 링크에 의해 연결된다. 콘텍스트 프로파일은 상응하는 복수의 토픽 각각에 대한 리소스의 관련성 척도를 지정하는 값을 포함한다. 리소스에 대한 콘텍스트 프로파일은 광고 관리 시스템 또는 검색 시스템과 같은 처리 시스템에 제공된다. 처리 시스템은 리소스가 관련된 토픽을 콘텍스트 프로파일에 기초하여 식별할 수 있다.

검색 서비스와 광고 타겟팅 서비스(advertisement targeting service)가 제공되는 온라인 환경이 아래에 기술된다. 리소스에 대한 콘텍스트 프로파일을 계산하는 콘텍스트 시스템은 이 온라인 환경을 참조하여 독립 시스템으로서 기술된다. 하지만 콘텍스트 시스템은 리소스의 콘텍스트 프로파일을 활용할 수 있는 검색 시스템, 광고 관리 시스템 또는 그 밖의 처리 시스템의 서브시스템 또는 구성요소로서 구현될 수 있다.

도1은 검색 시스템(110)이 검색 서비스를 제공하고, 광고 관리 시스템(115)이 타켓화된(targeted) 광고 서비스를 제공하는 예시적 환경(100)의 블록도이다. 예시적 환경(100)은 LAN(local area network), WAN(wide area network), 인터넷 또는 이들의 조합과 같은 네트워크(102)를 포함한다. 네트워크는 웹사이트(104), 사용자 디바이스(106), 검색 시스템(110), 및 광고 관리 시스템(115)을 연결한다. 온라인 환경(100)은 수천 개의 웹사이트(104)와 사용자 디바이스(106)를 포함할 수 있다.

웹사이트(104)는 도메인 이름과 연관되고 하나 이상의 서버에 의해 운영되는 하나 이상의 리소스를 포함한다. 예시적 웹사이트는 HTML(hypertext markup language)로 포맷되며, 텍스트, 이미지, 멀티미디어 콘텐츠 및 프로그래밍 요소(예컨대, 스크립트)를 포함할 수 있는 웹 페이지들의 집합이다. 웹사이트(104) 각각은 웹사이트를 관리 및/또는 소유하는 개체(entity)일 수 있는 퍼블리셔(publisher)에 의해 유지 관리된다.

리소스는 웹사이트(104)가 네트워크(102)를 통해 제공할 수 있고, 리소스 주소와 연관된 임의의 데이터이다. 리소스는 몇 개를 나열하자면, HTML 페이지, 워프 프로세싱 문서, PDF(portable document format) 문서, 이미지, 비디오 및 피드 소스를 포함한다. 리소스는 단어, 구, 이미지와 소리와 같은 콘텐츠를 포함할 수 있고, 메타 정보와 하이퍼링크와 같은 내장 정보(embedded information), 및/또는 자바 스크립트와 같은 내장 명령을 포함할 수 있다.

각 리소스는 고유하게 식별될 수 있는 어드레스 가능 저장 위치(addressable storage location)를 갖는다. 이 어드레스 가능 위치는 URL(universal resource locator)과 같은 리소스 로케이터에 의해 어드레스된다.

사용자 디바이스(106)는 사용자의 제어 하에 있는 전자 디바이스이고, 네트워크(102)를 통해 리소스를 요청하고 수신할 수 있다. 예시적 사용자 디바이스(106)는 개인용 컴퓨터, 이동 통신 디바이스, 및 네트워크(102)를 통해 데이터를 송수신할 수 있는 그 밖의 디바이스이다. 사용자 디바이스(106)는 네트워크(102)를 통한 데이터의 송수신을 지원하기 위하여, 웹브라우저와 같은 사용자 애플리케이션을 통상 구비한다.

이들 리소스의 검색을 용이하게 하기 위하여, 검색 시스템(110)은 웹사이트(104) 상에 퍼블리셔에 의해 제공된 리소스를 크롤링(crawling) 및 인덱스하여 리소스를 식별한다. 리소스에 관한 데이터는 그 데이터가 상응하는 리소스에 기초하여 인덱스될 수 있다. 리소스의 인덱스되고 선택적으로는 캐쉬된(cached) 사본들(copies)은 인덱스된 캐쉬(112)에 저장된다.

사용자 디바이스(106)는 검색 쿼리(109)를 검색 시스템(110)에 제출한다. 응답으로, 검색 시스템(110)은 검색 쿼리(109)에 관련된 리소스를 식별하기 위하여, 인덱스된 캐쉬(112)에 액세스한다. 검색 시스템(110)은 검색 결과(111) 형태의 리소스를 식별하고, 검색 결과 페이지에서 사용자 디바이스(106)에 검색 결과(111)를 반환한다. 검색 결과(111)는 특정 검색 쿼리에 응답하는 리소스를 검색 시스템(110)이 식별함으로써 생성되고, 그 리소스에 대한 링크를 포함하는 데이터이다. 예시적 검색 결과(111)는 웹페이지 타이틀, 웹페이지로부터 추출된 텍스트의 스니펫(snippet) 또는 이미지의 일부, 및 웹페이지의 URL을 포함할 수 있다.

검색 결과는 그 검색 결과에 의해 식별된 리소스에 관련된 점수(예컨대, 정보 탐색(IR; Information retrieval) 점수)에 기초하고, 또한, 선택적으로는, 다른 리소스에 대한 각 리소스의 개별 랭킹("페이지 랭킹" 점수)에 기초하여 랭크된다. 일부 구현예에서, IR 점수는 검색 쿼리(109)와 리소스에 상응하는 특징 벡터들(feature vectors)의 내적으로 계산되며, 검색 결과의 랭킹은 IR 점수와 페이지 품질 점수의 조합인 관련성 점수에 기초한다. 검색 결과(111)들은 이들 관련성 점수에 기초하여 정렬되고, 그 정렬 순서대로 사용자 디바이스에 제공된다.

사용자 디바이스(106)는 검색 결과 페이지를 예컨대, 하나 이상의 웹페이지 형태로 수신하고, 그 페이지를 사용자에게 제시한다. 사용자 디바이스(106)에서, 검색 결과 내 링크에 대한 사용자 선택에 응답하여, 사용자 디바이스(106)는 링크에 의해 식별된 리소스를 요청한다. 리소스를 운영하는 웹사이트(104)는 그 리소스에 대한 요청을 사용자 디바이스(106)로부터 수신하고, 그 리소스를 요청 사용자 디바이스(106)에 제공한다.

사용자 세션 동안 제출된 검색 쿼리(109)는 이력 데이터 저장부(114)와 같은 데이터 저장부에 저장된다. 사용자 세션 동안 제공된 검색 결과에 응답하여 취해진 액션을 지정하는 선택 데이터도 또한 이력 데이터 저장부(114)와 같은 데이터 저장부에 저장된다. 이러한 액션은 검색 결과가 선택되는지 여부 및/또는 선택과 연관된 체류시간(dwell time; 즉, 선택과 후속 선택 사이의 시간 기간)을 포함할 수 있다. 이력 데이터 저장부(114)에 저장된 데이터는 사용자 세션 동안 제출된 검색 쿼리(109)를, 사용자에 의해 취해진 액션과 검색 결과(111)에서 식별된 리소스에 맵핑하는데 사용될 수 있다. 예를 들어, 이력 데이터 저장부(114)는 사용자 세션 동안 제시를 위하여 선택된 리소스들이 정렬된 리스트를 포함할 수 있다.

사용자 세션은 리소스에 대하여 취해진 액션을 지정하는 데이터가 동일한 세션 식별자와 연관되는 기간이다. 사용자 세션의 기간은 시간, 취해진 액션의 수 또는 사용자 액션의 다른 기술(delineation)에 의해 측정될 수 있다. 예를 들어, 사용자 세션은 분, 시간, 하루, 또는 그 밖의 임의 시간 기간 동안 리소스에 관한 사용자 액션을 포함할 수 있다. 유사하게, 사용자 세션은 리소스의 사용자 선택에 대한 임계 개수를 포함할 수 있다.

각 사용자 세션은 고유 세션 식별자와 연관될 수 있다. 고유 세션 식별자는 사용자 디바이스 식별자, 사용자 세션용 시간 지시자, 및 사용자 세션의 콘텍스트를 가리키는 그 밖의 데이터(예컨대, 사용자 세션이 발생한 지리적 영역) 중 하나 이상에 기초하여 생성될 수 있다. 사용자 디바이스 식별자는 예를 들어, 익명화되고 사용자 세션이 상응하는 사용자 디바이스(106)와 연관된 쿠키와 같은 익명 식별자일 수 있다. 따라서 사용자 세션 동안 발생하는 액션은 액션이 발생한 특정 사용자 디바이스(106)와 비상관될 수 있다.

특정 사용자 세션 동안 발생하는 액션(예컨대, 리소스의 선택)은 동일한 고유 세션 식별자와 연관된다. 부가적으로, 특정 사용자 세션 동안 발생하는 액션 각각은 그 액션이 발생한 시간을 가리키는 부가 시간 데이터와 연관될 수 있다. 이 시간은 액션이 발생한 그리니치 평균시(Greenwich Mean Time)와 같은 절대 시간이거나 또는 사용자 세션의 시작에 관한 시간 또는 다른 사용자 액션에 관한 시간일 수 있다.

각 사용자 세션 동안 발생한 액션을 지정하는 사용자 세션 데이터는 이력 데이터 저장부(114)와 같은 데이터 저장부에 저장될 수 있다. 예를 들어, 사용자 세션 데이터는 특정 사용자 세션 동안 선택된 리소스(예컨대, 특정 사용자 세션 동안 순차적으로 선택된 리소스)의 세트를 식별하는데 사용될 수 있다. 추가적으로, 사용자 세션 데이터는 동일한 토픽과 관련이 있을 가능성이 있는 리소스를, 그 리소스에 대하여 취해진 사용자 액션에 기초하여 식별하는데 사용될 수 있다.

환경(100)은 광고 관리 시스템(115)을 또한 포함한다. 리소스(105) 또는 검색 결과(111)가 사용자 디바이스(106)에 의해 요청되면, 광고 관리 시스템(115)은 리소스(105) 또는 검색 결과(111)와 함께 제공될 광고에 대한 요청을 수신한다. 광고에 대한 요청은 광고 슬롯의 특징을 포함할 수 있고, 그 슬롯은 요청된 리소스 또는 검색 결과 페이지에 대하여 정의된다.

광고 관리 시스템(115)은 광고 슬롯의 특징과 매칭하는 특징을 가지며, 또한, 특정 리소스 또는 검색 쿼리에 관련되는 것으로 식별된 광고를 제시용으로 선택할 수 있다. 일부 구현예에서, 리소스의 콘텐츠와 관련된 토픽에 매칭하는 타겟팅 키워드(targeting keyword)를 구비한 광고는 리소스와 함께 제공되도록 광고 관리 시스템(115)에 의해 선택된다.

타겟팅 키워드는 리소스가 관련된 토픽에, 그 토픽과 동일한 텍스트 콘텐츠(즉, "텍스트")를 구비함으로써 매칭할 수 있다. 예를 들어, 타겟팅 키워드 "농구"와 연관된 광고는 토픽 "농구"와 관계된 것으로 식별된 리소스와 함께 제시하기 위하여 선택될 수 있다. 유사하게, 광고는 검색 쿼리 "농구"에 대하여 제공된 검색 결과 페이지와 함께 제시하기 위하여 선택될 수 있다.

타겟팅 키워드는 리소스가 관련된 토픽에 또한 매칭할 수 있는데, 특정된 토픽이 아닌 다른 텍스트를 갖더라도, 그 토픽에 관련되는 것으로 식별된 텍스트를 가짐으로써 가능하다. 예를 들어, 타겟팅 키워드가 "농구"인 광고는 토픽 "스포츠"에 관련되는 것으로 식별된 리소스와 함께 제시하기 위하여 선택될 수 있는데, 농구는 스포츠의 일종이고, 따라서 용어 "스포츠"와 관련이 있기 때문이다. 일부 구현예에서, 리소스가 관련된 토픽은 초기에는 알려지지 않는데, 예컨대, 리소스는 그 리소스의 콘텍스트를 명확히 하는 콘텐츠를 포함하고 있지 않기 때문일 수 있다. 예를 들어, 플래시 콘텐츠 또는 이미지 콘텐츠는 리소스의 콘텍스트를 가리키는 텍스트 콘텐츠와 연관되지 않을 수 있다.

환경(100)은 하나 이상의 프로세서를 구비한 리소스 콘텍스트 시스템(120)을 또한 포함하고, 이 프로세서는 리소스에 대한 콘텍스트 프로파일을 리소스에 대한 사용자 세션 데이터에 기초하여 계산하도록 구성된다. 리소스 콘텍스트 시스템(120)은 참고 리소스에 관련이 있을 가능성이 있는 리소스를 식별하기 위하여, 사용자 세션 데이터 및/또는 가중 그래프를 분석한다. 참고 리소스는 리소스의 콘텐츠가 관련이 있는 것으로 식별된 토픽을 특정하는 기준 콘텍스트 프로파일을 갖는 리소스이다. 콘텍스트 프로파일은 예컨대 상응하는 토픽들에 대한 토픽값들(topic value)의 벡터일 수 있고, 토픽값들은 토픽에 대한 참고 리소스의 관련성 척도를 나타낸다.

특정 사용자 세션 동안 순차적으로 선택된 리소스들은 공통 선택 리소스들로 또한 불린다. 리소스들의 순차적 선택은 공동 선택 리소스들이 동일 토픽에 관련될 가능성이 있다는 것을 가리키는 지시자이다. 따라서 참고 리소스 및 다른 리소스의 순차적 선택은, 참고 리소스에 대한 콘텍스트 프로파일에 의해 특정되는 토픽과 동일한 토픽에 관련되는 콘텐츠를 상기 다른 리소스가 구비하는 것을 가리킨다.

콘텍스트 시스템(120)은 참고 리소스의 콘텍스트 프로파일에 기초하여, 참고 리소스의 공동 선택 리소스에 대한 콘텍스트 프로파일을 계산한다. 참고 리소스에 대한 콘텍스트 프로파일과 유사하게, 공동 선택 리소스에 대한 콘텍스트 프로파일도 토픽값들을 특정하고, 이 토픽값들은 상응하는 토픽에 대하여 공동 선택 리소스의 관련성 척도를 나타낸다.

일부 구현예에서, 공동 선택 리소스는 식별된 콘텍스트 데이터가 없거나 거의 없는 리소스일 수 있다. 따라서 공동 선택 리소스에 대한 콘텍스트 프로파일은 참고 리소스의 콘텍스트 프로파일에 전적으로 기초하여 계산될 수 있고, 공동 선택 리소스는 참고 리소스에 의해 순차적으로 선택된다.

다른 구현예에 있어서, 공동 선택 리소스는 예컨대, 콘텍스트 데이터가 식별되었지만 임계 가능성(threshold likelihood)을 가지고 정확하다고 식별되지는 않은 리소스일 수 있다. 이들 구현예에서, 콘텍스트 프로파일은 공동 선택 리소스에 대한 콘텍스트 데이터뿐만 아니라 참고 리소스에 대한 콘텍스트 프로파일의 함수에 기초하여 계산될 수 있다.

공동 선택 리소스에 대한 콘텍스트 프로파일은 예컨대, 공동 선택 리소스가 참고 리소스와 함께 순차적으로 선택되는 빈도에 기초하여 또한 계산될 수 있다. 예를 들어, 참고 리소스의 콘텍스트 프로파일이 공동 선택 기준의 콘텍스트 프로파일을 계산하는 것에 대한 기여는 공동 선택률에 따라서 가중될 수 있다. 공동 선택 리소스에 대한 콘텍스트 프로파일의 계산은 도2 내지 도6을 참조하여 더욱 상세히 설명된다.

일부 구현예에서, 리소스에 대한 콘텍스트 프로파일은 쿼리에 대한 검색 결과에서 참조될 리소스를 선택하는데 사용될 수 있다. 예를 들어, 검색 쿼리에 응답하여, 검색 시스템은 리소스에 대한 관련성 점수를 검색 쿼리와 매치하는 토픽의 토픽 점수에 기초하여 계산할 수 있다. 다음, 검색 시스템은 쿼리에 대한 검색 결과를 위해 높은 관련성 점수를 갖는 리소스의 임계 개수(예컨대, 1000)를 선택할 수 있다.

일부 구현예에서, 리소스에 대한 콘텍스트 프로파일은 그 리소스와 함께 제시할 광고를 선택하는데 사용될 수 있다. 예를 들어, 광고 관리 시스템은 리소스와 함께 제시될 광고에 대한 요청을 수신할 수 있다. 그 후, 광고 관리 시스템은 그 리소스에 대한 콘텍스트 프로파일로부터, 그 리소스와 관련된 토픽을 식별하고, 그 식별된 토픽에 매치하는 키워드를 갖는 광고를 선택할 수 있다.

본 명세서를 통하여, 공동 선택 리소스는 참고 리소스에 관련될 가능성이 있는 리소스들의 예로서 사용되며, 이에 대한 콘텍스트 프로파일이 계산될 수 있다. 하지만, 본 명세서에서의 설명은 리소스들의 관련 쌍을 정의하는 한 세트의 규칙에 기초하여 참고 리소스에 관련이 있는 것으로 식별된 다른 리소스에 응용될 수 있다. 예를 들어, 특정 시간 프레임에서 동일 사용자가 선택한 임의의 2개 리소스는 서로에 관련될 가능성이 있는 것으로 정의될 수 있다. 유사하게, 이하에 설명되는 바와 같이, 가중 그래프에서 링크로 연결된 임의 2개의 리소스는 서로 관련될 가능성이 있는 것으로 식별될 수 있다.

도2는 공동 선택 리소스에 대한 콘텍스트 프로파일을 계산하는 예시적 프로세스(200)의 흐름도이다. 프로세스(200)는 참고 리소스에 대한 공동 선택 리소스를 식별하고, 공동 선택 리소스에 대한 콘텍스트 프로파일을 참고 리소스의 콘텍스트 프로파일에 기초하여 계산한다. 콘텍스트 프로파일이 계산되고 있는 공동 선택 리소스는 콘텍스트 프로파일이 존재하지 않는 리소스이거나, 또는 콘텍스트 프로파일이 공동 선택 리소스의 콘텐츠를 정확히 나타낼 임계 가능성보다 낮은 가능성을 갖는 리소스일 수 있다.

프로세스(200)는 예컨대, 도1의 리소스 콘텍스트 시스템(120)에 의해 구현될 수 있다. 일부 구현예에서, 리소스 콘텍스트 엔진(120)은 프로세스(200)의 동작을 수행하도록 구성된 하나 이상의 프로세서를 포함한다. 다른 구현예에서, 컴퓨터 판독 가능 매체는 명령을 포함할 수 있고, 이 명령은 컴퓨터에 의해 실행될 때, 그 컴퓨터로 하여금 프로세스(200)의 동작을 수행하게 한다.

참고 리소스 세트에 대하여 초기 콘텍스트 프로파일이 선택된다(202). 일부 구현예에서, 콘텍스트 프로파일은 상응하는 토픽에 대한 리소스의 관련성 척도를 지정하는 토픽값들의 벡터이다. 예를 들어, 리소스에 대한 콘텍스트 프로파일은 리소스가 관련된 2개의 토픽 및 2개 토픽 각각에 대한 리소스의 관련성을 나타내는 2개의 상응하는 토픽값들을 지정할 수 있다.

일부 구현예에서, 초기 콘텍스트 프로파일은 리소스가 관련된 토픽을 특정하는 데이터를 제공하는 클러스터링 시스템(clustering system)에 의해 생성될 수 있다. 클러스터링 시스템은 관련 입력 데이터의 클러스터를 식별하기 위하여, 클러스터링 알고리즘(예컨대, K-means clustering)을 입력 데이터에 적용한다. 예를 들어, 클러스터링 시스템은 용어 및 그 용어에 대한 상응하는 가중치의 벡터를 입력으로서 수신할 수 있고, 상응하는 가중치는 리소스에 대한 용어의 관련성 척도를 가리킨다.

입력 벡터는 예컨대, 리소스의 콘텐츠, 리소스에 대한 관련성 피드백 데이터, 또는 관련 용어 및 상응하는 가중치가 식별될 수 있는 그 밖의 데이터에 기초하여 생성될 수 있다. 용어의 가중치는 예컨대, 용어가 리소스의 콘텐츠에 출현하는 빈도 또는 리소스에 대한 관련성 피드백 데이터가 지정하는 바와 같이, 리소스가 그 용어에 관련이 있다고 식별되는 빈도에 기초하여 계산될 수 있다.

리소스에 대한 관련성 피드백은 토픽 및 그 토픽에 대한 리소스의 상응하는 관련성 척도를 사용자 피드백에 기초하여 특정한다. 관련성 피드백 데이터는 예컨대 리소스에 대한 선택 데이터를 포함할 수 있고, 이 선택 데이터는 검색 쿼리에 대한 검색 결과에 의해 참고될 때 리소스에 대한 선택률을 특정한다. 관련성 피드백 데이터는 리소스의 콘텐츠에 관련된 용어를 지정하는 명시적 사용자 피드백, 또는 지정된 용어에 대한 리소스의 관련성 척도를 또한 포함할 수 있다. 예를 들어, 피드백 요청에 응답하여, 사용자는 리소스와 그 리소스와 함께 제공되는 용어 사이의 관련성 척도를 특정하거나, 또는 대안적으로, 리소스가 제공되는 것에 응답하여 관련 용어를 제공할 수 있다.

관련성 피드백 데이터는 예컨대, 리소스가 관련되어 있는 것으로 식별된 용어들의 벡터로서 클러스터링 시스템에 제공될 수 있고, 각 용어에 대한 상응하는 값은 그 용어 또는 토픽에 대한 리소스의 관련성 척도를 나타낸다. 리소스에 대한 입력 벡터에 기초하여, 클러스터링 시스템은 벡터들의 클러스터를 정의하기 위하여, 서로 특정 거래 내에 있는 벡터들의 클러스터들을 식별한다.

동일 클러스터에 포함된 벡터들은 그 클러스터 내 벡터들이 나타내는 리소스들이 관련된 클러스터 토픽을, 예컨대, 벡터들에 대한 코싸인 유사성 척도에 기초하여 식별하기 위하여 분석될 수 있다. 다음, 클러스터링 시스템은 토픽들의 평탄한 분포(smooth distribution)를 계산하고, 그 평탄한 분포에 기초하여 토픽에 토픽값을 할당할 수 있다. 특정 리소스에 대한 토픽값들은 토픽값들의 벡터로서 포맷될 수 있고, 데이터 저장부에 그 특정 리소스를 위한 콘텍스트 프로파일로서 저장된다. 다음, 리소스들의 세트에 대한 콘텍스트 프로파일들이 데이터 저장부로부터 선택될 수 있다.

일부 구현예에서, 콘텍스트 프로파일이 가용하지 않은 리소스에 대하여 초기화된 값들의 벡터인 초기 콘텍스트 프로파일이 할당될 수 있다. 예를 들어, 초기화된 값들은 콘텍스트 프로파일이 가용하지 않은 리소스에 대한 콘텍스트 프로파일의 각 구성성분에 대하여 0.0이 설정될 수 있다.

일부 구현예에서, 콘텍스트 프로파일이 선택된 리소스들의 세트는 콘텍스트 프로파일이 가용한 모든 리소스를 포함한다. 이들 실시예에서, 콘텍스트 프로파일이 리소스의 콘텐츠를 정확하게 나타낼 가능성을 표시하는 신뢰값(confidence value)은 콘텍스트 프로파일과 함께 포함될 수 있다. 신뢰값은 클러스터링 시스템에 의해 제공되거나 콘텍스트 시스템에 의해 계산될 수 있다. 신뢰값은 예컨대, 리소스에 대한 관련성 피드백 데이터의 벡터와 그 리소스에 대한 콘텍스트 프로파일 사이의 거리, 콘텍스트 프로파일의 평탄화된 분포에 대한 통계적 척도, 또는 리뷰자에 의한 콘텍스트 프로파일의 리뷰에 기초할 수 있다.

일부 구현예에서, 콘텍스트 프로파일이 수신된 리소스들의 세트는 콘텍스트 프로파일이 신뢰 임계값을 충족하는 가능성 척도(즉, 신뢰값)를 구비하고 참고 리소스의 콘텐츠를 정확하게 나타내는 것으로 식별된 참고 리소스에 한정된다. 예를 들어, 참고 리소스에 대한 콘텍스트 프로파일은 참고 리소스에 대한 콘텍스트 프로파일이 리소스의 콘텐츠를, 신뢰 임계를 충족하거나 초과하는 가능성으로 정확하게 나타낸다는 것을 검증한 독립 리뷰자에 의해 리뷰될 수 있다.

대안적으로, 참고 리소스는 그 참고 리소스에 대한 특정 관련성 피드백 데이터를 갖는 리소스일 수 있고, 그 특정 관련성 피드백 데이터는 그 참고 리소스에 대한 콘텍스트 프로파일이 그 리소스가 관련된 토픽을, 신뢰 임계값을 충족하는 가능성을 가지고, 정확하게 나타낸다고 가리킨다. 예를 들어, 리소스에 대한 관련성 피드백 데이터의 벡터가 콘텍스트 프로파일의 특정 거리 내에 있고, 콘텍스트 프로파일이 리소스의 콘텐츠를 정확하게 나타내는 임계 가능성을 적어도 갖는다고 가리킬 때, 신뢰 임계값은 충족될 수 있다.

초기 콘텍스트 프로파일이 선택된 참고 리소스는 콘텍스트 프로파일이 계산되고 있는 리소스와 함께 순차적으로 선택되는 리소스들로 한정될 수 있다. 예를 들어, 참고 리소스 콘텍스트 데이터가 가용하지 않은 리소스 또는 기존 콘텍스트 프로파일이 리소스의 콘텐츠를 정확하게 나타내지 않는 것으로 식별된 리소스의 제시 전 또는 후에 제시를 위하여 선택된 리소스일 수 있다. 참고 리소스는 예를 들어, 공동 선택 데이터에 기초하여 식별될 수 있다.

공동 선택 리소스를 특정하는 공동 선택 데이터가 수신된다(단계 204). 일부 구현예에서, 공동 선택 데이터는 동일한 사용자 세션 동안 순차적으로 선택된 리소스를 특정하는 데이터이다. 리소스가 제시를 위하여 선택되는 사용자 세션은, 참고 리소스에 대한 선택 데이터와 연관된 고유 세션 식별자를 식별함으로써 식별될 수 있다. 예를 들어, 도1의 이력 데이터 저장부(114)에 저장된 선택 데이터는 참고 리소스에 대하여 획득될 수 있다. 다음, 선택 데이터와 연관된 고유 세션 식별자는 참고 리소스가 제시를 위해 선택된 사용자 세션을 식별하기 위하여 분석될 수 있다. 제시를 위한 공동 선택 리소스를 선택하기 전에 사용자가 내비게이트한 리소스들을 식별하는 데이터를 로깅(logging)하는 것과 같은, 리소스의 공동 선택을 식별하는 다른 방법이 또한 사용될 수 있다. 사용자 세션을 위한 선택 데이터의 생성은 도3을 참조하여 더욱 상세히 설명된다.

업데이트된 콘텍스트 프로파일은 공동 선택 리소스에 대하여 계산된다(단계 206). 일부 구현예에서, 공동 선택 리소스에 대한 업데이트된 콘텍스트 프로파일은 참고 리소스의 세트에 대한 초기 콘텍스트 프로파일의 함수에 기초하여 계산되며, 참고 리소스에 따라 공동 선택 리소스가 순차적으로 선택된다. 예를 들어, 공동 선택 리소스에 대한 업데이트된 콘텍스트 프로파일은 참고 리소스들의 콘텍스트 프로파일들의 합에 기초할 수 있고, 참고 리소스에 따라 공동 선택 리소스가 순차적으로 선택된다.

참고 리소스와 공동 선택 리소스의 순차 선택 각각은, 공동 선택 리소스의 콘텍스트 프로파일이 참고 리소스의 콘텍스트 프로파일과 유사하다는 증가된 가능성을 나타낼 수 있다. 예를 들어, 특정 참고 리소스와 함께 더욱 빈번하게 순차적으로 선택되는 공동 선택 참고는 덜 빈번하게 선택되는 공동 선택 리소스보다 그 참고 리소스로서, 동일 주체에 관련될 가능성이 높다. 따라서 일부 구현예에서, 참고 리소스에 대한 콘텍스트 프로파일 각각은 참고 리소스 각각과 함께 공동 선택 리소스의 순차 선택 회수에 기초하여 가중될 수 있다.

일부 구현예에서, 공동 선택 리소스에 대한 콘텍스트 프로파일의 계산은 참고 리소스의 선택에 대하여 공동 선택 리소스의 선택을 맵핑하는 가중 그래프를 사용하여 용이하게 될 수 있다. 참고 리소스와 공동 선택 리소스는 가중 그래프에서 노드로 표현되고, 에지(edge)는 노드들을 연결하는 공동 선택 리소스의 순차 선택을 나타낸다. 가중 그래프의 생성은 도4~5를 참조하여 더욱 상세히 설명된다.

콘텍스트 프로파일이 계산되는 알고리즘 또는 함수는, 참고 리소스의 콘텍스트 프로파일이 공동 선택 리소스에 대한 콘텍스트 프로파일의 계산에 미치는 효과를 제어하기 위하여 특정될 수 있다. 예를 들어, 함수는 특정된 임계값을 초과하는 참고 리소스의 토픽값들만이 공동 선택 리소스에 대한 콘텍스트 프로파일을 계산하는데 고려되도록 특정할 수 있다. 유사하게, 함수는 공동 선택 리소스에 관한 참고 리소스에 대한 최소 공동 선택률, 참고 리소스의 콘텍스트 프로파일에 대한 신뢰 임계값, 또는 공동 선택 리소스에 대한 콘텍스트 프로파일을 계산하는데 사용되는 데이터에 대한 그 밖의 제한을 특정할 수 있다. 콘텍스트 프로파일을 계산하는 하나의 예시적 프로세스는 도6을 참조하여 더욱 상세히 설명된다.

공동 선택 리소스에 대하여 업데이트된 콘텍스트 프로파일이 계산되면, 중지 상태가 발생하였는지 여부에 대한 판단이 이루어진다(단계 208). 일부 구현예에서, 중지 상태는 예컨대, 하나 이상의 반복 동안 각 리소스에 대한 콘텍스트 프로파일의 변화가 임계 변화보다 작으면(즉, 값들의 벡터로 수렴함) 발생할 수 있다. 이들 구현예에서, 콘텍스트 프로파일은 공동 선택 리소스의 콘텍스트 프로파일 내 변화가 수렴할 때까지, 참고 리소스 및/또는 공동 선택 리소스의 콘텍스트 프로파일 및 공동 선택 리소스에 대한 공동 선택 데이터에 기초하여, 반복적으로 생성될 수 있다. 다른 구현예에서, 중지 상태는 업데이트된 콘텍스트 프로파일이 특정 반회 회수 계산된 후 발생할 수 있다.

중지 상태가 발생하지 않을 때, 공동 선택 리소스에 대한 업데이트된 콘텍스트 프로파일은 계속 계산된다(단계 206). 중지 상태가 발생하면, 업데이트된 콘텍스트 프로파일은 리소스가 관련된 토픽을 식별하는 처리 시스템에 제공된다(단계 210). 일부 구현예에서, 리소스에 대한 업데이트된 콘텍스트 프로파일은 예컨대, 용어 및 그 용어에 대한 상응하는 가중치(리소스에 대한 용어의 관련성 척도를 특정함)의 벡터로서, 처리 시스템에 제공될 수 있다.

다른 구현예에서, 임계 가중치를 갖는 용어만이 처리 시스템에 제공된다. 임계 가중치에 기초하여 용어를 제공하는 것은, 리소스가 최소로만 연관된 토픽(그 토픽과 연관된 낮은 가중치에 의해 지시됨)에 대하여, 그 토픽과 관련되는 것으로 식별된 가능성을 감소시킨다.

처리 시스템은 예컨대, 검색 쿼리에 관련되고, 검색 쿼리에 대한 검색 결과에서 참조될 리소스를 식별하는 검색 시스템이 될 수 있다. 검색 시스템은 리소스에 대한 콘텍스트 프로파일을, 검색 쿼리에 관한 리소스에 대하여 관련성 점수를 계산하기 위한 입력으로서 사용할 수 있다. 예를 들어, 콘텍스트 프로파일에서 토픽 가중치는 검색 쿼리에 매치하는 토픽에 대한 토픽 가중치에 기초하여 검색 쿼리에 대하여 증가되거나 또는 감소된 관련성을 반영하도록, 리소스에 대한 관련성 점수를 조정하는데 사용될 수 있다.

또한, 처리 시스템은 리소스와 함께 제시하기 위하여 관련 광고를 선택하는 광고 관리 시스템일 수 있다. 광고 관리 시스템은 리소스와 함께 제시할 광고를 리소스의 토픽 가중치에 기초하여 선택할 수 있다. 예를 들어, 광고 관리 시스템은 특정된 임계값보다 큰 토픽 가중치를 갖는 토픽을, 타겟팅 광고에 대한 관련 토픽으로서 식별할 수 있다. 다음, 광고 관리 시스템은 관련 토픽과 매치하는 타겟팅 키워드를 갖는 광고를 리소스와 함께 제시하기 위하여 선택할 수 있다.

일부 구현예에서, 업데이트된 콘텍스트 프로파일은 처리 디바이스로부터의 요청에 응답하여 제공된다. 이들 구현예에서, 상기 요청은 리소스에 대한 요청이 생성된 참조 페이지를 특정하는 데이터를 포함할 수 있다. 예를 들어, 광고 관리 시스템은 특정 리소스에 대한 콘텍스트 프로파일을 그 특정 리소스가 제시를 위해 선택되는 것에 응답하여 요청할 수 있고, 그 특정 리소스의 선택은 그 특정 리소스에 대한 링크가 포함된 참조 페이지로부터 그 링크가 선택되는 것에 반응하여 이루어진다. 다음, 광고 관리 시스템으로부터의 요청은 특정 리소스 및 이 특정 리소스가 제시를 위해 선택된 참조 페이지를 식별하는 데이터를 포함할 수 있다.

이들 구현예에서, 특정 리소스에 대한 콘텍스트 프로파일은 그 특정 리소스에 대한 토픽 점수를 올리기 위하여, 참조 페이지의 콘텍스트 프로파일과 그 특정 리소스의 콘텍스트 프로파일의 함수에 기초하여, 가중되거나 또는 조정될 수 있다. 예를 들어, 참조 페이지에 대한 콘텍스트 프로파일은 그 참조 페이지가 2개의 토픽(t1과 t2)에 상응하는 2개의 토픽 점수 0.8과 0.2를 가지고, 한편, 그 2개의 동일 토픽에 대하여 특정 리소스는 0.4와 0.6의 토픽 점수를 갖는다고 가리킬 수 있다. 리소스 콘텍스트 시스템(120)은 특정 리소스에 대한 콘텍스트 프로파일을 예컨대, 콘텍스트 프로파일의 가중 합을 계산함으로써 조정할 수 있다.

이 실시예에서, 특정 리소스에 대한 조정된 콘텍스트 프로파일은 0.8*(0.4t1 + 0.6t2) + 0.2*(0.8t1 + 0.2t2)의 결과로 되어, 요청에 응답하여 제공된 콘텍스트 프로파일의 80%가 특정 리소스에 대한 업데이트된 콘텍스트 프로파일에 기초하고, 반면, 요청에 응답하여 제공된 콘텍스트 프로파일의 20%가 참조 페이지의 콘텍스트 프로파일에 기초할 수 있다. 따라서 요청에 응답하여 제공된 조정된 콘텍스트 프로파일은 0.48t1+0.52t2이고, 특정 리소스의 토픽 1에 대한 관련성에 기초하여 그 특정 리소스가 제시를 위해 선택되는 증가된 가능성을 반영하는데, 리소스로부터 발생한 요청은 토픽1에 대하여 특정 리소스 보다 높은 관련성을 갖기 때문이다.

도3은 사용자 세션 데이터가 생성되고 인덱스되는 예시적 환경(300)이다. 사용자 세션은 일반적으로 사용자 디바이스(106)에 의해 개시된다. 예를 들어, 사용자 디바이스(106)는 검색 쿼리 또는 검색 결과에 대한 다른 요청을 네트워크(102)를 통해 제출할 수 있다. 요청은 익명 고유 세션 식별자와 연관되고, 예컨대 검색 엔진(110)에 의해 처리될 수 있다. 검색 엔진(110)은 검색 쿼리에 응답하는 검색 결과(302)를 사용자 디바이스(106)에 제공한다. 검색 결과(302)는 리소스에 대한 참고(예컨대, http 링크)이며, 검색 시스템(110)에 의해 검색 쿼리에 관련된 것으로 식별된 결과(302-1 내지 302-N)를 포함한다.

검색 결과에 의해 참고된 리소스와 검색 쿼리를 식별하는 사용자 세션 데이터는, 사용자 세션에 대한 고유 세션 식별자와 연관되고 이력 데이터 저장부(114)에 저장된다. 사용자 세션 데이터는 사용자 세션이 개시된 시각(예컨대, 검색 쿼리가 수신된 때) 및/또는 검색 결과(111)가 사용자 디바이스(106)에 제공된 시각을 가리키는 시각 데이터를 포함할 수 있다.

사용자 디바이스(106)의 사용자는 검색 결과(302)로부터 하나 이상의 결과(302-1 내지 302-N)를 선택할 수 있다. 결과(302-1 내지 302-N)의 선택 각각은 선택된 결과에 의해 특정된 리소스 위치에 대한 요청을 생성한다. 예를 들어, 결과(302-1)의 선택은 그 결과(302-1)에 의해 참고된 웹페이지에 대한 요청을 생성할 수 있다. 다음, 웹페이지는 사용자 디바이스(106)에 제시를 위해 제공될 수 있다.

결과(302-1 내지 302-N)의 선택 각각은 네트워크를 통해 검색 시스템(110)에 선택 데이터(304)로서 제공될 수 있다. 선택 데이터(304)는 고유 세션 식별자(예컨대, ID1, ID2, ... , ID3)를 특정하는 데이터를 포함하고, 이 고유 세션 식별자는 선택에 상응하는 사용자 세션을 식별한다. 선택 데이터(304)는 예컨대, 결과(302-1 내지 302-N)의 선택에 기초하여 제시를 위해 선택된 리소스(예컨대, RS11, RS12, ... RS1N)를 식별하는 데이터를 또한 포함한다. 선택 데이터(304)는 리소스 각각이 제시를 위해 선택된 때를 특정하는 시간 데이터를 더 포함할 수 있다.

선택 데이터(304)는 검색 시스템(110)에 의해 네트워크(102)를 통해 획득되고, 이력 데이터 저장부(114)의 메모리 위치(고유 세션 식별자와 연관됨)에 저장된다. 선택 데이터(304)는 각 사용자 세션의 지속 기간에 걸쳐 리소스에 대하여 검색 결과를 요청한 그 사용자 세션 각각에 대하여 획득될 수 있다. 따라서 다중 사용자 세션 동안 선택된 리소스 각각에 대한 선택 데이터는 이력 데이터 저장부(114)로부터 액세스 가능하다.

리소스에 대한 선택 데이터는 검색 시스템의 콘텍스트 외부에 있는 리소스의 순차 선택과 유사한 방식으로 획득될 수 있다. 예를 들어, 리소스 요청 및 그 요청이 발생한 참고 페이지를 식별하는데 쿠키가 사용될 수 있다. 다음, 리소스의 순차 선택은 쿠키에 기초하여 식별되고 이력 데이터 저장부(114)에 저장될 수 있다.

일부 구현예에서, 리소스 콘텍스트 시스템(120)은 참고 리소스의 선택에 관한 공동 선택 리소스의 집합 선택(aggregate selection)을 매핑하기 위한 가중 그래프(400)를, 선택 데이터를 사용하여 구축할 수 있다. 다음, 가중 그래프(400)는 공동 선택 리소스에 대한 콘텍스트 프로파일의 계산을 용이하게 하는데 사용될 수 있다.

도 4는 선택 데이터를 사용하여 생성된 가중 그래프(400)의 예시이다. 일부 구현예에서, 가중 그래프(400)는 리소스 콘텍스트 시스템(120)에 의해 생성된다. 예를 들어, 리소스 콘텍스트 시스템(120)은 이력 데이터(114)로부터 선택 데이터를 얻을 수 있는데, 이력 데이터(114)는 복수의 사용자 세션들에서의 참고 리소스들의 선택들과 그 참고 리소스들에 대한 공동 선택 리소스(co-selected resource)들의 선택을 특정하는 한다. 리소스 콘텍스트 시스템(120)은 참고 리소스와 공동 선택 리소스들을 나타내는 가중화된 그래프(400)에서 노드를 정의한다. 결국, 리소스 콘텍스트 시스템(120)은 선택된 데이터에 기초하여 연속적으로 선택된 리소스들을 나타내는 노드들 간의 에지 가중치(edge weight)들을 생성하고 증가시킨다. 가중 그래프(400)가 생성되면, 노드들을 연결하는 가중된 에지들이 연결된 노드들로 표현되는 리소스들에 대한 콘텍스트 프로파일들을 생성하는데 사용될 수 있다.

가중 그래프(400)는 공동 선택 리소스들이 식별되는 참고 리소스를 나타내는 참고 리소스(402)를 포함한다. 참고 리소스는, 예를 들어, 참고 리소스(402)의 콘텐츠를 정확하게 설명하는 임계 신뢰도(threshold confidence)를 충족하는 콘텍스트 프로파일을 갖는 참고물(reference)이다. 가중 그래프는 또한 참고 리소스에 대한 공동 참고 리소스들을 나타내는 노드들(410-420)을 포함한다. 예를 들어, 노드들(410-420) 각각은 참고 리소스(402)에 대한 공동 선택 리소스인 리소스를 나타낸다.

가중 그래프(400)는 또한 추가 참고 리소스들(460, 480)을 포함할 수 있다. 추가 참고 리소스들(460, 480)은 식별되어 가중 그래프에 포함되고, 공동 선택 리소스들은 참고 리소스들(402, 460, 480) 각각에 대해 식별되며, 공동 선택 리소스들에 대한 에지들은 각 참고 리소스에 관련된 공동 선택 리소스들의 선택들에 기초하여 가중된다. 추가 참고 리소스들(460, 480)은 또한 적어도 임계 신뢰도로 참고 리소스들(460, 480)의 콘텐츠를 정확하게 설명하는 콘텍스트 프로파일들을 갖는 것으로서 또한 식별되는 리소스들을 나타낼 수 있다.

연속적으로 선택된 리소스들을 나타내는 노드들은 가중 그래프에서 에지로 연결된다. 예를 들어, 에지(450)는 노드(410)로 표현되는 참고 리소스 및 공동 선택 리소스에 대한 연속적 사용자 선택들을 표현하는 노드(410)로의 노드(402)를 연결한다. 유사하게, 에지(451)는 노드(410)로 표현되는 공동 선택 리소스의 선택에 이어지는 노드(411)로 표현되는 공동 선택 리소스의 순차 선택을 나타낸다.

에지들은 선택 순서를 표시하는 방향 성분들을 포함할 수 있다. 에지가 시작되는 노드는 소스 노드(즉, 소스 리소스)로 불리며, 에지가 끝나는 노드 이전에 선택된 것이고, 에지가 끝나는 노드는 목적 노드(즉, 목적 리소스)로 불린다. 상술된 예시를 계속해서 설명하면, 에지(450)에 대한 소스 노드는 참고 리소스(402)이고, 목적 노드는 노드(410)이다. 유사하게, 노드(410)는 에지(451)에 대한 소스 노드이고, 노드(411)는 목적 노드이다. 가중 그래프(400)에서 각 노드는 목적 노드를 가리키는 화살표로 표현된다.

양방향 에지는 노드로 표현되는 리소스들에 대한 상호적인 순차 선택(reciprocal sequential selection)들을 나타낸다. 예를 들어, 참고 리소스(402)와 노드(418)는 양방향 에지(452)로 연결된다. 양방향 에지(452)는 참고 리소스에 대한 사용자 선택과, 그 선택에 이어지는 노드(418)로 표현되는 공동 선택 리소스 및 참고 리소스에 대한 제2 선택을 표시한다. 대안적으로, 단방향 에지 쌍이 양방향 에지를 대신하여 사용될 수 있다.

상술된 바와 같이, 각 에지는 소스 노드와 목적 노드로 각각 표현되는 리소스들에 대한 순차 선택들의 횟수를 표시하는 가중치를 가질 수 있다. 예를 들어, 노드(410)로 표현되는 리소스가 참고 리소스의 선택에 후속하여 10번 선택되었으면, 에지(450)는 10번 선택에 상응하는 가중치를 가질 수 있다.

에지의 가중치는, 예를 들어 각 식별된 선택에 응답하여 일정 증가분(constant incremental amount)만큼 증가되거나, 그 가중치는 선택 횟수의 함수에 기초하여 증가될 수 있다. 예를 들어, 에지의 가중치는 소스 노드 및 목적 노드로 표현되는 리소스들에 대한 순차 선택들의 횟수에 상응하거나, 그 가중치는 순차 선택들의 횟수의 지수(exponential) 또는 로그 함수일 수 있다.

일부 구현예들에서, 참고 가중치(reference weight)가 참고 노드 각각에 대해 할당될 수 있다. 참고 가중치들은 리소스에 대한 콘텍스트 프로파일이 정확할 가능성을 나타내는 인자들이다. 참고 가중치들은 리소스의 콘텍스트를 나타내는 다른 데이터 또는 리소스에 대한 관련 피드백 데이터(relevance feedback data)에 관련된 리소스의 콘텍스트 프로파일의 분석, 또는 프로파일 콘텍스트의 정확성에 기초하여 계산되고 할당될 수 있다.

예를 들어, 관련 피드백 데이터에 기초하여, 참고 리소스(402)에 대한 콘텍스트 프로파일은 확률 0.7(예컨대, 관련 피드백 데이터의 70%가 참고 리소스(402)에 대한 콘텍스트 프로파일이 정확했다는 것을 표시함)로 정확한 것으로 식별될 수 있는 반면, 참고 리소스(460)에 대한 콘텍스트 프로파일은 확률 0.6으로 정확한 것으로서 식별될 수 있다. 따라서 참고 리소스(402)는 참고 가중치 0.7을 할당받을 수 있고, 참고 리소스(460)는 참고 가중치 0.6을 할당받을 수 있다.

참고 가중치들은, 예를 들어 참고 리소스에 대한 콘텍스트 프로파일에 가중치를 부여하는데 사용될 수 있으며, 이로써 다른 리소스들에 대해 조정된 콘텍스트 프로파일들을 계산하는데 미치는 그것들의 영향을 조정할 수 있다. 예를 들어, 참고 리소스(402)에 대한 콘텍스트 프로파일에 있는 각 토픽 가중치는 참고 가중치 0.6에 기초하여 조정될 수 있다. 일부 구현예들에서, 각 토픽 가중치는 토픽 가중치와 참고 가중치의 곱에 기초하여 조정된다. 다른 구현예들에서, 참고 가중치의 지수가 각 토픽 가중치에 수학적으로 결합될 수 있다. 참고 리소스에 대한 콘텍스트 프로파일이 정확할 가능성에 기초하여 토픽 가중치들을 조정하면 도 6에 보다 자세하게 설명되는 것처럼, 더욱 정확하게 업데이트된 콘텍스트 프로파일들을 제공할 수 있다.

도 5는 가중 그래프를 생성하는 예시적 프로세스(500)의 순서도이다. 가중 그래프는 리소스 선택 순서에 기초하여 리소스들 간의 관계를 식별하는데 사용될 수 있다. 가중 그래프는 참고 리소스들을 표현하는 참고 노드와 공동 선택 리소스들을 표현하는 다른 노드들을 포함하도록 생성된다. 가중 그래프는 동일한 사용자 세션 동안 리소스들의 순차 선택들을 표현하는 에지들을 포함한다. 많은 다른 사용자 세션들 동안 선택 데이터가 수집되어 가중 그래프에 표현될 수 있다. 프로세스(500)는 단일 참고 리소스를 참조하여 설명하였지만, 많은 다른 참고 리소스들로 구현될 수 있다. 프로세스(500)는, 예를 들어 도 1에 도시된 리소스 콘텍스트 시스템에 의해 구현될 수 있다.

참고 리소스는 가중 그래프(502)에 참고 노드로서 표현된다. 일부 구현예들에서, 참고 리소스는 신뢰도 임계치를 충족하는 콘텍스트 프로파일을 갖는 것으로서 식별된 리소스이다. 참고 리소스는, 예를 들어 리소스들과 그 리소스에 상응하는 콘텍스트 프로파일들을 저장하는 데이터 저장소로부터 식별될 수 있다. 프로세스(500)의 설명 전체를 통해, 리소스들을 표현하는 노드들은 그것들이 표현하는 리소스들과 동일한 특성들(예컨대, 콘텍스트 프로파일들 및 선택 데이터)로 특성화될 수 있다. 따라서 리소스들을 표현하는 노드들과 리소스들 자체는 서로 교환될 수 있다는 것을 의미한다.

참고 리소스가 선택된 동안, 사용자 세션이 식별된다(504). 일부 구현예들에서, 사용자 세션은 참고 리소스에 대한 선택 데이터에 기초하여 식별될 수 있다. 예를 들어, 참고 리소스의 선택은 참고 리소스에 대한 선택 데이터로부터 식별될 수 있다. 결국, 참고 리소스에 대한 선택 데이터와 연관된 유일한 세션 식별자가 같은 유일한 세션 식별자와 연관된 선택 데이터를 갖는 다른 리소스들을 식별하기 위해 사용될 수 있다. 참고 리소스에 대한 선택 데이터는, 예를 들어 이력 데이터 저장소(114)로부터 얻어질 수 있다.

참고 리소스가 선택된 사용자 세션이 식별되면, 사용자 세션 동안 공동 선택 리소스들의 선택들이 식별된다(506). 상술한 바와 같이, 공동 선택 리소스의 선택들은 참고 리소스와 같은 유일한 세션 식별자와 연관된 선택 데이터에 기초하여 식별될 수 있다. 사용자 세션 동안의 선택 데이터는 공동 선택 리소스의 선택이 참고 리소스의 선택에 관련되어 발생되었을 때를 특정하는 시간 데이터를 포함할 수 있다. 따라서 시간 데이터는 공통 사용자 세션(common user session) 동안 참고 리소스의 선택 이전 또는 이후 시간에 선택된 리소스들로서 공동 선택 리소스들을 식별하는데 사용될 수 있다.

일부 구현예들에서, 참고 리소스의 선택이 후속하는 임계 시한(threshold time period) 내에서 선택된 공동 선택 리소스들만이 참고 리소스에 대한 공동 선택 리소스들로서 식별된다. 임계 시한은 공동 선택 리소스가 식별될 시한보다 긴 기간을 갖는 사용자 세션들에 대해 얻어진 선택 데이터를 사용할 수 있다.

예를 들어, 선택 데이터는 한 시간의 기간을 갖는 사용자 세션 동안 얻어졌을 수 있다. 그러나, 특정 애플리케이션에서, 공동 선택 리소스들은 10분 내에 선택된, 참고 리소스의 선택에 대한 리소스들로서 정의될 수 있다. 이 경우, 임계 시한은 한 시간의 사용자 세션 선택된 리소스가 참고 리소스에 대한 공동 선택 리소스로서 식별될 수 있는지를 판정하는데 사용될 수 있다. 예를 들어, 리소스의 선택과 참고 리소스의 선택 간의 시간이 임계 시한과 비교될 수 있다. 관련 선택들 간의 시간이 임계치 이하이면, 리소스는 참고 리소스에 대한 공동 선택 리소스로서 식별된다.

공동 선택 리소스를 표현하는 노드가 식별된다(508). 일부 구현예에서, 공동 선택 리소스를 표현하는 노드는 제1 식별된 선택에 응답하여, 예를 들어 컴퓨터 메모리에 정의된다. 이러한 구현예들에서, 공동 선택 리소스를 표현하는 노드가 컴퓨터 메모리에 정의된 후, 노드는 자신이 식별된 컴퓨터 메모리 위치로부터 식별될 것이다. 예를 들어, 노드는 초기에 식별된 선택에 응답하여 가중 그래프에 정의될 수 있고, 공동 선택 리소스의 후속하는 식별된 선택들을 위하여 가중 그래프에서 식별될 수 있다. 다른 구현예들에서, 리소스들의 코퍼스(corpus)에 있는 리소스 각각은 그 리소스가 공동 선택 리소스인지 여부에 상관없이, 가중 그래프에서 노드로 처음에 표현된다.

공동 선택 리소스의 선택이 식별될 때, 노드가, 예를 들어 공동 선택 리소스에 상응하고 그 노드와 연관되는 유일한 식별자(예컨대, URL)에 기초하여 식별될 수 있다. 예를 들어, 유일한 리소스 식별자는 각 공동 선택 리소스에 대하여 생성될 수 있고, 리소스 및 그것의 상응하는 노드와 연관될 수 있다. 공동 선택 리소스의 선택이 식별될 때, 유일한 식별자와 연관되는 노드가 공동 선택 리소스를 표현하는 것으로서 식별될 수 있다. 공동 선택 리소스 각각은 가중 그래프에서 독립 노드(independent node)들로 표현되고, 가중 그래프에 있는 노드들은 단일 또는 복수의 사용자 세션 동안, 참고 리소스들에 대한 공동 선택 리소스들을 표현할 수 있다.

에지 가중치가 공동 선택 리소스에 대해 증가될 수 있다(510). 일부 구현예들에서, 가중 그래프가 생성될 때, 각 노드 간의 에지 가중치는 0으로 초기화될 수 있다(즉, 노드들 간에 존재하는 노드가 없음). 따라서 공동 선택 리소스의 제1 연속 선택이 하나의 표준화된 유니트(예컨대, 가중치 1)에 상응하는 가중치를 갖는 에지를 생성할 것이다. 공동 선택 리소스의 추가 연속 선택들은 표준화된 유니트에 상응하는 증가분만큼 노드들을 연결하는 에지의 가중치를 유사하게 증가시킬 것이다.

공동 선택 리소스들이 사용자 세션 동안 남아있는지에 대한 판정이 행해진다(512). 추가 선택들은, 예를 들어 사용자 세션에 상응하는 유일한 세션 식별자와 연관되는 선택들에 기초하여 식별될 수 있다.

공동 선택 리소스들의 추가 선택들이 사용자 세션 동안 남아있으면, 다른 공동 선택 리소스를 표현하는 노드가 식별된다(508). 공동 선택 리소스들의 추가 선택들이 사용자 세션 동안 남아있지 않을 때, 참고 리소스가 다른 사용자 세션 동안에 선택되었는지에 대한 선택적 판정이 행해진다(514). 참고 리소스의 다른 선택이 예를 들어, 상술된 바와 같이, 참고 리소스에 대한 선택 데이터에 기초하여 식별될 수 있다. 참고 리소스의 다른 선택이 식별될 때, 사용자 세션 동안 공동 선택 리소스의 순차 선택이 식별된다(506). 참고 리소스의 다른 선택이 식별되지 않을 때, 프로세스(500)가 종료한다(516).

가중 그래프가 생성되면, 가중 그래프는 참고 리소스들의 추가 선택들과 그 추가 참고 리소스들에 대한 공동 선택 리소스들을 표현하기 위해 업데이트될 수 있다. 가중 그래프는 충족되는 업데이트 조건에 기초하여 주기적으로 업데이트될 수 있다. 업데이트 조건은, 예를 들어 최근 업데이트 이후의 특정된 양의 시간, 사용자 행동들, 사용자 세션들, 또는 다른 기준(measure)일 수 있다.

콘텍스트 프로파일들은 가중 그래프에서 리소스들을 나타내는 노드들에 연결된 에지들에 기초하여 공동 선택 리소스들에 대해 생성될 수 있다. 일부 구현예들에서, 특정 리소스에 대한 콘텍스트 프로파일은 특정 리소스들이 연속적으로 선택된, 리소스들에 대한 콘텍스트 프로파일의 합일 수 있다. 다른 구현예들에서, 특정 리소스에 대한 콘텍스트 프로파일은 도 6을 참조하여 더욱 자세하게 설명되는 것처럼, 특정 리소스를 표현하는 노드에 연결된 에지들의 에지 가중치들에 더 기초할 수 있다.

가중 그래프(400) 및 프로세스(500)는 신뢰도 임계치를 충족하는 콘텍스트 프로파일들을 갖는 참고 리소스들을 사용하여 설명되었다. 그러나 도 2를 참고하여 설명된 바와 같이, 콘텍스트 프로파일이 가용한 리소스 각각은 참고 리소스로 연속적으로 선택된 다른 리소스들에 대한 참고 리소스일 수 있다. 이러한 구현예들에서, 리소스를 표현하는 각 노드는 리소스에 대한 콘텍스트 프로파일이 정확할 가능성을 나타내는 참고 가중치(reference weight)를 할당받을 수 있다. 도 6을 참조하여 더욱 자세하게 설명되는 것처럼, 이 참고 가중치는 참고 리소스에 대한 공동 선택 리소스들에 대해 업데이트된 콘텍스트 프로파일들을 계산할 때 사용될 수 있다.

가중 그래프(400) 및 프로세스(500)는 또한 가중 그래프를 생성하는 사용자들에 의한 리소스들의 연속 선택 또는 가중 그래프의 가중 링크(weight link)들을 사용하는 것으로서 설명되었다. 그러나 가중 그래프(400)의 링크들은 리소스들에 관련된 다른 사용자 행동들을 사용하여 생성되거나 가중될 수 있다. 예를 들어, 가중 그래프의 링크들은 동일한 사용자 세션 동안인 임의 시간에 또는 다른 정의된 기간 내에 동일한 사용자에 의한 리소스들의 선택에 기초하여 생성될 수 있다. 추가적으로, 가중 그래프(400)의 노드들 간의 링크들은, 예를 들어 링크를 정의한 규칙 세트에 기초한 리소스들 간의 다른 식별된 관계(ther identified relationship)들에 기초하여 생성되거나 가중될 수 있다. 예를 들어, 링크들은 한 리소스로부터 다른 리소스로의 html 링크들의 식별, 퍼블리셔들 또는 사용자들에 의한 리소스들 간에 명료하게 특정되거나 식별된 링크들에 기초하거나, 리소스들 간의 다른 식별된 관계들의 기준하여 생성되거나 가중될 수 있다.

도 6은 업데이트된 콘텍스트 프로파일을 계산하는 예시적 프로세스(600)의 순서도이다. 프로세스(600)는 특정된 리소스에 대한 콘텍스트 프로파일들을 초기화하는 단계와 그 특정화된 리소스가 관련된 것으로 식별된 참고 리소스들의 콘텍스트 프로파일에 기초하여 그 특정화된 리소스에 대한 콘텍스트 프로파일 결과를 계산하는 단계를 포함한다. 콘텍스트 프로파일 결과에 대한 각 토픽 점수(topic score)가 이어 정규화되고, 임계치와 비교되며, 그 임계치에 기초하여 조정된다. 조정된 토픽 점수들은 이어 재-정규화(re-normalized)되고, 콘텍스트 프로파일은 업데이트된 것으로 정의된다. 프로세스(600)는 도 2에 도시된 바와 같이, 중지 조건이 발생할 때까지 반복적으로 반복된다.

프로세스(600)는, 예를 들어 도 1에 도시된 리소스 콘텍스트 시스템(120)에 의해 구현될 수 있다. 일부 구현예들에서, 리소스 콘텍스트 시스템(120)은 프로세스(600)의 동작들을 수행하도록 구성된 하나 이상의 프로세서를 포함한다. 다른 구현예들에서, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 실행되었을 때 컴퓨터로 하여금 프로세스(600)의 동작들을 수행하게 하는 명령들을 포함할 수 있다.

특정된 리소스에 대한 초기화된 콘텍스트 프로파일이 선택된다(602). 일부 구현예들에서, 특정된 리소스는 참고 리소스에 대한 공동 선택 리소스이다. 다른 구현예들에서, 특정된 리소스는 참고 리소스에 관련된 것으로서 식별된 다른 리소스들일 수 있다. 초기화된 콘텍스트 프로파일은, 예를 들어 콘텍스트 프로파일들을 저장하는 데이터 저장소(예컨대, 도 1에 도시된 인덱스된 캐쉬(112))로부터 선택될 수 있다.

일부 구현예들에서, 공동 선택 리소스에 대한 초기화된 콘텍스트 프로파일은 초기화된 토픽값들을 포함하는 콘텍스트 프로파일일 수 있다. 예를 들어, 초기화된 토픽값들은 기준값(예컨대, "0.0.")으로 설정되는 토픽값들일 수 있다. 대안적으로, 초기화된 토픽값들은 공동 선택 리소스들을 연속적으로 선택한 다른 식별된 리스들에 대한 평균 토픽값들로 설정될 수 있다.

다른 구현예들에서는, 공동 선택 리소스들에 대한 초기화된 토픽값들은 미리 계산된 콘텍스트 프로파일일 수 있다. 예를 들어, 초기화된 콘텍스트 프로파일은, 도 2을 참조하여 설명된 것처럼, 클러스터링 시스템에 의해 계산되거나 공동 선택 리소스에 대해 미리 계산된 콘텍스트 프로파일일 수 있다.

콘텍스트 프로파일 결과가 초기화된 콘텍스트 프로파일과 다른 리소스들의 콘텍스트 프로파일들의 함수에 기초하여 계산된다(604). 일부 구현예에서, 다른 리소스들은 특정된 리소스에 관련된 것으로서 식별된 리소스들이다. 예를 들어, 다른 리소스들은 특정된 리소스의 이전 또는 이후에 선택되는 리소스들일 수 있다. 콘텍스트 프로파일 결과를 계산하는 함수는 공동 선택 리소스가 연속적으로 선택된 참고 리소스들의 콘텍스트 프로파일들의 합일 수 있다.

예를 들어, 가중 그래프를 사용하여, 특정된 리소스를 표현하는 노드에 연결되는 각 노드는 공동 선택 리소스에 연결하는 가중된 에지들에 기초하여 식별될 수 있다. 특정된 리소스들에 대한 노드와 연결되는 노드들로 표현되는 각 리소스는 특정된 리소스에 대한 참고 리소스로서 식별될 수 있다. 결국, 참고 리소스들에 대한 콘텍스트 프로파일들이 식별되고, 특정된 리소스에 대한 초기 콘텍스트 프로파일과 합산될 수 있다. 합산 결과는 콘텍스트 프로파일 결과로서 정의된다. 로그 함수 또는 지수 함수와 같은 다른 함수들도 콘텍스트 프로파일 결과를 계산하는데 사용될 수 있다.

일부 구현예들에서, 콘텍스트 프로파일들의 합은 가중된 합이다. 예를 들어, 각 콘텍스트 프로파일은 리소스에 대한 참고 가중치에 따라서 가중된다. 예를 들어, 참고 가중치 0.6을 갖는 리소스에 대한 콘텍스트 프로파일에 있는 토픽값 각각에 0.6이 곱해질 수 있고, 이로써 콘텍스트 프로파일 결과를 계산하기 위하여 가중된 콘텍스트 프로파일의 영향을 감소시킨다.

일부 구현예들에서, 참고 리소스에 대한 콘텍스트 프로파일은 참고 리소스 및 특정된 리소스의 순차 선택들의 횟수에 기초하여 가중될 수 있다. 예를 들어, 콘텍스트 프로파일에 있는 토픽값 각각에 참고 리소스 및 특정된 리소스의 연속된 선택들의 총 횟수를 나타내는 값이 곱해질 수 있다. 대안적으로, 토픽값들에 특정된 리소스들의 선택들의 총 횟수에 대한 참고 리소스와 특정 리소스의 후속 선택들의 총 횟수의 비율이 곱해질 수 있다.

참고 리소스 및 특정된 리소스의 순차 선택들의 횟수는 예를 들어, 도 5를 참조하여 설명한 것처럼, 가중 그래프의 노드들에 연결된 가중된 에지들에 기초하여 식별될 수 있다. 추가적으로, 특정된 리소스들에 대한 노드와 다른 노드들을 연결하는 에지들의 가중치는 특정된 노드에 대한 콘텍스트 프로파일 결과를 계산하기 위하여 다른 노드들의 콘텍스트 프로파일들을 가중하는데 사용될 수 있다.

공동 선택 리소스에 대한 콘텍스트 프로파일 결과의 토픽 점수들이 정규화된다(606). 일부 구현예들에서, 토픽 점수들은 토픽 점수들의 합이 1.0과 같아지도록, 토픽 점수들의 값들을 조정함으로써 정규화된다. 예를 들어, 콘텍스트 프로파일이 상응하는 토픽 A, B, 및 C에 대하여 3개의 토픽 점수 1.0, 3.0, 및 6.0을 포함하면, 스케일된 토픽 점수들의 합이 1.0(즉, 1.0/10+3.0/10+6.0/10=0.1+0.3+0.6=1.0)이 되도록 하기 위해, 토픽 점수들은 인자 10으로 스케일될 수 있다. 다른 정규화 스케일들 및 함수들도 사용될 수 있다.

정규화된 토픽 점수 각각이 토픽 점수 임계치와 비교된다(608). 일부 구현예들에서, 토픽 점수 임계치는 리소스가 토픽에 관련되는 것으로 고려되어야만 하는 최저 토픽 점수를 특정한다. 예를 들어, 토픽 점수 임계치는 0.29가, 리소스가 토픽과 관련되는 것으로 고려될 토픽을 위하여 가질 수 있는 최저 토픽 점수라고 특정할 수 있다. 이 예시에서, 토픽 A에 대한 토픽 점수 0.1은 토픽 점수 임계치 0.29를 충족하지 못한다. 그러므로, 리소스는 토픽 A에 관련되는 것으로서 식별되지 않는다.

토픽 점수 임계치 미만인 토픽 점수들이 참고값에 대해 조정된다(610). 일부 구현예들에서, 콘텍스트 프로파일들이 리소스가 관련되는 것으로 식별되지 않은 토픽들에 대한 토픽 점수들이 포함되지 않도록 하기 위해, 참고값이 0.0으로 설정될 수 있다. 상술된 예시로 계속 설명하면, 토픽 A에 대한 토픽 점수는 리소스가 토픽 A에 관련되는 것으로 식별되지 않는다는 것을 나타내는 0.0으로 설정될 것이다.

토픽 점수들은 조정된 토픽 점수들에 기초하여 재-정규화될 수 있다(612). 일부 구현예들에서, 토픽 점수들은 토픽 점수들의 합이 1.0으로 다시 같아지도록 재-정규화할 수 있으며, 합이 1.0으로 됨에 따라 리소스가 관련되는 것으로 식별되지 않은 토픽들에 대한 토픽 점수들을 조정하는 과정이 행해진다. 상술된 예시로 계속 설명하면, 토픽 B와 C에 대한 토픽 점수들은 토픽 점수들에 1.11을 곱함으로써(즉, 1.11*0.3+1.11*0.6=.33+.67=1.0) 정규화될 수 있다.

도 2를 참조하여 상술되어진 것처럼, 토픽 점수들은 중지 조건이 발생할 때까지 가중 그래프에서 노드들로 표현되는 각 리소스에 대해 반복적으로 생성될 수 있다. 토픽 점수들은 가중 그래프를 통해 리소스들에 대한 콘텍스트 프로파일들의 전파를 용이하게 하기 위해 반복적으로 생성된다. 중지 조건이 발생하면, 정규화된 토픽 점수들이 리소스에 대해 업데이트된 콘텍스트 프로파일로서 정의될 수 있다.

본 명세서에 기재된 기능적 동작들은 디지털 전자 회로로 구현되거나, 또는 상세한 설명에 기재된 구조 및 그들의 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로 구현되거나, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 동작들은 또한 하나 이상의 컴퓨터 프로그램 제품, 즉, 데이터 프로세싱 장치에 의해 실행되거나 또는 그 장치의 동작을 제어하도록, 컴퓨터 판독 가능 매체에 부호화된 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 저장 매체는 기계-판독가능 저장 디바이스, 기계 판독가능 저장 기판(substrate), 메모리, 또는 디바이스, 기계-판독가능 전파되는(propagated) 신호에 영향을 미치는 성분들의 구성, 또는 이들 중 하나 이상의 조합일 수 있다. "데이터 프로세싱 장치"라는 용어는 데이터를 처리하기 위한 모든 장치, 디바이스 및 기계를 포괄하며, 예를 들어, 프로그래머블 프로세서, 컴퓨터, 또는 다중 프로세서 또는 컴퓨터들을 포함한다. 장치는 하드웨어 외에도, 당해 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드를 포함하고, 코드는 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 시스템, 또는 이들 중 하나 이상의 조합을 구성한다. 전파되는(propagated) 신호(예를 들어, 기계-생성 전기, 광 또는 전자기 신호)는 적절한 수신 장치로 전송하기 위한 정보를 인코딩하기 위해 생성된다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려짐)은 컴파일 또는 인터프리터 언어를 포함하는 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴, 또는 컴퓨터 환경에서 사용하기에 적합한 그 밖의 유닛을 포함하는 임의의 형태로도 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 상응해야 하는 것은 아니다. 프로그램은 다른 프로그램 또는 데이터를 보유하는 파일의 일부에 저장되거나(예를 들어, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트), 당해 프로그램 전용의 단일 파일에 저장되거나, 또는 다수의 조화된(coordinated) 파일들(예를 들어, 하나 이상의 모듈, 서브프로그램, 코드의 부분을 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서, 또는 한 위치에 배치되거나 또는 다수의 위치에 걸쳐서 분산되고 통신 네트워크에 의해 접속된 다수의 컴퓨터에서 실행되도록 배치될 수 있다.

본 명세서에 설명된 프로세스와 논리 흐름은 하나 이상의 프로그래머블 프로세서에 의해 수행될 수 있고, 이 프로그래머블 프로세서는 입력 데이터에 작용하여 출력을 생성함으로써 기능들을 수행하는 하나 이상의 컴퓨터 프로그램들을 실행한다. 예를 들어, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 전용 논리 회로가 프로세스와 논리 흐름을 수행하거나, 장치를 구현할 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서에는, 예를 들어, 범용 및 전용 마이크로프로세서, 및 임의 종류의 디지털 컴퓨터 중 하나 이상의 프로세서가 있다. 일반적으로, 프로세서는 판독 전용 메모리(ROM), 또는 랜덤 액세스 메모리(RAM), 또는 양자로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 구성요소는 명령들을 실행하는 프로세서, 및 명령과 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스(예를 들어, 자기 디스크, 광자기 디스크, 또는 광디스크)를 포함하거나, 또는 이 디바이스와 데이터를 송수신하기 위하여 동작적으로(operatively) 결합될 수 있다. 하지만 컴퓨터는 이러한 디바이스를 반드시 구비할 필요는 없다. 더욱이, 컴퓨터는 예를 들어, 모바일 전화기, 개인 정보 단말(PDA), 모바일 오디오 재생기, GPS(global positioning system) 등과 같은 다른 디바이스에 내장될 수 있다. 컴퓨터 프로그램 명령어와 데이터를 저장하기 적합한 컴퓨터 판독가능 매체에는, 예를 들어, 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM, 플래시 메모리 디바이스); 자기 디스크(예를 들어, 내부 하드디스크, 착탈식 디스크); 광자기 디스크; 및 CD ROM과 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스가 포함된다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 통합될 수 있다.

사용자와의 상호작용을 제공하기 위하여, 본 명세서의 실시예는, 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터), 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터에 구현될 수 있다. 사용자는 키보드와 포인팅 디바이스를 이용하여 컴퓨터에 입력을 제공할 수 있다. 사용자와의 상호작용을 제공하기 위하여 다른 종류의 디바이스가 또한 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백(feedback)은 예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백인 임의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.

실시예들은, 예를 들어, 데이터 서버와 같은 백엔드(back-end) 구성요소를 구비하는 컴퓨팅 시스템; 또는 예를 들어, 애플리케이션 서버와 같은 미들웨어 구성요소를 구비하는 컴퓨팅 시스템; 또는 예를 들어, 사용자가 본 발명의 실시예와 상호작용할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 구비한 클라이언트 컴퓨터와 같은 프론트엔드(front-end) 구성요소를 구비하는 컴퓨터 시스템; 또는 이러한 백엔드, 미들웨어 또는 프론트엔드 구성요소들의 임의 조합을 구비하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소는 디지털 데이터 통신의 임의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크의 예에는 근거리 네트워크(LAN)와 인터넷과 같은 광역 네트워크(WAN)가 포함된다.

컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터상에서 실행되고 상호 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 발생한다.

본 명세서가 다수의 특정 사항을 포함하고 있지만, 이는 청구할 사항의 범위에 대한 어떠한 제약으로서도 이해되어서는 안 되며, 특정 구현예들의 특정한 실시예에 고유한 특징의 설명으로서 이해되어야 한다. 별개의 구현예들의 문맥으로 본 명세서에서 설명된 소정 특징들은 조합되어 단일 구현예로 구현될 수 있다. 반대로, 단일 구현예의 문맥에서 설명한 다양한 특징은 복수의 구현예에서 별개로 구현되거나 어떤 적당한 하위 조합으로서도 구현 가능하다. 또한, 앞에서 특징이 소정 조합에서 동작하는 것으로서 설명되고 그와 같이 청구되었지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우에 해당 조합으로부터 삭제될 수 있으며, 청구된 조합은 하위 조합이나 하위 조합의 변형으로 될 수 있다.

마찬가지로, 도면에서 특정한 순서로 동작을 묘사하고 있지만, 그러한 동작이 바람직한 결과를 얻기 위해, 도시한 특정 순서나 순차적인 순서로 수행되어야 한다거나, 설명한 모든 동작이 수행되어야 한다는 것을 의미하는 것은 아니다. 소정 환경에서, 멀티태스킹 및 병렬 프로세싱이 바람직할 수 있다. 또한, 상술한 구현예에 있어서 다양한 시스템 구성요소의 분리는 모든 구현예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명한 프로그램 구성요소와 시스템은 단일 소프트웨어 제품으로 통합되거나 또는 복수의 소프트웨어 제품으로 패키지될 수 있다는 점을 이해되어야 한다.

따라서 특정 구현예들이 설명되었다. 그 밖의 구현예들은 후술하는 청구범위 내에 범위에 속한다. 예를 들어, 청구 범위에 인용된 동작들은 상이한 순서로 수행될 수 있지만, 여전히 바람직한 결과를 달성할 수 있다.

102: 네트워크
110: 검색 시스템
112: 인덱스된 캐쉬
114: 이력 데이터
120: 리소스 콘텍스트 시스템
400: 가중 그래프

Claims

컴퓨터 구현 방법에 있어서,
데이터 처리 디바이스에 의해, 제1 리소스에 대한 제1 콘텍스트 프로파일―상기 제1 콘텍스트 프로파일은 복수의 토픽 각각에 대한 상기 제1 리소스의 관련성 척도들(measures of relevance)을 나타내는 토픽값들을 특정함―을 선택하는 단계;
상기 제1 리소스에 관련된 것으로 식별된 제2 리소스를 식별하는 단계;
상기 제2 리소스에 대한 제2 콘텍스트 프로파일을 상기 제1 콘텍스트 프로파일의 함수에 기초하여 계산하는 단계;
상기 제2 콘텍스트 프로파일을 처리 시스템―여기서, 상기 처리 시스템은 상기 제2 콘텍스트 프로파일 내 적어도 하나의 토픽값이 토픽값 임계(topic value threshold)를 충족할 때 상기 제2 리소스를 적어도 하나의 토픽에 관련된 것으로 식별하도록 구성됨―에 제공하는 단계를 포함하고,
상기 제2 콘텍스트 프로파일을 상기 제1 콘텍스트 프로파일의 함수에 기초하여 계산하는 상기 단계는
상기 제2 콘텍스트 프로파일에 대한 토픽값들을 초기 토픽값들로 초기 화하는 단계;
상기 초기 토픽값들과 상기 제1 콘텍스트 프로파일의 함수에 기초하여 콘텍스트 프로파일 결과를 계산하는 단계;
상기 콘텍스트 프로파일 결과의 토픽 점수들을 정규화된 토픽 점수들로 정규화하는 단계;
정규화된 토픽 점수 각각을 토픽 점수 임계치와 비교하는 단계;
상기 토픽 점수 임계치보다 작은 값을 갖는 정규화된 토픽 점수들을 기준 값(reference value)에 대해 조정하는 단계; 및
상기 조정된 토픽 점수들에 기초하여 상기 토픽 점수들을 재-정규화하 는 단계를 포함하는 것을 특징으로 하는 방법.
청구항1에 있어서, 상기 제2 리소스를 식별하는 단계는 상기 제1 리소스의 선택에 관하여 제시를 위하여 순차적으로 선택된 제2 리소스를 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항2에 있어서, 상기 제2 리소스에 대한 제2 콘텍스트 프로파일을 계산하는 단계는,
상기 제1 리소스와 제2 리소스를 가중 그래프(weighted graph)에서 노드들―여기서, 상기 노드들은 상기 제1 리소스와 제2 리소스의 순차 선택들을 나타내는 가중 에지(weighted edge)에 의해 연결됨―로서 나타내는 단계; 및
상기 제2 콘텍스트 프로파일을 상기 가중 에지와 상기 제1 콘텍스트 프로파일의 함수에 기초하여 계산하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항3에 있어서, 상기 가중 에지는 상기 제1 리소스와 제2 리소스의 순차 선택 각각에 대한 소스 리소스와 목적(destination) 리소스를 가리키는 방향성 구성요소들을 포함하고, 상기 소스 리소스는 상기 목적 리소스가 제시를 위해 선택되기 전에 제시를 위해 선택되는 리소스인 것을 특징으로 하는 방법.
청구항1에 있어서, 상기 제1 리소스에 대한 제1 콘텍스트 프로파일을 수신하는 단계는 제1 콘텍스트 프로파일을 수신하는 단계를 포함하고, 상기 제1 콘텍스트 프로파일은 제1 리소스와 관련된 신뢰값(confidence value)을 갖는 것을 특징으로 하는 방법.
청구항1에 있어서, 상기 콘텍스트 프로파일 결과를 계산하는 단계는 상기 제1 콘텍스트 프로파일과 상기 초기 토픽값들을 합산하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항6에 있어서, 상기 제1 콘텍스트 프로파일과 상기 초기 토픽값들을 합산하는 단계는 상기 초기 토픽값들과 선택 가중 제1 콘텍스트 프로파일을 합산하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항1에 있어서, 상기 제2 콘텍스트 프로파일을 처리 시스템에 제공하는 단계는 상기 제2 콘텍스트 프로파일을 검색 시스템에 제공하는 단계를 포함하고, 상기 검색 시스템은 검색 쿼리에 대한 검색 결과 내에서, 상기 제2 콘텍스트 프로파일에 기초하여, 상기 제2 리소스를 참조하는 것을 특징으로 하는 방법.
청구항1에 있어서, 상기 제2 콘텍스트 프로파일을 처리 시스템에 제공하는 단계는 상기 제2 콘텍스트 프로파일을 광고 관리 시스템에 제공하는 단계를 포함하고, 상기 광고 관리 시스템은 상기 제2 리소스와 함께 제시하기 위한 관련 광고들을 상기 제2 콘텍스트 프로파일에 기초하여 선택하는 것을 특징으로 하는 방법.
청구항1에 있어서, 상기 제2 리소스를 식별하는 단계는 가중 그래프의 가중 링크들에 기초하여 제2 리소스를 식별하는 단계를 포함하고, 상기 가중 링크들은 상기 제1 리소스를 나타내는 노드에 연결되는 것을 특징으로 하는 방법.
참고 리소스들에 대한 제1 콘텍스트 프로파일들과 참고 리소스들에 대한 공동 관련성 데이터(co-relevance data)를 저장하는 데이터 저장부로서, 상기 제1 콘텍스트 프로파일들은 복수의 토픽 각각에 대한 상기 참고 리소스들의 관련성 척도들을 나타내는 토픽값들을 특정하고, 상기 공동 관련성 데이터는 상기 참고 리소스들의 다른 리소스들에 대한 관련성 척도들을 특정하는 상기 데이터 저장부; 및
상기 데이터 저장부와 연결된 리소스 콘텍스트 시스템;
을 포함하는 시스템에 있어서,
상기 리소스 콘텍스트 시스템은,
참고 리소스에 대한 제1 콘텍스트 프로파일을 선택하고;
상기 공동 관련성 데이터에 기초하여, 상기 참고 리소스에 관련된 제2 리소스를 식별하고;
상기 제2 리소스에 대한 업데이트된 콘텍스트 프로파일을, 상기 참고 리소스들의 제1 콘텍스트 프로파일들 및 상기 공동 관련성 데이터의 함수에 기초하여 계산하도록 구성되는 적어도 하나의 프로세스를 포함하고,
상기 계산은,
상기 제2 콘텍스트 프로파일에 대한 토픽값들을 초기 토픽값들로 초기화하는 단계;
상기 초기 토픽값들과 상기 제1 콘텍스트 프로파일의 함수에 기초하여 콘텍스트 프로파일 결과를 계산하는 단계;
상기 콘텍스트 프로파일 결과의 토픽 점수들을 정규화된 토픽 점수들로 정규화하는 단계;
정규화된 토픽 점수 각각을 토픽 점수 임계치와 비교하는 단계;
상기 토픽 점수 임계치보다 작은 값을 갖는 정규화된 토픽 점수들을 기준 값에 대해 조정하는 단계; 및
상기 조정된 토픽 점수들에 기초하여 상기 토픽 점수들을 재-정규화하는 단계를 포함하는 것을 특징으로 하는 시스템.
청구항11에 있어서, 상기 리소스 콘텍스트 시스템은 상기 참고 리소스들과 그 밖의 리소스들을 가중 그래프에서 노드들로 나타내고, 가중 에지들과 상기 제1 콘텍스트 프로파일의 함수에 기초하여 상기 업데이트된 콘텍스트 프로파일을 계산하도록 추가로 구성되고, 상기 노드들은 상기 참고 리소스들과 그 밖의 리소스들의 관련성 척도들을 나타내는 가중 에지들에 의해 연결되는 것을 특징으로 하는 시스템.
청구항11에 있어서, 상기 공동 관련성 데이터는 상기 참고 리소스들의 선택들에 관한 공동 선택 리소스들의 순차 선택들을 특정하는 공동 선택 데이터인 것을 특징으로 하는 시스템.
청구항13에 있어서, 상기 리소스 콘텍스트 시스템은 상기 공동 선택 리소스들에 대한 초기 토픽값들의 함수에 기초하여 상기 업데이트된 콘텍스트 프로파일들을 계산하도록 추가로 구성되는 것을 특징으로 하는 시스템.
명령들을 포함하는 컴퓨터 프로그램으로 인코딩된 컴퓨터 판독 가능 매체로서, 상기 명령들은 실행되면 컴퓨터로 하여금 동작을 수행하도록 하고, 상기 동작은
데이터 처리 디바이스에 의해, 제1 리소스에 대한 제1 콘텍스트 프로파일―상기 제1 콘텍스트 프로파일은 복수의 토픽 각각에 대한 상기 제1 리소스의 관련성 척도들을 나타내는 토픽값들을 특정함―을 선택하는 단계;
상기 제1 리소스에 관련된 것으로 식별된 제2 리소스를 식별하는 단계;
상기 제2 리소스에 대한 제2 콘텍스트 프로파일을 상기 제1 콘텍스트 프로파일의 함수에 기초하여 계산하는 단계; 및
상기 제2 콘텍스트 프로파일을 처리 시스템―여기서, 상기 처리 시스템은 상기 제2 콘텍스트 프로파일 내 적어도 하나의 토픽값이 토픽값 임계를 충족할 때 상기 제2 리소스를 적어도 하나의 토픽에 관련된 것으로 식별하도록 구성됨―에 제공하는 단계를 포함하고,
상기 제2 콘텍스트 프로파일을 상기 제1 콘텍스트 프로파일의 함수에 기초하여 계산하는 단계는
상기 제2 콘텍스트 프로파일에 대한 토픽값들을 초기 토픽값들로 초기 화하는 단계;
상기 초기 토픽값들과 상기 제1 콘텍스트 프로파일의 함수에 기초하여 콘텍스트 프로파일 결과를 계산하는 단계;
상기 콘텍스트 프로파일 결과의 토픽 점수들을 정규화된 토픽 점수들로 정규화하는 단계;
정규화된 토픽 점수 각각을 토픽 점수 임계치와 비교하는 단계;
상기 토픽 점수 임계치보다 작은 값을 갖는 정규화된 토픽 점수들을 기준 값에 대해 조정하는 단계; 및
상기 조정된 토픽 점수들에 기초하여 상기 토픽 점수들을 재-정규화하 는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제