KR20060047664A

KR20060047664A - 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템

Info

Publication number: KR20060047664A
Application number: KR1020050036407A
Authority: KR
Inventors: 벤유 장; 후아-준 젱; 웨이-잉 마; 젱 첸
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-04-30
Filing date: 2005-04-29
Publication date: 2006-05-18
Also published as: CN100573513C; KR101130535B1; CA2505904C; JP2005322244A; CA2505904A1; RU2383922C2; MXPA05004681A; JP4845420B2; CN1758244A; EP1591923A1; US20050246328A1; AU2005201824A1; BRPI0502189A; US7664735B2; RU2005113189A

Abstract

주제들의 다양성 및 정보 풍부성에 기초하여 서치 결과의 문서들을 랭킹하기 위한 방법 및 시스템이 제공된다. 랭킹 시스템은 서치 결과 내의 각각의 문서의 정보 풍부성을 판정한다. 랭킹 시스템은 서치 결과의 문서들을 그들의 관련성 -그들이 유사한 주제들에 관한 것임을 의미함-에 기초하여 그룹핑한다. 랭킹 시스템은 최고 랭킹 문서들이 각각의 주제를 포괄하는 적어도 하나의 문서, 즉 각각의 그룹으로부터 하나의 문서를 포함할 수 있도록 보장하도록 문서들을 랭킹한다. 랭킹 시스템은 그룹 내의 문서들 중 최고 정보 풍부성을 갖는 문서를 각각의 그룹으로부터 선택한다. 문서들이 랭크 순서대로 사용자에게 표시될 때, 사용자는 단일 인기 주제가 아니라 다양한 주제들을 포괄하는 서치 결과 문서들의 첫번째 페이지 상에서 찾게 될 것이다.

서치, 정보 풍부성, 주제들의 다양성, 랭킹

Description

다양성과 정보 풍부성을 향상시키기 위해 서치 결과의 문서들을 랭킹하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR RANKING DOCUMENTS OF A SEARCH RESULT TO IMPROVE DIVERSITY AND INFORMATION RICHNESS}

도 1은 일 실시예에서 유사성 그래프를 예시한 도면

도 2는 일 실시예에서 랭킹 시스템의 구성 요소들을 예시하는 블럭도.

도 3은 일 실시예에서 랭킹 시스템의 전체 프로세싱을 예시하는 순서도.

도 4는 일 실시예에서 유사성 그래프 성분 구성의 프로세싱을 예시하는 순서도.

도 5는 일 실시예에서 문서 랭크의 프로세싱을 예시하는 순서도.

<도면의 주요 부분에 대한 부호의 설명>

201: 문서 저장

211: 유사성 그래프 생성

202: 유사성 그래프 저장

213: 서치 수행

204: 서치 결과 저장

212: 정보 풍부성 계산

203: 정보 풍부성 저장

214: 유사성 패널티 계산

215: 유사성 랭크 점수 계산

216: 최종 점수 계산

개시되는 기술은 일반적으로 서치 엔진 서비스에 제출된 서치 결과에 의해 식별되는 서치 결과의 문서들을 랭킹하는 것에 관련된다.

Google과 Overture 등과 같은 많은 서치 엔진 서비스들은 인터넷을 통해 액세스 가능한 정보에 대한 서치를 제공한다. 이 서치 엔진 서비스는 사용자가 사용자에게 관심있을 수 있는 웹 페이지 등의 디스플레이 페이지들을 서치할 수 있도록 해준다. 사용자가 서치 용어들을 포함한 서치 요청을 제출한 후에, 서치 엔진 서비스는 이들 서치 용어들에 관련될 수 있는 웹 페이지들을 식별한다. 관련 웹 페이지들을 빠르게 식별하기 위해, 서치 엔진 서비스들은 키워드들을 웹 페이지들에의 맵핑을 유지한다. 이 맵핑은 웹(즉, World Wide Web)을 "순례(crawling)"하여 각각의 웹 페이지의 키워드들을 추출함으로써 생성될 수 있다. 웹을 순례하기 위해, 서치 엔진 서비스는 그 원시 웹 페이지들(root web pages)을 통해 액세스할 수 있는 모든 웹 페이지들을 식별하기 위해 원시 웹 페이지들의 리스트를 이용할 수 있다. 임의의 특정 웹 페이지의 키워드들은, 헤드 라인의 단어들, 웹 페이지의 메타 데이터 내에 공급된 단어들, 강조된 단어들 들을 식별하는 것 등과 같은, 다양 한 공지 정보 검색 기술들을 이용하여 추출될 수 있다. 서치 엔진 서비스는 각각의 매치의 근사성, 웹 페이지 인기도(예를 들면, Google의 PageRank) 등에 기초하여 각각의 웹 페이지가 서치 요청에 얼마나 관련이 있는지를 나타내는 관련성 점수를 계산할 수 있다. 그런 다음 서치 엔진 서비스는 그러한 웹 페이지들로의 링크들을 그들의 관련성에 기초한 순서대로 사용자에게 디스플레이한다. 서치 엔진들은 문서들의 임의의 컬렉션(collection) 내의 정보 서치를 보다 일반적으로 제공할 수 있다. 예를 들어, 문서들의 컬렉션은 모든 U.S 특허, 모든 연방 법원 판결, 회사의 모든 보존 문서 등을 포함할 수 있다.

서치 엔진 서비스에 의해 제공된 서치 결과의 최고 랭킹 웹 페이지들은 모두 동일한 인기있는 주제와 관련될 수 있다. 예를 들어, 사용자가 서치 용어 "Spielberg"를 갖는 서치 결과를 제출하면, 서치 결과의 최고 랭킹 웹 페이지들은 Steven Spielberg와 관련되기 쉬울 것이다. 그러나, 사용자가 Steven Spielberg에 관심이 없고, 그 대신 성이 동일한 수학 교수의 홈 페이지를 찾는데에 관심이 있다면, 웹 페이지들의 랭킹은 사용자에게 도움이 되지 못할 것이다. 비록 교수의 홈 페이지가 서치 결과 내에 포함되었을 수 있어도, 사용자는 교수의 홈 페이지에 대한 링크를 찾기 위해 서치 결과의 웹 페이지들에 대한 링크들의 여러 페이지들을 검토할 필요가 있을 수 있다. 일반적으로, 그것이 서치 결과의 첫 페이지에 식별되지 않을 때는, 사용자가 원하는 문서를 찾기가 어려울 수 있다. 또한, 사용자들은 관심있는 문서를 찾기 위해 서치 결과의 다수의 페이지들을 통해 페이징을 해야 할 때 좌절하게 될 수 있다.

최고 랭킹 문서들 내에서 주제들의 더 많은 다양성을 제공할 수 있는 문서 랭킹 기술을 갖는 것이 바람직하고, 그러한 최고 랭킹 문서들 각각이 그의 주제와 관련하여 정보 콘텐트가 매우 풍부하게 되는 것이 또한 바람직할 것이다.

<발명의 개요>

시스템은 주제의 다양성 및 정보 풍부성에 기초하여 서치 결과의 문서들을 랭크한다. 랭킹 시스템은 그들의 관련성, 즉 그들이 유사한 주제들에 관한 것임에 기초하여 서치 결과의 문서들을 그룹핑한다. 랭킹 시스템은 최고 랭킹 문서들이 각각의 주제를 포괄하는 적어도 하나의 문서를 포함하는 것을 보장하도록 문서들을 랭킹한다. 그런 다음 랭킹 시스템은 그룹 내의 문서들 중 최고 정보 풍부성을 갖는 각각의 그룹으로부터의 문서를 최고 랭킹 문서들 중 하나로서 선택한다.

주제들의 다양성 및 정보 풍부성에 기초하여 서치 결과의 문서들을 랭킹하기 위한 방법 및 시스템이 제공된다. 일 실시예에서, 랭킹 시스템은 서치 결과 내의 각각의 문서의 정보 풍부성을 판정한다. 정보 풍부성은 문서가 그의 주제와 관련하여 얼마나 많은 정보를 포함하는지에 관한 척도이다. 높은 정보 풍부성을 갖는 문서(예를 들면 웹 페이지)는, 동일한 주제에 관련되지만 낮은 정보 풍부성을 갖는 문서들의 정보를 포함하는 정보를 포함할 가능성이 클 것이다. 랭킹 시스템은 그들의 관련성 -그들이 유사한 주제들에 관한 것임을 의미함-에 기초하여 서치 결과의 문서들을 그룹핑한다. 랭킹 시스템은 최고 랭킹 문서들이 각각의 주제를 포괄 하는 적어도 하나의 문서, 즉 각각의 그룹으로부터 하나의 문서를 포함할 수 있도록 보장하도록 문서들을 랭킹한다. 랭킹 시스템은 그룹 내의 문서들 중 최고 정보 풍부성을 갖는 각각의 그룹으로부터의 문서를 선택한다. 문서들이 랭크 순서로 사용자에게 표시될 때, 사용자는 단지 인기있는 주제가 아니라 다양한 주제들을 포괄하는 서치 결과 문서들의 첫번째 페이지 상에서 찾게 될 것이다. 예를 들어, 서치 요청이 서치 용어 "Spielberg"를 포함한다면, 서치 결과의 첫번째 페이지 상의 하나의 문서는 Steven Spielberg와 관련될 수 있고, 첫번째 페이지 상의 다른 문서는 교수 Spielberg와 관련될 수 있다. 이러한 방식으로, 서치 결과의 첫번째 페이지 상에 다양한 주제들을 포괄하는 문서들이 사용자에게 표시되기 쉬워져서, 사용자는 관심있는 주제가 서치 요청과 관련하여 가장 인기있는 주제가 아닐 때에 좌절하게 되지 않을 것이다. 또한, 랭킹 시스템이 정보 풍부성이 낮은 문서들보다 정보 풍부성이 높은 문서들을 높게 랭킹하기 때문에, 사용자는 서치 결과의 첫번째 페이지 상에 표시된 문서 내에서 원하는 정보를 찾기가 더 쉬워진다.

일 실시예에서, 랭킹 시스템은 유사성 그래프에 기초하여 서치 결과의 문서들의 정보 풍부성을 계산한다. 유사성은 한 문서의 정보가 다른 문서의 정보에 의해 어느 정도 포함되는지의 척도이다. 예를 들어, Spielberg의 모든 영화들을 피상적으로 기술하는 문서는 Spielberg의 모든 영화들을 상세히 기술하는 문서와 높은 유사성을 가질 수 있다. 반대로, Spielberg의 모든 영화들을 상세히 기술하는 문서는 Spielberg의 모든 영화들을 피상적으로 기술하는 문서와 상대적으로 낮은 유사성을 가질 수 있다. 매우 다른 주제들과 관련된 문서들은 서로 유사성이 없을 것이다. 모든 다른 문서에 대한 각각의 문서의 유사성들의 컬렉션은 유사성 그래프를 나타낸다. 다른 많은 문서들과 유사성이 높은 문서는, 그의 정보가 많은 다른 문서들의 정보를 포함하기 때문에 높은 정보 풍부성을 갖기 쉬울 것이다. 또한, 높은 유사성을 갖는 다른 문서들이 그들 자신들도 높은 정보 풍부성을 갖는다면, 그 문서의 정보 풍부성은 더욱 높은 것이다.

일 실시예에서, 랭킹 시스템은 역시 유사성 그래프를 이용하여 서치 결과의 높은 랭킹 문서들의 다양성을 보장하는 것을 돕는다. 랭킹 시스템은 종래의 랭킹 기술(예를 들면, 관련성), 정보 풍부성 기술, 또는 다른 랭킹 기술에 기초하여 문서들의 초기 랭킹 점수를 가질 수 있다. 처음에 랭킹 시스템은 최고의 초기 랭킹 점수를 갖는 문서를 최고의 최종 랭킹 점수를 갖는 문서로서 선택한다. 그런 다음 랭킹 시스템은 선택된 문서에 높은 유사성을 갖는 각각의 문서의 랭킹 점수를 감소시킨다. 랭킹 시스템은 그 문서들의 콘텐트가 상기 선택된 문서에 의해 포괄되기 쉽고 리던던트한 정보를 표시할 것이기 때문에 랭킹 점수를 감소시킨다. 랭킹 시스템은 나머지 문서들 중 그런 다음에 최고 랭킹 점수를 갖는 문서를 선택한다. 랭킹 시스템은 새롭게 선택된 문서에 대해 높은 유사성을 갖는 각각의 문서의 랭킹 점수를 감소시킨다. 랭킹 시스템은 원하는 개수의 문서들이 최종 랭킹 점수를 가질 때까지, 또는 모든 문서들이 최종 랭킹 점수를 가질 때까지, 또는 소정의 다른 중단 컨디션이 만족될 때까지 이 프로세스를 반복한다. 일 실시예에서, 다양성은 문서들의 컬렉션 내의 다른 주제들의 개수를 나타내고, 컬렉션 내의 문서의 정보 풍부성은 전체 컬렉션에 대한 그 문서의 정보적 수준을 나타낸다.

당업자는 서치 결과의 문서들이 정보 풍부성과 다양성의 결합이 아니라 정보 풍부성이나 다양성만에 기초하여 서치 결과의 문서들이 랭크될 수 있다는 것을 알 것이다. 서치 엔진 서비스는, 예를 들면 유사한 주제들과 관련된 문서들의 그룹들을 식별하고, 각 문서의 그의 그룹 내에서의 정보 풍부성을 판정함으로써, 정보 풍부성만을 이용할 수 있다. 그런 다음 서치 엔진 서비스는 판정된 정보 풍부성을 문서들의 랭킹에 팩터로 적용하여 그들의 그룹의 높은 정보 풍부성을 갖는 문서들이 그들의 그룹 내의 다른 문서들보다 더 높게 랭크되기 쉽게 된다. 서치 엔진 서비스는, 예를 들면 유사한 주제들과 관련된 문서들의 그룹들을 식별하고, 서치 결과 내에서 각 그룹중 적어도 하나의 문서가 정보 풍부성과 무관하게 높게 랭크되는 것을 보장함으로써, 정보 다양성만을 이용할 수 있다. 예를 들어, 서치 엔진 서비스는, 각 그룹과 최고 관련성을 갖는 각 그룹으로부터의 문서를 서치 결과의 첫번째 페이지 상에 디스플레이하도록 선택할 수 있다.

유사성 그래프는 문서들을 노드들로서 표시하고 유사성 값들을 노드들 사이의 지향성 에지들로 표시한다. 랭킹 시스템은 문서들의 컬렉션 내의 각 문서를 다른 모든 문서와 맵핑하는 스퀘어 매트릭스에 의해 유사성 그래프를 나타낸다. 랭킹 시스템은 매트릭스의 원소 값을 대응하는 문서들의 유사성으로 설정한다. M이 매트릭스라고 하면, M_ij는 문서 i의 문서 j에 대한 유사성을 나타낸다. 랭킹 시스템은 각 문서를 벡터로서 나타냄으로써 문서들의 유사성을 계산한다. 벡터는 문서의 정보 콘텐트를 나타낸다. 예를 들어, 각각의 벡터는 문서의 25개의 가장 중요 한 키워드들을 포함할 수 있다. 랭킹 시스템은 다음의 수학식 1에 따라 유사성을 계산할 수 있다.

여기서, aff(d_i, d_j)는 문서 d_i의 d_j에 대한 유사성이고,

는 벡터 d_i의 길이이다. 수학식 1은 유사성을 d_j로부터 d_i로의 정사영 길이로 설정한다. 당업자는 유사성이 많은 다른 방법으로 정의될 수 있음을 알 것이다. 예를 들어, 한 문서의 다른 문서에 대한 유사성은 다른 문서의 키워드들에 있는 한 문서의 키워드들의 퍼센티지에 기초하여 정의될 수 있다. 집합론의 용어들로, 한 문서의 다른 문서에 대한 유사성은 두 문서들의 교집합의 키워드들의 개수를 다른 문서 내의 키워드들의 개수로 나눈 값으로서 표현될 수 있다. 매트릭스 M의 각각의 원소는 유사성 그래프 내에서 한 문서의 노드로부터 다른 문서의 노드까지의 지향성 에지를 나타낸다. 일 실시예에서, 랭킹 시스템은 유사성 임계값(예를 들면, 2)보다 낮은 유사성 값을 제로로 설정한다. 개념적으로, 이것은 유사성이 낮을 때는 유사성 그래프 내에서 한 문서의 노드로부터 다른 문서의 노드로 지향된 에지가 없음을 의미한다. 유사성 매트릭스는 다음과 같이 표현된다.

여기서, M_ij는 매트릭스의 원소이고, aff_t는 유사성 임계값이다. 노드들 사이에 많은 에지들을 갖는 노드들의 그룹은 그 그룹 내의 많은 문서들이 서로 임계값 유사성보다 큰 유사성을 갖기 때문에 단일 주제를 나타낼 수 있다. 반대로, 노드들 사이에 링크들이 없는 것은 다른 주제들에 관련된 문서들을 나타낸다.

랭킹 시스템은 유사성 그래프에 대해 에지 분석 알고리즘을 적용함으로써 각각의 문서에 대한 정보 풍부성을 계산한다. 랭킹 시스템은 유사성 매트릭스를 노말라이즈(normalize)하여 각각의 행 내의 값들을 더해서 1이 되도록 한다. 노말라이즈된 유사성 매트릭스는 다음과 같이 표현된다.

여기서,

는 노말라이즈된 유사성 매트릭스의 원소이다. 랭킹 시스템은 다음 식에 따라 정보 풍부성을 계산한다.

여기서, InfoRich(d_i)는 문서 d_i의 정보 풍부성이다. 따라서, 정보 풍부성 은 재귀적으로 정의된다. 수학식 4는 매트릭스 형태로 다음과 같이 표시될 수 있다.

여기서, λ=[InfoRich(d_i)]_n×1은 노말라이즈된 유사성 매트릭스

의 고유벡터(eigenvector)이다. 노말라이즈된 유사성 매트릭스

는 전형적으로 희박한 매트릭스(sparse matrix)이므로, 모두 제로인 행들이 나타나는 것도 가능한데, 이것은 어떤 문서들은 그들과 상당한 유사성을 갖는 다른 문서들을 갖지 않음을 의미한다. 의미있는 고유벡터를 계산하기 위해, 랭킹 시스템은 문서의 인기도에 기초한 문서 랭킹일 수 있는 덤핑 팩터(dumping factor)(예를 들면, 85)를 이용한다. 덤핑 팩터를 이용하는 정보 풍부성은 다음식으로 표현된다.

여기서, c는 덤핑 팩터이고, n은 컬렉션 내의 문서들의 개수이다. 수학식 6은 다음과 같이 매트릭스 형태로 표현될 수 있다.

여기서,

는 모든 성분들이 1인 단위 벡터이다. 정보 풍부성의 계산은 정 보 흐름 및 싱크 모델로 유추될 수 있다. 이 모델에서, 정보는 각각의 이터레이션(iteration)에서 노드들 중에 흐른다. 문서 d_i는 다음과 같이 표현되는 유사성을 갖는 문서들의 집합 A(d_i)를 갖는다.

각각의 이터레이션에서, 정보는 다음의 규칙들 중 하나에 따라 흐를 수 있다.

1. 확률 c(즉, 덤핑 팩터)로, 정보가 A(d_i) 내의 하나의 문서로 흐를 것이고, 문서 d_j로 흐를 확률은 aff(d_i, d_j)에 비례한다.

2. 확률 1-c로, 정보가 컬렉션 내의 임의의 문서들에 랜덤하게 흐를 것이다.

Markov 체인은 상기 프로세스로부터 유도될 수 있는데, 여기서 상태들은 문서들에 의해 주어지고, 천이(또는 흐름) 매트릭스는 다음과 같이 주어진다.

여기서,

이다. 각각의 상태의 정상 확률 분포는 천이 매트릭스의 주 고유벡터에 의해 주어진다.

일 실시예에서, 랭킹 시스템은 정보 풍부성과 유사성 패널티를 결합함으로써 유사성 랭크를 계산하여, 동일한 주제에 관련된 다수의 문서들이 다른 주제들에 관련된 문서들을 제외하고 모두 높게 랭크되는 것은 아니다. 유사성 패널티의 이용은 가장 높게 랭크된 문서들 중 주제들의 다양성의 증가를 야기한다. 랭킹 시스템은 문서의 초기 유사성 랭크를 그의 정보의 풍부성으로 설정하여 유사성 패널티를 계산하기 위해 반복이 심한 알고리즘(iterative greedy algorithm)을 이용할 수 있다. 각각의 반복에서, 알고리즘은 다음의 최고 유사성 랭크를 갖는 문서를 선택하고, 동일한 주제에 관련된 문서들의 유사성 랭크를 유사성 패널티만큼 감소시킨다. 따라서, 일단 문서가 선택되면, 동일한 주제에 관련된 모든 다른 문서들은, 최고 랭킹 문서들이 다양한 주제들을 나타낼 수 있는 기회를 증가시키기 위해 감소된 유사성 랭크를 가질 것이다.

랭킹 시스템은 문서의 유사성 랭크를 다음 식과 같이 감소시킬 수 있다.

여기서, AR_j는 문서 j의 유사성 랭크를 나타내고, i는 선택된 문서이다. 유사성 패널티가 유사성 매트릭스를 기초로 하기 때문에, 문서가 선택된 문서에 더 유사해질수록 그의 유사성 패널티는 더 커진다.

랭킹 시스템은 일 실시예에서 유사성 랭킹을 텍스트 기반의 랭킹(예를 들면, 통상적인 관련성)과 결합하여 전체적인 랭킹을 생성한다. 랭킹들은 점수들에 기초하여 또는 랭크들에 기초하여 결합될 수 있다. 결합된 점수매김에서, 텍스트-기반 점수가 유사성 랭크와 결합되어 문서의 최종 점수를 나타내는 전체적인 점수를 준다. 결합된 점수 매김은 택스트 기반의 점수와 유사성 랭크의 선형 결합에 기초할 수 있다. 점수들은 다른 오더의 크기를 가질 수 있기 때문에, 랭킹 시스템은 점수들을 노말라이즈한다. 결합된 점수 매김은 다음과 같이 표현될 수 있다.

여기서, α+β=1이고,

은 서치 요청 q에 대한 서치 결과를 나타내고, Sim(q, d_i)는 서치 요청 q에 대한 문서 d_i의 유사성을 나타내고,

결합된 랭킹에서, 텍스트 기반 랭킹은 유사성 랭킹과 결합되어 문서들의 최종 랭킹을 준다. 결합된 랭킹은 텍스트 기반 랭킹과 유사성 랭킹의 선형 결합에 기초할 수 있다. 결합된 랭킹은 다음과 같이 표현될 수 있다.

여기서, Score는 서치 요청 q에 대한 문서 d_i의 최종 랭킹을 나타내고, Rank_{Sim(q, di)}는 텍스트 기반 랭킹을 나타내고, Rank_ARi는 유사성 랭킹을 나타낸다. 두 결합 알고리즘에서 α와 β는 튜닝될 수 있는 파라메터들이다. α=1이고 β=0일 때는, 재랭킹이 수행되지 않고, 서치 결과는 텍스트 기반 서치에 기초하여 랭크된다. β> α일 때에는, 재랭킹될 때 더 큰 가중치가 유사성 랭킹에 적용된다. β=1이고 α=0일 때, 재랭킹은 유사성 랭킹에만 기초하여 수행된다.

도 1은 일 실시예의 유사성 그래프를 예시하는 도면이다. 유사성 그래프(100)는 문서들 각각을 나타내는 노드들(111-115), 노드들(121-124), 및 노드(131)를 포함한다. 노드들 사이에 지향된 에지들은 한 노드의 다른 노드에 대한 유사성을 나타낸다. 예를 들면, 노드(111)는 노드(115)에 대한 유사성을 갖지만, 노드(115)는 노드(111)에 대한 유사성을 갖지 않는다(혹은 임계 레벨 이하의 유사성을 갖는다). 본 예에서, 노드 그룹(110)은 동일한 주제에 관련된 노드들(111-115)을 포함하는데, 왜냐하면 그 노드 그룹 내에서 노드들 사이에 많은 에지들이 있기 때문이다. 마찬가지로, 노드 그룹(120)은 동일한 주제에 관련된 노드들(121-124)을 포함한다. 노드 그룹(130)은 오직 하나의 노드만을 갖는데, 왜냐하면 그 노드가 임의의 다른 노드와 유사성이 없고 어떠한 노드도 그 노드에 유사성이 없기 때문이다. 노드(115)는 노드 그룹(110) 내의 모든 노드들중 최고 정보 풍부성을 가질 것이고, 노드(124)는 노드 그룹(120) 내의 모든 노드들중 최고 정보 풍부성을 가질 것인데, 왜냐하면 그 각 노드가 그와 유사성을 갖는 최대수의 노드들을 갖기 때문이다.

도 2는 일 실시예에서 랭킹 시스템의 컴포넌트들을 예시하는 블럭도이다. 랭킹 시스템(200)은 데이터 저장기(201-204)와 구성요소들(211-216)을 포함한다. 문서 저장기(201)는 문서들의 컬렉션을 포함하고, 인터넷을 통해 이용가능한 모든 웹 페이지들을 나타낼 수 있다. 유사성 그래프 생성 컴포넌트(211)는 문서 저장기의 문서들에 기초하여 유사성 그래프를 생성한다. 유사성 그래프 생성 컴포넌트는 유사성 그래프 저장기(202) 내에 유사성들을 저장한다. 정보 풍부성 계산 컴포넌트(212)는 유사성 그래프 저장기로부터 유사성 그래프를 입력하고 각 문서에 대한 정보 풍부성을 계산한다. 컴포넌트는 계산된 정보 풍부성 스코어를 정보 풍부성 저장기(203)에 저장한다. 일 실시예에 있어서, 유사성 그래프 생성 컴포넌트와 계산 정보 풍부성 컴포넌트는 오프라인으로 실행되어, 검색을 수행하기 전에 유사성 그래프와 정보 풍부성 스코어를 생성할 수 있다. 검색 수행 컴포넌트(213)는 사용자로부터 검색 요청을 수취하고, 검색 결과를 문서 저장기의 문서들로부터 식별한다. 검색 수행 컴포넌트는 검색 결과의 각 문서의 검색 요청에 대한 연관성의 표시와 함께, 검색 결과를 검색 결과 저장기(204)에 저장한다, 유사성 패널티 계산 컴포넌트(214)는 유사성 패널티를 계산하여 검색 결과 저장기, 유사성 그래프 저장기, 및 정보 풍부성 저장기의 정보에 기초하여 유사성 랭크에 적용한다. 유사성 랭크 계산 컴포넌트(215)는 검색 결과 내의 각 문서에 대한 유사성 랭크를 발생시킨다. 유사성 랭크 계산 컴포넌트는 문서의 정보 풍부성, 유사성 그래프 저장기, 및 검색 결과를 요인으로 한다. 최종 스코어 계산 컴포넌트(216)는 유사성 랭크와 관련성 스코어를 결합하여 최종 스코어를 계산한다.

랭킹 시스템이 구현되는 컴퓨팅 디바이스는 중앙 처리 장치, 메모리, 입력 디바이스(예를 들어, 키보드 및 포인팅 장치), 출력 디바이스(예를 들어, 표시 장치), 및 저장 디바이스(예를 들어, 디스크 드라이브)를 포함할 수 있다. 메모리 및 저장 디바이스는 랭킹 시스템을 구현하는 명령어들을 포함할 수 있는 컴퓨터 판독가능한 매체이다. 또한, 데이터 구조 및 메시지 구조는 통신 링크 상의 신호와 같은 데이터 전송 매체를 통해 저장되거나 전송될 수 있다. 인터넷, 협역 네트워크, 광역 네트워크, 또는 점대점 다이얼업(point-to-point dial-up) 커넥션 등과 같은 다양한 통신 링크들을 사용할 수 있다.

랭킹 시스템은 다양한 운영 환경에서 구현될 수 있다. 사용하기에 적합한 공지된 다양한 컴퓨팅 시스템, 환경, 및 구성은 퍼스널 컴퓨터, 서버 컴퓨터, 휴대형 또는 랩탑 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그램가능한 소비재 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 디바이스 등 중 임의의 것을 포함하는 분산형 컴퓨팅 환경을 포함한다.

랭킹 시스템은 하나 이상의 컴퓨터 또는 그외의 디바이스들에 의해 실행되는, 프로그램 모듈 같은 컴퓨터 실행가능한 명령어들의 일반적인 맥락으로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 또는 특정 추상적 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 전형적으로, 프로그램 모듈의 기능성은 다양한 실시예에서 원하는대로 결합되거나 분포될 수 있다.

도 3은 일 실시예의 랭킹 시스템의 전체적인 프로세싱을 예시하는 흐름도이다. 랭킹 시스템에는 검색 결과를 나타낼 수 있는 문서들의 컬렉션이 제공된다. 블럭 301에서, 컴포넌트는 문서의 컬렉션에 대한 유사성 그래프를 구성한다. 컴포넌트는 문서들의 언어자료 내의 모든 문서들(예를 들어, 모든 웹 페이지들)을 오프라인으로 포함하거나 또는 컬렉션의 문서들만을 실시간으로 포함하는 유사성 그래프를 구성한다. 블럭 302에서, 컴포넌트는 컬렉션의 각 문서의 정보 풍부성을 계산한다. 블럭 303에서, 컴포넌트는 컬렉션의 문서들을 분류하고 그 다음에 완료한다.

도 4는 일 실시예에서의 유사성 그래프 구성 컴포넌트의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 문서들의 컬렉션을 통과하여 이들 문서들에 대한 유사성 그래프를 구성한다. 블럭 401-403에서, 컴포넌트는 문서들의 컬렉션 내의 각 문서에 대한 문서 벡터를 발생하는 것을 순환한다. 블럭 401에서, 컴포넌트는 컬렉션 내의 다음 문서를 선택한다. 블럭 402에서, 컬렉션 내의 모든 문서들이 이미 선택되었으면, 컴포넌트는 블럭 404에서 계속하고, 그렇지 않으면 블럭 403에서 계속한다. 블럭 403에서, 컴포넌트는 선택된 문서에 대한 문서 벡터를 발생시키고, 그 다음에 컬렉션 내의 다음 문서를 선택하기 위해 블럭 401을 순환한다. 블럭들 404-408에서, 컴포넌트는 컬렉션 내의 문서들의 각 쌍에 대한 유사성을 계산한다. 블럭 404에서, 컴포넌트는 첫번째 문서부터 시작하여 컬렉션 내의 다음 문서를 선택한다. 판정 블럭 405에서, 모든 문서들이 이미 선택되었으면, 컴포넌트는 유사성 그래프로 리턴하고, 그렇지 않으면 컴포넌트는 블럭 406에서 계속된다. 블럭 406-408에서, 컴포넌트는 컬렉션의 각 문서를 선택하는 단계를 순환한다. 블럭 406에서, 컴포넌트는 제1 문서에서 시작하여 컬렉션 내의 다음 문서를 선택한다. 판정 블럭 407에서, 컬렉션 내의 모든 문서들이 이미 선택되었으면, 컴포넌트는 블럭 404로 순환하여 컬렉션 내의 다음 문서를 선택하고, 그렇지 않으면, 컴포넌트는 블럭 408에서 계속된다. 블럭 408에서, 컴포넌트는 선택된 문서와 식 1에 의해 선정된 문서와의 유사성을 계산하고, 블럭 406으로 순환하여 컬렉션 내의 다음 문서를 선택한다.

도 5는 일 실시예에서의 랭크 문서 컴포넌트의 처리를 예시하는 흐름도이다. 컴포넌트는 생성된 그의 유사성 그래프 및 계산된 각 문서의 정보 풍부성을 가졌던 문서들의 컬렉션을 통과한다. 블럭 501-503에서, 컴포넌트는 컬렉션 내의 각 문서의 그의 정보 풍부성에 대한 유사성 랭크를 초기화하는 단계를 순환한다. 블럭 501에서, 컴포넌트는 컬렉션 내의 다음 문서를 선택한다. 판정 블럭 502에서, 모든 문서들이 이미 선택되었으면, 컴포넌트는 블럭 504에서 계속되고, 그렇지 않으면 컴포넌트는 블럭 503에서 계속된다. 블럭 503에서, 컴포넌트는 선택된 문서의 유사성 랭크를 선택된 문서의 정보 풍부성으로 설정하고, 그 다음에 블럭 501으로 순환하여 컬렉션 내의 다음 문서를 선택한다. 블럭들 504-508에서, 컴포넌트는 문서들의 쌍을 식별하는 단계와 유사성 패널티에 의해 유사성 랭크를 조정하는 단계를 순환한다. 블럭 504에서, 컴포넌트는 가장 높은 유사성 랭크를 갖는 다음 문서를 선택한다. 판정 블럭 505에서, 종단 조건에 도달하면, 컴포넌트는 랭크화된 문서로 리턴하고, 그렇지 않으면 컴포넌트는 블럭 506에서 계속된다. 블럭 506-508 에서, 컴포넌트는 문서를 선택하는 단계와 유사성 패널티에 의해 유사성 랭크를 조정하는 단계를 순환한다. 블럭 506에서, 컴포넌트는 선택된 문서에서 선정된 문서까지 유사성 그래프에서의 제로가 아닌(non-zero) 값에 의해 표시된 선택 문서에 대한 유사성을 갖는 다음 문서를 선택한다. 판정 블럭(507)에서, 모든 문서들이 이미 선택되었다면, 컴포넌트는 블럭 504로 루프하여 그 다음 최고 유사성 랭크를 갖는 문서를 선택한다. 블럭 508에서, 컴포넌트는 수학식 10에 따라 선택된 문서에 대한 유사성 랭크를 유사성 패널티만큼 조정한다. 그런 다음 컴포넌트는 블럭 506으로 진행하여 선택된 문서와 유사성을 갖는 그 다음 문서를 선택한다.

당업자는 비록 본 명세서에 특정 실시예들이 예시를 위한 목적으로 설명되었지만, 다양한 변형들이 본 발명의 사상 및 범위를 벗어나지 않고서 만들어질 수 있음을 알 것이다. 일 실시예에서, 랭킹 시스템은 문서 단위로가 아니라 블럭 단위로 유사성 및 정보 풍부성을 계산할 수 있다. 블럭은 단일 주제에 일반적으로 관련된 웹 페이지의 정보를 나타낸다. 웹 페이지의 랭킹은 웹 페이지에 대한 블럭의 중요성에 부분적으로 기초할 수 있다. 블럭들의 중요성은 제목이 "Method and System for Calculating Importance of a Block Within a Display Page"인 ______일자로 출원된 미국특허출원 제---호에 설명되어 있으며, 본 명세서에서 참조되었다. 따라서, 본 발명은 하기의 특허청구범위에 의해서만 제한될 뿐이다.

본 발명에 따르면, 최고 랭킹 문서들 내에서 주제들의 더 많은 다양성을 제공할 수 있는 문서 랭킹 기술을 제공하고, 그러한 최고 랭킹 문서들 각각이 그의 주제와 관련하여 정보 콘텐트가 매우 풍부하게 보장한다.

Claims

서치 결과의 문서들을 랭킹하기 위한 컴퓨터 시스템 내의 방법으로서,

서치 결과의 각 문서에 대하여, 그 문서의 정보 풍부성에 기초하여 유사성 랭크를 초기화하는 단계; 및

유사한 문서들의 각 그룹에 대하여, 그룹 내의 문서들에 대한 유사성 랭크를 조정하여, 최고 유사성 랭크를 제외한 유사성 랭크들이 상기 그룹 내의 문서의 최고 유사성 랭크에 비해 낮아지게 하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 그룹 내의 문서들에 대한 유사성 랭크의 조정 단계는 상기 그룹 내의 최고 유사성 랭크를 갖는 문서의 유사성 랭크를 제외하고 상기 그룹 내의 각 문서의 유사성 랭크를 감소시키는 단계를 포함하는 방법.
제2항에 있어서,

최고 유사성 랭크를 갖는 문서에 더 유사한 문서는 최고 유사성 랭크를 갖는 문서에 덜 유사한 문서보다 더 감소된 유사성 랭크를 갖는 방법.
제1항에 있어서,

상기 그룹 내의 문서들에 대한 유사성 랭크를 조정하는 단계는 최고 유사성 랭크를 갖는 문서를 상기 그룹으로부터 제거하는 단계와, 상기 그룹 내의 나머지 문서들의 유사성 랭크를 감소시키는 단계를 포함하고, 상기 문서들의 제거의 순서는 서치 결과의 문서들의 랭킹을 나타내는 방법.
제1항에 있어서,

각 문서에 대해, 상기 조정된 유사성 랭크들 및 서치 기반 관련성에 기초하여 그 문서에 대해 관련성을 계산하는 방법.
서치 결과의 문서들을 순서화하여 높게 순서화된 문서들에 주제들의 다양성을 증가시키기 위한 컴퓨터 시스템 내의 방법으로서,

서치 결과의 유사한 문서들의 그룹들을 식별하는 단계; 및

상기 식별된 그룹들 각각으로부터 하나의 문서를 선택하는 단계; 및

상기 선택된 문서들을 상기 서치 결과의 다른 문서들보다 위에 랭킹하는 단계

를 포함하는 방법.
제6항에 있어서,

각 문서는 초기 랭킹을 갖고,

상기 랭킹 단계는 선택된 문서를 더 높은 초기 랭킹을 갖는 다른 문서보다 더 높게 랭킹하는 단계를 포함하는 방법.
제6항에 있어서,

각 문서는 초기 랭킹을 갖고,

상기 식별된 그룹들 각각으로부터의 상기 선택된 문서는 최고 초기 랭킹을 갖는 문서인 방법.
제6항에 있어서,

그룹중 비선택된 문서들을 그들의 상기 그룹중 선택된 문서와의 유사성에 기초하여 재랭킹하는 단계를 포함하는 방법.
제6항에 있어서,

상기 재랭킹 단계는 그룹중 상기 선택된 문서에 가장 유사한 상기 그룹중 비선택된 문서에게 상기 그룹의 문서들의 랭크에서 가장 높은 감소를 주는 방법.
제10항에 있어서,

상기 그룹중 상기 비선택된 문서들은 그들의 재랭킹에 따라 랭크되는 방법.
제10항에 있어서,

재랭킹 후에 상기 식별된 그룹들 각각으로부터 하나의 문서를 선택하는 단 계; 및

상기 문서들을 아직 선택되지 않은 다른 문서들보다 높이 랭킹하는 단계

를 포함하는 방법.
제9항에 있어서,

상기 재랭킹은 유사성 패널티를 적용하는 방법.
제6항에 있어서,

상기 그룹들 각각으로부터의 선택된 문서는 상기 그룹 내에서 상기 문서들중 최고 정보 풍부성을 갖는 방법.
제6항에 있어서,

상기 그룹들은 유사성 그래프를 이용하여 식별되는 방법.
문서들의 컬렉션 내의 문서의 정보 풍부성을 계산하기 위한 컴퓨터 시스템에서의 방법으로서,

상기 컬렉션 내의 각각의 문서가 상기 문서에 대해 갖는 유사성을 식별하는 단계; 및

상기 컬렉션 내의 다른 문서들이 상기 문서에 대해 갖는 유사성에 기초하여 상기 문서에 대한 정보 풍부성을 판정하는 단계

를 포함하는 방법.
제16항에 있어서,

상기 각각의 문서의 유사성을 식별하는 단계는 유사성 그래프를 생성하는 단계를 포함하는 방법.
제16항에 있어서,

유사성은 한 문서의 정보 콘텐트가 다른 문서에 의해 어느 정도 포괄되는지의 척도인 방법.
제16항에 있어서,

유사성은

로서 정의되는 방법.
제16항에 있어서,

정보 풍부성은 하나의 문서의 정보 콘텐트가 다른 문서들의 정보 콘텐트를 어느 정도 포괄하는지를 측정하는 방법.
제16항에 있어서,

정보 풍부성은,

로서 정의되는 방법.
컴퓨터 시스템이 문서들을 랭크하도록 야기하기 위해,

각각의 문서에 대해, 상기 문서의 정보 풍부성에 기초하여 유사성 랭크를 초기화하는 단계; 및

문서가 높은 유사성 랭크를 가질 때, 관련된 문서들에 대한 유사성 랭크를 감소시키는 단계

를 포함하고,

상기 유사성 랭크는 상기 문서들의 랭킹을 나타내는 방법에 따른 명령들을 포함하는 컴퓨터 판독가능 매체.
제22항에 있어서,

문서의 정보 풍부성은 문서들의 쌍들의 유사성에 기초하여 계산되는 컴퓨터 판독가능 매체.
제23항에 있어서,

상기 정보 푸부성은

로서 정의되는 컴퓨터 판독가능 매체.
제23항에 있어서,

상기 유사성은

로서 정의되는 컴퓨터 판독가능 매체.
제22항에 있어서,

높은 유사성 랭크를 갖는 문서에 더 유사한 관련 문서는 상기 높은 유사성 랭크를 갖는 문서에 덜 유사한 문서보다 더 많이 감소되는 유사성 랭크를 갖는 컴퓨터 판독가능 매체.
제22항에 있어서,

각각의 문서에 대해, 문서의 유사성 랭크 및 그 문서에 대한 서치 기반 관련성에 기초하여 그 문서에 대한 관련성을 계산하는 단계를 포함하는 컴퓨터 판독가능 매체.
문서들의 컬렉션 내의 문서의 정보 풍부성을 계산하기 위한 컴퓨터 시스템으로서,

상기 컬렉션 내의 각각의 문서가 상기 문서에 대해 갖는 유사성을 식별하는 컴포넌트; 및

상기 컬렉션 내의 다른 문서들이 상기 문서에 대해 갖는 유사성에 기초하여 상기 문서에 대한 정보 풍부성을 판정하는 컴포넌트

를 포함하는 컴퓨터 시스템.
제28항에 있어서,

상기 식별 컴포넌트는 유사성 그래프를 생성하는 컴퓨터 시스템.
제28항에 있어서,

유사성은 한 문서의 정보 콘텐트가 다른 문서에 의해 어느 정도 포괄되는지의 척도인 컴퓨터 시스템.
제28항에 있어서,

정보 풍부성은 하나의 문서의 정보 콘텐트가 다른 문서들의 정보 콘텐트를 어느 정도 포괄하는지를 측정하는 컴퓨터 시스템.