KR101130535B1 - 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템 - Google Patents

다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR101130535B1
KR101130535B1 KR1020050036407A KR20050036407A KR101130535B1 KR 101130535 B1 KR101130535 B1 KR 101130535B1 KR 1020050036407 A KR1020050036407 A KR 1020050036407A KR 20050036407 A KR20050036407 A KR 20050036407A KR 101130535 B1 KR101130535 B1 KR 101130535B1
Authority
KR
South Korea
Prior art keywords
document
documents
similarity
collection
information
Prior art date
Application number
KR1020050036407A
Other languages
English (en)
Other versions
KR20060047664A (ko
Inventor
벤유 장
후아-준 젱
웨이-잉 마
젱 첸
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060047664A publication Critical patent/KR20060047664A/ko
Application granted granted Critical
Publication of KR101130535B1 publication Critical patent/KR101130535B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

주제들의 다양성 및 정보 풍부성에 기초하여 서치 결과의 문서들을 랭킹하기 위한 방법 및 시스템이 제공된다. 랭킹 시스템은 서치 결과 내의 각각의 문서의 정보 풍부성을 판정한다. 랭킹 시스템은 서치 결과의 문서들을 그들의 관련성 -그들이 유사한 주제들에 관한 것임을 의미함-에 기초하여 그룹핑한다. 랭킹 시스템은 최고 랭킹 문서들이 각각의 주제를 포괄하는 적어도 하나의 문서, 즉 각각의 그룹으로부터 하나의 문서를 포함할 수 있도록 보장하도록 문서들을 랭킹한다. 랭킹 시스템은 그룹 내의 문서들 중 최고 정보 풍부성을 갖는 문서를 각각의 그룹으로부터 선택한다. 문서들이 랭크 순서대로 사용자에게 표시될 때, 사용자는 단일 인기 주제가 아니라 다양한 주제들을 포괄하는 서치 결과 문서들의 첫번째 페이지 상에서 찾게 될 것이다.
서치, 정보 풍부성, 주제들의 다양성, 랭킹

Description

다양성과 정보 풍부성을 향상시키기 위해 서치 결과의 문서들을 랭킹하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR RANKING DOCUMENTS OF A SEARCH RESULT TO IMPROVE DIVERSITY AND INFORMATION RICHNESS}
도 1은 일 실시예에서 유사성 그래프를 예시한 도면
도 2는 일 실시예에서 랭킹 시스템의 구성 요소들을 예시하는 블럭도.
도 3은 일 실시예에서 랭킹 시스템의 전체 프로세싱을 예시하는 순서도.
도 4는 일 실시예에서 유사성 그래프 성분 구성의 프로세싱을 예시하는 순서도.
도 5는 일 실시예에서 문서 랭크의 프로세싱을 예시하는 순서도.
<도면의 주요 부분에 대한 부호의 설명>
201: 문서 저장
211: 유사성 그래프 생성
202: 유사성 그래프 저장
213: 서치 수행
204: 서치 결과 저장
212: 정보 풍부성 계산
203: 정보 풍부성 저장
214: 유사성 패널티 계산
215: 유사성 랭크 점수 계산
216: 최종 점수 계산
개시되는 기술은 일반적으로 서치 엔진 서비스에 제출된 서치 결과에 의해 식별되는 서치 결과의 문서들을 랭킹하는 것에 관련된다.
Google과 Overture 등과 같은 많은 서치 엔진 서비스들은 인터넷을 통해 액세스 가능한 정보에 대한 서치를 제공한다. 이 서치 엔진 서비스는 사용자가 사용자에게 관심있을 수 있는 웹 페이지 등의 디스플레이 페이지들을 서치할 수 있도록 해준다. 사용자가 서치 용어들을 포함한 서치 요청을 제출한 후에, 서치 엔진 서비스는 이들 서치 용어들에 관련될 수 있는 웹 페이지들을 식별한다. 관련 웹 페이지들을 빠르게 식별하기 위해, 서치 엔진 서비스들은 키워드들을 웹 페이지들에의 맵핑을 유지한다. 이 맵핑은 웹(즉, World Wide Web)을 "순례(crawling)"하여 각각의 웹 페이지의 키워드들을 추출함으로써 생성될 수 있다. 웹을 순례하기 위해, 서치 엔진 서비스는 그 원시 웹 페이지들(root web pages)을 통해 액세스할 수 있는 모든 웹 페이지들을 식별하기 위해 원시 웹 페이지들의 리스트를 이용할 수 있다. 임의의 특정 웹 페이지의 키워드들은, 헤드 라인의 단어들, 웹 페이지의 메타 데이터 내에 공급된 단어들, 강조된 단어들 들을 식별하는 것 등과 같은, 다양 한 공지 정보 검색 기술들을 이용하여 추출될 수 있다. 서치 엔진 서비스는 각각의 매치의 근사성, 웹 페이지 인기도(예를 들면, Google의 PageRank) 등에 기초하여 각각의 웹 페이지가 서치 요청에 얼마나 관련이 있는지를 나타내는 관련성 점수를 계산할 수 있다. 그런 다음 서치 엔진 서비스는 그러한 웹 페이지들로의 링크들을 그들의 관련성에 기초한 순서대로 사용자에게 디스플레이한다. 서치 엔진들은 문서들의 임의의 컬렉션(collection) 내의 정보 서치를 보다 일반적으로 제공할 수 있다. 예를 들어, 문서들의 컬렉션은 모든 U.S 특허, 모든 연방 법원 판결, 회사의 모든 보존 문서 등을 포함할 수 있다.
서치 엔진 서비스에 의해 제공된 서치 결과의 최고 랭킹 웹 페이지들은 모두 동일한 인기있는 주제와 관련될 수 있다. 예를 들어, 사용자가 서치 용어 "Spielberg"를 갖는 서치 결과를 제출하면, 서치 결과의 최고 랭킹 웹 페이지들은 Steven Spielberg와 관련되기 쉬울 것이다. 그러나, 사용자가 Steven Spielberg에 관심이 없고, 그 대신 성이 동일한 수학 교수의 홈 페이지를 찾는데에 관심이 있다면, 웹 페이지들의 랭킹은 사용자에게 도움이 되지 못할 것이다. 비록 교수의 홈 페이지가 서치 결과 내에 포함되었을 수 있어도, 사용자는 교수의 홈 페이지에 대한 링크를 찾기 위해 서치 결과의 웹 페이지들에 대한 링크들의 여러 페이지들을 검토할 필요가 있을 수 있다. 일반적으로, 그것이 서치 결과의 첫 페이지에 식별되지 않을 때는, 사용자가 원하는 문서를 찾기가 어려울 수 있다. 또한, 사용자들은 관심있는 문서를 찾기 위해 서치 결과의 다수의 페이지들을 통해 페이징을 해야 할 때 좌절하게 될 수 있다.
최고 랭킹 문서들 내에서 주제들의 더 많은 다양성을 제공할 수 있는 문서 랭킹 기술을 갖는 것이 바람직하고, 그러한 최고 랭킹 문서들 각각이 그의 주제와 관련하여 정보 콘텐트가 매우 풍부하게 되는 것이 또한 바람직할 것이다.
<발명의 개요>
시스템은 주제의 다양성 및 정보 풍부성에 기초하여 서치 결과의 문서들을 랭크한다. 랭킹 시스템은 그들의 관련성, 즉 그들이 유사한 주제들에 관한 것임에 기초하여 서치 결과의 문서들을 그룹핑한다. 랭킹 시스템은 최고 랭킹 문서들이 각각의 주제를 포괄하는 적어도 하나의 문서를 포함하는 것을 보장하도록 문서들을 랭킹한다. 그런 다음 랭킹 시스템은 그룹 내의 문서들 중 최고 정보 풍부성을 갖는 각각의 그룹으로부터의 문서를 최고 랭킹 문서들 중 하나로서 선택한다.
주제들의 다양성 및 정보 풍부성에 기초하여 서치 결과의 문서들을 랭킹하기 위한 방법 및 시스템이 제공된다. 일 실시예에서, 랭킹 시스템은 서치 결과 내의 각각의 문서의 정보 풍부성을 판정한다. 정보 풍부성은 문서가 그의 주제와 관련하여 얼마나 많은 정보를 포함하는지에 관한 척도이다. 높은 정보 풍부성을 갖는 문서(예를 들면 웹 페이지)는, 동일한 주제에 관련되지만 낮은 정보 풍부성을 갖는 문서들의 정보를 포함하는 정보를 포함할 가능성이 클 것이다. 랭킹 시스템은 그들의 관련성 -그들이 유사한 주제들에 관한 것임을 의미함-에 기초하여 서치 결과의 문서들을 그룹핑한다. 랭킹 시스템은 최고 랭킹 문서들이 각각의 주제를 포괄 하는 적어도 하나의 문서, 즉 각각의 그룹으로부터 하나의 문서를 포함할 수 있도록 보장하도록 문서들을 랭킹한다. 랭킹 시스템은 그룹 내의 문서들 중 최고 정보 풍부성을 갖는 각각의 그룹으로부터의 문서를 선택한다. 문서들이 랭크 순서로 사용자에게 표시될 때, 사용자는 단지 인기있는 주제가 아니라 다양한 주제들을 포괄하는 서치 결과 문서들의 첫번째 페이지 상에서 찾게 될 것이다. 예를 들어, 서치 요청이 서치 용어 "Spielberg"를 포함한다면, 서치 결과의 첫번째 페이지 상의 하나의 문서는 Steven Spielberg와 관련될 수 있고, 첫번째 페이지 상의 다른 문서는 교수 Spielberg와 관련될 수 있다. 이러한 방식으로, 서치 결과의 첫번째 페이지 상에 다양한 주제들을 포괄하는 문서들이 사용자에게 표시되기 쉬워져서, 사용자는 관심있는 주제가 서치 요청과 관련하여 가장 인기있는 주제가 아닐 때에 좌절하게 되지 않을 것이다. 또한, 랭킹 시스템이 정보 풍부성이 낮은 문서들보다 정보 풍부성이 높은 문서들을 높게 랭킹하기 때문에, 사용자는 서치 결과의 첫번째 페이지 상에 표시된 문서 내에서 원하는 정보를 찾기가 더 쉬워진다.
일 실시예에서, 랭킹 시스템은 유사성 그래프에 기초하여 서치 결과의 문서들의 정보 풍부성을 계산한다. 유사성은 한 문서의 정보가 다른 문서의 정보에 의해 어느 정도 포함되는지의 척도이다. 예를 들어, Spielberg의 모든 영화들을 피상적으로 기술하는 문서는 Spielberg의 모든 영화들을 상세히 기술하는 문서와 높은 유사성을 가질 수 있다. 반대로, Spielberg의 모든 영화들을 상세히 기술하는 문서는 Spielberg의 모든 영화들을 피상적으로 기술하는 문서와 상대적으로 낮은 유사성을 가질 수 있다. 매우 다른 주제들과 관련된 문서들은 서로 유사성이 없을 것이다. 모든 다른 문서에 대한 각각의 문서의 유사성들의 컬렉션은 유사성 그래프를 나타낸다. 다른 많은 문서들과 유사성이 높은 문서는, 그의 정보가 많은 다른 문서들의 정보를 포함하기 때문에 높은 정보 풍부성을 갖기 쉬울 것이다. 또한, 높은 유사성을 갖는 다른 문서들이 그들 자신들도 높은 정보 풍부성을 갖는다면, 그 문서의 정보 풍부성은 더욱 높은 것이다.
일 실시예에서, 랭킹 시스템은 역시 유사성 그래프를 이용하여 서치 결과의 높은 랭킹 문서들의 다양성을 보장하는 것을 돕는다. 랭킹 시스템은 종래의 랭킹 기술(예를 들면, 관련성), 정보 풍부성 기술, 또는 다른 랭킹 기술에 기초하여 문서들의 초기 랭킹 점수를 가질 수 있다. 처음에 랭킹 시스템은 최고의 초기 랭킹 점수를 갖는 문서를 최고의 최종 랭킹 점수를 갖는 문서로서 선택한다. 그런 다음 랭킹 시스템은 선택된 문서에 높은 유사성을 갖는 각각의 문서의 랭킹 점수를 감소시킨다. 랭킹 시스템은 그 문서들의 콘텐트가 상기 선택된 문서에 의해 포괄되기 쉽고 리던던트한 정보를 표시할 것이기 때문에 랭킹 점수를 감소시킨다. 랭킹 시스템은 나머지 문서들 중 그런 다음에 최고 랭킹 점수를 갖는 문서를 선택한다. 랭킹 시스템은 새롭게 선택된 문서에 대해 높은 유사성을 갖는 각각의 문서의 랭킹 점수를 감소시킨다. 랭킹 시스템은 원하는 개수의 문서들이 최종 랭킹 점수를 가질 때까지, 또는 모든 문서들이 최종 랭킹 점수를 가질 때까지, 또는 소정의 다른 중단 컨디션이 만족될 때까지 이 프로세스를 반복한다. 일 실시예에서, 다양성은 문서들의 컬렉션 내의 다른 주제들의 개수를 나타내고, 컬렉션 내의 문서의 정보 풍부성은 전체 컬렉션에 대한 그 문서의 정보적 수준을 나타낸다.
당업자는 서치 결과의 문서들이 정보 풍부성과 다양성의 결합이 아니라 정보 풍부성이나 다양성만에 기초하여 서치 결과의 문서들이 랭크될 수 있다는 것을 알 것이다. 서치 엔진 서비스는, 예를 들면 유사한 주제들과 관련된 문서들의 그룹들을 식별하고, 각 문서의 그의 그룹 내에서의 정보 풍부성을 판정함으로써, 정보 풍부성만을 이용할 수 있다. 그런 다음 서치 엔진 서비스는 판정된 정보 풍부성을 문서들의 랭킹에 팩터로 적용하여 그들의 그룹의 높은 정보 풍부성을 갖는 문서들이 그들의 그룹 내의 다른 문서들보다 더 높게 랭크되기 쉽게 된다. 서치 엔진 서비스는, 예를 들면 유사한 주제들과 관련된 문서들의 그룹들을 식별하고, 서치 결과 내에서 각 그룹중 적어도 하나의 문서가 정보 풍부성과 무관하게 높게 랭크되는 것을 보장함으로써, 정보 다양성만을 이용할 수 있다. 예를 들어, 서치 엔진 서비스는, 각 그룹과 최고 관련성을 갖는 각 그룹으로부터의 문서를 서치 결과의 첫번째 페이지 상에 디스플레이하도록 선택할 수 있다.
유사성 그래프는 문서들을 노드들로서 표시하고 유사성 값들을 노드들 사이의 지향성 에지들로 표시한다. 랭킹 시스템은 문서들의 컬렉션 내의 각 문서를 다른 모든 문서와 맵핑하는 스퀘어 매트릭스에 의해 유사성 그래프를 나타낸다. 랭킹 시스템은 매트릭스의 원소 값을 대응하는 문서들의 유사성으로 설정한다. M이 매트릭스라고 하면, Mij는 문서 i의 문서 j에 대한 유사성을 나타낸다. 랭킹 시스템은 각 문서를 벡터로서 나타냄으로써 문서들의 유사성을 계산한다. 벡터는 문서의 정보 콘텐트를 나타낸다. 예를 들어, 각각의 벡터는 문서의 25개의 가장 중요 한 키워드들을 포함할 수 있다. 랭킹 시스템은 다음의 수학식 1에 따라 유사성을 계산할 수 있다.
Figure 112005022868982-pat00001
여기서, aff(di, dj)는 문서 di의 dj에 대한 유사성이고,
Figure 112005022868982-pat00002
는 벡터 di의 길이이다. 수학식 1은 유사성을 dj로부터 di로의 정사영 길이로 설정한다. 당업자는 유사성이 많은 다른 방법으로 정의될 수 있음을 알 것이다. 예를 들어, 한 문서의 다른 문서에 대한 유사성은 다른 문서의 키워드들에 있는 한 문서의 키워드들의 퍼센티지에 기초하여 정의될 수 있다. 집합론의 용어들로, 한 문서의 다른 문서에 대한 유사성은 두 문서들의 교집합의 키워드들의 개수를 다른 문서 내의 키워드들의 개수로 나눈 값으로서 표현될 수 있다. 매트릭스 M의 각각의 원소는 유사성 그래프 내에서 한 문서의 노드로부터 다른 문서의 노드까지의 지향성 에지를 나타낸다. 일 실시예에서, 랭킹 시스템은 유사성 임계값(예를 들면, 2)보다 낮은 유사성 값을 제로로 설정한다. 개념적으로, 이것은 유사성이 낮을 때는 유사성 그래프 내에서 한 문서의 노드로부터 다른 문서의 노드로 지향된 에지가 없음을 의미한다. 유사성 매트릭스는 다음과 같이 표현된다.
Figure 112005022868982-pat00003
여기서, Mij는 매트릭스의 원소이고, afft는 유사성 임계값이다. 노드들 사이에 많은 에지들을 갖는 노드들의 그룹은 그 그룹 내의 많은 문서들이 서로 임계값 유사성보다 큰 유사성을 갖기 때문에 단일 주제를 나타낼 수 있다. 반대로, 노드들 사이에 링크들이 없는 것은 다른 주제들에 관련된 문서들을 나타낸다.
랭킹 시스템은 유사성 그래프에 대해 에지 분석 알고리즘을 적용함으로써 각각의 문서에 대한 정보 풍부성을 계산한다. 랭킹 시스템은 유사성 매트릭스를 정규화(normalize)하여 각각의 행 내의 값들을 더해서 1이 되도록 한다. 정규화된 유사성 매트릭스는 다음과 같이 표현된다.
Figure 112005022868982-pat00004
여기서,
Figure 112010026059984-pat00005
는 정규화된 유사성 매트릭스의 원소이다. 랭킹 시스템은 다음 식에 따라 정보 풍부성을 계산한다.
Figure 112005022868982-pat00006
여기서, InfoRich(di)는 문서 di의 정보 풍부성이다. 따라서, 정보 풍부성 은 재귀적으로 정의된다. 수학식 4는 매트릭스 형태로 다음과 같이 표시될 수 있다.
Figure 112005022868982-pat00007
여기서, λ=[InfoRich(di)]n×1은 정규화된 유사성 매트릭스
Figure 112010026059984-pat00008
의 고유벡터(eigenvector)이다. 정규화된 유사성 매트릭스
Figure 112010026059984-pat00009
는 전형적으로 희박한 매트릭스(sparse matrix)이므로, 모두 제로인 행들이 나타나는 것도 가능한데, 이것은 어떤 문서들은 그들과 상당한 유사성을 갖는 다른 문서들을 갖지 않음을 의미한다. 의미있는 고유벡터를 계산하기 위해, 랭킹 시스템은 문서의 인기도에 기초한 문서 랭킹일 수 있는 덤핑 팩터(dumping factor)(예를 들면, 85)를 이용한다. 덤핑 팩터를 이용하는 정보 풍부성은 다음식으로 표현된다.
Figure 112005022868982-pat00010
여기서, c는 덤핑 팩터이고, n은 컬렉션 내의 문서들의 개수이다. 수학식 6은 다음과 같이 매트릭스 형태로 표현될 수 있다.
Figure 112005022868982-pat00011
여기서,
Figure 112005022868982-pat00012
는 모든 성분들이 1인 단위 벡터이다. 정보 풍부성의 계산은 정 보 흐름 및 싱크 모델로 유추될 수 있다. 이 모델에서, 정보는 각각의 이터레이션(iteration)에서 노드들 중에 흐른다. 문서 di는 다음과 같이 표현되는 유사성을 갖는 문서들의 집합 A(di)를 갖는다.
Figure 112005022868982-pat00013
각각의 이터레이션에서, 정보는 다음의 규칙들 중 하나에 따라 흐를 수 있다.
1. 확률 c(즉, 덤핑 팩터)로, 정보가 A(di) 내의 하나의 문서로 흐를 것이고, 문서 dj로 흐를 확률은 aff(di, dj)에 비례한다.
2. 확률 1-c로, 정보가 컬렉션 내의 임의의 문서들에 랜덤하게 흐를 것이다.
Markov 체인은 상기 프로세스로부터 유도될 수 있는데, 여기서 상태들은 문서들에 의해 주어지고, 천이(또는 흐름) 매트릭스는 다음과 같이 주어진다.
Figure 112005022868982-pat00014
여기서,
Figure 112005022868982-pat00015
이다. 각각의 상태의 정상 확률 분포는 천이 매트릭스의 주 고유벡터에 의해 주어진다.
일 실시예에서, 랭킹 시스템은 정보 풍부성과 유사성 패널티를 결합함으로써 유사성 랭크를 계산하여, 동일한 주제에 관련된 다수의 문서들이 다른 주제들에 관련된 문서들을 제외하고 모두 높게 랭크되는 것은 아니다. 유사성 패널티의 이용은 가장 높게 랭크된 문서들 중 주제들의 다양성의 증가를 야기한다. 랭킹 시스템은 문서의 초기 유사성 랭크를 그의 정보의 풍부성으로 설정하여 유사성 패널티를 계산하기 위해 반복이 심한 알고리즘(iterative greedy algorithm)을 이용할 수 있다. 각각의 반복에서, 알고리즘은 다음의 최고 유사성 랭크를 갖는 문서를 선택하고, 동일한 주제에 관련된 문서들의 유사성 랭크를 유사성 패널티만큼 감소시킨다. 따라서, 일단 문서가 선택되면, 동일한 주제에 관련된 모든 다른 문서들은, 최고 랭킹 문서들이 다양한 주제들을 나타낼 수 있는 기회를 증가시키기 위해 감소된 유사성 랭크를 가질 것이다.
랭킹 시스템은 문서의 유사성 랭크를 다음 식과 같이 감소시킬 수 있다.
Figure 112005022868982-pat00016
여기서, ARj는 문서 j의 유사성 랭크를 나타내고, i는 선택된 문서이다. 유사성 패널티가 유사성 매트릭스를 기초로 하기 때문에, 문서가 선택된 문서에 더 유사해질수록 그의 유사성 패널티는 더 커진다.
랭킹 시스템은 일 실시예에서 유사성 랭킹을 텍스트 기반의 랭킹(예를 들면, 통상적인 관련성)과 결합하여 전체적인 랭킹을 생성한다. 랭킹들은 점수들에 기초하여 또는 랭크들에 기초하여 결합될 수 있다. 결합된 점수매김에서, 텍스트-기반 점수가 유사성 랭크와 결합되어 문서의 최종 점수를 나타내는 전체적인 점수를 준다. 결합된 점수 매김은 택스트 기반의 점수와 유사성 랭크의 선형 결합에 기초할 수 있다. 점수들은 다른 오더의 크기를 가질 수 있기 때문에, 랭킹 시스템은 점수들을 정규화한다. 결합된 점수 매김은 다음과 같이 표현될 수 있다.
Figure 112005022868982-pat00017
여기서, α+β=1이고,
Figure 112005022868982-pat00018
은 서치 요청 q에 대한 서치 결과를 나타내고, Sim(q, di)는 서치 요청 q에 대한 문서 di의 유사성을 나타내고,
Figure 112005022868982-pat00019
Figure 112005022868982-pat00020
결합된 랭킹에서, 텍스트 기반 랭킹은 유사성 랭킹과 결합되어 문서들의 최종 랭킹을 준다. 결합된 랭킹은 텍스트 기반 랭킹과 유사성 랭킹의 선형 결합에 기초할 수 있다. 결합된 랭킹은 다음과 같이 표현될 수 있다.
Figure 112005022868982-pat00021
여기서, Score는 서치 요청 q에 대한 문서 di의 최종 랭킹을 나타내고, RankSim(q, di)는 텍스트 기반 랭킹을 나타내고, RankARi는 유사성 랭킹을 나타낸다. 두 결합 알고리즘에서 α와 β는 튜닝될 수 있는 파라메터들이다. α=1이고 β=0일 때는, 재랭킹이 수행되지 않고, 서치 결과는 텍스트 기반 서치에 기초하여 랭크된다. β> α일 때에는, 재랭킹될 때 더 큰 가중치가 유사성 랭킹에 적용된다. β=1이고 α=0일 때, 재랭킹은 유사성 랭킹에만 기초하여 수행된다.
도 1은 일 실시예의 유사성 그래프를 예시하는 도면이다. 유사성 그래프(100)는 문서들 각각을 나타내는 노드들(111-115), 노드들(121-124), 및 노드(131)를 포함한다. 노드들 사이에 지향된 에지들은 한 노드의 다른 노드에 대한 유사성을 나타낸다. 예를 들면, 노드(111)는 노드(115)에 대한 유사성을 갖지만, 노드(115)는 노드(111)에 대한 유사성을 갖지 않는다(혹은 임계 레벨 이하의 유사성을 갖는다). 본 예에서, 노드 그룹(110)은 동일한 주제에 관련된 노드들(111-115)을 포함하는데, 왜냐하면 그 노드 그룹 내에서 노드들 사이에 많은 에지들이 있기 때문이다. 마찬가지로, 노드 그룹(120)은 동일한 주제에 관련된 노드들(121-124)을 포함한다. 노드 그룹(130)은 오직 하나의 노드만을 갖는데, 왜냐하면 그 노드가 임의의 다른 노드와 유사성이 없고 어떠한 노드도 그 노드에 유사성이 없기 때문이다. 노드(115)는 노드 그룹(110) 내의 모든 노드들중 최고 정보 풍부성을 가질 것이고, 노드(124)는 노드 그룹(120) 내의 모든 노드들중 최고 정보 풍부성을 가질 것인데, 왜냐하면 그 각 노드가 그와 유사성을 갖는 최대수의 노드들을 갖기 때문이다.
도 2는 일 실시예에서 랭킹 시스템의 컴포넌트들을 예시하는 블럭도이다. 랭킹 시스템(200)은 데이터 저장기(201-204)와 구성요소들(211-216)을 포함한다. 문서 저장기(201)는 문서들의 컬렉션을 포함하고, 인터넷을 통해 이용가능한 모든 웹 페이지들을 나타낼 수 있다. 유사성 그래프 생성 컴포넌트(211)는 문서 저장기의 문서들에 기초하여 유사성 그래프를 생성한다. 유사성 그래프 생성 컴포넌트는 유사성 그래프 저장기(202) 내에 유사성들을 저장한다. 정보 풍부성 계산 컴포넌트(212)는 유사성 그래프 저장기로부터 유사성 그래프를 입력하고 각 문서에 대한 정보 풍부성을 계산한다. 컴포넌트는 계산된 정보 풍부성 스코어를 정보 풍부성 저장기(203)에 저장한다. 일 실시예에 있어서, 유사성 그래프 생성 컴포넌트와 계산 정보 풍부성 컴포넌트는 오프라인으로 실행되어, 검색을 수행하기 전에 유사성 그래프와 정보 풍부성 스코어를 생성할 수 있다. 검색 수행 컴포넌트(213)는 사용자로부터 검색 요청을 수취하고, 검색 결과를 문서 저장기의 문서들로부터 식별한다. 검색 수행 컴포넌트는 검색 결과의 각 문서의 검색 요청에 대한 연관성의 표시와 함께, 검색 결과를 검색 결과 저장기(204)에 저장한다, 유사성 패널티 계산 컴포넌트(214)는 유사성 패널티를 계산하여 검색 결과 저장기, 유사성 그래프 저장기, 및 정보 풍부성 저장기의 정보에 기초하여 유사성 랭크에 적용한다. 유사성 랭크 계산 컴포넌트(215)는 검색 결과 내의 각 문서에 대한 유사성 랭크를 발생시킨다. 유사성 랭크 계산 컴포넌트는 문서의 정보 풍부성, 유사성 그래프 저장기, 및 검색 결과를 요인으로 한다. 최종 스코어 계산 컴포넌트(216)는 유사성 랭크와 관련성 스코어를 결합하여 최종 스코어를 계산한다.
랭킹 시스템이 구현되는 컴퓨팅 디바이스는 중앙 처리 장치, 메모리, 입력 디바이스(예를 들어, 키보드 및 포인팅 장치), 출력 디바이스(예를 들어, 표시 장치), 및 저장 디바이스(예를 들어, 디스크 드라이브)를 포함할 수 있다. 메모리 및 저장 디바이스는 랭킹 시스템을 구현하는 명령어들을 포함할 수 있는 컴퓨터 판독가능한 매체이다. 또한, 데이터 구조 및 메시지 구조는 통신 링크 상의 신호와 같은 데이터 전송 매체를 통해 저장되거나 전송될 수 있다. 인터넷, 협역 네트워크, 광역 네트워크, 또는 점대점 다이얼업(point-to-point dial-up) 커넥션 등과 같은 다양한 통신 링크들을 사용할 수 있다.
랭킹 시스템은 다양한 운영 환경에서 구현될 수 있다. 사용하기에 적합한 공지된 다양한 컴퓨팅 시스템, 환경, 및 구성은 퍼스널 컴퓨터, 서버 컴퓨터, 휴대형 또는 랩탑 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그램가능한 소비재 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 디바이스 등 중 임의의 것을 포함하는 분산형 컴퓨팅 환경을 포함한다.
랭킹 시스템은 하나 이상의 컴퓨터 또는 그외의 디바이스들에 의해 실행되는, 프로그램 모듈 같은 컴퓨터 실행가능한 명령어들의 일반적인 맥락으로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 또는 특정 추상적 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 전형적으로, 프로그램 모듈의 기능성은 다양한 실시예에서 원하는대로 결합되거나 분포될 수 있다.
도 3은 일 실시예의 랭킹 시스템의 전체적인 프로세싱을 예시하는 흐름도이다. 랭킹 시스템에는 검색 결과를 나타낼 수 있는 문서들의 컬렉션이 제공된다. 블럭 301에서, 컴포넌트는 문서의 컬렉션에 대한 유사성 그래프를 구성한다. 컴포넌트는 문서들의 언어자료 내의 모든 문서들(예를 들어, 모든 웹 페이지들)을 오프라인으로 포함하거나 또는 컬렉션의 문서들만을 실시간으로 포함하는 유사성 그래프를 구성한다. 블럭 302에서, 컴포넌트는 컬렉션의 각 문서의 정보 풍부성을 계산한다. 블럭 303에서, 컴포넌트는 컬렉션의 문서들을 분류하고 그 다음에 완료한다.
도 4는 일 실시예에서의 유사성 그래프 구성 컴포넌트의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 문서들의 컬렉션을 통과하여 이들 문서들에 대한 유사성 그래프를 구성한다. 블럭 401-403에서, 컴포넌트는 문서들의 컬렉션 내의 각 문서에 대한 문서 벡터를 발생하는 것을 순환한다. 블럭 401에서, 컴포넌트는 컬렉션 내의 다음 문서를 선택한다. 블럭 402에서, 컬렉션 내의 모든 문서들이 이미 선택되었으면, 컴포넌트는 블럭 404에서 계속하고, 그렇지 않으면 블럭 403에서 계속한다. 블럭 403에서, 컴포넌트는 선택된 문서에 대한 문서 벡터를 발생시키고, 그 다음에 컬렉션 내의 다음 문서를 선택하기 위해 블럭 401을 순환한다. 블럭들 404-408에서, 컴포넌트는 컬렉션 내의 문서들의 각 쌍에 대한 유사성을 계산한다. 블럭 404에서, 컴포넌트는 첫번째 문서부터 시작하여 컬렉션 내의 다음 문서를 선택한다. 판정 블럭 405에서, 모든 문서들이 이미 선택되었으면, 컴포넌트는 유사성 그래프로 리턴하고, 그렇지 않으면 컴포넌트는 블럭 406에서 계속된다. 블럭 406-408에서, 컴포넌트는 컬렉션의 각 문서를 선택하는 단계를 순환한다. 블럭 406에서, 컴포넌트는 제1 문서에서 시작하여 컬렉션 내의 다음 문서를 선택한다. 판정 블럭 407에서, 컬렉션 내의 모든 문서들이 이미 선택되었으면, 컴포넌트는 블럭 404로 순환하여 컬렉션 내의 다음 문서를 선택하고, 그렇지 않으면, 컴포넌트는 블럭 408에서 계속된다. 블럭 408에서, 컴포넌트는 선택된 문서와 식 1에 의해 선정된 문서와의 유사성을 계산하고, 블럭 406으로 순환하여 컬렉션 내의 다음 문서를 선택한다.
도 5는 일 실시예에서의 랭크 문서 컴포넌트의 처리를 예시하는 흐름도이다. 컴포넌트는 생성된 그의 유사성 그래프 및 계산된 각 문서의 정보 풍부성을 가졌던 문서들의 컬렉션을 통과한다. 블럭 501-503에서, 컴포넌트는 컬렉션 내의 각 문서의 그의 정보 풍부성에 대한 유사성 랭크를 초기화하는 단계를 순환한다. 블럭 501에서, 컴포넌트는 컬렉션 내의 다음 문서를 선택한다. 판정 블럭 502에서, 모든 문서들이 이미 선택되었으면, 컴포넌트는 블럭 504에서 계속되고, 그렇지 않으면 컴포넌트는 블럭 503에서 계속된다. 블럭 503에서, 컴포넌트는 선택된 문서의 유사성 랭크를 선택된 문서의 정보 풍부성으로 설정하고, 그 다음에 블럭 501으로 순환하여 컬렉션 내의 다음 문서를 선택한다. 블럭들 504-508에서, 컴포넌트는 문서들의 쌍을 식별하는 단계와 유사성 패널티에 의해 유사성 랭크를 조정하는 단계를 순환한다. 블럭 504에서, 컴포넌트는 가장 높은 유사성 랭크를 갖는 다음 문서를 선택한다. 판정 블럭 505에서, 종단 조건에 도달하면, 컴포넌트는 랭크화된 문서로 리턴하고, 그렇지 않으면 컴포넌트는 블럭 506에서 계속된다. 블럭 506-508 에서, 컴포넌트는 문서를 선택하는 단계와 유사성 패널티에 의해 유사성 랭크를 조정하는 단계를 순환한다. 블럭 506에서, 컴포넌트는 선택된 문서에서 선정된 문서까지 유사성 그래프에서의 제로가 아닌(non-zero) 값에 의해 표시된 선택 문서에 대한 유사성을 갖는 다음 문서를 선택한다. 판정 블럭(507)에서, 모든 문서들이 이미 선택되었다면, 컴포넌트는 블럭 504로 루프하여 그 다음 최고 유사성 랭크를 갖는 문서를 선택한다. 블럭 508에서, 컴포넌트는 수학식 10에 따라 선택된 문서에 대한 유사성 랭크를 유사성 패널티만큼 조정한다. 그런 다음 컴포넌트는 블럭 506으로 진행하여 선택된 문서와 유사성을 갖는 그 다음 문서를 선택한다.
당업자는 비록 본 명세서에 특정 실시예들이 예시를 위한 목적으로 설명되었지만, 다양한 변형들이 본 발명의 사상 및 범위를 벗어나지 않고서 만들어질 수 있음을 알 것이다. 일 실시예에서, 랭킹 시스템은 문서 단위로가 아니라 블럭 단위로 유사성 및 정보 풍부성을 계산할 수 있다. 블럭은 단일 주제에 일반적으로 관련된 웹 페이지의 정보를 나타낸다. 웹 페이지의 랭킹은 웹 페이지에 대한 블럭의 중요성에 부분적으로 기초할 수 있다. 블럭들의 중요성은 제목이 "Method and System for Calculating Importance of a Block Within a Display Page"인 ______일자로 출원된 미국특허출원 제---호에 설명되어 있으며, 본 명세서에서 참조되었다. 따라서, 본 발명은 하기의 특허청구범위에 의해서만 제한될 뿐이다.
본 발명에 따르면, 최고 랭킹 문서들 내에서 주제들의 더 많은 다양성을 제공할 수 있는 문서 랭킹 기술을 제공하고, 그러한 최고 랭킹 문서들 각각이 그의 주제와 관련하여 정보 콘텐트가 매우 풍부하게 보장한다.

Claims (31)

  1. 서치 결과의 문서들을 랭킹하기 위한 컴퓨팅 장치로서 - 각각의 상기 문서는 단어들을 가짐 -,
    컴퓨터 실행가능한 명령어들을 갖는 메모리 및 상기 메모리에 저장된 상기 컴퓨터 실행가능한 명령어들을 실행하기 위한 프로세서
    를 포함하고,
    상기 컴퓨터 실행가능한 명령어들은, 실행될 경우,
    사용자로부터 서치에 대한 요청(query)을 수신하는 단계;
    상기 수신된 요청에 대한 서치 결과로서 문서들을 식별하는 단계;
    상기 식별된 문서들의 키워드들을 식별하는 단계;
    상기 서치 결과의 식별된 문서들의 쌍 각각에 대하여, 상기 쌍의 문서가 상기 쌍 중 다른 쪽의 문서에 대해 갖는 유사성(affinity)을 나타내는 유사성 척도(affinity measurement)를 계산하는 단계 - 상기 유사성 척도는
    Figure 112011062662457-pat00027
    에 기초하여 계산되고, 여기서 aff(di, dj)는 문서 dj에 대한 문서 di의 상기 유사성 척도이고, 문서 di는 상기 쌍의 상기 문서를 나타내며, 문서 dj는 상기 쌍 중 다른 쪽의 문서를 나타내고,
    Figure 112011062662457-pat00028
    는 문서 di의 벡터를 나타내며,
    Figure 112011062662457-pat00029
    는 문서 dj의 벡터를 나타내고,
    Figure 112011062662457-pat00030
    는 벡터 di의 길이를 나타내며, 각각의 벡터는 대응되는 문서의 적어도 하나의 식별된 키워드에 대한 적어도 하나의 항목(entry)을 가짐 -;
    상기 서치 결과의 각각의 식별된 문서에 대하여, 유사성 매트릭스로부터 얻어지는 정규화된(normalized) 유사성 매트릭스의 원소(element)에 기초하여 상기 식별된 문서에 대한 정보 풍부성(information richness)을 계산하는 단계 - 상기 정보 풍부성은
    Figure 112011062662457-pat00031
    에 기초하여 계산되고, 여기서 InfoRich(di)는 문서 di의 상기 정보 풍부성이고, 문서 di는 상기 서치 결과의 상기 식별된 문서를 나타내며, 문서 dj는 상기 서치 결과 내의 상기 식별된 문서와 상이한 다른 문서를 나타내고,
    Figure 112011062662457-pat00032
    는 상기 정규화된 유사성 매트릭스의 원소이며, 상기 유사성 매트릭스는 상기 식별된 문서의 상기 계산된 유사성 척도 및 상기 서치 결과 내의 상기 다른 문서를 포함함 -; 및
    상기 서치 결과의 문서들의 상기 계산된 정보 풍부성에 기초하여 랭킹된 상기 서치 결과의 상기 문서들에 대한 링크들을 디스플레이하는 단계
    를 포함하는 단계들을 수행하는, 컴퓨팅 장치.
  2. 제1항에 있어서, 상기 문서들을 식별하는 단계는 서치 엔진 서비스에 상기 요청을 제출하고, 상기 서치 결과로서 상기 문서들에 대한 링크들을 수신하는 단계를 포함하는, 컴퓨팅 장치.
  3. 제1항에 있어서, 상기 문서들은 웹 페이지들인, 컴퓨팅 장치.
  4. 프로세서 및 메모리를 갖는 컴퓨터 시스템에서 문서들의 컬렉션 내의 문서의 정보 풍부성을 계산하기 위한 방법으로서 - 상기 컬렉션 내의 상기 문서들은 단어들을 가짐 -,
    상기 컬렉션 내의 각각의 문서가 상기 컬렉션 내의 상기 각각의 문서와 상이한 다른 문서에 대해 갖는 유사성을 상기 프로세서에 의해 식별하는 단계 - 상기 유사성은 문서들의 쌍 각각에 대하여 식별되고, 상기 쌍 중 한쪽의 문서는 상기 컬렉션 내의 상기 각각의 문서이고, 상기 쌍 중 다른 쪽의 문서는 상기 문서들의 컬렉션 내의 상기 다른 문서이며, 유사성은 한쪽의 문서의 정보가 다른 문서의 정보에 의해 어느 정도 포함되는지(is subsumed)를 나타냄 -;
    유사성 매트릭스로부터 얻어지는 정규화된 유사성 매트릭스의 원소에 기초하여 상기 컬렉션 내의 각각의 문서에 대한 정보 풍부성을 상기 프로세서에 의해 결정하는 단계;
    상기 컬렉션 내의 상기 문서들의 상기 결정된 정보 풍부성의 스코어들을 상기 메모리에 저장하는 단계; 및
    상기 저장된 정보 풍부성의 스코어들에 기초하여 상기 문서들을 랭킹하는 단계 - 각각의 문서에 대한 상기 결정된 정보 풍부성은
    Figure 112011062662457-pat00033
    으로서 정의되고, 여기서 InfoRich(di)는 문서 di의 상기 정보 풍부성이고, 문서 di는 상기 각각의 문서를 나타내며, 문서 dj는 문서들의 상기 컬렉션의 다른 문서를 나타내고,
    Figure 112011062662457-pat00034
    는 상기 정규화된 유사성 매트릭스의 원소이며, 상기 유사성 매트릭스는 상기 컬렉션 내의 상기 다른 문서들에 대한 상기 문서의 상기 식별된 유사성을 포함함 -
    를 포함하고,
    상기 컬렉션 내의 상기 문서들은 웹 페이지들인 방법.
  5. 단어들을 갖는 웹 페이지들의 컬렉션 내의 문서의 정보 풍부성을 계산하기 위한 컴퓨팅 장치로서,
    컴퓨터 실행가능한 명령어들을 갖는 메모리 및 상기 메모리에 저장된 상기 컴퓨터 실행가능한 명령어들을 실행하기 위한 프로세서
    를 포함하고,
    상기 컴퓨터 실행가능한 명령어들은, 실행될 경우,
    상기 컬렉션 내의 각각의 웹 페이지가 상기 컬렉션 내의 상기 각각의 웹 페이지와 상이한 다른 웹 페이지에 대해 갖는 유사성을 식별하는 단계 - 상기 유사성은 웹 페이지들 쌍 각각에 대하여 식별되고, 상기 쌍 중 한쪽의 웹 페이지는 상기 컬렉션 내의 상기 각각의 웹 페이지이며, 상기 쌍 중 다른 쪽의 웹 페이지는 웹 페이지들의 상기 컬렉션 내의 상기 다른 웹 페이지이고, 유사성은 한쪽의 웹 페이지의 정보가 다른 웹 페이지의 정보에 의해 어느 정도 포함되는지를 나타냄 -;
    유사성 매트릭스로부터 얻어지는 정규화된 유사성 매트릭스의 원소에 기초하여 상기 컬렉션 내의 각각의 웹 페이지에 대한 정보 풍부성을 결정하는 단계;
    상기 컬렉션 내의 상기 웹 페이지들의 상기 결정된 정보 풍부성의 스코어들을 상기 메모리에 저장하는 단계; 및
    상기 저장된 정보 풍부성의 스코어들에 기초하여 상기 웹 페이지들을 랭킹하는 단계 - 각각의 웹 페이지에 대한 상기 결정된 정보 풍부성은
    Figure 112011062662457-pat00035
    으로서 정의되고, 여기서 InfoRich(di)는 웹 페이지 di의 상기 정보 풍부성이고, 웹 페이지 di는 상기 컬렉션 내의 상기 각각의 웹 페이지를 나타내며, 웹 페이지 dj는 웹 페이지들의 상기 컬렉션의 다른 웹 페이지를 나타내고,
    Figure 112011062662457-pat00036
    는 상기 정규화된 유사성 매트릭스의 원소이며, 상기 유사성 매트릭스는 상기 컬렉션 내의 상기 다른 웹 페이지에 대한 상기 웹 페이지의 상기 식별된 유사성을 포함함 -
    를 포함하는 단계들을 수행하는, 컴퓨팅 장치.
  6. 제5항에 있어서, 각각의 웹 페이지의 상기 유사성을 식별하는 단계는 유사성 그래프를 생성하는 단계를 포함하는, 컴퓨팅 장치.
  7. 제5항에 있어서, 상기 웹 페이지들을 랭킹하는 단계는 서치 엔진 서비스에 요청을 제출하고, 서치 결과로서 상기 웹 페이지들에 대한 링크들을 수신하는 단계를 포함하는, 컴퓨팅 장치.
  8. 제7항에 있어서, 상기 랭킹하는 단계는 관련성에 더 기초하는, 컴퓨팅 장치.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020050036407A 2004-04-30 2005-04-29 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템 KR101130535B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/837,540 2004-04-30
US10/837,540 US7664735B2 (en) 2004-04-30 2004-04-30 Method and system for ranking documents of a search result to improve diversity and information richness

Publications (2)

Publication Number Publication Date
KR20060047664A KR20060047664A (ko) 2006-05-18
KR101130535B1 true KR101130535B1 (ko) 2012-04-12

Family

ID=34939598

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050036407A KR101130535B1 (ko) 2004-04-30 2005-04-29 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템

Country Status (10)

Country Link
US (1) US7664735B2 (ko)
EP (1) EP1591923A1 (ko)
JP (1) JP4845420B2 (ko)
KR (1) KR101130535B1 (ko)
CN (1) CN100573513C (ko)
AU (1) AU2005201824A1 (ko)
BR (1) BRPI0502189A (ko)
CA (1) CA2505904C (ko)
MX (1) MXPA05004681A (ko)
RU (1) RU2383922C2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160033563A (ko) * 2014-09-18 2016-03-28 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
US20070073708A1 (en) * 2005-09-28 2007-03-29 Smith Adam D Generation of topical subjects from alert search terms
US20070094242A1 (en) * 2005-10-26 2007-04-26 John Dove System and method for returning search results
US20070112867A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for rank-based response set clustering
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US8171128B2 (en) 2006-08-11 2012-05-01 Facebook, Inc. Communicating a newsfeed of media content based on a member's interactions in a social network environment
US7827208B2 (en) * 2006-08-11 2010-11-02 Facebook, Inc. Generating a feed of stories personalized for members of a social network
US7644074B2 (en) * 2005-12-22 2010-01-05 Microsoft Corporation Search by document type and relevance
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US20080005137A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
US9779441B1 (en) * 2006-08-04 2017-10-03 Facebook, Inc. Method for relevancy ranking of products in online shopping
US8301621B2 (en) * 2006-11-07 2012-10-30 At&T Intellectual Property I, L.P. Topic map for navigational control
US20080109435A1 (en) * 2006-11-07 2008-05-08 Bellsouth Intellectual Property Corporation Determining Sort Order by Traffic Volume
US8156112B2 (en) 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US7958126B2 (en) * 2006-12-19 2011-06-07 Yahoo! Inc. Techniques for including collection items in search results
US20080154878A1 (en) * 2006-12-20 2008-06-26 Rose Daniel E Diversifying a set of items
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US8117137B2 (en) * 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
WO2009003050A2 (en) 2007-06-26 2008-12-31 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US20090094209A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Determining The Depths Of Words And Documents
WO2009059481A1 (en) * 2007-11-08 2009-05-14 Shanghai Hewlett-Packard Co., Ltd Navigational ranking for focused crawling
US8321406B2 (en) * 2008-03-31 2012-11-27 Google Inc. Media object query submission and response
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
JP5146108B2 (ja) * 2008-05-27 2013-02-20 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
CN101625680B (zh) * 2008-07-09 2012-08-29 东北大学 面向专利领域的文档检索方法
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US9135396B1 (en) 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
US8458171B2 (en) 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8533202B2 (en) * 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
CN101650746B (zh) * 2009-09-27 2011-06-29 中国电信股份有限公司 一种对排序结果进行验证的方法和系统
US8849807B2 (en) 2010-05-25 2014-09-30 Mark F. McLellan Active search results page ranking technology
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
EP2568396A1 (en) * 2011-09-08 2013-03-13 Axel Springer Digital TV Guide GmbH Method and apparatus for generating a sorted list of items
US8838583B1 (en) * 2011-10-05 2014-09-16 Amazon Technologies, Inc Diversity within search results
US9075498B1 (en) * 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US9501566B1 (en) 2012-01-17 2016-11-22 Veritas Technologies Llc User interface for transparent concept search
JP6149434B2 (ja) * 2012-04-10 2017-06-21 株式会社リコー 情報処理装置、文書管理サーバ、プログラム、ファイルシステム
US20140075282A1 (en) * 2012-06-26 2014-03-13 Rediff.Com India Limited Method and apparatus for composing a representative description for a cluster of digital documents
US9400789B2 (en) * 2012-07-20 2016-07-26 Google Inc. Associating resources with entities
US9536001B2 (en) * 2012-11-13 2017-01-03 Microsoft Technology Licensing, Llc Intent-based presentation of search results
US9129020B2 (en) 2012-12-21 2015-09-08 Microsoft Technology Licensing, Llc Search results through interest circles
CN103927545B (zh) * 2014-03-14 2017-10-17 小米科技有限责任公司 聚类方法及相关装置
US9355227B2 (en) 2014-06-30 2016-05-31 Konica Minolta Laboratory U.S.A., Inc. Dynamic document display personalization implemented in a digital rights management system
US9992262B2 (en) * 2014-07-29 2018-06-05 Konica Minolta Laboratory U.S.A., Inc. Personalized document content aggregation and document association implemented in a digital rights management system
US9858251B2 (en) 2014-08-14 2018-01-02 Rakuten Kobo Inc. Automatically generating customized annotation document from query search results and user interface thereof
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10467215B2 (en) * 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US10685029B2 (en) 2015-11-23 2020-06-16 Google Llc Information ranking based on properties of a computing device
GB2545931A (en) * 2015-12-31 2017-07-05 Francis Murphy Dominic Defining edges and their weights between nodes in a network
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
RU2630427C2 (ru) * 2016-08-12 2017-09-07 Дмитрий Владимирович Мительков Способ и система семантической обработки текстовых документов
US10733359B2 (en) * 2016-08-26 2020-08-04 Adobe Inc. Expanding input content utilizing previously-generated content
GB2570447A (en) * 2018-01-23 2019-07-31 Canon Kk Method and system for improving construction of regions of interest
US11699094B2 (en) * 2018-10-31 2023-07-11 Salesforce, Inc. Automatic feature selection and model generation for linear models
US11328238B2 (en) * 2019-04-01 2022-05-10 Microsoft Technology Licensing, Llc Preemptively surfacing relevant content within email
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025490A1 (en) 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6601075B1 (en) * 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning
JP4356347B2 (ja) * 2003-04-16 2009-11-04 セイコーエプソン株式会社 文書抽出システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025490A1 (en) 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160033563A (ko) * 2014-09-18 2016-03-28 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
KR102243286B1 (ko) 2014-09-18 2021-04-22 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체

Also Published As

Publication number Publication date
CN100573513C (zh) 2009-12-23
CA2505904C (en) 2013-09-03
JP2005322244A (ja) 2005-11-17
CA2505904A1 (en) 2005-10-30
RU2383922C2 (ru) 2010-03-10
MXPA05004681A (es) 2006-03-08
JP4845420B2 (ja) 2011-12-28
CN1758244A (zh) 2006-04-12
EP1591923A1 (en) 2005-11-02
US20050246328A1 (en) 2005-11-03
AU2005201824A1 (en) 2005-11-17
BRPI0502189A (pt) 2006-01-10
US7664735B2 (en) 2010-02-16
RU2005113189A (ru) 2006-11-10
KR20060047664A (ko) 2006-05-18

Similar Documents

Publication Publication Date Title
KR101130535B1 (ko) 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템
US7577650B2 (en) Method and system for ranking objects of different object types
US8244737B2 (en) Ranking documents based on a series of document graphs
KR101377341B1 (ko) 문서 랭킹 컴포넌트 트레이닝 시스템 및 컴퓨터 판독 가능 매체
US7849089B2 (en) Method and system for adapting search results to personal information needs
US20070005588A1 (en) Determining relevance using queries as surrogate content
US7930303B2 (en) Calculating global importance of documents based on global hitting times
EP1999654A2 (en) Propagating relevance from labeled documents to unlabeled documents
AU2005202017A1 (en) Method and system for ranking objects based on intra-type and inter-type relationships
KR20060047858A (ko) 이종 관계에 기초하여 객체들의 유사성을 결정하기 위한방법 및 시스템
WO2007012550A1 (en) Method and apparatus for constructing a link structure between documents
US20090282031A1 (en) Look-ahead document ranking system
US20070198504A1 (en) Calculating level-based importance of a web page
Ukkonen et al. Searching the wikipedia with contextual information
US20060004809A1 (en) Method and system for calculating document importance using document classifications
Lee et al. Cluster based personalized Search
Mendelzon What is this Page Known for? Computing Web Page Reputations
Srinivasanacd et al. Web Crawling Agents for Retrieving Biomedical Information

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee