KR101371318B1 - 문서 순위 결정 시스템 및 방법 - Google Patents
문서 순위 결정 시스템 및 방법 Download PDFInfo
- Publication number
- KR101371318B1 KR101371318B1 KR1020100073660A KR20100073660A KR101371318B1 KR 101371318 B1 KR101371318 B1 KR 101371318B1 KR 1020100073660 A KR1020100073660 A KR 1020100073660A KR 20100073660 A KR20100073660 A KR 20100073660A KR 101371318 B1 KR101371318 B1 KR 101371318B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- importance
- query candidate
- ranking
- query
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
문서 순위 결정 시스템 및 방법이 개시된다. 문서 순위 결정 시스템은 사용자의 질의어가 입력되기 전에 문서와 연관된 적어도 하나의 키워드를 포함하는 질의어 후보를 생성하는 질의어 후보 생성부; 상기 질의어 후보와 관련된 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 중요도 계산부; 및 상기 문서의 중요도 및 상기 질의어 후보의 중요도를 이용하여 문서 순위를 결정하는 문서 순위 결정부를 포함할 수 있다.
Description
본 발명은 문서 순위 결정 시스템 및 방법에 관한 것으로, 보다 구체적으로는 사용자의 질의어가 입력되기 전에 문서의 내용과 문서의 링크 정보를 이용하여 문서의 순위를 결정하는 시스템 및 방법에 관한 것이다.
인터넷의 사용이 증가하면서 생성되는 문서의 종류도 지속적으로 증가하고 있다. 검색 엔진은 생성되는 문서를 크롤링하여 색인하고, 색인된 정보를 기초로 검색 결과를 제공한다.
이 때, 문서들은 자주 갱신되기 때문에, 검색 엔진은 문서가 위치한 사이트에 재방문하여 문서의 내용을 최신 상태로 유지하도록 해야 한다. 그러나, 문서의 개수가 많기 때문에 모든 문서를 동일한 중요도로 설정하여 사이트를 재방문한다면, 검색 엔진에 부하가 많이 걸리는 문제가 있다.
그리고, 검색 엔진이 계속적으로 생성되는 문서를 저장하기 위해서는 검색 엔진의 저장소도 증가해야 하나, 이러한 저장소 유지에 따른 부담도 증가한다. 또한, 검색 결과를 문서를 노출하기 위해 보다 높은 품질의 검색 결과를 제공하기 위해 문서의 중요도를 활용할 수 있다.
종래에는 링크 정보에 기초하여 결정하는 문서의 중요도를 결정하는 방법이 제안되었다. 그러나, 링크 정보 이외에 다른 정보를 통해 질의어가 입력되기 전이라도 문서의 중요도를 정확하게 결정하는 방법이 요구되었다.
본 발명은 문서와 연관된 키워드를 이용하여 질의어가 입력되기 전이라도 적어도 문서와 연관된 하나의 키워드를 포함하는 질의어 후보를 생성한 후, 질의어 후보에 대한 문서의 중요도와 질의어 후보의 중요도를 계산하고 계산된 중요도들을 이용하여 문서의 중요도를 계산함으로써 사용자가 질의어를 입력하기 전 단계에서 질의어와 무관하게 문서의 순위를 정확하게 결정하는 시스템 및 방법을 제공한다.
본 발명은 문서의 내용과 링크 정보를 활용하여 사용자의 질의어가 입력되기 전에 문서의 중요도를 계산함으로써, 전처리 단계에서도 보다 정확하게 문서의 순위를 결정할 수 있는 시스템 및 방법을 제공한다.
본 발명은 문서의 중요도뿐만 아니라 질의어 후보의 중요도를 이용하여 문서의 순위를 결정함으로써, 검색 품질이 높은 문서를 상위로 배치할 수 있는 시스템 및 방법을 제공한다.
본 발명은 문서의 중요도와 질의어 후보의 중요도에 기초하여 문서의 순위를 결정함으로써, 문서 수집시 웹사이트의 재방문 순서, 검색 엔진의 저장소에 여유 공간이 없을 때 제거되어야 할 문서의 순서, 검색 서비스에 사용될 컬렉션에 포함될 중요 문서 순서를 효과적으로 결정할 수 있는 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 문서와 연관된 키워드를 이용하여 적어도 하나의 질의어 후보를 생성하는 질의어 후보 생성부; 상기 질의어와 관련된 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 중요도 계산부; 및 상기 문서의 중요도 및 상기 질의어 후보의 중요도를 이용하여 문서 순위를 결정하는 문서 순위 결정부를 포함할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 방법은 문서와 연관된 키워드를 이용하여 적어도 하나의 키워드를 포함하는 질의어 후보를 생성하는 단계; 상기 질의어 후보와 관련된 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 단계; 및 상기 문서의 중요도 및 상기 질의어 후보의 중요도를 이용하여 문서 순위를 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따르면, 문서와 연관된 키워드를 이용하여 질의어가 입력되기 전이라도 문서와 연관된 적어도 하나의 키워드를 포함하는 질의어 후보를 생성한 후, 질의어 후보에 대한 문서의 중요도와 질의어 후보의 중요도를 계산하고 계산된 중요도들을 이용하여 문서의 중요도를 계산함으로써 사용자가 질의어를 입력하기 전 단계에서 질의어와 무관하게 문서의 순위가 정확하게 결정될 수 있다.
본 발명의 일실시예에 따르면, 문서의 내용과 링크 정보를 활용하여 사용자의 질의어가 입력되기 전에 문서의 중요도를 계산함으로써, 전처리 단계에서도 보다 정확하게 문서의 순위가 결정될 수 있다.
본 발명의 일실시예에 따르면, 문서의 중요도뿐만 아니라 질의어 후보의 중요도를 이용하여 문서의 순위를 결정함으로써, 검색 품질이 높은 문서가 상위로 배치될 수 있다.
본 발명의 일실시예에 따르면, 문서의 중요도와 질의어 후보의 중요도에 기초하여 문서의 순위를 결정함으로써, 문서 수집시 웹사이트의 재방문 순서, 검색 엔진의 저장소에 여유 공간이 없을 때 제거되어야 할 문서의 순서, 검색 서비스에 사용될 컬렉션에 포함될 중요 문서 순서가 효과적으로 결정될 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 동작을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 문서 순위를 결정하기 위한 전체 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 질의어 후보를 생성하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 문서 순위 점수를 계산하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른 공통 키워드에 대한 문서의 기여 계수를 결정하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예에 따른 공통 키워드에 대한 문서의 축적 계수를 계산하는 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일실시예에 따른 문서 순위 결정 방법의 전체 구성을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 문서 순위를 결정하기 위한 전체 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 질의어 후보를 생성하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 문서 순위 점수를 계산하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른 공통 키워드에 대한 문서의 기여 계수를 결정하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예에 따른 공통 키워드에 대한 문서의 축적 계수를 계산하는 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일실시예에 따른 문서 순위 결정 방법의 전체 구성을 도시한 도면이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 문서 순위 결정 방법은 문서 순위 결정 시스템의 각 구성에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 동작을 설명하기 위한 도면이다.
문서 순위 결정 시스템(100)은 사용자로부터 질의어가 입력되기 전에 문서(101)를 수집할 수 있다. 이 때, 각각의 문서(101)들은 적어도 하나의 질의어 후보와 관련될 수 있다. 도 1에서 질의어 후보 q1은 문서(101) P1과 관련된다. 즉, 질의어 후보 q1은 문서(101) p1에 포함된 키워드가 조합된 결과일 수 있다. 여기서, 질의어 후보는 사용자로부터 질의어가 입력되기 전이지만 문서에 포함된 키워드를 조합하여 생성된 것으로, 사용자가 검색을 위해 입력할 수 있는 예상 가능한 질의어를 의미할 수 있다. 또는, 질의어 후보는 문서(101)에 포함된 키워드와 유사한 키워드들의 조합도 가능하나, 문서(101)의 순위(102)를 결정할 때의 계산량이 증가하기 때문에 바람직하게 문서 순위 결정 시스템(100)은 문서(101)에 포함된 키워드의 조합으로 질의어 후보를 설정하여 문서의 순위(102)를 결정할 수 있다.
그러면, 문서 순위 결정 시스템(100)은 문서(101)의 중요도와 질의어 후보의 중요도를 고려하여 문서(101)의 순위(102)를 결정할 수 있다. 이 때, 문서 순위 결정 시스템(100)은 사용자의 질의어가 입력되기 전이라도 전처리 단계에서 문서(101)의 내용과 문서(101)의 링크 정보를 이용하여 문서(101)의 순위(102)를 결정할 수 있다.
도 2는 본 발명의 일실시예에 따른 문서 순위 결정 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 문서 순위 결정 시스템(200)은 질의어 후보 생성부(201), 중요도 계산부(202) 및 문서 순위 결정부(203)를 포함할 수 있다.
질의어 후보 생성부(201)는 문서와 연관된 키워드를 이용하여 적어도 문서와 연관된 하나의 키워드를 포함하는 질의어 후보를 생성할 수 있다. 질의어 후보는 문서마다 다르게 생성될 수 있다. 앞서 설명하였듯이, 질의어 후보는 사용자가 질의어를 입력하기 전에 문서에 포함된 키워드를 조합하여 생성된 것으로, 사용자로부터 검색을 위해 입력될 수 있는 예상 가능한 질의어를 의미한다. 이 때, 키워드는 문서를 구성하는 단어일 수 있으며, 질의어 후보는 문서에 포함된 키워드의 조합일 수 있다. 키워드의 개수가 증가함에 따라 질의어 후보도 증가할 수 있다. 질의어 후보에 대해서는 도 4에서 구체적으로 설명하기로 한다.
중요도 계산부(202)는 질의어 후보와 관련된 문서의 중요도 및 질의어 후보의 중요도를 계산할 수 있다. 도 2를 참고하면, 문서 중요도 계산부(204) 및 질의어 후보 중요도 계산부(205)를 포함할 수 있다.
본 발명의 일실시예에 따르면, 문서 중요도 계산부(204)는 점수 기반 방식과 순위 기반 방식에 기초하여 문서의 중요도를 계산할 수 있다. 점수 기반 방식에 의하면, 문서 중요도 계산부(204)는 질의어 후보와 관련된 문서의 문서 순위 점수(C-Rank)에 기초하여 문서의 중요도를 계산할 수 있다. 이 때, 문서 순위 점수(C-Rank)는 질의어 후보에 기초하여 계산될 수 있다. 문서 순위 점수(C-Rank)를 계산하는 구체적인 방법은 도 5, 6 및 7을 통해 설명하기로 한다.
순위 기반 방식에 의하면, 문서 중요도 계산부(204)는 질의어 후보와 관련된 문서의 순위에 기초하여 문서의 중요도를 계산할 수 있다. 만약, 질의어 후보와 관련된 문서의 문서 순위 점수(C-Rank)가 계산된 경우, 문서 중요도 계산부(204)는 문서 순위 점수(C-Rank)에 따라 문서를 정렬하여 문서의 순위를 결정할 수 있다. 그러면, 문서 중요도 계산부(204)는 문서의 순위가 높을수록 문서의 중요도를 높게 계산할 수 있다.
본 발명의 일실시예에 따르면, 문서의 링크 정보를 이용한 문서 순위 점수를 통해 결정된 문서의 중요도뿐만 아니라 문서의 내용과 관련된 질의어 후보의 중요도도 함께 고려함으로써, 보다 정확하게 문서들의 순위를 결정할 수 있다.
본 발명의 일실시예에 따르면, 질의어 후보 중요도 계산부(205)는 질의어 후보에 동일한 중요도를 할당할 수 있다.
본 발명의 일실시예에 따르면, 질의어 후보 중요도 계산부(205)는 사용한 문서수에 기초하여 질의어 후보의 중요도를 계산할 수 있다.
본 발명의 일실시예에 따르면, 질의어 후보 중요도 계산부(205)는 사용자가 사용하는 빈도에 기초하여 질의어 후보의 중요도를 계산할 수 있다.
본 발명의 일실시예에 따르면, 질의어 후보 중요도 계산부(205)는 사용자가 사용하는 질의어의 길이에 기초하여 질의어 후보의 중요도를 계산할 수 있다.
본 발명의 일실시예에 따르면, 질의어 후보 중요도 계산부(205)는 사용자의 관심도에 기초하여 질의어 후보의 중요도를 계산할 수 있다.
질의어 후보의 중요도와 관련하여 도 3에서 구체적으로 설명하기로 한다.
본 발명의 일실시예에 따르면, 문서 순위 결정부(203)는 문서의 중요도 및 질의어 후보의 중요도를 이용하여 문서 순위를 결정할 수 있다. 이 때, 문서 순위 결정부(203)는 질의어 후보 또는 질의어 후보를 구성하는 키워드 중 어느 하나에 기초하여 문서 순위를 결정할 수 있다.
문서의 순위를 결정하는 것과 관련하여 도 3에서 구체적으로 설명하기로 한다.
도 3은 본 발명의 일실시예에 따른 문서 순위를 결정하기 위한 전체 과정을 설명하기 위한 도면이다.
1. 질의어 후보 생성
본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 질의어 후보를 생성할 수 있다. 이 때, 문서 순위 결정 시스템은 문서와 연관된 키워드를 이용하여 적어도 하나의 키워드를 포함하는 질의어 후보를 생성할 수 있다.
2. 중요도 계산
본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 문서의 중요도와 질의어 후보의 중요도를 계산할 수 있다.
(1) 문서의 중요도 계산
문서 순위 결정 시스템은 질의어 후보와 관련하여 문서의 중요도를 계산할 수 있다. 일례로, 문서 순위 결정 시스템은 점수 기반 방식과 순위 기반 방식에 따라 계산될 수 있다.
ㄱ. 점수 기반 방식
점수 기반 방식에 의하면, 문서 순위 결정 시스템은 질의어 후보와 관련된 문서의 문서 순위 점수(C-Rank)에 기초하여 문서의 중요도를 계산할 수 있다. 일례로, 문서 순위 결정 시스템은 문서의 링크 정보와 문서의 컨텐츠 정보에 기초하여 질의어 후보 q를 구성하는 키워드 t 각각에 대해 문서 p의 문서 순위 점수(C-Rank)(CRt(p))를 계산할 수 있다.
문서 순위 점수(C-Rank)에 대해서는 도 5, 6 및 7을 통해 상세히 설명하도록 한다.
ㄴ. 순위 기반 방식
순위 기반 방식에 의하면, 문서 순위 결정 시스템은 질의어 후보와 관련된 문서의 순위에 기초하여 문서의 중요도를 계산할 수 있다. 만약, 점수 기반 방식에 따라 질의어 후보 q에 대한 모든 문서들의 문서 순위 점수(C-Rank)가 계산되었다면, 문서 순위 결정 시스템은 문서 순위 점수(C-Rank)를 정렬하여 문서의 순위를 산출할 수 있다. 그러면, 문서 순위 결정 시스템은 하기 수학식 2에 따라 질의어 후보 q와 관련된 문서 p의 순위()에 기초하여 문서 p의 중요도()를 계산할 수 있다.
즉, 문서의 중요도는 문서의 순위에 반비례하여 결정될 수 있다.
일례로, 문서 순위 결정 시스템은 이하의 순위 기반 방식에 따라 키워드로 조합 가능한 모든 질의어 후보들에 대해 효율적으로 문서의 중요도를 계산할 수 있다.
1) 문서 순위 결정 시스템은 질의어 후보 q가 포함하는 키워드들을 알파벳 순으로 정렬한다. 예를 들어, 질의어 후보가 "car taxi roof"라는 키워드를 포함하는 경우, 수정된 질의어 후보는 "car roof taxi"에 해당한다. 2) 문서 순위 결정 시스템은 수정된 질의어 후보를 space 키워드를 포함하는 새로운 단어로 간주하고, 각 문서를 새로운 키워드 집합으로 표현한다. 예를 들어, "car roof taxi"는 중간에 space 두 개가 있는 하나의 새로운 단어에 해당되고, car, roof와 taxi를 키워드로 가지고 있는 문서들은 "car roof taxi"라는 새로운 단어를 포함하는 문서들이 된다. 3) 모든 문서의 새로운 단어들을 모아서 unique 단어를 추출하고 알파벳 순서로 정렬한다. 4) 각 unique 단어 q를 포함하는 문서 p들을 추출하고, 추출된 문서들을 질의어 후보 q에 대한 이미 계산된 문서 순위 점수(C-Rank)의 내림 차순으로 정렬하여 문서의 순위를 결정할 수 있다.
(2) 질의어 후보의 중요도 계산
문서들의 순위는 질의어 후보 별로 결정된 문서들의 중요도를 병합한 결과이다. 따라서, 중요한 질의어 후보에서 중요한 문서는 상대적으로 상위에 위치할 수 있다. 본 발명의 일실시예에 따르면, 질의어 후보 중요도는 (ⅰ) 동일한 중요도 지정, (ⅱ) 문서 내 통계에 의한 중요도 지정, (ⅲ) 사용자 질의 통계에 의한 중요도 지정, (ⅳ) 중요 질의어 후보 지정 방식에 따라 계산될 수 있다.
ㄱ. 동일한 중요도 지정
본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 모든 질의어 후보에 대해 동일하게 중요도를 설정할 수 있다. 이 방법은 질의어 후보의 중요도를 계산하는 다른 방법이 성능 향상되었는 지 여부를 판단할 때 사용될 수 있다.
ㄴ. 문서 내 통계에 의한 중요도 지정
다수의 문서에서 사용되는 질의어 후보보다 소수의 문서에서 사용되는 질의어 후보가 더 중요하다. 본 발명의 일실시예에 따르면, 질의어 후보 q를 포함하는 문서가 많을수록 질의어 후보 q의 중요도를 낮게 지정할 수 있다. 일례로, TF(Term Frequency)-IDF(Inverse Document Frequency)를 적용하는 경우, 질의어 후보의 중요도는 하기 수학식 3으로 결정될 수 있다.
ㄷ. 사용자 질의 통계에 의한 중요도 지정
사용자 질의 통계를 이용하여 질의어 후보의 중요도를 계산하는 방법은 사용자가 많이 사용하는 질의어 후보를 중요한 질의어 후보로 결정하는 것이다. 본 발명의 일실시예에 따르면, 질의어 후보의 길이에 따른 사용 빈도와 각 질의어 후보의 사용 빈도를 이용하여 질의어 후보의 중요도를 계산하는 방법을 제공한다.
(ⅰ) 질의어 후보의 길이에 따른 사용 빈도
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 다음과 같은 과정을 통해 질의어 후보의 길이에 따른 사용 빈도를 결정할 수 있다. 질의어 후보의 길이에 따른 사용 빈도는 질의어 후보의 중요도를 계산할 때 사용될 수 있다.
문서 순위 결정 시스템은 미리 설정한 시간동안 사용자들이 입력한 질의어를 수집한다. 그리고, 문서 순위 결정 시스템은 수집된 질의어들을 포함하는 단어의 개수에 따라 분류한다. 그런 후, 문서 순위 결정 시스템은 수집된 전체 질의어 개수 대비 단어 개수로 분류된 각 질의어 집합에 포함된 질의어 개수를 질의어 후보의 길이에 따른 사용 빈도로 결정한다.
일례로, 문서 순위 결정 시스템은 질의어 후보의 길이에 따른 사용 빈도를 사용하여 하기 수학식 4에 따라 질의어 후보 q의 중요도를 계산할 수 있다.
수학식 4에서, 는 질의어 후보의 길이에 따른 사용 빈도를 사용하여 결정되는 질의어 후보 q의 중요도를 의미한다. 수학식 4는 질의어 후보의 길이에 따른 사용 빈도에 비례하여 질의어 후보 q의 중요도가 결정되는 것을 의미한다. 는 수집한 질의어의 총 개수를 의미하고, 는 질의어 후보 q를 구성하는 키워드의 개수를 의미한다. 그리고, 는 일 때 1의 값을 가지는 함수이다. 즉, 는 수집된 전체 질의어의 개수 중 질의어 후보 q와 같은 수의 키워드로 구성된 질의어의 비율을 의미한다. 예를 들어, 수집된 사용자의 질의어가 100개이고, 이 중 1개의 단어로 구성된 질의어가 40개이고, 2개의 단어로 구성된 질의어가 30개이며, 3개의 단어로 구성된 질의어가 20개이며, 4개 이상의 단어로 구성된 질의어가 10개인 경우, w(1)=0.4, w(2)=0.3, w(3)=0.2, w(i>3)=0.1로 계산된다.
(ⅱ) 질의어 후보의 사용 빈도
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 질의어 후보의 사용 빈도를 이용하여 질의어 후보의 중요도를 계산할 수 있다. 일례로, 문서 순위 결정 시스템은 질의어 후보의 사용 빈도를 이용하여 하기 수학식 5에 따라 질의어 후보의 중요도를 계산할 수 있다.
그리고, 본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 질의어 후보의 길이와 질의어 후보의 사용 빈도를 모두 고려하여 하기 수학식 6에 따라 질의어 후보의 중요도를 계산할 수 있다.
ㄹ. 중요 질의어 후보 지정 방식
본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 최근에 사용 빈도가 급상승하거나 또는 사회적 이슈로 인해 사용자의 관심도가 증가하는 질의어 후보와 관련된 문서는 사용자에게 우선적으로 노출시킬 수 있다. 이러한 질의어 후보는 중요 질의어 후보로 설정될 수 있다. 중요 질의어 후보로 지정된 질의어 후보 집합을 QT라고 가정한다. 중요 질의어 후보에 기초한 질의어 후보의 중요도는 하기 수학식 7에 따라 계산될 수 있다.
즉, QT에 속한 질의어 후보 q의 중요도는 1로 계산되고, QT에 속하지 않는 질의어 후보 q의 중요도는 0으로 계산된다.
3. 문서 순위 결정
본 발명의 일실시예에 따르면, 문서의 순위는 질의어 후보 또는 질의어 후보를 구성하는 키워드 중 어느 하나에 기초하여 문서의 순위를 결정할 수 있다.
(1) 질의어 후보 기반 문서 순위
본 발명의 일실시예에 따르면, 문서의 순위는 질의어 후보와 관련된 문서의 중요도와 질의어 후보의 중요도의 조합으로 결정될 수 있다. 본 발명의 일실시예에 따르면, 두 가지의 요소를 조합하여 문서의 순위를 결정하는 방식으로, weighted-sum과 weighted-max가 사용될 수 있다.
일례로, 문서 순위 결정 시스템은 하기 수학식 8에 따라 weighted-sum 방식에 기초한 문서의 순위를 결정할 수 있다.
수학식 8에 따르면, 문서 순위 결정 시스템은 질의어 후보와 관련된 문서의 중요도와 질의어 후보의 중요도를 곱한 후 합산할 수 있다. weighted-sum은 모든 질의어 후보와 관련된 문서의 중요도를 계산할 때 사용될 수 있다.
다른 일례로, 문서 순위 결정 시스템은 하기 수학식 9에 따라 weighted-max 방식에 기초한 문서의 순위를 결정할 수 있다.
수학식 9에 따르면, 질의어 후보 q와 관련하여 문서 p가 다른 문서보다 중요도가 매우 높은 경우, 문서 p의 순위는 질의어 후보 q와 관련하여 순위가 높게 계산될 수 있다. 문서 순위 결정 시스템은 수학식 9에 따라 모든 문서의 순위를 계산한 후 정렬하여 최종적인 문서의 순위를 계산할 수 있다.
(2) 키워드 기반 문서 순위
본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 질의어 후보를 구성하는 키워드에 기초하여 문서의 순위를 결정할 수 있다. 즉, 문서 p와 관련된 질의어 후보 집합 Q(p)는 문서 p의 키워드 집합 Kp로 제한될 수 있다. 그러면, 앞서 설명된 weighted-sum 방식과 weighted-max 방식은 각각 하기 수학식 10, 11로 결정될 수 있다.
질의어 후보에 기초하여 문서의 순위를 결정하는 방법과 키워드에 기초하여 문서의 순위를 결정하는 방법 간의 공통점은 다음과 같다.
예를 들어, 질의어 후보에 기초하여 문서의 순위를 결정하는 방법에 있어서, 문서의 중요도는 점수 기반 방법에 따라 계산되고 질의어 후보의 중요도는 모든 질의어 후보의 중요도를 동일하게 설정하는 방법에 따라 계산된다고 가정한다. 그러면, 질의어 후보에 기초한 문서의 순위는 수학식 1과 수학식 8을 결합하여 수학식 12에 따라 결정된다.
질의어 후보 q를 구성하는 키워드의 개수가 k라고 가정한다. 그러면, 수학식 12에서 Rank(p)가 계산될 때 Q(p)에 포함되는 키워드 t의 는 질의어 후보 q에 포함된 키워드들 중 키워드 t를 제외한 나머지 키워드로 조합가능한 횟수만큼 반복해서 합산된다. 이 때, Rank(p)는 하기 수학식 13에 따라 결정될 수 있다.
수학식 13에서, 는 질의어 후보와 무관하기 때문에, Rank(p)는 하기 수학식 14와 같이 질의어 후보를 구성하는 키워드들의 문서 순위 점수(C-Rank) 점수의 합에 비례한다.
Rank(p) 보다는 Rank(p)에 의해 정렬되는 문서의 순위가 중요하다. 즉, 문서의 중요도를 계산할 때, 점수 기반 방법을 사용하고, 질의어 후보의 중요도를 동일하게 설정하는 경우, 질의어 후보 기반 문서의 순위는 키워드 기반 문서의 순위와 동일하다.
도 4는 본 발명의 일실시예에 따른 질의어 후보를 생성하는 과정을 도시한 도면이다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 문서와 연관된 키워드를 이용하여 적어도 하나의 키워드를 포함하는 질의어 후보를 생성할 수 있다. 앞서 설명하였듯이, 질의어 후보는 사용자로부터 질의어가 입력되기 전에 문서에 포함된 키워드를 조합한 결과로, 사용자로부터 입력이 예상되는 질의어 집합을 의미한다.
일례로, 문서 p(401)와 관련된 키워드의 집합을 Kp={A, B, C}라고 가정한다. 이 때, 문서 p와 연관된 질의어 후보 Q(p)는 Kp에 포함되는 키워드들의 조합으로 구성될 수 있다. 즉, Q(p)는 {A, B, C, AB, AC, BC, ABC}로 구성될 수 있다.
만약, 도 4와 같이 문서 p(401)와 관련된 키워드의 개수가 n개인 경우, 질의어 후보는 q1(402-1), q2(402-2) … qn(402-n)이 된다. 이 때, 질의어 후보의 개수는 sum(kCi)인 2k-1이 된다.
따라서, 질의어 후보는 문서의 키워드로 조합되는 것으로 제한될 수 있으며, 문서에 포함되지 않는 키워드로 조합되는 질의어 후보에 대한 문서의 중요도는 0으로 설정될 수 있다.
도 5는 본 발명의 일실시예에 따른 문서 순위 점수를 계산하는 과정을 설명하기 위한 도면이다.
도 5를 참고하면, 문서 X(501)와 링크로 연결된 문서 Y1(502), 문서 Z1(503), 문서 Y2(504) 및 문서 Z2(505)가 도시된다. 이 때, 문서 X(501), 문서 Y1(502), 문서 Z1(503)는 키워드 A(506)를 포함하고, 문서 X(501), 문서 Y2(504), 문서 Z2(505)는 키워드 B(507)를 포함한다.
이 때, 키워드 A(506)는 문서 X(501), 문서 Y1(502), 문서 Z1(503)에 공통으로 포함된 공통 키워드이고, 키워드 B(507)는 문서 X(501), 문서 Y2(504), 문서 Z2(505)에 공통으로 포함된 공통 키워드이다. 즉, 공통 키워드는 링크로 연결된 문서에 공통적으로 포함된 키워드로, 문서마다 하나 이상의 공통 키워드가 포함될 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 검색 결과의 정확도를 유지하면서 계산 시간을 최적화하기 위해 다음과 같은 웹 환경을 활용할 수 있다.
1) 웹 개발자는 부족한 정보에 대해서 다른 문서의 정보를 활용하기 위하여 그 문서를 링크로 연결할 수 있다. 2) 링크를 따라서 연결되어 있을지라도 그 거리가 멀수록 정보의 활용도는 낮아질 수 있다. 3) 연결된 두 문서가 포함하는 공통 키워드의 개수는 두 문서의 관련 정도에 연관이 있으며, 관련이 없는 문서일수록 공통 키워드의 개수는 적을 수 있다. 4) 검색 엔진 사용자들은 검색 결과의 1위에 민감하며, 순위가 내려갈수록 순위에 대한 민감도는 떨어질 수 있다.
이 때, 키워드 A(506) 및 키워드 B(507)는 사용자가 입력한 검색 질의를 구성하는 키워드일 수 있다. 본 발명의 일실시예에 따른 문서 순위 결정 시스템은 키워드 각각에 대해 문서의 순위를 결정할 수 있다. 이 때, 문서 순위 결정 시스템은 문서 내용과 링크 정보를 조합하여 키워드에 대한 문서들의 순위를 결정할 수 있다. 구체적으로, 문서 순위 결정 시스템은 문서에 포함된 적어도 하나의 키워드 각각에 대한 문서의 내용 점수와 상기 키워드를 공통으로 포함하는 다른 문서의 활용도를 나타내는 기여 점수를 조합하여 문서 순위 점수를 계산하고, 문서 순위 점수에 기초하여 문서 순위를 결정할 수 있다.
일례로, 문서의 순위를 결정할 때, 다음과 같은 기본 개념을 미리 정의할 수 있다.
(1) 중요 문서의 기준
문서가 생성될 때, 사용자에게 제공하려는 주요 정보가 본문으로 구성되며, 본문에 대한 상세 설명이나 관련된 추가 정보는 다른 문서를 링크로 연결하는 방식으로 제공될 수 있다. 이 때, 링크로 연결된 문서(도 5에서, 문서 Y1(502), 문서 Y2(504))는 링크를 포함하는 문서(도 5에서, 문서 X(501))와 같은 주제에 대해서 설명하고 있는 문서이거나 세부 사항에 대하여 보완 설명을 하는 문서 또는 키워드(도 5에서, 키워드 A(506) 및 키워드 B(507)) 에 대한 상세 설명 문서일 수 있다. 혹은, 경우에 따라서, 링크로 연결된 문서는 광고와 같이 링크를 포함하는 문서와 전혀 무관한 문서일 수 있다.
문서의 품질을 평가할 때 중요한 요소는 문서의 내용일 수 있다. 사용자는 원하는 내용을 포함한 품질이 좋은 문서가 검색 되기를 기대할 수 있다. 또한, 문서 순위 결정 시스템은 문서의 본문 품질에 기여하는 중요 문서를 링크로 연결할 수 있다.
본 발명의 일실시예에 따른 문서 순위 결정 시스템은 다음과 같은 조건을 갖춘 문서를 중요 문서로 규정할 수 있다. 1) 주어진 키워드에 대한 내용 점수가 높은 문서, 2) 주어진 키워드에 대한 내용 점수가 높은 문서에 링크로 연결된 문서, 3) 자신의 정보를 많이 활용하는 문서로, 링크로 연결된 문서.
(2) 링크로 연결된 문서의 기여 점수
링크로 연결된 문서(도 5에서, 문서 Y1(502), 문서 Y2(504))가 링크를 포함하는 문서(도 5에서, 문서 X(501))에 대한 기여 점수는 주어진 검색 질의에 대한 두 문서의 내용 점수를 기초로 결정될 수 있다.
두 문서가 주어진 검색 질의에 대한 관련도가 높을수록, 링크로 연결된 문서는 링크를 포함하는 문서의 품질의 크게 기여할 수 있다. 다만, 링크를 포함하는 문서가 검색 질의에 대해 관련도가 높지만, 링크로 연결된 문서가 검색 질의에 대해 관련도가 낮다면 링크로 연결된 문서는 링크를 포함하는 문서의 품질에 기여하지 않을 수 있다.
예를 들어, 자동자 관련 문서에 책 관련 문서가 링크로 연결되어 있다고 가정하자. 두 문서가 자동차에 관련된 키워드를 다수 포함하고 있다면, 책 관련 문서는 자동차 관련 책에 대한 내용을 포함하고 있을 수 있으므로 자동차 관련 문서의 품질에 기여하고 있다고 판단될 수 있다.
그러나, 책 관련 문서가 자동차 관련된 키워드를 포함하고 있지 않다면, 단순한 광고 문서이거나 다른 의도로 연결된 문서일 수 있다. 이 경우, 책 관련 문서는 자동차 관련 문서의 품질에 기여하지 않는다고 판단될 수 있다.
(3) 순위에 따른 사용자들의 관심도
검색 결과에서 문서의 상대적인 랭킹이 중요하며, 사용자들은 자신이 원하는 정보가 검색 결과의 첫 페이지에 노출되기를 원할 수 있다. 만약, 문서 순위 결정 시스템이 상위 1~10위에 해당하는 문서를 출력하는 경우, 사용자들은 순위가 1위에 위치한 문서에 민감하지만, 순위가 200~300 사이에 위치한 문서는 어느 위치에 해당하더라도 중요하게 생각하지 않는다.
따라서, 본 발명의 일실시예에 따른 문서 순위 결정 시스템은 미리 설정한 상위 순위에 해당하는 문서의 상대적인 순위를 하위 순위에 해당하는 문서보다 정확하게 결정할 수 있다. 상위 순위에 해당하는 문서의 상대적인 순위를 정확하게 결정하더라도, 사용자는 검색 결과에 만족할 수 있으며, 수많은 문서에 대해 정확한 순위를 결정할 필요가 없어 검색 결과를 도출하기 위해 필요한 자원이 절약될 수 있다.
상기 기본 개념을 기초로 하여 도 5에 적용하면, 문서 순위 결정 시스템은 키워드 A(506)에 대해 문서 X(501), 문서 Y1(502) 및 문서 Z1(503)의 내용 점수와 기여 점수를 계산하고, 내용 점수와 기여 점수를 조합하여 키워드 A(506)에 대해 문서 순위를 결정하기 위한 문서 순위 점수(C-Rank)를 결정할 수 있다.
마찬가지로, 문서 순위 결정 시스템은 키워드 B(507)에 대해 문서 X(501), 문서 Y2(504) 및 문서 Z2(505)의 내용 점수와 기여 점수를 계산하고, 내용 점수와 기여 점수를 조합하여 키워드 B(507)에 대해 문서 순위를 결정하기 위한 문서 순위 점수(C-Rank)를 결정할 수 있다. 최종적으로 결정된 문서 순위는 문서와 키워드의 쌍에 대해 결정된 문서 순위 점수를 배열하여 결정될 수 있다 (도 5를 참고하면, CA(X) 등).
도 6은 본 발명의 일실시예에 따른 공통 키워드에 대한 문서의 기여 계수를 결정하는 과정을 설명하기 위한 도면이다.
문서 순위 결정 시스템은 공통 키워드에 대해 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 이 때, 기여 계수는 제1 문서가 제2 문서의 가치에 기여하는 계수를 의미할 수 있다.
도 6을 참고하면, 문서 q(601)가 복수의 d단계의 링크 경로를 거쳐서 문서 p(604)에 도달하는 문서의 집합이 도시되어 있다. 이러한 링크 경로에 대응하는 문서의 집합을 D(p,d)라고 가정한다. 이 때, 문서 p(604)가 제1 문서에 대응하고, 문서 p(604)에 도달하는 문서의 집합이 제2 문서에 대응할 수 있다.
일례로, 문서 순위 결정 시스템은 하기 수학식 15에 따라 문서 순위를 결정할 수 있다. 이 때, 수학식 15는 기본 모델에 의해 문서 순위를 결정하는 것을 의미한다.
는 문서 P(604)의 내용을 고려한 키워드 t(605)에 대해 문서 p(604)의 내용 점수를 의미하고, 는 키워드 t(605)에 대해 제1 문서인 문서 P(604)의 제2 문서들인 문서 q(601), r1(602) ~ rd -1(603)에 대한 기여 점수를 의미한다.
이 때, 는 문서 P(604)가 링크 경로를 d 단계만큼 역으로 거슬러 올라갔을 때 만나는 문서 q(601)에 기여하는 기여 계수로, 제1 문서인 문서 p(604)의 제2 문서인 문서 q(601)에 대한 기여 계수(contribution coefficient)를 의미한다.
수학식 15에서 볼 수 있듯이, 문서 순위 결정 시스템은 제1 문서인 문서 p(604)의 제2 문서인 문서 q(601)에 대한 기여 계수에 제2 문서의 내용 점수를 적용하여 제1 문서의 기여 점수를 계산할 수 있다.
만약, 도 6과 같이, 제2 문서(문서 q(601))로부터 제1 문서(문서 p(604))에 도달하는 복수의 단계의 링크를 포함하는 링크 경로가 존재하는 경우, 문서 순위 결정 시스템은 링크 경로에 대응하는 문서(문서 r1(602) 내지 문서 rd -1(603))의 기여 계수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 일례로, 문서 순위 결정 시스템은 하기 수학식 16에 따라 기여 계수를 결정할 수 있다.
이 때, 수학식 16은 도 6에 도시된 것과 같이 복수의 d 단계의 링크 경로를 거쳐서 문서 q(601)로부터 문서 p(604)에 도달하는 q ⇒ r1 ⇒ r2 ⇒ … ⇒ rd -1 ⇒ p 링크 경로를 고려한 것이다. 수학식 16을 참고하면, 제1 문서의 제2 문서에 대한 기여 계수()는 링크 경로에 대응하는 문서(문서 r1(602) 내지 문서 rd -1(603))의 기여 계수에 의해 결정될 수 있다. 여기서, 링크 경로에 대응하는 문서의 기여 계수는 링크 경로 상에서 인접하는 문서들 간의 기여 계수(예를 들면, r1 ⇒ r2 의 링크에서 r2의 r1에 대한 기여 계수)를 이용하여 결정될 수 있다.
본 발명의 일실시예에 따르면, 문서 순위 결정 시스템은 제1 문서와 제2 문서가 하나의 링크로 연결되는 경우, 제1 문서의 내용 점수, 제2 문서의 내용 점수 및 제2 문서의 아웃 링크에 대응하는 제3 문서의 내용 점수를 이용하여 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다. 일례로, 제1 문서와 제2 문서가 하나의 링크로 연결되는 경우, 문서 순위 결정 시스템은 하기 수학식 17과 같이 제1 문서의 제2 문서에 대한 기여 계수를 결정할 수 있다.
수학식 17을 참고하면, 문서 순위 결정 시스템은 제1 문서(문서 p(604))의 내용 점수에 비례하고, 제2 문서(문서 rd -1(603))의 내용 점수 및 제3 문서의 내용 점수에 반비례하는 제1 문서의 제2 문서에 대한 기여 계수()를 결정할 수 있다. 이 때, 제2 문서(문서 rd -1(603))의 아웃링크에 대응하는 제3 문서가 많을수록, 제1 문서의 제2 문서에 대한 기여 계수는 감소할 수 있다.
수학식 17을 참고하면, 제1 문서(문서 p(604))가 제2 문서(문서 rd -1(603))보다 키워드 t(605)와의 관련도가 높을수록(즉,가 보다 클수록), 제1 문서의 제2 문서에 대한 기여 계수()는 증가할 수 있다. 그리고, 제2 문서(rd-1(603))가 제1 문서(문서 p(604))보다 키워드 t(605)와의 관련도가 높을수록 (즉, 가 보다 클수록), 제1 문서의 제2 문서에 대한 기여 계수()는 감소할 수 있다.
또한, 제2 문서(문서 rd -1(603))에 포함된 키워드 t(605)에 대한 정보를 보완하기 위해 제2 문서(문서 rd -1(603))에 아웃링크로 연결한 제3 문서의 개수가 많을수록(즉,에서, 문서 r의 개수가 증가할수록), 제1 문서의 제2 문서에 대한 기여 계수()는 감소할 수 있다. 이 때, 제3 문서는 제2 문서에 키워드를 보완하기 위해 링크로 연결된 문서 전체를 의미할 수 있다.
예를 들어, 문서 p, 문서 q 및 문서 r이 r⇒q⇒p와 같이 링크로 연결되어 있다고 가정하자. 이와 같은 링크를 도 6의 설명을 적용하면 다음과 같다.
수학식 15를 참고하면, 문서 q의 r에 대한 기여 점수는 이다. 그리고, 수학식 15를 참고하면, 문서 p의 문서 q 및 문서 r에 대한 기여 점수는 각각 와 이다. 수학식 16을 참고하면, 문서 p의 문서 r에 대한 기여 점수 는 이다.
따라서, 문서 p의 문서 q와 문서 r에 대한 기여 점수는 이다. 그러므로, 문서 q의 상위 문서(문서 r)에 대한 기여 계수()와 문서 q의 내용 점수()를 알면 문서 p의 문서 q와 문서 q의 상위 문서들(문서 r)에 대한 기여 점수 를 알 수 있다.
도 7은 본 발명의 일실시예에 따른 공통 키워드에 대한 문서의 축적 계수를 계산하는 과정을 설명하기 위한 도면이다.
문서 순위 결정 시스템은 공통 키워드에 대해 제1 문서의 기여 점수 중 제1 문서가 직접 기여한 점수의 비율인 제1 문서의 축적 계수를 계산할 수 있다. 축적 계수는 문서 순위를 결정하는 방식 중 총합 불변 모델 및 하이브리드 모델에 적용될 수 있다.
일례로, 문서 순위 결정 시스템은 내용 점수 및 기여 점수에 축적 계수를 적용하거나(총합 불변 모델) 또는 기여 점수에 축적 계수를 적용하여(하이브리드 모델) 문서 순위를 결정할 수 있다.
일례로, 문서 순위 결정 시스템은 하기 수학식 18에 따라 축적 계수를 계산할 수 있다.
여기서, 는 키워드 t에 대한 제1 문서(문서 p)의 축적 계수를 의미한다. 문서 순위 결정 시스템은 제1 문서의 내용 점수()와 상기 제1 문서의 아웃 링크에 대응하는 문서의 제4 문서(문서 r)의 내용 점수( )를 이용하여 제1 문서의 축적 계수를 계산할 수 있다. 축적 계수는 제1 문서의 제2 문서에 대한 기여 점수 중 제1 문서가 직접 기여한 점수의 비율을 의미할 수 있다.
예를 들면, 도 7을 참고하면, 문서 q(701)에 기여하는 문서가 문서 p(702)와 문서 o(r1(703), r2(704), r3(705))이라고 가정하자. 문서 q(701)에 대한 기여 점수는 문서 o의 문서 q(701)에 대한 기여 점수와 문서 p(702)의 문서 q(701)에 대한 기여 점수를 합한 것을 의미할 수 있다. 이 때, 문서 p(702)의 축적 계수는 문서 q(701)에 대한 기여 점수 중 문서 p(702)가 문서 q(701)에 직접 기여한 기여 점수의 비율을 의미할 수 있다. 이 때, 기여 점수 및 축적 계수는 키워드 t(704)에 대한 것이다.
이 때, 총합 불변 모델에 의하면, 제1 문서(문서 p(702))의 축적 계수와 제7 문서(문서 r1(703) 내지 문서 r2(704) 내지 문서 r3(705))의 기여 계수를 적용한 총합이 미리 설정한 값(수학식 19에 의하면, 1임)과 동일할 수 있다. 여기서, 수학식 19에 의하면, 문서 p의 축적 계수와 문서 p의 아웃링크에 대응하는 문서 r의 기여 계수의 총합은 1이다.
이는 공통 키워드에 대해 해당 문서(도 7에서, 문서 p(702))의 상위 문서(문서 q(701))에 대한 기여 점수는 해당 문서의 자신의 기여 점수와 해당 문서의 아웃링크로 연결된 하위 문서(도 7에서, 문서 r1(703) 내지 문서 r7(706))에 의한 기여 점수의 합과 같은 것을 의미할 수 있다.
상위 문서에 대한 기여 점수가 고정되어 있는 만큼, 해당 문서의 아웃링크가 증가하여 하위 문서에 의한 기여 점수가 증가하면, 해당 문서의 자신의 기여 점수는 감소할 수 있다. 결국, 전체 웹 그래프에서 모든 문서의 문서 순위 점수의 총합은 하기 수학식 20과 같이 모든 문서의 내용 점수의 총합과 같다.
따라서, 수학식 20에 의하면, 문서(도 7의 문서 P(702))에 아웃링크가 추가될수록 문서(도 7의 문서 P(702))의 문서 순위 점수가 감소하므로, 아웃링크의 남용을 방지할 수 있다.
최종적으로, 총합 불변 모델에서 문서 순위 점수는 하기 수학식 21과 같이 결정될 수 있다.
즉, 수학식 21에 의하면, 키워드 t에 대한 문서 p의 문서 순위 점수()는 문서 p의 축적 계수()가 적용된 내용 점수()와 문서 p의 축적 계수()가 적용된 문서 p의 문서 q에 대한 기여 점수()의 합으로 결정될 수 있다.
그리고, 하이브리드 모델에서 문서 순위 점수는 하기 수학식 22과 같이 결정될 수 있다.
즉, 수학식 22에 의하면, 키워드 t에 대한 문서 p의 문서 순위 점수()는 문서 p의 내용 점수()와 문서 p의 축적 계수()가 적용된 문서 p의 문서 q에 대한 기여 점수()의 합으로 결정될 수 있다.
하이브리드 모델에서 수학식 20과 수학식 22를 적용하면, 하기 수학식 23이 도출될 수 있다.
여기서, Tt는 하이브리드 모델에서 문서 순위 점수의 총합을 의미한다. 수학식 23에 의하면, 하이브리드 모델에서, 모든 문서 순위 점수의 총합은 모든 문서의 내용 점수의 총합의 2배보다 작거나 같음을 알 수 있다.
주어진 키워드에 대한 모든 문서들의 문서 순위 점수는 하기 수학식 24와 같이 결정될 수 있다. 하기 수학식 24는 하이브리드 모델에 의한 것으로, 이하의 설명은 기본 모델 및 총합 불변 모델에 동일하게 적용될 수 있다.
수학식 24에서, 는 키워드 t에 대한 문서 p의 문서 순위 점수를 의미한다. 는 키워드 t에 대한 문서 p의 내용 점수를 의미하고, 는 키워드 t에 대한 문서 p의 축적 계수, 는 키워드 t에 대해 단계 d의 링크로 연결된 문서 p의 문서 q에 대한 기여 가치(기여 계수와 내용 점수의 곱)을 의미한다.
키워드 t에 대한 문서 p의 문서 순위 점수는 다음과 같은 전처리 과정과 반복 계산 과정에 따라 계산될 수 있다.
여기서, S1, S2는 전처리 과정이고, S3, S4, S5 및 S6은 반복 계산 과정을 의미한다. 전처리 단계의 S1에 의하면, 문서 순위 결정 시스템은 모든 문서들(문서 p)에 대해서 포함하는 키워드 t에 대한 내용 점수를 계산한다. 전처리 단계의 S2에 의하면, 문서 순위 결정 시스템은 공통 키워드에 대하여 기여 계수를 계산하고, 공통 키워드에 대한 축적 계수를 계산한다.
반복 계산 단계의 S3에 의하면, 문서 순위 결정 시스템은 내용 점수를 문서 순위 점수(C-Rank)에 합산한다. 반복 계산 단계의 S4에 의하면, 문서 순위 결정 시스템은 각 문서에 대해서 아웃링크로 연결된 문서의 기여 가치를 계산한다. 반복 계산 단계의 S5에 의하면, 문서 순위 결정 시스템은 계산된 기여 가치와 축적 계수를 곱한 결과를 문서 순위 점수(C-Rank)에 합산한다. 반복 계산 단계의 S6에 의하면, 문서 순위 결정 시스템은 기여 가치가 주어진 임계값 이상인 (문서, 키워드) 쌍에 대해서 S7와 S5를 반복한다. 모든 (문서, 키워드) 쌍에 대해서 기여 가치가 이하이면 계산을 종료한다.
이 때, 반복 작업 중 일부 문서의 기여 가치가 임계값 이하인 경우가 발생하면, 그 값을 미합산 기여 가치에 누적하여 보관한다. 반복 계산이 진행되면 먼 거리에 있는 문서나 다른 경로에 있는 문서에 의해서 미합산 기여 가치가 임계값 이상이 될 수 있다. 이 상황이 되면 문서 순위 결정 시스템은 축적 계수를 곱한 후 문서 순위 점수(C-Rank)에 누적하고 아웃링크로 연결된 문서의 기여 가치 계산에 사용한다.
문서 순위 결정 시스템은 여러 단계의 링크로 연결된 문서들의 기여 계수에 대한 연관 관계에 의하여 링크 구조의 상위 문서들에 대한 기여 계수를 알면 자신의 기여 계수를 계산할 수 있다는 특성을 통해 문서 순위 점수(C-Rank)의 동적 갱신이 가능할 수 있다.
이 후, 문서 내용이 변경되는 경우, 문서 순위 결정 시스템은 이를 반영하여 문서 순위를 결정할 수 있다. 문서 내용이 변경되면, 문서의 내용 점수가 변경되고, 문서의 인링크와 관련된 기여 계수와 아웃링크와 관련된 기여 계수가 변경될 수 있다. 따라서, 내용이 변경된 문서를 링크로 지시하고 있는 문서들과 내용이 변경된 문서에서 시작하여 링크를 따라 도달할 수 있는 문서들의 문서 순위 점수가 변경될 수 있다.
마찬가지로, 링크가 추가되거나 링크가 삭제되는 경우, 문서의 기여 계수가 변경될 수 있다. 링크가 추가되는 경우, 추가된 링크에 의해 기여 계수가 발생할 수 있으며, 링크가 삭제되는 경우, 삭제된 링크에 의해 기여 계수가 발생되지 않을 수 있다.
또한, 문서가 추가 또는 삭제되는 경우, 링크의 추가 또는 삭제에 준하여 문서 순위 점수가 결정될 수 있다.
도 8은 본 발명의 일실시예에 따른 문서 순위 결정 방법의 전체 구성을 도시한 도면이다.
문서 순위 결정 시스템은 문서와 연관된 질의어 후보를 생성할 수 있다(S801). 구체적으로, 문서 순위 결정 시스템은 문서와 연관된 키워드를 이용하여 적어도 하나의 질의어 후보를 생성할 수 있다.
문서 순위 결정 시스템은 질의어 후보와 관련된 문서의 중요도를 계산할 수 있다(S802).
일례로, 문서 순위 결정 시스템은 질의어 후보와 관련된 문서의 문서 순위 점수에 기초하여 문서의 중요도를 계산할 수 있다. 구체적으로, 문서 순위 결정 시스템은 문서 순위 점수가 높을수록 문서의 중요도를 높게 계산할 수 있다.
다른 일례로, 문서 순위 결정 시스템은 질의어 후보와 관련된 문서의 순위에 기초하여 문서의 중요도를 계산할 수 있다. 즉, 문서 순위 결정 시스템은 문서의 순위가 높을수록 문서의 중요도를 높게 계산할 수 있다.
문서 순위 결정 시스템은 질의어 후보의 중요도를 계산할 수 있다(S803).
일례로, 문서 순위 결정 시스템은 질의어 후보에 동일한 중요도를 할당할 수 있다.
다른 일례로, 문서 순위 결정 시스템은 사용한 문서수에 기초하여 질의어 후보에 포함된 질의어 후보의 중요도를 계산할 수 있다. 구체적으로, 문서 순위 결정 시스템은 다수의 문서에서 사용되는 질의어 후보보다 소수의 문서에서 사용되는 질의어 후보를 보다 중요하게 판단할 수 있다.
또 다른 일례로, 문서 순위 결정 시스템은 사용자가 사용하는 빈도에 기초하여 질의어 후보에 포함된 질의어 후보의 중요도를 계산할 수 있다. 구체적으로, 문서 순위 결정 시스템은 전체 수집된 질의어들 중 사용자가 사용한 빈도를 고려하여 질의어 후보의 중요도를 계산할 수 있다.
또 다른 일례로, 문서 순위 결정 시스템은 사용자가 사용하는 질의어 후보의 길이에 기초하여 질의어 후보에 포함된 질의어 후보의 중요도를 계산할 수 있다. 구체적으로, 문서 순위 결정 시스템은 전체 수집된 질의어들 중 질의어 후보의 길이에 따라 분류한 후, 질의어의 길이별로 질의어 후보의 중요도를 계산할 수 있다.
또 다른 일례로, 문서 순위 결정 시스템은 사용자의 관심도에 기초하여 질의어 후보의 중요도를 계산할 수 있다. 즉, 문서 순위 결정 시스템은 최근에 사용자의 관심도가 높은 질의어 후보의 중요도를 높게 평가할 수 있다.
문서 순위 결정 시스템은 문서의 중요도 및 질의어 후보의 중요도를 이용하여 문서 순위를 결정할 수 있다(S804). 이 때, 문서 순위 결정 시스템은 질의어 후보 또는 질의어 후보를 구성하는 키워드 중 어느 하나에 기초하여 문서 순위를 결정할 수 있다. 즉, 문서 순위 결정 시스템은 질의어 후보 단위로 문서 순위를 결정하거나 또는 질의어 후보를 구성하는 키워드 단위로 문서 순위를 결정할 수 있다.
200: 문서 순위 결정 시스템 201: 질의어 후보 생성부
202: 중요도 계산부 203: 문서 순위 결정부
204: 문서 중요도 계산부 205: 질의어 후보 중요도 계산부
202: 중요도 계산부 203: 문서 순위 결정부
204: 문서 중요도 계산부 205: 질의어 후보 중요도 계산부
Claims (15)
- 사용자의 질의어가 입력되기 전에 문서와 연관된 키워드를 이용하여 적어도 하나의 키워드를 포함하는 질의어 후보를 생성하는 질의어 후보 생성부;
상기 질의어 후보와 관련된 문서에 링크로 연결된 문서들에 대한 정보인 링크 정보와 컨텐츠 정보에 기초한 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 중요도 계산부; 및
상기 문서의 중요도 및 상기 질의어 후보의 중요도를 이용하여 문서 순위를 결정하는 문서 순위 결정부를 포함하고,
상기 중요도 계산부는,
상기 질의어 후보와 관련된 제1 문서와 상기 제1 문서에 링크로 연결된 제2 문서에 공통으로 포함되는 키워드에 대해 상기 제1 문서가 상기 제2 문서의 가치에 기여하는 계수인 기여 계수를 결정하고 상기 결정된 기여 계수를 이용하여 상기 제1 문서의 중요도를 계산하는 것을 특징으로 하는 문서 순위 결정 시스템. - 삭제
- 제1항에 있어서,
상기 중요도 계산부는,
상기 질의어 후보와 관련된 문서의 순위에 기초하여 상기 문서의 중요도를 계산하는 문서 중요도 계산부
를 포함하는 문서 순위 결정 시스템. - 제1항에 있어서,
상기 중요도 계산부는,
상기 질의어 후보에 동일한 중요도를 할당하는 질의어 후보 중요도 계산부
를 포함하는 문서 순위 결정 시스템. - 제1항에 있어서,
상기 중요도 계산부는,
사용한 문서수, 사용자가 사용하는 빈도, 사용자가 사용하는 질의어의 길이 또는 사용자의 관심도 중 적어도 하나에 기초하여 상기 질의어 후보의 중요도를 계산하는 질의어 후보 중요도 계산부
를 포함하는 문서 순위 결정 시스템. - 제1항에 있어서,
상기 문서 순위 결정부는,
질의어 후보 또는 질의어 후보를 구성하는 키워드 중 어느 하나에 기초하여 문서 순위를 결정하는 것을 특징으로 하는 문서 순위 결정 시스템. - 제1항에 있어서,
상기 질의어 후보와 관련된 검색 요청을 수신하면, 상기 검색 요청에 대응하는 문서를 문서 순위에 따라 정렬하여 검색 결과로 제공하는 검색 결과 제공부
를 더 포함하는 문서 순위 결정 시스템. - 질의어 후보 생성부, 중요도 계산부, 및 문서 순위 결정부를 포함하는 문서 순위 결정 시스템이 수행하는 문서 순위 결정 방법에 있어서,
상기 질의어 후보 생성부가 사용자의 질의어가 입력되기 전에 문서와 연관된 키워드를 이용하여 적어도 하나의 키워드를 포함하는 질의어 후보를 생성하는 단계;
상기 중요도 계산부가 상기 질의어 후보와 관련된 문서에 링크로 연결된 문서들에 대한 정보인 링크 정보와 컨텐츠 정보에 기초한 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 단계; 및
상기 문서 순위 결정부가 상기 문서의 중요도 및 상기 질의어 후보의 중요도를 이용하여 문서 순위를 결정하는 단계
를 포함하고,
상기 중요도를 계산하는 단계는,
상기 질의어 후보와 관련된 제1 문서와 상기 제1 문서에 링크로 연결된 제2 문서에 공통으로 포함되는 키워드에 대해 상기 제1 문서가 상기 제2 문서의 가치에 기여하는 계수인 기여 계수를 결정하고 상기 결정된 기여 계수를 이용하여 상기 제1 문서의 중요도를 계산하는 단계인 것을 특징으로 하는 문서 순위 결정 방법. - 삭제
- 제8항에 있어서,
상기 질의어 후보와 관련된 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 단계는,
상기 질의어 후보와 관련된 문서의 순위에 기초하여 상기 문서의 중요도를 계산하는 것을 특징으로 하는 문서 순위 결정 방법. - 제8항에 있어서,
상기 질의어 후보와 관련된 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 단계는,
상기 질의어 후보에 동일한 중요도를 할당하는 것을 특징으로 하는 문서 순위 결정 방법. - 제8항에 있어서,
상기 질의어 후보와 관련된 문서의 중요도 및 상기 질의어 후보의 중요도를 계산하는 단계는,
사용한 문서수, 사용자가 사용하는 빈도, 사용자가 사용하는 질의어의 길이 또는 사용자의 관심도 중 적어도 하나에 기초하여 상기 질의어 후보의 중요도를 계산하는 것을 특징으로 하는 문서 순위 결정 방법. - 제8항에 있어서,
상기 문서 순위를 결정하는 단계는,
질의어 후보 또는 질의어 후보를 구성하는 키워드 중 어느 하나에 기초하여 문서 순위를 결정하는 것을 특징으로 하는 문서 순위 결정 방법. - 제8항에 있어서,
상기 문서 순위 결정 시스템은, 검색 결과 제공부를 더 포함하고,
상기 검색 결과 제공부가 상기 질의어 후보와 관련된 검색 요청을 수신하는 단계; 및
상기 검색 결과 제공부가 상기 검색 요청에 대응하는 문서를 문서 순위에 따라 정렬하여 검색 결과로 제공하는 단계
를 더 포함하는 문서 순위 결정 방법. - 제8항 및 제10항 내지 제14항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100073660A KR101371318B1 (ko) | 2010-07-29 | 2010-07-29 | 문서 순위 결정 시스템 및 방법 |
JP2011159293A JP5756702B2 (ja) | 2010-07-29 | 2011-07-20 | 文書順位決定システムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100073660A KR101371318B1 (ko) | 2010-07-29 | 2010-07-29 | 문서 순위 결정 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120011662A KR20120011662A (ko) | 2012-02-08 |
KR101371318B1 true KR101371318B1 (ko) | 2014-03-11 |
Family
ID=45835838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100073660A KR101371318B1 (ko) | 2010-07-29 | 2010-07-29 | 문서 순위 결정 시스템 및 방법 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5756702B2 (ko) |
KR (1) | KR101371318B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101747532B1 (ko) * | 2015-09-23 | 2017-06-16 | 네이버 주식회사 | 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102008386B1 (ko) * | 2017-09-14 | 2019-08-08 | 인하대학교 산학협력단 | 재현율 기반의 특허 검색 엔진 평가 시스템 및 그 방법 |
KR102008387B1 (ko) * | 2018-04-30 | 2019-08-07 | 인하대학교 산학협력단 | 비재현율 기반의 특허 검색 엔진 평가 시스템 및 그 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR970049752A (ko) * | 1995-12-20 | 1997-07-29 | 양승택 | 동사정보를 이용한 한국어 자연어 질의 정보검색 방법 |
KR20100068532A (ko) * | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0520362A (ja) * | 1991-07-10 | 1993-01-29 | Tokyo Electric Power Co Inc:The | 文書テキスト間の連鎖自動作成システム |
JP4466334B2 (ja) * | 2004-11-08 | 2010-05-26 | 日本電信電話株式会社 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2007241451A (ja) * | 2006-03-06 | 2007-09-20 | Fuji Xerox Co Ltd | 情報収集支援装置 |
JP2010026692A (ja) * | 2008-07-17 | 2010-02-04 | Konica Minolta Holdings Inc | ドキュメント情報の表示方法、表示システム及びドキュメントビューワー |
-
2010
- 2010-07-29 KR KR1020100073660A patent/KR101371318B1/ko active IP Right Grant
-
2011
- 2011-07-20 JP JP2011159293A patent/JP5756702B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR970049752A (ko) * | 1995-12-20 | 1997-07-29 | 양승택 | 동사정보를 이용한 한국어 자연어 질의 정보검색 방법 |
KR20100068532A (ko) * | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101747532B1 (ko) * | 2015-09-23 | 2017-06-16 | 네이버 주식회사 | 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20120011662A (ko) | 2012-02-08 |
JP5756702B2 (ja) | 2015-07-29 |
JP2012033167A (ja) | 2012-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100898456B1 (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
US8255391B2 (en) | System and method for generating an approximation of a search engine ranking algorithm | |
CN100483408C (zh) | 在多个文档之间建立链接结构的方法和装置 | |
CN100504866C (zh) | 一种综合搜索结果的排序系统及方法 | |
US9292863B2 (en) | Representative keyword selection | |
Seo et al. | Blog site search using resource selection | |
KR20100107610A (ko) | 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법 | |
US20020184212A1 (en) | Information use frequency prediction program, information use frequency prediction method, and information use frequency prediction apparatus | |
US20030221163A1 (en) | Using web structure for classifying and describing web pages | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
JPWO2007108529A1 (ja) | 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
CN101916294A (zh) | 一种利用语义分析实现精确搜索的方法 | |
WO2007011129A1 (en) | Information search method and information search apparatus on which information value is reflected | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 | |
US20100205200A1 (en) | Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm | |
KR101371318B1 (ko) | 문서 순위 결정 시스템 및 방법 | |
US20080114742A1 (en) | Object entity searching method and object entity searching device | |
KR101178208B1 (ko) | 키워드 추출 장치 및 방법 | |
JP5406313B2 (ja) | 寄与スコアに基づいた文書順位決定システムおよび方法 | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
US20070100813A1 (en) | System and method for labeling a document | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2017134870A (ja) | 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
J301 | Trial decision |
Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20120731 Effective date: 20140129 |
|
S901 | Examination by remand of revocation | ||
GRNO | Decision to grant (after opposition) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170117 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180102 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 6 |