KR100311355B1 - 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법 - Google Patents

링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법 Download PDF

Info

Publication number
KR100311355B1
KR100311355B1 KR1019990012010A KR19990012010A KR100311355B1 KR 100311355 B1 KR100311355 B1 KR 100311355B1 KR 1019990012010 A KR1019990012010 A KR 1019990012010A KR 19990012010 A KR19990012010 A KR 19990012010A KR 100311355 B1 KR100311355 B1 KR 100311355B1
Authority
KR
South Korea
Prior art keywords
link
document
information
documents
link information
Prior art date
Application number
KR1019990012010A
Other languages
English (en)
Other versions
KR20000065588A (ko
Inventor
맹성현
주원균
Original Assignee
맹성현
주원균
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 맹성현, 주원균 filed Critical 맹성현
Priority to KR1019990012010A priority Critical patent/KR100311355B1/ko
Publication of KR20000065588A publication Critical patent/KR20000065588A/ko
Application granted granted Critical
Publication of KR100311355B1 publication Critical patent/KR100311355B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 링크 정보에 의한 영향을 검색에 반영시켜 검색 신뢰도를 향상시켜 사용자의 요구를 만족시켜주는 정보 검색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 검색하고자 하는 문서 집합을 검색하여 초기 검색 집합을 구성하는 제 1 단계; 상기 링크 타입의 구분에 따른 링크 정보를 사용하여 타 문서를 포함하도록 상기 초기 검색 집합을 확장시켜 확장 집합을 결정하는 제 2 단계; 및 상기 링크 정보를 활용하여 상기 확장 집합에 있는 문서들의 적합성을 재평가하여 검색 결과를 생성하는 제 3 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 디지털 도서관 및 정보 검색 시스템 등에 응용됨.

Description

링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법{An Information Retrieval method that Incorporates Different Types of Links}
본 발명은 일반적인 문서 정보 및 웹 정보 등을 검색하기 위한 정보 검색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 링크 타입의 구분에 따른 링크 정보를 이용하여 정보를 검색하는 정보 검색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로 사용자는 하이퍼텍스트와 브라우징을 통해 구조화된 정보 공간으로부터 정보를 효과적으로 얻을 수 있으며, 기대되지 않은 아이템(문서)들을 우연히 찾아 낼 수도 있다.
그러나, 웹 상의 검색 엔진들은 브라우징과 검색의 결합이 없이 단지 문서들이 독립적인 단위로 되어 있다는 가정 하에서, 질의와 문서 사이의 관계 정도를 결정하기 위한 수단으로 문서 또는 전체 문서 집합의 단어 빈도수를 사용하여 문서를 검색함으로써, 사용자들의 높은 요구를 충족시킬 수 없는 문제점이 있었다.
즉, 현재 웹에서의 검색은 문서를 독립적인 단위로 보고 질의어와 문서 사이의 관계 정도를 결정하기 위한 수단으로 문서 또는 문서 집합의 단어 빈도수를 사용하고 있다. 그러나, 웹 상의 문서들은 하이퍼링크에 의해서 서로 다른 문서들과 관계를 맺고 있어 현재의 검색 엔진으로는 양질의 검색 결과를 얻을 수 없는 문제점이 있었다.
본 발명은 상기 문제점을 해결하기 위하여 안출된 것으로, 링크 정보에 의한 영향을 검색에 반영시켜 검색 신뢰도를 향상시켜 사용자의 요구를 만족시켜주는 정보 검색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
즉, 본 발명은, 문서에 존재하는 링크의 속성을 문서와 질의어간에 유사도를 계산할 때 선별적으로 적용함으로써 검색 신뢰도를 향상시켜 사용자의 요구를 만족시켜주는 정보 검색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
즉, 본 발명은, 문서 집합을 검색하여 초기 검색 집합을 구성한 후에 링크 정보를 사용하여 외부 문서(부가적인 문서)를 포함하도록 초기 검색 집합을 확장시켜 확장 집합을 결정한 다음에 링크 정보를 활용하여 확장 집합에 있는 문서들의 적합성을 재평가하여 최종 검색 결과를 생성하는 정보 검색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1a 및 1b 는 본 발명에 따른 링크의 방향성(directionality)과 직접성(directness)에 대한 설명도.
도 2 는 본 발명에 따른 링크 정보를 이용한 정보 검색 방법에 대한 시나리오의 일예시도.
도 3 은 본 발명에 따른 링크 정보를 이용한 정보 검색 방법에 대한 일실시예 흐름도.
도 4 는 본 발명에 따른 링크 정보 데이터베이스의 일실시예 구조도.
도 5 는 도 3 의 초기 검색 집합 구성 과정에 대한 시나리오의 일예시도.
도 6 은 도 3 의 초기 검색 과정에 대한 일실시예 상세 흐름도.
도 7 은 도 3 의 확장 집합 결정 과정과 링크 정보 재랭킹 과정에 대한 시나리오의 일예시도.
도 8 은 도 3 의 확장 집합 결정 과정과 링크 정보 재랭킹 과정에 대한 일실시예 상세 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
201 : 벡터 공간 모델 202 : 색인 정보 데이터베이스
203 : 링크 기반 검색 모듈 204 : 링크 정보 데이터베이스
상기 목적을 달성하기 위하여 본 발명은, 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법에 있어서, 검색하고자 하는 문서 집합을 검색하여 초기 검색 집합을 구성하는 제 1 단계; 상기 링크 타입의 구분에 따른 링크 정보를 사용하여 타 문서를 포함하도록 상기 초기 검색 집합을 확장시켜 확장 집합을 결정하는 제 2 단계; 및 상기 링크 정보를 활용하여 상기 확장 집합에 있는 문서들의 적합성을 재평가하여 검색 결과를 생성하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은, 대용량 프로세서를 구비한 정보 검색 시스템에, 검색하고자 하는 문서 집합을 검색하여 초기 검색 집합을 구성하는 제 1 기능; 상기 링크 타입의 구분에 따른 링크 정보를 사용하여 타 문서를 포함하도록 상기 초기 검색 집합을 확장시켜 확장 집합을 결정하는 제 2 기능; 및 상기 링크 정보를 활용하여 상기 확장 집합에 있는 문서들의 적합성을 재평가하여 검색 결과를 생성하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
이하의 본 발명에서는 문서의 의미가 순차적인 텍스트 그 자체에 있는 것이아니라 다른 문서들과의 관계로부터 영향을 받고 유도될 수 있으며, 그 관계는 다양한 링크 타입으로 표현된다는 가정을 전제로 하여 검색 과정에 링크 정보를 사용할 수 있는 방법을 제시하고, 다양한 링크 타입들이 미치는 영향력에 근거하여, 최종적으로 링크 정보가 검색 신뢰도를 향상시키는 방법에 대하여 살펴보기로 한다.
도 1a 및 1b 는 본 발명에 따른 정보 검색 방법에 사용된 링크 속성을 나타내는 도면으로서, 링크의 방향성(directionality)(도 1a)과 직접성(directness)(도 1b)에 대한 설명도이다.
먼저, 링크에 기반한 검색을 하기 위해서는 우선 링크의 속성에 대한 정의가 있어야 한다. 본 발명에서는 링크의 속성을 링크의 방향성과 직접성 및 질의어 여부의 세 가지 측면에 초점을 맞추었다. 도 1a 에 도시된 바와 같이, 방향성은 출력 링크와 입력 링크사이의 차별을 두기 위한 것이다. 도 1b 에 도시된 바와 같이, 직접성에 대해서는 직접 링크와 간접 링크를 정의하는데, 직접 링크는 그 의미처럼 두 문서가 링크에 의해 직접 연결되어 있는 것을 말하며, 위에서 언급된 출력 및 입력 링크들은 모두 직접 링크의 예이다. 간접 링크는 문서 A와 문서 B가 공통적으로 문서 C에 대한 출력 링크를 가지거나 똑같은 문서 C로부터 입력 링크를 가질 때, 문서 A와 문서 B사이에 존재하는 링크를 말한다.
이러한 각 링크의 속성에 따라 적용되는 수학식을 달리하여 링크 정보를 문서 검색에 선별적으로 적용함으로써, 검색 효과를 최대로 높일 수 있다.
즉, 본 발명에서는 다양한 타입의 하이퍼링크를 사용하는 방법에 주안점을 두었는데, 입력과 출력 링크의 구분, 직접과 간접 링크의 구분, 링크의 앵커가 질의어인지 비질의어인지의 구분에 따라 문서의 유사도를 조정함으로써, 정보 검색의 신뢰도를 향상시킨다.
도 2 는 본 발명에 따른 링크 정보를 이용한 정보 검색 방법에 대한 시나리오의 일예시도이고, 도 3 은 본 발명에 따른 링크 정보를 이용한 정보 검색 방법에 대한 일실시예 흐름도이다.
먼저, 벡터 공간 모델(vector space model)(202)을 통해 문서 집합을 검색하여 초기 검색 집합을 구성한다(301). 그 상세한 방법을 살펴보면 다음과 같다.
상기 초기 검색 집합 구성 과정(301)은 벡터 공간 모델(201)과 색인 정보 데이터베이스(202)를 사용한 일반적인 문서 검색 과정으로, 문서 i에 나타나는 단어 j에 대한 가중치 wij를 계산하기 위해 아래의 (수학식1)을 사용한다.
여기서, ntf(normalized term frequency)는 문서에 있는 최대 단어 빈도수에 의해 정규화된 전체 빈도이며, nidf(normalized inverse document frequency)는 단어에 대한 정규화된 역 문서 빈도이고, n은 문서 집합에 있는 전체 문서 수이다. 질의 Q의 문서 Di에 대한 검색 상태 값(Retrieval Status Value)은 코사인 유사도 값을 가진다. 그 값은 아래의 (수학식2)와 같이 계산된다.
여기서, t는 질의어에 포함된 단어 수를 나타내며, 이 과정이 모두 끝났을 때 적어도 하나의 질의 단어를 가진 문서들이 절단점에 따라 보여진다.
다음으로, 링크정보를 사용하여 초기 검색 집합을 외부 문서라는 부가적인 문서를 포함하도록 확장시켜 확장 집합을 결정한다(302). 그 상세한 방법을 살펴보면 다음과 같다.
상기 확장 집합 결정 과정(302)은 링크 기반 검색 모듈(203)과 링크 정보 데이터베이스를 사용한 문서 검색 과정으로, 출력 링크를 이용하여 초기 검색 집합에 있는 문서들과 그 집합밖에 있는 문서(외부에 있는 부가적인 문서)들과의 연결 관계를 조사한 후에, 링크에 의해 초기 검색 집합에 연결되어 있는 문서들을 초기 검색 집합에 포함시켜 확장 집합을 결정한다. 이 과정은 일종의 피드백의 형식을 취하는데, 초기 검색 집합에 있는 상위 랭크된 문서와 원래의 질의가 결합되어 확장 질의를 형성하고, 이 확장 질의와 초기 검색 문서들과의 연결 관계에 따라 부가적인 문서들이 검색된다.
확장 문서들은 보통 질의 단어를 포함하고 있지 않기 때문에 단순히 상기 (수학식2)를 적용하여 검색 상태 값(RSV)을 계산하는 것은 불가능하다. 확장 문서들에 검색 상태 값(RSV)을 할당하기 위해서 링크로 연결된 원본 문서로부터의 검색 상태 값(RSV)을 계승하도록 하고, 이때 그들 사이의 유사도를 반영한다. 수식으로표현하면 아래의 (수학식3)과 같다.
이때, 0 ≤ Sim(Din, Dex) ≤ 1이다. 또한, 외부 문서에 대해 둘 이상의 입력 링크가 있을 경우에는 상기 (수학식3)을 사용하여 각 링크들에 대한 검색 상태 값(RSV)들을 계산하고 최대 값을 고른다. 외부 문서가 많은 입력 링크를 가질수록 높은 검색 상태 값(RSV)을 가지며, 질의를 보다 만족시킨다고 가정한다면 뎀스터-세이퍼(Dempster-Shafer) 결합 규칙을 사용하여 입력 링크들의 가치를 반영하는 것도 가능하다.
다음으로, 문서들 사이에 존재하는 링크 정보를 활용하여 확장 집합에 있는 문서들의 적합성을 재평가하여 최종 검색 결과를 생성한다(303). 즉, 링크 정보를 혼합(재랭킹)하여 검색 결과를 생성한다. 그 상세한 방법을 살펴보면 다음과 같다.
상기 링크 정보의 혼합(재랭킹) 과정(303)은, 집합 전체에 걸쳐 있는 링크 정보를 이용하여 후보 문서들을 모두 재랭킹하는 과정이다. 새로운 문서(외부 문서)는 검색된 내부 문서 리스트의 다양한 위치에 삽입될 수 있고, 검색 상태 값(RSV)이 새로 계산되기 때문에 내부 문서에 대한 초기 랭킹이 바뀔 수도 있다. 기본 알고리즘은 문서들이 링크를 통해 연결되었을 때 각각이 서로에게 미치는 영향력을 반영하는 것이다. 첫 단계에서 링크 후보들은 대체로 질의에 적합한 것으로가정했기에, 문서들이 더 많은 링크 후보들을 가질수록 주어진 질의에 대해 밀착된 형태를 취한다. 링크의 타입에 따라 문서들간의 관계에 미치는 영향력이 다르기에, 링크의 영향력은 직접/간접 링크로 나누어 따로 분석한다.
이제, 직접 링크에 의한 영향을 살펴보면 다음과 같다.
직접 링크는 입력 링크/출력 링크에 따른 링크의 방향성과 앵커의 질의어/비질의어 여부에 따라 더 분류될 수 있다. 네 가지의 경우를 고려하여, 주어진 문서 D에 대한 직접 링크의 영향을 계산하기 위해 아래의 (수학식4)를 사용한다.
상기 (수학식4)의 각 항은 다음을 나타낸다. 첫 번째 항은 D에 있는 질의어로부터 나가는 링크의 영향, 두 번째 항은 D의 비질의어로부터 나가는 링크, 세 번째 항은 다른 문서의 질의어로부터의 입력 링크, 네 번째 항은 다른 문서에 있는 비질의어로부터의 입력 링크를 나타낸다. 그리고, 상기 각 항들은 연산자로 표시되는 뎀스터-세이퍼(Dempster-Shafer) 결합 규칙에 따라 결합된다.
또한, 상기 (수학식4)에서 αi는 4가지 타입의 링크의 강도 또는 중요도를 나타내는 매개변수로서, 정확한 값은 실험에 의해 결정되며, r, s, t, w 는 각각 문서 D로부터 출발하거나 문서 D를 가리키는 4가지 다른 타입의 링크 수를 나타낸다. 또한, 심벌는 합의 일반적인 의미가 아니라의 의미를 갖는데, 이것은 각각의 항목의 값이 절대 1을 초과하지 않음을 보장한다. 문서 D에 대한 새로운 검색 상태 값(RSV)은 아래의 (수학식5)와 같은 방법으로 계산된다.
다음으로, 간접 링크에 의한 영향을 살펴보면 다음과 같다.
두 문서 A와 B가 같은 문서에 대한 링크를 가질 때, 그들 문서 사이의 관계를 가정해 볼 수 있다. 마찬가지로 한 문서가 두개의 문서에 대해 분리된 링크를 가질 때, 두 문서 사이의 관계도 고려해 볼 수 있다. 같은 목적지를 가짐으로써 생기는, Di와 Dj사이의 링크 강도를 계산하기 위해서는, 얼마나 많은 링크들이 Di와Dj를 출발하여 같은 목적지를 가지는지를 고려해야 한다. 강도 σi,j는 아래의 (수학식6)과 같이 계산될 수 있다.
여기서, || 는 링크의 수를 나타내며, Li는 Di로부터 나가는 링크, Lj는 Dj로부터 나가는 링크, Lij는 Di와 Dj로부터 출발하여 같은 목적지를 가지는 두 링크의 쌍을 나타낸다. Di와 Dk를 가리키는 문서에 의한 간접 링크의 강도도 유사한 방법으로 계산될 수 있다. 문서 Dj와 Dk가 주어졌을 때, 문서 Di에 대한 간접 링크의 영향은 아래의 (수학식7)과 같이 계산된다.
그리고, 직접/간접 링크의 효과를 고려할 때, 문서 D에 대한 최종 검색 상태 값(RSV)은 아래의 (수학식8)과 같이 계산된다.
여기서, 매개변수 α4는 실험에 의해 결정되며, 다른 매개 변수들은 상기 (수학식4)에서 설명한 바와 같다.
도 4 는 본 발명에 따른 링크 정보 데이터베이스의 일실시예 구조도이다.
도면에 도시된 바와 같이, 링크 정보(Link_Info)는 문서에 관한 모든 링크 정보를 갖는 자료 형태로, 문서 식별자(DocID)는 문서 고유의 번호를 나타내는 필드이고, 출력 링크 정보(Out_Link_Info) 포인터는 문서 식별자(DocID)에 해당하는 문서에서 다른 문서로 링크가 나가는 정보를 저장하는 필드이며, 입력 링크 정보(In_Link_Info) 포인터는 다른 문서에서 문서 식별자(DocID)에 해당하는 문서로 링크가 들어오는 정보를 저장하는 필드이다.
출력 링크 정보(Out_Link_Info)는 다른 링크와 구별할 수 있도록 의미를 부여하는 링크 이름(Link_Name) 필드와 링크가 지시하는 문서(목적지 문서)의 문서 식별자(DocID)로 구성되고, 입력 링크 정보(In_Link_Info)는 다른 링크와 구별할 수 있도록 의미를 부여하는 링크 이름(Link_Name) 필드와 링크가 출발하는 문서의 문서 식별자(DocID)로 구성되어 있다.
도 5 는 도 3 의 초기 검색 집합 구성 과정에 대한 시나리오의 일예시도이고, 도 6 은 도 3 의 초기 검색 과정에 대한 일실시예 상세 흐름도이다.
먼저, 사용자에 의해서 질의어가 들어오면, 벡터 검색 엔진은 누산기를 초기화한다(501,601). 벡터 검색이란 문서와 질의어를 일종의 벡터로 표현하여 문서와 질의어 사이의 유사도를 상기 (수학식2)와 같은 수학식을 사용하여 계산하여 검색하는 것이다. 따라서, 벡터를 실제로 구현하기 위해서 누산기라는 데이터 구조를 사용한다.
일단 누산기를 초기화했으면, 처리할 질의어가 있는지를 판단하여(602) 없으면 누산기 값 중에서 가장 큰 K개(K는 자연수)를 찾아서 기본 결과 집합을 생성하고(506,609), 있으면 색인 정보가 저장된 하부 저장 구조(B+트리로 구성됨)로부터 질의어에 대한 역리스트(문서에서 추출된 색인어와 색인어가 있는 문서 식별자 및 가중치로 구성됨)를 검색한다(503,603).
이후, 역리스트가 있는지를 판단하여(604) 없으면 처리할 질의어가 있는지를 판단하는 과정(602)으로 천이하고, 있으면 누산기에 역리스트가 존재하는지를 판단한다(605).
판단 결과(605), 누산기에 역리스트가 존재하면(문서 식별자에 대한 누산기가 존재하면) 해당 누산기로부터 정보를 읽어서 현재 계산된 질의어와 문서의 유사도를 더해서 그 누산기에 다시 넣는다(504,606). 만약 누산기에 역리스트가 존재하지 않으면 역리스트의 문서 식별자(ID)에 대해 질의어와 문서의 유사도를 누산기에 추가한다(505,607).
상기와 같이 질의어와 문서의 유사도 계산이 완료되면, 유사도가 감소하는 순서대로 누산기를 정렬시킨다(502,608). 마지막으로 누산기 값 중에서 가장 큰 K개(K는 자연수)를 찾아서 기본 결과 집합을 생성한다(506,609).
도 7 은 도 3 의 확장 집합 결정 과정과 링크 정보 재랭킹 과정에 대한 시나리오의 일예시도로서, 도 8 은 도 3 의 확장 집합 결정 과정과 링크 정보 재랭킹 과정에 대한 일실시예 상세 흐름도이다.
먼저, 상기 도 6 에서 생성된 기본 결과 집합을 링크 누산기에 추가한다(701,801). 다음으로 기본 결과 집합에 있는 문서들 중 링크에 의해 연결된 문서들에 대해 유사도를 계산한다(702,802). 이때, 사용되는 링크는 도 1 에서 제시한 링크 속성 중 내부에서 외부로 나가는 링크를 기준으로 이루어진다. 이들 문서는 보통 질의 단어를 포함하고 있지 않기 때문에 상기 (수학식3)을 사용하여 유사도를 다시 계산한다. 이후, 다시 계산된 유사도를 가진 문서들을 새로운 결과 집합에 추가한다(703,803).
다음으로 링크 효과를 검색에 반영하기 위해서 이미 저장된 링크 정보를 각문서에 적용한다(704,804). 이때, 링크 효과는 직접 링크에 의한 효과와 간접 링크에 의한 효과를 반영한다. 마지막으로 직접/간접 링크의 효과를 고려하여 문서의 최종 유사도(RSV)를 계산하고 결과 집합을 생성한다(705,805).
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기와 같은 본 발명은, 링크 정보를 사용하여 기존의 검색 엔진이 제공하지 못했던 브라우징과 검색을 결합함으로써 검색의 신뢰도를 향상시킬 수 있는 효과가 있다.
또한, 본 발명에서는 다른 링크 타입의 검색 신뢰도에 대한 영향력을 보였다. 많은 하이퍼링크를 가진 계몽사 집합을 통한 실험 결과, 11점 평균 정확도 면에서 어떤 링크 정보도 사용되지 않은 베이스 라인에 비해서 44.8%의 신뢰도 향상을 보았다. 이처럼 본 발명에서 제시한 링크 기반 검색 방법에 대한 실험을 통해, 링크는 매우 유용하며, 검색 신뢰도의 향상에 기여할 것이라는 전재를 입증하였다.
또한, 입력과 출력 링크를 모두 사용했을 때 질의를 통한 정합으로 얻어질 수 없는 적합 문서가 검색 리스트에 포함될 수 있으며, 이미 검색된 문서에 대한 재랭킹을 통해 적합 문서들이 검색 결과 리스트의 상위로 이동함을 보였다.

Claims (10)

  1. 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법에 있어서,
    검색하고자 하는 문서 집합을 검색하여 초기 검색 집합을 구성하는 제 1 단계;
    상기 링크 타입의 구분에 따른 링크 정보를 사용하여 타 문서를 포함하도록 상기 초기 검색 집합을 확장시켜 확장 집합을 결정하는 제 2 단계; 및
    상기 링크 정보를 활용하여 상기 확장 집합에 있는 문서들의 적합성을 재평가하여 검색 결과를 생성하는 제 3 단계
    를 포함하여 이루어진 링크 정보를 이용한 정보 검색 방법.
  2. 제 1 항에 있어서,
    상기 제 2 단계는,
    상기 초기 검색 집합을 링크 누산기에 추가하는 제 4 단계;
    상기 초기 검색 집합에 있는 문서들 중 링크에 의해 연결된 문서들에 대해 유사도를 계산하는 제 5 단계; 및
    상기 제 5 단계에서 계산된 유사도를 가진 문서들을 상기 초기 검색 집합에 추가하여 상기 확장 집합을 결정하는 제 6 단계
    를 포함하여 이루어진 링크 정보를 이용한 정보 검색 방법.
  3. 제 1 항에 있어서,
    상기 제 2 단계는,
    출력 링크를 이용하여 상기 초기 검색 집합에 있는 문서들과 상기 초기 검색 집합밖에 있는 외부 문서(부가적인 문서)들과의 연결 관계를 조사하는 제 4 단계; 및
    상기 링크 정보에 의해 상기 초기 검색 집합에 연결되어 있는 문서들을 상기 초기 검색 집합에 포함시켜 확장 집합을 결정하는 제 5 단계
    를 포함하여 이루어진 링크 정보를 이용한 정보 검색 방법.
  4. 제 1 항에 있어서,
    상기 제 2 단계는,
    상기 초기 검색 집합에 있는 상위 랭크된 문서와 원래의 질의가 결합되어 확장 질의를 형성하고, 상기 확장 질의와 상기 초기 검색 문서들과의 연결 관계에 따라 부가적인 문서들을 검색하여 상기 초기 검색 집합에 포함시켜 상기 확장 집합을 결정하는 것을 특징으로 하는 링크 정보를 이용한 정보 검색 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 3 단계는,
    링크 효과를 검색에 반영하기 위해서 링크 정보 데이터베이스에 저장되어 있는 상기 링크 정보를 상기 확장 집합에 있는 문서에 적용하는 제 7 단계; 및
    직접/간접 링크의 효과를 고려하여 문서의 유사도(RSV)를 계산하고 링크 검색 결과를 생성하는 제 8 단계
    를 포함하여 이루어진 링크 정보를 이용한 정보 검색 방법.
  6. 제 5 항에 있어서,
    상기 링크 정보 데이터베이스는,
    문서 고유의 번호를 나타내는 문서 식별자(DocID) 필드;
    문서 식별자(DocID)에 해당하는 문서에서 다른 문서로 링크가 나가는 정보를 저장하는 출력 링크 정보(Out_Link_Info) 포인터 필드; 및
    다른 문서에서 문서 식별자(DocID)에 해당하는 문서로 링크가 들어오는 정보를 저장하는 입력 링크 정보(In_Link_Info) 포인터 필드
    를 포함하여 이루어진 링크 정보를 이용한 정보 검색 방법.
  7. 제 6 항에 있어서,
    상기 포인터 필드 각각은,
    다른 링크와 구별할 수 있도록 의미를 부여하는 링크 이름(Link_Name) 필드; 및
    링크가 지시하는 문서를 나타내는 문서 식별자(DocID) 필드
    를 포함하여 이루어진 링크 정보를 이용한 정보 검색 방법.
  8. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 3 단계는,
    상기 확장 집합 전체에 걸쳐 있는 링크 정보를 이용하여 후보 문서들을 모두 재랭킹(혼합)하여 최종 검색 결과를 생성하는 것을 특징으로 하는 링크 정보를 이용한 정보 검색 방법.
  9. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 링크 정보의 이용 과정은,
    입력과 출력 링크의 구분, 직접과 간접 링크의 구분 및 링크의 앵커가 질의어인지 비질의어인지의 구분에 따라 문서와 질의어간의 유사도를 조정할 때 링크 정보를 선별적으로 적용하여 정보 검색의 신뢰도를 향상시키는 것을 특징으로 하는 링크 정보를 이용한 정보 검색 방법.
  10. 대용량 프로세서를 구비한 정보 검색 시스템에,
    검색하고자 하는 문서 집합을 검색하여 초기 검색 집합을 구성하는 제 1 기능;
    상기 링크 타입의 구분에 따른 링크 정보를 사용하여 타 문서를 포함하도록 상기 초기 검색 집합을 확장시켜 확장 집합을 결정하는 제 2 기능; 및
    상기 링크 정보를 활용하여 상기 확장 집합에 있는 문서들의 적합성을 재평가하여 검색 결과를 생성하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990012010A 1999-04-07 1999-04-07 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법 KR100311355B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990012010A KR100311355B1 (ko) 1999-04-07 1999-04-07 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990012010A KR100311355B1 (ko) 1999-04-07 1999-04-07 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법

Publications (2)

Publication Number Publication Date
KR20000065588A KR20000065588A (ko) 2000-11-15
KR100311355B1 true KR100311355B1 (ko) 2001-11-02

Family

ID=19578883

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990012010A KR100311355B1 (ko) 1999-04-07 1999-04-07 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법

Country Status (1)

Country Link
KR (1) KR100311355B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100932318B1 (ko) * 2005-01-18 2009-12-16 야후! 인크. 웹 검색 기술 및 웹 컨텐트와 결합된 후원 검색 목록의매칭 및 랭킹

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223533B (zh) * 2019-12-24 2024-02-13 深圳市联影医疗数据服务有限公司 一种医疗数据检索方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100932318B1 (ko) * 2005-01-18 2009-12-16 야후! 인크. 웹 검색 기술 및 웹 컨텐트와 결합된 후원 검색 목록의매칭 및 랭킹
US7698331B2 (en) 2005-01-18 2010-04-13 Yahoo! Inc. Matching and ranking of sponsored search listings incorporating web search technology and web content

Also Published As

Publication number Publication date
KR20000065588A (ko) 2000-11-15

Similar Documents

Publication Publication Date Title
US8239372B2 (en) Using link structure for suggesting related queries
US5999927A (en) Method and apparatus for information access employing overlapping clusters
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6084595A (en) Indexing method for image search engine
KR101120760B1 (ko) 구조화 문서 검색
Roshdi et al. Information retrieval techniques and applications
US6073130A (en) Method for improving the results of a search in a structured database
US8117198B2 (en) Methods for generating search engine index enhanced with task-related metadata
KR101076894B1 (ko) 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
US8126888B2 (en) Methods for enhancing digital search results based on task-oriented user activity
US8706748B2 (en) Methods for enhancing digital search query techniques based on task-oriented user activity
JP2008513881A (ja) パーソナルウェブのドキュメントを検索し、ドキュメント間でナビゲートし、ドキュメントをランク付けするための方法、システムおよびコンピュータプログラムプロダクト
US8095538B2 (en) Annotation index system and method
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20100017389A1 (en) Content based image retrieval
US20100070506A1 (en) Query Expansion Method Using Augmented Terms for Improving Precision Without Degrading Recall
US20080313142A1 (en) Categorization of queries
US20060190445A1 (en) Indexing of digitized entities
US7406462B2 (en) Prediction of query difficulty for a generic search engine
US8577865B2 (en) Document searching system
Shi et al. Textually relevant spatial skylines
KR100311355B1 (ko) 링크 타입의 구분에 따른 링크 정보를 이용한 정보 검색 방법
James et al. A survey on information retrieval models, techniques and applications
Yamamoto et al. Rerank-by-example: Efficient browsing of web search results
Bouhini et al. Personalized information retrieval models integrating the user's profile

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee