KR20030082110A - 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법 - Google Patents

앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법 Download PDF

Info

Publication number
KR20030082110A
KR20030082110A KR1020020020664A KR20020020664A KR20030082110A KR 20030082110 A KR20030082110 A KR 20030082110A KR 1020020020664 A KR1020020020664 A KR 1020020020664A KR 20020020664 A KR20020020664 A KR 20020020664A KR 20030082110 A KR20030082110 A KR 20030082110A
Authority
KR
South Korea
Prior art keywords
document
index
index word
information
search
Prior art date
Application number
KR1020020020664A
Other languages
English (en)
Inventor
전석진
Original Assignee
(주)메타웨이브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)메타웨이브 filed Critical (주)메타웨이브
Priority to KR1020020020664A priority Critical patent/KR20030082110A/ko
Publication of KR20030082110A publication Critical patent/KR20030082110A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법에 관한 것으로, 특히 본 발명은 등록된 URL 주소 정보를 기초로 인터넷상의 URL에 접근하여 문서를 수집하고 문서가 위치한 URL 주소 및 문서의 내용을 포함한 URL 정보를 저장하는 단계와; URL 정보를 수신하여 해당 문서의 색인어, 출현 빈도 및 포지션 정보를 산출하고, 점수 산정 공식을 이용하여 색인어에 대한 해당 문서의 점수를 산정하고, 색인어별 문서 정보를 저장하는 단계; 및 클라이언트가 AND 연산자를 이용하여 입력한 색인어를 기초로 각 색인별 문서 정보를 수신하여 각 색인어의 문서 내 연관성값을 산출하고, 문서 내 연관성값과 각 색인어에 대한 문서의 점수를 서로 곱하여 높은 점수순으로 검색 리스트를 작성하여 클라이언트에게 제공하는 단계를 포함한다. 따라서, 본 발명에 의하면 ND 연산자를 이용하여 검색 결과의 순서를 산정함에 있어 다수개의 색인어중 특정 문서 내의 출현빈도 및 각 색인어들의 문서 내 연관성값을 각각 산출하고, 각 색인어의 출현 빈도 및 문서 내 연관성값을 서로 곱한 값을 해당 문서의 가중치로 산정하여 검색 결과를 제공함으로써, 검색시간을 단축하고 정확도가 높은 검색 결과를 제공할 수 있는 효과가 있다.

Description

앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법{Method and System for Providing Information and Retrieving Index Word using AND Operator and Relationship in a Document}
본 발명은 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법에 관한 것으로, 보다 상세하게는 검색하고자 하는 색인어를 추출하여 각 색인어들의 특정 문서 내 출현 빈도 및 문서 내 연관성을 산출하고, 산출된 각 색인어들의 출현 빈도 및 문서 내 연관성을 서로 곱하고, 그 값을 해당 문서의 가중치 점수로 산정하여 점수가 높은 문서의 순서로 검색 결과를 제공하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법에 관한 것이다.
최근 들어, 대부분의 문서를 컴퓨터로 작성하고 통신망을 통해 문서를 배포하고 획득함에 따라 효과적으로 문서를 찾는 기술의 중요성이 매우 커지고 있다. 더구나, 인터넷이 보급됨으로써 전문가뿐만 아니라 일반인도 통신망에 접속하여 정보를 제공하거나 획득하는 것이 일반화되고, 이에 따라 인터넷으로 접근할 수 있는정보의 양이 기하급수적으로 증가하고 있다. 따라서, 역사상 유래 없는 거대한 정보창고이자 정보획득 인프라인 인터넷에서 검색엔진(예컨대, altavista, yahoo, infoseek ultra, dejanews, lycos, empas 등)이 가장 성공적인 응용 프로그램으로 자리 매김을 하고 있다.
초기 인터넷 검색엔진은 웹의 규모가 크지 않았기 때문에 몇 안 되는 자료를 데이터베이스로 구축할 필요가 없었으며, 야후와 같은 웹 초기의 검색엔진들은 데이터베이스 규모가 작은 경우 개발과 검색에 편리한 주제 검색 방법을 이용하였다. 예를 들어, 초기메뉴를 비롯한 각 단계의 메뉴들이 하위메뉴를 약 10개 정도를 갖고 있고 전체 메뉴는 총 4단계까지 지원한다고 가정하면, 이를 트리구조 형식으로 나타냈을 때 총 1000(103)개만큼의 자료를 보유할 수 있다. 여기에서 한 단계를 더 추가한다면 10000(104)개까지 자료를 확보할 수 있다. 그러나, 현재의 인터넷 검색엔진들의 보유 레코드 수가 작게는 100만 개부터 많게는 5천만 개에 이르고 있기 때문에 주제 검색 방식으로 자료를 검색할 경우 여러 단계의 거쳐야만 최종 자료에 접근할 수 있다. 만약, 여러 단계 중에서 한 번이라도 실수하게 되면 다시 상위 주제로 올라가지 않는 한 하위 주제에서 자료를 검색하는 것은 불가능하다. 이와 같이, 지속으로 인터넷의 규모가 커지면서 더 이상 주제 검색만으로는 원활한 검색이 불가능해졌고, 급팽창하는 웹의 규모에 맞게 검색엔진이 보유한 레코드 수도 그만큼 증가해야 하는데 예전과 같이 사람의 수작업에 의해 하나의 홈페이지를 확인하고 이를 하나의 레코드로 추가시키는 방식은 급격한 웹의 성장을 따라 갈 수 없으며, 이러한 수작업에 의해 수십만 개의 홈페이지를 색인하여 데이터베이스를 구축하더라도 이를 사용자가 메뉴 방식으로 검색하기 위해서는 많은 시간과 노력을 기울여야 한다.
이 때부터 로봇(예컨대, robots, wanderers, spiders, worms 등) 에이전트라는 개념이 인터넷에 도입되었으며, 로봇이란 일종의 자동 순회 프로그램으로 기존에 수작업으로 홈페이지를 찾아다니며 색인하던 작업을 자동적으로 검색하고 색인하여 이를 데이터베이스화하는 프로그램을 일컫는다. 이러한 로봇에 의해 만들어진 데이터베이스는 대부분이 색인어 검색이 가능하도록 설계되며 이 때부터 인터넷 검색엔진이 주제 검색에서 색인어 검색으로 전환하기 시작했다. 즉, 사용자가 자신이 원하는 정보를 검색하기 위해 해당 검색식을 색인어로 입력하고, 입력한 색인어간의 관계를 이용하여 불리언 질의 방식이나 벡터 질의 방식으로 관련 정보에 접근해간다.
이와 같은 종래 기술에서는 입력된 색인어들간의 관계(즉, 색인어간의 가중치 등)를 고려하여 시스템에 구축되어 있는 색인어들의 인덱스에서 검색하여 해당되는 정보들을 사용자에게 제공한다. 색인어들간의 관계를 고려하여 원하는 정보에 접근하는 방법은 크게 단위 색인어들의 형태소를 미리 분석하여 저장하고 해당 색인어와 관련된 색인어를 추출하는 방법과 검색 색인어의 비그램(bigram) 또는 트라이그램(trigram)의 정보를 이용하여 색인어를 찾아내는 방법 등이 있다. 이를 이용하여 인터넷 이용자들이 원하는 정보를 빠른 시간 내에 획득하기 위해 검색엔진을 개발하기에 이르렀다. 검색엔진은 인터넷 이용자를 대신하여 인터넷을 빠른 속도로돌아다니면서 이용자의 요구에 맞는 정보를 찾아준다. 즉, 인터넷 이용자는 검색엔진에서 제공하는 색인어 형식에 맞게 자신이 원하는 정보가 무엇인지 알려주고 검색엔진은 해당 정보를 찾아 인터넷 이용자에게 제공한다.
그러나, 이와 같은 종래의 검색엔진을 이용한 정보 검색 방법은 처리속도와 안정성에 초점을 맞추어 개발해 왔기 때문에 여러 가지 문제점을 내포하고 있다. 첫째, AND 연산자를 이용하여 검색 결과의 순서를 산정함에 있어 다수개의 색인어중 특정 문서 내의 출현빈도를 각각 산출하고, 각 색인어의 출현 빈도 중 가장 작은 출현 빈도를 가진 색인어를 기준으로 해당 문서의 점수를 매겨 검색 결과를 제공하기 때문에 정확도가 떨어지고, 검색된 문서의 수가 너무 방대하여 검색이 어렵다. 예를 들어, 임의의 문서에서 두 개의 특정 색인어 a와 b의 출현 빈도가 각각 tfa, tfb이고 tfa<tfb일 때, 특정 색인어에 대한 해당 문서의 점수는 출현 빈도가 작은 단어 즉, tfa가 해당 문서의 점수가 된다. 따라서, AND 연산자를 이용하여 두 개 이상의 색인어로 정보를 검색함에 있어 출현 빈도가 작은 단어를 기준으로 문서의 점수를 산정하기 때문에 정확한 검색 결과를 산출하기가 어렵다. 둘째, 많은 인터넷 이용자가 동시에 검색을 요청하는 경우 검색시간과 응답시간이 길어짐에 따라 검색효율이 낮아진다.
따라서, 본 발명은 상기한 바와 같은 종래의 제반 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 AND 연산자를 이용하여 검색 결과의 순서를 산정함에 있어 다수개의 색인어중 특정 문서 내의 출현빈도 및 문서 내 연관성을 각각 산출하고, 각 색인어의 출현 빈도 및 문서 내 연관성을 서로 곱하고, 그 값을 해당 문서의 가중치 점수로 산정하여 검색 결과를 제공하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법을 제공하는 데 있다.
본 발명의 다른 목적은 특정 문서 내의 모든 색인어들의 출현 빈도 및 해당 색인어의 포지션 정보를 미리 산출하여 데이터베이스화함으로써, 검색시간을 단축하고 정확도가 높은 검색 결과를 제공하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법을 제공하는 데 있다.
도 1은 본 발명에 따른 색인어 검색 및 정보 제공 시스템의 전체적인 구성을 보여주는 블록도이고,
도 2a 및 2b는 본 발명에 따른 색인 DB에 저장되는 색인어별 해당 문서에 대한 점수 및 포지션 정보를 나타내는 테이블 구조의 예시도이고,
도 3은 본 발명에 따른 각 색인어별 문서 정보를 나타내는 테이블 구조의 예시도이고,
도 4는 본 발명에 따른 문서 수집 과정을 나타내는 흐름도이고,
도 5는 본 발명에 따른 색인어별 문서 점수 산정과정을 설명하는 흐름도이고,
도 6은 본 발명에 따른 클라이언트가 입력한 색인어 처리과정을 설명하는 흐름도이고,
도 7a는 본 발명에 따른 각 색인어들이 모두 포함된 문서 점수의 산정에 대한 일 예를 나타내는 예시도이고,
도 7b는 본 발명에 따른 각 색인어들의 포지션 정보 및 문서 내 연관성값을나타낸 예시도이고,
도 7c는 본 발명에 따른 색인어별 문서 가중치의 예시도이다.
♣ 도면의 주요 부분에 대한 부호의 설명 ♣
10: 인터넷20: 로봇 에이전트
30: 색인 에이전트40: 검색 에이전트
50: 클라이언트100: 정보 제공 시스템
이와 같은 목적을 달성하기 위한 본 발명은 클라이언트가 요청한 색인어를 분석하여 원하는 정보를 리스트화하여 클라이언트에게 제공하는 색인어 검색 및 정보 제공 방법에 있어서, 등록된 URL 주소 정보를 기초로 인터넷상의 URL에 접근하여 문서를 수집하고 문서가 위치한 URL 주소 및 문서의 내용을 포함한 URL 정보를 저장하는 단계와; URL 정보를 수신하여 해당 문서의 색인어, 출현 빈도 및 포지션 정보를 산출하고, 점수 산정 공식을 이용하여 색인어에 대한 해당 문서의 점수를 산정하고, 색인어별 문서 정보를 저장하는 단계; 및 클라이언트가 AND 연산자를 이용하여 입력한 색인어를 기초로 각 색인별 문서 정보를 수신하여 각 색인어의 문서 내 연관성값을 산출하고, 문서 내 연관성값과 각 색인어에 대한 문서의 점수를 서로 곱하여 높은 점수순으로 검색 리스트를 작성하여 클라이언트에게 제공하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은 클라이언트가 요청한 색인어를 분석하여 원하는 정보를 리스트화하여 클라이언트에게 제공하는 색인어 검색 및 정보 제공 시스템에 있어서, 인터넷상의 웹서버를 순회하며 각각의 홈페이지에 게재된 각종 정보를 자동적으로 수집 및 색인하여 데이터베이스화하는 로봇 에이전트와; 로봇 에이전트와 상호 연결되어 있으며, 로봇 에이전트에 의해 수집된 문서를 색인하여 색인어를 추출하고 해당 문서 내의 각 색인어의 출현 빈도 및 포지션 정보를 산출하고, 점수 산정 공식을 이용하여 각 색인어에 대한 해당 문서의 점수를 산정하고, 산정된 문서 정보를 색인 DB에 저장하는 색인 에이전트; 및 색인 에이전트와 상호 연결되어 있으며, 클라이언트가 입력한 색인어를 분석하고, 색인 DB로 문서 정보를 수신받아 각 색인어에 대한 해당 문서의 점수들이 포함된 문서를 추출하고, 포지션 정보를 기초로 각 색인어들의 문서 내 연관성값을 산출하고, 문서 내 연관성값과 각 색인어에 대한 문서의 점수를 서로 곱하여 문서의 가중치를 산출하고, 문서의 가중치가 높은 순서대로 검색 리스트를 작성하여 클라이언트에게 제공하는 검색 에이전트를 포함하는 것을 특징으로 한다.
이하, 본 발명에 따른 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법에 대한 바람직한 실시예를 첨부된 도면에 의거하여 상세하게 설명한다.
도 1은 본 발명에 따른 색인어 검색 및 정보 제공 시스템(100)(이하, '정보 제공 시스템'이라 약칭함)의 전체적인 구성을 보여주는 블록도로서, 본 정보 제공 시스템(100)은 인터넷(10), 로봇 에이전트(20), 색인 에이전트(30), 검색에이전트(40) 및 클라이언트(50)로 이루어져 있다. 또한, 로봇 에이전트(20)는 수집 로봇(22), 추적 로봇(24), 관리 로봇(26), 퍼시러테이터(facilitator, 이하 'FA'로 약칭함)(28) 및 URL 데이터베이스(29)를 포함하고, 색인 에이전트(30)는 FA(32), 색인 모듈(34) 및 색인 데이터베이스(36)를 포함하고, 검색 에이전트(40)는 FA(42) 및 검색 서버(44)를 포함한다.
로봇 에이전트(20)는 인터넷(10)에 연결되어 있으며, 로봇 에이전트(20)는 자동 순회 프로그램으로 기존에 수작업으로 홈페이지를 검색하여 색인 작업을 수행하는 대신에 자동적으로 검색 및 색인하여 이를 데이터베이스화하는 기능을 수행한다. 로봇 에이전트(20)에는 새로운 정보를 수집하는 수집 로봇(22)과 기존 정보의 내용변경 유무를 추적하여 정보를 수집하는 추적 로봇(24) 및 중복된 정보의 수집을 방지하고 최적의 정보를 저장하기 위해 URL 데이터베이스(29)를 관리하는 관리 로봇(26)을 포함하고, 각 에이전트간의 통신을 담당하고 관련된 에이전트를 관리하는 FA(28)를 포함한다. URL DB(29)에는 특정 문서의 내용 및 해당 문서가 위치한 URL 정보가 저장된다. 또한, 추적 로봇(24)은 새로운 인터넷 홈페이지(등록되지 않은 홈페이지)를 찾는 로봇, 내용이 변한 홈페이지(삭제된 홈페이지도 포함)를 추적하는 로봇, 접속에 실패한 홈페이지를 추후에 추적하는 로봇을 포함할 수 있다. 로봇 에이전트(20)는 결국 웹서버에 접속해 데이터를 가져오는 기능적인 측면만 보면 웹브라우저와 같은 기능을 하는 것처럼 보이지만 웹브라우저는 가져온 데이터를 화면에 보여 주고 하이퍼링크 등의 기능을 수행하고, 로봇 에이전트(20)는 데이터를 분석하고 그 안의 URL을 추출해 다른 URL로 연결시켜 주는 기능을 수행한다는 차이점이 있다. 따라서, 로봇 에이전트(20)를 실행시켜 놓으면 로봇 에이전트(20)가 자동으로 인터넷상의 홈페이지를 찾아 정보를 수집한다. 대표적인 로봇 에이전트(20)에는 스파이더(spider)와 크롤러(crawler) 등이 있다. 로봇 에이전트(20)는 자신이 방문한 웹 페이지의 모든 내용을 읽고 링크되어 있는 모든 사이트들을 차례로 방문하고, 일정 기간을 주기로 자신이 과거 방문했던 사이트들을 다시 방문하여 해당 페이지의 갱신 여부를 체크하여 변경이 있으면 해당 정보를 수집한다. 로봇 에이전트(20)가 방문한 곳에 링크된 웹 문서가 있으면 로봇은 자동으로 그곳으로 들어가 정보를 수집하고, 링크된 웹 문서가 없으면 로봇 에이전트(20)가 탐색해야 할 곳을 시작점으로 지정하여 그 곳에서부터 인덱스 수집이 이루어진다.
색인 에이전트(30)는 로봇 에이전트(20)와 상호 연결되어 있으며, 로봇 에이전트(20)에 의해 수집된 문서를 색인하여 색인어를 추출하고 해당 문서 내의 각 색인어의 출현 빈도 및 각 색인어의 문서 내 포지션 정보를 산출하고, 각 색인어에 대한 해당 문서의 점수를 산정하여 색인 데이터베이스(36)에 저장하는 기능을 수행한다. 이러한 기능은 색인 모듈(34)에 의해 수행된다. 색인 모듈(34)이 수행하는 색인 작업은 수집된 정보로부터 색인어를 추출하고 해당 색인어의 포지션 정보를 추출해 내는 작업과 추출된 색인어에 대한 해당 문서의 점수를 산출하는 점수 산출 작업 및 그 색인어에 대한 정보의 위치를 지시함으로써 효율적인 정보 검색의 기반을 제공하는 색인 작성 작업으로 이루어진다. 여기에서, 로봇 에이전트(20)와 색인 에이전트(30)간의 통신은 각각의 FA(28, 32)가 담당한다. 색인 모듈(34)은 FA(32)를 통해 로봇 에이전트(20)로부터 전송된 정보(예를 들면, HTML 문서)의 태그(예를들면, HTML 태그)를 제거하고 남은 정보의 내용을 가지고 색인어 및 색인어의 포지션 정보를 추출하고, 각 색인어에 대한 해당 문서의 점수를 데이터베이스화하여 색인 데이터베이스(36)에 저장한다. 여기에서, 색인어는 부사 및 동사는 포함시키지 않고, 명사, 형용사 또는 동사의 명사형을 위주로 색인어를 구성하는 것이 바람직하다. 각 색인어에 대한 해당 문서의 점수를 산출하는 방법은 상세하게 후술한다.
검색 에이전트(40)는 색인 에이전트(30)와 상호 연결되어 있으며, 클라이언트(50)가 입력한 색인어를 분석하고, 색인 DB(36)를 참조하여 각 색인어들이 포함된 문서를 추출하고, 포지션 정보를 기초로 각 색인어들의 문서 내 연관성값을 산출하고, 문서 내 연관성값과 색인 DB(36)에 저장된 각 색인어에 대한 해당 문서의 점수를 서로 곱하여 문서의 가중치를 산출하고, 문서의 가중치가 높은 순서대로 검색 결과를 제공해 주는 기능을 수행한다. 이러한 기능은 검색 서버(44)에 의해 수행되며, 검색 서버(44)에는 질의 입력, 질의의 정당성 검사, 질의의 분석 등과 같은 작업을 수행하는 질의 분석기(query analyzer)(44a), 질의 분석기(44a)에 의해 분석된 질의에 대한 쓰래드(thread) 생성, 질의의 변형, 결과의 분석 및 결과의 생성, 결과의 통합 및 재랭킹과 같은 작업을 수행하는 쓰래드 관리자(thread manager)(44b) 및 쓰래드 관리자(44b)에 의해 처리된 정보를 URL, 제목, 정확도 등에 따라 리스트 형태로 오름차순으로 결정하여 최종 정보 검색 리스트를 생성하는 결과 생성기(result generator)(44c)를 포함한다. 특히, 쓰래드 관리자는 색인 DB로부터 전달받은 해당 색인어의 포지션 정보를 기초로 문서 내 연관성을 산출하고, 각 색인어에 대한 해당 문서의 점수와 문서 내 연관성을 서로 곱하여 가장 높은 점수를 가진 문서별로 최종 검색 결과를 생성하도록 프로그래밍 되어 있다.
클라이언트(50)는 본 발명의 검색 에이전트(40)에 접속하기 위해 일반 인터넷 사용자가 사용하는 컴퓨터로서, 컴퓨터에 설치되어 있는 넷스케이프, 인터넷 익스플로러와 같은 웹브라우저(web browser) 또는 기타 클라이언트 소프트웨어를 의미한다. 인터넷 사용자는 웹브라우저를 이용하여 검색 에이전트(40)에 접속한 후 색인어를 입력하여 원하는 정보를 제공받을 수 있다. 또한, 클라이언트(50)는 사용자 인터페이스를 포함하고, 사용자 인터페이스로 하여금 인터넷 이용자로부터의 질의를 버퍼에 저장하여 검색 서버(44)가 처리할 수 있도록 하고, 질의에 대한 결과가 저장된 결과 버퍼를 인터넷 이용자가 브라우징(browsing)하도록 한다. 위에 언급한 바와 같이, 각각의 에이전트간의 통신은 각각의 FA(28, 32, 42)가 담당한다.
도 2a 및 2b는 본 발명에 따른 색인 DB에 저장되는 색인어별 해당 문서에 대한 점수 및 포지션 정보를 나타내는 테이블 구조의 예시도이다. 본 색인어별 점수 테이블을 설명하기에 앞서, 로봇 에이전트의 URL DB에 저장된 문서의 수는 5개로 한정하고, 각 문서에서 추출된 색인어는 테이블에 나타낸 것으로 한정한다. 이는 본 발명의 설명을 용이하게 하기 위해 한정한 것으로, 실제로는 다수의 문서와 다수의 색인어로 이루어졌음은 물론이다.
먼저, 색인 에이전트의 색인 모듈은 FA를 통해 색인하고자 하는 문서를 로봇 에이전트로부터 전달받아 해당 문서의 색인어를 추출한다. 위에서 언급한 바와 같이, 색인어는 부사 및 동사는 포함시키지 않고, 명사, 형용사 또는 동사의 명사형을 위주로 색인어를 구성하는 것이 바람직하다. 도 2a에 도시된 바와 같이, 색인어는 출현 순서에 따라 색인어를 추출할 수 있지만, 특정 문서 내의 출현 빈도가 가장 높은 색인어순으로 추출할 수도 있다. 색인 모듈은 특정 문서의 색인어를 추출하고 해당 색인어가 특정 문서에 출현한 수를 파악하고, 정규화된 점수 산정 공식을 이용하여 각 색인어에 대한 해당 문서의 점수를 산출하여 색인 DB에 저장한다. 또한, 색인 DB에는 해당 색인어가 포함된 문서 정보(예컨대, 해당 문서의 URL 주소, 해당 색인어이 포지션 정보 등)를 포함하여 저장한다. 점수 산정 공식은 색인어의 출현 빈도를 0과 1 사이의 값으로 정규화하는 것이 바람직하다. 여기에서, 점수 산정 공식의 하나의 실시예는 아래의 수식과 같다.
여기에서, tw는 'term weight'의 약어로서, 임의의 문서에 대한 특정 색인어의 상대적인 중요도이고, TF는 'Term Frequency'의 약어로서, 전체 문서에 대한 특정 색인어의 최대 출현 빈도에서 임의의 문서에 대한 특정 색인어의 출현 빈도 비율, 즉 특정 색인어의 출현 빈도율이고, IDF는 'Inverse Document Frequency'의 약어로서, 전체 문서에서 특정 색인어가 차지하는 중요도이다. 전체 문서에서 특정 색인어가 출현한 빈도가 적을수록 IDF값은 커진다. 또한, tf는 임의의 문서에 나오는 특정 색인어의 빈도이고, max tf는 전체 문서에서 특정 색인어의 최대 빈도이고, N은 색인하고자 하는 전체 문서수이고, n은 전체 문서에서 특정 색인어가 출현하는 문서의 수이다. 여기에서, max tf는 임의의 기준값(예컨대, 10, 50, 100 등)으로 설정할 수도 있다. 위에 언급한 점수 산정 공식은 하나의 예시에 불과하며,다른 방법으로 각 색인어에 대한 특정 문서의 점수를 산정할 수 있음은 물론이다.
예를 들어, 색인어 '자동차'에 대한 문서 1의 점수를 산정하기 위해 전술한 점수 산정 공식을 이용한다.
위에서 산출된 값(즉, '0.041')이 색인어 '자동차'에 대한 문서 1의 점수이며, 색인 모듈은 색인어 '자동차'에 대한 문서 1의 점수를 산출한 후에는 나머지 색인어에 대한 문서 1의 점수를 각각 산출한다. 다음에, 색인 모듈은 문서 2 내지 문서 5도 문서 1과 같이 각 색인어에 대한 해당 문서의 점수를 산출한 후, 색인 DB에 산출된 색인어별 해당 문서에 대한 점수를 저장한다. 각 색인어에 대한 각 문서의 점수는 도 2a에 도시된 바와 같으며, 전체 문서중 해당 색인어가 포함된 문서가 적을수록 높은 점수가 할당된다. 색인 DB에 저장된 색인어별 해당 문서에 대한 점수는 클라이언트가 입력한 검색용 색인어에 대한 검색 결과를 리스트화할 때 활용된다. 또한, 도 2b에 도시된 바와 같이, 색인 DB에는 각 색인어들의 해당 문서 내 포지션 정보가 저장되며, 색인어들의 포지션 정보는 문서 내 연관성을 산출할 때 활용된다.
도 3은 본 발명에 따른 각 색인어별 문서 정보를 나타내는 테이블 구조의 예시도이다. 색인 모듈은 도 2a의 과정에서 색인어별 해당 문서에 대한 점수가 산정되면, 이를 기초로 각 색인어별 문서 정보를 데이터베이스화하여 저장한다. 여기에서, 각 색인어별 문서 정보에는 해당 색인어가 포함되어 있는 문서, 해당 색인어가 포함된 문서의 점수, 문서가 위치한 URL 주소 및 각 색인어의 문서 내 포지션 정보 등이 포함된다. 예를 들어, 색인 모듈은 전체 문서중 특정 색인어(예컨대, 자동차)가 포함된 모든 문서(예컨대, 문서 1, 문서 2, 문서 4, 문서 5)를 추출하고, 도 2a에서 산정한 해당 색인어별 문서 점수(예컨대, 0.041, 0.020, 0.081, 0.012)를 기초로 하여 색인어별 문서 정보를 색인 DB에 저장한다. 도 3에 나타난 바와 같이, 특정 색인어가 포함된 문서가 적을수록 문서 점수가 높아짐을 알 수 있다.
이하에서는, 본 발명에 따른 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법에 대한 동작 관계를 첨부된 도면에 의거하여 좀 더 구체적으로 설명하면 다음과 같다.
도 4는 본 발명에 따른 문서 수집 과정을 나타내는 흐름도이고, 로봇 에이전트는 추적 로봇을 이용하여 검색할 URL을 추적하여 URL DB에 저장시켜 두었다고 가정한다.
먼저, 정보 제공 시스템은 URL DB에 저장된 URL를 추출하여 처음 검색할 URL을 선정하여 로봇 에이전트를 실행시킨다(S410). 로봇 에이전트의 수집 로봇은 선정된 URL에 접근(S420)하여 해당 URL이 수집 로봇의 접근을 허용하는지를 판단한다(S430). 즉, 수집 로봇은 URL의 호스트 이름에 따라 http://호스트이름/robots.txt에 접근하여 robots.txt의 내용을 분석하고 자신이 해당 URL에 접근할 수 있는지의 여부를 판별한다. 판단 결과, 접근이 허용되면 분석된 robots.txt의 내용을 기초로 해당 사이트의 문서를 수집하고 URL 정보(예컨대, URL 주소 등)을 URL DB에 저장한다(S440). 이때, 모든 URL은 상대 URL이 아닌 절대 URL로 변환하여 저장한다. 즉, 상대 URL(예컨대, /dir/index.html)을 절대 URL(http://호스트이름/dir/index.html)로 변환하여 저장한다. 추출한 URL은 추후에 활용할 수 있도록 URL DB에 저장하고 관련된 URL까지 함께 저장한다. 예를 들면, http://host/dir/subdir/file.html이 저장할 URL이면 이 URL이외에 관련된 URL(예컨대, http://host/dir/subdir/, http://host/dir/, http://host/)도 추측하여 저장한다. 또한, 추출한 URL을 데이터베이스에 저장할 때는 이미 등록되어 있는지를 검사하여 중복된 URL이 등록되지 않도록 한다.
다음에, 정보 제공 시스템은 URL DB에 저장된 URL 정보를 기초로 다음 URL로 이동하고(S450), 이동한 URL이 URL DB에 저장된 마지막 URL인가를 판단(S460)하여 마지막 URL이 아니면 상기 단계(S420)로 진행하여 이후의 단계들을 반복 수행하고, 이동한 URL이 마지막 URL이면 모든 처리과정을 종료한다.
도 5는 본 발명에 따른 색인어별 문서 점수 산정과정을 설명하는 흐름도이다.
먼저, 색인 에이전트는 FA를 통해 로봇 에이전트에 요청하여 색인하고자 하는 문서 정보(예컨대, 문서 내용, 해당 문서가 위치한 URL 주소 등)를 수신받는다(S510). 즉, 로봇 에이전트는 추적 로봇을 이용하여 수집한 문서 정보를 URL DB에 저장시켜 두고, 색인 에이전트의 요청이 있을 때 해당 문서 정보를 URL DB에서 추출하여 FA를 통해 색인 에이전트로 전달한다. 색인 에이전트는 로봇 에이전트로부터 전달받은 문서 정보를 기초로 해당 문서의 색인어를 추출하고 각 색인어의 문서 내 출현 빈도 및 각 색인어의 포지션 정보를 산출한다(S520). 색인어는 부사 및 동사는 포함시키지 않고, 명사, 형용사 또는 동사의 명사형을 위주로 추출하는 것이 바람직하다.
하나의 문서에 대한 색인어 추출, 출현 빈도 및 각 색인어의 포지션 정보를 산출한 다음에 색인 에이전트는 로봇 에이전트에 다음 문서를 요청하고(S530), 요청한 문서가 로봇 에이전트의 URL DB에 저장되어 있는 문서의 마지막 문서인가를 판단(S540)하여 마지막 문서가 아니면 상기 단계(S520)로 진행하여 이후의 단계들을 반복 수행하고, 요청한 문서가 마지막 문서이면 특정 색인어가 해당 문서에 출현한 빈도를 모두 산출하고, 점수 산정 공식을 이용하여 특정 색인어가 포함된 모든 문서를 추출함과 동시에 특정 색인어에 대한 해당 문서의 점수를 산정한다(S550). 특정 색인어의 출현 빈도 및 해당 문서의 점수 산정에 대한 예는 도 2a에 도시된 바와 같다. 다음에, 색인 모듈은 상기 단계(S450)에서 산정된 해당 색인어별 문서 점수를 기초로 하여 색인어별 문서 정보(예컨대, 해당 색인어가 포함되어 있는 문서, 해당 색인어가 포함된 문서의 점수 및 문서가 위치한 URL 주소, 각 색인어의 포지션 정보 등)를 색인 DB에 저장한다(S560). 색인어별 문서 정보에 대한 예는 도 3에 도시된 바와 같으며, 각 색인어의 포지션 정보는 '색인어가 포함된 문서' 내에 저장되어 있다.
도 6은 본 발명에 따른 클라이언트가 입력한 색인어 처리과정을 설명하는 흐름도이다.
먼저, 클라이언트는 본 발명의 정보 제공 시스템의 검색 서버에접속하고(S610), 검색하고자 하는 색인어를 AND 연산자를 이용하여 입력한다(S620). 색인어는 부사 및 동사는 포함시키지 않고, 명사, 형용사 또는 동사의 명사형을 위주로 입력하는 것이 바람직하다. 검색 에이전트(특히, 검색 서버)는 색인 에이전트로 클라이언트가 입력한 색인어를 전달하고, 색인 에이전트로부터 색인어별 문서 정보를 전달 받는다(S630). 즉, 색인 에이전트는 전달받은 색인어들을 포함하는 모든 문서 및 각 색인어에 대한 해당 문서의 점수를 추출하여 검색 에이전트로 해당 정보를 전달한다(S630).
검색 에이전트의 검색 서버(특히, 쓰래드 관리자)는 색인 에이전트로부터 전달받은 색인어별 문서 정보를 기초로 각 색인어에 대한 해당 문서의 점수(twa, twb)를 서로 곱하여 각 색인어들이 모두 포함된 문서 점수를 산정하고(S640), 각 색인어의 포지션 정보를 기초로 문서 내 연관성값(αab)을 산출한다(S650). 여기에서, 문서 내 연관성값은 아래의 수식에 의해 산출된다.
문서 내 연관성=Ij(a,b)(단, 서로 연결된 두 단어의 조합이 k번 추출)
Ij(a,b)=Wc
Wc=2(단, 두 단어의 거리가 기준 거리 이내일 때)
Wc=D/dis(a,b)(단, 두 단어의 거리가 기준 거리보다 클 때)
dis(a,b)=
여기에서, Wc는 관련성 가중치이고, D는 관련성 기준 거리(예컨대, 20)이고, dis(a,b)는 두 단어의 거리차이고, a,b는 각 색인어의 포지션 정보이다.
다음에, 검색 에이전트는 문서 점수(twa, twb) 및 문서 내 관련성값(αab)을 곱하여 문서 가중치(R)를 산출하고(S660), 높은 점수순으로 검색 리스트를 작성하고, 그 검색 리스트를 클라이언트에게 제공한다(S670). 즉, 문서 가중치(R)는 문서 내 관련성값(αab)×특정 색인어의 문서 점수(twa)×특정 색인어의 문서 점수(twb)로 산출된다.
본 발명에 따른 각 색인어들이 모두 포함된 문서 점수의 산정에 대한 일 예를 나타내는 예시도가 도 7a에 도시되어 있다. 예를 들어, 클라이언트가 색인어로 '자동차 AND 아반떼'를 입력하였다고 가정하면, 검색 에이전트는 색인 에이전트로 '자동차'와 '아반떼'를 전송하고, 색인 에이전트는 색인 DB를 검색하여 각 색인어가 포함된 문서를 추출하여 '자동차'와 '아반떼'가 모두 포함된 문서를 선별한다. 도 3에 도시된 바와 같이, '자동차'를 포함한 문서는 문서 1, 문서 2, 문서 4, 문서 5가 있고, '아반떼'를 포함한 문서는 문서 1, 문서 2, 문서 3, 문서 4, 문서 5가 있다. 그러나, 클라이언트는 AND 연산자를 이용하여 색인어를 입력하였으므로 '자동차'와 '아반떼'를 모두 포함하는 문서를 선별하여야 한다. 즉, 문서 3에는 '아반떼'는 있지만, '자동차'가 없기 때문에 출력 리스트에서 제외된다. 색인 에이전트는 추출된 각 색인어별 문서 정보를 검색 에이전트로 전송하고, 검색 에이전트는 각 색인어들이 포함된 문서의 점수를 서로 곱한다.
또한, '자동차'와 '아반떼'의 각 문서별 포지션 정보를 기초로 각 색인어들의 문서 내 연관성값을 산출한다. 각 색인어들의 포지션 정보 및 문서 내 연관성값을 나타낸 예시도가 도 7b에 도시되어 있다. 문서 1에서 '자동차'는 10번 나오고 '아반떼'는 2번 나오므로 연관성 조합은 2개이다. 연관성 조합은 각 색인어의 포지션 정보를 기초로 가장 근접한 색인어간의 거리로 산출된다. 문서 1에서의 연관성 조합은 15번의 '자동차'와 25번의 '아반떼', 300번의 '자동차'와 315번의 '아반떼'이며, 연관성값은 두 색인어의 거리가 기준 거리(예컨대, 20) 이내이므로 2+2 즉, 4이다. 문서 2에서의 연관성 조합은 5번의 '자동차'와 10번의 '아반떼', 80번의 '자동차'와 85번의 '아반떼', 120번의 '자동차'와 130번의 '아반떼', 570번의 '자동차'와 550번의 '아반떼'이며, 연관성값은 2+2+2+2 즉, 8이다. 문서 3에서의 연관성 조합은 58번의 '자동차'와 50번의 '아반떼', 120번의 '자동차'와 160번의 '아반떼', 350번의 '자동차'와 380번의 '아반떼', 350번의 '자동차'와 420번의 '아반떼', 670번의 '자동차'와 610번의 '아반떼', 680번의 '자동차'와 700번의 '아반떼', 730번의 '자동차'와 800번의 '아반떼'이며, 연관성값은 2+20/+20/+20/+20/+2+20/즉, 6.1212이다. 문서 4에서의 연관성 조합은 20번의 '자동차'와 25번의 '아반떼', 70번의 '자동차'와 100번의 '아반떼'이며, 연관성값은 2+20/즉, 2.6897이다.
다음에, 위에서 산출한 문서 내 연관성값과 각 색인어에 대한 문서점수(twa, twb)를 곱하여 문서 가중치를 산출한다. 색인어별 문서 가중치의 예시도는 도 7c에 도시되어 있다. 예를 들어, 문서 1의 가중치(R)는 문서 내 연관성값(4)×'자동차'의 문서 점수(0.041)×'아반떼'의 문서 점수(0.007) 즉, 0.001148이다. 문서 2, 문서 4 및 문서 5의 가중치도 같은 방법으로 산출한다. 도 7c에 도시된 바와 같이, 각 색인어가 포함된 문서의 가중치는 문서 5, 문서 1, 문서 2, 문서 4순으로 높아지기 때문에 검색 리스트는 문서 4, 문서 2, 문서 1, 문서 5순으로 제공된다.
(실험예)
국제 정보 검색학계에서 공인된 문서 집합(TREC: 영문)과 국내에서 일반적으로 사용되는 문서 집합(HANTEC: 국문)을 각각 이용하여 기존의 AND 연산자를 이용한 검색방식과 본 발명에 의한 AND 연산자 및 문서 내 연관성을 이용한 검색방식에 따른 검색 결과를 표준 결과와 비교하여 그 정확도를 측정 및 평가한 예는 다음과 같다.
기존 방식 본 발명의 방식
all top 20 all top 20
TREC 0.1215 0.2451 0.1459(20.08%) 0.3207(30.84%)
HANTEC 0.1012 0.1315 0.1186(17.19%) 0.1620(23.19%)
트렉(TREC)은 100만 건의 영문 문서, 한텍(HANTEC)은 30만 건의 국문 문서로 이루어진 임의의 문서 집합이며, 각 집합별로 50개에서 100여 개에 이르는 표준 질의문이 존재한다. 각각의 표준 질의문과 관련이 있는 표준 문서 목록이 미리 정의되어 있다. 이 문서 집합을 인덱싱한 다음 각각의 표준 질의문으로 검색한 결과 목록을 표준 문서 목록과 비교하여 검색 엔진이 얼마나 정확하게 관련 문서를 찾아주는지를 판정하게 된다. 위의 표는 트렉과 한텍에 대한 실험 결과 중 일부이며, 'all' 항목은 전체 결과 목록에 대한 결과이고, 'top 20' 항목은 결과 목록 중 상위 20개의 문서에 대해서만 표준 문서 목록과 정확도를 비교한 결과이다. 또한, '본 발명의 방식' 중 괄호 안의 숫자는 기존 방식에 대한 정확도의 향상 정도를 나타낸다. 결과에 나타난 바와 같이, 기존 방식에 비해 본 발명의 방식이 향상된 정확도를 가짐을 알 수 있으며, 특히 상위 20개의 결과 목록에서 더욱 향상된 정확도를 가져옴으로써 클라이언트에게 보다 정확한 검색 결과를 제공할 수 있다.
이상의 설명은 하나의 실시예를 설명한 것에 불과하고, 본 발명은 상술한 실시예에 한정되지 않으며 첨부한 특허청구범위 내에서 다양하게 변경 가능한 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소의 형상 및 구조는 변형하여 실시할 수 있을 것이다.
이상에서 설명한 바와 같이 본 발명에 따른 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템 및 방법에 의하면, AND 연산자를 이용하여 검색 결과의 순서를 산정함에 있어 다수개의 색인어중 특정 문서 내의 출현빈도 및 각 색인어들의 문서 내 연관성값을 각각 산출하고, 각 색인어의 출현 빈도 및 문서 내 연관성값을 서로 곱한 값을 해당 문서의 가중치로 산정하여 검색 결과를 제공함으로써, 검색시간을 단축하고 정확도가 높은 검색 결과를 제공할 수 있는 효과가 있다.

Claims (9)

  1. 클라이언트가 요청한 색인어를 분석하여 원하는 정보를 리스트화하여 상기 클라이언트에게 제공하는 색인어 검색 및 정보 제공 방법에 있어서,
    (a) 등록된 URL 주소 정보를 기초로 인터넷상의 URL에 접근하여 문서를 수집하고 상기 문서가 위치한 URL 주소 및 상기 문서의 내용을 포함한 URL 정보를 저장하는 단계;
    (b) 상기 URL 정보를 수신하여 해당 문서의 색인어, 출현 빈도 및 포지션 정보를 산출하고, 점수 산정 공식을 이용하여 상기 색인어에 대한 해당 문서의 점수를 산정하고, 색인어별 문서 정보를 저장하는 단계; 및
    (c) 상기 클라이언트가 AND 연산자를 이용하여 입력한 색인어를 기초로 상기 각 색인별 문서 정보를 수신하여 각 색인어의 문서 내 연관성값을 산출하고, 상기 문서 내 연관성값과 각 색인어에 대한 상기 문서의 점수를 서로 곱하여 높은 점수순으로 검색 리스트를 작성하여 상기 클라이언트에게 제공하는 단계를 포함하는 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 방법.
  2. 제1항에 있어서, 상기 (b) 단계는
    (b1) 색인하고자 하는 문서 정보를 요청하는 단계;
    (b2) 상기 문서 정보를 수신하여 색인하고자 하는 문서의 색인어를 추출하고, 상기 문서 내 각 색인어의 출현 빈도 및 포지션 정보를 산출하는 단계;
    (b3) 상기 점수 산정 공식을 이용하여 특정 색인어에 대한 해당 문서의 점수를 산정하는 단계; 및
    (b4) 산정된 상기 색인어별 문서 점수를 기초로 색인어별 문서 정보를 저장하는 단계를 포함하는 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 방법.
  3. 제1항 또는 제2항에 있어서, 상기 점수 산정 공식은
    이고,
    tw는 임의의 문서에 대한 특정 색인어의 상대적인 중요도이고, TF는 특정 색인어의 출현 빈도율이고, IDF는 전체 문서에서 특정 색인어가 차지하는 중요도이고, tf는 임의의 문서에 나오는 특정 색인어의 빈도이고, max tf는 전체 문서에서 특정 색인어의 최대 빈도이고, N은 색인하고자 하는 전체 문서수이고, n은 전체 문서에서 특정 색인어가 출현하는 문서의 수인 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 방법.
  4. 제1항 또는 제2항에 있어서, 상기 색인어별 문서 정보는 해당 색인어가 포함되어 있는 문서, 해당 색인어가 포함된 문서의 점수, 문서가 위치한 URL 주소 및 포지션 정보를 포함하는 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 방법.
  5. 제1항에 있어서, 상기 (c) 단계는
    (c1) 검색 서버에 접속하고, 상기 AND 연산자를 이용하여 색인어를 입력하는 단계;
    (c2) 상기 각 색인어들을 포함하는 모든 문서, 각 색인어에 대한 해당 문서의 점수 및 포지션 정보를 포함한 상기 색인어별 문서 정보를 수신하고, 상기 포지션 정보를 기초로 각 색인어들의 문서 내 연관성값을 산출하는 단계;
    (c3) 상기 문서 내 연관성값과 각 색인어에 대한 상기 문서의 점수를 서로 곱하여 문서 가중치를 산출하는 단계; 및
    (c4) 상기 문서 가중치가 높은 순으로 상기 색인어들을 포함하는 문서를 리스트화하여 상기 클라이언트에게 제공하는 단계를 포함하는 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 방법.
  6. 제1항 또는 제5항에 있어서, 상기 문서 내 연관성값은Ij(a,b)로 산출하고,
    여기에서, Ij(a,b)=Wc로 정의할 때
    Wc=2(단, 두 단어의 거리가 기준 거리 이내일 때)
    Wc=D/dis(a,b)(단, 두 단어의 거리가 기준 거리보다 클 때)
    dis(a,b)=이고,
    Wc는 관련성 가중치이고, D는 관련성 기준 거리이고, dis(a,b)는 두 단어의 거리차이고, a,b는 각 색인어의 포지션 정보인 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 방법.
  7. 클라이언트가 요청한 색인어를 분석하여 원하는 정보를 리스트화하여 상기 클라이언트에게 제공하는 색인어 검색 및 정보 제공 시스템에 있어서,
    인터넷상의 웹서버를 순회하며 각각의 홈페이지에 게재된 각종 정보를 자동적으로 수집 및 색인하여 데이터베이스화하는 로봇 에이전트;
    상기 로봇 에이전트와 상호 연결되어 있으며, 상기 로봇 에이전트에 의해 수집된 문서를 색인하여 색인어를 추출하고 해당 문서 내의 각 색인어의 출현 빈도 및 포지션 정보를 산출하고, 점수 산정 공식을 이용하여 각 색인어에 대한 해당 문서의 점수를 산정하고, 산정된 문서 정보를 색인 DB에 저장하는 색인 에이전트; 및
    상기 색인 에이전트와 상호 연결되어 있으며, 상기 클라이언트가 입력한 색인어를 분석하고, 상기 색인 DB로 문서 정보를 수신받아 각 색인어에 대한 해당 문서의 점수들이 포함된 문서를 추출하고, 포지션 정보를 기초로 각 색인어들의 문서 내 연관성값을 산출하고, 상기 문서 내 연관성값과 각 색인어에 대한 상기 문서의 점수를 서로 곱하여 문서의 가중치를 산출하고, 상기 문서의 가중치가 높은 순서대로 검색 리스트를 작성하여 상기 클라이언트에게 제공하는 검색 에이전트를 포함하는 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템.
  8. 제7항에 있어서, 상기 점수 산정 공식은
    이고,
    tw는 임의의 문서에 대한 특정 색인어의 상대적인 중요도이고, TF는 특정 색인어의 출현 빈도율이고, IDF는 전체 문서에서 특정 색인어가 차지하는 중요도이고, tf는 임의의 문서에 나오는 특정 색인어의 빈도이고, max tf는 전체 문서에서 특정 색인어의 최대 빈도이고, N은 색인하고자 하는 전체 문서수이고, n은 전체 문서에서 특정 색인어가 출현하는 문서의 수인 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템.
  9. 제7항에 있어서, 상기 문서 내 연관성값은Ij(a,b)로 산출하고,
    여기에서, Ij(a,b)=Wc로 정의할 때
    Wc=2(단, 두 단어의 거리가 기준 거리 이내일 때)
    Wc=D/dis(a,b)(단, 두 단어의 거리가 기준 거리보다 클 때)
    dis(a,b)=이고,
    Wc는 관련성 가중치이고, D는 관련성 기준 거리이고, dis(a,b)는 두 단어의 거리차이고, a,b는 각 색인어의 포지션 정보인 것을 특징으로 하는 AND 연산자 및 문서 내 연관성을 이용한 색인어 검색 및 정보 제공 시스템.
KR1020020020664A 2002-04-16 2002-04-16 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법 KR20030082110A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020020664A KR20030082110A (ko) 2002-04-16 2002-04-16 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020020664A KR20030082110A (ko) 2002-04-16 2002-04-16 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20030082110A true KR20030082110A (ko) 2003-10-22

Family

ID=32379160

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020020664A KR20030082110A (ko) 2002-04-16 2002-04-16 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20030082110A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101242380B1 (ko) * 2005-04-25 2013-03-14 마이크로소프트 코포레이션 정보를 전자 문서와 연관시키기 위한 시스템 및 방법
US8751559B2 (en) 2008-09-16 2014-06-10 Microsoft Corporation Balanced routing of questions to experts
US9195739B2 (en) 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US10579442B2 (en) 2012-12-14 2020-03-03 Microsoft Technology Licensing, Llc Inversion-of-control component service models for virtual environments

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326164A (ja) * 1991-04-25 1992-11-16 Nippon Steel Corp データベース検索システム
JPH11154164A (ja) * 1997-11-21 1999-06-08 Hitachi Ltd 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
KR19990048714A (ko) * 1997-12-10 1999-07-05 윤종용 인터넷 정보검색시 유사문서 우선순위 판별방법
KR20010092922A (ko) * 2000-03-27 2001-10-27 이현구 유사 웹사이트의 검색 방법
KR20020015851A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
KR20020049694A (ko) * 2000-12-20 2002-06-26 전종훈 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법
KR20020067160A (ko) * 2001-02-15 2002-08-22 전석진 문서 색인 시스템 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04326164A (ja) * 1991-04-25 1992-11-16 Nippon Steel Corp データベース検索システム
JPH11154164A (ja) * 1997-11-21 1999-06-08 Hitachi Ltd 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
KR19990048714A (ko) * 1997-12-10 1999-07-05 윤종용 인터넷 정보검색시 유사문서 우선순위 판별방법
KR20010092922A (ko) * 2000-03-27 2001-10-27 이현구 유사 웹사이트의 검색 방법
KR20020015851A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
KR20020049694A (ko) * 2000-12-20 2002-06-26 전종훈 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법
KR20020067160A (ko) * 2001-02-15 2002-08-22 전석진 문서 색인 시스템 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101242380B1 (ko) * 2005-04-25 2013-03-14 마이크로소프트 코포레이션 정보를 전자 문서와 연관시키기 위한 시스템 및 방법
US8751559B2 (en) 2008-09-16 2014-06-10 Microsoft Corporation Balanced routing of questions to experts
US9195739B2 (en) 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US10579442B2 (en) 2012-12-14 2020-03-03 Microsoft Technology Licensing, Llc Inversion-of-control component service models for virtual environments

Similar Documents

Publication Publication Date Title
US8086601B2 (en) Systems and methods of retrieving relevant information
US8185545B2 (en) Task/domain segmentation in applying feedback to command control
US6321220B1 (en) Method and apparatus for preventing topic drift in queries in hyperlinked environments
US9940398B1 (en) Customization of search results for search queries received from third party sites
US9158764B2 (en) Method and apparatus for utilizing user feedback to improve signifier mapping
US6871202B2 (en) Method and apparatus for ranking web page search results
US6112203A (en) Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
US8862565B1 (en) Techniques for web site integration
US6415319B1 (en) Intelligent network browser using incremental conceptual indexer
US6718324B2 (en) Metadata search results ranking system
US6792419B1 (en) System and method for ranking hyperlinked documents based on a stochastic backoff processes
US20050086206A1 (en) System, Method, and service for collaborative focused crawling of documents on a network
JP5318125B2 (ja) 複合検索用のシステムと方法
KR100445943B1 (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
US7490082B2 (en) System and method for searching internet domains
KR20030082109A (ko) 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
KR20030082110A (ko) 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법
KR100426994B1 (ko) 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법
KR100688344B1 (ko) 위치기반 지능형 검색 서비스 방법
Pardakhe et al. Enhancement of web search engine results using keyword frequency based ranking
Chua et al. Automatic generation and refinement of hypertext links
Shiu et al. Accessing hidden web documents by metasearching a directory of specialty search engines
Picard et al. Searching and classifying the web using hyperlinks: a logical approach

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application