KR20010107810A

KR20010107810A - 웹 검색시스템 및 그 방법

Info

Publication number: KR20010107810A
Application number: KR1020010063143A
Authority: KR
Inventors: 김영태; 김기원
Original assignee: 주식회사 케이랩
Priority date: 2001-10-12
Filing date: 2001-10-12
Publication date: 2001-12-07

Abstract

본 발명은 고부가가치의 정보를 생산하고 있는 국내외 웹사이트를 1만여개로 선별분류하여 웹 검색범위를 한정하고, 각종 웹사이트 정보를 비지니스에 촛점을 맞춘 일반 시소러스 및 전문분야 통합 시소러스, 각종 전자사전 및 지능형 솔루션에 의하여 인덱스하고 정보 유전자 지도에 따른 디지털 계층분류 체계하에 데이터베이스(DB)를 구축하여 보다 유용한 정보를 보다 손쉽게 찾을 수 있도록 한 웹 검색 데이터 구축과 검색시스템 및 그 방법에 관한 것이다.

본 발명은 단말기(1)와 유선 또는 무선 통신선(5)을 통하여 인터넷망(4)에 접속되어 특정 웹사이트(2)의 필요한 정보를 얻기 위하여 검색엔진을 운영하는 운영자 서버(3)에 접속하는 웹 검색시스템에 있어서, 상기 운영자 서버(3)는 검색엔진과 정보를 처리하는 검색시스템(6)과 국내외 웹사이트를 다양한 분류기준에 따라 일정 수로 선별 분류하고 상기 웹사이트 정보를 일반 및 전문분야 통합 시소러스, 전자사전 등에 의하여 인덱스하고 계층분류 체계화하여 구축한 데이터베이스(7)로 구성된다.

Description

웹 검색시스템 및 그 방법{Web search system and method}

본 발명은 고부가가치의 정보를 생산하고 있는 국내외 웹사이트를 1만여개로 선별분류하여 웹 검색범위를 한정하고, 각종 웹사이트 정보를 비지니스에 촛점을 맞춘 일반 및 전문분야 통합 시소러스, 각종 전자사전 및 지능형 솔루션에 의하여 인덱스하여 정보 유전자 지도에 따른 디지털 계층분류를 한 데이터베이스(DB)를 구축하여 보다 유용한 정보를 보다 손쉽게 찾을 수 있도록 한 웹 검색 데이터 구축과 검색시스템 및 그 방법에 관한 것이다.

최근 인터넷을 통한 정보검색은 전세계적으로 급격히 확산되고 있고 인터넷을 통해 접할 수 있는 정보의 형태 또한 서지적 데이터에서부터 멀티미디어에 이르기까지 매우 다양해지고 있다. 특히 전문검색시스템의 개발은 데이터베이스에 축적된 문헌의 전문(full-text)을 대상으로 필요 정보를 검색하고, 필요한 정보를 담고 있는 전문의 전부 또는 일부분을 볼 수 있다는 점에서 이용자에게 커다란 도움을 주고 있다. 일반적으로 주요한 정보원(Information Source)으로서의 인터넷 활용 능력은 인터넷상에서 이용자들이 원하는 정보를 얼마나 정확하고 빠르게 검색할 수 있느냐에 달려있다.

웹사이트 수가 방대해지고 이를 이용하고자 하는 사람들의 수가 늘어나는 추세에 있고, 위 이용자들은 보다 간단한 검색어만으로 자신이 원하는 정보를 정확하고 쉽게 찾기를 원하게 되었다.

그러나 이용자 요구에 가장 적합한 정보를 검색하기 위해서는 검색시스템(검색엔진)의 기본원리인 문헌의 내용과 이용자의 검색어가 완전일치 또는 부분일치가이루어져야 가능한 것이다.

종래의 웹사이트 검색엔진은 웹사이트 데이터베이스 내에 이용자 요구에 적합한 문헌들이 축적되어 있음에도 불구하고 색인어와 검색어와의 불일치로 인해 적합한 문헌이 검색되지 못하는 현상이 발생되곤 한다.

따라서 종래의 웹상에서 자료관리 및 검색방법은 일반 이용자가 웹사이트에 접근하여 자신이 원하는 정보를 얻기 위하여 일일히 각각의 메뉴를 찾아다녀야 하는 문제점이 있었다.

이러한 문제점을 해결하기 위하여 시소러스(thesaurus)를 사용하여 웹사이트를 검색하는 기술이 개발되었다. 상기 시소러스란 정보검색, 특히 컴퓨터를 사용하는 기계검색분야에서 자동 분류 대상이 되는 모든 항목에 대하여 분류 정보를 일일이 기록할 수 없으므로 이를 상위 수준으로 기록하고 하위에 속하는 항목들은 상위 항목의 분류에 속하도록 하여 자연어의 각 단어를 그 의미에 따라 분류해 놓은 것으로, 일반적으로는 사전 형태로 널리 사용되고 있다.

그러나, 웹상에서 사용되는 시소러스는 1:1로 대응되는 단순 동의어 사전으로 실제 활용도가 높지 않으며 일부 관련개념을 찾기 위한 시소러스들도 일반 단어에 국한되어 전문분야에 대한 다양한 수요를 충족시켜 주지 못하는 문제점이 있다.

또한, 종래에는 시소러스 정보를 가공하지 않고 그대로 응용 프로그램에서 사용하고 있어 그 자료가 방대하여 실행 속도가 저하되고 불필요한 정보가 중복 검색되는 등 이용자측에서 불편함은 물론 서버에서도 디스크의 저장 용량 및 메모리의 저장 용량이 증가하게 되어 저장공간 및 데이터베이스의 비효율성을 초래하는문제점이 있다.

그리고 웹 검색엔진의 기능 향상으로 검색결과 역시 그 양이 늘어나, 이용자가 원하는 정보를 찾기 위해서는 많은 시간을 투자하거나 결과 내에서 재검색을 해야하는 불편함이 있으며, 검색결과를 분석해 보면 중복문서, 유사문서가 차지하는 양이 많아 실제 유효 검색율이 매우 떨어져 이용자의 만족도가 낮은 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해소하기 위하여 검색 컴포넌트를 이루고 있는 시스로스 및 전자사전을 통합하여 검색엔진의 최적화 및 검색 능력을 향상시키고, 검색어의 상하/동등/유사/관련관계와 트렌드를 반영한 시사적 개념의 통합관리를 통한 정보 접근성을 향상시키는 웹 검색 데이터 구축과 검색시스템 및 그 방법을 제공하는데 그 목적이 있다.

또한 본 발명은 기존의 인덱스 데이터베이스에서 중복문서를 판정할 때 전체문서를 대상으로 하지 않고 인덱스 트리의 형식을 가진 문서를 입력받으면 디지털코드화하여 고유의 프래그(flag)를 부여한 뒤 중복문서를 정밀분석이 가능하도록 하여 최단 시간내에 최소의 경비로 중복문서를 제거할 수 있는 웹 검색 데이터 구축과 검색시스템 및 그 방법을 제공하는데 목적이 있다.

또한, 본 발명은 특정 이용자 집단의 필요에 따라 정보원(Information Source)의 수를 한정하고 이를 일정 레벨(예를 들면 10레벨)로 분류하여 이러한 분류에 대해 다양한 분야별로 다시 평가하여 이용자가 필요한 정보의 습득이 용이하게 하고 정보에 있어서도 중요한 시간 및 출처를 반영하여 검색정보의 유효검색율, 신뢰도 향상 및 이용자 만족도를 제고할 수 있는 웹 검색 데이터 구축과 검색시스템 및 그 방법을 제공하는데 목적이 있다.

도 1은 본 발명에 따른 웹 검색시스템의 전체 계통도.

도 2는 본 발명에 따른 검색시스템의 블럭도.

도 3은 본 발명에 따른 검색시스템의 정보흐름 순서도.

도 4는 본 발명에 따른 정보 계층분류 체계의 일례를 도시한 도면.

도 5는 본 발명에 따른 통합 시소러스의 일례를 도시한 도면.

도 6은 본 발명에 따른 검색평가의 일례를 도시한 도면.

* 도면의 주요부분에 대한 부호의 설명 *

1 : 이용자 단말기 2 : 웹사이트

3 : 운영자 서버 4 : 인터넷망

5 : 유,무선 통신선 6 : 검색시스템

7 : 데이터베이스 8 : 외부정보원

9 : 내부정보원 10 : 정보선별 및 추출수단

11 : 정보분류수단 12 : 데이터변환 및 검색수단

13 : 정보공급수단 14 : 검색평가수단

본 발명은 상기와 같은 목적을 달성하기 위하여 단말기(1)와 유선 또는 무선 통신선(5)을 통하여 인터넷망(4)에 접속되어 특정 웹사이트(2)의 필요한 정보를 얻기 위하여 검색엔진을 운영하는 운영자 서버(3)에 접속하는 웹 검색시스템에 있어서, 상기 운영자 서버(3)는 검색엔진과 정보를 처리하는 검색시스템(6)과 국내외 웹사이트를 일정 수로 선별 분류하여 상기 웹사이트 정보를 일반 및 전문분야 통합 시소러스, 각종 전자사전 등에 의하여 인덱스 하고 계층분류하여 구축한 데이터베이스(7)로 구성된 것을 특징으로 하는 웹 검색시스템이다.

상기 검색시스템(6)은 외부정보원(8) 및 내부정보원(9)을 입력받아 일정 수의 정보로 선별하고 추출하는 정보선별 및 추출수단(10)과, 상기 정보선별 및 추출수단(10)으로부터 출력된 정보를 다시 불필요한 정보를 제거하고난 뒤 상기 정보를 인덱스화하고 일반 및 전문분야 통합 시소러스 작업을 하여 상기 정보를 지능형 계층분류 체계로 분류하는 정보분류수단(11)과, 상기 분류된 정보를 XML로 변환한 뒤 데이터베이스(7)에 저장하고 이용자가 운영자서버(3)를 통하여 정보검색이나 특정 웹사이트의 검색을 요청하였을 경우 데이터베이스(7)에 저장되어 있는 정보를 시소러스 또는 전자사전 등을 통하여 분석된 웹사이트의 특성에 따른 정보를 검색하는 데이터변환 및 검색수단(12)과, 상기 검색된 정보를 이용자 단말기(1)에 제공하는정보공급수단(13)과, 상기 이용자 단말기(1)에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화하고 이에 따른 가중치를 조정하는 검색평가수단(14)으로 이루7어진 것을 특징으로 한다. 상기 지능형 계층분류 체계는 고정형분류와 비고정형 분류로 구분하여 상기 고정형 분류를 기준 정보로 하고, 상기 비고정형 분류는 새로운 주제의 삽입과 유사주제의 통합 및 분리, 세분에 유연한 구조로 하위분류로 확장 및 시의성과 트렌드를 반영하여 상위분류로 이동 및 교체를 지원하는 여유코드 확보가 가능하도록 한 것을 특징으로 한다.

또한, 본 발명은 상기와 같은 목적을 달성하기 위하여 단말기(1)와 유선 또는 무선 통신선(5)을 통하여 인터넷망(4)에 접속되어 특정 웹사이트(2)의 필요한 정보를 얻기 위하여 검색엔진을 운영하는 운영자 서버(3)에 접속하는 웹검색을 하는 방법에 있어서, 상기 검색시스템(6)은 외부정보원(8) 및 내부정보원(9)를 입력받는 정보 입력단계(100)와, 상기 입력받은 정보를 일정 수의 정보로 선별하고 추출하는 정보 선별추출단계(200)와, 상기 정보선별 및 추출수단(10)으로부터 출력된 정보를 다시 불필요한 정보를 제거하고난 뒤 상기 정보를 인덱스화하여 전문 분야별 통합 시소러스 작업을 하여 상기 정보를 지능형 계층분류 체계화하는 정보 분류단계(300)와, 상기 분류된 정보를 XML로 변환한 뒤 데이터베이스(7)에 저장하고 이용자가 운영자서버(3)를 통하여 정보검색이나 특정 웹사이트의 검색을 요청하였을 경우 데이터베이스(7)에 저장되어 있는 정보를 시소러스 또는 전자사전 등을 통하여 분석된 웹사이트의 특성에 따른 정보를 검색하는 정보 변환 및 검색단계(400)와, 상기 검색된 정보를 이용자 단말기(1)에 제공하는 정보 공급단계(500)와, 상기이용자 단말기에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화하고 이에 따른 가중치를 조정하는 검색평가단계(600)로 이루어진 것을 특징으로 하는 웹 검색 방법이다.

상기 통합 시소러스는 한/영 자동확장검색에 필요한 언어확장/ 맞춤법 자동교정/ 관련정보제공/ 우선어/ 비우선어/ 어휘의 상하관계 등을 하나의 테이블에서 관리하고, 일반시소러스, 경제/시사/IT 등 전문분야별 시소러스, 유의어사전, 복합명사사전, 외래어(일반/인명/지명/기관/단체/기업 등)사전, 중의어사전, 맞춤법 자동교정을 위한 사전 등을 통합관리하게 한 것을 특징으로 한다.

상기 검색평가수단(14) 또는 검색평가단계(600)에 의하여 조정된 정보의 가중치와 이용자 단말기에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화한 자료를 근거로 제2차 정보를 생생하여 피이드백하여 내부정보원(9)으로 활용하는 것을 특징으로 한다.

이하 본 발명의 구성과 작용에 대하여 도면을 참고로 설명하면 다음과 같다.

도 1은 본 발명에 따른 웹 검색시스템의 전체 계통도로서, 본 발명은 도 1에 도시된 바와 같이 인터넷 이용자는 단말기(1)가 통신선(유,무선)을 통하여 인터넷망(4)에 접속되어 다양한 웹사이트(2)를 연결하여 필요한 정보를 제공받기 위하여 상기 웹사이트의 주소(URL)를 직접 입력하거나 검색엔진을 운영하는 운영자 서버(3)에 접속하여 상기 검색엔진을 통하여 정보검색이나 특정 웹사이트의 검색을 요청하게 된다. 상기 운영자 서버(3)에는 검색엔진과 정보를 처리하는 검색시스템(6)과 운영자가 국내외 웹사이트를 일정 수(1만여개 정도)로 선별 추출하여 상기 웹사이트 정보를 일반 및 전문분야 통합 시소러스, 각종 전자사전 및 지능형 솔루션에 의하여 인덱스 하여 정보 유전자 지도에 따른 디지털 계층분류를 하여 구축한 데이터베이스(7)로 구성되어 있다.

도 2는 상기 검색시스템(6)에 대한 세부 블럭도로써, 도 2에 도시된 바와 같이 본 발명에 따른 검색시스템(6)은 전문분야별 국내외 웹사이트를 외부 정보원(8)으로 하여 정보선별 및 추출수단(10)을 통하여 일정 수(1만여개 정도)로 우수 정보원으로 선별한 웹사이트를 대상으로 정보를 추출한다.

상기 선별된 정보를 정보분류수단(11)을 통하여 불필요한 정보를 다시 한번 제거한 뒤 상기 정보를 인덱스화하여 일반 및 전문분야 통합 시소러스 작업을 하고 상기 정보를 지능형 계층분류 체계화하여 우선순위를 결정하게 된다.

상기 지능형 계층분류체계는 기존 도서분류체계와 웹 분류체계와는 달리 실시간 업데이트가 수시로 발생하는 온라인 정보를 수용할 수 있고 확장성에 염두를 둔 것으로 확장성, 유동성을 반영하여 이용자의 정보 접근이 용이하게 한 것이다.

본 발명에 따른 지능형 계층분류 체계는 지식체계를 기반으로 하는 문서분류체계의 구성원칙에 준하되, 웹 정보의 일반적 특성 및 웹 분류체계의 분석결과와 분류대상이 온라인상의 정형화되지 않은 정보라는 점을 고려하여 새로운 주제의 삽입과 유사주제의 통합 및 분리, 세분 등 웹 정보의 생성 및 소멸이 역동적인 점을 반영할 수 있도록 하는 유연성과 기존 웹 디렉토리의 주제어의 불명확함을 보완하는 명확성, 배열의 일관성을 확보할 수 있도록 하며, 학문위주의 정적인 오프라인 정보와 변화가 많은 온라인 정보를 모두 수용할 수 있는 체계적이고 최신정보의 가감이 쉬운 고정형/가변형 혼용 분류체계로서, 이용자가 익숙한 듀이의 10진분류법을 원용하여 디지털시대에 맞는 5자리 계층분류코드를 만들어 코드값 자체가 정보의 상하, 관련개념을 포함할 수 있도록 구현한 것이다. 즉, 기존의 듀이의 10진분류법을 개량한 한국10진분류체계(KDC)는 000 : 총류, 100 : 철학, 200 : 종교, 300 : 사회과학, 400 : 순수과학, 500 : 기술과학, 600 : 예술, 700 : 언어, 800 ; 문학, 900 ; 역사로 되어 있으나, 본 발명에서는 00000 : 총류, 10000 : 인문/사회과학, 20000 : 자연과학, 30000 : 예술, 40000 : 정치/사회, 50000 : 경제/경영, 60000 : 공학, 70000 : 컴퓨터/인터넷, 80000 ; 건강, 90000 ; 종합으로 선정하였다. 즉 기존의 10진분류를 4가지로 분류한 기초학문(00000∼39999)영역을 고정형으로, 기초학문에서 파생 또는 신규(40000∼99999)영역은 비고정형, 즉 가변적인 분류하여 기존 10진분류에서 할 수 없었던 새로운 주제의 삽입과 유사주제의 통합 및 분리, 세분 등 조정이 융통성 있도록 하였다. 고정형 분류를 기반이 되는 문헌정보로 하고, 비고정형 분류체계는 고정형 분류에서 파생된 응용분야 정보를 배치하였다.

또한 비고정형 분류에 새로운 주제를 삽입하거나 기술의 발전, 시대의 변화 등으로 인해 유사주제의 통합 및 분리, 세분 등 조정이 필요할 때 계층관계 변동을 고려하여 여유코드를 확보한 것이다.

이러한 분류체계의 조정은 자동분류에는 한계가 있으므로 관리자가 검색평가수단(14)에 접근, 확인하는 방법을 이용토록 한다.

이렇게 함으로써 이용자가 인터넷을 통하여 정보를 검색할 때 시의성이 고려되었으므로 이용자 중심의 체계적인 정보접근이 가능하고, 변화가 많은 온라인 정보의 적절한 분류로 온/오프라인 정보의 통합분류가 가능하게 된다.

0∼3까지의 고정분류는 4∼9까지의 비고정 분류를 기본적으로는 포함하는 것으로 하고, 비고정 분류는 고정분류 중 시의성/정보의 양 등을 고려하여 비중이 높은 것을 배치한다. 이는 향후 정보의 가치이동이 일어날 경우에는 다시 배치할 수 있도록 비고정분류 내의 위치값의 여유를 확보하기 위해서이다.

기존 10진분류내에서 새로운 분류가 필요할 경우, 하위로만 뻗어가는 형태가 아니라, 상위에도 배치할 수 있도록 한다. 분류 내의 위치값의 여유가 없는 경우에는 기존 위치값을 조정 또는 통합하여 위치값을 확보할 수 있도록 한다.

즉, 최초 첫째자리, 즉 대분류를 예로 들면, 새로운 주제목록을 분류체계 하에 배치해야 할 경우 위치값의 여유가 없을 시에는 4∼9까지의 비고정 분류 중 가장 정보로서의 비중이 낮은 것을 선택, 기존의 0∼3 사이의 원래자리로 보내거나 4∼9 중에서 두가지 이상을 통합하여 위치값의 여유를 만들고 그 자리에 새로운 분류를 하도록 한다.

도 4에서는 본 발명에 따른 지능형 계층분류 체계의 일례를 도시하고 있다.

도 4에서 도시된 바와 같이 동력일반/직선동력/회전동력/기타로 분류했지만 새로운 동력의 형태가 등장할 경우 62224번으로 분류할 수도 있고, 기존 62221~3 또는 62229의 하위로 분류할 수도 있다. 또한 회전동력의 정보로서의 비중/가치가 높아지면 62223번은 62220의 자리나 62200의 상위개념으로 이동할 수 있으며 그때 기존의 자리값은 여유분 코드값을 새로이 갖거나 아니면 회전동력의 기존값 62223으로 이동하게 된다.

상기 정보분류수단(11)을 통하여 분류된 정보는 데이터변환및 검색수단(12)에 의하여 XML(Extensible Makeup Language)로 변환 된 뒤 데이터베이스(7)에 저장되고, 이용자가 운영자서버(3)을 통하여 정보검색이나 특정 웹사이트의 검색을 요청하였을 경우 데이터베이스(7)에 저장되어 있는 정보를 시소러스 또는 전자사전 등을 통하여 분석된 웹사이트의 특성에 따른 정보 또는 웹사이트의 검색결과를 정보공급수단(13)을 통하여 이용자에게 제공하게 된다.

한편, 상기 통합 시소러스는 종래 웹에서 사용되고 있는 시소러스와 같이 1:1로 대응되는 단순 동의어사전이나 일부 관련개념을 찾기 위하여 일반단어에 국한된 것이 아니라 전문분야에 대하여 다양하게 적용될 수 있게 한 것으로, 검색 컴포넌트를 이루고 있는 시소러스 및 각종 전자사전을 통합하여 시스템 최적화 및 검색능력을 향상시키고, 언어의 상하/동등/유사/관련관계와 트렌드를 반영한 시사적 개념의 통합관리를 통한 정보 접근가능성을 향상시킨 것이다.

또한, 상기 통합 시소러스는 한/영 자동확장검색에 필요한 언어확장/ 맞춤법 자동교정/ 관련정보제공/ 우선어/ 비우선어/ 어휘의 상하관계 등을 하나의 테이블에서 관리하고, 일반시소러스, 경제/시사/IT 등 전문분야별 시소러스, 유의어사전, 복합명사사전, 외래어(일반/인명/지명/기관/단체/기업 등)사전, 중의어사전, 맞춤법 자동교정을 위한 사전 등을 통합관리하게 한 것이다. 이렇게 함으로써, 통합적인 어휘 관리로 신생어, 복합명사 등의 효과적인 관리가 가능하게되고, 각종 전자사전으로 인한 단어의 중복 등을 개선하여 검색을 위한 리소스 최소화할 수 있는장점이 있다.

도 5는 상기 통합 시소러스의 일례를 도시한 것으로, 도 5에 도시된 바와 같이 본 발명의 통합 시소러스의 일실시예는 검색요어(keyword)를 기준으로 우선어, 비우선어(동의어), 상위개념, 하위개념, 관련개념, 영단어, 한자어로 구성된다.

검색엔진의 언어 자동확장 기능을 지원하여, 한글 이외의 문서에서 외국어 검색이 가능하도록 한다. 즉, 게놈을 검색어로 입력시 시소러스의 비우선어인 게놈(표준표기는 아니나 일상적으로 쓰는 표기형태), 우선어인 지놈, 비우선어 영문표기인 genome을 국내사이트에서 찾고 외국사이트에서는 genome을 언어 자동확장 검색하여 외국어가 익숙치 못한 인터넷 사용자들이 외국어로 이루어진 정보에 접근이 쉽도록 한다.

또한 관련개념에는 유전자조작, 유전자지도가 포함되며 상위개념으로는 유전공학이 제시되어 한 목록에서 관련된 모든 언어적 사항을 확인할 수 있다.

또한, 형태소분석기에서 분석하지 못하는 복합명사를 각 개별 전자사전에 등록하여 통합 시소러스에서 통합관리하고 검색이 가능토록 하는 모듈을 제공한다. 또한, 검색어의 상, 하위개념을 밝힌 것으로 계층분류 체계와 매칭되어 언어의 상하관계는 물론 이용자의 체계적인 정보접근이 가능하도록 지원하고, 검색요어(keyword)의 사전적 정의에 근거한 관련개념과 트렌드를 반영하여 시사개념의 추가로 검색 결과의 관련개념으로 도출시키고, 비우선어의 영단어는 검색을 위한 불용어를 제외한 형태로 실제 띄어쓰기/대소문자 구분하여 정확한 단어의 형태로 하여 영단어 및 한자어 관리를 한다.

한편, 상기 정보공급수단(13)에 의하여 이용자에게 제공된 정보를 바탕으로 검색평가수단(14)은 정보별 이용빈도를 통계화하고 이에 따른 가중치를 시시각각으로 조정하며, 정보의 사용빈도, 활용도 등을 고려하여 제2차 정보를 생성하게 된다.

상기 검색평가수단(14)은 다음과 같이 검색능력향상을 가져 오게하여 이용자의 검색만족도를 향상시키게 된다.

현재 이용자의 검색결과의 적합도를 판정하는 벡터모델, 즉 검색어의 빈도수와 위치값을 계산하는 단어 관련도 계산법을 기본으로 구글(google)에서 최초로 사용한 웹페이지의 링크를 분석하여 적합도를 향상시키는 기술이 추가된 형태가 주류를 이루고 있으며, 여기에는 단순히 링크수만을 계산하거나 특정 웹 문서내의 링크 중요도를 차등화하는 기술이 포함되어 있다. 이는 링크를 통해서 정보를 분류(rating)하는 것은 기술적인 객관성을 확보할 수는 있으나 실제 정보 속에 링크가 걸려 있을 때에만 유효한 것으로 이용자들이 정보 가치판단에서 중요한 근거가 되는 출처의 신뢰도, 영향력을 반영하기에는 다소 차이가 있는 기계적인 방법이다.

즉, 다른 사이트에서의 링크가 많다는 것은 관심 또는 정보로서의 가치가 높다고 볼 수도 있으나 이는 기계적인 방법으로 실제 정보원의 가치와는 다소 거리가 있을 수 있다.

웹 상에서 초기부터 유명한 웹사이트나 웹 접근비중이 높은 하이테크 관련기술 분야의 경우에는 링크가 많고, 영어문화권 중심의 웹 기반의 한계로 비영어권의링크는 상대적으로 적을 수밖에 없는 차이를 보인다.

모든 사이트를 대상으로 하는 구글(google)로 대표되는 범용 검색엔진의 경우 이용자의 검색결과의 적합도를 모든 사이트를 사전평가하여 판정하는 것은 불가능하지만, 본 발명에서는 비즈니스용 또는 기업용 전문검색엔진로 한정하고, 검색범위가 되는 정보원을 선별하여 한정하고 있기 때문에 가능하게 되고 이를 활용하여 사전 평가를 통한 조작으로 검색신뢰도 및 만족도 향상이 가능하게 된다.

웹사이트의 정보는 시간이 지날수록 가치가 줄어들며, 정보소스는 단순히 내용만이 아니라 출처의 신뢰도에 따라 가치평가가 달라지기 때문에 이러한 부분에 대한 고려가 필요하고, 이를 위하여 정보원에 대해 일정 수의 레벨(10레벨 정도가 바람직하다)로 분류하고 이러한 분류에 대해 다양한 분야별로 다시 분류(rating)하여 검색결과 튜닝한 뒤 벡터모델과 출처평가, 생성시간을 종합적으로 분석한 결과 도출하면 이용자의 검색결과의 적합도가 향상된 결과를 도출할 수 있으며, 이용자의 요구에 보다 가까운 정보를 제공하게 된다.

위와 같이 동일 또는 유사정보라 하더라도 웹사이트의 평가에 따라 다르게 분류됨으로써 사용자가 필요한 정보, 즉 활용가치가 높은 정보 접근이 쉬우며, 웹사이트의 정보에 대한 시간 및 출처를 반영함으로써 정보의 신뢰도 및 검색만족도를 향상할 수 있게 된다.

도 6은 상기 검색평가수단(14)에 의하여 검색평가를 한 결과의 일례를 도시한 것이다.

상기 제2차 정보는 내부정보원(9)으로 하여 피드백하게 하여 정보선별 및 추출수단(10)에 입력되어 정보의 우선순위를 다시 결정하게 되는 등 실시간으로 정보의 활용도 사용도에 따라 수시로 업데이트된다.

선별된 일정 수의 사이트를 11단계로 세분화하고 각각을 지역/출처/주제/산업/유·무료여부/접속정보 제공여부/계층분류체계 등으로 분류하여 다양한 조합이 가능하도록 한 것이다.

도 3는 상기 검색시스템(6)에 대한 정보흐름 순서를 도시한 것으로, 도 3에 도시된 바와 같이 본 발명에 따른 검색시스템(6)은 크게 정보 입력단계(100), 정보 선별추출단계(200), 정보 분류단계(300), 정보 변환 및 검색단계(400), 정보 공급단계(500) 및 검색평가단계(600)로 이루어져 있다.

상기 정보 입력단계(100)는 전문분야별 국내외 웹사이트의 비정형화된 정보인 외부정보원과, 운영자서버에서 미리 확보된 비정형화 또는 정형화된 내부정보와 검색결과를 통하여 피드백된 내부정보원을 입력받는 단계이다.

상기 정보 선별추출단계(200)는 비정형화된 외부정보들 중 우수정보원을 선별하는 단계와 상기 외부정보원에서 선별된 정보와 내부정보원으로부터 입력된 정보에서 정보를 추출하는 단계를 포함한다.

상기 정보 분류단계(300)는 상기 정보 선별추출단계(200)에서 출력된 정보에서 불필요한 정보(garbage)를 제거하는 단계와, 상기 분류된 정보를 전문분야별 시소러스 처리하여, 인덱스하고 지능형 계층분류를 하는 단계를 포함한다.

상기 정보 변환 및 검색단계(400)는 상기 정보 분류단계(300)에서 출력된 정보를 구조화된 데이터를 지원할 수 있는 XLM로 변환하는 단계와, 상기 XLM로 변환된 정보를 데이터베이스에 저장하는 단계 및 이용자가 운영자서버(3)을 통하여 정보검색이나 특정 웹사이트의 검색을 요청하였을 경우 데이터베이스(7)에 저장되어 있는 정보를 시소러스 또는 전자사전 등을 통하여 검색하는 검색단계를 포함한다.

상기 정보 공급단계(500)는 상기 정보 변환 및 검색단계(400)에서 이용자의 요구에 의하여 검색된 결과를 이용자에게 제공하는 단계와 제공된 정보의 결과를 공유/저장, 출력하는 단계를 포함한다.

상기 검색평가단계(600)는 상기 정보 공급단계(500)로 부터 이용자에게 제공된 결과를 정보별로 이용빈도를 통계화하는 단계와 상기 통계화된 이용빈도를 가지고 각 정보의 가중치를 조정하는 단계와, 이용자에게 제공된 결과로부터 제2차정보를 생성하는 단계를 포함한다.

상기 데이터베이스(7)내에서 정보 저장방식은 인덱스트리를 이용하여 저장할 수도 있다. 기존의 검색 데이터베이스에서는 기본 데이터와 색인정보만을 저장하거나 바이너리트리 구조를 이용, 색인된 자료의 위치값을 기억하여 나중에 검색시 결과를 낼 수 있도록 하고 있고 있으나, 상기 인덱스트리 방식은 전문(Full Text)검색엔진에서 검색어로 입력한 단어가 들어있는 문서를 찾는데 있어서 전체를 대상으로 하지 않고 음소별로 코드화하여 검색대상을 축소시켜감으로써 전반적인 검색효과 향상시킬 수 있다. 이는 검색어를 음소별로 나눈 다음 각 음소(한글자모, 영문자, 특수문자 포함)가 갖는 고유값을 통해 인덱스트리로부터 찾아가는 것이다. 예를 들면. '박찬호'의 경우 ㅂ,ㅏ,ㄱ,ㅊ,ㅏ,ㄴ,ㅎ,ㅗ의 순서, 즉 'ㅂ'으로 시작하는 단어 중 'ㅏ','ㄱ'과 같이 순차적으로 찾아나가며 마지막 노드에서 문서에 대한 정보를 얻을 수 있기 때문에 검색단어에 대한 결과를 매우 빠르게 도출할 수 있는 장점이 있다.

또한, 상기 인덱스된 데이터베이스(7)에서 중복문서를 판정하는 속도를 향상시킬 수 있는 방법으로 다음과 같은 방법을 사용할 수 있다.

검색 데이터베이스는 통상 역파일구조를 사용하는 것이 대부분으로, 추출된 문서를 분석하여 제목/저자/작성일/키워드와 본문위치를 기억시켜 놓았다가 실제 검색결과를 표출할 때 각 인덱스를 비교하거나, 문서내의 문자를 코드화, 유사도를 판정하고 있고 있다. 그러나, 데이터베이스내의 정보량이 방대하기 때문에 위와 같은 방법으론 전체문서를 대상으로 중복문서를 판정함는데 많은 시간이 소요되는 문제점이 있다.

본 발명에서는 데이터베이스내에 인덱스트리와 같은 구조로 문서가 들어오면 7자리 이상의 디지털 코드화하여 고유의 플래그(flag)를 갖도록 하고, 문서를 인덱스 데이터베이스에 저장하기에 앞서 각 플래그를 창출한다. 이러한 디렉토리 구조를 통해 같은 플래그를 갖는 문서가 존재할 때 해당문서를 데이터베이스에서 호출하여 정밀분석토록 하여 중복을 판정함으로써 최단시간에 최소의 경비로 중복을 제거할 수 있다.

본 발명은 고부가가치의 정보를 생산하는 정보원을 국내/외 사이트 를 일정 수(1만여개 정도)로 선별추출하고 이 사이트의 정보를 평가하여 전문분야별로 계층분류함으로써 실시간으로 데이터베이스를 업데이트가 가능하고, 이용자의 검색결과를 평가하여 피드백하여 정보로 다시 활용함으로써 이용자에게 유용한 정보를 제공할 수 있는 이점이 있다.

또한, 본 발명은 전문분야별 시소러스와 전자사전 등으로 통합관리하는 시소러스를 이용함으로써 신생어, 복합명사, 시사어, 영단어, 한자어 등으로도 검색이 가능하여 이용자에게 보다 다양하고 정확한 정보를 제공할 수 있는 이점이 있다.

Claims

단말기(1)와 유선 또는 무선 통신선(5)을 통하여 인터넷망(4)에 접속되어 특정 웹사이트(2)의 필요한 정보를 얻기 위하여 검색엔진을 운영하는 운영자 서버(3)에 접속하는 웹 검색시스템에 있어서,

상기 운영자 서버(3)는 검색엔진과 정보를 처리하는 검색시스템(6)과;

국내외 웹사이트를 일정 수로 선별 추출하여 상기 웹사이트 정보를 일반 및 전문분야 통합 시소러스, 전자사전 등에 의하여 인덱스 하고 계층분류를 하여 구축한 데이터베이스(7)로 구성된 것을 특징으로 하는 웹 검색시스템.
제1항에 있어서, 상기 검색시스템(6)은 외부정보원(8) 및 내부정보원(9)을 입력받아 일정 수의 정보로 선별하고 추출하는 정보선별 및 추출수단(10)과, 상기 정보선별 및 추출수단(10)으로부터 출력된 정보를 다시 불필요한 정보를 제거하고난 뒤 상기 정보를 인덱스화하여 전문 분야별 통합 시소러스 작업을 하여 상기 정보를 지능형 계층분류 체계화하는 정보분류수단(11)과, 상기 분류된 정보를 XML로 변환한 뒤 데이터베이스(7)에 저장하고 이용자가 운영자서버(3)를 통하여 정보검색이나 특정 웹사이트의 검색을 요청하였을 경우 데이터베이스(7)에 저장되어 있는 정보를 시소러스 또는 전자사전 등을 통하여 분석된 웹사이트의 특성에 따른 정보를 검색하는 데이터변환 및 검색수단(12)과, 상기 검색된 정보를 이용자 단말기(1)에 제공하는 정보공급수단(13)과, 상기 이용자 단말기(1)에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화하고 이에 따른 가중치를 조정하는 검색평가수단(14)으로 이루어진 것을 특징으로 하는 웹 검색시스템.
제2항에 있어서, 상기 지능형 계층분류 체계는 고정형분류와 비고정형 분류로 구분하여 상기 고정형 분류를 기준 정보로 하고, 상기 비고정형 분류는 새로운 주제의 삽입과 유사주제의 통합 및 분리, 세분에 유연한 구조로 하위분류로 확장 및 시의성과 트렌드를 반영하여 상위분류로 이동 및 교체를 지원하는 여유코드 확보가 가능하도록 한 것을 특징으로 하는 웹 검색시스템.
제2항에 있어서, 상기 통합 시소러스는 한/영 자동확장검색에 필요한 언어확장/ 맞춤법 자동교정/ 관련정보제공/ 우선어/ 비우선어/ 어휘의 상하관계 등을 하나의 테이블에서 관리하고, 일반시소러스, 경제/시사/IT 등 전문분야별 시소러스, 유의어사전, 복합명사사전, 외래어(일반/인명/지명/기관/단체/기업 등)사전, 중의어 사전, 맞춤법 자동교정사전 등을 통합관리하게 한 것을 특징으로 하는 웹 검색시스템.
제2항에 있어서, 상기 검색평가수단(14)에 의하여 조정된 정보의 가중치와 이용자 단말기에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화한 자료를 근거로 제2차 정보를 생생하여 피이드백하여 내부정보원(9)으로 활용하는 것을 특징으로 하는 웹 검색시스템.
제1항 또는 제2항에 있어서, 상기 일정 수는 1만여개정도로 하는 것을 특징으로 하는 웹 검색시스템.
단말기(1)와 유선 또는 무선 통신선(5)을 통하여 인터넷망(4)에 접속되어 특정 웹사이트(2)의 필요한 정보를 얻기 위하여 검색엔진을 운영하는 운영자 서버(3)에 접속하는 웹검색을 하는 방법에 있어서,

상기 검색시스템(6)은 외부정보원(8) 및 내부정보원(9)를 입력받는 정보 입력단계(100)와;

상기 입력받은 정보를 일정 수의 정보로 선별하고 추출하는 정보 선별추출단계(200)와;

상기 정보선별 및 추출수단(10)으로부터 출력된 정보를 다시 불필요한 정보를 제거하고 난 뒤 상기 정보를 인덱스화하여 전문 분야별 통합 시소러스 작업을 하여 상기 정보를 지능형 계층분류 체계화하는 정보 분류단계(300)와;

상기 분류된 정보를 XML로 변환한 뒤 데이터베이스(7)에 저장하고 이용자가 운영자서버(3)를 통하여 정보검색이나 특정 웹사이트의 검색을 요청하였을 경우 데이터베이스(7)에 저장되어 있는 정보를 시소러스 또는 전자사전 등을 통하여 분석된 웹사이트의 특성에 따른 정보를 검색하는 정보 변환 및 검색단계(400)와;

상기 검색된 정보를 이용자 단말기(1)에 제공하는 정보 공급단계(500)와;

상기 이용자 단말기에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화하고 이에 따른 가중치를 조정하는 검색평가단계(600)로 이루어진 것을 특징으로 하는 웹 검색 방법.
제7항에 있어서, 상기 지능형 계층분류 체계는 고정형분류와 비고정형 분류로 구분하여 상기 고정형 분류를 기준 정보로 하고, 상기 비고정형 분류는 새로운 주제의 삽입과 유사주제의 통합 및 분리, 세분에 유연한 구조로 하위분류로 확장 및 시의성과 트렌드를 반영하여 상위분류로 이동 및 교체를 지원하는 여유코드 확보가 가능하도록 한 것을 특징으로 하는 웹 검색 방법.
제7항에 있어서, 상기 통합 시소러스는 한/영 자동확장검색에 필요한 언어확장/ 맞춤법 자동교정/ 관련정보제공/ 우선어/ 비우선어/ 어휘의 상하관계 등을 하나의 테이블에서 관리하고, 일반시소러스, 경제/시사/IT 등 전문분야별 시소러스, 유의어사전, 복합명사사전, 외래어(일반/인명/지명/기관/단체/기업 등)사전, 중의어 사전, 맞춤법 자동교정사전 등을 통합관리하게 한 것을 특징으로 하는 웹 검색 방법.
제7항에 있어서, 상기 검색평가단계(600)에서 조정된 정보의 가중치와 이용자 단말기에 제공된 정보를 바탕으로 정보별 이용빈도를 통계화한 자료를 근거로 제2차 정보를 생생하여 피이드백하여 내부정보원(9)으로 활용하는 것을 특징으로 하는 웹 검색 방법.
제7항에 있어서, 상기 일정 수는 1만여개 정도로 하는 것을 특징으로 하는 웹 검색 방법.