KR100645711B1 - 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 - Google Patents

다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 Download PDF

Info

Publication number
KR100645711B1
KR100645711B1 KR1020060020349A KR20060020349A KR100645711B1 KR 100645711 B1 KR100645711 B1 KR 100645711B1 KR 1020060020349 A KR1020060020349 A KR 1020060020349A KR 20060020349 A KR20060020349 A KR 20060020349A KR 100645711 B1 KR100645711 B1 KR 100645711B1
Authority
KR
South Korea
Prior art keywords
information
sharing
web page
web
search
Prior art date
Application number
KR1020060020349A
Other languages
English (en)
Other versions
KR20060096357A (ko
Inventor
남세동
신중호
Original Assignee
(주)첫눈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)첫눈 filed Critical (주)첫눈
Priority to JP2007557936A priority Critical patent/JP2008538021A/ja
Priority to PCT/KR2006/000745 priority patent/WO2006093394A1/en
Publication of KR20060096357A publication Critical patent/KR20060096357A/ko
Application granted granted Critical
Publication of KR100645711B1 publication Critical patent/KR100645711B1/ko
Priority to US11/849,955 priority patent/US20080065632A1/en
Priority to JP2011042894A priority patent/JP5559725B2/ja

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 서버, 방법 및 시스템이 개시된다. 본 발명에 따른 나눔 검색 서비스 제공 방법은, (a) 수집된 데이터를 분석하여 각각의 데이터를 복수개의 정보블록으로 구분하는 단계; (b) 상기 구분된 정보블록별로 색인어를 생성하는 단계; 및 (c) 임의의 키워드와 상기 색인어를 비교하여 그 관련성에 따라 상기 키워드에 대한 나눔검색결과 정보를 생성하여 제공하는 단계를 포함하는 것을 특징으로 한다. 이에 따라 사용자에게 검색의 편의를 제공할 수 있을 뿐만 아니라 정확한 검색 결과를 제공할 수 있다.
검색 엔진, 색인어, 질의어, HTML 템플릿, 페이지 나눔

Description

다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 서버, 방법 및 시스템{Server, Method and System for Providing Information Search Service by Using Web Page Segmented into Several Information Blocks}
도 1은 본 발명의 바람직한 실시 예에 따른 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 시스템의 블록도,
도 2는 본 발명의 바람직한 실시 예에 따른 나눔 검색 서버의 블록도,
도 3a 내지 도 3b는 본 발명의 바람직한 실시 예에 따른 순위 결정 방법을 설명하기 위한 도면,
도 4는 본 발명의 바람직한 실시 예에 따른 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 방법의 플로우차트,
도 5는 본 발명의 바람직한 실시 예에 따른 나눔 검색 결과 화면의 일예를 도시한 도면이다.
< 도면의 주요 부분에 대한 부호의 설명 >
110: 사용자 단말기 120: 유무선 통신망
130: 웹 서버 140: 나눔 검색 서버
141: 나눔 검색 DB 150: 색인 서버
151: 색인 DB 210: 웹 페이지 수집 모듈
220: URL 형식 생성 모듈 230: 페이지 나눔 모듈
240: 색인 관리 모듈 250: 질의 관리 모듈
260: 제어부 510: 입력창
520: 정렬 방식 선택 메뉴
본 발명은 정보 검색 서비스에 관한 것으로, 보다 상세하게는 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 서버, 방법 및 시스템에 관한 것이다.
정보화시대가 도래하여 급속히 성장해 감에 따라 정보량이 급속하게 증가하는 한편 세분화하고 복합적으로 이용되는 등 정보의 정확하고 빠른 활용이 정보화시대를 살아가는 데에 있어서 중요한 수단이 되어 가고 있는 추세이다. 또한, 최근 인터넷의 발달로 인해 정보의 바다라 불리는 인터넷 상의 넘쳐나는 방대한 양의 정보를 컴퓨터를 이용하여 적절히 가공하고 체계적으로 축적하여 정보를 신속하고 정확하게 찾는 인터넷 정보 검색 기술이 발전하고 있는 실정이다.
인터넷 정보 검색 기술은 인터넷 상의 이미지, 음성, 동영상 등의 다양한 형태의 정보를 웹 브라우저(Web Browser)를 이용하여 쉽고 빠르게 찾아 주지만 매일 기하급수적으로 증가하는 수많은 웹 사이트(Web Site) 중에서 어느 웹 사이트에 필요한 정보가 있는지를 확인하기 어렵다는 단점이 있다. 이러한 단점을 극복하기 위 해 모색된 여러 방안 중에서 가장 보편적인 방안은 검색 엔진(Search Engine)을 이용하는 방안이다.
검색 엔진이란 웹 사이트의 URL 정보를 일일이 숙지하지 않아도 인터넷 상의 방대한 양의 정보 중에서 자신이 원하는 정보를 찾아 주는 소프트웨어를 통칭하는 것이다. 검색 엔진은 통상적으로 검색 로봇(Search Robot)이나 웹 스파이더(Web Spider) 프로그램이라 불리는 검색 프로그램이 인터넷 상의 수많은 웹 사이트를 돌아다니면서 미리 수집된 웹 사이트의 정보들의 색인 작업을 수행하고 데이터베이스(Database)로 저장한 후, 정보의 검색을 원하는 인터넷 사용자가 특정 질의어를 입력하면 데이터베이스의 색인을 확인하여 질의어와 일치하는 내용이 있는 웹 사이트만을 선택하여 제공한다.
이러한 검색 엔진은 통상적으로 사용자가 입력한 질의어와 일치하는 단어를 포함한 웹 페이지를 검색한다. 그리고 검색 결과를 내부적인 기준에 의해 결정된 정확도나 중요도에 따라서 다시 정렬하여 그 결과를 사용자에게 제공한다. 한편, 검색 엔진은 색인하고 있는 웹 페이지가 대단히 많기 때문에 통상적으로 적게는 수만 개에서 수십만 개, 많게는 수십억 개의 웹 페이지를 검색 결과로서 제공하지만 검색 결과로서 제공되는 웹 페이지들 중에서 사용자가 원하는 정보를 포함하는 웹 페이지는 극히 일부분에 지나지 않는다.
따라서, 검색 엔진은 이러한 비효율을 극복하기 위해 사용자에게 필요한 정보, 사용자가 원하는 정보를 검색 결과의 상위에 출력할 수 있는 순위 체계(Ranking System)를 도입하여 사용하고 있다. 순위 체계란 웹 페이지 내부에 존재 하는 정보와 웹 페이지의 외부에 존재하지만 웹 페이지와 관련 있는 정보를 분석하고 분석한 정보를 토대로 내부적인 기준에 따라서 웹 페이지의 순위를 산출할 수 있는 일련의 논리적인 체계이다.
이러한 순위 체계를 정확하게 구현하기 위해서 검색 엔진은 질의어의 출현 빈도, 역참조 빈도, 스팸 필터링(Spam Filtering) 등을 고려한다. 즉, 검색 엔진은 웹 페이지 내의 질의어 출현 빈도에 따라 검색 결과를 정렬하거나, 역참조 빈도에 따라 검색 결과를 정렬하거나, 다른 웹 페이지에서 언급되는 빈도에 따라 검색 결과를 정렬하거나, 순위를 조작하기 위한 스팸 웹 페이지를 걸러내어 검색 결과를 정렬하는 등 순위 체계를 합리적으로 구현하기 위한 수단을 마련하여 검색에 활용한다.
이러한 통상적인 검색 엔진을 이용한 정보 검색 방법은 웹 페이지 하나하나를 단위로 웹 페이지 내에 질의어가 포함되는지 여부, 질의어의 출현 빈도, 링크의 출현 빈도, 링크 텍스트의 반영 여부, 스팸 필터링 등을 고려하여 정보를 검색한다. 즉, 통상적인 정보 검색 방법은 질의어를 포함하는 웹 페이지를 웹 페이지 단위로 검색하고 검색한 웹 페이지를 순위 체계에 따라 사용자에게 제공한다.
한편, 웹 페이지는 통상적으로 HTML(Hypertext Markup Language)와 같은 마크업 문서의 문법에 따라 작성된 HTML 태그(Tag)와 본문 텍스트로 구성된다. 또한, 웹 페이지는 기본 정보를 나타내기 위한 태그와 텍스트를 포함한다. 즉, 웹 페이지는 제목, 작성자, 조회수, 본문 등으로 구분된 정보 블록을 포함하고 있으며, 정보 블록은 태그에 의해 구분된다.
그리고 사용자가 원하는 정보는 그 종류 또는 속성에 따라 전술한 정보 블록 중 특정 정보 블록에 포함되어 있을 수 있다. 예를 들면, 사용자가 "김철수"란 작성자에 의해 작성된 "주식 이야기"이란 제목의 웹 페이지를 찾고자 할 경우, 웹 페이지 내의 다수의 정보 블록 중에서 "제목", "본문", "조회수" 등의 정보 블록에 "김철수"란 단어가 포함된 웹 페이지보다 "작성자"의 정보 블록에 "김철수"란 단어를 포함한 웹 페이지가 사용자가 원하는 정보를 포함하는 웹 페이지일 가능성이 크다.
따라서, 사용자로부터 질의어를 입력 받아 그에 따른 정보 검색을 수행할 때에 질의어를 정보 블록별로 선택하여 해당 정보 블록만을 검색하거나 정보 블록별로 가중치를 다르게 부여하여 평가값을 계산하고 그 평가값을 이용하여 순위를 결정하고 그 순위에 따라 검색 결과를 제공하면 사용자가 원하는 정보에 근접한 정보를 제공할 수 있다.
그러나 통상적인 검색 방법은 아직까지 웹 페이지 단위로 검색할 뿐 웹 페이지가 포함하는 정보들을 정보 블록으로 분리하여 정보 블록별로 검색하거나 각 정보 블록별로 다른 가중치를 부여하여 평가값을 계산한 후 검색 결과를 제공하지 못했다.
한편, 특정 서버에서 제공하는 웹 페이지 상에서는 사용자의 편의를 위해서 세부적인 항목별로 검색할 수 있도록 하고 있다. 그러나 이러한 방식의 검색 서비스도 특정 웹 서버에서 관리하는 특정 데이터베이스를 이용한 검색 방법일 뿐 전체 인터넷 상의 전체 웹 페이지를 대상으로 한 전체 검색 서비스에는 웹 페이지를 정 보 블록으로 분리하여 검색하지 못했다.
이러한 문제점을 해결하기 위해 본 발명은, 인터넷 상의 정보를 검색하는 데에 있어서 검색하고자 하는 정보와 가장 일치하는 정보를 검색하기 위해 웹 페이지를 그 웹 페이지가 포함하는 정보의 속성에 따라 다수의 정보 블록으로 구분하고 구분된 정보 블록별로 색인한 후 검색할 때에 정보 블록별로 선택적으로 검색하거나 검색 결과를 정보 블록별로 가중치를 다르게 부여하여 계산된 평가값을 이용하여 결정된 순위에 따라 정렬한 후 제공하는 정보 검색 서비스 제공 서버, 방법 및 시스템을 제공하는 데에 그 목적이 있다.
이러한 목적을 달성하기 위해 본 발명은, (a) 수집된 데이터를 분석하여 각각의 데이터를 복수개의 정보블록으로 구분하는 단계; (b) 상기 구분된 정보블록별로 색인어를 생성하는 단계; 및 (c) 임의의 키워드와 상기 색인어를 비교하여 그 관련성에 따라 상기 키워드에 대한 나눔검색결과 정보를 생성하여 제공하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법을 제공한다.
또한, 이러한 목적을 달성하기 위해 본 발명은, 질의어를 송신하고 검색 결과를 출력하는 사용자 단말기, 다수의 웹 페이지(Web Page)를 제공하는 웹 서버 및 사용자 단말기로부터 질의어를 수신하여 검색 결과를 생성하고 사용자 단말기로 송신하는 나눔 검색 서버를 포함하는 시스템에서 정보를 검색하는 서비스를 제공하는 방법에 있어서, (a) 사용자 단말기로부터 질의어 및 나눔 검색 요청 신호를 수신하 는 단계; (b) 웹 서버로부터 웹 페이지를 수신하는 단계; (c) 웹 페이지를 다수의 정보 블록으로 구분하는 단계; (d) 구분된 웹 페이지로부터 정보 블록별로 색인어를 추출하여 색인어 정보 및 색인어가 참조하는 웹 페이지(이하 '참조 페이지'라 칭함)의 URL(Uniform Resource Locator) 정보를 생성하는 단계; 및 (e) 질의어와 동일하거나 또는 관련된 색인어를 검색하여 나눔 검색 결과 정보를 생성하고 사용자 단말기로 송신하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법을 제공한다.
또한, 본 발명의 다른 목적에 의하면, 유무선 통신망상의 다수의 웹 페이지(Web Page) 내의 정보를 검색하여 검색 결과를 제공하는 시스템에 있어서, 유무선 통신망을 이용하여 웹 서핑(Web Surfing)을 수행하고, 질의어 및 검색 요청 신호를 송신하여 검색을 요청하며, 검색의 요청에 대한 나눔 검색 결과 정보를 수신하여 구비된 화면에 출력하는 사용자 단말기; 정보를 다수의 웹 페이지로서 구성하여 생성하고 제공하는 웹 서버; 및 상기 웹 페이지를 다수의 정보 블록으로 나누어 구분하며, 구분된 웹 페이지를 이용하여 정보를 검색함으로써 나눔 검색 결과 정보를 생성한 후 사용자 단말기로 송신하는 나눔 검색 서버를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템을 제공한다.
한편 본 발명의 또 다른 목적에 의하면, 수집된 데이터를 분석하여 각각의 데이터를 복수개의 정보블록으로 구분하는 페이지 나눔 모듈; 상기 구분된 정보블록별로 색인어를 생성하는 색인 관리 모듈; 및 임의의 키워드와 상기 색인어를 비교하여 그 관련성에 따라 상기 키워드에 대한 나눔검색결과 정보를 생성하여 제공 하는 제어부를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버를 제공한다.
또한, 본 발명의 또 다른 목적에 의하면, 유무선 통신망을 이용하여 웹 서핑(Web Surfing)을 수행하는 사용자 단말기로부터 질의어 및 검색 요청 신호를 수신하면 웹 서버에 의해 제공되는 웹 페이지 상의 정보를 검색하여 검색 결과를 사용자 단말기로 송신하는 검색 서비스를 제공하는 서버에 있어서, 웹 페이지(Web Page) 수집 프로그램을 실행하여 유무선 통신망에 접속한 웹 서버에 의해 제공되는 웹 페이지들을 무작위로 읽어서 웹 서버로부터 수신하여 저장하는 웹 페이지 수집 모듈; 웹 페이지 수집 모듈에 의해 수신된 웹 페이지들을 분석하여 URL 형식(Uniform Resource Locator Pattern)을 생성하는 URL 형식 생성 모듈; URL 형식을 이용하여 웹 페이지로부터 HTML 템플릿(Hypertext Markup Language Template)을 추출하고 HTML 템플릿을 이용하여 웹 페이지를 다수의 정보 블록으로 나누어 구분하는 페이지 나눔 모듈; 구분된 웹 페이지 내의 정보 블록별로 색인어를 추출하여 색인어 정보 및 색인어가 참조하는 웹 페이지(이하 '참조 페이지'라 칭함)의 URL 정보를 생성하고 저장하는 색인 관리 모듈; 사용자 단말기로부터 질의어와 함께 정보 검색 요청 신호를 수신하면 질의어와 동일하거나 또는 관련된 색인어를 검색하여 나눔 검색 결과 정보를 생성하고 사용자 단말기로 송신하는 질의 관리 모듈; 및 나눔 검색 서버가 구분된 웹 페이지를 이용하여 검색을 수행하도록 웹 페이지 수집 모듈, URL 형식 생성 모듈, 페이지 나눔 모듈, 색인 관리 모듈 및 질의 관리 모듈을 제어하고, 나눔 검색 서버가 유무선 통신망을 이용하여 사용자 단말기 및 웹 서 버와 통신을 수행하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버를 제공한다.
이하, 본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 바람직한 실시 예에 따른 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 시스템의 블록도이다.
본 발명의 바람직한 실시 예에 따른 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 시스템은 사용자 단말기(110), 유무선 통신망(120), 웹 서버(130), 나눔 검색 서버(140) 및 나눔 검색 데이터베이스(DB: Database, 이하 'DB'라 칭함)(141), 색인 서버(150) 및 색인 DB(151)를 포함한다.
사용자 단말기(110)는 인터넷 이용자의 조작에 따라 유무선 통신망(120)을 이용하여 나눔 검색 서버(140)에 접속하고 질의어와 함께 검색 요청 신호를 송신하며, 나눔 검색 서버(140)가 제공하는 나눔 검색 결과 정보를 수신하여 구비된 화면에 출력하는 컴퓨터이다.
이를 위해 사용자 단말기(110)는 유무선 통신망(120)을 이용하여 나눔 검색 서버(140)에 접속하기 위해 VDSL(Very High Data Rate Digital Subscriber Line) 모뎀, 케이블 모뎀 등과 같은 인터넷 모뎀을 포함하는 유선 통신 수단 및/또는 CDMA(Code Division Multiple Access) 2000 모뎀, WCDMA(Wide Band CDMA) 모뎀 등과 같은 이동통신 모뎀을 포함하는 이동통신 수단을 구비하고, 사용자로부터 질의어를 입력 받아 정보의 검색을 요청하고 검색 결과를 화면에 출력하기 위한 웹 브라우저(Web Browser) 프로그램을 저장한 메모리(Memory)와 사용자 단말기(110)의 전체적인 동작을 제어하기 위한 연산을 수행하는 마이크로프로세서를 포함하는 제어부를 포함한다.
이러한 사용자 단말기(110)로서는 데스크톱(Desktop) 컴퓨터나 랩톱(Lap Top) 또는 노트북 등의 이동컴퓨터와 같은 개인용 컴퓨터(PC: Personal Computer) 등이 될 수도 있고, 또한, PDA(Personal Digital Assistant), 셀룰러폰, PCS(Personal Communication Service)폰, 핸드헬드 PC(Hand-Held PC), GSM(Global System for Mobile)폰, W-CDMA(Wide Band CDMA)폰, CDMA-2000폰, MBS(Mobile Broadband System)폰 등과 같은 이동통신 단말기가 될 수 있다.
유무선 통신망(120)은 사용자 단말기(110), 웹 서버(130), 나눔 검색 서버(140), 색인서버(150)를 유선 또는 무선으로 연결하여 각 구성 요소 상호 간에 송수신 되는 데이터를 중계한다.
웹 서버(130)는 통상적인 네트워크 서버로 구현되는 다수의 컴퓨터 시스템 또는 컴퓨터 소프트웨어로서, 다양한 정보를 웹 페이지(Web Page)로서 구성하여 제공한다. 여기서, 네트워크 서버란, 통상적으로 사설 인트라넷 또는 인터넷과 같은 컴퓨터 네트워크를 통해 다른 네트워크 서버와 통신할 수 있는 하위 장치와 연결되 어 작업 수행 요청을 접수하고 그에 대한 작업을 수행하여 수행 결과를 제공하는 컴퓨터 시스템 및 컴퓨터 소프트웨어(네트워크 서버 프로그램)를 뜻하는 것이다. 그러나 이러한 네트워크 서버 프로그램 이외에도, 네트워크 서버 상에서 동작하는 일련의 응용 프로그램과 경우에 따라서는 내부에 구축되어 있는 각종 데이터베이스를 포함하는 넓은 개념으로 이해되어야 할 것이다. 이러한 네트워크 서버는 도스(DOS), 윈도우(Windows), 리눅스(Linux), 유닉스(UNIX) 또는 맥OS(MacOS) 등의 운영체제에 따라 다양하게 제공되고 있는 네트워크 서버 프로그램을 이용하여 구현될 수 있다.
색인서버(150)는 통상 웹 로봇(web robot)으로 지칭되는 데이터 수집 프로그램을 수행하여 유무선 통신망(120)에 연결된 웹서버(130)들로부터 데이터를 수집한다. 색인서버(150)는 주기적으로 수집 데이터를 갱신하며, 색인 DB(151)는 상기 수집된 데이터를 역파일(inverted file) 등을 이용하여 저장한다.
나눔 검색 서버(140)는 색인서버(150) 및 색인 DB(151)와의 통신으로 읽어들인 웹 데이터의 위치정보를 분석하여 다수의 위치정보 형식을 생성한다. 여기서 위치정보는 수집된 웹 데이터의 인터넷상에서의 경로를 포함한 위치정보를 의미하는 것으로 바람직하게는 웹 데이터의 URL(Uniform Resource Locator)를 포함한다. 이렇게 생성한 URL 형식을 이용하여 수집한 웹 페이지로부터 HTML 템플릿(HTML Template: Hypertext Markup Language Template)을 추출하고, 추출한 HTML 템플릿을 이용하여 웹 페이지를 다수의 정보 블록으로 나누어 구분한다. 또한, 처리속도의 개선등을 목적으로 미리 정의된 템플릿 형식을 사용하는 방법도 활용될 수 있 다. 여기서, 정보 블록이란 제목, 작성자, 조회수, 본문 등의 웹 페이지의 기본 정보와 본문 내용 등을 그 정보의 종류 또는 속성에 따라 웹 페이지 내에서 일정한 부분으로 구분된 것을 말한다.
또한, 나눔 검색 서버(140)는 전술한 바와 같이 웹 페이지를 다수의 정보 블록으로 구분한 후, 웹 페이지를 정보 블록별로 색인하여 정보 블록별 색인어 정보와 그 색인어가 참조하는 웹 페이지(이하 '참조 페이지'라 칭함)의 URL 정보를 생성하고 나눔 검색 DB(141)에 저장한 후 사용자 단말기(110)로부터 질의어와 함께 검색 요청 신호를 수신하면 질의어와 색인어를 비교하여 나눔 검색 결과 정보를 생성하고 사용자 단말기(110)로 송신한다. 생성된 나눔 검색 결과 정보는 질의어와 관련된 다른 검색결과와 함께 사용자 단말기(110)로 전송될 수 있으며, 나눔 검색 서버(140)에 관한 상세한 설명은 도 2를 통해 설명하기로 한다.
한편, 나눔 검색 서버(140)는 사용자로부터의 질의어와 검색 요청 신호 없이, 임의의 키워드와 관련된 나눔 검색 결과 정보를 나눔 검색 DB(141)를 검색하여 출력할 수 있다. 예를 들어 나눔검색결과는 사용자가 열람하고 있는 웹문서들에 대해 소정의 방법으로 추출된 주제어 등에 대한 추천정보로서 제공될 수 있다.
나눔 검색 DB(141)는 나눔 검색 서버(140)로부터 수신한 색인어 정보가 참조 페이지의 위치정보(URL 정보를 포함한다)를 저장한다. 또한, 나눔 검색 DB(141)는 나눔 검색 서버(140)로부터 색인어 정보와 참조 페이지의 URL 정보를 수신하여 색인어 정보를 정보 블록별로 저장하고, 참조 페이지의 URL 정보를 나눔 검색 DB(141)에 저장한다. 또한, 상기 나눔검색 DB(141)과 상기 색인 DB(151)는 분리적 으로 또는 통합적으로 운영될 수 있다.
여기서, DB는 데이터베이스 관리 시스템(DBMS: Database Management System) 프로그램 등을 이용하여 컴퓨터 시스템의 저장 공간에 구현된 데이터 구조를 의미하는 것으로, 데이터의 검색, 삭제, 편집 및 추가 등을 자유롭게 행할 수 있는 데이터 저장 형태를 뜻한다. 이러한 데이터베이스는 오라클(Oracle), 인포믹스(informix), 사이베이스(Sybase), MS SQL(Microsoft Structured Query Language) 또는 DB2와 같은 관계형 데이터베이스 관리 시스템(RDBMS: Relational Database Management System) 등을 이용하여 본 발명의 목적에 맞게 구현될 수 있고, 데이터의 저장, 검색, 삭제, 편집 및 추가 등의 기능을 수행하기 위한 적당한 필드(Field) 또는 구성요소들을 가지고 있다.
도 2는 본 발명의 바람직한 실시 예에 따른 나눔 검색 서버(140)의 블록도이다.
본 발명의 바람직한 실시 예에 따른 나눔 검색 서버(140)는 웹 페이지 수집 모듈(210), URL 형식 생성 모듈(220), 페이지 나눔 모듈(230), 색인 관리 모듈(240), 질의 관리 모듈(250) 및 제어부(260)를 포함하는 네트워크 서버이다.
웹 페이지 수집 모듈(210)은 유무선 통신망(120)을 통한 웹서버(130)들에 접속하여 데이터를 수집하는 기능을 수행하며, 색인 서버(150)가 수집하여 색인 DB(151)에 저장한 위치정보가 참조하는 데이터들의 변경 등을 반영하기 위하여 나눔 검색 서버(140)에 선택적으로 포함될 수 있다.
URL 형식 생성 모듈(220)은 제어부(260) 또는 웹 페이지 수집 모듈(210)에 의해 획득된 웹 페이지들의 URL을 분석하여 URL 형식을 생성한다. 본 발명에서 URL 형식이란 다수의 웹 페이지 중에서 유사한 형식을 갖는 즉, 동일한 기본 골격을 갖는 웹 페이지들을 일반화하는 소정의 형식이다. 본 발명에서는 HTML 템플릿을 공유하는 웹 페이지들을 HTML 템플릿 단위로 다수의 정보 블록으로 나누고 나눠진 정보 블록별로 정보를 검색한다. 이때, HTML 템플릿을 공유하는 웹 페이지들을 선정하는 기준이 필요하고 이 기준으로 이용되는 것이 URL 형식이다.
즉, 동일한 HTML 템플릿을 공유하는 다수의 웹 페이지들은 동일한 관리자에 의해 생성될 가능성이 클 뿐만 아니라 웹 페이지들이 포함하는 내용에 있어서도 유사한 사항이 포함될 가능성이 크다. 또한, 동일한 관리자에 의해 생성된 웹 페이지들은 게시판(Board) 서비스, 블로그(Blog) 서비스, 미니 홈피(Mini Hompy) 서비스 등을 제공하는 특정 웹 서버에 의해 관리되는 다수의 페이지에 포함될 수 있다.
본 발명에서 HTML 템플릿이란 웹 페이지의 작성이 용이하도록 자주 사용되는 부분을 일정한 구조로 작성한 기본 골격으로서, HTML로 작성된 웹 페이지의 내용을 분석하는 데에 이용된다. 예를 들면, <Table...><TD>[글번호]</TD><TD>[제목]</TD>...</TABLE> 과 같이 웹 페이지를 작성할 때 자주 사용되는 태그(Tag)의 형식이다. 통상적으로 웹 페이지로서 작성되는 HTML 문서는 HTML 문법에 맞춘 HTML 태그와 텍스트의 조합으로 구성되는데, HTML 문서는 표현하고자 하는 기능에 따라 다수의 기능 블록 즉, 예를 들면, 메뉴를 구성하기 위한 메뉴 블록, 다른 포탈 사이트와 연결하기 위한 링크 블록, 본문 내용을 담기 위한 메시지 블록 등으로 구성된다. 이러한 기능 블록들은 웹 페이지 내에서 자주 사용되기 때문에 HTML 템플릿 으로 작성되어 사용자의 편의를 도모한다.
게시판 서비스, 블로그 서비스, 미니 홈피 서비스 등의 서비스를 제공하는 특정 웹 서버(130)는 자신이 관리하는 대부분의 웹 페이지들을 HTML 템플릿을 이용하여 작성하기 때문에 하나의 웹 서버(130)에 의해 관리되는 웹 페이지들은 같은 HTML 템플릿을 공유하게 된다. 따라서, 동일한 URL 형식을 갖는 웹 페이지로부터 HTML 템플릿을 추출할 수 있고, 추출한 HTML 템플릿을 이용하면 웹 페이지를 다수의 정보 블록으로 나눌 수 있다.
페이지 나눔 모듈(230)은 URL 형식 생성 모듈(210)에 의해 생성된 URL 형식을 이용하여 웹 페이지로부터 HTML 템플릿을 추출하고 추출한 HTML 템플릿을 이용하여 웹 페이지를 다수의 정보 블록으로 나누어 구분한다.
색인 관리 모듈(240)은 페이지 나눔 모듈(230)에 의해 다수의 정보 블록으로 구분된 웹 페이지로부터 정보 블록별로 색인어를 추출하여 상기 색인어가 참조하는 URL 정보를 나눔 검색 DB(141)에 저장한다. 즉, 색인 관리 모듈(240)은 웹 페이지에 구분된 각 정보 블록별로 색인어를 추출하고 추출한 색인어를 각 정보 블록별로 색인 DB(151)에 저장하며, 각 정보 블록별로 생성된 색인어가 참조하는 웹 페이지인 참조 페이지의 URL 정보를 나눔 검색 DB(141)에 저장한다.
질의 관리 모듈(250)은 사용자 단말기(110)로부터 질의어와 함께 정보 검색 요청 신호를 수신하면 질의어와 동일하거나 또는 관련된 의미를 갖는 색인어가 참조하는 참조 페이지의 URL 정보를 나눔검색 DB(141)로부터 수신하여 나눔 검색 결과 정보를 생성한 후 사용자 단말기(110)로 송신한다.
또한, 질의 관리 모듈(250)은 나눔 검색 결과 정보를 생성하는 데에 있어서 정보 블록별로 색인된 색인어를 검색하여 정보 블록별 나눔 검색 결과 정보 및 전체 나눔 검색 결과 정보를 생성한다.
본 발명에서 정보 블록별 나눔 검색 결과 정보는 정보 블록별로 구분되어, 각 정보 블록별로 질의어와 동일하거나 또는 관련된 색인어와 그 색인어가 참조하는 참조 페이지의 URL의 정보를 포함한다. 즉, 예를 들어 정보 블록이 제목, 작성자, 본문만으로 구분 되고 색인 관리 모듈(240)에 의해 각각의 블록으로 색인 되어 각각의 색인어가 색인 DB(151)에 각각의 블록별로 저장되었다면, 질의 관리 모듈(250)은 질의어와 일치하거나 관련된 색인어가 참조하는 참조 페이지의 URL 정보를 포함하는 정보 블록별 나눔 검색 결과 정보를 생성한다. 따라서, 정보 블록별 나눔 검색 결과 정보는 제목, 작성자, 본문 각각마다 참조 페이지의 URL 정보를 갖게 된다.
상기 질의어와 색인어의 관련성을 판단하는데 있어서는 반드시 질의어와 색인어가 물리적으로 동일할 것 만을 요구하지 않으며, 형태소 분석 또는 n-gram 등을 통해 질의어가 색인어가 일부만 일치하는 경우를 포함한다. 또한, 미리 정의된 용어분류 사전 등을 이용하여 분류가 일치한다거나 사전적으로 유의어인 경우에까지 검색결과는 확장될 수 있다.
또한, 본 발명에서 전체 나눔 검색 결과 정보는 질의어와 동일하거나 또는 관련된 색인어와 그 색인어가 참조하는 참조 페이지의 URL 정보를 포함하되, 참조 페이지의 URL 정보는 질의 관리 모듈(250)에 의해 정보 블록별로 가중치가 다르게 부여되어 계산된 평가값에 따라 순위가 결정되고 그 순위에 따라 정렬된다. 즉, 전술한 바와 같이 예를 들어 정보 블록이 제목, 작성자, 본문만으로 구분되고 색인 관리 모듈(240)에 의해 각각의 블록으로 색인 되어 각각의 색인어가 색인 DB(151)에 각각의 블록별로 저장되었다면, 질의 관리 모듈(250)은 색인 DB(151)에서 각각 정보 블록별로 질의어와 일치하거나 관련된 색인어를 검색하고, 검색한 결과로서, 색인 DB(151)에서 질의어와 일치하거나 관련된 색인어가 검색되면 정보 블록별로 검색된 색인어에 그 정보 블록별로 가중치를 다르게 부여하여 평가값을 계산함으로써 그 색인어가 참조하는 참조 페이지의 URL 정보의 순위를 결정하고 결정된 순위에 따라 참조 페이지의 URL 정보를 정렬함으로써 전체 나눔 검색 결과 정보를 생성한다.
제어부(260)는 나눔 검색 서버(140)가 나눔 페이지를 이용하여 검색을 수행하도록 전술한 웹 페이지 수집 모듈(210), URL 형식 생성 모듈(220), 페이지 나눔 모듈(230), 색인 관리 모듈(240), 질의 관리 모듈(250) 등을 제어하고 나눔 검색 서버(140)가 유무선 통신망(120), 나눔 검색 DB(141), 색인서버(150) 및 색인DB(151)와 통신을 수행하게 한다.
도 3a 내지 도 3b는 본 발명의 바람직한 실시 예에 따른 순위 결정 방법을 설명하기 위한 도면이다.
보다 구체적으로 도 3a는 기존 검색의 순위 결정 방법을 설명하기 위한 것이다. 사용자가 입력한 질의어를 포함하는 "ㄱ"과 "ㄴ"의 두 개의 웹 페이지가 있다고 가정하면, 이 두 웹 페이지 간의 순위를 결정하는 데에 있어서 기존 검색에서는 웹 페이지를 '제목', '작성자', '본문' 등의 정보 블록을 구분하지 못하여 각 정보 블록별로 가중치를 부여하지 못하고 단순히 질의어가 언급된 회수를 세어 평가값을 계산하기 때문에 "ㄱ" 웹 페이지의 순위 결정을 위한 평가값은 (1×1=1)+(2×1=2)+(30×1=30)=33이 되고, "ㄴ" 웹 페이지의 순위 결정을 위한 평가값은 (3×1=3)+(3×1=3)+(20×1=20)=26이 된다. 따라서, "ㄱ" 웹 페이지에서 질의어가 언급된 회수가 "ㄴ" 웹 페이지에서 질의어가 언급된 회수보다 많기 때문에 "ㄱ" 웹 페이지의 순위가 "ㄴ" 웹 페이지의 순위보다 높다.
도 3b는 본 발명의 바람직한 실시 예에 따른 순위 결정 방법을 설명하기 위한 것이다. 본 발명에서는 "ㄱ"과 "ㄴ" 두 개의 웹 페이지의 순위를 결정하는 데에 있어서, 각각의 웹 페이지를 '제목', '작성자', '본문' 등의 정보 블록으로 구분하여 사용자의 선호도에 따라 또는 검색 서비스 제공을 위한 정책에 따라 각 정보 블록별로 가중치(0을 포함한다)를 부여하여 평가값을 계산하고 그 평가값에 따라 순위를 결정한다. 만약 도 3b에 도시된 바와 같이 '제목', '작성자', '본문' 각각에 '×20', '×5', '×2'의 가중치가 부여된다면, "ㄱ" 웹 페이지의 순위 결정을 위한 평가값은 (1×20=20)+(2×5=10)+(30×2=60)=90이 되고, "ㄴ" 웹 페이지의 순위 결정을 위한 평가값은 (3×20=60)+(3×5=15)+(20×2=40)=115가 된다. 따라서, 본 발명에 따르면 "ㄱ" 웹 페이지에서 질의어가 언급된 회수가 "ㄴ" 웹 페이지에서 질의어가 언급된 회수보다 많지만 기존 검색과는 달리 평가값은 "ㄴ" 웹 페이지가 "ㄱ" 웹 페이지보다 크기 때문에 "ㄴ" 웹 페이지의 순위가 "ㄱ" 웹 페이지의 순위보다 높게 된다.
따라서, 사용자가 검색하고자 하는 정보의 종류가 또는 속성이 '제목'인 경우 즉, 사용자가 찾고자 하는 정보가 특정 웹 페이지의 제목이라면 본 발명에 의한 검색 방법을 이용하면 더욱 신뢰할 수 있는 검색 결과를 제공할 수 있다.
단, 참조 페이지의 URL 정보의 순위를 결정하는 데에 있어서 색인한 정보 블록뿐만 아니라 색인하지 않은 정보 블록도 순위 결정을 위한 중요한 판단 기준이 된다. 즉, 예를 들면 웹 페이지가 조회수를 나타내기 위한 정보 블록을 포함하고 있다면 조회수 정보 블록의 내용이 색인되지 않더라도 전술한 바와 같이 참조 페이지의 URL 정보의 순위를 결정한 후에 조회수를 참조하여 결정된 순위를 변경할 수도 있다. 또한 이외에도 문서의 생성시각 등의 정보가 검색결과를 정렬하는데 사용될 수 있다.
도 4는 본 발명의 바람직한 실시 예에 따른 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보 검색 서비스 제공 방법의 플로우차트이다.
인터넷을 이용하는 인터넷 사용자는 사용자 단말기(110)를 이용하여 질의어를 입력하고 질의어와 함께 검색 요청 신호를 유무선 통신망(120)을 통해 나눔 검색 서버(140)로 송신한다(S410). 한편, 상기 S410 단계는 경우에 따라 생략될 수 있다. 즉, 사용자로부터 질의어 입력이나 검색 요청 신호의 입력없이 저장된 데이터를 분석하여 나눔 검색 서비스를 수행할 수 있다.
사용자 단말기로부터 질의어와 함께 검색 요청 신호를 수신한 나눔 검색 서버(140)는 웹 로봇(Web Robot) 프로그램을 실행하여 유무선 통신망(120)에 접속한 웹 서버(130)로부터 웹 페이지들을 수신한다(S420). 또는 나눔 검색 서버(140)는 사용자로부터의 질의어나 검색 요청 신호 없이 미리 설정된 방법에 따라 웹 로봇 프로그램이 실행되어 웹 페이지를 수신하여 데이터를 저장할 수도 있다.
웹 서버(130)로부터 웹 페이지들을 수신한 나눔 검색 서버(140)는 수신한 웹 페이지들을 분석하여 URL 형식을 생성한다(S430).
URL 형식을 생성한 나눔 검색 서버(140)는 생성한 URL 형식을 이용하여 웹 페이지로부터 HTML 템플릿을 찾아 HTML 템플릿을 추출하고(S440), 추출한 HTML 템플릿을 이용하여 웹 페이지를 다수의 정보 블록으로 나누어 구분한다(S450).
웹 페이지를 다수의 정보 블록으로 구분한 나눔 검색 서버(140)는 웹 페이지에 구분된 각 정보 블록별로 각 정보 블록이 포함하는 정보로부터 색인어를 추출하여 색인어 정보를 생성하고 색인어가 참조하는 참조 페이지의 URL 정보를 생성한다(S460).
색인어 정보와 참조 페이지의 URL 정보를 생성한 나눔 검색 서버(140)는 추출한 색인어를 각 정보 블록별로 색인 DB(151)에 저장하며, 각 정보 블록별로 생성된 색인어가 참조하는 참조 페이지의 URL 정보를 나눔검색 DB(141)에 저장한다(S470).
색인 작업을 수행한 나눔 검색 서버(140)는 사용자 단말기(110)로부터 수신한 질의어를 색인 DB(151)에서 검색하여 나눔 검색 결과 정보를 생성한 후 사용자 단말기(110)로 송신한다(S480). 즉, 나눔 검색 서버(140)는 질의어를 색인 DB(151)에 저장된 정보 블록별 색인어와 비교하여 정보 블록별 나눔 검색 결과 정보를 생성하거나 색인 DB(151)에 저장된 색인어 정보 중에 전체 색인어를 검색하여 전체 나눔 검색 결과 정보를 생성하여 사용자 단말기(110)로 송신한다.
나눔 검색 결과 정보를 수신한 사용자 단말기(110)는 구비된 화면에 수신한 나눔 검색 결과 정보를 출력한다(S490). 한편, 사용자로부터 입력된 질의어 없이도 본 발명의 서비스는 제공될 수 있다.
도 5는 본 발명의 바람직한 실시 예에 따른 나눔 검색 결과 화면의 일예를 도시한 도면이다.
나눔 검색 서비스는 인터넷 전체의 웹 페이지에 수록된 게시글을 검색하는 데에 이용될 수 있다. 사용자는 사용자 단말기(110)에 출력된 나눔 검색 서비스를 제공하는 웹 페이지에서 입력창(510)에 질의어인 "네오위즈"를 입력하고 '검색'을 선택하여 검색을 요청한다. 이때 사용자는 검색하고자 하는 정보의 종류나 속성에 따라 검색 설정창(520)에 구분된 '제목', '본문', '작성자' 항목 중의 어느 하나의 항목을 선택하여 선택된 항목에 가중치를 부여하여 검색할 수 있다. 도 5에서는 '제목' 항목을 선택하였으므로 제목에 질의어를 더 많이 포함하는 웹 페이지가 우선적으로 출력되게 된다.
입력창(510)에 질의어를 입력하고 검색 설정창(520)에서 검색 항목을 선택하여 검색하면 도 5에 도시된 바와 같이 나눔 검색 결과(540)가 출력된다. 도시된 나눔 검색 결과(540)는 정렬 방식 메뉴(530) 중의 '네오랭킹순'으로 정렬된 결과이다. 사용자는 나눔 검색 결과(540)를 확인하던 중에 필요에 따라 정렬 방식 메뉴(530)를 '날짜순', '조회수순'으로 바꾸어 선택함으로써 나눔 검색 결과(540)의 정렬 기준을 변경할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
이상에서 설명한 바와 같이 본 발명에 의하면, 인터넷 상의 정보를 검색하는 데에 있어서, 검색하고자 하는 정보의 속성을 고려하지 않고 단순히 입력된 질의어와 동일한 단어를 포함하는 웹 페이지를 검색하는 기존의 검색 방법을 탈피하여 인터넷 상의 웹 페이지를 세분화된 항목별로 따로 검색함으로써 사용자에게 검색의 편의를 제공할 수 있을 뿐만 아니라 검색 결과를 검색된 단어에 세분화된 항목별로 다른 가중치를 부여하여 평가값을 계산함으로써 순위를 결정하고 그 순위대로 출력함으로써 정확한 검색 결과를 제공할 수 있다.

Claims (28)

  1. (a) 수집된 정보를 분석하여, 소정의 신택스에 의해 구분되고 상기 정보를 구성하는 데이터의 상기 정보내에서의 위치를 알아내고 그 위치정보에 따라 상기 데이터를 복수개의 정보블록으로 구분하는 단계;
    (b) 상기 구분된 정보블록별로 색인어를 생성하는 단계; 및
    (c) 임의의 키워드와 상기 색인어를 비교하여 그 관련성에 따라 상기 키워드에 대한 나눔검색결과 정보를 생성하여 제공하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  2. 제1항에 있어서, 상기 (a) 단계는
    (a1) 상기 수집된 정보를 분석하여 그 정보가 위치하였던 위치정보 형식을 생성하는 단계;
    (a2) 상기 생성된 위치정보 형식들을 기준으로 관련성이 있는 것으로 파악된, 상기 정보를 구성하는 데이터 세트(data set)를 분석하여 마크업 언어 템플릿을 추출하는 단계; 및
    (a3) 상기 템플릿을 이용하여 상기 데이터를 복수개의 정보블록으로 구분하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  3. 제2항에 있어서,
    상기 위치정보는 수집된 데이터의 URL(Uniform Resource Locator) 정보를 포함하고, 상기 위치정보의 형식은 복수의 웹 페이지 중에서 동일한 기본 골격을 갖는 웹 페이지들을 일반화하는 소정의 형식으로서, 마크업 언어 템플릿을 공유하는 웹 페이지들을 선정하는 기준인 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  4. 제2항에 있어서,
    상기 (a3) 단계에서의 상기 정보 블록은, 상기 데이터가 포함하는 정보의 종류 또는 속성에 따른 정보를 포함하며, 상기 마크업 언어 템플릿으로 작성되는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  5. 제1항에 있어서,
    상기 (c) 단계의 나눔검색결과는, 소정의 방법에 의해 계산된 평가치에 의하여 정렬되는 것을 특징으로 하는 나눔 검색 서비스 제공방법
  6. 제1항에 있어서, 상기 (a) 단계 이전에
    인터넷 상의 데이터들을 미리 수집하여 색인화 하는 단계를 더 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법
  7. 질의어를 송신하고 검색 결과를 출력하는 사용자 단말기, 다수의 웹 페이지(Web Page)를 제공하는 웹 서버 및 상기 사용자 단말기로부터 상기 질의어를 수신하여 상기 검색 결과를 생성하고 상기 사용자 단말기로 송신하는 나눔 검색 서버를 포함하는 시스템에서 정보를 검색하는 서비스를 제공하는 방법에 있어서,
    (a) 상기 사용자 단말기로부터 상기 질의어 및 나눔 검색 요청 신호를 수신하는 단계;
    (b) 상기 웹 서버로부터 웹 페이지를 수신하는 단계;
    (c) 소정의 신택스에 의해 구분되고, 상기 웹 페이지를 구성하는 데이터의 상기 웹 페이지내에서의 위치를 알아내고 그 위치정보에 따라 상기 웹 페이지의 내용을 다수의 정보 블록으로 구분하는 단계;
    (d) 상기 구분된 웹 페이지로부터 상기 정보 블록별로 색인어를 추출하여 색인어 정보 및 상기 색인어가 참조하는 웹 페이지(이하 '참조 페이지'라 칭함)의 URL(Uniform Resource Locator) 정보를 생성하는 단계; 및
    (e) 상기 질의어와 동일하거나 또는 관련된 색인어를 검색하여 나눔 검색 결과 정보를 생성하고 상기 사용자 단말기로 송신하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  8. 제7항에 있어서, 상기 (c) 단계는,
    (c1) 상기 웹 페이지를 분석하여 URL 형식(Uniform Resource Locator Pattern)을 생성하는 단계;
    (c2) 상기 웹 페이지의 URL을 상기 URL 형식으로 변환하는 단계;
    (c3) 상기 URL 형식을 이용하여 상기 웹 페이지로부터 HTML 템플릿(Hypertext Markup Language Template)을 추출하는 단계; 및
    (c4) 상기 HTML 템플릿을 이용하여 상기 웹 페이지를 다수의 정보 블록으로 구분하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  9. 제8항에 있어서, 상기 URL 형식은,
    다수의 웹 페이지 중에서 상기 웹 페이지와 동일한 기본 골격을 갖는 웹 페이지들을 일반화하는 소정의 형식으로서, 상기 HTML 템플릿을 공유하는 웹 페이지들을 선정하는 기준인 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  10. 제8항에 있어서,
    상기 (c4) 단계에서 상기 정보 블록은, 상기 웹 페이지가 포함하는 정보의 종류 또는 속성에 따른 정보를 포함하며, 상기 HTML 템플릿으로 작성되는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  11. 제7항에 있어서, 상기 (d) 단계는,
    (d1) 상기 구분된 웹 페이지로부터 상기 정보 블록별로 상기 색인어를 추출하여 색인어 정보를 생성하고 나눔 검색 데이터베이스(DB: Database, 이하 'DB'라 칭함)에 저장하는 단계; 및
    (d2) 상기 색인어가 참조하는 상기 참조 페이지의 URL 정보를 생성하여 상기 나눔 검색 DB에 저장하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  12. 제7항에 있어서, 상기 (e) 단계는,
    (e1) 상기 정보 블록별로 상기 질의어와 동일하거나 또는 관련된 상기 색인 어를 검색하는 단계;
    (e2) 상기 단계 (e1)에서 상기 정보 블록별로 검색한 상기 색인어가 참조하는 상기 참조 페이지의 URL 정보를 검색하는 단계; 및
    (e3) 상기 단계 (e2)에서 상기 정보 블록별로 검색한 상기 참조 페이지의 URL 정보를 상기 나눔 검색 결과 정보로서 생성하여 상기 사용자 단말기로 송신하는 단계를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  13. 제12항에 있어서, 상기 (e3) 단계는,
    전체 나눔 검색 결과 정보 또는 정보 블록별 나눔 검색 결과 정보를 포함하는 상기 나눔 검색 결과 정보를 생성하되, 상기 정보 블록별로 가중치를 다르게 부여하여 평가값을 계산함으로써 순위 체계(Ranking System)에 따른 순위를 결정하고, 상기 순위에 따라 상기 참조 페이지의 URL 정보를 정렬한 상기 전체 나눔 검색 결과 정보를 생성하고, 상기 정보 블록별로 상기 질의어와 동일하거나 또는 관련된 상기 색인어와 상기 참조 페이지의 URL 정보를 포함하는 상기 정보 블록별 나눔 검색 결과 정보를 생성하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  14. 제13항에 있어서, 상기 (e3) 단계는,
    상기 전체 나눔 검색 결과 정보를 생성하는 데에 있어서 색인한 정보 블록뿐만 아니라 색인하지 않은 정보 블록도 이용하여 상기 순위를 결정하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  15. 유무선 통신망 상의 다수의 웹 페이지(Web Page) 내의 정보를 검색하여 검색 결과를 제공하는 시스템에 있어서,
    상기 유무선 통신망을 이용하여 웹 서핑(Web Surfing)을 수행하고, 질의어 및 검색 요청 신호를 송신하여 검색을 요청하며, 상기 검색의 요청에 대한 나눔 검색 결과 정보를 수신하여 구비된 화면에 출력하는 사용자 단말기;
    상기 정보를 상기 다수의 웹 페이지로서 구성하여 생성하고 제공하는 웹 서버; 및
    소정의 신택스에 의해 구분되는 상기 정보의 상기 웹 페이지 내에서의 위치를 알아내고, 그 위치정보에 따라 상기 웹 페이지의 내용을 다수의 정보 블록으로 나누어 구분하며, 상기 구분된 웹 페이지를 이용하여 상기 정보를 검색함으로써 상기 나눔 검색 결과 정보를 생성한 후 상기 사용자 단말기로 송신하는 나눔 검색 서버를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  16. 제15항에 있어서, 상기 나눔 검색 서버는,
    웹 페이지(Web Page) 수집 프로그램을 실행하여 상기 유무선 통신망에 접속한 상기 웹 서버에 의해 제공되는 상기 웹 페이지들을 무작위로 읽어서 상기 웹 서버로부터 수신하여 저장하는 웹 페이지 수집 모듈;
    상기 웹 페이지 수집 모듈에 의해 수신된 상기 웹 페이지들을 분석하여 상기 URL 형식(Uniform Resource Locator Pattern)을 생성하는 URL 형식 생성 모듈;
    상기 URL 형식을 이용하여 상기 웹 페이지로부터 HTML 템플릿(Hypertext Markup Language Template)을 추출하고 상기 HTML 템플릿을 이용하여 상기 웹 페이지를 다수의 정보 블록으로 나누어 구분하는 페이지 나눔 모듈;
    상기 구분된 웹 페이지 내의 상기 정보 블록별로 색인어를 추출하여 색인어 정보 및 상기 색인어가 참조하는 웹 페이지(이하 '참조 페이지'라 칭함)의 URL 정보를 생성하고 저장하는 색인 관리 모듈;
    상기 사용자 단말기로부터 상기 질의어와 함께 상기 정보 검색 요청 신호를 수신하면 상기 질의어와 동일하거나 또는 관련된 색인어를 검색하여 나눔 검색 결과 정보를 생성하고 상기 사용자 단말기로 송신하는 질의 관리 모듈; 및
    상기 나눔 검색 서버가 상기 구분된 웹 페이지를 이용하여 검색을 수행하도록 상기 웹 페이지 수집 모듈, 상기 URL 형식 생성 모듈, 상기 페이지 나눔 모듈, 상기 색인 관리 모듈 및 상기 질의 관리 모듈을 제어하고, 상기 나눔 검색 서버가 상기 유무선 통신망을 이용하여 상기 사용자 단말기 및 상기 웹 서버와 통신을 수행하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  17. 제16항에 있어서, 상기 URL 형식 생성 모듈은,
    다수의 웹 페이지 중에서 상기 웹 페이지와 동일한 기본 골격을 갖는 웹 페이지들을 일반화하는 소정의 형식으로서 상기 URL 형식을 생성하되, 상기 URL 형식은 상기 HTML 템플릿을 공유하는 웹 페이지들을 선정하는 기준인 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  18. 제16항에 있어서, 상기 정보 블록은,
    상기 웹 페이지가 포함하는 정보의 종류 또는 속성에 따른 정보를 포함하며, 상기 HTML 템플릿으로 작성되는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  19. 제16항에 있어서, 상기 질의 관리 모듈은,
    상기 질의어와 동일하거나 또는 관련된 상기 색인어를 상기 정보 블록별로 검색하고, 상기 정보 블록별로 검색한 상기 색인어가 참조하는 상기 참조 페이지의 URL 정보를 검색하며, 상기 정보 블록별로 검색한 상기 참조 페이지의 URL 정보를 상기 나눔 검색 결과 정보로서 생성하여 상기 사용자 단말기로 송신하는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  20. 제16항에 있어서, 상기 질의 관리 모듈은,
    전체 나눔 검색 결과 정보 또는 정보 블록별 나눔 검색 결과 정보를 포함하는 상기 나눔 검색 결과 정보를 생성하되, 상기 정보 블록별로 가중치를 다르게 부여하여 평가값을 계산함으로써 순위 체계(Ranking System)에 따른 순위를 결정한 후 상기 순위에 따라 상기 참조 페이지의 URL 정보를 정렬함으로써 상기 전체 나눔 검색 결과 정보를 생성하고, 상기 정보 블록별로 상기 질의어와 동일하거나 또는 관련된 색인어와 상기 참조 페이지의 URL 정보를 포함하는 상기 정보 블록별 나눔 검색 결과 정보를 생성하는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  21. 제20항에 있어서, 상기 질의 관리 모듈은,
    상기 전체 나눔 검색 결과 정보를 생성하는 데에 있어서 색인한 정보 블록뿐만 아니라 색인하지 않은 정보 블록도 이용하여 상기 순위를 결정하는 것을 특징으로 하는 나눔 검색 서비스 제공 방법.
  22. 제15항에 있어서, 상기 나눔 검색 서비스 제공 시스템은,
    상기 나눔 검색 서버로부터 수신한 상기 색인어 정보를 저장하는 색인 데이터베이스(DB: Database, 이하 'DB'라 칭함) 및 상기 참조 페이지의 URL 정보를 저장하는 URL DB를 포함하는 나눔 검색 DB를 더 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 시스템.
  23. 수집된 정보를 분석하여, 소정의 신택스에 의해 구분되고 상기 정보를 구성하는 데이터의 상기 정보내에서의 위치를 알아내고 그 위치정보에 따라 상기 데이터를 복수개의 정보블록으로 구분하는 페이지 나눔 모듈;
    상기 구분된 정보블록별로 색인어를 생성하는 색인 관리 모듈; 및
    임의의 키워드와 상기 색인어를 비교하여 그 관련성에 따라 상기 키워드에 대한 나눔검색결과 정보를 생성하여 제공하는 제어부를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버.
  24. 제23항에 있어서, 상기 페이지 나눔 모듈은,
    상기 수집된 데이터를 분석하여 그 데이터가 위치하였던 위치정보를 생성하고, 상기 생성된 위치정보의 형식을 이용하여 마크업 언어 템플릿을 추출한 후, 이 템플릿을 이용하여 상기 데이터를 복수개의 정보블록으로 구분하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버.
  25. 제23항 또는 제24항에 있어서,
    상기 위치정보는 상기 수집된 데이터가 위치한 웹 페이지의 URL(Uniform Resource Locator)을 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버.
  26. 제23항에 있어서,
    인터넷에 올라와 있는 웹 페이지로부터 데이터를 미리 수집하는 웹 페이지 수집 모듈을 더 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버.
  27. 유무선 통신망을 이용하여 웹 서핑(Web Surfing)을 수행하는 사용자 단말기로부터 질의어 및 검색 요청 신호를 수신하면 웹 서버에 의해 제공되는 웹 페이지 상의 정보를 검색하여 검색 결과를 상기 사용자 단말기로 송신하는 검색 서비스를 제공하는 서버에 있어서,
    웹 페이지(Web Page) 수집 프로그램을 실행하여 상기 유무선 통신망에 접속한 상기 웹 서버에 의해 제공되는 상기 웹 페이지들을 무작위로 읽어서 상기 웹 서버로부터 수신하여 저장하는 웹 페이지 수집 모듈;
    상기 웹 페이지 수집 모듈에 의해 수신된 상기 웹 페이지들을 분석하여 상기 URL 형식(Uniform Resource Locator Pattern)을 생성하는 URL 형식 생성 모듈;
    상기 URL 형식을 이용하여 상기 웹 페이지로부터 HTML 템플릿(Hypertext Markup Language Template)을 추출하고 상기 HTML 템플릿을 이용하여 그 태그에 의해 구분되는 상기 웹 페이지의 내용을 다수의 정보 블록으로 나누어 구분하는 페이지 나눔 모듈;
    상기 구분된 웹 페이지 내의 상기 정보 블록별로 색인어를 추출하여 색인어 정보 및 상기 색인어가 참조하는 웹 페이지(이하 '참조 페이지'라 칭함)의 URL 정보를 생성하고 저장하는 색인 관리 모듈;
    상기 사용자 단말기로부터 상기 질의어와 함께 상기 정보 검색 요청 신호를 수신하면 상기 질의어와 동일하거나 또는 관련된 색인어를 검색하여 나눔 검색 결과 정보를 생성하고 상기 사용자 단말기로 송신하는 질의 관리 모듈; 및
    상기 나눔 검색 서버가 상기 구분된 웹 페이지를 이용하여 검색을 수행하도록 상기 웹 페이지 수집 모듈, 상기 URL 형식 생성 모듈, 상기 페이지 나눔 모듈, 상기 색인 관리 모듈 및 상기 질의 관리 모듈을 제어하고, 상기 나눔 검색 서버가 상기 유무선 통신망을 이용하여 상기 사용자 단말기 및 상기 웹 서버와 통신을 수행하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버.
  28. 제27항에 있어서, 상기 나눔 검색 서비스 제공 서버는,
    상기 색인어 정보를 저장하는 색인 데이터베이스(DB: Database, 이하 'DB'라 칭함) 및 상기 참조 페이지의 URL 정보를 저장하는 URL DB를 포함하는 나눔 검색 DB를 더 포함하는 것을 특징으로 하는 나눔 검색 서비스 제공 서버.
KR1020060020349A 2005-03-04 2006-03-03 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템 KR100645711B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007557936A JP2008538021A (ja) 2005-03-04 2006-03-03 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム
PCT/KR2006/000745 WO2006093394A1 (en) 2005-03-04 2006-03-03 Server, method and system for providing information search service by using web page segmented into several information blocks
US11/849,955 US20080065632A1 (en) 2005-03-04 2007-09-04 Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
JP2011042894A JP5559725B2 (ja) 2005-03-04 2011-02-28 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050018310 2005-03-04
KR20050018310 2005-03-04

Publications (2)

Publication Number Publication Date
KR20060096357A KR20060096357A (ko) 2006-09-11
KR100645711B1 true KR100645711B1 (ko) 2006-11-15

Family

ID=37623991

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060020349A KR100645711B1 (ko) 2005-03-04 2006-03-03 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템

Country Status (2)

Country Link
JP (2) JP2008538021A (ko)
KR (1) KR100645711B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6187095B2 (ja) * 2013-09-26 2017-08-30 大日本印刷株式会社 情報処理装置及び情報処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010105842A (ko) * 2000-05-18 2001-11-29 구자홍 인터넷을 이용한 정보검색 결과 제공방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
JP4463925B2 (ja) * 1999-03-02 2010-05-19 キヤノン株式会社 インデックス生成装置及びその方法、記憶媒体
JP2001344254A (ja) * 2000-05-31 2001-12-14 Fuji Xerox Co Ltd ドキュメント管理システム
JP2002297627A (ja) * 2001-03-29 2002-10-11 Tokyo Electric Power Co Inc:The 情報収集システム、情報収集端末、データベースサーバ
JP3895955B2 (ja) * 2001-08-24 2007-03-22 株式会社東芝 情報検索方法および情報検索システム
JP2004070376A (ja) * 2002-06-10 2004-03-04 Fuji Xerox Co Ltd 文書表示装置および方法
JP4226862B2 (ja) * 2002-08-29 2009-02-18 株式会社リコー 文書検索装置
JP4231298B2 (ja) * 2003-01-14 2009-02-25 日本電信電話株式会社 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
JP2004341942A (ja) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
JP3929418B2 (ja) * 2003-05-19 2007-06-13 アルトリサーチ株式会社 情報探索プログラム及び情報探索プログラムを記録した媒体
JP2006163723A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd ドキュメント検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010105842A (ko) * 2000-05-18 2001-11-29 구자홍 인터넷을 이용한 정보검색 결과 제공방법

Also Published As

Publication number Publication date
JP2008538021A (ja) 2008-10-02
JP5559725B2 (ja) 2014-07-23
KR20060096357A (ko) 2006-09-11
JP2011146059A (ja) 2011-07-28

Similar Documents

Publication Publication Date Title
US20080065632A1 (en) Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
US9317613B2 (en) Large scale entity-specific resource classification
US7809716B2 (en) Method and apparatus for establishing relationship between documents
US9268873B2 (en) Landing page identification, tagging and host matching for a mobile application
KR101463974B1 (ko) 마케팅을 위한 빅데이터 분석 시스템 및 방법
US8527487B2 (en) Method and system for automatic construction of information organization structure for related information browsing
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20090006359A1 (en) Automatically finding acronyms and synonyms in a corpus
US20080134015A1 (en) Web Site Structure Analysis
US7024405B2 (en) Method and apparatus for improved internet searching
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
US20110208715A1 (en) Automatically mining intents of a group of queries
US20200175081A1 (en) Server, method and system for providing information search service by using sheaf of pages
US20070168346A1 (en) Method and system for implementing two-phased searching
Jadidoleslamy Search result merging and ranking strategies in meta-search engines: a survey
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
CN109101506A (zh) 基于可视化的搜索方法及系统
KR20020032060A (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
US20060059126A1 (en) System and method for network searching
KR101347123B1 (ko) 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체
KR20010107810A (ko) 웹 검색시스템 및 그 방법
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111010

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131001

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151106

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161025

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171025

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20181105

Year of fee payment: 13