KR100726886B1 - 인터넷 웹 문서 검색 시스템 및 그 방법 - Google Patents

인터넷 웹 문서 검색 시스템 및 그 방법 Download PDF

Info

Publication number
KR100726886B1
KR100726886B1 KR20050076218A KR20050076218A KR100726886B1 KR 100726886 B1 KR100726886 B1 KR 100726886B1 KR 20050076218 A KR20050076218 A KR 20050076218A KR 20050076218 A KR20050076218 A KR 20050076218A KR 100726886 B1 KR100726886 B1 KR 100726886B1
Authority
KR
South Korea
Prior art keywords
web document
search
web
exposure
internet
Prior art date
Application number
KR20050076218A
Other languages
English (en)
Other versions
KR20070021678A (ko
Inventor
안철
김진우
Original Assignee
(주)수도프리미엄엔지니어링
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)수도프리미엄엔지니어링 filed Critical (주)수도프리미엄엔지니어링
Priority to KR20050076218A priority Critical patent/KR100726886B1/ko
Publication of KR20070021678A publication Critical patent/KR20070021678A/ko
Application granted granted Critical
Publication of KR100726886B1 publication Critical patent/KR100726886B1/ko

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Software Systems (AREA)

Abstract

본 발명은 인터넷 웹 문서 검색 시스템 및 그 방법에 관한 것으로, 개시된 웹 문서 검색 시스템은, 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 시스템으로서, 지정 검색어의 전송과 함께 웹 문서들의 검색이 요청되면 웹 문서들 중에서 지정 검색어를 포함하는 웹 문서들을 추출하여 제공하는 웹 문서 공급 서버와, 인터넷을 통해 웹 문서 공급 서버에 접속하기 위한 접속 경로 정보가 저장된 데이터베이스와, 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 웹 문서 검색 조건에 따라 접속 경로 정보를 토대로 웹 문서 공급 서버에 접속하여 지정 검색어의 전송 및 웹 문서 검색을 요청하며, 웹 문서 공급 서버로부터 제공되는 추출 웹 문서들과 이 추출 웹 문서들에 포함된 지정 검색어의 노출 회수 계측값을 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 웹 문서 검색 엔진을 포함하며, 인터넷 웹 문서를 단순 검색 결과로서 제공하지 아니하고 지정 검색어의 노출 회수 또는 빈도 등의 기초 정보를 제공하거나 지정 검색어의 부정, 중립, 긍정 등의 이미지 평가 정보를 제공함으로써, 인터넷 여론 조사 등에 활용할 수 있는 이점이 있다.
인터넷, 웹 문서, 검색, 뉴스, 여론 조사

Description

인터넷 웹 문서 검색 시스템 및 그 방법{SYSTEM AND METHOD FOR SEARCHING WEB DOCUMENT OF INTERNET}
도 1은 본 발명의 제 1 실시 예에 따른 인터넷 웹 문서 검색 시스템의 블록 구성도,
도 2a 내지 도 2c는 본 발명에 따른 인터넷 웹 문서 검색 방법을 설명하기 위한 흐름도,
도 3은 본 발명의 제 2 실시 예에 따른 인터넷 웹 문서 검색 시스템의 블록 구성도.
<도면의 주요 부분에 대한 부호의 설명>
110, 180 : 웹 문서 검색 엔진 111 : 검색 조건 분석부
112 : 웹 문서 요청부 113 : 웹 문서 저장부
114 : 유사성 판별부 115 : 노출 회수 계측부
116 : 노출 빈도 산출부 117 : 가중치 결정부
118 : 이미지 평가부 119 : 검색 결과 분석부
121 : 검색 결과 데이터베이스 122 : 검색 대상 서버 데이터베이스
123 : 단어 분류 데이터베이스 124 : 가중치 데이터베이스
130 : 인터넷 140 : 뉴스 제공 서버
141 : 뉴스 검색 엔진 151 : 뉴스 데이터베이스
160 : 게시판 운용 서버 161 : 게시판 검색 엔진
171 : 게시판 데이터베이스 182 : 웹 문서 검색부
본 발명은 인터넷 웹 문서 검색에 관한 것으로, 더욱 상세하게는 인터넷 웹 문서를 분석하여 지정 검색어의 노출 회수 또는 빈도 등의 기초 정보를 제공하거나 지정 검색어의 부정, 중립, 긍정 등의 이미지 평가 정보를 제공하는 인터넷 웹 문서 검색 시스템 및 방법에 관한 것이다.
인터넷이 대중화되면서 인터넷에는 많은 종류의 정보들이 존재하게 되었고, 이러한 인터넷 정보들을 검색하여 제공하는 웹사이트들이 많이 생겨났다. 이와 같은 웹사이트들에서는 사용자가 원하는 검색식, 예를 들면 키워드를 입력하면 이와 유사한 정보들을 뽑아서 사용자가 볼 수 있도록 제공한다.
일반적인 인터넷을 통한 정보 검색 모델로는 범주 구분을 통한 디렉토리 제공 형태 및 홈페이지 검색 형태, 웹 문서 검색 형태 등이 알려져 있다. 이러한 인터넷 정보 검색 모델에서는, 사용자가 정보를 검색하면 해당 문서의 범주를 제시하거나, 문서의 일부분을 추출하거나 혹은 기술문(Description)에 지정된 부분을 제시하거나, 해당 검색어가 포함되어 있는 문장을 조합하여 제시하거나, 해당 문서의 텍스트만을 추출하여 제시하는 형태(미리 보기 기능)를 취한다.
이와 같은 인터넷 검색 기술들은 사용자가 입력한 검색어가 포함된 웹 문서들을 찾아서 단순 제공하는 형태이다.
한편, 근래의 인터넷은 정보의 창으로서의 역할뿐만 아니라 가장 강력한 여론 형성의 장으로 자리 매김하고 있으며, 이러한 인터넷의 특성에 따라 각종 여론 조사가 인터넷을 통해 온라인으로 이루어지고 있다.
인터넷을 통한 여론 조사 기술은 선발된 대상자 또는 무작위 대상자들에게 설문 조사용 또는 여론 조사용 질문 화면을 제공한 후에 그에 대한 응답을 획득하여 그 분석 결과를 추출하는 방식이 가장 널리 이용되고 있으며, 질문 화면의 제공은 웹을 통해 폴(Poll) 화면을 제공하거나 전자메일(E-mail)을 이용하는 방식이 가장 보편화되어 있다.
그러나, 웹 화면을 이용하는 여론 조사 방식은 불특정 다수에게 질문 화면이 노출되므로 타깃(Target) 여론 조사가 불가능하며, 전자메일을 이용하는 조사 방식은 스팸(SPAM) 전자메일을 양산하는 부작용을 초래하는 것은 물론이고 전자메일의 수신자에 의한 회신을 필수조건으로 하기 때문에 실시간으로 분석 결과를 추출할 수 없는 문제점이 있었다.
본 발명은 이와 같은 종래의 문제점을 해결하기 위하여 제안한 것으로, 인터넷 웹 문서 검색 기술을 이용하여 지정 검색어가 포함된 웹 문서들과 지정 검색어의 노출 회수 또는 빈도 등의 기초 정보 및 웹 문서들의 부정, 중립, 긍정 등의 이미지 평가 정보를 함께 제공할 수 있는 인터넷 웹 문서 검색 시스템을 제공하는 데 그 목적이 있다.
본 발명의 다른 목적은, 인터넷 웹 문서 검색 기술이 적용된 시스템에서 지정 검색어를 포함하는 웹 문서 검색 과정을 통해 여론 조사 등을 정확히 수행할 수 있도록 한 인터넷 웹 문서 검색 방법을 제공하는 데 있다.
이와 같은 목적들을 실현하기 위한 본 발명의 제 1 관점으로서 인터넷 웹 문서 검색 시스템은, 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 시스템으로서, 지정 검색어의 전송과 함께 웹 문서들의 검색이 요청되면 웹 문서들 중에서 지정 검색어를 포함하는 웹 문서들을 추출하여 제공하는 웹 문서 공급 서버와, 인터넷을 통해 웹 문서 공급 서버에 접속하기 위한 접속 경로 정보가 저장된 데이터베이스와, 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 웹 문서 검색 조건에 따라 접속 경로 정보를 토대로 웹 문서 공급 서버에 접속하여 지정 검색어의 전송 및 웹 문서 검색을 요청하며, 웹 문서 공급 서버로부터 제공되는 추출 웹 문서들과 이 추출 웹 문서들에 포함된 지정 검색어의 노출 회수 계측값을 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 웹 문서 검색 엔진을 포함한다.
본 발명의 제 2 관점으로서 인터넷 웹 문서 검색 시스템은, 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 시스템으로서, 인터넷을 통해 웹 문서들을 제공하는 웹 문서 공급 서버와, 인터넷을 통해 웹 문서 공급 서버에 접속하기 위한 접속 경로 정보가 저장된 데이터베이스와, 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 웹 문서 검색 조건에 따라 접속 경로 정보를 토대로 웹 문서 공급 서버에 접속하여 지정 검색어를 포함하는 웹 문서 들을 추출하며, 추출된 웹 문서들과 이 추출 웹 문서들에 포함된 지정 검색어의 노출 회수 계측값을 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 웹 문서 검색 엔진을 포함한다.
본 발명의 제 3 관점으로서 인터넷 웹 문서 검색 방법은, 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 방법으로서, 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 웹 문서 검색 조건에 따라 인터넷 상의 웹 문서 공급 서버에게 지정 검색어를 포함하는 웹 문서들의 검색을 요청하는 단계와, 검색 요청에 따라 추출된 웹 문서들이 웹 문서 공급 서버로부터 제공되면 추출 웹 문서들에 포함된 지정 검색어의 노출 회수를 계측하는 단계와, 추출 웹 문서들과 노출 회수 계측값을 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 단계를 포함한다.
본 발명의 제 4 관점으로서 인터넷 웹 문서 검색 방법은, 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 방법으로서, 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 웹 문서 검색 조건에 따라 인터넷 상의 웹 문서 공급 서버에서 제공되는 웹 문서 중에서 지정 검색어를 포함하는 웹 문서들을 검색 및 추출하는 단계와, 추출된 웹 문서들에 포함된 지정 검색어의 노출 회수를 계측하는 단계와, 추출 웹 문서들과 노출 회수 계측값을 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 단계를 포함한다.
이하, 본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 부여하였다. 또한, 본 발명을 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
<제 1 실시 예>
본 발명의 제 1 실시 예에 따른 인터넷 웹 문서 검색 시스템은 도 1의 블록 구성도에 나타낸 바와 같이, 웹 문서 검색 엔진(110), 검색 결과 데이터베이스(121), 검색 대상 서버 데이터베이스(122), 단어 분류 데이터베이스(123), 인터넷(130), 뉴스 제공 서버(140), 뉴스 데이터베이스(151), 게시판 운용 서버(160), 게시판 데이터베이스(171) 등으로 구성된다.
뉴스 제공 서버(140)는 인터넷(130)을 통해 뉴스 웹 문서를 제공하는 웹사이트를 운용하며, 웹 문서 검색 엔진(110)으로부터 지정 검색어의 전송과 함께 웹 문서가 요청되면 뉴스 검색 엔진(141)이 해당 지정 검색어가 포함된 뉴스 웹 문서를 뉴스 데이터베이스(151)로부터 추출하여 웹 문서 검색 엔진(110)에게 제공한다. 뉴스 제공 서버(140)의 예로서, 각종 언론매체의 인터넷 서버, 인터넷 포털 사이트의 서버 등이 포함된다.
게시판 운용 서버(160)는 인터넷(130)을 통해 웹 게시판 서비스를 제공하는 웹사이트를 운용하며, 웹 문서 검색 엔진(110)으로부터 지정 검색어의 전송과 함께 웹 문서가 요청되면 게시판 검색 엔진(161)이 해당 지정 검색어가 포함된 게시물 웹 문서를 게시판 데이터베이스(171)로부터 추출하여 웹 문서 검색 엔진(110)에게 제공한다. 게시판 제공 서버(160)의 예로서, 인터넷 홈페이지 서버, 블로그 서버, 지식 검색 서버 등과 같이 게시물을 등록하거나 특정 게시물에 댓글을 달 수 있는 모든 인터넷 서버가 포함된다.
뉴스 제공 서버(140)와 게시판 운용 서버(160)는 본 발명에 따른 웹 문서 검색 서비스를 위해 인터넷(130)을 통해 웹 문서를 제공하는 웹 문서 공급 서버로서, 통상의 인터넷 서버 등으로 구현할 수 있다.
검색 결과 데이터베이스(121)에는 웹 문서 검색 엔진(110)에 의한 웹 문서 검색 및 분석 결과가 저장된다.
검색 대상 서버 데이터베이스(122)에는 웹 문서 검색 엔진(110)이 인터넷(130)을 통해 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 접속할 수 있도록 접근 경로 정보가 저장된다.
단어 분류 데이터베이스(123)에는 웹 문서 검색 엔진(110)이 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)로부터 제공받은 웹 문서의 이미지를 긍정성, 중립성, 부정성 등으로 평가할 수 있도록 긍정성과 중립성 및 부정성을 각각 대표할 수 있는 단어들이 분류되어 저장된다. 예로서, 긍정성 단어로는 헌금, 봉사, 혁신 등의 단어가 분류되어 저장되며, 부정성 단어로는 불법, 구속, 수뢰 등의 단어가 분류되어 저장되고, 중립성 단어에는 달력, 중용, 중심 등의 단어가 분류되어 저장된다.
웹 문서 검색 엔진(110)은 검색 대상 서버, 지정 검색어, 가중치 검색어, 유 사성 판별 조건, 가중치 부여 조건, 이미지 평가 조건, 검색 기간 조건 등을 포함하는 웹 문서 검색 조건이 설정되면 해당 검색 조건에 의거하여 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)로부터 제공되는 웹 문서를 검색 후 그 분석 결과를 제공한다.
검색 조건 분석부(111)는 지정 검색어의 입력과 함께 웹 문서 검색이 요청될 때에 함께 입력되는 각종 검색 조건, 즉 검색 대상 서버 지정 조건, 유사성 판별 조건, 가중치 부여 조건, 이미지 평가 조건, 검색 기간 조건 등의 각종 검색 조건을 분석하여 해당 검색 조건에 맞추어 웹 문서 검색이 수행되도록 한다.
웹 문서 요청부(112)는 검색 조건 분석부(111)로부터 검색 대상 서버 지정 정보와 지정 검색어가 전달되면 검색 대상 서버 데이터베이스(122)를 검색하여 검색 대상 서버 지정 정보에 대응하는 접근 경로 정보를 추출하며, 추출된 접근 경로 정보에 따라 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 접속하여 지정 검색어가 포함된 웹 문서를 검색하여 줄 것을 요청한다.
웹 문서 저장부(113)는 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)로부터 뉴스 웹 문서 및/또는 게시물 웹 문서가 제공되면 이를 내부 메모리에 임시 저장한다.
유사성 판별부(114)는 검색 조건 중에서 유사성 판별 조건에 의거하여 웹 문서 저장부(113)에 저장된 웹 문서들의 상호간 유사성을 판별하여 비유사 웹 문서를 추출 및 삭제한다.
노출 회수 계측부(115)는 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포 함되어 있는 지정 검색어와 가중치 검색어 및 이미지 평가 단어의 노출 회수, 즉 등장 회수를 계측한다.
노출 빈도 산출부(116)는 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 지정 검색어와 가중치 검색어 및 이미지 평가 단어가 전체 웹 문서에서 차지하는 비중을 산출한다.
가중치 결정부(117)는 검색 조건 중에서 가중치 부여 조건에 의거하여 가중치 검색어의 노출 회수 및 노출 빈도에 대응하는 가중치를 지정 검색어의 노출 회수 및 노출 빈도에 부여한다.
이미지 평가부(118)는 검색 조건 중에서 이미지 평가 조건에 의거하여 웹 문서 저장부(113)에 저장된 개별 웹 문서 내에서 단어 분류 데이터베이스(123)에 분류 저장된 단어들의 노출 회수 및/또는 노출 빈도에 따라 해당 웹 문서의 이미지를 긍정성, 중립성, 부정성 중 어느 하나로 결정한다.
검색 결과 분석부(119)는 노출 회수 계측부(115), 노출 빈도 산출부(116), 가중치 결정부(117), 이미지 평가부(118)의 처리 정보를 분석하여 검색 조건 분석부(111)로 입력되었던 검색 조건에 따른 웹 문서 검색 결과를 검색 결과 데이터베이스(121)에 저장함과 아울러 외부로 출력한다.
이와 같이 구성된 본 발명의 제 1 실시 예에 따른 인터넷 웹 문서 검색 시스템에서 수행되는 인터넷 웹 문서 검색 과정을 도 1 및 도 2를 참조하여 아래에서 상세히 설명하기로 한다.
먼저, 사용자는 웹 문서 검색 엔진(110)의 검색 조건 분석부(111)에 인터넷 웹 문서의 검색을 위한 지정 검색어와 가중치 검색어를 입력함과 아울러 검색 조건을 설정하여야 한다. 검색 조건으로는 검색 대상 서버, 유사성 판별 조건, 가중치 부여 조건, 이미지 평가 조건, 검색 기간 조건 등이 포함된다.
"지정 검색어"는 통상의 인터넷 키워드 검색 시와 마찬가지로 인터넷 웹 문서 중에서 검색하고자 하는 검색어를 지정하는 것을 일컫는다.
"가중치 검색어"는 지정 검색어를 포함하는 웹 문서가 가중치 검색어를 함께 포함하고 있을 때에 지정 검색어의 검색 결과에 가중치를 부여하기 위한 것으로서, 검색 조건 중에서 가중치 부여 조건을 설정할 경우에만 선택적으로 입력한다.
"검색 대상 서버"는 웹 문서 검색 범위를 결정하기 위한 것으로, 도 1의 시스템에서는 뉴스 제공 서버(140)와 게시판 운용 서버(160) 중에서 어느 하나만을 검색 범위로 지정하거나 모두를 검색 범위로 지정할 수 있다. 물론 도 1에서는 뉴스 제공 서버(140)와 게시판 운용 서버(160)만을 대표적으로 도시하였으나, 이는 운용 주체의 다양화에 따라 얼마든지 확장 및 부가될 수 있음은 자명하다.
"유사성 판별 조건"은 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)로부터 제공되는 각종 웹 문서들의 상호간 유사성을 판별하여 비유사한 웹 문서를 제외하기 위한 것이다. 예로서, 인명이 지정 검색어로 설정된 경우, 해당 지정 검색어인 인명을 포함하고 있는 복수의 웹 문서가 검색되었다고 하더라도 동명이인이 있는 경우에는 검색된 웹 문서들 중에는 실제로는 지정 검색어와 무관한 웹 문서가 포함될 수 있다. 따라서 웹 문서들의 유사성을 판별하여 지정 검색어와 무관한 웹 문서를 제외하는 것이다.
"가중치 부여 조건"은 지정 검색어를 포함하는 웹 문서가 가중치 검색어를 함께 포함하고 있을 때에 지정 검색어의 검색 결과에 가중치를 부여하기 위한 것이다. 즉 지정 검색어와 밀접하게 연관된 가중치 검색어가 동일 웹 문서 내에 여러 번 등장할 경우에 지정 검색어와의 상호 작용성을 감안하여 지정 검색어의 노출 빈도에 가중치를 특별히 부여하는 것이다.
"이미지 평가 조건"은 웹 문서의 내용을 자동 식별하기 위한 것이다. 검색된 웹 문서가 긍정적인 내용일 경우에는 문서 내에 긍정적인 성격을 띤 단어들이 다수 포함되어 있을 것이며, 부정적인 내용일 경우에는 문서 내에 부정적인 성격을 띤 단어들이 다수 포함되어 있을 것이다. 이에 근거하여 검색된 웹 문서의 이미지를 자동 평가할 수 있다.
"검색 기간 조건"은 웹 문서의 작성일 또는 등록일의 범위를 지정하는 것이다. 이러한 검색 기간 조건은 최근의 소정 기간을 초기값으로 설정하여 두고, 별도의 검색 기간 조건이 설정되지 않을 경우에는 초기값이 적용된다.
이와 같은 각종 검색 조건들이 설정되면 검색 조건 분석부(111)는 각종 검색 조건, 즉 검색 대상 서버 지정 조건, 유사성 판별 조건, 가중치 부여 조건, 이미지 평가 조건, 검색 기간 조건 등의 각종 검색 조건을 분석하여 해당 검색 조건에 맞추어 웹 문서 검색이 수행되도록 한다(S201).
여기서, 검색 조건 분석부(111)는 검색 대상 서버 지정 정보와 지정 검색어 및 검색 기간을 웹 문서 요청부(112)로 전달하며, 웹 문서 요청부(112)는 검색 대 상 서버 데이터베이스(122)를 검색하여 검색 대상 서버 지정 정보에 대응하는 접근 경로 정보를 추출한다. 즉, 뉴스 제공 서버(140)와 게시판 운용 서버(160) 중에서 어느 하나만 지정된 경우에는 해당 서버의 접근 경로 정보만을 추출하며(S203, S205), 특별히 지정되지 않거나 모두 지정된 경우에는 뉴스 제공 서버(140)와 게시판 운용 서버(160) 모두의 접근 경로 정보를 추출한다(S203, S207).
이후, 추출된 접근 경로 정보에 따라 인터넷(130)을 통해 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 접속(S209)하여 지정 검색어 및 검색 기간을 전송하면서 해당 지정 검색어가 포함된 웹 문서를 검색하여 줄 것을 요청한다(S211).
그러면, 뉴스 제공 서버(140)는 뉴스 검색 엔진(141)을 가동해 해당 검색 기간 내에 작성 또는 등록된 웹 문서 중에서 지정 검색어가 포함된 뉴스 웹 문서를 뉴스 데이터베이스(151)로부터 추출하여 웹 문서 검색 엔진(110)에게 제공하며, 게시판 운용 서버(160)는 게시판 검색 엔진(161)을 가동해 해당 지정 검색어가 포함된 게시물 웹 문서를 게시판 데이터베이스(171)로부터 추출하여 웹 문서 검색 엔진(110)에게 제공한다.
웹 문서 검색 엔진(110)의 웹 문서 저장부(113)는 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)로부터 뉴스 웹 문서 및/또는 게시물 웹 문서가 제공되면 이를 다운로드하여 내부 메모리에 임시 저장한다.
다음으로, 단계 S201에서 유사성 판별 검색 조건이 설정된 경우에, 유사성 판별부(114)는 검색 조건 중에서 유사성 판별 조건(S215)에 의거하여 웹 문서 저장 부(113)에 저장된 웹 문서들의 상호간 유사성을 판별하여 비유사 웹 문서를 추출 및 삭제한다. 앞서 기재한 바와 같이, 인명이 지정 검색어로 설정된 경우에 해당 지정 검색어인 인명을 포함하고 있는 복수의 웹 문서가 검색되었다고 하더라도 동명이인이 있는 경우에는 검색된 웹 문서들 중에는 실제로는 지정 검색어와 무관한 웹 문서가 포함될 수 있다. 따라서 웹 문서들의 유사성을 판별하여 지정 검색어와 무관한 웹 문서를 제외하는 것이다. 이를 위해, 복수 웹 문서에 포함된 단어들에 대해 상호 비교하여 일치하는 단어의 수를 산출하며, 일치 단어의 수와 기 설정된 유사성 판별 기준값과 비교하여 유사성 및 비유사성을 판별하며(S217), 비유사성으로 판별된 웹 문서를 웹 문서 저장부(113)에서 삭제하여 추후 처리 절차에서는 제외한다(S219).
노출 회수 계측부(115)는 검색 조건 분석부(111)로부터 지정 검색어를 전달받으며, 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 지정 검색어의 노출 회수, 즉 등장 회수를 계측한다(S221).
또한, 노출 빈도 산출부(116)는 노출 회수 계측부(115)로부터 지정 검색어의 노출 회수 계측값을 전달받으며, 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 지정 검색어가 전체 웹 문서에서 차지하는 비중을 산출한다. 즉 특정 웹 문서의 전체 낱말 개수 중에서 지정 검색어가 차지하는 비중을 산출하는 것이다. 예로서, 지정 검색어가 10회 등장하고, 전체 낱말의 개수가 20,000개일 경우에 노출 비중을 0.0005로 산출한다(S223).
한편, 단계 S201에서 가중치 부여 조건이 설정된 경우에, 가중치 결정부 (117)는 검색 조건 중에서 가중치 부여 조건에 의거하여 가중치 검색어의 노출 회수 및 노출 빈도에 대응하는 가중치를 지정 검색어의 노출 회수 및 노출 빈도에 부여하기 위해 노출 회수 계측부(115)와 노출 빈도 산출부(116)에게 가중치 검색어의 노출 회수를 계측하여 줄 것과 노출 빈도를 산출하여 줄 것을 요청한다(S225).
그러면, 노출 회수 계측부(115)는 검색 조건 분석부(111) 또는 가중치 결정부(117)로부터 가중치 검색어를 전달받으며, 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 가중치 검색어의 노출 회수, 즉 등장 회수를 계측한다(S227).
또한, 노출 빈도 산출부(116)는 노출 회수 계측부(115)로부터 가중치 검색어의 노출 회수 계측값을 전달받으며, 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 가중치 검색어가 전체 웹 문서에서 차지하는 비중을 산출한다. 즉 특정 웹 문서의 전체 낱말 개수 중에서 가중치 검색어가 차지하는 비중을 산출하는 것이다(S229).
노출 빈도 산출부(116)에 의한 가중치 검색어의 노출 비중 산출값은 가중치 결정부(117)로 전달되며, 가중치 결정부(117)는 가중치 검색어의 노출 비중 산출값과 기 설정된 가중치 부여 기준값과 비교하여 그 비교 결과에 따라 선택적으로 지정 검색어의 노출 비중에 가중치를 부여한다. 이때, 가중치 검색어의 노출 비중 산출값이 높을수록 가중치를 높게 부여하는 것이 바람직하다(S231).
다음으로, 단계 S201에서 이미지 평가 조건이 설정된 경우에, 이미지 평가부(118)는 검색 조건 중에서 이미지 평가 조건에 의거하여 웹 문서 저장부(113)에 저 장된 개별 웹 문서 내에서 단어 분류 데이터베이스(123)에 분류 저장된 단어들의 노출 회수 및/또는 노출 빈도에 따라 해당 웹 문서의 이미지를 긍정성, 중립성, 부정성 중 어느 하나로 결정하기 위하여 노출 회수 계측부(115)와 노출 빈도 산출부(116)에게 단어 분류 데이터베이스(123)에 저장된 단어들의 노출 회수를 계측하여 줄 것과 노출 빈도를 산출하여 줄 것을 요청한다(S233).
그러면, 노출 회수 계측부(115)는 이미지 평가부(118)로부터 긍정성, 중립성, 부정성 단어 등의 이미지 판별 단어들을 단어 분류 데이터베이스(123)의 검색 결과로서 전달받으며(S235), 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 이미지 판별 단어의 노출 회수, 즉 등장 회수를 계측한다(S237).
또한, 노출 빈도 산출부(116)는 노출 회수 계측부(115)로부터 이미지 판별 단어의 노출 회수 계측값을 전달받으며, 웹 문서 저장부(113)에 저장된 개별 웹 문서에 포함되어 있는 이미지 판별 단어가 전체 웹 문서에서 차지하는 비중을 산출한다. 즉 특정 웹 문서의 전체 낱말 개수 중에서 이미지 판별 단어가 차지하는 비중을 산출하는 것이다(S239).
노출 빈도 산출부(116)에 의해 산출된 이미지 판별 단어의 노출 비중은 이미지 평가부(118)로 전달되며, 이미지 평가부(118)는 이미지 판별 단어들의 노출 비중을 상호 비교, 즉 긍정성 단어의 노출 비중과 중립성 단어의 노출 비중 및 부정성 단어의 노출 비중을 상호 비교하여 해당 웹 문서의 이미지를 긍정성, 중립성, 부정성 중 어느 하나로 판정한다. 예로서 긍정성 단어의 노출 비중이 중립성 단어 및 부정성 단어의 노출 비중보다 상대적으로 높으면 해당 웹 문서를 긍정성 이미지 로 판정하는 것이다. 여기서, 중립성 단어에 대한 지금까지의 노출 회수 및 빈도 측정과 비교 과정은 생략할 수도 있다. 즉 긍정성 단어의 노출 비중과 부정성 단어의 노출 비중만을 비교하여 그 차이가 기 설정된 비중 차이에 속하면 그 이미지를 중립성으로 판정할 수 있는 것이다(S237∼S243).
노출 회수 계측부(115)에서 계측된 지정 검색어의 노출 회수 계측값과 노출 빈도 산출부(116)에서 산출된 지정 검색어의 노출 빈도값은 검색 결과 분석부(119)로 전달되며, 가중치 결정부(117)에서 결정된 가중치 결정값과 이미지 평가부(118)에서 결정된 웹 문서의 이미지 판정 정보 또한 검색 결과 분석부(119)로 제공된다.
검색 결과 분석부(119)는 검색 조건 분석부(111)로 입력되었던 검색 조건에 따른 지정 검색어의 노출 빈도값을 최종적으로 결정한다. 즉 노출 빈도 산출부(116)에서 산출된 지정 검색어의 노출 빈도값에 가중치 결정값을 더하여 상향 조정하는 것이다. 여기서, 검색 결과 분석부(119)는 웹 문서 저장부(113)에 저장된 개별 웹 문서를 리스트로 작성하고, 리스트에는 개별 웹 문서별 지정 검색어의 노출 회수와 노출 빈도값 및 이미지 판정 정보를 별도 표시하여 웹 문서 검색 결과물을 생성한다. 그리고, 생성된 웹 문서 검색 결과물을 검색 결과 데이터베이스(121)에 저장함과 아울러 외부로 출력하게 된다.
또한, 검색 결과 분석부(119)는 웹 문서 검색 결과물을 리스트 형태로 제공함과 아울러 지정 검색어의 인지도나 화제성을 쉽게 알 수 있도록 수치화하여 제공할 수도 있다. 즉, 별도의 수치화 테이블을 참조하여 검색된 웹 문서의 개수와 노출 회수 및 노출 빈도값에 따라 가변되게 결정되는 수치를 제공하는 것이다. 예로 서, 최고 인지도 및 화제성을 100점으로 규정하였을 경우에, 웹 문서의 개수 구간별로 0점에서 100점까지 구분하고, 노출 회수의 회수 구간별로 0점에서 100점까지 구분하며, 노출 빈도의 비중 구간별로 0점에서 100점까지 구분한 후, 웹 문서 개수와 노출 회수 및 노출 빈도의 개별 점수를 합산한 후 평균값을 산출하여 제공하는 것이다(S245, S247).
<제 2 실시 예>
본 발명의 제 2 실시 예에 따른 인터넷 웹 문서 검색 시스템은 도 3의 블록 구성도에 나타낸 바와 같이, 웹 문서 검색 엔진(180), 검색 결과 데이터베이스(121), 검색 대상 서버 데이터베이스(122), 단어 분류 데이터베이스(123), 가중치 데이터베이스(124), 인터넷(130), 뉴스 제공 서버(140), 뉴스 데이터베이스(151), 게시판 운용 서버(160), 게시판 데이터베이스(171) 등으로 구성된다.
뉴스 제공 서버(140)는 뉴스 데이터베이스(151)에 저장된 뉴스 웹 문서를 인터넷(130)을 통해 제공하는 웹사이트를 운용하며, 게시판 운용 서버(160)는 게시판 데이터베이스(171)에 저장된 게시물 웹 문서를 이용하여 인터넷(130)을 통해 웹 게시판 서비스를 제공하는 웹사이트를 운용한다. 뉴스 제공 서버(140)와 게시판 운용 서버(160)는 도 1에 도시된 제 1 실시 예와 마찬가지로 인터넷(130)을 통해 웹 문서를 제공하는 웹 문서 공급 서버로서, 통상의 인터넷 서버 등으로 구현할 수 있다.
검색 결과 데이터베이스(121), 검색 대상 서버 데이터베이스(122), 단어 분 류 데이터베이스(123)는 도 1에 도시된 제 1 실시 예와 동일한 구성요소로서 그 기능 은 동일하다.
가중치 데이터베이스(124)는 지정 검색어의 노출 회수 및 노출 빈도에 가중치를 부여하기 위한 가중치 검색어가 저장되며, 가중치 검색어별로 노출 회수 및 노출 빈도에 따라 지정 검색어에 부여되는 가중치값이 함께 저장된다.
웹 문서 검색 엔진(180)은 검색 대상 서버, 지정 검색어, 유사성 판별 조건, 가중치 부여 조건, 이미지 평가 조건, 검색 기간 조건 등을 포함하는 웹 문서 검색 조건이 설정되면 해당 검색 조건에 의거하여 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 의해 관리·운용되는 뉴스 데이터베이스(151) 및/또는 게시판 데이터베이스(171)에서 웹 문서를 검색 후 그 분석 결과를 제공한다.
웹 문서 검색부(182)는 검색 조건 분석부(111)로부터 검색 대상 서버 지정 정보와 지정 검색어 및 검색 기간이 전달되면 검색 대상 서버 데이터베이스(122)를 검색하여 검색 대상 서버 지정 정보에 대응하는 접근 경로 정보를 추출하며, 추출된 접근 경로 정보에 따라 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 접속한 후, 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 의해 관리·운용되는 뉴스 데이터베이스(151) 및/또는 게시판 데이터베이스(171)에서 웹 문서를 검색하여 지정 검색어가 포함된 웹 문서를 추출한다.
검색 조건 분석부(111), 웹 문서 저장부(113), 유사성 판별부(114), 노출 회수 계측부(115), 노출 빈도 산출부(116), 이미지 평가부(118), 검색 결과 분석부(119) 등은 도 1에 도시된 제 1 실시 예와 동일한 구성요소로서 그 기능은 동일 또 는 유사하다.
가중치 결정부(117)는 검색 조건 중에서 가중치 부여 조건에 의거하여 가중치 데이터베이스(124)에 저장된 가중치 검색어들이 웹 문서 저장부(113)에 저장된 웹 문서 상에서 나타나는 노출 회수 및 노출 빈도에 따라서 가중치 데이터베이스(124)에 저장된 가중치값을 지정 검색어의 노출 회수 계측값 및 노출 빈도 산출값에 부여한다.
이와 같이 구성된 본 발명의 제 2 실시 예에 따른 인터넷 웹 문서 검색 시스템에서 수행되는 인터넷 웹 문서 검색 과정을 아래에서 설명함에 있어서 본 발명의 제 1 실시 예의 설명에 이용된 도 2a 내지 도 2c를 참조하여 차별화된 처리 과정을 중점적으로 설명하기로 한다.
먼저, 단계 S201 내지 S209의 처리 과정은 제 1 실시 예와 마찬가지로 동일하게 처리된다.
이후, 제 1 실시 예에서는 단계 S211에서 웹 문서 검색 엔진(110)이 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 접속(S209)하여 지정 검색어 및 검색 기간을 전송하면서 해당 지정 검색어가 포함된 웹 문서를 검색하여 줄 것을 요청하였으나, 제 2 실시 예에서는 웹 문서 검색부(182)가 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 접속한 후, 뉴스 제공 서버(140) 및/또는 게시판 운용 서버(160)에 의해 관리·운용되는 뉴스 데이터베이스(151) 및/또는 게시판 데이터베이스(171)에서 웹 문서를 검색하여 지정 검색어가 포함된 웹 문서를 직접 추출한다.
다음으로, 단계 S213 내지 S223은 제 1 실시 예와 마찬가지로 동일하게 처리되며, 단계 S225에서 가중치 결정부(117)는 가중치 데이터베이스(124)를 검색하여 지정 검색어에 대응하는 가중치 검색어가 추출하고, 노출 회수 계측부(115)와 노출 빈도 산출부(116)에게 추출된 가중치 검색어의 노출 회수를 계측하여 줄 것과 노출 빈도를 산출하여 줄 것을 요청한다.
그리고, 단계 S227 및 S229의 수행 후, 단계 S231에서 노출 빈도 산출부(116)로부터 노출 비중 산출값이 제공되면 가중치 데이터베이스(124)를 다시 검색하여 노출 비중 산출값에 대응하는 가중치값을 추출하여 지정 검색어의 노출 비중에 가중치를 부여한다.
이후, 단계 S233 내지 S247은 본 발명의 제 1 실시 예와 마찬가지로 동일하게 수행된다.
본 발명의 제 1 실시 예와 제 2 실시 예를 비교하여 보면, 제 1 실시 예에서는 웹 문서의 검색을 뉴스 검색 엔진(141) 및/또는 게시판 검색 엔진(161)에서 수행하나, 제 2 실시 예에서는 웹 문서의 검색을 웹 문서 검색 엔진(180) 내 웹 문서 검색부(182)에서 직접 수행하는 차이점을 갖는다. 또한 제 1 실시 예에서는 가중치 검색어가 검색 조건으로서 입력 및/또는 설정되었으나, 제 2 실시 예에서는 가중치 데이터베이스(124)에 미리 가중치값과 함께 저장되어 있으며 가중치 결정부(117)에 의한 가중치 결정 과정에서 가중치 데이터베이스(124)를 이용하는 차이점을 갖는다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과한 것으로, 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 당연히 포함되는 것으로 해석되어야 할 것이다.
전술한 바와 같이 본 발명은 인터넷 웹 문서를 단순 검색 결과로서 제공하지 아니하고 지정 검색어가 포함된 웹 문서들과 지정 검색어의 노출 회수 또는 빈도 등의 기초 정보 및 웹 문서들의 부정, 중립, 긍정 등의 이미지 평가 정보를 함께 제공한다. 이러한 본 발명은 인터넷 여론 조사 등에 활용할 수 있으며, 웹 문서 검색 대상 서버의 지정을 통해 검색 대상을 특정 범위로 제한하거나 얼마든지 확장할 수가 있으므로 타깃 여론 조사가 가능하고, 이미 인터넷에 등록 또는 공개된 웹 문서를 대상으로 하므로 그 결과를 실시간으로 획득 및 분석할 수 있다.
특히, 인터넷 여론 조사 등에 활용될 경우에는, 기존의 폴 화면이나 전자메일을 이용하는 방식과는 달리 조사자 및 응답자의 주관성이 배제되어 고도의 중립성 및 객관성이 확보되며, 여러 번에 걸쳐 조사가 반복되더라도 동일한 결과를 얻을 수 있는 높은 재현성을 갖는 이점이 있다.

Claims (34)

  1. 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 시스템으로서,
    지정 검색어의 전송과 함께 상기 웹 문서들의 검색이 요청되면 상기 웹 문서들 중에서 상기 지정 검색어를 포함하는 웹 문서들을 추출하여 추출 웹 문서들을 제공하는 웹 문서 공급 서버와,
    상기 인터넷을 통해 상기 웹 문서 공급 서버에 접속하기 위한 접속 경로 정보가 저장된 데이터베이스와,
    상기 추출 웹 문서의 이미지를 긍정성, 중립성, 부정성 중에서 어느 하나로 평가하기 위해 상기 긍정성과 부정성을 각각 대표할 수 있는 이미지 판별 단어들이 분류되어 저장된 데이터베이스와,
    상기 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 상기 웹 문서 검색 조건에 따라 상기 접속 경로 정보를 토대로 상기 웹 문서 공급 서버에 접속하여 상기 지정 검색어의 전송과 함께 상기 웹 문서들의 검색을 요청하며, 상기 웹 문서 공급 서버로부터 제공되는 상기 추출 웹 문서들과 이 추출 웹 문서들에 포함된 상기 지정 검색어의 노출 회수 계측값을 상기 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하되, 상기 웹 문서 검색 조건 중에 포함된 이미지 평가 조건에 의거하여 상기 추출 웹 문서들 내에서 상기 이미지 판별 단어들의 노출 회수 및/또는 노출 빈도에 따라 상기 추출 웹 문서들의 이미지를 상기 긍정성과 중립성 및 부정성 중 어느 하나로 결정한 이미지 판정 정보를 상기 웹 문서 검색 결과와 함께 제공하는 웹 문서 검색 엔진
    을 포함하는 인터넷 웹 문서 검색 시스템.
  2. 제 1 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 지정 검색어의 입력과 함께 상기 웹 문서 검색 조건이 설정될 때에 상기 검색 조건을 분석하여 해당 검색 조건에 맞추어 상 기 웹 문서 검색이 수행되도록 하는 검색 조건 분석부와,
    상기 검색 조건 분석부로부터 상기 검색 조건에 포함된 검색 대상 서버 지정 정보와 상기 지정 검색어가 전달되면 상기 데이터베이스를 검색하여 상기 검색 대상 서버 지정 정보에 대응하는 접근 경로 정보를 추출한 후 추출된 접근 경로 정보에 따라 상기 웹 문서 제공 서버에 접속하여 상기 지정 검색어가 포함된 웹 문서를 검색하여 줄 것을 요청하는 웹 문서 요청부와,
    상기 웹 문서 제공 서버로부터 제공되는 상기 추출 웹 문서를 저장하는 웹 문서 저장부와,
    상기 웹 문서 저장부에 저장된 개별 웹 문서에 포함되어 있는 상기 지정 검색어의 노출 회수를 계측하여 상기 노출 회수 계측값을 출력하는 노출 회수 계측부
    를 포함하는 인터넷 웹 문서 검색 시스템.
  3. 제 2 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 검색 조건 중에서 유사성 판별 조건에 의거하여 상기 웹 문서 저장부에 저장된 웹 문서들의 상호간 유사성을 판별하여 비유사 웹 문서를 추출 및 삭제하는 유사성 판별부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 노출 회수 계측부로부터 상기 노출 회수 계 측값을 제공받아 상기 웹 문서 저장부에 저장된 개별 웹 문서에 포함되어 있는 상기 지정 검색어가 해당 웹 문서의 전체에서 차지하는 비중을 산출하여 제공하는 노출 빈도 산출부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  5. 제 4 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 검색 조건 중에서 가중치 부여 조건에 의거하여 상기 지정 검색어와 함께 입력되는 가중치 검색어의 노출 회수 및 노출 빈도를 상기 노출 회수 계측부 및 노출 빈도 산출부에 요청하며, 상기 가중치 검색어의 노출 회수 계측값과 노출 빈도 산출값에 따라 상기 지정 검색어의 노출 회수 계측값 및 노출 빈도 산출값에 가중치를 부여하는 가중치 결정부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  6. 삭제
  7. 제 5 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 웹 문서 저장부에 저장된 개별 웹 문서를 리스트로 작성하고, 상기 리스트에는 개별 웹 문서별로 상기 지정 검색어의 노출 회수와 노출 빈도값 및 이미지 판정 정보를 표시하여 웹 문서 검색 결과물을 생성하여 제공하는 검색 결과 분석부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  8. 제 7 항에 있어서,
    상기 검색 결과 분석부는, 수치화 테이블을 참조하여 상기 추출 웹 문서의 개수와 노출 회수 및 노출 빈도값에 따라 가변되게 결정되는 수치를 제공하여 상기 지정 검색어의 인지도나 화제성을 나타내는 것
    을 특징으로 한 인터넷 웹 문서 검색 시스템.
  9. 제 8 항에 있어서,
    상기 검색 결과 분석부는, 상기 추출 웹 문서의 개수 구간별로 점수를 구분 하고, 상기 노출 회수의 회수 구간별로 점수를 구분하며, 상기 노출 빈도의 비중 구간별로 점수를 구분한 후, 상기 웹 문서 개수와 노출 회수 및 노출 빈도의 개별 점수를 합산한 후 평균값을 산출하여 제공하는 것
    을 특징으로 한 인터넷 웹 문서 검색 시스템.
  10. 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 시스템으로서,
    상기 인터넷을 통해 상기 웹 문서들을 제공하는 웹 문서 공급 서버와,
    상기 인터넷을 통해 상기 웹 문서 공급 서버에 접속하기 위한 접속 경로 정보가 저장된 데이터베이스와,
    웹 문서의 이미지를 긍정성, 중립성, 부정성 중에서 어느 하나로 평가하기 위해 상기 긍정성과 부정성을 각각 대표할 수 있는 이미지 판별 단어들이 분류되어 저장된 데이터베이스와,
    상기 지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 상기 웹 문서 검색 조건에 따라 상기 접속 경로 정보를 토대로 상기 웹 문서 공급 서버에 접속하여 상기 지정 검색어를 포함하는 웹 문서들을 추출하며, 이 추출 웹 문서들과 이 추출 웹 문서들에 포함된 상기 지정 검색어의 노출 회수 계측값을 상기 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하되, 상기 검색 조건 중에 포함된 이미지 평가 조건에 의거하여 상기 추출 웹 문서들 내에서 상기 이미지 판별 단어들의 노출 회수 및/또는 노출 빈도에 따라 상기 추출 웹 문서들의 이미지를 상기 긍정성과 중립성 및 부정성 중 어느 하나로 결정한 이미지 판별 정보를 상기 웹 문서 검색 결과와 함께 제공하는 웹 문서 검색 엔진
    을 포함하는 인터넷 웹 문서 검색 시스템.
  11. 제 10 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 지정 검색어의 입력과 함께 상기 웹 문서 검색 조건이 설정될 때에 상기 검색 조건을 분석하여 해당 검색 조건에 맞추어 상기 웹 문서 검색이 수행되도록 하는 검색 조건 분석부와,
    상기 검색 조건 분석부로부터 상기 검색 조건에 포함된 검색 대상 서버 지정 정보와 상기 지정 검색어가 전달되면 상기 데이터베이스를 검색하여 상기 검색 대상 서버 지정 정보에 대응하는 접근 경로 정보를 추출한 후 추출된 접근 경로 정보에 따라 상기 웹 문서 제공 서버에 접속하여 상기 지정 검색어가 포함된 웹 문서를 검색 및 추출하는 웹 문서 검색부와,
    상기 웹 문서 검색부에 의해 추출된 상기 웹 문서를 저장하는 웹 문서 저장부와,
    상기 웹 문서 저장부에 저장된 개별 웹 문서에 포함되어 있는 상기 지정 검색어의 노출 회수를 계측하여 상기 노출 회수 계측값을 출력하는 노출 회수 계측부
    를 포함하는 인터넷 웹 문서 검색 시스템.
  12. 제 11 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 검색 조건 중에서 유사성 판별 조건에 의거하여 상기 웹 문서 저장부에 저장된 웹 문서들의 상호간 유사성을 판별하여 비유사 웹 문서를 추출 및 삭제하는 유사성 판별부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  13. 제 11 항 또는 제 12 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 노출 회수 계측부로부터 상기 노출 회수 계측값을 제공받아 상기 웹 문서 저장부에 저장된 개별 웹 문서에 포함되어 있는 상기 지정 검색어가 해당 웹 문서의 전체에서 차지하는 비중을 산출하여 제공하는 노출 빈도 산출부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  14. 제 13 항에 있어서,
    상기 검색 시스템은, 상기 지정 검색어의 노출 회수 및 노출 빈도에 가중치를 부여하기 위한 가중치 검색어와 이 가중치 검색어별로 노출 회수 및 노출 빈도에 따라 상기 지정 검색어에 부여되는 가중치값이 함께 저장된 가중치 데이터베이스
    를 더 포함하며,
    상기 웹 문서 검색 엔진은, 상기 검색 조건 중에서 가중치 부여 조건에 의거하여 상기 가중치 데이터베이스에 저장된 가중치 검색어들이 상기 웹 문서 저장부에 저장된 웹 문서 상에서 나타나는 노출 회수 및 노출 빈도에 따라서 상기 저장된 가중치값을 상기 지정 검색어의 노출 회수 계측값 및 노출 빈도 산출값에 부여하는 가중치 결정부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  15. 삭제
  16. 제 14 항에 있어서,
    상기 웹 문서 검색 엔진은, 상기 웹 문서 저장부에 저장된 개별 웹 문서를 리스트로 작성하고, 상기 리스트에는 개별 웹 문서별로 상기 지정 검색어의 노출 회수와 노출 빈도값 및 이미지 판정 정보를 표시하여 웹 문서 검색 결과물을 생성하여 제공하는 검색 결과 분석부
    를 더 포함하는 인터넷 웹 문서 검색 시스템.
  17. 제 16 항에 있어서,
    상기 검색 결과 분석부는, 수치화 테이블을 참조하여 상기 추출 웹 문서의 개수와 노출 회수 및 노출 빈도값에 따라 가변되게 결정되는 수치를 제공하여 상기 지정 검색어의 인지도나 화제성을 나타내는 것
    을 특징으로 한 인터넷 웹 문서 검색 시스템.
  18. 제 17 항에 있어서,
    상기 검색 결과 분석부는, 상기 추출 웹 문서의 개수 구간별로 점수를 구분하고, 상기 노출 회수의 회수 구간별로 점수를 구분하며, 상기 노출 빈도의 비중 구간별로 점수를 구분한 후, 상기 웹 문서 개수와 노출 회수 및 노출 빈도의 개별 점수를 합산한 후 평균값을 산출하여 제공하는 것
    을 특징으로 한 인터넷 웹 문서 검색 시스템.
  19. 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 방법으로서,
    지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 상기 웹 문서 검색 조건에 따라 상기 인터넷 상의 웹 문서 공급 서버에게 상기 지정 검색어를 포함하는 상기 웹 문서들의 검색을 요청하는 단계와,
    상기 검색 요청에 따라 추출된 웹 문서들이 상기 웹 문서 공급 서버로부터 제공되면 상기 추출 웹 문서들에 포함된 상기 지정 검색어의 노출 회수를 계측하는 단계와,
    상기 검색 조건 중에 포함된 이미지 평가 조건에 의거하여 기 분류된 긍정성과 부정성을 대표하는 이미지 판별 단어들의 상기 추출 웹 문서 내에서의 노출 회수 및/또는 노출 빈도를 산출하는 단계와,
    상기 이미지 판별 단어들의 노출 회수 및/또는 노출 빈도 산출값에 의거하여 상기 추출 웹 문서들의 이미지를 상기 긍정성과 중립성 및 부정성 중 어느 하나로 나타내는 이미지 판정 정보를 결정하는 단계와,
    상기 추출 웹 문서들과 상기 노출 회수 계측값 및 상기 이미지 판정 정보를 상기 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 단계
    를 포함하는 인터넷 웹 문서 검색 방법.
  20. 제 19 항에 있어서,
    상기 검색 방법은, 상기 검색 조건 중에서 유사성 판별 조건에 의거하여 상기 추출 웹 문서들의 상호간 유사성을 판별하여 비유사 웹 문서를 추출 및 삭제하는 단계
    를 더 포함하는 인터넷 웹 문서 검색 방법.
  21. 제 19 항에 있어서,
    상기 검색 방법은, 상기 추출 웹 문서에 포함되어 있는 상기 지정 검색어가 해당 웹 문서의 전체에서 차지하는 비중을 산출하여 제공하는 단계
    를 더 포함하는 인터넷 웹 문서 검색 방법.
  22. 제 21 항에 있어서,
    상기 검색 방법은, 상기 검색 조건 중에서 가중치 부여 조건에 의거하여 상기 지정 검색어와 함께 입력되는 가중치 검색어의 노출 회수 및 노출 빈도를 산출하는 단계와,
    상기 가중치 검색어의 노출 회수 계측값과 노출 빈도 산출값에 따라 상기 지정 검색어의 노출 회수 계측값 및 노출 빈도 산출값에 가중치를 부여하는 단계
    를 더 포함하는 인터넷 웹 문서 검색 방법.
  23. 삭제
  24. 제 22 항에 있어서,
    상기 검색 방법은, 상기 추출 웹 문서를 리스트로 작성하고, 상기 리스트에는 개별 웹 문서별로 상기 지정 검색어의 노출 회수와 노출 빈도값 및 이미지 판정 정보를 표시하여 상기 웹 문서 검색 결과물로 제공하는 것
    을 특징으로 하는 인터넷 웹 문서 검색 방법.
  25. 제 24 항에 있어서,
    상기 검색 방법은, 수치화 테이블을 참조하여 상기 추출 웹 문서의 개수와 노출 회수 및 노출 빈도값에 따라 가변되게 결정되는 수치를 상기 웹 문서 검색 결 과물로 제공하여 상기 지정 검색어의 인지도나 화제성을 나타내는 것
    을 특징으로 한 인터넷 웹 문서 검색 방법.
  26. 제 25 항에 있어서,
    상기 검색 방법은, 상기 추출 웹 문서의 개수 구간별로 점수를 구분하고, 상기 노출 회수의 회수 구간별로 점수를 구분하며, 상기 노출 빈도의 비중 구간별로 점수를 구분한 후, 상기 추출 웹 문서 개수와 노출 회수 및 노출 빈도의 개별 점수를 합산한 후 평균값을 산출하여 상기 웹 문서 검색 결과물로 제공하는 것
    을 특징으로 한 인터넷 웹 문서 검색 방법.
  27. 인터넷 상의 웹 문서들을 검색하여 그 검색 결과를 제공하는 인터넷 웹 문서 검색 방법으로서,
    지정 검색어의 입력과 함께 웹 문서 검색 조건이 설정되면 상기 웹 문서 검색 조건에 따라 상기 인터넷 상의 웹 문서 공급 서버에서 제공되는 상기 웹 문서 중에서 상기 지정 검색어를 포함하는 상기 웹 문서들을 검색 및 추출하는 단계와,
    상기 추출된 웹 문서들에 포함된 상기 지정 검색어의 노출 회수를 계측하는 단계와,
    상기 검색 조건 중에 포함된 이미지 평가 조건에 의거하여 기 분류된 긍정성과 부정성을 대표하는 이미지 판별 단어들의 상기 추출 웹 문서 내에서의 노출 회수 및/또는 노출 빈도를 산출하는 단계와,
    상기 이미지 판별 단어들의 노출 회수 및/또는 노출 빈도 산출값에 의거하여 상기 추출 웹 문서들의 이미지를 상기 긍정성과 중립성 및 부정성 중 어느 하나로 나타내는 이미지 판정 정보를 결정하는 단계와,
    상기 추출 웹 문서들과 상기 노출 회수 계측값 및 상기 이미지 판정 정보를 상기 설정된 웹 문서 검색 조건에 따른 웹 문서 검색 결과로서 제공하는 단계
    를 포함하는 인터넷 웹 문서 검색 방법.
  28. 제 27 항에 있어서,
    상기 검색 방법은, 상기 검색 조건 중에서 유사성 판별 조건에 의거하여 상기 추출 웹 문서들의 상호간 유사성을 판별하여 비유사 웹 문서를 추출 및 삭제하는 단계
    를 더 포함하는 인터넷 웹 문서 검색 방법.
  29. 제 27 항에 있어서,
    상기 검색 방법은, 상기 추출 웹 문서에 포함되어 있는 상기 지정 검색어가 해당 웹 문서의 전체에서 차지하는 비중을 산출하여 제공하는 단계
    를 더 포함하는 인터넷 웹 문서 검색 방법.
  30. 제 29 항에 있어서,
    상기 검색 방법은, 상기 검색 조건 중에서 가중치 부여 조건에 의거하여 상기 지정 검색어에 대응하게 기 저장된 가중치 검색어의 노출 회수 및 노출 빈도를 산출하는 단계와,
    상기 가중치 검색어의 노출 회수 계측값과 노출 빈도 산출값에 따라 상기 지정 검색어의 노출 회수 계측값 및 노출 빈도 산출값에 가중치를 부여하는 단계
    를 더 포함하는 인터넷 웹 문서 검색 방법.
  31. 삭제
  32. 제 30 항에 있어서,
    상기 검색 방법은, 상기 추출 웹 문서를 리스트로 작성하고, 상기 리스트에는 개별 웹 문서별로 상기 지정 검색어의 노출 회수와 노출 빈도값 및 이미지 판정 정보를 표시하여 상기 웹 문서 검색 결과물로 제공하는 것
    을 특징으로 하는 인터넷 웹 문서 검색 방법.
  33. 제 32 항에 있어서,
    상기 검색 방법은, 수치화 테이블을 참조하여 상기 추출 웹 문서의 개수와 노출 회수 및 노출 빈도값에 따라 가변되게 결정되는 수치를 상기 웹 문서 검색 결과물로 제공하여 상기 지정 검색어의 인지도나 화제성을 나타내는 것
    을 특징으로 한 인터넷 웹 문서 검색 방법.
  34. 제 32 항에 있어서,
    상기 검색 방법은, 상기 추출 웹 문서의 개수 구간별로 점수를 구분하고, 상기 노출 회수의 회수 구간별로 점수를 구분하며, 상기 노출 빈도의 비중 구간별로 점수를 구분한 후, 상기 추출 웹 문서 개수와 노출 회수 및 노출 빈도의 개별 점수를 합산한 후 평균값을 산출하여 상기 웹 문서 검색 결과물로 제공하는 것
    을 특징으로 한 인터넷 웹 문서 검색 방법.
KR20050076218A 2005-08-19 2005-08-19 인터넷 웹 문서 검색 시스템 및 그 방법 KR100726886B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20050076218A KR100726886B1 (ko) 2005-08-19 2005-08-19 인터넷 웹 문서 검색 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20050076218A KR100726886B1 (ko) 2005-08-19 2005-08-19 인터넷 웹 문서 검색 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20070021678A KR20070021678A (ko) 2007-02-23
KR100726886B1 true KR100726886B1 (ko) 2007-06-12

Family

ID=43653634

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20050076218A KR100726886B1 (ko) 2005-08-19 2005-08-19 인터넷 웹 문서 검색 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100726886B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100960709B1 (ko) * 2008-06-28 2010-06-01 주식회사 시맨틱스 키워드 검색 시스템에서 자동화된 온톨로지를 이용한 쇼핑 키워드 출력 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101158183B1 (ko) * 2009-12-02 2012-06-19 에스케이플래닛 주식회사 웹 문서 평가 판단 장치 및 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010106590A (ko) * 2000-05-22 2001-12-07 함광선 통신상의 웹사이트 통합 검색방법 및 이 방법을수행하도록 프로그램된 소프트웨어가 저장된 매체
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
KR20020014865A (ko) * 2000-08-19 2002-02-27 윤택기 유의어 전자사전 및 그 전자사전을 이용한 유의어 검색방법
KR20020058639A (ko) * 2000-12-30 2002-07-12 오길록 엑스엠엘 문서 검색 시스템 및 그 방법
KR20020060417A (ko) * 2001-01-11 2002-07-18 전종훈 사용자별 검색 이력 정보를 이용한 문서 검색 시스템 및문서 검색 방법
KR20030078813A (ko) * 2003-07-09 2003-10-08 김일 인터넷 검색 엔진
KR20040100857A (ko) * 2004-01-15 2004-12-02 엔에이치엔(주) 검색 시스템에서의 데이터베이스 작성 방법 및 작성된데이터베이스를 포함하는 검색 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010106590A (ko) * 2000-05-22 2001-12-07 함광선 통신상의 웹사이트 통합 검색방법 및 이 방법을수행하도록 프로그램된 소프트웨어가 저장된 매체
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
KR20020014865A (ko) * 2000-08-19 2002-02-27 윤택기 유의어 전자사전 및 그 전자사전을 이용한 유의어 검색방법
KR20020058639A (ko) * 2000-12-30 2002-07-12 오길록 엑스엠엘 문서 검색 시스템 및 그 방법
KR20020060417A (ko) * 2001-01-11 2002-07-18 전종훈 사용자별 검색 이력 정보를 이용한 문서 검색 시스템 및문서 검색 방법
KR20030078813A (ko) * 2003-07-09 2003-10-08 김일 인터넷 검색 엔진
KR20040100857A (ko) * 2004-01-15 2004-12-02 엔에이치엔(주) 검색 시스템에서의 데이터베이스 작성 방법 및 작성된데이터베이스를 포함하는 검색 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100960709B1 (ko) * 2008-06-28 2010-06-01 주식회사 시맨틱스 키워드 검색 시스템에서 자동화된 온톨로지를 이용한 쇼핑 키워드 출력 시스템 및 방법

Also Published As

Publication number Publication date
KR20070021678A (ko) 2007-02-23

Similar Documents

Publication Publication Date Title
US9390144B2 (en) Objective and subjective ranking of comments
Zhao et al. Topical keyphrase extraction from twitter
KR102324048B1 (ko) 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체
CN107862022B (zh) 文化资源推荐系统
KR101452082B1 (ko) 리서치 미션 식별
WO2008022581A1 (fr) Procédé et dispositif d&#39;obtention de mots nouveaux et système et procédé de saisie
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
KR100434902B1 (ko) 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2011108053A (ja) ニュース記事評価システム
KR20090090840A (ko) 사용자 맞춤형 정보 제공 시스템 및 그 방법
Kim et al. Explicit in situ user feedback for web search results
CN112749328A (zh) 搜索方法、装置和计算机设备
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
KR101074820B1 (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
Sahoo et al. An efficient web search engine for noisy free information retrieval.
Wang et al. Enriching descriptions for public web services using information captured from related web pages on the internet
JP2020521246A (ja) ネットワークアクセス可能なコンテンツの自動化された分類
KR100726886B1 (ko) 인터넷 웹 문서 검색 시스템 및 그 방법
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
KR20070052027A (ko) 입력한 단어의 우선 순위 설정에 따른 키워드 검색 장치,방법 및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로읽을 수 있는 기록매체
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치
JP2011018152A (ja) 情報提示装置、情報提示方法およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130528

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140528

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150507

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee