KR101074578B1 - 검색 데이터베이스 관리 방법 및 장치 - Google Patents

검색 데이터베이스 관리 방법 및 장치 Download PDF

Info

Publication number
KR101074578B1
KR101074578B1 KR1020080096713A KR20080096713A KR101074578B1 KR 101074578 B1 KR101074578 B1 KR 101074578B1 KR 1020080096713 A KR1020080096713 A KR 1020080096713A KR 20080096713 A KR20080096713 A KR 20080096713A KR 101074578 B1 KR101074578 B1 KR 101074578B1
Authority
KR
South Korea
Prior art keywords
uri
information
website
collected
obtaining
Prior art date
Application number
KR1020080096713A
Other languages
English (en)
Other versions
KR20100037401A (ko
Inventor
강춘식
김송희
유지영
조안나
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080096713A priority Critical patent/KR101074578B1/ko
Publication of KR20100037401A publication Critical patent/KR20100037401A/ko
Application granted granted Critical
Publication of KR101074578B1 publication Critical patent/KR101074578B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

컨텐츠 제공자로부터 제공되는 컨텐츠의 본문을 직접 파싱함으로써 웹사이트의 주소 정보를 획득하거나 사용자 단말로부터 웹사이트의 주소 정보를 직접 획득함으로써 검색 데이터베이스를 확장할 수 있는 본 발명의 일 측면에 따른 검색 데이터베이스 관리 방법은 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI(Uniform Resource Identifier)를 획득하는 단계; 상기 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및 상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계를 포함한다.
검색엔진, 검색서비스, 컨텐츠, URI, URL, 웹사이트

Description

검색 데이터베이스 관리 방법 및 장치{Method and Apparatus for Managing Search Database}
본 발명은 검색 데이터베이스 관리 방법 및 장치에 관한 것으로서 보다 상세하게는 웹사이트 검색을 위한 검색 데이터베이스 관리 방법 및 장치에 관한 것이다.
인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 사이트, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.
이러한 검색 서비스를 제공하기 위해 검색 엔진은 웹 상을 지속적으로 순회하면서 새로운 웹사이트 정보를 기계적으로 수집한 후 수집된 데이터를 데이터베이스화한다.
최근에는 웹상에서 단기간 내에 수 많은 웹사이트의 생성 또는 소멸이 진행 됨에 따라 저장 및 관리 하여야 하는 데이터의 양이 급증하게 되었고, 이와 같이 급증하는 데이터 중에서 어떠한 데이터가 가치 있는 것인지를 평가하기 어렵게 됨에 따라, 이를 해결하기 위해 사용자로부터 직접 웹사이트 등록 요청을 받아서 해당 웹사이트에 대한 정보를 데이터베이스화하는 방안이 제시된 바 있다.
이와 같이, 사용자의 웹사이트 등록 요청에 따라 해당 웹사이트 정보를 데이터베이스화 할 수 있게 됨에 따라 검색 엔진을 운영하는 운영자는 보다 나은 검색 서비스를 제공할 수 있게 되고, 사용자는 자신의 웹사이트에 대한 광고 효과를 극대화할 수 있어 운영자의 영리 및 이익을 적절히 조화할 수 있게 되었다.
그러나, 이러한 사용자의 등록 요청에 의해 웹사이트 정보를 데이터베이스화하는 경우에도, 자체적인 한계로 인해 여전히 검색 결과로써 제공되지 못하는 웹사이트가 존재할 수 밖에 없고, 이로 인해 검색 엔진 운영자는 보다 완벽한 검색 서비스를 제공할 수 없게 됨에 따라 검색 서비스 품질이 저하될 수 있다는 문제점이 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 컨텐츠 제공자로부터 제공되는 컨텐츠의 본문을 직접 파싱함으로써 웹사이트의 주소 정보를 획득하거나 사용자 단말로부터 웹사이트의 주소 정보를 직접 획득함으로써 검색 데이터베이스를 확장할 수 있는 검색 데이터베이스 관리 방법 및 장치를 제공하는 것을 기술적 과제로 한다.
또한, 본 발명은 새롭게 생성 또는 변경된 웹사이트의 정보를 신속하게 검색 데이터베이스에 반영할 수 있는 검색 데이터베이스 관리 방법 및 장치를 제공하는 것을 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 검색 데이터베이스 관리 방법은 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI(Uniform Resource Identifier)를 획득하는 단계; 상기 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및 상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계를 포함한다.
일 실시예에 있어서, 상기 URI를 상기 소정 컨텐츠 본문으로부터 획득하는 경우 상기 URI 획득단계는, 상기 소정 컨텐츠 본문에 포함된 내용을 어절 단위로 구분하는 단계; 및 상기 각 어절들 중 URI로 인지되는 문자열이 포함되어 있는 제1 어절로부터 상기 URI를 추출하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 URI 추출 단계에서, 상기 URI로 인지되는 문자열은 http:// 또는 www.을 포함하는 제1 문자열로 시작되는 것을 특징으로 하고, 상기 제1 어절에 포함된 URI로 인지되는 문자열 내에서, 상기 제1 문자열부터 제1 문자 그룹에 포함된 문자 이전까지의 문자열 또는 상기 제1 문자열부터 영어나 한글까지의 문자열을 상기 URI로 추출하는 것을 특징으로 한다. 여기서, 상기 제1 문자 그룹은 URI의 표현에 이용되는 특수문자들로 구성될 수 있다.
다른 실시예에 있어서, 상기 URI를 상기 소정 컨텐츠 본문으로부터 획득하는 경우 상기 URI 획득단계는, 상기 소정 컨텐츠 본문에 포함된 내용을 어절 단위로 구분하는 단계; 및 상기 각 어절들 중 URI를 지칭하는 단어가 포함된 제1 어절과 일정 거리 전후에 위치한 제2 어절 내에서, 영문 또는 한글로 시작하되 제1 특수문자가 소정 개수 이상 포함된 문자열을 상기 URI로 추출하는 단계를 포함하는 것을 특징으로 한다. 이때, 상기 추출단계에서, 상기 제1 특수문자가 한 개 이면서 상기 문자열이 상기 제1 특수문자로 종결되는 문자열은 추출 대상 URI에서 배제하는 것이 바람직하다
한편, 상기 URI 획득단계 이후에, 상기 URI의 유효성을 판단하는 단계를 더 포함함으로써, 상기 웹사이트 정보 수집 단계에서, 상기 URI 중 유효한 것으로 판단된 URI에 상응하는 웹사이트의 정보를 수집할 수 있다. 이때, 상기 URI가 한글로 시작하는 경우 상기 URI 내에서 한글과 영문이 제1 특수문자로 연결되어 있지 않은 형태의 URI, 상기 URI 내에서 상기 제1 특수문자가 포함되어 있지 않은 형태의 URI, 또는 접속 불능인 URI는 유효하지 않은 것으로 판단할 수 있다.
한편, 상기 URI를 상기 사용자 단말로부터 획득하는 경우 상기 URI 획득단계에서, 상기 URI는 상기 사용자 단말의 웹브라우저에 저장되어 있는 북 마크 정보 또는 상기 웹브라우저를 통해 입력된 URL(Uniform Resource Locator)로부터 획득될 수 있다. 이때, 상기 북 마크 정보는 북 마크된 웹사이트 제목 및 상기 북 마크된 웹사이트의 URL 주소 중 적어도 하나를 포함하고, 상기 북 마크 정보는 상기 북 마크 정보에 대한 변경이 발생할 때마다 상기 사용자 단말로부터 획득되는 것을 특징으로 한다.
일 실시예에 있어서, 본 발명은 상기 웹사이트 정보 수집 단계 이전에, 상기 URI와 상기 검색 데이터베이스에 기 저장된 URI와의 중복 여부를 판단하는 단계를 더 포함함으로써, 상기 웹사이트 정보 수집 단계에서, 중복되지 않는 URI에 상응하는 웹사이트의 정보를 수집하는 것을 특징으로 한다.
또한, 상기 수집된 웹사이트 정보의 조직화 및 저장단계에서, 상기 수집된 웹사이트 정보를 이용하여 상기 웹사이트의 제목, 정보 제공자, 중요 태그, 및 그룹 중 적어도 하나를 결정함으로써 상기 수집된 웹사이트 정보를 조직화할 수 있는데, 이때, 상기 제목은 수집된 웹사이트 정보의 타이틀 태그에 포함된 내용 또는 상기 수집된 웹사이트 정보에 포함된 문구 중 출현횟수가 가장 높은 문구로 결정하고, 상기 정보 제공자는 상기 수집된 웹사이트 정보의 카피라이터에 해당하는 내용 또는 상기 컨텐츠 제공자로 결정하며, 상기 중요 태그는 상기 수집된 웹사이트 정보의 키워드 태그 또는 상기 수집된 웹사이트 정보에 포함된 문구 중 출현횟수 순위가 상위 N번째 이내인 문구로 결정하고, 상기 그룹은 기 저장된 그룹들 중 상기 결정된 중요 태그와의 일치도가 임계치 이상인 중요 태그를 가지는 그룹으로 결정할 수 있다.
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 검색 데이터베이스 관리 장치는 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 URI 획득부; 상기 URI 획득부에 의해 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 정보 수집부; 및 상기 정보 수집부에 의해 수집된 웹사이트 정보를 조직화하여 저장하는 정보 조직화부를 포함한다.
본 발명에 따르면, 컨텐츠 제공자로부터 제공되는 컨텐츠의 본문을 직접 파싱하거나 사용자 단말에 설치된 웹브라우저를 통해 직접 입력된 웹사이트의 주소 정보 또는 웹브라우저에 저장된 북 마크 정보를 이용하여 다양한 웹사이트의 주소를 획득할 수 있어 검색 데이터베이스를 확장할 수 있다는 효과가 있다.
또한, 본 발명은 새롭게 생성 또는 변경된 웹사이트의 정보를 신속하게 검색 데이터베이스에 반영할 수 있어 보다 나은 검색 서비스를 제공할 수 있다는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 검색 데이터베이스 관리 장치의 개략적인 블록도이다. 도시된 바와 같이, 본 발명에 따른 검색 데이터베이스 관리 장치(100)는 URI 획득부(120), 정보 수집부(130), 및 정보 조직화부(150)를 포함한 다.
URI 획득부(120)는 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI(Uniform Resource Identifier)을 획득한다. 이하에서는 URI 획득부(120)가 컨텐츠의 본문으로부터 URI를 획득하는 경우에 대해 먼저 설명한 후 사용자 단말로부터 URI를 획득하는 경우에 대해 설명하기로 한다.
먼저, URI 획득부(120)가 컨텐츠의 본문으로부터 URI를 획득하는 경우에 대해 설명하면, URI 획득부(120)는 도 1에 도시된 바와 같이 URI 파서(122) 및 유효성 판단부(124)를 포함한다.
URI 파서(122)는 컨텐츠의 본문에 포함된 내용을 파싱함으로써 컨텐츠 본문으로부터 URI를 추출하는 역할을 수행한다. 여기서, 컨텐츠라 함은 뉴스, 블로그, 또는 카페 등과 같이 인터넷 상에서 유통되는 모든 웹문서들을 포함하는 개념으로서, 뉴스와 같은 컨텐츠로부터는 시기적으로 유효한 URI를 획득할 수 있고, 블로그나 카페 등과 같은 컨텐츠로부터는 전문적인 URI를 획득할 수 있게 된다.
URI 파서(122)가 컨텐츠의 본문으로부터 URI를 추출하는 방법에 대해서 구체적으로 설명하면, URI 파서(122)는 먼저, 컨텐츠의 본문에 포함된 내용을 어절 단위로 구분한 후 각 어절들 중 URI로 인지되는 문자열이 포함되어 있는 어절로부터 URI를 추출한다. 즉, 본 발명은 해당 컨텐츠 내에서 하이퍼링크가 설정되어 있는 앵커 태그 또는 링크 태그를 이용해서 URI를 추출하는 것이 아니라, 해당 컨텐츠의 본문을 구성하는 텍스트로부터 직접 URI를 추출하는 것이다.
일 실시예에 있어서, URI로 인지되는 문자열은"http://"로 시작되는 문자열 또는 "www."로 시작되는 문자열일 수 있다. 즉, URI 파서(122)는 각 어절들 중 "http://"로 시작되는 문자열 또는 "www."로 시작되는 문자열이 포함되어 있는 어절로부터 URI를 추출하는 것이다.
변형된 실시예에 있어서는, "http://"로 시작되는 문자열 또는 "www."로 시작되는 문자열이 아니더라도, URI를 지칭하는 단어들이 포함되어 있는 어절과 일정 거리 전후에 위치하는 어절들 중 영문이나 한글로 시작하면서 "."과 같은 특수문자가 1개 이상 포함되어 있는 문자열도 URI로 인지되는 문자열일 수 있다. 이는, URI들 중 "http://"또는 "www."이외에도 "mail.", "blog.", 또는 "cafㅹ."와 같이 다양한 형태의 문자로 시작되는 URI가 존재할 수 있기 때문이다. 여기서, URI를 지칭하는 단어란 "홈페이지", "사이트", "site", "블로그", "미니홈피", "카페", "클럽", "URL", "인터넷 주소"등과 같은 단어일 수 있다.
이러한 실시예에 의하는 경우, 영문이나 한글로 시작하면서 "."과 같은 특수문자가 1개 이상 포함되어 있는 문자열들 중, "."과 같은 특수문자가 1개이면서, "."과 같은 특수문자로 종결되는 문자열은 URI가 아니라 단순히 종결되는 문장을 나타내는 것일 수 있으므로 URI로 인지되는 문자열에서 제외하는 것이 바람직하다.
일 실시예에 있어서, URI 파서(122)는 URI로 인지되는 문자열이 포함되어 있는 어절 내에서 URI를 추출함에 있어서, URI로 인지되는 문자열의 시작점부터 URI의 표현에 이용되는 특수문자들로 구성된 제1 문자 그룹에 포함된 문자 이전까지의 문자열을 URI로 추출할 수 있다.
여기서, URI로 인지되는 문자열의 시작점은 "http://" 또는 "www."로 정의되 거나, 한글 이나 영문으로 시작하되"."과 같은 특수문자가 1개 이상 포함되어 있는 문자열 중 "." 이전의 한글 이나 영문으로 정의될 수 있다. 또한, 제1 문자 그룹은 "/", "?", "&", "$", "공백"과 같은 특수문자들로 구성될 수 있다. 즉, URI 파서(122)는 URI로 인지되는 문자열 중 호스트 네임과 같은 유효한 URI만을 추출할 수 있다. 예컨대, URI로 인지되는 문자열이 "http://news.chosun.com/site/data/html_dir/2008/07/30/2008073001738.html" 인 경우, 시작점인 "http;//"부터 제1 문자 그룹에 포함된 특수문자인 "/"까지의 문자열인 "http://news.chosun.com"를 URI로 추출할 수 있다.
변형된 실시예에 있어서, URI로 인지되는 문자열이 포함되어 있는 어절 내에서 URI를 추출함에 있어서, URI로 인지되는 문자열의 시작점부터 한글 또는 영문까지의 문자열만을 URI로 추출할 수도 있다. 예컨대, URI로 인지되는 문자열이 "http://news.chosun.com/site/data/html_dir/2008/07/30/2008073001738.html" 인 경우, URI 파서(122)는 시작점인 "http://"부터 영문인 "html_dir"까지의 문자열인 "http://news.chosun.com/site/data/html_dir"를 URI로 추출할 수 있다.
다음으로, 유효성 판단부(124)는 URI 파서(122)에 의해 추출된 URI의 유효성을 판단한다. 일 실시예에 있어서 유효성 판단부(124)는 추출된 URI가 한글로 시작하는 경우 추출된 URI 내에서 한글과 영문이 "한글.영문"과 같이 "."으로 연결되어 있지 않은 형태의 URI, 추출된 URI 내에 "."과 같은 특수문자가 포함되어 있지 않은 URI, 또는 접속이 불능인 URI를 유효하지 않은 URI로 판단할 수 있다.
상술한 바와 같은 URI 획득부(120)가 URI를 획득하는 예를 도 2를 참조하여 설명하면, 먼저, URI 획득부(120)는 도 2에 도시된 컨텐츠 중 컨텐츠 본문(200)을 구성하는 텍스트를 어절 단위로 구분한 후, 각 어절들 중 URI로 인지되는 문자열이 포함된 어절을 검색한다. 도 2에서는 해당 컨텐츠의 어절들 중 "www"로 시작하는 문자열이 포함되어 있는 어절(210)이 존재하므로, 해당 어절(210)로부터 시작점인 "www."부터 영문까지의 문자열인 "www.bucheon.go.kr"과 같은 URI를 획득하게 되는 것이다.
다음으로, URI 획득부(120)가 사용자 단말로부터 URI를 직접 획득하는 경우에 대해 설명하면, URI 획득부(120)는 사용자 단말의 웹브라우저에 저장되어 있는 북 마크 정보 또는 웹브라우저를 통해 입력된 URL(Uniform Resource Locator)로부터 URI를 획득할 수 있다.
먼저, URI 획득부(120)가 사용자 단말의 웹브라우저에 저장되어 있는 북 마크 정보로부터 URI를 획득함에 있어서, URI 획득부(120)는 북 마크 정보로써 북 마크된 웹사이트의 제목 및 북 마크된 웹사이트의 URL을 획득할 수 있다. 이때, URI 획득부(120)는 웹브라우저에 저장되어 있는 북 마크 정보의 변동이 발생할 때마다 변동된 북 마크 정보를 획득할 수 있다.
한편, URI 획득부(120)가 사용자 단말의 웹브라우저에 입력되는 URL로부터 URI를 획득함에 있어서, URI 획득부(120)는 사용자들의 이용 패턴에 따른 URI를 획득하기 위해 웹브라우저가 최초로 활성화된 이후에 직접 입력된 URL을 획득하거나, 특정 웹사이트를 방문한 이후 웹브라우저에 직접 입력된 URL을 획득할 수 있다. 이때, 특정 웹사이트란 예컨대 검색 서비스를 제공하는 웹사이트를 의미하는 것으 로서, 검색 서비스 이용 후 사용자가 직접 URL을 입력하여 다른 웹사이트로 이동하는 경우 해당 URL을 획득하기 위한 것이다. 이외에도, URL 획득부(120)는 특정 웹사이트로 유입되기 직전에 입력된 URL 주소를 획득할 수도 있을 것이다.
다시 도 1을 참조하면, 정보 수집부(130)는 URI 획득부(120)에 의해 획득된 URI에 상응하는 웹사이트를 직접 방문하여 해당 웹사이트의 정보를 수집한다. 일 실시예에 있어서, 정보 수집부(130)는 해당 웹사이트에 공개된 모든 자원들을 웹사이트 정보로써 수집할 수 있다. 예컨대, 정보 수집부(130)는 해당 웹사이트에 포함된 HTML 문서, 이미지, 또는 텍스트 등을 웹사이트의 정보로써 수집할 수 있다.
상술한 실시예에 있어서 정보 수집부(130)는 URI 획득부(120)에 의해 수집된 모든 URI에 상응하는 웹사이트로부터 해당 웹사이트들의 정보를 수집하는 것으로 기재하였지만, 변형된 실시예에 있어서는 URI 획득부(120)에 의해 수집된 모든 URI중 검색 데이터베이스(미도시)에 기 저장되어 있는 URI와 중복되지 않는 URI에 상응하는 웹사이트에 대해서만 해당 웹사이트의 정보를 수집할 수도 있을 것이다. 이를 위해, 본 발명의 일 실시예에 따른 검색 데이터베이스 관리 장치(100)는 중복여부 판단부(140)를 더 포함할 수 있다.
중복여부 판단부(140)는 URI 획득부(120)에 의해 획득된 URI와 검색 데이터베이스에 기 저장된 URI와의 중복 여부를 판단하여, 중복되지 않는 URI들을 상술한 정보 수집부(130)로 제공한다. 중복여부 판단부(140)는 검색 데이터베이스에 URI 획득부(120)에 의해 획득된 URI와 동일한 URI가 존재하는 경우 해당 URI는 중복되는 것으로 판단한다.
일 실시예에 있어서, 중복여부 판단부(140)는 URI 획득부(120)에 의해 획득된 URI와 기 저장된 URI간에 "/"와 같은 특수문자만이 상이한 경우 두 URI는 서로 동일한 것으로 판단할 수 있다. 또한, 중복여부 판단부(140)는 URI 획득부(120)에 의해 획득된 URI가 페이지형(Page Type)인 경우, 획득된 URI와 기 저장된 URI간에 호스트 네임이 동일하면 두 URI는 동일한 것으로 판단할 수 있다. 예컨대, URI 획득부(120)에 의해 획득된 URI가 "www.dmlc.co.kr/condo386"이고, 기 저장된 URI가 "www.dmlc.co.kr"인 경우 두 URI는 서로 동일한 것으로 판단한다.
그러나, 이러한 규칙을 URI 획득부(120)에 의해 획득된 모든 URI에 대해 일괄적으로 적용한다면, 카페, 블로그, 미니홈피, 또는 클럽 등에 해당하는 URI의 경우 획득된 URI들의 호스트 네임이 모두 동일할 수 있어 실제로는 상이한 URI임에 불구하고 모두 동일한 것으로 판단될 수 있다. 예컨대, URI 획득부(120)에 의해 획득된 URI가 "blog.naver.com/broadseo"이고 기 저장된 URI가 "blog.naver.com/jhoh"인 경우 실제로 두 URI는 상이함에도 불구하고, 중복여부 판단부(140)는 두 URI의 호스트 네임이 동일하므로 두 URI가 동일한 것으로 판단하게 된다. 따라서, 이러한 규칙은, 획득된 URI가 카페, 블로그, 미니홈피, 또는 클럽과 같은 경우에는 적용하지 않는 것이 바람직하다.
다음으로, 정보 조직화부(150)는 정보 수집부(130)에 의해 수집된 웹사이트 정보를 조직화하여 저장하는 것으로서, 구체적으로, 정보 조직화부(150)는 정보 수집부(130)에 의해 수집된 웹사이트 정보를 이용하여 해당 웹사이트의 제목, 정보 제공자, 중요 태그, 및 그룹 중 적어도 하나를 결정함으로써 수집된 웹사이트 정보 를 조직화한다.
일 실시예에 있어서, 정보 조직화부(150)는 수집된 웹사이트 정보의 타이틀 태그에 포함된 내용 또는 수집된 웹사이트 정보에 포함된 문구들 중 출현횟수가 가장 높은 문구를 해당 웹사이트의 제목으로 결정할 수 있다. 또한, 정보 조직화부(150)는 수집된 웹사이트 정보의 카피라이터에 해당하는 내용 또는 해당 컨텐츠의 제공자를 해당 웹사이트의 정보 제공자로 결정할 수 있다. 여기서, 웹사이트 정보에 포함된 문구란 웹사이트 정보에 포함된 단어일 수 있는데, 특히 단어 중 그 품사가 명사인 단어일 수 있다. 또한, 이에 한정되지 않고 웹사이트 정보에 포함된 문구란 2개의 단어가 결합된 형태의 문구이거나 조사 등이 결합되어 있는 형태의 단어일 수도 있을 것이다.
또한, 정보 조직화부(150)는 수집된 웹사이트 정보의 키워드 태그 또는 수집된 웹사이트 정보에 포함된 문구들 중 출현횟수 순위가 상위 N 번째, 예컨대 10번째 이내의 문구들을 해당 웹사이트의 중요 태그로 결정할 수 있다. 또한, 정보 조직화부(150)는 기 저장된 그룹들 중 상술한 과정에 따라 결정된 중요 태그와 일치도가 임계치 이상인 중요 태그들을 가지는 그룹을 해당 웹사이트가 포함될 그룹으로 결정할 수 있다.
이때, 웹사이트가 해당 그룹에 포함됨에 따라 새롭게 그룹 명을 변경하거나 그룹의 중요 태그를 변경할 수 있는데, 그룹 명은 해당 그룹에 포함된 각 웹사이트 정보들에 포함된 문구들 중 출현횟수가 가장 많은 문구로 결정할 수 있으며, 그룹의 중요 태그는 해당 그룹에 포함된 각 웹사이트 정보들에 포함된 모든 문구들 중 출현횟수 순위가 상위 N 번째 이내의 문구들로 결정할 수 있을 것이다.
정보 조직화부(150)는 상술한 과정에 따라 결정된 웹사이트 정보의 제목, 정보 제공자, 중요 태그, 및 그룹을 해당 웹사이트의 URI와 함께 검색 데이터베이스에 저장할 수 있다.
이하에서는, 도 3을 참조하여 본 발명에 따른 검색 데이터베이스 관리 방법을 설명한다. 도 3은 본 발명의 일 실시예에 따른 검색 데이터베이스 관리 방법을 보여주는 플로우차트이다.
먼저, 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득한다(S300). 여기서, 컨텐츠라 함은 뉴스, 블로그, 또는 카페 등과 같이 인터넷 상에서 유통되는 모든 웹문서들을 포함하는 개념으로서, 뉴스와 같은 컨텐츠로부터는 시기적으로 유효한 URI를 획득할 수 있고, 블로그나 카페 등과 같은 컨텐츠로부터는 전문적인 URI를 획득할 수 있게 된다.
이하에서는 소정 컨텐츠 본문으로부터 URI를 획득하는 과정에 대해 도 4를 참조하여 보다 구체적으로 설명한다. 먼저, 소정 컨텐츠의 본문에 포함된 내용을 어절 단위로 구분한 후(S400), 각 어절들 중 URI로 인지되는 문자열이 포함되어 있는 어절을 검색한다(S410).
일 실시예에 있어서, URI로 인지되는 문자열은"http://"로 시작되는 문자열 또는 "www."로 시작되는 문자열이거나, "http://"로 시작되는 문자열 또는 "www."로 시작되는 문자열이 아니더라도, URI를 지칭하는 단어들이 포함되어 있는 어절과 일정 거리 전후에 위치하는 어절들 중 영문이나 한글로 시작하면서 "."과 같은 특 수문자가 1개 이상 포함되어 있는 문자열일 수 있다. 여기서, URI를 지칭하는 단어란 "홈페이지", "사이트", "site", "블로그", "미니홈피", "카페", "클럽", "URL", "인터넷 주소"등과 같은 단어일 수 있다. 이때, 영문이나 한글로 시작하면서 "."과 같은 특수문자가 1개 이상 포함되어 있는 문자열들 중 "."과 같은 특수문자가 1개이면서 "."과 같은 특수문자로 종결되는 문자열은 URI가 아니라 단순히 종결되는 문장을 나타내는 것일 수 있으므로 URI로 인지되는 문자열에서 제외하는 것이 바람직하다.
이후, 각 어절들 중 URI로 인지되는 문자열이 포함되어 있는 어절로부터 URI를 추출한다(S420). 일 실시예에 있어서, URI로 인지되는 문자열을 포함하는 어절로부터 URI를 추출함에 있어서, URI로 인지되는 문자열 중 호스트 네임과 같은 유효한 URI만을 추출할 수 있다. 즉, URI로 인지되는 문자열 내에서"http://"또는 "www."과 같은 시작점부터 URI의 표현에 이용되는 특수문자들로 구성된 제1 문자 그룹에 포함된 문자 이전까지의 문자열을 URI로 추출하는 것이다. 변형된 실시예에 있어서는, 시작점부터 한글 또는 영문까지의 문자열만을 URI로 추출할 수도 있을 것이다.
마지막으로, 상술한 과정을 통해 추출된 URI의 유효성을 판단한다(S420). 일 실시예에 있어서 URI의 유효성을 판단함에 있어서, 추출된 URI가 한글로 시작하는 경우 추출된 URI 내에서 한글과 영문이 "한글.영문"과 같이 "."으로 연결되어 있지 않은 형태의 URI, 추출된 URI 내에 "."과 같은 특수문자가 포함되어 있지 않은 URI, 또는 접속이 불능인 URI는 유효하지 않은 URI로 판단할 수 있다.
이와 같이, 본 발명에서는 소정 컨텐츠 내에서 하이퍼링크가 설정되어 있는 앵커 태그 또는 링크 태그를 이용해서 해당 컨텐츠로부터 URI를 추출하는 것이 아니라, 해당 컨텐츠의 본문을 구성하는 텍스트로부터 직접 URI를 추출함으로써 해당 컨텐츠로부터 보다 다양한 URI를 추출할 수 있다.
다시 도 3을 참조하면, S300에서, 사용자 단말로부터 URI를 획득하는 경우, 사용자 단말의 웹브라우저에 저장되어 있는 북 마크 정보 또는 웹브라우저를 통해 입력된 URL로부터 URI를 획득하게 된다. 이때, 북 마크 정보는 북 마크된 웹사이트의 제목 및 북 마크된 웹사이트의 URL을 포함하는 것으로서, 이러한 북 마크 정보는 웹브라우저에 저장되어 있는 북 마크 정보의 변동이 발생할 때마다 획득할 수 있다.
또한, 사용자 단말의 웹브라우저에 입력되는 URL은 웹브라우저가 최초로 활성화된 이후에 직접 입력된 URL, 특정 웹사이트를 방문한 이후 웹브라우저에 직접 입력된 URL, 또는 특정 웹사이트로 유입되기 직전에 입력된 URL을 포함할 수 있다. 이때, 특정 웹사이트란 예컨대, 검색 서비스를 제공하는 웹사이트일 수 있다.
이후, S300에서 획득된 URI가 검색 데이터베이스에 기 저장된 URI와 동일한지 여부를 판단함으로써 획득된 URI의 중복 여부를 판단한다(S310). 일 실시예에 있어서, 획득된 URI와 기 저장된 URI간에 "/"와 같은 특수문자만이 상이한 경우 두 URI는 서로 동일한 것으로 판단하거나, 획득된 URI가 페이지형인 경우 획득된 URI와 기 저장된 URI간에 호스트 네임이 동일하면 두 URI는 동일한 것으로 판단할 수 있다. 그러나, 상술한 바와 같이, 호스트 네임이 동일한 경우 동일한 URI로 판단 한다는 규칙은 카페, 블로그, 미니홈피, 또는 클럽 등에 해당하는 URI에 대해서는 적용하지 않는 것이 바람직하다.
본 발명은 상술한 URI의 중복여부 판단 과정을 수행하지 않고 획득된 모든 URI에 대해 후술할 정보 수집 과정을 수행할 수 있으므로, 이러한 URI 중복여부 판단 과정은 선택적으로 포함될 수 있을 것이다.
다음으로, 획득된 URI가 중복되지 않은 것으로 판단되는 경우, 획득된 URI에 상응하는 웹사이트에 직접 방문함으로써 해당 웹사이트에 대한 정보를 수집한다(S320). 일 실시예에 있어서, 해당 웹사이트에 대한 정보로 해당 웹사이트에 포함된 HTML 문서, 이미지, 또는 텍스트 등을 수집할 수 있다.
이후, S320에서 수집된 웹사이트의 정보를 조직화한다(S330). 일 실시예에 있어서, 수집된 웹사이트 정보의 조직화란 수집된 웹사이트의 정보로부터 웹사이트의 제목, 정보 제공자, 중요 태그, 및 그룹 중 적어도 하나를 결정하는 것을 의미한다.
여기서, 웹사이트의 제목은 수집된 웹사이트 정보의 타이틀 태그에 포함된 내용 또는 수집된 웹사이트 정보에 포함된 문구들 중 출현횟수가 가장 높은 문구로 결정할 수 있고, 웹사이트의 정보 제공자는 수집된 웹사이트 정보 중 카피라이터에 해당하는 내용 또는 해당 컨텐츠의 제공자로 결정할 수 있다. 여기서, 웹사이트 정보에 포함된 문구란 웹사이트 정보에 포함된 단어일 수 있는데, 특히 단어 중 그 품사가 명사인 단어일 수 있다. 또한, 이에 한정되지 않고 웹사이트 정보에 포함된 문구란 2개의 단어가 결합된 형태의 문구이거나 조사 등이 결합되어 있는 형태 의 단어일 수도 있을 것이다.
또한, 웹사이트의 중요 태그는 수집된 웹사이트 정보의 키워드 태그 또는 수집된 웹사이트 정보에 포함된 문구들 중 출현횟수 순위가 상위 N 번째, 예컨대 10번째 이내의 문구들로 결정할 수 있고, 웹사이트의 그룹은 기 저장된 그룹들 중 중요 태그와 일치도가 임계치 이상인 중요 태그들을 가지는 그룹으로 결정할 수 있다.
이때, 해당 웹사이트가 특정 그룹에 포함됨에 따라 새롭게 그룹 명을 변경하거나 그룹의 중요 태그를 변경할 수 있는데, 그룹 명은 해당 그룹에 포함된 각 웹사이트 정보에 포함된 문구들 중 출현횟수가 가장 많은 문구로 결정할 수 있으며, 그룹의 중요 태그는 해당 그룹에 포함된 각 웹사이트 정보들에 포함된 모든 문구들 중 출현횟수 순위가 상위 N 번째 이내의 문구들로 결정할 수 있을 것이다.
마지막으로, S330에서 결정된 웹사이트의 제목, 정보 제공자, 중요 태그, 및 그룹 중 적어도 하나를 해당 웹사이트의 URI와 함께 검색 데이터베이스에 저장한다(S340).
한편, S310에서 획득된 URI가 중복되는 것으로 판단되면, 획득된 다른 URI에 대해서 중복여부를 판단하고, 더 이상 판단할 URI가 존재하지 않는 경우 절차를 종료한다.
상술한 검색 데이터베이스 관리 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
한편, 본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명의 일 실시예에 따른 검색 데이터베이스 관리 장치의 개략적인 블록도.
도 2는 도 1에 도시된 URI 획득부가 컨텐츠의 본문으로부터 URI를 획득하는 예를 보여주는 도면.
도 3은 본 발명의 일 실시예에 따른 검색 데이터베이스 관리 방법을 보여주는 플로우차트.
도 4는 컨텐츠 본문으로부터 URI를 획득하는 세부 절차를 보여주는 플로우차트.
<도면의 주요 부분에 대한 부호의 설명>
100: 검색 데이터베이스 관리 장치 120: URI 획득부
130: 정보 수집부 140: 중복여부 판단부
150: 정보 조직화부

Claims (31)

  1. 삭제
  2. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI(Uniform Resource Identifier)를 획득하는 단계;
    상기 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및
    상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계
    를 포함하고,
    상기 URI를 상기 소정 컨텐츠 본문으로부터 획득하는 경우 상기 URI 획득단계는,
    상기 소정 컨텐츠 본문에 포함된 내용을 어절 단위로 구분하는 단계; 및
    상기 각 어절들 중 URI로 인지되는 문자열이 포함되어 있는 제1 어절로부터 상기 URI를 추출하는 단계를 포함하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  3. 제2항에 있어서,
    상기 URI 추출 단계에서, 상기 URI로 인지되는 문자열은 http:// 또는 www.을 포함하는 제1 문자열로 시작되는 문자열인 것을 특징으로 하는 검색 데이터베이 스 관리 방법.
  4. 제3항에 있어서,
    상기 추출 단계에서, 상기 제1 어절에 포함된 URI로 인지되는 문자열 내에서, 상기 제1 문자열부터 제1 문자 그룹에 포함된 문자 이전까지의 문자열 또는 상기 제1 문자열부터 영어나 한글까지의 문자열을 상기 URI로 추출하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  5. 제4항에 있어서,
    상기 제1 문자 그룹은 URI의 표현에 이용되는 특수문자들로 구성되는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  6. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 단계;
    상기 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및
    상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계
    를 포함하고,
    상기 URI를 상기 소정 컨텐츠 본문으로부터 획득하는 경우 상기 URI 획득단계는,
    상기 소정 컨텐츠 본문에 포함된 내용을 어절 단위로 구분하는 단계; 및
    상기 각 어절들 중 URI를 지칭하는 단어가 포함된 제1 어절과 일정 거리 전후에 위치한 제2 어절 내에서, 영문 또는 한글로 시작하되 제1 특수문자가 소정 개수 이상 포함된 문자열을 상기 URI로 추출하는 단계를 포함하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  7. 제6항에 있어서,
    상기 추출단계에서, 상기 제1 특수문자가 한 개 이면서 상기 문자열이 상기 제1 특수문자로 종결되는 문자열은 추출 대상 URI에서 배제하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  8. 삭제
  9. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 단계;
    상기 URI의 유효성을 판단하는 단계;
    상기 URI 중 유효한 것으로 판단된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및
    상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계
    를 포함하고,
    상기 유효성 판단 단계에서, 상기 URI가 한글로 시작하는 경우 상기 URI 내에서 한글과 영문이 제1 특수문자로 연결되어 있지 않은 형태의 URI, 상기 URI 내에서 상기 제1 특수문자가 포함되어 있지 않은 형태의 URI, 또는 접속 불능인 URI는 유효하지 않은 것으로 판단하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  10. 삭제
  11. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 단계;
    상기 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및
    상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계
    를 포함하고,
    상기 URI를 상기 사용자 단말로부터 획득하는 경우 상기 URI 획득단계에서, 상기 URI는 상기 사용자 단말의 웹브라우저에 저장되어 있는 북 마크 정보 또는 상기 웹브라우저를 통해 입력된 URL(Uniform Resource Locator)로부터 획득하고,
    상기 북 마크 정보는 북 마크된 웹사이트 제목 및 상기 북 마크된 웹사이트의 URL 주소 중 적어도 하나를 포함하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  12. 제11항에 있어서,
    상기 북 마크 정보는 상기 북 마크 정보에 대한 변경이 발생할 때마다 상기 사용자 단말로부터 획득되는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  13. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 단계;
    상기 획득된 URI와 검색 데이터베이스에 기 저장된 URI와의 중복 여부를 판단하는 단계;
    중복되지 않는 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및
    상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계
    를 포함하는 검색 데이터베이스 관리 방법.
  14. 제13항에 있어서,
    상기 중복 여부 판단 단계에서, 상기 URI가 페이지(Page)형인 경우, 상기 URI에 포함된 호스트(Host) 명칭이 상기 기 저장된 URI에 포함된 호스트 명칭과 동일한 경우 상기 URI는 중복되는 것으로 판단하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  15. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 단계;
    상기 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 단계; 및
    상기 수집된 웹사이트 정보를 조직화하여 저장하는 단계
    를 포함하고,
    상기 수집된 웹사이트 정보의 조직화 및 저장단계에서, 상기 수집된 웹사이트 정보를 이용하여 상기 웹사이트의 제목, 정보 제공자, 중요 태그, 및 그룹 중 적어도 하나를 결정함으로써 상기 수집된 웹사이트 정보를 조직화하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  16. 제15항에 있어서,
    상기 정보 결정 단계에서, 상기 제목은 수집된 웹사이트 정보의 타이틀 태그에 포함된 내용 또는 상기 수집된 웹사이트 정보에 포함된 문구 중 출현횟수가 가장 높은 문구로 결정하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  17. 제15항에 있어서,
    상기 정보 결정 단계에서, 상기 정보 제공자는 상기 수집된 웹사이트 정보의 카피라이터에 해당하는 내용 또는 상기 컨텐츠 제공자로 결정하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  18. 제15항에 있어서,
    상기 정보 결정 단계에서, 상기 중요 태그는 상기 수집된 웹사이트 정보의 키워드 태그 또는 상기 수집된 웹사이트 정보에 포함된 문구 중 출현횟수 순위가 상위 N번째 이내인 문구로 결정하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  19. 제15항에 있어서,
    상기 정보 결정 단계에서, 상기 그룹은 기 저장된 그룹들 중 상기 결정된 중요 태그와의 일치도가 임계치 이상인 중요 태그를 가지는 그룹으로 결정하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  20. 제19항에 있어서,
    상기 웹사이트의 그룹이 결정되면, 상기 그룹의 그룹 명을 상기 웹사이트의 중요 태그 및 상기 그룹의 중요 태그를 이용하여 갱신하는 것을 특징으로 하는 검색 데이터베이스 관리 방법.
  21. 제2항 내지 제7항, 제9항, 제11항 내지 제20항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 기록매체.
  22. 삭제
  23. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 URI 획득부;
    상기 URI 획득부에 의해 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 정보 수집부; 및
    상기 정보 수집부에 의해 수집된 웹사이트 정보를 조직화하여 저장하는 정보 조직화부
    를 포함하고,
    상기 URI를 상기 소정 컨텐츠 본문으로부터 획득하는 경우 상기 URI 획득부는,
    상기 소정 컨텐츠의 본문에 포함된 내용을 어절 단위로 구분하고, 상기 각 어절들 중 URI로 인지되는 문자열이 포함되어 있는 어절로부터 상기 URI를 추출하는 URI 파서; 및
    상기 추출된 URI의 유효성을 판단하는 유효성 판단부를 포함하는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  24. 제23항에 있어서,
    상기 URI로 인지되는 문자열은 http:// 또는 www.을 포함하는 제1 문자열로 시작하는 문자열이거나, 영문 또는 한글로 시작하되 제1 특수문자가 소정 개수 이상 포함된 문자열인 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  25. 제24항에 있어서,
    상기 URI 파서는, 상기 URI로 인지되는 문자열 내에서, 상기 제1 문자열부터 URI의 표현에 이용되는 특수문자들로 구성되는 제1 문자 그룹에 포함된 문자 이전까지의 문자열 또는 상기 제1 문자열부터 영어나 한글까지의 문자열을 상기 URI로 추출하는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  26. 제24항에 있어서,
    상기 URI로 인지되는 문자열 중, 상기 제1 특수문자가 한 개 이면서 상기 문자열이 상기 제1 특수문자로 종결되는 문자열은 상기 URI로 인지되는 문자열에서 제외시키는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  27. 제23항에 있어서,
    상기 유효성 판단부는, 상기 URI가 한글로 시작하는 경우 상기 URI 내에서 한글과 영문이 제1 특수문자로 연결되어 있지 않은 형태의 URI, 상기 URI 내에서 상기 제1 특수문자가 포함되어 있지 않은 형태의 URI, 또는 접속 불능인 URI는 유효하지 않은 것으로 판단하는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  28. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 URI 획득부;
    상기 URI 획득부에 의해 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 정보 수집부; 및
    상기 정보 수집부에 의해 수집된 웹사이트 정보를 조직화하여 저장하는 정보 조직화부
    를 포함하고,
    상기 URI를 상기 사용자 단말로부터 획득하는 경우 상기 URI 획득부는, 상기 사용자 단말의 웹브라우저에 저장되어 있는 북 마크 정보 또는 상기 웹브라우저를 통해 입력된 URL(Uniform Resource Locator)로부터 상기 URI를 획득하고,
    상기 북 마크 정보는 북 마크된 웹사이트 제목 및 상기 북 마크된 웹사이트의 URL 주소 중 적어도 하나를 포함하는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  29. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 URI 획득부;
    상기 URI 획득부에 의해 획득된 URI와 검색 데이터베이스에 기 저장된 URI와의 중복 여부를 판단하는 중복여부 판단부;
    상기 중복여부 판단부에 의해 판단된, 중복되지 않는 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 정보 수집부; 및
    상기 정보 수집부에 의해 수집된 웹사이트 정보를 조직화하여 저장하는 정보 조직화부
    를 포함하는 검색 데이터베이스 관리 장치.
  30. 소정 컨텐츠의 본문 및 사용자 단말 중 적어도 하나로부터 URI를 획득하는 URI 획득부;
    상기 URI 획득부에 의해 획득된 URI에 상응하는 웹사이트를 방문하여 상기 웹사이트의 정보를 수집하는 정보 수집부; 및
    상기 정보 수집부에 의해 수집된 웹사이트 정보를 조직화하여 저장하는 정보 조직화부
    를 포함하고,
    상기 정보 조직화부는, 상기 수집된 웹사이트 정보를 이용하여 상기 웹사이트의 제목, 정보 제공자, 중요 태그, 및 그룹 중 적어도 하나를 결정함으로써 상기 수집된 웹사이트 정보를 조직화하는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
  31. 제30항에 있어서,
    상기 정보 조직화부는, 상기 제목은 수집된 웹사이트 정보의 타이틀 태그에 포함된 내용 또는 상기 수집된 웹사이트 정보에 포함된 문구 중 출현횟수가 가장 높은 문구로 결정하고, 상기 정보 제공자는 상기 수집된 웹사이트 정보의 카피라이터에 해당하는 내용 또는 상기 컨텐츠 제공자로 결정하며, 상기 중요 태그는 상기 수집된 웹사이트 정보의 키워드 태그 또는 상기 수집된 웹사이트 정보에 포함된 문구 중 출현횟수 순위가 상위 N번째 이내인 문구로 결정하고, 상기 그룹은 기 저장된 그룹들 중 상기 결정된 중요 태그와의 일치도가 임계치 이상인 중요 태그를 가지는 그룹으로 결정하는 것을 특징으로 하는 검색 데이터베이스 관리 장치.
KR1020080096713A 2008-10-01 2008-10-01 검색 데이터베이스 관리 방법 및 장치 KR101074578B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080096713A KR101074578B1 (ko) 2008-10-01 2008-10-01 검색 데이터베이스 관리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080096713A KR101074578B1 (ko) 2008-10-01 2008-10-01 검색 데이터베이스 관리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100037401A KR20100037401A (ko) 2010-04-09
KR101074578B1 true KR101074578B1 (ko) 2011-10-17

Family

ID=42214617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080096713A KR101074578B1 (ko) 2008-10-01 2008-10-01 검색 데이터베이스 관리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101074578B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220050885A1 (en) * 2018-11-26 2022-02-17 Jun Kim Favorites management and information search service providing system and favorites management and information search service providing method using same

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013162264A1 (ko) * 2012-04-23 2013-10-31 줌인터넷 주식회사 패킷미러링을 이용한 객체 수집 방법 및 시스템
KR101531327B1 (ko) * 2012-04-23 2015-06-24 줌인터넷 주식회사 패킷미러링을 이용한 검색대상 랭크 결정 방법 및 시스템
US10169802B2 (en) 2012-07-25 2019-01-01 Indix Corporation Data refining engine for high performance analysis system and method
WO2014018780A1 (en) * 2012-07-25 2014-01-30 Indix Corporation Adaptive gathering of structured and unstructured data system and method
US11922475B1 (en) 2013-07-25 2024-03-05 Avalara, Inc. Summarization and personalization of big data method and apparatus
KR102047233B1 (ko) 2018-10-22 2019-11-21 강릉원주대학교산학협력단 이중 부하 분산을 이용한 메타데이터 검색 시스템 및 이중 부하 분산을 통한 데이터베이스 관리 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004509380A (ja) 2000-05-18 2004-03-25 ヨードリー・コム・インコーポレイテツド ネットワークベースのブックマーク管理およびweb要約システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004509380A (ja) 2000-05-18 2004-03-25 ヨードリー・コム・インコーポレイテツド ネットワークベースのブックマーク管理およびweb要約システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220050885A1 (en) * 2018-11-26 2022-02-17 Jun Kim Favorites management and information search service providing system and favorites management and information search service providing method using same

Also Published As

Publication number Publication date
KR20100037401A (ko) 2010-04-09

Similar Documents

Publication Publication Date Title
US10592515B2 (en) Surfacing applications based on browsing activity
US8001135B2 (en) Search support apparatus, computer program product, and search support system
JP4936401B2 (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
US6449636B1 (en) System and method for creating a dynamic data file from collected and filtered web pages
KR101074578B1 (ko) 검색 데이터베이스 관리 방법 및 장치
CN101019119B (zh) 基于名称的url输入
US6381597B1 (en) Electronic shopping agent which is capable of operating with vendor sites which have disparate formats
KR20090006464A (ko) 사용자 맞춤형 컨텐츠 제공 장치, 그 방법 및 기록매체
KR101103766B1 (ko) 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체
CN101004762A (zh) 一种动态多维互联网网页系统
WO2008091095A1 (en) Apparatus and method for integration search of web site
CN102306201B (zh) 一种网页标题分析的方法和系统
JP5415273B2 (ja) Url入力による広告キーワード推薦方法およびそのシステム
CN102819384A (zh) 一种输入栏处进行提示显示的方法和装置
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
KR20070082075A (ko) 질의어 및 콘텐츠 분류 기반 템플릿을 이용한 검색결과제공방법 및 그 장치
CN105787032B (zh) 网页快照的生成方法及装置
CN104504070B (zh) 一种搜索的方法和装置
KR100851042B1 (ko) 확장 광고 키워드를 추천하는 방법 및 그 시스템
Matosevic Using anchor text to improve web page title in process of search engine optimization
KR100931693B1 (ko) 키워드 검색 방법
CN104504069A (zh) 一种文档索引的建立方法和装置
JP3604069B2 (ja) 文書間関連度計算装置、その方法およびその記録媒体
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
Matošević Using anchor text to improve web page title in process of search engine optimization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151008

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161010

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171011

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181008

Year of fee payment: 8