KR100496384B1 - 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체 - Google Patents

검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체 Download PDF

Info

Publication number
KR100496384B1
KR100496384B1 KR10-2002-7006827A KR20027006827A KR100496384B1 KR 100496384 B1 KR100496384 B1 KR 100496384B1 KR 20027006827 A KR20027006827 A KR 20027006827A KR 100496384 B1 KR100496384 B1 KR 100496384B1
Authority
KR
South Korea
Prior art keywords
page
update date
index page
database
index
Prior art date
Application number
KR10-2002-7006827A
Other languages
English (en)
Other versions
KR20020070293A (ko
Inventor
미즈타니모토하루
Original Assignee
가부시끼가이샤 도시바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시끼가이샤 도시바 filed Critical 가부시끼가이샤 도시바
Publication of KR20020070293A publication Critical patent/KR20020070293A/ko
Application granted granted Critical
Publication of KR100496384B1 publication Critical patent/KR100496384B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

순회로보트(3)가 취득한 인덱스 페이지의 갱신일을 링크처의 갱신일과 비교하여, 링크처의 쪽이 새로운 경우에는 인덱스 페이지의 갱신일을 링크처의 페이지의 갱신일로 치환한다. 순회로보트가 추출한 인덱스 페이지의 키워드에 링크처의 페이지로부터 추출한 키워드를 추가한다.

Description

검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체{SEARCH ENGINE, SEARCH SYSTEM, METHOD FOR MAKING A DATABASE IN A SEARCH SYSTEM, AND RECORDING MEDIA}
본 발명은 네트워크상에 분산된 데이터를 검색하는 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기록매체에 관한 것이다.
알타비스타(Altavista)(http://www.altavista.com/), 라이코스(Lycos)(http: //www.lycos.com/), 야후(Yahoo!)(http://www.yahoo.com/)등 로보트를 이용한 네트워크상의 검색엔진은 다수 존재한다. 이들은 로보트로 칭해지는 기계적으로 네트워크상에서 정보를 수집하는 소프트웨어를 이용하고 있다. 그리고, 수집한 데이터를 데이터베이스화[페이지 정보에 대해 형태소해석(形態素解析; morphological analysis)을 수행하고, 인덱스 테이블을 작성하여 데이터베이스에 격납하는 것]하여, 이용자가 검색할 수 있도록 하고 있다.
상기 로보트는 네트워크상에서 HTML(Hyper Text Markup Language)로 기술된 문장을 탐색하고, 거기에 기재되어 있는 링크처를 찾아 가서, 네트워크상에 존재하는 데이터를 수집한다. 데이터베이스화에 대해서는 풀텍스트 검색을 하는 것도 있지만, 타이틀이나 URL이라는 부분만을 검색대상으로 하는 것과 같은 것도 있다.
상기 데이터베이스는 양이 많으므로 분산화되어 있는 경우도 있다. 그러나, 어디까지나 양이 많기 때문에 단순한 분할이고, 어떠한 의미를 갖고 분할하고 있는 것은 아니다.
상기 검색에서는 키워드검색이 수행된다. 즉, 찾고 싶은 문장에 포함되어 있을 어(語)를 입력하여 검색을 수행한다.
한편, 인기가 있는 사이트에 대한 억세스 집중을 분산시켜 트래픽을 경감시키기 위해 미러사이트가 설치되는 것이 있다. 예컨대, Point Cast Network(PCN)사의 I-Server(http://www.pointcast.com/products/iserver.html)에서는 PCN 본사로 정기적으로 정보를 프리페치하여 미러사이트를 관리하고 있다.
종래, 네트워크상에서 분산된 데이터의 검색엔진에 있어서는 다음과 같은 문제점이 있었다.
(1) 증대하는 데이터를 취급하는 것이 곤란하게 되고 있다.
예컨대, WWW(World Wide Web)상의 페이지 데이터가 1996년에 세계에 4000만 이상 있는 것으로 말해지고 있고, 금후도 지수함수적으로 증가하는 것으로 예상된다. 현재, 페이지수도, 1페이지당 데이터양도 급격하게 증대하는 경향에 있다.
이와 같이 급증하는 데이터를 단순하게 양에 의해 분할하는 것 만으로는 데이터베이스 관리가 극히 곤란하다.
(2) 갱신빈도가 낮은 정보는 억세스가 적은 경향이 있다. 갱신빈도가 낮은 페이지는 일반적으로 정보가 오래되어, 억세스가 적은 경향이 있다. 이 때문에, 갱신빈도가 높은 페이지를 우선적으로 표시하는 검색시스템이 유효하다.
(3) 종래 검색엔진에 도메인, 또는 URL을 등록하면, 로보트가 도메인 또는 URL을 순회하고, 순회에 의해 추출된 파일로부터 그 검색 키워드를 추출하면 동시에 갱신일을 취득한다. 그리고, 취득한 갱신일에 따라 파일의 새로움을 판단하여, 검색결과의 표시에 우선도를 부여한다.
그러나, 프레임태그에 의해 구성된 인덱스 페이지의 경우, 각 프레임에서 링크되는 페이지가 갱신되어도 인덱스 페이지가 갱신되지 않는 한, 갱신일이 예전인 채로 되어 버려, 검색결과와 내용이 일치되지 않는다는 문제가 있다. 또한, 갱신빈도가 낮은 페이지를 검색대상으로부터 제외하는 시스템의 경우, 프레임 대응의 페이지가 특별히 불리하게 취급되어 버린다는 문제가 있다.
도 1은 본 발명의 1실시형태에 있어서 검색엔진의 구성예를 나타낸 도면,
도 2는 인덱스 페이지의 구성을 나타낸 도면,
도 3은 본 발명의 1실시형태의 동작을 나타낸 플로우차트,
도 4는 순회로보트, 웹서버 및, 유저의 각각의 동작을 나타낸 플로우차트,
도 5는 등록하는 도메인 또는 URL을 입력하는 화면예를 나타낸 도면,
도 6은 등록한 URL의 화면예를 나타낸 도면,
도 7은 키워드를 입력하는 경우의 화면예를 나타낸 도면,
도 8은 검색엔진에 의한 검색결과의 화면예를 나타낸 도면이다.
본 발명은 상기한 점을 감안하여 발명된 것으로, 데이터베이스화된 네트워크상에 산재하는 팽대된 검색대상 데이터의 갱신일자를 링크처의 페이지의 갱신일자의 최신의 갱신일자로 변경하는 것에 의해 정확한 갱신빈도정보를 얻을 수 있는 검색엔진, 검색시스템, 검색시스템에 있어서 데이터베이스 작성방법 및, 기억매체를 제공함에 그 목적이 있다.
또한 본 발명은, 데이터베이스화된 인덱스 페이지의 키워드에 링크처의 페이지의 키워드를 취득해서, 추가하는 것이 가능한 검색엔진, 검색시스템, 검색시스템에 있어서 데이터베이스 작성방법 및, 기억매체를 제공함에 다른 목적이 있다.
상기 목적을 달성하기 위한 본 발명에 따른 검색엔진은, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득하여, 그 중 최신 갱신일을 인덱스 페이지의 갱신일로 하는 순회로보트를 구비하여 구성된다.
또한 본 발명에 따른 검색엔진은, 네트워크상의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인 및 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지와, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하여, 이 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 순회로보트를 구비하여 구성된다.
또한 본 발명에 따른 검색시스템은, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득하여, 그 중 최신 갱신일을 인덱스 페이지의 갱신일로 하는 순회로보트 및, 지정된 키워드를 기초로 상기 데이터베이스를 검색하는 엔진을 구비하여 구성된다.
또한 본 발명의 검색시스템은, 네트워크상의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인 및 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지와, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하여, 이 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 순회로보트 및, 지정된 키워드를 기초로 상기 데이터베이스를 검색하는 검색엔진을 구비하여 구성된다.
또한 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스 작성방법에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지에서 갱신일을 취득하고, 상기 취득한 갱신일중 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 것을 특징으로 한다.
또한 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스 작성방법에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 것과, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하고, 상기 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 것을 특징으로 한다.
또한 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스를 컴퓨터에서 작성시키기 위한 프로그램을 갖춘 기억매체에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득시키는 수순과, 상기 취득한 갱신일중 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 수순을 컴퓨터에서 실행시키기 위한 프로그램이 기억된다.
또한, 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스를 컴퓨터에서 작성시키기 위한 프로그램을 갖춘 기억매체에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지와, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하는 수순과, 상기 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 수순을 컴퓨터에서 실행시키기 위한 프로그램이 기억된다.
또한, 데이터베이스의 순회는 인덱스 페이지와 동일 도메인을 대상으로 한다.
또한, 인덱스 페이지 및 링크처의 페이지는 프레임태그에 의해 구성되고, 상기 프레임내 페이지의 최신의 갱신일이 인덱스 페이지의 갱신일로서 설정된다.
본 발명에 의하면, 순회로보트가 취득한 인덱스 페이지의 갱신일을 링크처의 페이지의 갱신일과 비교하고, 링크처의 페이지의 갱신일의 쪽이 새로운 경우는 인덱스 페이지의 갱신일을 링크처의 페이지의 갱신일로 치환한다.
또한, 순회로보트가 추출한 인덱스 페이지의 키워드에 링크처의 페이지로부터 추출한 키워드를 추가한다.
또한, 이상의 각 장치에 관한 발명은 방법에 관한 설명으로서도 성립한다.
또한 상기 발명은 상당하는 수순 또는 수단을 컴퓨터에서 실행시키기 위한 프로그램을 기억한 기계판독 가능한 매체로서도 성립한다.
플래쉬아이등의 로보트 순회형 검색엔진의 경우, 프레임 대응의 페이지에 대해서는 인덱스 페이지가 갱신되지 않고서 주로 프레임 마다 링크되는 페이지가 갱신되기 때문에, 갱신빈도가 극히 낮은 것으로서 취급되어 버린다. 본 발명에 의하면, 프레임 대응의 검색서비스에 있어서도 비프레임 대응의 페이지와 마찬가지의 검색기능을 얻을 수 있게 된다.
또한 데이터베이스의 효율화의 관점으로부터, 일반적으로 데이터베이스의 용량이 큰 쪽이 많은 페이지에 대해 검색 가능하게 되기 때문에, 정보량이 올라가거나 비트율도 올라간다. 그러나, 등록을 무진장으로 증가하면, 1개의 키워드에 대한 검색페이지수도 증가하기 때문에, 검색하는 쪽도 그 중으로부터 필요한 정보를 추출하는 것이 곤란하게 되어 간다. 본 발명에 의하면, 검색정보를 인덱스 페이지에 수집하는 것이 가능하기 때문에, 효율적인 검색이 가능하게 된다.
이하, 예시도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다.
먼저, 어구를 정의한다.
페이지(page)라는 것은 하이퍼텍스트의 페이지를 의미하는 것으로 한다. WWW의 세계에서 하나의 페이지는 유니크한 URL을 갖는다.
URL(Uniform Resource Locator)이라는 것은 페이지 데이터를 억세스하는데 필요한 정보이다. URL은 프로토콜, 도메인명, 포트번호, 패스명의 정보를 포함한다.
로보트(Robot)라는 것은 Hyper Text Markup Language(HTML)나 Standard Generalized Markup Languaged(SGML)과 같은 하이퍼텍스트로 기술된 문서를 읽고, 그곳에 쓰여져 있는 링크를 기계적으로 찾아감으로부터 문서를 네트워크상에서 수집하는 것으로, 소프트웨어에 의해 실현된다. 로보트 대신 스파이더(spider) 또는 원더러(Wanderer)등으로 칭해지는 것도 있다.
로보트의 기본적인 동작은 다음과 같이 된다.
(수순1) 지정된 홈페이지를 visiting list에 등록한다.
(수순2) 로보트는 visiting list에 따라 페이지를 취득한다.
(수순3) 취득된 페이지를 해석해서 URL을 추출한다.
(수순4) 추출된 URL을 visiting list에 추가한다(단, URL의 중복등록은 하지 않는다).
이후, 수순2∼4를 반복한다. 또한, 페이지의 취득빈도는 해당 페이지의 갱신빈도에 따라 결정되도록 하여도 된다.
다음에, 본 실시형태에 대해 설명한다.
본 실시형태에서는 네트워크중에 분산된 데이터의 일례로서 페이지를 취급하는 것으로 한다.
도 1은 본 발명의 검색엔진을 포함하는 검색시스템 전체의 구성도를 나타낸다. 동도에 나타낸 바와 같이, 네트워크(1)에는 웹서버(9,11), 유저PC(13), 검색서버(19) 및, 검색엔진(21)이 접속된다. 검색엔진(21)은 순회로보트(3; robot)와, 데이터베이스(5) 및, 엔진(17)으로 구성된다. 순회로보트(3)는 등록된 도메인, URL에 억세스하여, 갱신일을 취득하고, 키워드를 추출한다. 또한, 링크처의 페이지에 억세스하여, 갱신일을 취득하고, 키워드를 추출한다. 취득한 갱신일 및 추출한 키워드를 데이터베이스(5)에 등록한다. 데이터베이스는 인덱스 페이지로 이루어진 visiting list를 격납한다. 인덱스 페이지는 예컨대 도 2에 나타낸 바와 같이 URL, 키워드 및, 속성정보로 이루어지고, 속성정보는 갱신일자를 포함한다. 엔진(17)은 지정된 키워드를 기초로 데이터베이스(5)를 검색한다. 검색엔진(19)은 예컨대 Infoseek등으로 대표되는 검색서버(19)이다.
다음에, 도 3 내지 도 8을 참조하여 본 발명의 검색엔진의 동작에 대해 설명한다.
처음에, 유저는 프레임을 포함하는 홈페이지를 작성하고, 웹서버(9)(11)에 업로드하고 있는 것으로 한다.
도 3의 단계(S1)에 있어서, 유저는 도메인 또는 URL을 등록한다. 즉, 유저PC(13)의 화면상에, 예컨대 도 5에 나타낸 바와 같은 도메인 또는 URL입력화면(검색엔진의 등록화면)이 표시된다. 유저는 검색도메인 또는 URL을 입력하고, 등록보턴(15)을 선택한다. 이 결과, 도 4에 나타낸 바와 같이 순회로보트(3)는 유저에 의해 입력된 도메인 또는 URL을 데이터베이스(5)내의 visiting list에 등록한다.
다음에, 도 3의 단계(S3)에 있어서, 인덱스 페이지에 대한 억세스가 수행된다. 즉, 도 4에 나타낸 바와 같이 순회로보트(3)는 등록된 도메인 또는 URL을 웹서버(11)에 송신하고, 웹서버는 수신한 도메인 또는 URL을 기초로 인덱스 페이지를 억세스하며, 순회로보트에 송신한다.
순회로보트(3)는 웹서버(11)로부터 송신된 인덱스 페이지의 갱신일(A)을 취득한다. 다음에, 도 3의 단계(S7)에 있어서, 그 인덱스 페이지에 등록되어 있는 키워드를 추출한다.
다음에, 도 3의 단계(S9)에 있어서 링크처에 억세스한다. 즉, 도 4에 나타낸 바와 같이 순회로보트(3)는 인덱스 페이지에 포함되는 링크처 억세스를 웹서버(9)(11)에 송신한다. 웹서버(9)(11)는 링크처 억세스를 기초로 웹서버(9)(11)상의 링크처의 페이지에 억세스하여, 그 페이지를 순회로보트(3)에 송신한다. 다음에, 도 3의 단계(S11)에 있어서, 갱신일(B)을 취득한다. 즉, 도 4에 나타낸 바와 같이 순회로보트(3)는 링크처의 페이지의 갱신일(B)을 취득하고, 더욱이 키워드를 추출한다. 그리고, 도 3의 단계(S13)에 있어서, 갱신일(A와 B)의 비교를 수행하고, 단계(S15)에 있어서 갱신일을 갱신한다. 즉, 도 4에 나타낸 바와 같이 인덱스 페이지의 갱신일(A) 보다도 링크처 페이지의 갱신일(B)의 쪽이 큰(날자가 새로운) 경우에는 인덱스 페이지의 갱신일을 B로 한다. 그리고, 도 3의 단계(S17)에 있어서, 키워드를 추출하고, 단계(S19)에 있어서 인덱스 페이지의 키워드에 추가한다. 그리고, 단계(S21)에 있어서 순회가 종료되었는가의 여부를 판단한다. 순회가 종료되지 않았다면, 단계(S9)로 되돌아가서, 단계(S9 내지 S21)를 재차 반복하여 실행한다.
한편, 단계(S21)에 있어서, 순회를 종료한 것으로 판단하면, 단계(S23)에 있어서 순회로보트(3)는 얻어진 갱신일과 키워드를 데이터베이스(5)에 등록한다.
도 6은 순회로보트(3)가 프레임내의 페이지의 최신 갱신일을 인덱스 페이지의 갱신일로 하는 일례를 나타낸 도면이다. 즉, 도 5에 나타낸 도메인 또는 URL의 등록화면을 이용해서 유저에 의해, 예컨대 www.domain.com/index.html이 등록된 것으로 한다. 또한, 현재의 인덱스 페이지의 갱신날자는 2000년 3월 14일인 것으로 한다. 그리고, 프레임이 2000년 2월 14일의 갱신날자를 갖는 title.html의 링크처 페이지와, 2000년 8월 1일의 갱신날자를 갖는 menu.html의 링크처 페이지 및, 2000년 8월 8일의 갱신날자를 갖는 welcom.html의 링크처 페이지로 구성되어 있는 것으로 한다. 순회로보트(3)는 이들 링크처 페이지의 갱신날자를 취득하고, 그들의 갱신날자를 비교하여, 가장 새로운 갱신날자인 2000년 8월 8일을 인덱스 페이지의 갱신날자로서 설정한다.
또한, 유저가 검색을 수행하는 경우에는, 예컨대 검색서버(19)의 페이지(예컨대, 플래시아이나 Infoseek등에 의해 제공되는 홈페이지등)에 의해 제공되는, 예컨대 도 7에 나타낸 바와 같은 검색을 위한 키워드 입력화면으로부터 키워드를 입력하고, 검색보턴(17)을 선택하면, 도 1에 나타낸 엔진(17)에 의해 키워드 검색이 수행되어, 예컨대 도 8에 나타낸 바와 같은 검색결과가 표시된다. 본 예에서는 검색결과로서, 「www.domain.com/index.html 2000년 8월 8일 갱신」이 검색서버(19)의 페이지에 표시된다.
또한, 순회로보트(3)가 순회하는 범위로서는 각 프레임의 지정으로 링크되어 있는 페이지로 한정되어도 된다. 또한, 동일 도메인내로 한정하여도 된다.
본 발명은 로보트를 이용한 네트워크상의 검색시스템에 이용할 수 있다.

Claims (20)

  1. 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와,
    지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득하여, 그 중 최신 갱신일을 인덱스 페이지의 갱신일로 하는 순회로보트를 구비하여 구성된 것을 특징으로 하는 검색엔진.
  2. 삭제
  3. 제1항에 있어서, 상기 순회로보트는 상기 인덱스 페이지와 동일 도메인을 순회대상으로 하는 것을 특징으로 하는 검색엔진.
  4. 삭제
  5. 제1항에 있어서, 상기 인덱스 페이지 및 링크처의 페이지는 프레임태그에 의해 구성되고, 상기 순회로보트는 상기 프레임내 페이지의 최신의 갱신일을 인덱스 페이지의 갱신일로 하는 것을 특징으로 하는 검색엔진.
  6. 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와,
    지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득하여, 그 중 최신 갱신일을 인덱스 페이지의 갱신일로 하는 순회로보트 및,
    지정된 키워드를 기초로 상기 데이터베이스를 검색하는 엔진을 구비하여 구성된 것을 특징으로 하는 검색시스템.
  7. 삭제
  8. 제6항에 있어서, 상기 순회로보트는 상기 인덱스 페이지와 동일 도메인을 순회대상으로 하는 것을 특징으로 하는 검색시스템.
  9. 삭제
  10. 제6항에 있어서, 상기 인덱스 페이지 및 링크처의 페이지는 프레임태그에 의해 구성되고, 상기 순회로보트는 상기 프레임내 페이지의 최신의 갱신일을 인덱스 페이지의 갱신일로 하는 것을 특징으로 하는 검색시스템.
  11. 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스 작성방법에 있어서,
    지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지에서 갱신일을 취득하고,
    상기 취득한 갱신일중 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 것을 특징으로 하는 검색시스템에 있어서의 데이터베이스 작성방법.
  12. 제11항에 있어서, 상기 데이터베이스의 순회는 상기 인덱스 페이지와 동일 도메인을 대상으로 하는 것을 특징으로 하는 검색시스템에 있어서의 데이터베이스 작성방법.
  13. 제11항에 있어서, 상기 인덱스 페이지 및 링크처의 페이지는 프레임태그에 의해 구성되고, 상기 프레임내 페이지의 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 것을 특징으로 하는 검색시스템에 있어서의 데이터베이스 작성방법.
  14. 삭제
  15. 삭제
  16. 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스를 컴퓨터에서 작성시키기 위한 프로그램을 갖춘 기억매체에 있어서,
    지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득시키는 수순과,
    상기 취득한 갱신일중 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 수순을 컴퓨터에서 실행시키기 위한 프로그램을 기억한 컴퓨터 판독가능 기억매체.
  17. 제16항에 있어서, 상기 컴퓨터에 상기 데이터베이스를 순회시키는 경우에, 상기 인덱스 페이지와 동일 도메인을 순회시키는 것을 특징으로 하는 기억매체.
  18. 제16항에 있어서, 상기 인덱스 페이지 및 링크처의 페이지는 프레임태그에 의해 구성되고, 상기 컴퓨터에 상기 프레임 페이지내 페이지의 최신 갱신일을 인덱스 페이지의 갱신일로 설정시키는 것을 특징으로 하는 기억매체.
  19. 삭제
  20. 삭제
KR10-2002-7006827A 2000-11-29 2000-11-29 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체 KR100496384B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2000/008430 WO2002044946A1 (fr) 2000-11-29 2000-11-29 Moteur de recherche

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7019523A Division KR20050004274A (ko) 2000-11-29 2000-11-29 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체

Publications (2)

Publication Number Publication Date
KR20020070293A KR20020070293A (ko) 2002-09-05
KR100496384B1 true KR100496384B1 (ko) 2005-06-21

Family

ID=11736729

Family Applications (2)

Application Number Title Priority Date Filing Date
KR10-2004-7019523A KR20050004274A (ko) 2000-11-29 2000-11-29 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체
KR10-2002-7006827A KR100496384B1 (ko) 2000-11-29 2000-11-29 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR10-2004-7019523A KR20050004274A (ko) 2000-11-29 2000-11-29 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체

Country Status (3)

Country Link
JP (1) JP3586272B2 (ko)
KR (2) KR20050004274A (ko)
WO (1) WO2002044946A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8307275B2 (en) * 2005-12-08 2012-11-06 International Business Machines Corporation Document-based information and uniform resource locator (URL) management
JP4983401B2 (ja) * 2007-05-25 2012-07-25 富士ゼロックス株式会社 情報処理装置及び制御プログラム
JP2008299788A (ja) * 2007-06-04 2008-12-11 Fujitsu Ltd ウェブサーバ装置、ウェブサーバプログラムおよびウェブサーバ装置の管理方法
JP5531741B2 (ja) * 2010-04-09 2014-06-25 船井電機株式会社 テレビジョン装置
JP2020197876A (ja) * 2019-05-31 2020-12-10 Gmo Tech株式会社 情報処理システム、プログラム、及び、情報処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174653A (ja) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd キーワード管理方法およびその装置
JPH117449A (ja) * 1997-06-16 1999-01-12 Hitachi Ltd ハイパーテキスト情報収集方法
JPH11212852A (ja) * 1998-01-28 1999-08-06 Nec Software Chubu Ltd Tcp/ip通信ホームページ読出方法及びその装置並びに情報記録媒体
JP2908425B1 (ja) * 1998-04-10 1999-06-21 日本電気ソフトウェア株式会社 フレームを使用しているホームページのマーキング・再表示方式
JPH11296428A (ja) * 1998-04-14 1999-10-29 Nec Home Electron Ltd ホームページの更新チェック方法および装置並びに更新チェックのための制御プログラムを格納した読み出し可能な記録媒体

Also Published As

Publication number Publication date
JP3586272B2 (ja) 2004-11-10
KR20050004274A (ko) 2005-01-12
WO2002044946A1 (fr) 2002-06-06
JPWO2002044946A1 (ja) 2004-04-02
KR20020070293A (ko) 2002-09-05

Similar Documents

Publication Publication Date Title
US6321228B1 (en) Internet search system for retrieving selected results from a previous search
US6311194B1 (en) System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
US6094649A (en) Keyword searches of structured databases
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
KR100505848B1 (ko) 검색 시스템
US8655864B1 (en) Mobile SiteMaps
US6101503A (en) Active markup--a system and method for navigating through text collections
US6604099B1 (en) Majority schema in semi-structured data
US20050086206A1 (en) System, Method, and service for collaborative focused crawling of documents on a network
EP1211616A2 (en) Data storage and retrieval system
WO2001016807A1 (en) An internet search system for tracking and ranking selected records from a previous search
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
US7996410B2 (en) Word pluralization handling in query for web search
US6711569B1 (en) Method for automatic selection of databases for searching
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체
KR100445943B1 (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
KR20000017909A (ko) 인터넷상에서의 정보검색장치 및 이를 이용한 정보검색방법
WO2007027469A2 (en) Mobile sitemaps
JP3632354B2 (ja) 情報検索装置
KR20030034265A (ko) 인터넷 게시판 통합 서비스 장치 및 방법
JP3604069B2 (ja) 文書間関連度計算装置、その方法およびその記録媒体
Gong et al. An implementation of web image search engines
Dixit Web crawler design issues: a review
JPH11265402A (ja) データ処理システム及びデータ処理システムを制御するプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090527

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee