WO2002044946A1 - Search engine - Google Patents

Search engine

Info

Publication number
WO2002044946A1
WO2002044946A1 PCT/JP2000/008430 JP0008430W WO0244946A1 WO 2002044946 A1 WO2002044946 A1 WO 2002044946A1 JP 0008430 W JP0008430 W JP 0008430W WO 0244946 A1 WO0244946 A1 WO 0244946A1
Authority
WO
WIPO (PCT)
Prior art keywords
page
index page
database
update date
index
Prior art date
Application number
PCT/JP2000/008430
Other languages
French (fr)
Japanese (ja)
Inventor
Motoharu Mizutani
Original Assignee
Kabushiki Kaisha Toshiba
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabushiki Kaisha Toshiba filed Critical Kabushiki Kaisha Toshiba
Priority to KR10-2004-7019523A priority Critical patent/KR20050004274A/en
Priority to JP2002508887A priority patent/JP3586272B2/en
Priority to PCT/JP2000/008430 priority patent/WO2002044946A1/en
Priority to KR10-2002-7006827A priority patent/KR100496384B1/en
Publication of WO2002044946A1 publication Critical patent/WO2002044946A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to a search engine for searching data distributed on a network, a search system, a database creation method in the search system, and a storage medium.
  • the robot searches the network for text written in HTML (Hyer Text Markup Language) on the network, and searches for the link destination described in the text.
  • HTML Layer Text Markup Language
  • the above databases may be decentralized due to their large volume. However, this is simply a division for large amounts, and is not divided in any way.
  • search for the word that you would like to include in the text you want to find.
  • a mirror site can be set up to decentralize access to popular sites and reduce traffic.
  • the I_Server http://www.pointcast.com/products/iserver, html
  • PCN Point Cast Network
  • the robot traverses the S domain or URL, and extracts the URL by patrol.
  • the search keyword is extracted from the issued file, the update date is obtained at the same time. Then, it determines the newness of the file according to the obtained update date, and prioritizes the display of search results.
  • index page In the case of index pages that are configured by frame tags, the index page is updated even if the linked page in each frame is updated. Unless the index page is updated, there is a problem that the update date will remain old and the search results will not match the content. In addition, in the case of a system that excludes pages that are updated infrequently from the search target, there is a problem that pages corresponding to frames are treated at a special disadvantage.
  • the purpose of this invention is to update the update date of a huge amount of search target data scattered on the database network, and to update the update date of the linked page.
  • the search engine, search system, and data in the search system allow you to obtain accurate update frequency information by changing to the latest update date.
  • the purpose is to provide a database creation method and a storage medium.
  • Another purpose of this invention is to provide database-based indexing.
  • the keyword of the linked page can be added to the keyword of the linked page, and it can be added to a search engine, search system, or search system.
  • the purpose is to provide a database creation method and a storage medium.
  • the search engine of the present invention is an index page of information on the network, at least a URL (Uniform Resource Locator) or a domain, and a date of renewal. And a database that stores index pages including keywords and keywords, and traverses the database based on a specified domain or URL, and updates the index page and the index page. And a traveling robot that obtains the update date of the page on the linked website and uses the latest update date as the update date of the index page.
  • URL Uniform Resource Locator
  • the search engine of the present invention is an index page on a network, and at least URL (Uniform).
  • Resource Locator or a database that stores an index page that includes a domain and a keyword, and traverses the database based on the specified domain or URL. And a cyclic robot that acquires a keyword of the page to be linked from the index page, and adds the acquired keyword of the page to the keyword of the index page.
  • the search system of the present invention is an index page of information on a network, and at least a URL (Uniform).
  • URL Uniform
  • Resource Locator or a database that stores an index page containing the domain, date of update, and a keyword, and traverses the database based on the specified domain or URL. Gets the update date and the update date of the page on the linked website from this index page, and sets the most recent update as the update date of the index page. It is composed of a bot and a search engine for searching the database based on a specified keyword.
  • the search system of the present invention is an index page on a network, and at least a URL (Uniform).
  • Resource Locator or a database storing an index page including a domain and a keyword; and traversing the database based on a specified domain or URL, and the index page described above;
  • a cyclic robot that obtains a keyword of a page to be linked from an index page, adds the keyword of the obtained page to the keyword of the index page, and a specified keyword.
  • a search engine for searching the database based on the search engine.
  • an index page of information on a network at least a URL (Uniform Resource Locator) or a domain, an update date keyword.
  • URL Uniform Resource Locator
  • a search system that has a database that stores index pages that contain In the database creation method, the specified domain or
  • the database traverses the database based on the URL, and obtains an update date of the index page and an update date of a page on a website linked from the index page, and obtains the obtained update date.
  • the feature is that the new update date is set as the update date of the index page.
  • an index page of information on a network including at least a URL or a domain, an update date and a keyword.
  • the database travels through the database based on a specified domain or URL,
  • the key of the page to be linked is obtained from the index page and the index page, and the key word of the obtained page is added to the key word of the index page.
  • a URL Uniform Resource Locator
  • a storage medium having a database storing index pages, and having a program for causing a computer to create a database in a search system for performing a database search in response to a search request.
  • an index page of information on a network includes at least a URL (Uniform Resource Locator) or a domain, an update date, and a keyword.
  • a storage medium that has a database that stores index pages and that has a program for causing a computer to create a database in a search system that performs a database search in response to a search request.
  • the gram is stored.
  • database patrol is performed for the same domain as the index page.
  • the index page and the link destination page are composed of a frame tag, and the latest update date of the page in the frame is set as the update date of the index page. Is done.
  • the updated date of the index page acquired by the traveling robot is compared with the updated date of the linked page, and the updated date of the linked page is newer. Replaces the update date of the index page with the update date of the linked page.
  • the keyword extracted from the link destination page is added to the index page keyword extracted by the traveling robot.
  • the above invention relates to a machine-readable medium storing a program for causing a computer to execute a corresponding procedure or means. Holds true.
  • the index page is mainly updated without updating the frame-compatible pages. Because the linked pages are updated on a frame-by-frame basis, they are treated as if they were updated very infrequently. According to the present invention, even with a frame-compatible search service, a search function similar to a non-frame-compatible page can be obtained.
  • the larger the database capacity the more pages can be searched, so that the amount of information increases.
  • the hit rate also increases.
  • the number of registrations is increased indefinitely, the number of search pages for one keypad will also increase, so that those who search can also obtain necessary information from among them. It becomes more difficult to extract.
  • search information can be collected in an index page, a brief description of a drawing that enables efficient search can be made.
  • FIG. 1 shows the configuration of a search engine according to an embodiment of the present invention. It is a figure showing an example.
  • Figure 2 is a diagram showing the structure of the index page. .
  • FIG. 3 is a flowchart showing the operation of the embodiment of the present invention.
  • Figure 4 is a flowchart showing the operations of the patrol robot, web server, and user.
  • FIG. 5 is a diagram showing an example of a screen for inputting a domain or URL to be registered.
  • FIG. 6 is a diagram showing an example of a registered URL screen.
  • FIG. 7 is a diagram illustrating a screen example when a keyword is input.
  • FIG. 8 is a diagram illustrating a screen example of a search result obtained by a search engine.
  • a page shall mean a piece of noise / text.
  • one page has a unique URL.
  • URL (UniformResocLeccutor) is a notification necessary for accessing page data.
  • URL includes protocol, domain name, port number, and path name information.
  • Mouth pots include Hyper Text Markup Language (HTML) and Standard Generalized Markup Language. Heino, like age (SGML). Reading documents written in text and collecting the documents on the network while mechanically extracting the links written there. However, it is realized by software. Layers with spiders instead of robots are sometimes called wanderers.
  • HTML Hyper Text Markup Language
  • SGML Standard Generalized Markup Language
  • the basic operation of the robot is as follows.
  • Step 1 Register the specified home page in the visiting list.
  • Step 2 The robot acquires a page according to visiting 1 ist.
  • Step 3 Analyze the acquired page and extract URL. ⁇
  • Step 4 Add the extracted URL to the visiting list (however, do not duplicate the URL).
  • the acquisition frequency of the page may be determined according to the frequency of updating the page.
  • a page is treated as an example of data distributed in a network.
  • FIG. 1 shows a configuration diagram of an entire search system including a search engine of the present invention.
  • the network 1 is connected to web servers 9 and 11, a user PC 13, a search server 19 and a search engine 21.
  • Search engine 2 1 is composed of a traveling robot 3, a database 5, and an engine 17.
  • the traveling robot 3 accesses the registered domain and URL, obtains the update date, and extracts the keyword. Also, access the linked page, get the update date, and extract keywords. Register the acquired update date and extracted key words in the database 5.
  • the database stores the index page power and the visiting list.
  • the index page includes a URL, a keypad, and attribute information
  • the attribute information includes an update date.
  • Engine 17 searches database 5 based on the specified keyword.
  • the search server 19 is, for example, a search server 19 typified by, for example, Informationek.
  • step S1 of FIG. 3 the user registers a domain or URL. That is, on the screen of the user PC 13, for example, a domain or URL input screen (a registration screen of the service chain) as shown in FIG. 5 is displayed. The user enters a search domain or URL, and selects the registration button 15. As a result, as shown in FIG. 4, the traveling robot 3 registers the domain or URL input by the user in the visiting list in the database 5.
  • step S3 of FIG. 3 the index page Is accessed. That is, as shown in FIG. 4, the traveling robot 3 sends the registered domain or URL to the web server 11, and the web server performs the indexing based on the received domain or URL. Access the page and send it to the patrol bot.
  • the traveling robot 3 obtains the update date A of the index page transmitted from the web server 11. Next, in step S7 of FIG. 3, keywords registered in the index page are extracted.
  • step S9 in FIG. 3 the link destination is accessed. That is, as shown in FIG. 4, the traveling robot 3 transmits a link destination address included in the index page to the web server 9 (11).
  • the web server 9 (11) accesses the link destination page on the web server 9 (11) based on the link destination address, and transmits the page to the traveling robot 3.
  • step S11 of FIG. 3 the update date B is obtained. That is, as shown in FIG. 4, the traveling robot 3 obtains the update date B of the link destination page, and further extracts a keyword.
  • step S13 of FIG. 3 the update dates A and B are compared, and in step S15, the update date is updated. That is, as shown in Fig.
  • step S21 it is determined whether or not the patrol has been completed. If the tour has not been completed, the process returns to step S9, and steps S9 to S21 are repeated.
  • step S21 if it is determined in step S21 that the tour has been completed, the tour robot 3 registers the obtained update date and keyword in the database 5 in step S23.
  • FIG. 6 is a diagram illustrating an example in which the traveling robot 3 uses the latest update date of the page in the frame as the update date of the index page. That is, it is assumed that the user has registered the .domain, com / index, and html powers using the registration screen of the domain or URL shown in FIG. It is also assumed that the current index page update date is March 14, 2000. It has a link destination page of title and html with an update date of February 14, 2000, and an update date of August 1, 2000. It shall consist of a link destination page of menu, html, and a link destination page of welcom. html with an update date of August 8, 2000. The patrol robot 3 obtains the update dates of these linked pages, compares the update dates, and indexes the latest update date, August 8, 2000, into an index page. Set as the update date of the page.
  • the search is provided, for example, on a page of the search server 19 (for example, a homepage provided by a refresh eye, an Infoseek, or the like). For example, as shown in FIG. Keypad from a keyword input screen for searching.
  • a search button 17 is selected after inputting a keyword, a keyword search is performed by the engine 17 shown in FIG. 1, and a search result as shown in FIG. 8 is displayed, for example.
  • the present invention is applicable to a search system on a network using a robot.

Abstract

The update date of an index page acquired by a circuiting robot (3) is compared with the update date of a linked Web site. If the update of the linked Web site is more recent, the update date of the index page is replaced with the update date of the linked Web site. A keyword extracted from the linked Web site is added to the keywords of the index page extracted by the circuiting robot.

Description

次に示すように国際調査機関が作成した。  Prepared by the International Searching Authority as shown below.
サーチエンジン  Search engine
技術分野 Technical field
こ の発明はネ ッ ト ワーク上に分散 したデータ を検索するサ 一チェ ンジン、 検索システ ム、 検索システムにおけるデータ ベース作成方法および記憶媒体に関する。 背景技術  The present invention relates to a search engine for searching data distributed on a network, a search system, a database creation method in the search system, and a storage medium. Background art
A l t a v i s t a ( h t t p : / / w w w . a i t a l s t a . c o m Z ) 、 L y c o s ( h t t p : / / w w w . l y c o s . c o m ) 、 Y a h o o ! ( h t t p : / / w w . y a h o o . c o m / な ど ロ ボ ッ ト を用 い たネ ッ ト ワ ー ク 上の検索エ ン ジ ンは多数存在 す る 。 こ れ ら は ロ ボ ッ ト と 呼ばれ る機械的 にネ ッ ト ヮ ー ク 上で情報 を収集す る ソ フ ト ウ エ ア を用 い て い る 。。 そ し て 、 収集 し たデー タ をデー タ ベー ス化 (ペー ジ情報に対 し て形態素角军析 ( morphological analysis) を行レヽ 、 ィ ンデ ッ ク ス テ ーブルを作成 し て デー タ ベー ス に格納す る こ と ) し、 利用者が検索でき る よ う に してい る 。 A ltavista (http:.. / / Www aitalsta com Z), L ycos! (Http:.. / / Www lycos com), Y ahoo (http:.. / / Ww yahoo com / soil robots a There are a number of search engines on the network that have been used, which collect information on the network mechanically, called robots. Then, the collected data is converted into a database (a morphological analysis is performed on the page information). An index table is created and stored in a database) so that users can search for it.
上記 ロ ボ ッ ト は、 ネ ッ ト ワ ー ク 上で H T M L ( H y e r T e x t M a r k u p L a n g u a g e ) で 記述 さ れた文章を探 し、 そ こ に記載 さ れて い る リ ン ク 先 を迪 つ て 、 ネ ッ ト ワ ー ク 上に存在す る デー タ を収集す る デー タ ベー ス ィヒ につい て は、 フ ルテ キ ス ト サーチをす る も の も あれば、 タ イ ト ルや U R L と い っ た部分のみ を検 索対象 と する よ う な も の も あ る。 The robot searches the network for text written in HTML (Hyer Text Markup Language) on the network, and searches for the link destination described in the text. For database databases that collect data that exists on the network, some perform full-text searches and others use titles. Only URLs and URLs There are also things to search for.
上記デー タ ベース は、 量が多い の で分散化 さ れてい る 場合 も あ る 。 し 力 し 、 あ く ま で も 量が 多いた め の単な る 分割であ り 、 何 ら かの意味を持っ て分割 して はいない。  The above databases may be decentralized due to their large volume. However, this is simply a division for large amounts, and is not divided in any way.
上記検索 に は 、 キー ワ ー ド検索が行 な われ る 。 すな わ ち 、 探 し た い文章に含ま れて レ、 る で あ ろ う 語を入力 して 検索を行な う 。  In the above search, a keyword search is performed. In other words, search for the word that you would like to include in the text you want to find.
一方、 人気の あ る サイ ト への ア ク セ ス 集中 を 分散 さ せ ト ラ フ ィ ッ ク を軽減す る た め に、 ミ ラ ーサイ ト が設 け ら れ る こ と 力 S あ る 。 例 え ば、 P o i n t C a s t N e t w o r k ( P C N ) 社 の I _ S e r v e r ( h t t p : / / w w w . p o i n t c a s t . c o m / p r o d u c t s / i s e r v e r , h t m l ) で は P C N本 社へ定期 的 に情報 を プ リ フ ヱ ツ チ し て 、 ミ ラ ーサイ ト を 管理 してい る 。  On the other hand, a mirror site can be set up to decentralize access to popular sites and reduce traffic. For example, the I_Server (http://www.pointcast.com/products/iserver, html) of Point Cast Network (PCN) periodically refreshes information to the PCN headquarters.ヱ Touch and manage the mirror site.
従来、 ネ ッ ト ワ ー ク 上に分散 したデー タ の検索ェ ン ジ ンにおいて は、 以下の よ う な問題点が あ っ た。  Conventionally, there have been the following problems in a search engine for data distributed on a network.
( 1 ) 増大す る デー タ を扱 う の が 困難に な り つつ あ る 例 え ば W W W (World Wide Web)上のペー ジデー タ が 1 9 9 6 年で世界で 4 0 0 0 万以上あ る と 言われ、 今後 も 指数関数的 に増加す る と 予想 さ れ る 。 現在、 ページ数 も 1 ペー ジあ た り のデー タ 量 も 急激に増大す る 傾 向 に あ る こ の よ う に急増す る デー タ を単 に量 に よ り 分割する だ けでは、 デー タ ベース 管理が極めて 困難であ る 。  (1) It is becoming increasingly difficult to handle increasing data.For example, page data on the World Wide Web (WWW) will be more than 4.0 million worldwide in 1996. It is expected to increase exponentially in the future. At present, the number of pages and the amount of data per page tend to increase rapidly.In this way, the data that increases rapidly can be divided by simply dividing the amount of data. Database management is extremely difficult.
( 2 ) 更新頻度が低い情報 は ア ク セ ス が少 な い傾向 に あ る 。 更新頻度が低いペー ジは、 一般 に情報が 古 く 、 ァ ク セ ス が少 ない傾 向 に あ る 。 こ の た め更新頻度 の高いぺ ー ジを優先的に表示する 検索シス テ ム が有効で あ る。 (2) Information that is updated less frequently tends to have less access is there . Pages that are updated infrequently tend to be out of date and have less access. For this reason, a search system that preferentially displays pages that are updated frequently is effective.
( 3 ) 従来検索エ ン ジ ン に ド メ イ ン、 或 レヽ は U R L を 登録す る と 、 ロ ボ ッ ト 力 S ド メ イ ン あ る い は U R L を巡回 し 、 巡回 に よ っ て抽 出 さ れた フ ァ イ ルか ら そ の 検索 キー ワ ー ド を抽 出す る と 同時 に更新 日 を取得す る 。 そ し て 取 得 し た更新 日 に従 っ て フ ァ イ ルの新 し さ を判断 し、 検索 結果の表示に優先度 を付け る。  (3) Conventionally, when a domain or URL is registered in the search engine, the robot traverses the S domain or URL, and extracts the URL by patrol. When the search keyword is extracted from the issued file, the update date is obtained at the same time. Then, it determines the newness of the file according to the obtained update date, and prioritizes the display of search results.
し 力 し 、 フ レー ム タ グ に よ っ て構成 さ れたイ ンデ ッ ク ス ペー ジの場合、 各 フ レー ム で リ ン ク さ れ る ペー ジが 更 新 さ れて も イ ンデ ッ ク ス ペー ジが更新 さ れな い 限 り 、 更 新 日 が 古い ま ま に な っ て し ま い、 検索結果 と 内容が合わ な く な る と い う 問題が る 。 ま た 、 更新頻度 の低いペー ジ を検索対象か ら 外す シス テ ム の場合、 フ レー ム 対応 のぺ ー ジが特別不利 に扱われて しま う と い う 問題が あ る。  In the case of index pages that are configured by frame tags, the index page is updated even if the linked page in each frame is updated. Unless the index page is updated, there is a problem that the update date will remain old and the search results will not match the content. In addition, in the case of a system that excludes pages that are updated infrequently from the search target, there is a problem that pages corresponding to frames are treated at a special disadvantage.
発明の開示 ' DISCLOSURE OF THE INVENTION ''
こ の発明 の 目 的 は、 デー タ ベー ス化 さ れたネ ッ ト ヮ ー ク 上に散在す る 膨大 な検索対象デー タ の 更新 日 付 を 、 リ ン ク 先 のペー ジの更新 日 付の 中 の最新の更新 日 付に変更 す る こ と に よ り 正確な更新頻度情報を得 る こ と の で き る サーチエ ン ジ ン、 検索 シス テ ム 、 検索 シス テ ム にお け る デー タ ベー ス 作成方法、 お よ び記憶媒体 を提供す る こ と であ る 。  The purpose of this invention is to update the update date of a huge amount of search target data scattered on the database network, and to update the update date of the linked page. The search engine, search system, and data in the search system allow you to obtain accurate update frequency information by changing to the latest update date. The purpose is to provide a database creation method and a storage medium.
こ の発 明 の他 の 目 的 は 、 デー タ ベー ス 化 さ れたイ ンデ ッ ク スページの キー ヮ ー ドに、 リ ンク 先のページの キー ワ ー ドを取得 して、 追加する こ と のでき る サーチェ ンジ ン 、 検索 シ ス テ ム 、 検索シ ス テ ム におけ る デー タベー ス 作成方法、 お よび記憶媒体を提供する こ と であ る。 Another purpose of this invention is to provide database-based indexing. The keyword of the linked page can be added to the keyword of the linked page, and it can be added to a search engine, search system, or search system. The purpose is to provide a database creation method and a storage medium.
上記目 的を達成するために、 こ の発明のサーチエ ンジンは、 ネッ ト ワーク上の情報のイ ンデック スページであって、 少な く と も U R L (Uniform Resource Lo cator)または ドメ イ ン、 更 新日およびキーヮー ドを含むィ ンデッタ スページを格納した データベース と 、 指定された ドメ イ ンあるいは u R Lに基づ いて前記データベースを巡回し、 前記ィ ンデッタ スページの 更新日 と、 こ のイ ンデッ ク スページから リ ンクする ウェブサ ィ ト上のページの更新日 を取得し、 その う ち最新の更新日 を イ ンデッ クスページの更新日 とする巡回ロボッ ト と から構成 される。  To achieve the above objective, the search engine of the present invention is an index page of information on the network, at least a URL (Uniform Resource Locator) or a domain, and a date of renewal. And a database that stores index pages including keywords and keywords, and traverses the database based on a specified domain or URL, and updates the index page and the index page. And a traveling robot that obtains the update date of the page on the linked website and uses the latest update date as the update date of the index page.
また、 この発明のサーチエンジンは、 ネ ッ ト ワーク上のィ ンデッタ スページであって、 少なく と も U R L (Uniform  Further, the search engine of the present invention is an index page on a network, and at least URL (Uniform).
Re s ource Locator)または ドメ イ ン、 及びキーワー ドを含むィ ンデッ ク スページを格納したデータベース と、 指定された ド メイ ン又は U R Lに基づいて前記データベースを巡回し、 前 記イ ンデ ッ ク スページと、 前記イ ンデ ッ ク スページから リ ン クするページのキーヮー ドを取得し、 前記取得したページの キーヮー ドを前記ィ ンデッ ク スページのキーヮー ドに付加す る巡回ロボッ ト とから構成される。 (Resource Locator) or a database that stores an index page that includes a domain and a keyword, and traverses the database based on the specified domain or URL. And a cyclic robot that acquires a keyword of the page to be linked from the index page, and adds the acquired keyword of the page to the keyword of the index page. .
ま た、 こ の発明 の検索システム は、 ネ ッ ト ワーク 上の情報 のイ ンデックスページであって、 少なく と も U R L (Uniform Resource Locator)または ドメ イ ン、 更新 日 おょぴキーワー ド を含むィ ンデッ タ スページを格納 したデータベース と、 指定 された ドメ ィ ンあるいは U R Lに基づいて前記データベース を巡回 し、 前記イ ンデッ ク スページの更新 日 と 、 このイ ンデ ッ ク スページ力 ら リ ンクする ウェブサイ ト上のページの更新 日 を取得し、 その う ち最も あた ら しい更新 をイ ンデッ ク ス ページの更新 日 と する巡回ロ ボッ ト と 、 指定されたキーヮー ドに基づいて前記データベース を検索する検索エ ンジンと か ら構成される。 Also, the search system of the present invention is an index page of information on a network, and at least a URL (Uniform). (Resource Locator) or a database that stores an index page containing the domain, date of update, and a keyword, and traverses the database based on the specified domain or URL. Gets the update date and the update date of the page on the linked website from this index page, and sets the most recent update as the update date of the index page. It is composed of a bot and a search engine for searching the database based on a specified keyword.
また、 こ の発明の検索システムは、 ネ ッ ト ワーク上のイ ン デッ ク スページであって、 少な く と も U R L (Uniform  Further, the search system of the present invention is an index page on a network, and at least a URL (Uniform).
Resource Locator)または ドメ イ ン、 及びキーワー ドを含むィ ンデッ ク スページを格納したデータベース と 、 指定された ド メ イ ン又は U R L に基づいて前記データベース を巡回し、 前 記イ ンデッ ク スページと 、 前記イ ンデッ ク スページから リ ン クするページのキーヮー ドを取得し、 前記取得したページの キーヮー ドを前記イ ンデ ッ ク スページのキーヮー ドに付加す る巡回ロ ボッ ト と 、 指定されたキーワー ドに基づいて前記デ ータベース を検索する検索エ ンジンと から構成される こ と を 特徴とする。 (Resource Locator) or a database storing an index page including a domain and a keyword; and traversing the database based on a specified domain or URL, and the index page described above; A cyclic robot that obtains a keyword of a page to be linked from an index page, adds the keyword of the obtained page to the keyword of the index page, and a specified keyword. And a search engine for searching the database based on the search engine.
また、 こ の発明によれば、 ネ ッ ト ワーク 上の情報のイ ンデ ッ ク スページであって、 少な く と も U R L (Uniform Resource Lo cator)または ドメ イ ン、 更新 日 おょぴキーワー ドを含むィ ンデッ ク スページを格納したデータベース を有し、 検索要求 に応じてデータベース検索を行 う 検索シス テムにおけるデー タベース の作成方法において、 指定された ドメ イ ンあるいは Further, according to the present invention, an index page of information on a network, at least a URL (Uniform Resource Locator) or a domain, an update date keyword. Data in a search system that has a database that stores index pages that contain In the database creation method, the specified domain or
U R L に基づいて前記データベースを巡回 し、 前記イ ンデッ ク スページの更新 日 と 、 このイ ンデッ ク スページ力 ら リ ンク する ウェブサイ ト上のページに更新日 を取得し、 前記取得し た更新 日 の う ちも つ と も新 しい更新日 をィ ンデッ ク スページ の更新日 に設定する こ と を特徴とする。 The database traverses the database based on the URL, and obtains an update date of the index page and an update date of a page on a website linked from the index page, and obtains the obtained update date. The feature is that the new update date is set as the update date of the index page.
また、 こ の発明によれば、 ネ ッ ト ワーク 上の情報のイ ンデ ッ ク スページであって、 少な く と も U R Lまたは ドメ イ ン、 更新 日 おょぴキーヮー ドを含むィ ンデッ タ スページを格納 し たデータベース を有し、 検索要求に応じてデータベース検索 を行 う 検索システム においけるデータベース の作成方法にお いて、 指定された ドメ イ ン又は U R Lに基づいて前記データ ベース を巡回 し、 前記イ ンデッ ク スページの と 、 前記イ ンデ ッ ク スページ力 ら リ ンクするページのキ一ヮ一ドを取得し、 前記取得したページのキーヮー ドを前記ィ ンデッ ク スページ のキーヮー ドに付加する こ と を特徴とする。 また、 こ の発明によれば、 ネ ッ ト ワーク上の情報のイ ンデ ッ ク スページであって、 少な く と も U R L (Uniform Resource Lo cator)または ドメ イ ン、 更新 日 およびキーワー ドを含むィ ンデッ タ スページを格納 したデータベース を有し、 検索要求 に応 じてデータベース検索を行 う 検索シス テムにおけるデー タベースをコ ンピュータ に作成させるためのプロ グラムを有 した記憶媒体であって、 指定された ドメ イ ンあるいは U R L に基づいて前記データベースを巡回 し、 前記ィ ンデッ ク スぺ ージの更新日 と 、 こ のイ ンデッ ク スページから リ ンクする ゥ エブサイ ト上のページの更新 日 を取得させる手順と 、 前記取 得 した更新 日 の う ち最も新しい更新 日 をイ ンデッ ク スページ の更新 日 に設定する手順と をコ ン ピュータ に実行させるため のプロ グラ ムが記憶される。 Further, according to the present invention, an index page of information on a network, including at least a URL or a domain, an update date and a keyword. In a method of creating a database in a search system that has a database in which a database is stored and performs a database search in response to a search request, the database travels through the database based on a specified domain or URL, The key of the page to be linked is obtained from the index page and the index page, and the key word of the obtained page is added to the key word of the index page. This is the feature. According to the present invention, an index page of information on a network, including at least a URL (Uniform Resource Locator) or a domain, an update date, and a keyword is provided. A storage medium having a database storing index pages, and having a program for causing a computer to create a database in a search system for performing a database search in response to a search request.デ ー タ ベ ー ス 前 記 デ ー タ ベ ー ス た デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス デ ー タ ベ ー ス 更新 更新 更新 更新 更新 更新 更新. A procedure for causing a computer to execute a procedure for obtaining the update date of a page on the website and a procedure for setting the latest update date among the obtained update dates as the update date of the index page. The program is stored.
また、 こ の発明によれば、 ネ ッ ト ワーク上の情報のイ ンデ ッ ク スページであって、 少な く と も U R L (Uniform Resource Lo cator)または ドメ イ ン、 更新 日 およびキーワー ドを含むィ ンデッ タ スページを格納 したデータベースを有 し、 検索要求 に応 じてデータベース検索を行 う 検索システムにおけるデー タベース を コ ン ピュータ に作成させるためのプロ グラムを有 した記憶媒体であって、 指定された ドメ イ ン又は U R L に基 づいて前記データベースを巡回 し、 前記ィ ンデッ ク スページ の と 、 前記イ ンデッ ク スページ力 ら リ ンクするページのキー ヮー ドを取得する手順と 、 前記取得したページのキーヮー ド を前記ィ ンデッ ク スページのキーヮー ドに付加する手順と を コ ン ピュータ に実行させるためのプロ グラムが記憶される。  According to the present invention, an index page of information on a network includes at least a URL (Uniform Resource Locator) or a domain, an update date, and a keyword. A storage medium that has a database that stores index pages and that has a program for causing a computer to create a database in a search system that performs a database search in response to a search request. A step of circulating the database based on the domain or URL, obtaining a keyword of the index page, and a key word of a page to be linked from the index page power; A procedure for causing a computer to execute the steps of adding a keyword to the keyword on the index page. The gram is stored.
また、 データベース の巡回は、 イ ンデッ ク スページと 同一 ドメ イ ンを対象と して行われる。  In addition, database patrol is performed for the same domain as the index page.
また、 ィ ンデッ ク スページ及ぴ リ ンク先のページはフ レー ムタ グによ って構成され、 前記フ レーム内のページの最新の 更新 日 がイ ンデ ッ ク スページの更新 日 と して設定される。  The index page and the link destination page are composed of a frame tag, and the latest update date of the page in the frame is set as the update date of the index page. Is done.
こ の発明によれば、 巡回ロ ボ ッ トが取得したイ ンデッ ク ス ページの更新日 を リ ンク先のページの更新日 と比較し、 リ ン ク先のページの更新 日 の方が新しい場合はィ ンデッ ク スぺ一 ジの更新 日 を リ ンク先のページの更新日 に置き換える。 また、 巡回ロ ボッ トが抽出 したイ ンデッ ク スページのキー ヮー ドに、 リ ンク先のページから抽出 したキーヮー ドを追加 する。 According to this invention, the updated date of the index page acquired by the traveling robot is compared with the updated date of the linked page, and the updated date of the linked page is newer. Replaces the update date of the index page with the update date of the linked page. In addition, the keyword extracted from the link destination page is added to the index page keyword extracted by the traveling robot.
なお 、 以上の各装置に係 る 発 明 は、 方法に係 る 説明 と して も 成立す る。  The invention relating to each device described above is also valid as an explanation of the method.
ま た 、 上記 の発 明 は、 相 当 す る 手順あ る い は手段 を コ ン ピ ュ ー タ に実行 さ せ る た め の プ ロ グ ラ ム を記録 し た機 械読取 り 可能な媒体 と して も成立する。  In addition, the above invention relates to a machine-readable medium storing a program for causing a computer to execute a corresponding procedure or means. Holds true.
フ レ ッ シ ュ ア イ な ど の ロ ボ ッ ト 巡回型の検索エ ン ジ ン の場合、 フ レー ム 対応のペー ジ につい て はイ ンデ ッ ク ス ペー ジが 更新 さ れずに主 に フ レー ム ご と に リ ン ク さ れ る ペー ジが 更新 さ れ る た め 、 更新頻度が極 め て低い も の と し て扱 われて し ま う 。 本発明 に よ れば、 フ レー ム対応の 検索サー ビス で あ っ て も 、 非 フ レー ム 対応 のペー ジ と 同 様の検索機能を得る こ と が可能 と な る 。  In the case of a robotic search engine, such as Flash I, the index page is mainly updated without updating the frame-compatible pages. Because the linked pages are updated on a frame-by-frame basis, they are treated as if they were updated very infrequently. According to the present invention, even with a frame-compatible search service, a search function similar to a non-frame-compatible page can be obtained.
ま た 、 デー タ ベース の効率化の観点か ら 、 一般にデー タ ベー ス の容量が大 き い方が多 く のペー ジに対 して検索 可能 と な る の で、 情報量が上が り 、 ヒ ッ ト 率 も 上が る 。 しか し な が ら 、 登録を無尽蔵 に増やす と 、 1 つ の キ ー ヮ 一 ド に対す る 検索ペー ジ数 も 増加す る の で、 検索す る 方 も そ の 中 カゝ ら 必要 な情報 を抽 出す る こ と が難 し く な つ て く る 。 本発 明 に よ れば、 検索情報 をイ ンデ ッ ク スペー ジ に集 め る こ と が で き る の で、 効率的 な検索が可能に な る 図面の簡単な説明  In addition, from the viewpoint of improving the efficiency of the database, the larger the database capacity, the more pages can be searched, so that the amount of information increases. However, the hit rate also increases. However, if the number of registrations is increased indefinitely, the number of search pages for one keypad will also increase, so that those who search can also obtain necessary information from among them. It becomes more difficult to extract. According to the present invention, since search information can be collected in an index page, a brief description of a drawing that enables efficient search can be made.
図 1 はこ の発明の一実施形態における検索エンジンの構成 例を示す図である。 FIG. 1 shows the configuration of a search engine according to an embodiment of the present invention. It is a figure showing an example.
図 2 はイ ンデッ ク スページの構成を示す図である。 .  Figure 2 is a diagram showing the structure of the index page. .
図 3 は、 本発明の一実施形態の動作を示すフ ローチャー ト である。  FIG. 3 is a flowchart showing the operation of the embodiment of the present invention.
図 4 は、 巡回ロボッ ト、 ウェブサーバ、 およびユーザのそ れぞれの動作を示すフローチヤ一 トである。  Figure 4 is a flowchart showing the operations of the patrol robot, web server, and user.
図 5 は、 登録する ドメ イ ンまたは U R Lを入力する画面例 を示す図である。  FIG. 5 is a diagram showing an example of a screen for inputting a domain or URL to be registered.
図 6 は登録した U R Lの画面例を示す図である。  FIG. 6 is a diagram showing an example of a registered URL screen.
図 7 は、 キーヮー ドを入力する際の画面例を示す図である 図 8 は、 サーチエンジンによる検索結果の画面例を示す図 である。  FIG. 7 is a diagram illustrating a screen example when a keyword is input. FIG. 8 is a diagram illustrating a screen example of a search result obtained by a search engine.
発明を実施するための最良の形態 BEST MODE FOR CARRYING OUT THE INVENTION
以下、 図面を参照 しながら、 発明の実施の形態を説明する まず、 語句の定義を行う。  Hereinafter, embodiments of the invention will be described with reference to the drawings. First, terms will be defined.
ページ ( p a g e ) と は、 ノヽィ / 一テ キ ス ト のぺー シ を意味する も の と する。 W W Wの世界では、 1 つ のぺー ジはユニーク な U R L を持つ。  A page (page) shall mean a piece of noise / text. In the WWW world, one page has a unique URL.
U R L ( U n i f o r m R e s o u r c e L o c t or) と は、 ページデー タ をア ク セスする の に必要な 着報であ る 。 U R L は、 プ ロ ト コ ル、 ドメ イ ン名 、 ポー ト番号、 パス名 の情報を含む。  URL (UniformResocLeccutor) is a notification necessary for accessing page data. URL includes protocol, domain name, port number, and path name information.
口 ポ ッ ト ( R o b o t ) と は、 H y p e r T e x t M a r k u p L a n g u a g e ( H T M L ) や S t a n d a r d G e n e r a l i z e d M a r k u p L a n g u a g e ( S G M L ) の よ う な ハイ ノ、。—テ キ ス ト で記述 さ れた 文書 を読み 、 そ こ に書かれて レ、 る リ ン ク を機械 的 に迪 り な が ら 文書 を ネ ッ ト ワ ー ク 上で収集す る も の で あ り 、 ソ フ ト ゥ ェ ァ に よ り 実現 さ れ る 。 ロ ボ ッ ト の代わ り に ス パ イ ダー ( s p i d e r ) あ る レヽ は ワ ン ダ ラ ー (W a n d e r e r ) な ど と 呼ばれ る こ と も あ る 。 Mouth pots (Robots) include Hyper Text Markup Language (HTML) and Standard Generalized Markup Language. Heino, like age (SGML). — Reading documents written in text and collecting the documents on the network while mechanically extracting the links written there. However, it is realized by software. Layers with spiders instead of robots are sometimes called wanderers.
ロ ボ ッ ト の基本的な動作は次の よ う になる。  The basic operation of the robot is as follows.
(手順 1 ) 指定 さ れた ホ ー ムペー ジ を visiting list に登録する 。  (Step 1) Register the specified home page in the visiting list.
(手順 2 ) ロ ボ ッ ト は、 visiting 1 i s tに従いペー ジ を取得する。  (Step 2) The robot acquires a page according to visiting 1 ist.
(手順 3 ) 取得 さ れたペー ジを解析 して U R L を抽出 する。 ·  (Step 3) Analyze the acquired page and extract URL. ·
(手順 4 ) 抽 出 さ れた U R L を visiting listに追加 する (ただ し、 U R L の重複登録は しない) 。  (Step 4) Add the extracted URL to the visiting list (however, do not duplicate the URL).
以降、 手順 2 〜 4 を繰 り 返す。 なお、 ペー ジの取得頻 度は、 該ページの更新頻度に応 じて決め る よ う に して も 良い。  Thereafter, steps 2 to 4 are repeated. The acquisition frequency of the page may be determined according to the frequency of updating the page.
次に、 本実施形態について説明する。  Next, the present embodiment will be described.
本実施形態では、 ネ ッ ト ワーク 中に分散されたデータの一 例と してページを扱う ものとする。  In this embodiment, a page is treated as an example of data distributed in a network.
図 1 は、 本発明のサーチエ ンジンを含む検索システム全体 の構成図を示す。 同図に示すよ う に、 ネ ッ ト ワーク 1 には、 ウェブサーバ 9 、 1 1 、 ユーザ P C 1 3 、 サーチサーバ 1 9 、 およびサーチエンジン 2 1 が接続される。 サーチエンジン 2 1 は巡回ロボッ ト (robot) 3 、 データベース 5 およびエ ンジン 1 7 とで構成される。 巡回ロ ボッ ト 3 は、 登録された ドメ イ ン、 U R Lにアク セ ス し、 更新日 を取得し、 キーワー ドを抽 出する。 また、 リ ンク先のページにア ク セス し、 更新日 を取 得し、 キーワー ドを抽出する。 取得した更新日 および抽出 し たキーヮ ー ドをデータベース 5 に登録する。 データベースは、 イ ンデ ッ ク スページ力、らなる visiting listを格納する。 イ ン デッ タ スページは例えば図 2 に示すよ う に、 U R L、 キーヮ 一 ドおよび属性情報からな り 、 属性情報は更新日付を含む。 エンジン 1 7 は、 指定されたキーワー ドに基づいてデータべ ース 5 を検索する。 サーチサーバ 1 9 は例えば Inf oseek等に 代表されるサーチサーバ 1 9 である。 FIG. 1 shows a configuration diagram of an entire search system including a search engine of the present invention. As shown in the figure, the network 1 is connected to web servers 9 and 11, a user PC 13, a search server 19 and a search engine 21. Search engine 2 1 is composed of a traveling robot 3, a database 5, and an engine 17. The traveling robot 3 accesses the registered domain and URL, obtains the update date, and extracts the keyword. Also, access the linked page, get the update date, and extract keywords. Register the acquired update date and extracted key words in the database 5. The database stores the index page power and the visiting list. As shown in FIG. 2, for example, the index page includes a URL, a keypad, and attribute information, and the attribute information includes an update date. Engine 17 searches database 5 based on the specified keyword. The search server 19 is, for example, a search server 19 typified by, for example, Informationek.
次に、 図 3 乃至図 8 を参照 して本発明のサーチエ ンジンの 動作について説明する。  Next, the operation of the search engine of the present invention will be described with reference to FIGS.
始めに、 ユーザは、 フ レー ムを含むホームページを作成し、 ウェブサーバ 9 ( 1 1 ) にア ップロー ドしている ものとする。  First, it is assumed that the user has created a homepage including a frame and has uploaded it to web server 9 (11).
図 3 のステ ップ S 1 において、 ユーザは ドメ イ ンまたは U R L を登録する。 すなわち、 ユーザ P C 1 3 の画面上に、 例 えば図 5 に示すよ う な、 ドメ イ ンまたは U R L入力画面 (サ 一チェ ンジンの登録画面) が表示される。 ユーザは、 検索 ド メ イ ンまたは U R L を入力 し、 登録ボタ ン 1 5 を選択する。 この結果、 図 4 に示すよ う に巡回ロボッ ト 3 はユーザによ り 入力 さ れた ドメ イ ンま た は U R L をデータ べ一ス 5 内の visiting listに登録する。  In step S1 of FIG. 3, the user registers a domain or URL. That is, on the screen of the user PC 13, for example, a domain or URL input screen (a registration screen of the service chain) as shown in FIG. 5 is displayed. The user enters a search domain or URL, and selects the registration button 15. As a result, as shown in FIG. 4, the traveling robot 3 registers the domain or URL input by the user in the visiting list in the database 5.
次に、 図 3 のステップ S 3 において、 イ ンデッ クスページ へのア ク セスが行われる。 すなわち、 図 4 に示すよ う に巡回 ロ ボッ ト 3 は、 登録された ドメ イ ンまたは U R L を ウェブサ ーバ 1 1 に送信 し、 ウェブサーバは受信 した ドメ イ ンまたは U R L に基づいてイ ンデッ ク スページをアク セス し、 巡回口 ボッ ト に送信する。 Next, in step S3 of FIG. 3, the index page Is accessed. That is, as shown in FIG. 4, the traveling robot 3 sends the registered domain or URL to the web server 11, and the web server performs the indexing based on the received domain or URL. Access the page and send it to the patrol bot.
巡回ロ ボ ッ ト 3 はウェブサーバ 1 1 か ら送信されたイ ンデ ッ ク スページの更新 日 Aを取得する。 次に、 図 3 のステ ップ S 7 において、 そのイ ンデッ ク スページに登録されている キ 一ワー ドを抽出する。  The traveling robot 3 obtains the update date A of the index page transmitted from the web server 11. Next, in step S7 of FIG. 3, keywords registered in the index page are extracted.
次に、 図 3 ステ ップ S 9 において、 リ ンク先にアクセスす る。 すなわち、 図 4 に示すよ う に、 巡回 ロ ボ ッ ト 3 は、 イ ン デッ タ スページに含まれる リ ンク先ァ ド レス を ウェブサーノく 9 ( 1 1 ) に送信する。 ウェブサーバ 9 ( 1 1 ) は リ ンク先 ア ド レス に基づいて、 ウェブサーバ 9 ( 1 1 ) 上の リ ンク 先 のページにアク セス し、 そのページを巡回ロ ボ ッ ト 3 に送信 する。 次に、 図 3 のステ ップ S 1 1 において、 更新 日 B を取 得する。 すなわち、 図 4 に示すよ う に、 巡回ロ ボッ ト 3 は、 リ ンク先のページの更新 日 B を取得し、 さ ら に、 キーワー ド を抽出する。 そ して、 図 3 のステ ップ S 1 3 において、 更新 日 A と B の比較を行い、 ステ ップ S 1 5 において、 更新 日 を 更新する。 すなわち、 図 4 に示すよ う に、 イ ンデッ ク スベー ジの更新 日 Aよ り も、 リ ンク先ページの更新 日 B の方が大き い ( 日 付が新しい) 場合には、 イ ンデッ ク スページの更新日 を B とする。 そ して、 図 3 のステ ップ S 1 7 において、 キー ワー ドを抽出 し、 ステ ップ S 1 9 において、 イ ンデッ ク スぺ ージのキーワー ドに追加する。 そ して、 ステ ップ S 2 1 にお いて、 巡回が終了 したか否かを判断する。 巡回が終了してい なければ、 ステ ップ S 9 に戻 り 、 ステップ S 9 乃至 S 2 1 を 再度繰り返し実行する。 Next, in step S9 in FIG. 3, the link destination is accessed. That is, as shown in FIG. 4, the traveling robot 3 transmits a link destination address included in the index page to the web server 9 (11). The web server 9 (11) accesses the link destination page on the web server 9 (11) based on the link destination address, and transmits the page to the traveling robot 3. Next, in step S11 of FIG. 3, the update date B is obtained. That is, as shown in FIG. 4, the traveling robot 3 obtains the update date B of the link destination page, and further extracts a keyword. Then, in step S13 of FIG. 3, the update dates A and B are compared, and in step S15, the update date is updated. That is, as shown in Fig. 4, if the update date B of the link destination page is larger than the update date A of the index page (the date is newer), the index page is updated. Let B be the update date of Then, in step S17 of FIG. 3, the keyword is extracted, and in step S19, the index ぺ is extracted. Add to the keywords in the page. Then, in step S21, it is determined whether or not the patrol has been completed. If the tour has not been completed, the process returns to step S9, and steps S9 to S21 are repeated.
一方、 ステ ップ S 2 1 において、 巡回を終了 したと判断す る と、 ステ ップ S 2 3 において、 巡回ロ ボッ ト 3 は得られた 更新日 とキーヮー ドをデータベース 5 に登録する。  On the other hand, if it is determined in step S21 that the tour has been completed, the tour robot 3 registers the obtained update date and keyword in the database 5 in step S23.
図 6 は、 巡回ロボッ ト 3 がフ レーム内のページの最新の更 新日 をイ ンデ ッ ク スページの更新日 とする一例を示す図であ る。 すなわち、 図 5 に示す ドメ イ ンまたは U R Lの登録画面 を用いてユーザによ り 、 ί列えば . domain, com/ index, html力 登 録されたもの とする。 また、 現在のイ ンデッ ク スページの更 新日付は 2 0 0 0年 3 月 1 4 日 である とする。 そ して、 フ レ ームカ S 2 0 0 0年 2 月 1 4 日 の更新日付を有する title, html の リ ン ク先ページと 、 2 0 0 0年 8 月 1 日 の更新日付を有す る menu, htmlの リ ンク先ページと、 2 0 0 0年 8月 8 日 の更新 日付を有する we lcom. htmlの リ ンク先ページから構成されてい る もの とする。 巡回ロ ボッ ト 3 は、 これらの リ ンク先ページ の更新日付を取得し、 それらの更新日付を比較し、 最も新し い更新日付である、 2 0 0 0年 8 月 8 日 をイ ンデックスぺー ジの更新日付と して設定する。  FIG. 6 is a diagram illustrating an example in which the traveling robot 3 uses the latest update date of the page in the frame as the update date of the index page. That is, it is assumed that the user has registered the .domain, com / index, and html powers using the registration screen of the domain or URL shown in FIG. It is also assumed that the current index page update date is March 14, 2000. It has a link destination page of title and html with an update date of February 14, 2000, and an update date of August 1, 2000. It shall consist of a link destination page of menu, html, and a link destination page of welcom. html with an update date of August 8, 2000. The patrol robot 3 obtains the update dates of these linked pages, compares the update dates, and indexes the latest update date, August 8, 2000, into an index page. Set as the update date of the page.
なお、 ユーザが検索を行う場合には、 例えばサーチサーバ 1 9 のページ (例えばフ レ ッ シュアイや Inf oseek等によ り 提 供されるホームページ等) によ り 提供される、 例えば図 7 に 示すよ う な、 検索のためのキーワー ド入力画面からキーヮー ドを入力 し、 検索ボタ ン 1 7 を選択する と、 図 1 に示すェン ジン 1 7 によ り キーワー ド検索が行われ、 例えば図 8 に示す よ う な検索結果が表示される。 こ の例では、 検索結果と して、In addition, when the user performs a search, the search is provided, for example, on a page of the search server 19 (for example, a homepage provided by a refresh eye, an Infoseek, or the like). For example, as shown in FIG. Keypad from a keyword input screen for searching. When a search button 17 is selected after inputting a keyword, a keyword search is performed by the engine 17 shown in FIG. 1, and a search result as shown in FIG. 8 is displayed, for example. In this example, the search results
「 www, domain, com/index, html 2 0 0 0 年 8 月 8 日 更新」 力 サ ーチサーバ 1 9 のページに表示される。 ' なお、 巡回ロボッ ト 3 が巡回する範囲と しては、 各フ レー ム の指定で リ ンク されているページに限定しても よい。 また、 同一 ドメイ ン内に限定してもよい。 “Www, domain, com / index, html Updated August 8, 2000” Power Search server 19 Displayed on the 19th page. 'Note that the range in which the cyclic robot 3 circulates may be limited to pages linked by the specification of each frame. Also, it may be limited to the same domain.
産業上の利用可能性 Industrial applicability
本発明はロボッ ト を用いたネッ ト ワーク上の検索シス テム に利用可能である。  The present invention is applicable to a search system on a network using a robot.

Claims

請 求 の 範 囲 The scope of the claims
1 . ネ ッ ト ワーク 上の情報のイ ンデッ ク スページであって、 少な く と も U R L (Uniform Re source Lo c ator)または ドメ イ ン、 更新 日 おょぴキーヮー ドを含むィ ンデッ ク スページを格納 し 7こア ータべース と 、  1. An index page for information on the network, including at least a URL (Uniform Resource Locator) or a domain, an update page, and an update page. Stores 7 database and
指定された ドメ イ ンあるいは U R L に基づいて前記データ ベース を巡回 し、 前記イ ンデッ ク スページの更新 日 と 、 この イ ンデッ クスページカゝら リ ンクする ウェブサイ ト上のページ の更新 日 を取得し、 その う ち最新の更新 日 をイ ンデック スぺ ージの更新 日 とする巡回ロ ボッ ト と 、  The database traverses the database based on the specified domain or URL, and obtains the update date of the index page and the update date of the page on the website linked from this index page color. A patrol robot whose latest update date is the update date of the index page,
から構成される こ と を特徴とするサーチエンジン。 A search engine characterized by being composed of:
2 . ネ ッ ト ワーク 上のイ ンデッ ク スページであって、 少な く と も U R L (Uniform Resource Locator)または ドメ イ ン、 及 ぴキーヮー ドを含むィ ンデッ タ スページを格納したデータべ ース と 、  2. An index page on the network that contains at least an index page containing a URL (Uniform Resource Locator) or domain, and a keyword.
指定された ドメ イ ン又は U R L に基づいて前記データべ一 スを巡回 し、 前記イ ンデッ ク スページと 、 前記イ ンデッ ク ス ページ力 ら リ ンクするページのキーワー ドを取得し、 前記取 得したページのキーヮー ドを前記ィ ンデッ タ スページのキー ワー ドに付加する巡回ロ ボ ッ ト と 、  Traverses the database based on a specified domain or URL, obtains the index page and a keyword of a page to be linked from the index page power, and obtains the obtained A cyclic robot for adding a page keyword to the keyword of the index page,
から構成される こ と を特徴とするサーチエンジン。 A search engine characterized by being composed of:
3 . 前記巡回ロ ボッ ト は前記イ ンデッ ク スページと 同一 ド メ イ ンを巡回対象とする請求項 1 記載のサーチエンジン。  3. The search engine according to claim 1, wherein the circulating robot traverses the same domain as the index page.
4 . 前記巡回ロ ボツ ト は前記イ ンデッ ク スページと 同一 ド メ イ ンを巡回対象とする請求項 2記載のサーチエンジン。 4. The search engine according to claim 2, wherein the circulating robot traverses the same domain as the index page.
5 . 前記イ ンデッ ク スページ及び リ ンク先のページはフ レ ームタ グによ って構成され、 前記巡回ロ ボッ ト は前記フ レー ム内のページの最新の更新 日 をィ ンデッ ク スページの更新 日 とする こ と を特徴とする請求項 1 記載のサーチエ ンジン。 5. The index page and the link destination page are composed of frame tags, and the traveling robot updates the index page with the latest update date of the pages in the frame. The search engine according to claim 1, wherein the search engine is a day.
6 . ネ ッ ト ワーク 上の情報のイ ンデッ ク スページであって - 少な く と も U R L (Uniform Re source Lo cator)または ドメ イ ン - 更新 日 おょぴキーヮー ドを含むィ ンデッ タ スページを格納 し たデータベース と 、  6. An index page for information on the network-at least a URL (Uniform Resource Locator) or a domain-containing an index page containing the date of the update. Database and
指定された ドメ イ ンあるいは U R L に基づいて前記データ ベース を巡回 し、 前記イ ンデッ ク スページの更新 日 と 、 こ の イ ンデッ クスページから リ ンクする ウェブサイ ト上のページ の更新 日 を取得し、 その う ち最新の更新 日 をイ ンデッ ク スぺ ージの更新日 とする巡回ロ ボ ッ ト と 、  Traverses the database based on a specified domain or URL, and obtains an update date of the index page and an update date of a page on a website linked from the index page; A patrol robot whose latest update date is the update date of the index page,
指定されたキーワー ドに基づいて前記データベースを検索 するエンジンと 、  An engine that searches the database based on a specified keyword;
から構成される こ と を特徴とする検索システ ム。 A search system characterized by being composed of:
7 . ネ ッ ト ワーク 上のイ ンデッ ク スページであって、 少な く と も U R L (Uniform Re s ource Locator)または ドメ イ ン、 及 びキーヮー ドを含むィ ンデッ ク スページを格納 したデータべ ース と 、  7. A database that stores index pages on the network, including at least a URL (Uniform Resource Locator) or domain, and a keyword. When ,
指定された ドメ イ ン又は U R L に基づいて前記データべ一 ス を巡回 し、 前記イ ンデッ ク スページと 、 前記イ ンデッ ク ス ページから リ ンクするページのキーヮー ドを取得し、 前記取 得したページのキーヮ ^~ ドを前記ィ ンデッ ク スページのキー ワー ドに付加する巡回ロ ポ ッ ト と 、 指定されたキーワー ドに基づいて前記データベースを検索 するエンジンと 、 Traverses the database based on a specified domain or URL, obtains the index page and a key word of a page to be linked from the index page, and obtains the obtained page A cyclic report for adding the key of ^ ヮ ~ to the keyword of the index page, An engine that searches the database based on a specified keyword;
から構成される こ と を特徴とする検索システム。 A search system characterized by being composed of:
8 . 前記巡回ロ ボッ ト は前記イ ンデッ ク スページと 同一 ド メ イ ンを巡回対象とする請求項 6 記載の検索シス テ ム。  8. The search system according to claim 6, wherein the traversing robot traverses the same domain as the index page.
9 . 前記巡回ロ ボッ ト は前記イ ンデッ ク スページと 同一 ド メ イ ンを巡回対象とする請求項 7 記載の検索システ ム。  9. The search system according to claim 7, wherein the patrol robot traverses the same domain as the index page.
1 0 . 前記イ ンデッ ク スページ及びリ ンク先のページはフ レームタ グによって構成され、 前記巡回ロ ボッ ト は前記フ レ ーム内のページの最新の更新日 をィ ンデッ タ スページの更新 日 とする こ と を特徴とする請求項 6 記載の検索システム。  10. The index page and the link destination page are configured by frame tags, and the traveling robot indicates the latest update date of the pages in the frame as the update date of the index page. 7. The search system according to claim 6, wherein the search is performed.
1 1 . ネッ ト ワーク 上の情報のイ ンデッ ク スページであつ て、 少な く と も U R L (Uniform Resource Lo cator)または ドメ ィ ン、 更新日 およびキーヮー ドを含むィ ンデッ タ スページを 格納したデータベース を有 し、 検索要求に応 じてデータべ一 ス検索を行 う 検索シス テ ムにおけるデータ ベース の作成方法 において、  1 1. An index page for information on the network, containing at least a URL (Uniform Resource Locator) or a database containing an index page containing the domain, update date and keywords. In the method of creating a database in a search system that performs a database search in response to a search request,
指定された ドメ イ ンあるいは U R L に基づいて前記データ ベース を巡回 し、 前記イ ンデ ッ ク スページの.更新 日 と 、 こ の イ ンデッ ク スページから リ ンクする ウェブサイ ト上のページ に更新 日 を取得し、  The database traverses the database based on the specified domain or URL, and displays the update date of the index page and the update date on the page on the website that links from this index page. Acquired,
前記取得した更新 日 の う ち最新の更新 日 をイ ンデッ ク スぺ —ジの更新日 に設定する、  Setting the latest update date of the obtained update dates as the update date of the index page;
こ と を特徴とする検索シス テムにおけるデータベース作成方 法。 A database creation method for a search system characterized by this.
1 2 . 前記データベース の巡回は前記イ ンデッ ク ク スぺ一 ジと 同一 ドメ イ ンを対象と する こ と を特徴とする請求項 1 1 記載の検索システムにおけるデータベース作成方法。 12. The database creation method according to claim 11, wherein the tour of the database is performed on the same domain as the index page.
1 3 . 前記イ ンデッ ク スページおよびリ ンク先のページは フ レームタ グによって構成され、 前記フ レーム内のページの 最新の更新 日 をィ ンデッ ク スページの更新 日 に設定する こ と を特徴とする請求項 1 1 記載の検索システムにおけるデータ ベース作成方法。  13. The index page and the link destination page are constituted by frame tags, and the latest update date of the pages in the frame is set as the update date of the index page. A method for creating a database in the search system according to claim 11.
1 4 . ネ ッ ト ワーク上の情報のイ ンデッ ク スページであつ て、 少な く と も U R L または ドメ イ ン、 更新 日 およびキーヮ 一 ドを含むィ ンデッ ク スページを格納 したデータベース を有 し、 検索要求に応じてデータベース検索を行 う 検索シス テム におけるデータベース の作成方法において、  1 4. An index page of information on the network that has a database containing index pages containing at least a URL or domain, update date, and key word. The database is created in the search system that searches the database on demand.
指定された ドメ イ ン又は U R L に基づいて前記データべ一 ス を巡回 し、 前記イ ンデッ ク スページの と 、 前記イ ンデッ ク スページ力 ら リ ンクするページのキーヮー ドを取得し、  Traversing the database based on a specified domain or URL, obtaining a key word of the index page and a key word of a page to be linked from the index page force;
前記取得したページのキーヮー ドを前記ィ ンデッ ク スぺ一 ジのキーヮー ドに付加する、  Adding the keyword of the obtained page to the keyword of the index page;
こ と を特徴とする検索シス テムにおけるデータベース作成方 法。 A database creation method for a search system characterized by this.
1 5 . 前記データベース の巡回は前記イ ンデッ ク スページ と 同一 ドメ イ ンを対象とする こ と を特徴とする請求項 1 4記 載の検索システムにおけるデータベース作成方法。  15. The database creation method according to claim 14, wherein the patrol of the database is performed on the same domain as the index page.
1 6 . ネ ッ ト ワーク 上の情報のイ ンデッ ク スぺ^ "ジであつ て、 少な く と も U R L (Uniform Resource Locator)または ドメ ィ ン、 更新 日 おょぴキーヮー ドを含むイ ンデッ ク スページを 格納 したデータベース を有 し、 検索要求に応 じてデータべ一 ス検索を行 う 検索システムにおけるデータベース をコ ン ビュ ータ に作成させるためのプロ グラ ムを有した記憶媒体であつ て、 16 6. An index page of information on the network, at least a URL (Uniform Resource Locator) or a domain. Creates a database in a search system that has a database that stores an index page that includes the keyword and update date, and that performs a database search in response to a search request. A storage medium having a program for causing
指定された ドメ イ ンあるいは U R L に基づいて前記データ ベース を巡回 し、 前記イ ンデ ッ ク スページの更新 日 と 、 こ の イ ンデッ ク スページ力ゝら リ ンクする ウェブサイ ト上のページ の更新 日 を取得させる手順 と 、  Traverses the database based on a specified domain or URL, updates the index page, and updates the pages on the website linked to this index page And steps to get
前記取得した更新 日 の う ち最新の更新 日 をィ ンデッ ク スぺ ージの更新 日 に設定する手順と 、  Setting the latest update date among the obtained update dates as the update date of the index page; and
をコ ン ピュータに実行させるためのプロ グラムを記憶したコ ン ピュ ータ読取 り 可能な記憶媒体。 A computer-readable storage medium that stores a program for causing a computer to execute the program.
1 7 . 前記コ ン ピュータ に前記データベース を巡回 させる 際に、 前記イ ンデッ ク スページと 同一 ドメ イ ンを巡回させる こ と を特徴とする請求項 1 6 記載の記憶媒体。  17. The storage medium according to claim 16, wherein when the computer circulates through the database, the computer circulates the same domain as the index page.
1 8 . 前記イ ンデッ ク スページおよびリ ンク先のページは フ レームタ グによ って構成され、 前記コ ン ピュータ に、 前記 フ レームページ内のページの最新の更新日 をィ ンデッ ク スぺ ー ジの更新日 に設定させる こ と を特徴とする請求項 1 6 記載 の記憶媒体。  18. The index page and the link destination page are composed of frame tags, and the computer is provided with an index page that shows the latest update date of the pages in the frame pages. 17. The storage medium according to claim 16, wherein the storage medium is set to an update date of the page.
1 9 . ネ ッ ト ワーク上の情報のイ ンデッ ク スページであつ て、 少な く と も U R L (Uniform Resource Locator)または ドメ ィ ン、 更新 日 およびキーヮー ドを含むイ ンデッ ク スページを 格納 したデータベース を有 し、 検索要求に応 じてデータべ一 ス検索を行 う 検索システムにおけるデータベース をコ ン ビュ ータ に作成させるためのプロ グラ ムを有した記憶媒体であつ て、 1 9. An index page of information on the network, containing at least a URL (Uniform Resource Locator) or a database containing an index page containing the domain, update date and keywords. Yes, the database is A storage medium having a program for causing a computer to create a database in a search system for performing a search.
指定された ドメ イ ン又は U R L に基づいて前記データべ一 ス を巡回 し、 前記イ ンデ ッ ク スページと 、 前記イ ンデ ッ ク ス ページか ら リ ンクするページのキーヮー ドを取得する手順と 、 前記取得したページのキーヮー ドを前記ィ ンデッ ク スぺ一 ジのキーヮー ドに付加する手順と 、  A step of circulating through the database based on a specified domain or URL to obtain the index page and a keyword of a page to be linked from the index page; Adding a keyword of the acquired page to a keyword of the index page; and
を コ ンピュータ に実行させるためのプロ グラ ムを記憶したコ ン ピュ ータ読取 り 可能な記憶媒体。 A computer-readable storage medium that stores a program for causing a computer to execute the program.
2 0 . 前記コ ン ピュータ に前記データベースを巡回させる 際に、 前記イ ンデッ ク スページと 同一 ドメ イ ンを巡回 させる こ と を特徴とする請求項 1 9 記載の記憶媒体。  20. The storage medium according to claim 19, wherein, when the computer circulates through the database, the computer circulates the same domain as the index page.
PCT/JP2000/008430 2000-11-29 2000-11-29 Search engine WO2002044946A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR10-2004-7019523A KR20050004274A (en) 2000-11-29 2000-11-29 Search engine, search system, method for making a database in a search system, and recording media
JP2002508887A JP3586272B2 (en) 2000-11-29 2000-11-29 Search engine, search system, and storage medium
PCT/JP2000/008430 WO2002044946A1 (en) 2000-11-29 2000-11-29 Search engine
KR10-2002-7006827A KR100496384B1 (en) 2000-11-29 2000-11-29 Search engine, search system, method for making a database in a search system, and recording media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2000/008430 WO2002044946A1 (en) 2000-11-29 2000-11-29 Search engine

Publications (1)

Publication Number Publication Date
WO2002044946A1 true WO2002044946A1 (en) 2002-06-06

Family

ID=11736729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/008430 WO2002044946A1 (en) 2000-11-29 2000-11-29 Search engine

Country Status (3)

Country Link
JP (1) JP3586272B2 (en)
KR (2) KR100496384B1 (en)
WO (1) WO2002044946A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157132A (en) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> Document-based information and uniform resource locator (url) management method, and program
JP2008293384A (en) * 2007-05-25 2008-12-04 Fuji Xerox Co Ltd Information processor and control program
JP2008299788A (en) * 2007-06-04 2008-12-11 Fujitsu Ltd Web server device, web server program, and management method of web server device
JP2011223283A (en) * 2010-04-09 2011-11-04 Funai Electric Co Ltd Television set

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174653A (en) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd Method and device for control of key word
JPH117449A (en) * 1997-06-16 1999-01-12 Hitachi Ltd Hypertext information collecting method
JPH11212852A (en) * 1998-01-28 1999-08-06 Nec Software Chubu Ltd Tcp/ip communication home page reading method, device therefor and information recording medium
JPH11296463A (en) * 1998-04-10 1999-10-29 Nec Software Ltd Marking/redisplay method for home page using frame
JPH11296428A (en) * 1998-04-14 1999-10-29 Nec Home Electron Ltd Method and device for checking update of home page and readable recording medium storing control program for update check

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174653A (en) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd Method and device for control of key word
JPH117449A (en) * 1997-06-16 1999-01-12 Hitachi Ltd Hypertext information collecting method
JPH11212852A (en) * 1998-01-28 1999-08-06 Nec Software Chubu Ltd Tcp/ip communication home page reading method, device therefor and information recording medium
JPH11296463A (en) * 1998-04-10 1999-10-29 Nec Software Ltd Marking/redisplay method for home page using frame
JPH11296428A (en) * 1998-04-14 1999-10-29 Nec Home Electron Ltd Method and device for checking update of home page and readable recording medium storing control program for update check

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Internet hiza kurige", KABUSHIKI KAISHA ASCII, vol. 20, no. 11, 1 November 1996 (1996-11-01), JAPAN, pages 400 - 403, XP002937860 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157132A (en) * 2005-12-08 2007-06-21 Internatl Business Mach Corp <Ibm> Document-based information and uniform resource locator (url) management method, and program
JP2008293384A (en) * 2007-05-25 2008-12-04 Fuji Xerox Co Ltd Information processor and control program
JP2008299788A (en) * 2007-06-04 2008-12-11 Fujitsu Ltd Web server device, web server program, and management method of web server device
JP2011223283A (en) * 2010-04-09 2011-11-04 Funai Electric Co Ltd Television set

Also Published As

Publication number Publication date
KR20020070293A (en) 2002-09-05
KR20050004274A (en) 2005-01-12
JP3586272B2 (en) 2004-11-10
KR100496384B1 (en) 2005-06-21
JPWO2002044946A1 (en) 2004-04-02

Similar Documents

Publication Publication Date Title
US9305100B2 (en) Object oriented data and metadata based search
US7979427B2 (en) Method and system for updating a search engine
US6321228B1 (en) Internet search system for retrieving selected results from a previous search
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
US7539669B2 (en) Methods and systems for providing guided navigation
US20050086206A1 (en) System, Method, and service for collaborative focused crawling of documents on a network
US20070271255A1 (en) Reverse search-engine
JP2016181306A (en) System and method for scoping searches using index keys
Dixit et al. A novel approach to priority based focused crawler
CN107291940A (en) Content of pages management method, device and associated server
JP4769822B2 (en) Information search service providing server, method and system using page group
Berger et al. Mapping the Blogosphere--Towards a universal and scalable Blog-Crawler
US20120317091A1 (en) System and method for users to get newly updates
JP2004206492A (en) Method for displaying document and gateway device having function of selecting link partner
KR100445943B1 (en) Method and System for Retrieving Information using Proximity Search Formula
JP2005056371A (en) Management method and system for web retrieval information, and computer software program
WO2002044946A1 (en) Search engine
KR20000017909A (en) Apparatus for searching information over the internet and information search method using the same
JP3632354B2 (en) Information retrieval device
US10061859B2 (en) Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance
Saranya et al. A Study on Competent Crawling Algorithm (CCA) for Web Search to Enhance Efficiency of Information Retrieval
Aliyu et al. Google query optimization tool
JP5559725B2 (en) Information retrieval service providing method using web page divided into a plurality of information blocks
JP5525424B2 (en) Document search apparatus, document search method, and document search program
Fan et al. Novel of Web search strategy based on Web page block granularity analysis algorithm and correlation calculation model

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2002 508887

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 1020027006827

Country of ref document: KR

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR SG US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWP Wipo information: published in national office

Ref document number: 1020027006827

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase
WWG Wipo information: grant in national office

Ref document number: 1020027006827

Country of ref document: KR