TW311996B - - Google Patents

Download PDF

Info

Publication number
TW311996B
TW311996B TW085115495A TW85115495A TW311996B TW 311996 B TW311996 B TW 311996B TW 085115495 A TW085115495 A TW 085115495A TW 85115495 A TW85115495 A TW 85115495A TW 311996 B TW311996 B TW 311996B
Authority
TW
Taiwan
Prior art keywords
group
registration
network
web
patent application
Prior art date
Application number
TW085115495A
Other languages
English (en)
Original Assignee
Digital Equipment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Equipment Corp filed Critical Digital Equipment Corp
Application granted granted Critical
Publication of TW311996B publication Critical patent/TW311996B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Description

311996 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(1 ) 發明範圍 本發明是有關於可在全球資訊網拿取文件和被呼叫頁或 從一網路電腦找尋文件的系統和方法,特別是可在全球資 料網快速找尋和分析網頁的一系統和方法。 發明背景 網文件(以後稱之爲網頁)是儲存在多數個連接到網路的 電腦伺服器(以後稱之爲伺服器)中。每一網頁具有一個別 的通用資源定位器(universal resource locator, URL)。很多 儲存在網路伺服器上的文件是一種標準文件描述語言所寫 成,此一標準文件描述語言被稱爲超文件置標語言 (hypertext markup language, HTML)。使用 HTML,一網文 件設計者可將超文件連結(hypertext link)或註標和指.示的 字或片語連結在一起並説明圖像和一網頁的内容。上述超 文件連結、確認其他網文件的URLs或相同文件的其他部 分,以提供和上述文字、片語相關的資訊。 一使用者使用一網路瀏覽器(一電腦程式可顯示HTML文 件以及和網路伺服器溝通)來進入儲存在全球資訊網的文 件,而上述網路瀏覽器是由一連接到國際網路的網路客户 執行的。一般使用者可在使用瀏覽器來瀏覽的一文件中選 擇一超文件連結(一突顯的字或片語)。然後,網路瀏覽器 針對所需文件提出一超文件轉換協定(hypertext transfer protocol, HTTP)的要求到被所需文件之URL所確認的網路 伺服器。所指定的網路伺服器會使用HTTP傳回所需的文 件到網路瀏覽器,以做爲回應。 (請先閱讀背面之注意事項再填寫本頁) -裝- 訂 --ΡΓ 本紙張尺度適用中國國家操準(CNS ) A4规格(210X297公羹) 311996 A7 B7 五、發明説明(2 ) 在19 9 5年結束前’在國際網路亦即所熟知的全球資包網 上的網頁數目比前一年成長好幾倍,其至少有三千萬網頁 。當網路繼續成長時,本發明主要是針對一可在網路上追 踪網頁的系統。 可在網路上找尋網頁的系統具有不同名稱,如網路爬行 者(Web crawlers)、網路蛾t蛛(Web spiders)和網路機琴人 (Web robots)。因本發明之系統的速度比所有已知的網路 爬行者快,所以被稱之爲網路滑行者(Web sc〇〇ter)。而在 本遝明書内用到的網路爬行者、網路蜘蛛、網路滑行者、 網路爬行者電腦系統和網路滑行者的電腦系統術語都是可 互通的。 經濟部中央標準局員工消費合作社印裝 —•I ^—_* n J— J— I-— I (請先閱讀背面之注意事項再填寫本頁} 一般昔知網路爬行者其作用如下。從一組已知網頁開始 ,針對每一已知網頁產生—具有一個別登錄的磁碟檔案。 當拿取到額外網頁及分析其和別的網頁之連結時,則在上 述磁碟檔案中會對網路爬行者先前未知的此參考網頁產生 額外登錄。每-登錄指示所對應的網頁是否已被處理以及 其他資訊。一網路爬行者藉由下列方式來處理一網百.(八 確認正在處理的網頁中知其他網頁之連結並儲存相關的資 訊’以便所有還未處理之已被確認的網頁能加入到—網頁 表中以做爲處理或者到其他相等資料結構;以及⑺)將此 網頁送到一索引器或者其他文件處理系統。 因爲在磁碟㈣巾„訊數量太大而錢儲存在隨機存 取C憶體中(RAM)所以一般有關已被處理之網頁的資 儲存在-磁磁槽案中,例如:平均針對每—網頁登錄要儲 本紙張咖€用中國297公 311996 經濟部中央標準局員工消費合作社印製 五、發明説明(3 ) 存100位元組的資訊, 將佔用約30億位元组,此千萬個網頁的—資料樓案 下一步,我們將考岸合處際上證的存量是過大了。 問題。爲了討掄彡θ AA 槭蜾輸入/輸出 關其他網二;及我:鈒設一典型網頁包括2。個有 秒糊找尋。網路版S3碟儲存裝置最多只能處理每 20項參考的每—參考評估正在處理的網頁中上述須先從網路資訊磁碟4m已知。要做此動作 案中尋回此2〇個記綠。如果-特 頁參考的1己綠已存在,則卜夂 竹 -步虚㈣Η 參考會被放棄,因爲沒有做 ‘ 、‘、要。但是,如果此一特定頁參考的纪錄找 到時,則爲了此頁表去c Ml己錄找 頁參考的母一可能化名必須找出此_ ,因此增加用來分析-網頁所需磁碟記錄尋找的平均:數 到大約每頁50磁碟找尋。 m入數 2料—敎頁參考的—磁碟㈣記錄不存在的話, "生對此參考頁的一新記錄並加入到該磁碟檔案中, 並且此頁參考會被加入到所要處理一串網頁中, 磁碟檔案登錄來指示此頁還未被拿取和處理。 因此,處理一單一網頁需近2〇個磁碟找尋(以做爲讀 存在=記錄和窝入新的記錄)'結果,造成了每秒5〇個 碟找尋的限制,大約每一秒可處理一網頁。 除此之外,還有一網路存取等待時間的問題。雖然所商 時間是依網路伺服器的位置以及網路伺服器和網路爬行者 電腦上所用的硬體和軟體而定,但平均需花費3秒來尋回 —網頁。因此,網路等待時間會傾向限制昔知網路爬行者 必定 進不錄 取磁 而 (請先閲讀背面之注意事項再填寫本頁)
T 裝_ 6- t紙張尺度it财關(CNS) Α4规格(21QX297公董 311996 A7 ______ Β7 五、發明説明(4 j ~' 經濟部中央標準局員工消費合作杜印製 路:行者無法處理每天超過的三:網頁使得一典型昔知網 響,每天慮理1 令速丰和網頁延遲和修正速率的影 網頁對維持在網路上所有網頁的-眞實 現在目錄和索引是不適合的 具T 應該可以拿取和分析至少2.5百萬:頁’。一旧㈣亍者一天 ::,我們渴望能有如此高速度能力的一網路攸行者。 路爬行:的::提供了可每天處理百萬個網頁的-改良網 尋限二 —目的是提供—可克服上述磁碟找 =和網路等待時間限制的—改良網路攸行者,以= φ] (CPU) 少-網頁,更好的至少每秒_提頁 發明之概$ ,罔路爬仃者。 本發明是有關所附申請專利範園第!項所述 的了找=的系統,以及所附巾請專利範園第6項所述 的一可找尋網頁的方法^ ^ 製全球資訊網(www)上快速找尋和 ” 和方法°網_行者系統包括儲 存在-随機存取記憶體的一哈希表、以及儲存在_次士己情 =案)連::案/=之爲連續磁碟㈣或網^ =案)#於系統所知的每—網頁’網路般行者會在連 續磁碟檔案中儲存-登錄,以及在哈希表中儲存—較小癸 請 先 閱 讀 背 面 之 注 意 事 項 再— 旁 裝 訂
經濟部中央標準局員工消費合作社印製 A7 — --------------B7 五、發明説明(5) ~~' 錄。上述哈希表登錄包括-手印値、_拿取旗,此拿取旗 只有在已成功地拿到對應網頁時才被設定爲眞、和—枰案 位置指示器,此指示器可指示所對應的登錄是儲存在^ 磁碟檔案中的何處。每一連續磁碟檔案登錄包括—對應網 頁的URL、和有關此網頁的拿取狀態資訊。 網路資訊磁碟檔案的所有存取是經由一輸入緩衝器連續 地執仃,以致於來自連續磁碟檔的大量登錄被移入到該輪 入缓衝器,以當做信號輸入/輸出操作。然後,連續磁碟 權案可從上述輸入緩衝器進A。同樣地,户斤有可加到連續 檔案的新登錄可儲存在一附屬緩衝器中,以及只要上述附 屬缓衝器填滿了,則附屬缓衝器的内容會被加到連續檔案 的後面。在此方法中,可刪除隨意進入到網資訊磁碟檔案 的發生,並且可將由磁碟存取限制所造成的等待時間減到 最小。 找尋和處理網頁的程序包括連續地檢閱在連續檔案中的 所有登錄以及選擇符合所建立之選擇標準的一下一登錄。 當選擇下一檔案登錄以做爲處理時,則會針對此目前登錄 候選者的所有已知化名來檢查上述哈希表,以確定是否在 一化名下已拿取該網頁。如果在一化名下已拿取到該網頁 ,則該連續檔案登錄的錯誤形態區會被做上一非選擇化名 (n〇n-selectedalias)的記號,且該候選登錄沒有被選擇到。 旦—下一網頁參考登錄已被選到,則網路联行者系統 會試著拿取該對應網頁。如果拿取失敗,則針對該網頁在 連續檔案登錄中的拿取狀態資訊會被記上一拿取失敗的記 -8 - 本紙張尺度賴巾國國家標準(CNS )八4規格(2獻297公釐〉 ----J丨-1^---「裝—— f請先閲讀背面之注意事^再填寫本頁} 、ιιβ -J. A7 B7 經濟部中央標準局員工消費合作社印繁 五、發明説明(6 ) 號,以便和送回網路爬行者系統的該錯誤回碼—致 拿取成功’則針對㈣頁的哈希表登錄巾拿取旗會H, 廷和針對㈣頁的連續磁碟㈣登錄(輸人緩衝&中 取旗相似。除此之外,分析在拿取到的網頁中每—URL連 結。如果針對有關連結之URL的—登錄或者狐的任何所 定義的代名已經存在於哈希表中,則沒有再進—步處理 URL連結的必要。如果在哈希表中沒有發現此登錄時,則 原來此URL爲先前未包括在網路欣行者網頁資料中的一新 網頁,因此該新網頁的登錄會被加入連續磁碟檔案中(亦 即其會被加入到在附屬緩衝器中磁碟檔案的部分p該新 磁碟樓案登錄包括正在處理㈣結u RL,並被記上未被拿 取的記號。除此之外,一對應新登錄被加入到哈希表中, 及該登錄的拿取旗會被清除,以表示對應的網頁未被拿取 。除了處理在所拿取到的頁中所有URL連結之外,網路爬 行者傳送此所被拿取的網頁到一索引器,以便做進—步處 理。 附圖之簡單説明 本發明可藉由下面一較佳實施例的描述來做一較詳細的 説明,上述實施例以例子方式來描述並附有相關圖式,其 中 ♦圖1是依據本發明一較佳實施例之一網路爬行者系統 的一方塊圖。 ♦圖2是使用在本發明一較佳實施例中之哈希表機構的 —方塊圖。 9 本紙張尺度遑用中國國家標準(CNS ) A4規格(210x297公簸 I ‘I丨「裝-- (請先閲讀背面之注意事項再填寫本頁) 訂 ^ 311996 經濟部中央標準局員工消費合作社印裝 A7 _______B7 五、發明説明(7 ) ♦圖3是使用在本發明一較佳實施例中之連續網資訊磁碟檔案和相關資料結構的一方塊圖。 ♦圖4是使用在本發明一較佳實施例中之網路爬行者程序的一流程圖。發明之詳細説明 參考圖1,表示出一分配電腦系統1〇〇,其具有一網路滑 行者電腦系統102。上述網路滑行者是藉由一通信介面1〇4 和一組國際網際網路以及其他網路連接j 〇6而連接到國際 網際網路和一網頁索引電腦108。在一些實施例中。網頁 索引電腦108是經由一私人通信通道直接連接到網路滑行 者102而不需使用到一區域或廣域網路連接。網路滑行者 1〇2是連接到國際網際網路的部分,而此國際網際網路是 (A)可儲存網頁的網路伺服器11〇和(B)伺器器,其提供分 配名稱伺服(DNS) 112的服務。針對本説明書的目的而假 設上述DNS 112可提供針對任何國際網際網路主機名稱的 所有已疋義代名給任何需求者,而該國際網際網路主機名 稱和他們的代名會形成每一 URL的字首部分。 在較佳實施例中,網路滑行者102是由數位儀器公司 (Digital Equipment Corporation)所製造的一阿爾法工作站電 腦(Alpha workstation computer)。但是,任何形式的電腦都 可使用來當做網路滑行者電腦。在較佳實施例中,網路滑 行者102包括一 CPU 114、前面提過的一通信介面1〇4、— 使用者介面116、隨機存取記憶體(RAM) U8和磁碟記憶體 (磁碟)120。在較佳實施例中,通信介面1 〇4是—具有非常 (請先閲讀背面之注意事項再填寫本頁) -裝- 訂 -10- -m i I - -- · 本紙張尺度逋用中國國家榡準(CNS ) Μ規格(加幻们公羞) 經濟部中央標準局貝工消費合作社印製 311996 A7 B7 五、發明説明(8 ) 高能力的通信介面,其可處理具有至少每秒30網頁平均輸 出量的1000或更多重疊通信要求。 在較佳實施例中,網路滑行者的RAM具有1 0億随機存 取記憶體以及儲存: • 一多工操作系統122 ; • 一國際網際網路通信經理程式124,其可用來拿取網 頁及從DNS 112中拿取代名資訊; • 一主機名稱表126,其儲存針對主機名稱之代名的資 訊; • 一網路資訊哈希表130; • 一哈希表經理程序132 ; • 一輸入緩衝器134和一附屬緩衝器136; • 一互斥信號(Mutex) 138,其用來控制哈希表13〇、輸入 緩衝器134和附屬緩衝器136的進入;以及 • 一網路滑行程序140 ;和 •引線資料結構(thread data structure) 142,用來定義執 行的T1引線,其中T1値是一整數並可由網路滑行者電 腦系統102選擇(例如:在較佳實施例中T1是設爲1000)。 磁碟儲存器120儲存一網路資訊磁碟檔案150,而此網路 資訊磁碟檔案150是可經由輸入缓衝器134和附屬緩衝器 136連續地進入,以下會做更詳細的説明。 主機名稱表126儲存爲DNS 112所知的每一主機名稱之所 有代名的資訊。代名是一組URL字首,此URL字首會被網 路滑行程序140針對一指定網頁的URL所替代,以便針對 -11 - 本紙張尺度適用中國國家標準(CNS ) A4规格(210X297公釐) (請先聞讀背面之注意事項再填寫本頁) -裝_ 訂 飞__1. A7 A7 經濟部中央標準局員工消費合作社印装 五、發明説明(9 ) 此指定網頁形成一組代名URLs。 上述資料結構和程序的操作使用將配合圖丨到圖4以及表 1和表2來説明。表丨和2包含網路滑行者程序的一假碼 (pseudocode)代表。雖然此假碼的使用是針對本説明目的 所發明出來的,但它運用通用電腦語言習性以及很容易地 被任何具有此技術的電腦程式設計者所了解。 網路資訊哈希表 參考圖2,網路資訊哈希表13〇包括針對每—網頁的一個 別登錄160 ’而上述每一網頁已被網路滑行者系統拿取和 分析’以及在已被拿取*分析的一網頁中的—’狐連結所 提及的每一網頁也被拿取和分析。每一登錄包含: •一手印値162,其乃對應於網頁且是唯—的; •一1位元的拿取旗164,其用來指示對應的網頁是否已 被網路滑行者拿取或分析;以及 •一檔案位置値166,其用來指示在網路資訊磁碟檔案 150中一對應登錄的位置。 在較佳實施例中,每一手印値是63個位元長,以及每— 檔案位置値是32個位元長。結果,在較佳實施例中每—哈 希表登錄160佔有12位元組。雖然哈希表登錄的確實大^ 並不重要,但每一哈希表登錄16〇是小於(平均至少小Μ% 對應的磁碟檔案登錄。 哈希表經理132經由它的"介面"170接收來自網路滑行者 程序140的兩種形式程序呼叫: •一第一需求是尋問哈希表經理132是否存在針對—指定 -12- 本紙張纽ϋ财s s家標?) Α4規格了;10><297公釐 ----Μ--γτ---「裝-- (請先閲讀背面之注意事項再填寫本頁)
、1T •T—· 311996 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(1〇 ) URL的一登錄,以及如果是的話,是否該記錄的拿取旗 指示對應的網頁事先已被拿取和分析;以及 • 一第二需求是要求哈希表經理132將針對一指定URL和 一指定磁碟檔案位置的一新登錄儲存於哈希表130中。 哈布表經理132使用一手印哈希功能172來針對每一呈現 給它的URL計算一 63個位元的手印。上述手印功能172可 確保每一唯一 URL被投映到一相似唯一手印値。手印功能 產生任何指定網頁的URL的一壓縮編碼。適當手印功能的 設計是被具有此一般技術的人所了解的。要注意的是當具 有大約225到226個網頁時,則手印可以可263個個別値。 當網路滑行者程序140尋問哈希表經理132是否哈希表已 經具有針對一指定URL的一登錄時,則哈希表經理(A)使 用上述手印哈希功能172來產生此指定URL的一手印。(B) 將該値傳送給一哈希表位置功能174,此哈布表位置功能 174決定具有該手印値的一登錄要儲存在哈布表130中的何 處。(C)確定是否此一登錄眞正被儲存到哈希表中。(D)如 果沒有發現一符合的登錄,則送回一失敗値(例如:-1)以 及(E>果在哈希表中發現該登錄,則送回一成功値(例如: 0 )以及該登錄的拿取旗値和磁碟位置値。 在較佳實施例中,哈希表位置功能174依據手印之低次 方位元的一預定數値來確定一哈希表登錄的位置,然後, 針對具有相同低次方位元的所有手印跟随一串登錄段。在 哈希表130中的登錄160針對所給的低次方位元而被分配到 方塊中,上述每一方塊具有B1個登錄,其中B1是一可調 -13- (請先閲讀背面之注意事項再填寫本頁)
T 裝. 訂 本紙張尺度逋用中國國家標準(CNS ) A4规格(2丨0X297公釐) Α7 Β7 五、發明説明(11 ) 整參數》上述所描述使用在較佳實施例中的設計具有使用 高密度方法將資料儲存在哈希表13〇中的優點。因任何熟 知此技術的人都會了解上述方法,所以可使用很多其他哈 希表位置功能。 當網路滑行者程序140要求哈希表經理132針對一指定 URL和一指定磁碟檔案位置儲存一新的哈希表登錄時,哈 希表經理(A)使用上述手印哈希功能i72來產生該指定url 的一手印(B)將該値傳送給一哈希表位置功能174,此哈希 表位置功能174會確定一具有該手印値的登錄該儲存在哈 希表13〇中的何處以及(C)在哈希表中的指定位置儲存一新 的登錄160,其具有可指示所對應的網頁還未被拿取的一 拿取値,同時也包含該手印値和指定的磁碟檔案位置.。 網路資訊磁碟檔案和緩衝器 參圖3和表2,經由使用在RAM中的一輸入緩衝器134和 一附屬緩衝器136而將磁碟存取操作次數減到最少。而該 輸入緩衝器134和附屬緩衝器136的支配是藉由一背景連續 磁碟樓案和缓衝器處理器程序,+亦即所知的磁碟檔案經理 ’所完成的。 經濟部中央梯準局貝工消費合作社印裝 在較佳實施例中,上述輸入緩衝器和附屬緩衝器各具有 50到100百萬位元組的大小。輸入緩衝器134是用來儲存網 路資訊磁碟檔案150的一連續指定之鄰近部分。網路滑行 者程序維持一指間在輸入緩衝器中要被處理之下一登錄的 相^ 176、一指筒在網路資訊磁碟檔案150中要被轉換到輸 入緩衝器134之下一登錄180的指標178,以及—些用來協 -14 本紙張尺度逋用中國固宏嫌jh τ - 經濟部中央橾準局員工消费合作社印製 五、發明説明(12 調輸入緩衝器134、附屬組器136和磁碟擋案150之使用的 其他薄記指標。 所有網路資訊磁碟檔案150的存取是經由輸入緩衝器134 連續地被執行’以致於來自連續磁碟檔案的大量登錄會被 移入到輸入緩衝器以做爲信號輸入/輸出的操作。然後, 連續磁碟檔案15〇可從該輸入緩衝器進入,同樣地,所有 要加入到連續檔案的新登錄會被儲存到附屬緩衝器136中 ’以及一旦該附屬緩衝器已滿,則附屬緩衝器中的内容會 被加入到連續檔案的後面。在這方法中,可刪除任意進入 到網路資訊磁碟檔案的情況發生,以及將由磁碟存取限制 所造成的等待時間減到最小。 每次網路滑行者掃描過所有在輸入緩衝器134中的所有 登錄時’在輸入緩衝器中所有經整理過的登錄會儲回到網 路資訊磁碟檔案150中,以及所有在附屬緩衝器136中的登 錄會被附加到磁碟檔案150的後面。除此之外,清除附屬 緩衝器136 ’以及在上一組登錄被複製到輸入緩衝器丨34 ( 如指標178所指)之後,磁碟檔案中下一組登錄會被複製到 輸入緩衝器134中。當網路滑行器程序已掃描在磁碟檔案 中最後一登錄時,掃描會從磁碟檔案150的開端開始。 一旦附屬緩衝器136填滿了新登錄,其内容便會被加入 到磁碟檔案150的後面’然後清除附屬緩衝器以便接收新 的登錄。 在網路資訊磁碟檔案150中每一登錄180儲存: • 一可變長度URL區182,其儲存該登錄所提及之該網買 15- 本紙張尺度逋用中國國家標率(CNS > A4规格(210X297公釐> (請先聞讀背面之注意事項再填寫本頁) 装.
、tT 311996 A7 B7 經濟部中央標準局負工消费合作社印製 五、發明説明(13 ) 的 URL ; •一拿取旗184,其指示是否對應的網頁已 器拿取和分析; ’路滑打 •一印時截186,其指示該網頁被拿取、分析和 日斯和時間; ’、?丨的 •一大小値188 ,其指示該網頁的大小; •一錯誤形式値190,其指示所遭遇錯誤的形式,士 任何錯誤,在最後時間會試著去拿取該網頁或者如^咳 登錄代表-副登錄(亦即代名URL),則該副登錄會: 略;以及 μ •其他拿取狀態參數192,此處其並沒有任何相關。 因職區182是可變長度的,所以在網頁資訊 # 150的長度也是可變的。 標案 網路滑行者程序 現在參考圖1到圖4和在表1中的僞碼,在較佳實施例中 網路滑行者程序140作用如下。當網路滑行者程序開始執 行時,其起動此(2〇〇)系統的資料的結構是藉由: •掃描一先前存在的網路資訊磁碟檔案15〇以及針對所 有在連續磁碟檔案中的登錄起動具有登錄的哈 130 ; 久 •從磁碟職150將-第-批料磁碟登錄複製到輸入 緩衝器134中; •針對新料續構案登錄定義一空的附屬緩衝器i36. 以及 -16- 本紙張纽適用中關家揉準(CNS )从胁(2ΐ()χ297公着 — C請先聞讀背面之注意事項再填寫本頁) •Γ 裝· .*1
.I— I I .H 經濟部中央標準局負工消費合作社印製 A7 ______B7 五、發明説明(14^ ' -- •定義一互斥信號138,以控制對輸入缓衝器134、附 緩衝器136和哈希表130的進入。 網路滑行者起動器會發起T1引線(例如:在較佳實施例 中會發起1000引線),每一線執行相同的滑行者程序。 在網路滑行者起動器程序執行前,在先前存在的網路資 訊磁碟檔案150中的該組登錄被稱爲已知網頁的"根組" 。該組可進入的網頁包括在根組中被結提及的所有 網頁,以及在其他可進入網頁中被URL連結所提及的所有 網頁。因此,因爲在根組和不可進入的網頁間沒有URL連 結,所以有可能一些網頁是無法進入到網頁滑行者1〇2。 當經由不同通道可獲得有關網頁的資訊時,可藉由額外 登錄的手插入(manual insertion)或其他用來包含額外登錄 的機構來擴充網路資訊磁碟檔案15〇 (藉此擴展根組144), 以便使先前無法進入的網頁變成可進入。 下面是有關藉由同時運作引線來執行網路滑行者程序的 説明。程序的第一步是需求和等待互斥信號(2〇2)。要求 互斥信號的所有數,以致於沒有兩個引線會處理相同的磁 碟檔案登錄,以及沒有兩個線會在相同時間資訊寫入哈希 表、輸入緩衝器、附屬缓衝器或磁碟檔案中。因爲哈希表 130、輸入緩衝器134、附屬緩衝器136和磁碟標案150是藉 由互斥信號的使用而被保護,所以他們被通稱爲"被保護 資料結構"。一旦一引線擁有該互斥信號,它會在還沒掃 描下一登錄時開始掃描輸入緩衝器中的磁碟檔案登錄(如 指示器176所指示者),直到其找尋並選擇到一符合選擇標 __ -17- 本紙張尺度適用中國國家標準(CNS〉A4规格(210><297公釐) (請先閲讀背面之注意事項再填寫本頁) .裝_ -訂 A7 經濟部中央梯準局貝工消費合作杜印製
311996 五、發明説明(16 進一步處理。 一旦一網頁參考登錄已被選擇,則會釋放互斥信號以致 其他引線可進入保護的資料結構(206)。然後網路滑行者 程序會拿取對應的網頁(208)<5在拿取完成或失敗後,此 程序會再次要求和等待互斥信號(210),以致它可再次利 用保護的資料結構。 如果拿取失敗(212-N) ’則依據傳回網路爬行者(214)的 錯誤回碼,在針對該網頁的連續檔案登錄中拿取狀態資料 會被記上一拿取失敗的記號。如果拿取成功(2ΐ2·γ),在 針對孩網頁的哈希表登錄(16〇)之拿取旗164會被設定如 同在針對該網頁的連續磁碟檔案登錄180中(在輸入緩衝器 中)的拿取旗184—樣。除此之外,在被拿取網頁中之每一 URL連結合被分析(216)。 在被拿取的網頁經過分析之後,或者拿取失敗已記錄在 輸入緩衝器登錄中,則釋放互斥信號以致其他引線可進入 到保護的資料結構(218^ 在圖4B中,將描述用來分析在被拿取網頁中之URL連結 的程序j值得注意的是一網頁可包含1;尺1^連結到文件中, 如衫像檔案,而此文件不包含適合索引系統1〇8來索引的 資訊。此文件經常用來當做該網頁的組成成份。針對此文 件的目的’到組成樓案,如影像檔案和其他非索引檔案的 URL連結並不是到其他網頁的URL連結。到非索引檔案的 URL連結會被網路滑行者程序所忽略。 一旦到其他網頁的所有URL連結已被處理(23〇),被拿取 19- 意 訂 飞 本紙張財國國家標丰(cnI) ▲格(210χ297公釐 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(17 ) 的網頁會被送到索引器以做爲索引用(232),以及完成藉 由網路滑行者來處理被拿取網頁。否則,到一網頁的一下 一 URL連接會被選取(234)。如果已經有一針對和被選取連 結相關之URL的哈希表登錄(236),沒有對該連結做進一步 處理的必要,及如果在被分析的網頁中仍保留有任何未處 理的URL連結,貝|J會選取一下一 URL連結(234)。 如果沒有一針對和被選取連結相關之URL的哈希表登錄 (236),則會利用在主機名稱表126中的資訊產生針對該登 錄之URL的所有代名,然後檢查哈希表130以了解是否其 針對任何在URLs儲存一登錄(238)。如果針對任何代名 URLs有一登錄在哈希表中,則沒有對該連結做進一步處 理的必要,及如果在被分析的網頁中仍保有任何未處理的 URL連結時,則選取一下一 URL連結(234)。 如果針對被選連結的URL或者任何它的代名並沒有發現 登錄在哈希表中,則該URL代表一先前並沒有被包括在網 頁的網路爬行者之資料庫中的"新"網頁,因此,對於此新 網頁的一登錄會被加入到在附屬緩衝器中磁碟檔的部分 (240)。此新的磁碟檔案登錄包括被正在接受處理之連結 所提及的URL,及該登錄被記上"未被拿取"的訊號。除此 之外,一對應的新登錄被加到哈希表中,及清除該登錄的 拿取旗,以便指示該對應的網頁還未被拿取(240)。然後 ,如果在網頁中仍保有任何未處理URL連結,則會繼續對 在網頁中下一未處理的URL連結做處理。 因爲哈希表130包括針對每一已知網頁的碟位置値,所 -20- 本紙張尺度適用中國國家標準(CNS ) A4规格(210X297公釐) ----MT--ττ---「裝-- (請先閲讀背面之注意事項再填寫本頁) -·一 A7 B7 五、發明説明(18 ) 以網路資訊哈希表130是被程序使用來當做進入網路資訊 磁碟檔案150的索引,而此程序的目的和操作是在本説明 範圍之外。換句話説,藉由第一次讀取在網路資訊哈希表 中所對應登錄的磁碟檔案位址來進入在網路資訊磁碟棺案 中的一登錄,以及讀取在該位址的網路資訊磁碟檔案登錄 〇 替換的實施例 任何和網路資訊哈希表130有相同特性(如一平衝樹 (balance tree),一跳越表(Skip list)之類的)的資料結構,可 被使用來替換上述較佳實施例的哈希表結構13〇。 本發明使用3個主要機構來克服昔知技術中網路爬行者 的速度限制。 首先’一具有足夠資訊的網路目錄表被儲存在RAM中以 確定那些網頁連接代表先前網路爬行者所未知的新網頁, 以使得被接收的網頁可被分析而不必進入一磁碟檔案。 經濟部中央標準局員工消费合作社印装 _ I---Γ---^装^ I (請先閲讀背面之注意事項再填寫本頁) 第二,只有在連續指定才可進入一較完全的網頁目錄, 及藉由大的輸入和附屬緩衝器來完成此進入,而上述附屬 缓衝器可減少對該點所完成之磁碟進入次數,而該磁碟進 入不會對網路爬行者的速度有重大影響。 第三,藉由使用大量同時活動新的引線來執行網路滑行 者程序,以及藉由提供一可處理相似數目之同時通信頻道 的通信介面给網路伺服器,則本發明可避免由網路存取等 待時間所造成的延遲。 特別地,當多數引線正在等待對網頁拿取需求的回應時 _____ -21 - 本紙張尺度逋用中國國家標準(CNS ) A4规格(210X297公釐〉 311996 A7 B7 五、發明説明(19 ’其他引線正在分析接收到的網頁。藉由使用皆用來完成 相同網路滑行者程序的多數引線,平均一連_具有已接收 到之網頁的引線正在等待互斥信號,以致其可處理此接收 到的網頁。同時,網頁的拿取在時間上是傾向間隔的。結 果,網路滑行者很少會在一等待接收一網頁的狀態和沒有 作了做藉由使用一多處理器工作站和更進一步增加可 同時執行網路滑行者程序的引線數目,可進一步增加網路 滑行者的輸出量。 ,雖,’:依些少數指定實施例來描述本發明,但本發明的 説明並非用來限制本發明。其當可做不同的修飾而不脱離 在所附申請專利範園之外。 表1 網路滑行者程序的假碼代表 程序:網路滑行者 (請先閎讀背面之注意事項再填寫本頁}
、1T 經濟部中央標隼局員工消費合作社印製 / *起動步驟* / 掃描先如存在的網路資訊磁碟構案並針對在連續樓案中 有登綠起動具有登錄的哈希表 將第一批連續磁碟登錄讀進在RAM中的輸入缓衝器中 針對新的連續檔案登錄定義空的附屬緩衝器 疋義互斥信號以便控制對輸入緩衝器、附屬缓衝器和哈 表的進入 起初1000條引線,而每一引線執行相同的滑行者程序 所 希 -99 .
五、發明説明(2〇 ) 經濟部中央標準局員工消費合作杜印製 程序:滑行者{ 永遠執行:{ 需求和等待互斥信號 依=建立的狐選擇標準讀取連續檔案(在輸入緩衝 到要處理的—新的URL被選取爲止。當選擇下— ntn’針對所有已知URL的代名檢查哈希表 /確叱疋否孩網頁在一代名下已被拿取,以及是否 網頁在一代名將連續檔案登錄的錯誤形式區 "非選擇代名"下已被拿取。 擇標準的例子:URL還未被拿取或超過Hh、 前被拿取過,以及不是一非選擇代名*/ 釋放互斥信號 拿取所選擇的網頁 需求和等待互斥信號 如果拿取成功 { 將網頁在哈希表和在緩衝器中的連續檔案登錄中 上已拿取的記號 /*分析被拿取的網頁 針對在網頁中的每一 URL連結 { 如果URL或任何定義之代名在哈希表中 器 該 時 記 (請先閲讀背面之注意事項再填寫本頁} -裝. 、11 -23- 本紙張尺度適用中國國家標準(CNS ) A4规格(210X297公釐)
{不做任何事 否則 /*該URL代表一先前未& 木巴括在貪枓庫中的,•新••網 頁*/ 針對所對應的網頁將新登錄加入到附屬緩衝器 ,該登錄被記上"未被拿取"的記號 將登錄加入到哈希表,該登錄被記上"未被拿取 "的記號 傳送所拿取的網頁到索引器以做爲處理 } 否則 ----P---Tt---「¥-- (請先閲讀背面之注意事項再填寫本頁) 訂 經濟部中央標準局貝工消费合作社印製 依據收到的回碼,將在輸入緩衝器中,正在被處理 的該登錄記上適當的"拿取失敗"錯誤指示} 釋放互斥信號 } /*永遠執行迴路的結束*/ -24- 本紙張尺度適用中國國家橾準(CNS)A4规格(210x297公兼) 3ΐί996 五、發明説明(22 ) A7 B7 表2 針對R '連續檔案緩衝器的假碼代表 i序連續樓案缓衝器(a/k/a磁碟樓案經理) { 不-什麼時候_取連續檔案"指令溢出該輸入緩衝器 { 將輸入緩衝器複製回連續磁碟檔案 讀取下一組登錄到輸入緩衝器中 將附屬緩衝器的内容阳_凰丨、& & 奋附屬到連續磁碟檔案的後面 清除附屬緩衝器以針對新登綠做準備 } 不論什麼時候一”將登錄加入到亀案"造成附屬緩 器溢出 { 將附屬緩衝器的内容附屬到連續磁碟檔案的後面 清除附屬緩衝器以針對新登綠做準備 將懸置的新登錄加人到附屬缓衝器的開端 } (請先閲讀背面之注意事項再填寫本頁) -裝_ 訂· 經濟部中央標準局員工消費合作社印製

Claims (1)

  1. '申請專利範圍 —種用來設置(locating)資料组之系統,該資料組包括儲 存在遠端設置的可存取電腦中的網頁,每一網頁具有一 唯一的 URL (全球源設置器;universai resource locator), 至少一些該網頁包含到其他網頁的URL連結,此系統包 括: 一通信介面’其依據對應的URLs從該遠端設置的電 腦拿取指定的網頁; 一網頁資訊檔案,其具有一组登錄,每一針對一對 應網頁的登錄代表一 URL和拿取狀態資訊; 一網頁資訊表,其儲存在隨機存取記憶體中(rand〇m access memory),具有一組登錄,針對一對應網頁每一 登錄代表一手印値和拿取狀態資訊;以及 —用來完成-㈣滑行者程彳的裝置,丨由系統來執 行,以便拿取和分析網頁,該網路滑行者程序包括 ,拿取其資訊檔案登錄符合基於該拿取狀態資料的 定選擇標準的網頁的指令,以針對在每-收到的網 中之每-URL連結確定是否—對應登錄已存在於網 資訊中,以及針對在網路資訊表中不具有一對應 ,的母-URL連結加人:^登錄於網路資訊表中和 對應新登錄於網路資訊—ip丨中。 系統,包括多數?丨線, 路滑行者程序,包括裝 用 預 頁 登 根據申請專利範圍第1項 重疊時間期間每一引線執 以致當一些引線正在拿取興 頁的::枯袈 在分析所拿取到的網頁。 W的其他幻線也 在 置 正 六、申請專利範圍 A8 B8 C8 D8 冬. 3.根據申請專利範團第2 Λ ^1;· ηΤ — ^ ^ 工吓 Ίδ 貺 (mUteX) ’其中每1線所^|的該網路滑行者程序包 括在進入網路資訊表和網檔案前用來請求和 互斥信號的指令。 統,包括一互斥信號 \r^A' 4. 根據申請專利範園第3项統,包括 一輸入緩衝器和一附屬 -檐案經理’其用來將來▼於網路資訊構案的連續指 定登錄段儲存到輸入緩衝器中; 該網路滑行者程序,其用來掃描和分析在輸入緩衝器 中的網路資訊檔案登錄,以找尋符合該預定選擇標準的 該網路資訊檔案登錄; · ,該網路滑行者程序,其用來將所有要被加入到該網路 資訊檔案的登錄儲存於該附屬缓衝器中;以及 該標案經理,其用來將^屬緩衝器中的多數登綠移 到該網路資訊檔案中。…" 5. 根據申請專利範圍第統,^㈣ 中的每一登錄包括在第一 中一對應登錄的—位 址 (請先閱讀背面之注意事項再填寫本頁) 裝· -、1T. 經濟部中央標準局員工消費合作社印製 6. -種用來設置資料組的方法,該資料組包括儲存在遠 設置的可存取電腦的網頁,每—網頁具有—唯一 至少一些該網頁包括連接到其他網頁的url連結,該 法包括: ^ 儲存具有一组登錄的一網頁資訊,針對—對應網頁 一登錄代表一URL和拿取狀態資訊; 、^ 端 方 每 -k__ -27- 私紙張尺度適用中國國家標準(CNS ) ( 210X297公釐) A8 B8 C8 D8 311996 夂、申請專利範園 儲存具有一組登錄的一網路資訊表於RAM中,針對一 對應網頁每-登錄代表一手印値和拿取狀態資訊;以及 執行一網路滑行者程序,以便拿取和分析網頁,包招 (A)連續掃描在網路資訊檔案中的登錄,以確定該处 中的那些符合預定選擇標準,附取其網頁資訊:案 登錄符合該預定選擇標準的網頁;(c)針對在每—的 頁中連結到其他網頁的每—URL連結,確定是否—對應 登錄已存在網路資訊表中,以及(D)對於在網路資^表 :不具有-對應登錄的每— URL連結加人—新登錄於網 資訊表中及一對應新登錄於網路資訊檔案中。 請專利範圍第6項之方法,包括在重叠時間週期 期4在複㈣線中執行該網路滑行者程序,以致地 =線正在拿取網頁時,其他引線也正在分析所拿取的網 8·根據申請專利範圍第7項之方法,包括: 定義一互斥信號; 當在每-該引線中執行該網路滑行者程序時,在進入 I網路資訊表和網路資訊構案前需求 9‘根據申請專利範園第8項之方法,包括:“说。 在MRAM中定義—"輸入缓衝器„和」附屬器"· 緩:^網路資㈣案的連續指Μ錄段儲存到該輸入 在資訊播案中之登錄的步驟包括掃描 輸㈣㈠之網路資訊檔案登錄,以確定該網路 本紙張尺度適财ϋ ------------γ 装__ (請先閱讀背面之注意事項再填寫本頁J 經濟部中央標準局員工消費合作社印裝 訂----------、_
    312996 、申請專利範圍 A8 B8 C8 D8 經濟部中央標準局員工消費合作社印製 資訊構案登錄的那些符合該預定選擇標準; 儲存所有登錄於m附屬緩衝器中,以便被加 中;以及 禾 將在邊附屬緩衝器中的複數登錄移到該網路資訊構案 0 1〇‘根據中專利範圍第6項之方法,其中在網路資訊表中 t每a錄包括在網路資訊檔案中—對應登錄的一位址 ,該方法包括: 藉由讀取該網路資訊表中-對應登錄之位址,而存 在邊網路資訊構案中該登錄之一 ’然後在該位址上讀 該網路資訊檔案中的該—登錄。 一種用以設置儲存在和網路連接之電腦中的資料組之裝 置,每一資料組由一唯—位址來認定,至少—些資料 包括儲存在電腦中之其他資料组的一個或多個連結位 該裝置包括: 一通信介面,其連接於網路並針對所確認的資料组, 以傳送4求到該電腦,該每一請求包括該所確認資料组 的位址、以及接收資料組以回應該請求; 第*己憶體,其儲存一第一組登錄、,該第一組登錄 每一登錄包括一對應資料组的位址和該對應資料組的狀 態資訊; 一第二記憶體,其儲存一第二組登綠,該第二組登錄 的母一登錄包括一對應資料組之位址的一編碼以及該對 應資料组之狀態資訊的一解碼;以及 取 取 n Hi n n»,in n n .^! (請先閱讀背面之注意事項再填寫本頁) 11 组 址 、1T- 29- 本紙張尺度適用中國國家標準(CNS ) Μ規格(210X297公釐) 311996 A8 B8 C8 D8 憶體以及該通信 針對在該第一組 生請求,其中該 以及回應接收到 中所對應到至少 新登綠,其中在 在該第二组中的 六、申請專利範圍 引線裝置,其耦合到該第一和第二記 介面’以連續地讀取該第一組的登錄、 中具有對應登錄的那些所確認的資料產 第一組是符合所定狀態基準選擇標準、 所確認的資料組,在所接收到的資料组 一副組位址的該第一組和第二組中產生 該第二組中沒有對應的登綠。 11根據申請專利範園第^項之裝置,其中 每一登錄包括在該第一组中—對應登錄的一位址,該第 (請先間讀背面之注意事項再填寫本頁) 二組登錄是用來索引該第一組登錄。 I3·根據申請專利範圍第11項之裝置,包括 置,以致當一些引線裝置正在產生該請 確認資料組時,其他引線裝置也正在該 記憶體中產生新登錄。 K根據申請專利範園第Π項之裝置,包括 中每一該引線裝置包括邏輯,以便在進 和第二記憶體前請求和等待互斥信號。 I5·根據申請專利範圍第Μ項之裝置,包括 一多個該引線裝 求和接收到該所 第一組和第二組 一互斥信號,其 入該第一記憶體 、-° 經濟部中央標準局員工消費合作社印製 —輸入緩衝器和一附屬緩衝器,其位於該第二記憶體 中; a —經理,其用來將在該第一記憶體中連續指定登錄群 儲存到該輸入緩衝器中; 每一該引線裝置包括用來掃描和分析在該輸入緩衝器 中的登錄的裝置,以便找尋該登錄,其中該登錄是符合
    經濟部中央標準局員工消費合作社印製 311996 έ88 _S88 -__________________________ 六、申請專利範圍 該預定狀態基準選擇標準;以及 每一該引線裝置將在所有登錄儲存在該附屬緩衝器中 ,以便加入該第一記憶體中; 該經理也具有用來將在該附屬緩衝器中的複數登錄移 到該第一記憶體的裝置。 16. —種用來設置儲存在和網路連接之電腦中的資料組的方 法,每一資料組被一唯一位址所確認,至少一些該資料 組包括一個或多個儲存在該電腦中其他資料組的連結位 址,包括: (A) 儲存一第一組登錄於一第一記憶體中,該第一組 中的每一登錄包括一對應資料组的位址和針對該對應資 料組的狀態資訊; (B) 儲存一第二組登錄於一第二記憶體中,該第二組 中的每一登錄包括一對應資料組之位址的一編碼以及針 對該對應資料組之狀態資訊的一編碼; (C) 連續地讀取該第一組的登錄; (D) 針對所確認的資料組經由網路傳送請求到該電腦, 其中該所確認的資料組具有該第一組的對應登錄,其符 合預定狀態基準選擇標準;以及 (E) 爲了回應接收所確認的資料組,在該第一和第二 組中產生對應於所接收到料組中至少一副組位址的 新登錄,其中在該第二組對應的登錄。 根據申請專利範園第16項^^法,其中該步驟(B)包 括將該第一組中一對應登錄位址儲存於該第二組中 ---- -31 - 本紙張用中國國家標^T^NS) Α4· 〇χ297公釐j --- f請先閱讀背面之注意事項再填寫本耳j
    申請專利範園 A8 BB C8 D8 二;:::=取 η::料組。 ^ 資 19.根據申請專利範圍第18項^|^法,包括: 定義一互斥信號;以及、在進入該第-和第二記憶藭、的第-和第二組登錄前 每一孩引線會請求和等;信號。 2〇·根據申請專利範圍第19項 職方法,包括: \^τ; π-ύΛ (請先閲讀背面之注意事項再填寫本頁) 在該第二記憶體中定義緩衝器和一附屬緩衝 器 經濟部中央標準局員工消費合作社印製 將來自第一組登錄的連續指定登錄段儲存於該輸入缓 衝器中; 該連續讀取步驟包括連續讀取在該輸入緩衝器中之登 錄的步驟,及決定那些該輸入緩衝器登錄符合該預定狀 態基準選擇標準; 將所有登錄儲存於該附屬缓衝器中,以便被加入該第 一記憶體;以及 將在該附屬缓衝器中的複數登錄移到該第一記憶體。 -32- 本紙張尺度適用中國國家標準(CNS > Α4規格(210><297公釐) 1y裝------訂-----^丨、—·
    ~^-140311396 132 哈希表經理 172 URL 手印哈希表功能 表 希置能 哈位功 網路滑行 者程序 哈希表經理介面 -170 八 174 拿取旗 -164 162 .166 160-1- 160-2. 160-3· 手印(63位元) 檔案位置(32位元) • • 嗛 • • • • • 130 網路資訊哈希表 311996
    圖4A
TW085115495A 1995-12-13 1996-12-13 TW311996B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/571,748 US5974455A (en) 1995-12-13 1995-12-13 System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table

Publications (1)

Publication Number Publication Date
TW311996B true TW311996B (zh) 1997-08-01

Family

ID=24284878

Family Applications (1)

Application Number Title Priority Date Filing Date
TW085115495A TW311996B (zh) 1995-12-13 1996-12-13

Country Status (11)

Country Link
US (2) US5974455A (zh)
EP (3) EP3086246A3 (zh)
JP (1) JP3160719B2 (zh)
KR (1) KR100330576B1 (zh)
CN (2) CN1192317C (zh)
AU (1) AU694386B2 (zh)
BR (1) BR9611149A (zh)
CA (1) CA2240350A1 (zh)
TW (1) TW311996B (zh)
WO (1) WO1997022069A1 (zh)
ZA (1) ZA9610561B (zh)

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778367A (en) * 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
US7349892B1 (en) * 1996-05-10 2008-03-25 Aol Llc System and method for automatically organizing and classifying businesses on the World-Wide Web
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US5897637A (en) * 1997-03-07 1999-04-27 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file
US6222847B1 (en) * 1997-10-08 2001-04-24 Lucent Technologies Inc. Apparatus and method for retrieving data from a network site
US6253240B1 (en) 1997-10-31 2001-06-26 International Business Machines Corporation Method for producing a coherent view of storage network by a storage network manager using data storage device configuration obtained from data storage devices
JP2996937B2 (ja) * 1997-12-01 2000-01-11 三菱電機株式会社 サーバ
US6145003A (en) * 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6119171A (en) 1998-01-29 2000-09-12 Ip Dynamics, Inc. Domain name routing
US6345304B1 (en) * 1998-04-01 2002-02-05 Xerox Corporation Obtaining network addresses from identifiers
US6457060B1 (en) * 1998-04-30 2002-09-24 Openwave Systems Inc. Method and apparatus for flexibly linking to remotely located content on a network server through use of aliases
US6727923B1 (en) * 1998-05-08 2004-04-27 Apple Computer, Inc. Creation and manipulation of internet location objects in a graphical user interface environment
US6638314B1 (en) * 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
US6424966B1 (en) * 1998-06-30 2002-07-23 Microsoft Corporation Synchronizing crawler with notification source
US6553372B1 (en) * 1998-07-13 2003-04-22 Microsoft Corporation Natural language information retrieval system
US6393428B1 (en) * 1998-07-13 2002-05-21 Microsoft Corporation Natural language information retrieval system
US6336116B1 (en) * 1998-08-06 2002-01-01 Ryan Brown Search and index hosting system
US6654813B1 (en) * 1998-08-17 2003-11-25 Alta Vista Company Dynamically categorizing entity information
US6735585B1 (en) 1998-08-17 2004-05-11 Altavista Company Method for search engine generating supplemented search not included in conventional search result identifying entity data related to portion of located web page
US6510467B1 (en) * 1998-09-16 2003-01-21 International Business Machines Corporation Method for transferring data files between a user and an internet server
SE514376C2 (sv) * 1998-09-24 2001-02-19 Mirror Image Internet Inc Ett internet-cachningssystem samt ett förfarande och anordning i ett sådant system
US6145000A (en) 1998-10-06 2000-11-07 Ameritech Corporation System and method for creating and navigating a linear hypermedia resource program
US6195707B1 (en) * 1998-10-28 2001-02-27 International Business Machines Corporation Apparatus for implementing universal resource locator (URL) aliases in a web browser and method therefor
US6314460B1 (en) 1998-10-30 2001-11-06 International Business Machines Corporation Method and apparatus for analyzing a storage network based on incomplete information from multiple respective controllers
US6289375B1 (en) * 1998-10-30 2001-09-11 International Business Machines Corporation Method and apparatus for invoking network agent functions using a hash table
US6411950B1 (en) * 1998-11-30 2002-06-25 Compaq Information Technologies Group, Lp Dynamic query expansion
US7131062B2 (en) * 1998-12-09 2006-10-31 International Business Machines Corporation Systems, methods and computer program products for associating dynamically generated web page content with web site visitors
US6374294B1 (en) * 1998-12-23 2002-04-16 Nortel Networks Limited Method and apparatus for negating invalid networking addresses
US6993531B1 (en) * 1999-02-04 2006-01-31 Naas Aaron J System and method of routine navigation
GB2339516B (en) * 1999-04-06 2000-07-05 Iesearch Limited An inter-computer communications apparatus
US7055739B1 (en) * 1999-05-25 2006-06-06 Silverbrook Research Pty Ltd Identity-coded surface with reference points
US6341306B1 (en) * 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
US7162477B1 (en) * 1999-09-03 2007-01-09 International Business Machines Corporation System and method for web or file system asset management
US6321265B1 (en) 1999-11-02 2001-11-20 Altavista Company System and method for enforcing politeness while scheduling downloads in a web crawler
US6301614B1 (en) * 1999-11-02 2001-10-09 Alta Vista Company System and method for efficient representation of data set addresses in a web crawler
US6263364B1 (en) * 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6377984B1 (en) * 1999-11-02 2002-04-23 Alta Vista Company Web crawler system using parallel queues for queing data sets having common address and concurrently downloading data associated with data set in each queue
US7082454B1 (en) * 1999-11-15 2006-07-25 Trilogy Development Group, Inc. Dynamic content caching framework
WO2001037184A2 (en) 1999-11-18 2001-05-25 Netstock Direct Corporation Method and apparatus for aggregated securities brokerage service
US6826725B1 (en) * 1999-12-16 2004-11-30 Microsoft Corporation Techniques for invoking system commands from within a mark-up language document
AU2595801A (en) * 1999-12-30 2001-07-16 Auctionwatch.Com, Inc. Minimal impact crawler
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
WO2001059623A2 (en) * 2000-02-08 2001-08-16 Onepage, Inc. System and method for dynamic aggregation of content distributed over a computer network
US7506034B2 (en) * 2000-03-03 2009-03-17 Intel Corporation Methods and apparatus for off loading content servers through direct file transfer from a storage center to an end-user
US6952737B1 (en) * 2000-03-03 2005-10-04 Intel Corporation Method and apparatus for accessing remote storage in a distributed storage cluster architecture
KR100314388B1 (ko) * 2000-03-28 2001-11-29 김연종 자동 페이징을 지원하는 웹 브라우저와 웹 브라우저의 멀티뷰 생성방법 및 그 프로그램 소스를 저장한 기록매체
US7305610B1 (en) 2000-04-06 2007-12-04 Google, Inc. Distributed crawling of hyperlinked documents
EP1154356A1 (en) * 2000-05-09 2001-11-14 Alcatel Caching of files during loading from a distributed file system
EP1407381B1 (en) * 2000-05-29 2008-02-13 Saora Kabushiki Kaisha System and method for saving browsed data
US7082470B1 (en) * 2000-06-28 2006-07-25 Joel Lesser Semi-automated linking and hosting method
US6952730B1 (en) * 2000-06-30 2005-10-04 Hewlett-Packard Development Company, L.P. System and method for efficient filtering of data set addresses in a web crawler
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
US6832220B1 (en) * 2000-08-03 2004-12-14 Microsoft Corporation Method and apparatus for file searching, accessing file identifiers from reference page
US6959326B1 (en) * 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
US20020165952A1 (en) * 2000-10-20 2002-11-07 Sewell James M. Systems and methods for remote management of diagnostic devices and data associated therewith
MXPA03003494A (es) 2000-10-24 2005-01-25 Thomson Licensing Sa Metodo para diseminar anuncios utilizando una pagina de reproduccion de medios embebida.
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7627830B1 (en) * 2000-10-31 2009-12-01 Aol Llc, A Delaware Limited Liability Company Click-to-add, jot-it-down, and add banner
US7139747B1 (en) * 2000-11-03 2006-11-21 Hewlett-Packard Development Company, L.P. System and method for distributed web crawling
JP2002149699A (ja) * 2000-11-10 2002-05-24 Hitachi Ltd データ検索装置
US6842761B2 (en) 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
US6981030B2 (en) * 2000-11-29 2005-12-27 Ncr Corporation Private data protection method for a network kiosk
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020127530A1 (en) * 2001-03-06 2002-09-12 Weakly Mark A. System and method for tracking and displaying a user's progress in a distance learning environment
US7386792B1 (en) 2001-03-07 2008-06-10 Thomas Layne Bascom System and method for collecting, storing, managing and providing categorized information related to a document object
US7158971B1 (en) 2001-03-07 2007-01-02 Thomas Layne Bascom Method for searching document objects on a network
US7555561B2 (en) * 2001-03-19 2009-06-30 The Aerospace Corporation Cooperative adaptive web caching routing and forwarding web content data broadcasting method
ATE363693T1 (de) * 2001-03-23 2007-06-15 Siemens Ag Methode zum auffinden von dokumenten
US7739327B2 (en) * 2001-04-05 2010-06-15 Playstream Inc. Distributed link processing system for delivering application and multi-media content on the internet
US20020147775A1 (en) * 2001-04-06 2002-10-10 Suda Aruna Rohra System and method for displaying information provided by a provider
US20020176611A1 (en) * 2001-05-23 2002-11-28 Dong Mimi C. Fingerprint addressing system and method
NO20013308L (no) * 2001-07-03 2003-01-06 Wide Computing As Apparat for söking på Internett
US7089233B2 (en) * 2001-09-06 2006-08-08 International Business Machines Corporation Method and system for searching for web content
DE60232732D1 (de) * 2001-09-20 2009-08-06 Hitwise Pty Ltd Verfahren und system zur charakterisierung des online-verhaltens
US20040133629A1 (en) * 2002-02-01 2004-07-08 Brian Reynolds Methods, systems and devices for automated web publishing and distribution
JP2003337699A (ja) * 2002-03-13 2003-11-28 Saora Inc 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7120641B2 (en) * 2002-04-05 2006-10-10 Saora Kabushiki Kaisha Apparatus and method for extracting data
US20030195896A1 (en) * 2002-04-15 2003-10-16 Suda Aruna Rohra Method and apparatus for managing imported or exported data
US20030212762A1 (en) * 2002-05-08 2003-11-13 You Networks, Inc. Delivery system and method for uniform display of supplemental content
US7937471B2 (en) * 2002-06-03 2011-05-03 Inpro Network Facility, Llc Creating a public identity for an entity on a network
US7139828B2 (en) * 2002-08-30 2006-11-21 Ip Dynamics, Inc. Accessing an entity inside a private network
US8234358B2 (en) 2002-08-30 2012-07-31 Inpro Network Facility, Llc Communicating with an entity inside a private network using an existing connection to initiate communication
US7716322B2 (en) * 2002-09-23 2010-05-11 Alcatel-Lucent Usa Inc. Automatic exploration and testing of dynamic Web sites
US7774325B2 (en) * 2002-10-17 2010-08-10 Intel Corporation Distributed network attached storage system
US8412766B1 (en) * 2002-10-17 2013-04-02 Cisco Technology, Inc. Method and apparatus for tracking client navigation among multiple resources in communication session information saved by a server
US7949785B2 (en) 2003-03-31 2011-05-24 Inpro Network Facility, Llc Secure virtual community network system
EP1630692A4 (en) * 2003-05-19 2007-04-11 Saora Kabushiki Kaisha ASSOCIATED INFORMATION PROCESSING METHOD, APPARATUS AND PROGRAM
US7331038B1 (en) * 2003-07-02 2008-02-12 Amazon.Com, Inc. Predictive prefetching to improve parallelization of document generation subtasks
US20050050021A1 (en) * 2003-08-25 2005-03-03 Sybase, Inc. Information Messaging and Collaboration System
US20050204173A1 (en) * 2004-03-10 2005-09-15 Giga-Byte Technology Co., Ltd. Method for automatically filling in user data using fingerprint identification
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
GB2417342A (en) * 2004-08-19 2006-02-22 Fujitsu Serv Ltd Indexing system for a computer file store
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) * 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7444597B2 (en) * 2005-03-18 2008-10-28 Microsoft Corporation Organizing elements on a web page via drag and drop operations
US20060212792A1 (en) * 2005-03-18 2006-09-21 Microsoft Corporation Synchronously publishing a web page and corresponding web page resources
US20060212806A1 (en) * 2005-03-18 2006-09-21 Microsoft Corporation Application of presentation styles to items on a web page
US8538969B2 (en) * 2005-06-03 2013-09-17 Adobe Systems Incorporated Data format for website traffic statistics
US8272058B2 (en) 2005-07-29 2012-09-18 Bit 9, Inc. Centralized timed analysis in a network security system
US7895651B2 (en) 2005-07-29 2011-02-22 Bit 9, Inc. Content tracking in a network security system
US8984636B2 (en) 2005-07-29 2015-03-17 Bit9, Inc. Content extractor and analysis system
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US8095565B2 (en) * 2005-12-05 2012-01-10 Microsoft Corporation Metadata driven user interface
US7680789B2 (en) * 2006-01-18 2010-03-16 Microsoft Corporation Indexing and searching numeric ranges
US9633356B2 (en) 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
US9165040B1 (en) 2006-10-12 2015-10-20 Google Inc. Producing a ranking for pages using distances in a web-link graph
US8745183B2 (en) * 2006-10-26 2014-06-03 Yahoo! Inc. System and method for adaptively refreshing a web page
US20080104257A1 (en) * 2006-10-26 2008-05-01 Yahoo! Inc. System and method using a refresh policy for incremental updating of web pages
US20080104502A1 (en) * 2006-10-26 2008-05-01 Yahoo! Inc. System and method for providing a change profile of a web page
US20080263193A1 (en) * 2007-04-17 2008-10-23 Chalemin Glen E System and Method for Automatically Providing a Web Resource for a Broken Web Link
US20090055436A1 (en) * 2007-08-20 2009-02-26 Olakunle Olaniyi Ayeni System and Method for Integrating on Demand/Pull and Push Flow of Goods-and-Services Meta-Data, Including Coupon and Advertising, with Mobile and Wireless Applications
CN101409634B (zh) * 2007-10-10 2011-04-13 中国科学院自动化研究所 基于信息检索的互联网新闻影响力定量分析工具及方法
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US20090210423A1 (en) * 2008-02-15 2009-08-20 Yahoo! Inc. Methods and systems for maintaining personal data trusts
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
CN101309292B (zh) * 2008-06-06 2012-02-15 中国联合网络通信集团有限公司 一种无线互联网sp业务url的记录方法及系统
US9684907B2 (en) 2008-08-21 2017-06-20 Dolby Laboratories Licensing Corporation Networking with media fingerprints
US8677018B2 (en) * 2008-08-25 2014-03-18 Google Inc. Parallel, side-effect based DNS pre-caching
JP2012506813A (ja) * 2008-10-23 2012-03-22 ビーエスエスティー エルエルシー 熱電デバイスを有するマルチモードhvacシステム
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8484373B2 (en) * 2010-10-25 2013-07-09 Google Inc. System and method for redirecting a request for a non-canonical web page
US8793706B2 (en) 2010-12-16 2014-07-29 Microsoft Corporation Metadata-based eventing supporting operations on data
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CA2779235C (en) 2012-06-06 2019-05-07 Ibm Canada Limited - Ibm Canada Limitee Identifying unvisited portions of visited information
CN102831249A (zh) * 2012-09-19 2012-12-19 河南锐之旗信息技术有限公司 一种静态页面生成方法
CN103678571B (zh) * 2013-12-09 2017-01-25 中国科学院深圳先进技术研究院 应用于单台多核处理器主机的多线程网络爬虫执行方法
CN104331511B (zh) * 2014-11-24 2018-02-09 飞狐信息技术(天津)有限公司 静态页面更新方法及装置
US9916320B2 (en) * 2015-04-26 2018-03-13 International Business Machines Corporation Compression-based filtering for deduplication
US10268465B2 (en) * 2016-10-24 2019-04-23 International Business Machines Corporation Executing local function call site optimization
CN110008392A (zh) * 2019-03-07 2019-07-12 北京华安普特网络科技有限公司 一种基于网络爬虫技术的网页篡改检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4323968A (en) * 1978-10-26 1982-04-06 International Business Machines Corporation Multilevel storage system having unitary control of data transfers
US4847830A (en) * 1987-12-02 1989-07-11 Network Equipment Technologies, Inc. Method and apparatus for automatic loading of a data set in a node of a communication network
US5291601A (en) * 1989-06-01 1994-03-01 Hewlett-Packard Company Shared libraries implemented with linking program loader
US5010344A (en) * 1989-12-28 1991-04-23 International Business Machines Corporation Method of decoding compressed data
US5604899A (en) * 1990-05-21 1997-02-18 Financial Systems Technology Pty. Ltd. Data relationships processor with unlimited expansion capability
EP0463874A2 (en) * 1990-06-29 1992-01-02 Digital Equipment Corporation Cache arrangement for file system in digital data processing system
US5204958A (en) * 1991-06-27 1993-04-20 Digital Equipment Corporation System and method for efficiently indexing and storing a large database with high data insertion frequency
US5357617A (en) * 1991-11-22 1994-10-18 International Business Machines Corporation Method and apparatus for substantially concurrent multiple instruction thread processing by a single pipeline processor
WO1994028497A1 (en) * 1993-05-20 1994-12-08 Moore Business Forms, Inc. Computer integration network for channeling customer orders through a centralized computer to various suppliers
US5493676A (en) * 1993-06-29 1996-02-20 Unisys Corporation Severe environment data recording system
US5467264A (en) * 1993-06-30 1995-11-14 Microsoft Method and system for selectively interdependent control of devices
US5708780A (en) * 1995-06-07 1998-01-13 Open Market, Inc. Internet server access control and monitoring systems
US5712979A (en) * 1995-09-20 1998-01-27 Infonautics Corporation Method and apparatus for attaching navigational history information to universal resource locator links on a world wide web page

Also Published As

Publication number Publication date
EP1241594A3 (en) 2005-03-09
AU1417597A (en) 1997-07-03
WO1997022069A1 (en) 1997-06-19
EP3086246A2 (en) 2016-10-26
JPH10512699A (ja) 1998-12-02
CN1811757B (zh) 2010-12-22
JP3160719B2 (ja) 2001-04-25
CN1811757A (zh) 2006-08-02
KR100330576B1 (ko) 2002-05-09
CA2240350A1 (en) 1997-06-19
BR9611149A (pt) 1999-03-30
AU694386B2 (en) 1998-07-16
CN1202257A (zh) 1998-12-16
KR19990064246A (ko) 1999-07-26
EP1241594A2 (en) 2002-09-18
US6032196A (en) 2000-02-29
US5974455A (en) 1999-10-26
CN1192317C (zh) 2005-03-09
EP3086246A3 (en) 2016-11-30
ZA9610561B (en) 1998-07-08
EP0867007A1 (en) 1998-09-30

Similar Documents

Publication Publication Date Title
TW311996B (zh)
US6584548B1 (en) Method and apparatus for invalidating data in a cache
US6615235B1 (en) Method and apparatus for cache coordination for multiple address spaces
US6507891B1 (en) Method and apparatus for managing internal caches and external caches in a data processing system
CN1146818C (zh) Web服务器和处理Web页面请求以及显示HTML页面的方法
US6457103B1 (en) Method and apparatus for caching content in a data processing system with fragment granularity
JP4318741B2 (ja) データベースシステム、データベース検索方法及び記録媒体
US6557076B1 (en) Method and apparatus for aggressively rendering data in a data processing system
US8429201B2 (en) Updating a database from a browser
TWI338218B (en) Method and apparatus for prefetching data from a data structure
US8171497B2 (en) Method for efficient location of corba objects based on an unmarshaled object key in a request
US20020133642A1 (en) Database processing method and apparatus using handle
US20070192672A1 (en) Invoking an audio hyperlink
US7124354B1 (en) Enterprise application transactions as shared active documents
US6438554B1 (en) System and method for private information retrieval from a single electronic storage device using verifiable commodities
WO1998014896A1 (en) Web server data/process integrator
TW200825924A (en) Virtual deletion in merged registry keys
CN106648569B (zh) 目标序列化实现方法和装置
US7536390B2 (en) Accessing Web content from any virtualized store
CN1620053A (zh) 标记网页的方法和设备
US20060004838A1 (en) Sharing large objects in distributed systems
US6883006B2 (en) Additions on circular singly linked lists
CN114968264B (zh) 一种网络处理器交互系统、方法、电子设备及存储介质
JP2005196382A (ja) 情報管理システムによるデータ登録方法、データ参照方法、ならびに、情報管理システムにおけるマスタデータベースサーバ
JPH04324542A (ja) ファイル共有システム