TWI292104B

TWI292104B -

Info

Publication number: TWI292104B
Application number: TW94111727A
Authority: TW
Inventors: Chien Hsing Wang
Priority date: 2005-04-13
Filing date: 2005-04-13
Publication date: 2008-01-01
Also published as: TW200636504A

Description

1292104 九、發明說明：【發明所屬之技術領域】本發明係為—種_網頁模板剖析網頁文件以操取資料之方法，尤指一種提供自動娜出網頁文件内容中所含資訊之目的負取貝料之方法尤心【先前技術】 ’ 由於網際網路的蓬勃發展，網際網路無遠弗屆的特性及其包容各種資 =態的能力與低廉的傳播成本，使得f訊的流通更為自由且更為迅速，且為人們在生活及讀巾帶來極大的_.「籠今網，其所提供的資訊包羅萬象，鮮_取得已不再是問題數一: 二=者將電腦連接3際網路後，主要係透過電腦上所安裝之一網路職益(browser)，至網際，路世界裡圖文並茂之網頁内容中，恣 ί載者㈣内容細時，可透職轉咖(b丽㈣下載八内谷’並將其儲存至電腦之儲存設備裡，供日後隨時取用。 =如何以有效率的方式取得資訊，如何雜速的方式摘錄㈣文件中之内谷貝訊，或操取網頁文件中所包含的資料樓案，仍有些技以現有娜網頁崎訊的方法為例，其大致可分為2種方式： ^ 了為不同的網頁撰寫不瞻式，藉以剖析㈣取得網頁 2· I: I:二式(等1批哪⑽―)描述所欲剖析網頁之語法結構但針對上述習知技術1而言，有著缺乏彈性的缺點。因為— 結構有所更動，則程式必須修改、編譯、部署，十分不便。“對知技術1，2而言，存在技術上_難度，無論是程式的皆不是非技術人員所容易達成^ 常規表不式，【發明内容】有鑑於此，本發明提出-種利用網頁模板剖析網頁文件以操取方法，其目的在於改良前述技術的限制，本發明所提出之技術利/ 義-網頁模板的方式來擷取網頁中的資訊，該網頁模板即為—種和^2 1292104 格式相似的檔案，最大差別在於網頁模板中含有本技術所定義的特殊標籤 (tag)，用來指引網頁剖析器(parser)以進行網頁文件剖析的動作。其係於網頁模板中設定欲剖析之網頁文件中的標籤(tag)，如以成對的<%與〇/〇>符號，代表在網頁中欲擷取的目標資訊，例如若將網頁模板定義為： ABCDEF<%INF〇%>LMN〇P，用<%腳〇%>代表欲擷取的資訊，其名稱便稱為INFO，而當所欲剖析的網頁内容為abcdeFGHIJKLMNOP時，則名為INFO的資訊其值便為GHUK 〇而本發明所提之技術，於同一個網頁學板中可以包含多個欲操取資訊的特殊標籤。當出現多個同名的標籤時二貞j筚名稱的資訊則會以陣列表示， •例如樣版定義為 ABCDEF<%INFO%>LMN0P<%INF〇%>UVWXYZ，而所欲剖析的網頁内容為A^qpEFGHIJKLMNOPQRSTUVWXYZ時，INFO之值則為含有兩個元素{GHIJK，QRST}的陣列。同時，樣版可使用成對的<〇/〇與％>標籤來描述將重複發生剖析行為，即類似程式語言中的迴圈(1〇〇p)。例如樣版疋義為：ABCDEF<*1234<%INF〇%>6789%>UVWXYZ，而欲剖析的網頁内谷為 ABCDEF1234GHIJK67891234I>MNC)P(^RJS T6789UVWXYZ時，INFO之值則為含有兩個元素{GHIJK ，LMNOPQRST } ^車列。這意謂著在出現過abcdef之後，由1234為首、6789結束的文子’都形成重複發生片段，直到剖析至。 Φ 藉此’可應用本發明之技術，自動擷取於網頁中所含圖片播、動畫播'多案...等貝料n網站的網頁，例如個人相薄網站，都公開著許多 1=概_^但㈣相片數量往往過多，观者若欲將相片儲存至磁碟，往往需要在難器上，點選圖片並逐—的進行，，画as，，的動二覆，輯作’使得健存的過程十分冗長與不便。但利用二==7描述個人相薄網站中網頁的網頁模板，再含圖片的超連結，便能取得射财則 ==斤碟中如此一來，所有相片便可自動的於彈指間取得。 1292104 面的ίϊ明中的技術可以在以剖析技巧擷取網頁中的資訊時，達到幾個正月提出種利用，網頁模板剖析網頁文件以擷取資料之方法八且程Γ大頁内容與格式更動’都毋須更動採用此技術的i用、果，無須更動心1^兄下，小㈣格式更動不會影_本技術的剖析結 p使有大幅的袼式更動，也只需更動此發明中的網頁模板，主程式。 2.本發明提出-種利用網頁模板剖析網頁文件以操取資料之方法，其操作

J式=:網頁模板的格_皿類似，不具程式設;概念者亦月b建立此發明中的網頁模板。 I 模板剖析網頁文件以刪料之方法，使得所用之私式早、、4化，只需—個網頁剖析器(pa·)的引擎程式，处理所有的網頁模板，針對任一網頁進行剖析。 " 根據本發’揭露之方法，其至少包含下列步驟： a ·透過一網頁剖析器建立一網頁模板 b·該網頁剖析器讀取一網頁文件 c·該網頁剖析器依據該網頁模板剖析該網頁文件 d.掏取該網頁文件中所剖析出之資料 e·將操取資料儲存於一資料庫有關本發明之詳_容及技術，紐配合赋說明如下·· 【實施方式】本發明係為-種利用網頁模板剖析網頁文件以娜資料之方法，主要係建立-網頁模板，·為-個具有複數個棘目標之指倾案，再透過頁剖析器依據該網頁模板之設^，剖析所讀取之網頁文件内容，籍由剖析比對該網頁文件内容與該網頁模板内所設定之擷取目標，比對出該網頁文件内容帽符合的標籤(tag)，並賴網頁文制容巾標籤(tag)之間所含之資 =擷取下來，並記錄於-資料庫，以達到自_取出網頁文件内容中所含資訊之目的。為說明本發明_理及技術，以下即先·本發明之之方法 7 1292104 流程，再以兩個較佳實施例說明本方法的具體可， … 以達成。稭甶上述之技術加請先參照第la圖，係為本發明利用網頁模板剖析網頁文件之方法步驟流程圖。首先+，使用者先透過_網頁剖析器建立—模板斤驟100)，其中，細頁模板係為_個具有複__目胃t = 該擷取目標可為-組標籤㈣，係由使用者自行設定〗: 一具有剖析功能之舰程式，其係依據該喃模板之^以剖析器係為 # 11〇) ； > 依據摘頁核板剖析該網f文件(步驟12d)，由於該網頁文件係 (Standard Generalized Markup Language，SGML),^；； t- :所組成之文件’因此’、_頁剖析器即依照該網頁模己: 頁文件中賊(㈣之間之内容資料，喻則剖析出網 (步驟m);而上述步請齡_文件中戶資料程=係為步驟A，請配合說明並參照第Ib圖，當剖析出網^文流若=料形式為一 _(τ:容之：：：= 建rr·，建立=:==(下步: 之貝繼存建檔，即將摘取資料儲存於㈣所下載接下來，將以兩鶴縣㈣捕理=—束本流程。具體可行性：細原理之較佳貫施例說明本方法的 [第一實施例] 凊參照第2a、2b、2c ，在炎* 容之實施麻意®，如圖2a 本發明自哺文种練純文字内數張_文字之網頁細桃顯示之含有令所不即為該網頁文件的原始碼槽案 1292104 份，其中，於該網頁·含有一段文字2〇ι，即為該網頁文件的原據該網頁模板之設_析_文_朴警’===析器依 ί字=«r 1她⑽mm 析11，並不限定其剖析的網頁，因此可針對任一含有、U〇nt>與</font>的網頁文件，剖析出攝藏<f齡與切錄之間之，達到自細取1^文件_所_之目、的。仕内第S3v3e® ’係為應用本發明自網頁文件中掏取超連二為Γ覽器程式㈣叫所顯示之 312、3nH gSrc= >間之超連結(h_ink)内容31卜 312a、313，曰庙°之棺案’其放大如圖3C所示’而其分別對應的圖片為31 la、 ^imgsrc- 百守二B 頁剖析器依據該網頁模板之設定以剖析該網碼檀案310’而剖析出該超連結(hyperlink)内容311、312、313，内容311、312、313所對應之儲存位置中下載樓案。而〆、中该、周頁剖析器，並不限定其剖析的網頁，因此可針對任一含載有伊案藏 Ϊ#τ7? J w^#^<imgsrc= 儲存下末4到自動操取出網頁文件内容中所含資訊之目的。雖然本發日賊_之健實關浦如上，财何熟習此技藝者，在不脫離本發明之精神和範圍内，當可二= =式==權贿細增她隨定者為準。’、第la、lb圖，係為本發明利用網頁模板剖析網頁文件以擷取資料之方法步 9 1292104 用本發明自網頁文件中擷取純文字内容之實施例用本發明自網頁文件中擷取超連結内容之實施例【圖示符號說明】 200 網頁 201 文字 210 網頁文件的原始碼檔案 t '

211 純文字内容 300 網頁、. 310 網頁文件的原始碼標案 311 超連結内容 311a 圖片 312 超連結内容 312a 圖片 313 超連結内容 313a 圖片

驟流程圖；第2a、2b、2c圖，係為應示意圖；及第3a、3b、3c圖，係為應示意圖。步驟100 透過一網頁剖析器建立一網頁模板步驟110 該網頁剖析器讀取一網頁文件步驟120 該網頁剖析器依據該網頁模板剖析該網頁文件步驟130 擷取該網頁文件中所剖析出之資料步驟131 依該網頁文件中所剖析出之資料之形式而掏取步驟132 擷取該純文字内容並建立一文字檔以存入該純文字内容步驟133 依一超連結内容至其對應之儲存位置中下載資料步驟140 將擷取資料儲存於一資料庫貝"

Claims

1292104 十、申請專利範圍： 1.-麵用網頁模板剖析網頁文件以齡資料之方法，其至少包含下列步驟· a·透過一網頁剖析器建立一網頁模板； b· 5亥網頁剖析益言買取一網頁文件； c·該網頁剖析器依據該網頁模板剖析該網頁文件； d·擷取該網頁文件中所剖析出之資料；及 e.將擷取資料健存於一資料庫。 2. 如專辦錢圍第丨項所述之剖析網頁文件_取資料之方法’其中糊頁拉板係為一個具有複數個操取目標之指引播案，而該等指員取目標可由使用者备疗設定。 3. 如專利中請範圍第2項所述之利用網板剖析網頁文件以擷取資料之方法，其中該擷取目標係指一組標籤_。項所述之糊網頁模板剖析網頁文件以擷取資料之百Π'、中該、顺剖析器係、為—具有剖析功能之舰程式，其係依據該網頁杈板之設定以剖析該網頁文件。範圍第1項所述之利用網頁模板剖析網頁文件以擷取資料之 J Ψ^(Standard Generalized =up Language，SGML)相容之標記語言所組成之文件。方、、範圍第1項所述之利用網頁模板剖析網頁文件以操取資料之 7. 如專利棘自該網頁文件中所剖析出之資料。方.1 項所述之利用網頁模板剖析網頁文件以擷取資料之 8. 如專“請該網頁文件中所剖析出之資料之形式而娜。方法，^次、圍第項所述之利用網頁模板剖析網頁文件以擷取資料之 - P二貝，形式為一純文字(Te_容，則擷取該純文字内容，並建立文子如存人該純文字内容。方^利圍第7項所述之利用網頁模板剖析網頁文件以揭取資料之右貝；斗形式為一超連結(hyperlink)内容，則依該超連結内容至其對 1292104 應之儲存位置中下載資料。