TWI292104B - - Google Patents

Download PDF

Info

Publication number
TWI292104B
TWI292104B TW94111727A TW94111727A TWI292104B TW I292104 B TWI292104 B TW I292104B TW 94111727 A TW94111727 A TW 94111727A TW 94111727 A TW94111727 A TW 94111727A TW I292104 B TWI292104 B TW I292104B
Authority
TW
Taiwan
Prior art keywords
webpage
file
data
template
web page
Prior art date
Application number
TW94111727A
Other languages
English (en)
Other versions
TW200636504A (en
Inventor
Chien Hsing Wang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to TW094111727A priority Critical patent/TW200636504A/zh
Publication of TW200636504A publication Critical patent/TW200636504A/zh
Application granted granted Critical
Publication of TWI292104B publication Critical patent/TWI292104B/zh

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

1292104 九、發明說明: 【發明所屬之技術領域】 本發明係為—種_網頁模板剖析網頁文件以操取資料之方法,尤指 一種提供自動娜出網頁文件内容中所含資訊之目的負取貝料之方法尤心 【先前技術】 ’ 由於網際網路的蓬勃發展,網際網路無遠弗屆的特性及其包容各種資 =態的能力與低廉的傳播成本,使得f訊的流通更為自由且更為迅速, 且為人們在生活及讀巾帶來極大的_.「籠今網 ,其所提供的資訊包羅萬象,鮮_取得已不再是問題數一: 二=者將電腦連接3際網路後,主要係透過電腦上所安裝之一網路 職益(browser),至網際,路世界裡圖文並茂之網頁内容中,恣 ί載者㈣内容細時,可透職轉咖(b丽㈣ 下載八内谷’並將其儲存至電腦之儲存設備裡,供日後隨時取用。 =如何以有效率的方式取得資訊,如何雜速的方式摘錄㈣文件中之 内谷貝訊,或操取網頁文件中所包含的資料樓案,仍有些技 以現有娜網頁崎訊的方法為例,其大致可分為2種方式: ^ 了為不同的網頁撰寫不瞻式,藉以剖析㈣取得網頁 2· I: I:二式(等1批哪⑽―)描述所欲剖析網頁之語法結構 但針對上述習知技術1而言,有著缺乏彈性的缺點。因為— 結構有所更動,則程式必須修改、編譯、部署,十分不便。“對 知技術1,2而言,存在技術上_難度,無論是程式的 皆不是非技術人員所容易達成^ 常規表不式, 【發明内容】 有鑑於此,本發明提出-種利用網頁模板剖析網頁文件以操取 方法,其目的在於改良前述技術的限制,本發明所提出之技術利/ 義-網頁模板的方式來擷取網頁中的資訊,該網頁模板即為—種和^2 1292104 格式相似的檔案,最大差別在於網頁模板中含有本技術所定義的特殊標籤 (tag),用來指引網頁剖析器(parser)以進行網頁文件剖析的動作。其係於網 頁模板中設定欲剖析之網頁文件中的標籤(tag),如以成對的<%與〇/〇>符號, 代表在網頁中欲擷取的目標資訊,例如若將網頁模板定義為: ABCDEF<%INF〇%>LMN〇P,用<%腳〇%>代表欲擷取的資訊,其名稱便 稱為INFO,而當所欲剖析的網頁内容為abcdeFGHIJKLMNOP時,則名 為INFO的資訊其值便為GHUK 〇 而本發明所提之技術,於同一個網頁學板中可以包含多個欲操取資訊 的特殊標籤。當出現多個同名的標籤時二貞j筚名稱的資訊則會以陣列表示, •例如樣版定義為 ABCDEF<%INFO%>LMN0P<%INF〇%>UVWXYZ,而所 欲剖析的網頁内容為A^qpEFGHIJKLMNOPQRSTUVWXYZ時,INFO之 值則為含有兩個元素{GHIJK,QRST}的陣列。同時,樣版可使用成對的<〇/〇 與%>標籤來描述將重複發生剖析行為,即類似程式語言中的迴圈(1〇〇p)。例 如樣版疋義為:ABCDEF<*1234<%INF〇%>6789%>UVWXYZ,而欲剖析 的網頁内谷為 ABCDEF1234GHIJK67891234I>MNC)P(^RJS T6789UVWXYZ時,INFO之值則為含有兩個元素{GHIJK ,LMNOPQRST } ^車列。這意謂著在出現過abcdef之後,由1234為首、6789結束的文 子’都形成重複發生片段,直到剖析至。 Φ 藉此’可應用本發明之技術,自動擷取於網頁中所含圖片播、動畫播'多 案...等貝料n網站的網頁,例如個人相薄網站,都公開著許多 1=概_^但㈣相片數量往往過多,观者若欲將相片儲存至 磁碟,往往需要在難器上,點選圖片並逐—的進行,,画as,,的動 二覆,輯作’使得健存的過程十分冗長與不便。但利用 二==7描述個人相薄網站中網頁的網頁模板,再 含圖片的超連結,便能取得射财則 ==斤 碟中如此一來,所有相片便可自動的於彈指間取得。 1292104 面的ίϊ明中的技術可以在以剖析技巧擷取網頁中的資訊時,達到幾個正 月提出種利用,網頁模板剖析網頁文件以擷取資料之方法八且 程Γ大頁内容與格式更動’都毋須更動採用此技術的i用、 果, 無須更動 心1^兄下,小㈣格式更動不會影_本技術的剖析結 p使有大幅的袼式更動,也只需更動此發明中的網頁模板, 主程式。 2.本發明提出-種利用網頁模板剖析網頁文件以操取資料之方法,其操作
J式=:網頁模板的格_皿類似,不具程式設;概念 者亦月b建立此發明中的網頁模板。 I 模板剖析網頁文件以刪料之方法,使得所 用之私式早、、4化,只需—個網頁剖析器(pa·)的引擎程式, 处理所有的網頁模板,針對任一網頁進行剖析。 " 根據本發’揭露之方法,其至少包含下列步驟: a ·透過一網頁剖析器建立一網頁模板 b·該網頁剖析器讀取一網頁文件 c·該網頁剖析器依據該網頁模板剖析該網頁文件 d.掏取該網頁文件中所剖析出之資料 e·將操取資料儲存於一資料庫 有關本發明之詳_容及技術,紐配合赋說明如下·· 【實施方式】 本發明係為-種利用網頁模板剖析網頁文件以娜資料之方法,主要係建 立-網頁模板,·為-個具有複數個棘目標之指倾案,再透過 頁剖析器依據該網頁模板之設^,剖析所讀取之網頁文件内容,籍由剖析 比對該網頁文件内容與該網頁模板内所設定之擷取目標,比對出該網頁文 件内容帽符合的標籤(tag),並賴網頁文制容巾標籤(tag)之間所含之資 =擷取下來,並記錄於-資料庫,以達到自_取出網頁文件内容中所含 資訊之目的。為說明本發明_理及技術,以下即先·本發明之之方法 7 1292104 流程,再以兩個較佳實施例說明本方法的具體可 , … 以達成。稭甶上述之技術加 請先參照第la圖,係為本發明利用網頁模板剖析網頁文件 之方法步驟流程圖。首先+,使用者先透過_網頁剖析器建立—模板斤 驟100),其中,細頁模板係為_個具有複__目胃t = 該擷取目標可為-組標籤㈣,係由使用者自行設定 〗: 一具有剖析功能之舰程式,其係依據該喃模板之^以剖析器係為 # 11〇) ; > 依據摘頁核板剖析該網f文件(步驟12d),由於該網頁文件係 (Standard Generalized Markup Language,SGML),^;; t- :所組成之文件’因此’、_頁剖析器即依照該網頁模己: 頁文件中賊(㈣之間之内容資料,喻則剖析出網 (步驟m);而上述步請齡_文件中 戶 資料 程=係為步驟A,請配合說明並參照第Ib圖,當剖析出網^文流 若=料形式為一 _(τ:容之:::= 建rr·,建立=:==(下步: 之貝繼存建檔,即將摘取資料儲存於 ㈣所下載 接下來,將以兩鶴縣㈣捕理=—束本流程。 具體可行性: 細原理之較佳貫施例說明本方法的 [第一實施例] 凊參照第2a、2b、2c ,在炎* 容之實施麻意®,如圖2a 本發明自哺文种練純文字内 數張_文字之網頁細桃顯示之含有 令所不即為該網頁文件的原始碼槽案 1292104 份,其中,於該網頁·含有一段文字2〇ι,即為該網頁文件的原 據該網頁模板之設_析_文_朴警’===析器依 ί字=«r 1她⑽mm 析11,並不限定其剖析的網頁,因此可針對任一含有 、U〇nt>與</font>的網頁文件,剖析出攝藏<f齡與切錄之間之 ,達到自細取1^文件_所_之目、的。 仕内第S3v3e® ’係為應用本發明自網頁文件中掏取超連 二為Γ覽器程式㈣叫所顯示之 312、3nH gSrc= >間之超連結(h_ink)内容31卜 312a、313,曰庙°之棺案’其放大如圖3C所示’而其分別對應的圖片為31 la、 ^imgsrc- 百守二B 頁剖析器依據該網頁模板之設定以剖析該網 碼檀案310’而剖析出該超連結(hyperlink)内容311、312、313, 内容311、312、313所對應之儲存位置中下載樓案。 而〆、中该、周頁剖析器,並不限定其剖析的網頁,因此可針對任一含載有伊案藏 Ϊ#τ7? J w^#^<imgsrc= 儲存下末4到自動操取出網頁文件内容中所含資訊之目的。 雖然本發日賊_之健實關浦如上,财 何熟習此技藝者,在不脫離本發明之精神和範圍内,當可二= =式==權贿細增她隨定者為準。’、 第la、lb圖,係為本發明利用網頁模板剖析網頁文件以擷取資料之方法步 9 1292104 用本發明自網頁文件中擷取純文字内容之實施例 用本發明自網頁文件中擷取超連結内容之實施例 【圖示符號說明】 200 網頁 201 文字 210 網頁文件的原始碼檔案 t '
211 純文字内容 300 網頁 、. 310 網頁文件的原始碼標案 311 超連結内容 311a 圖片 312 超連結内容 312a 圖片 313 超連結内容 313a 圖片
驟流程圖; 第2a、2b、2c圖,係為應 示意圖;及 第3a、3b、3c圖,係為應 示意圖。 步驟100 透過一網頁剖析器建立一網頁模板 步驟110 該網頁剖析器讀取一網頁文件 步驟120 該網頁剖析器依據該網頁模板剖析該網頁文件 步驟130 擷取該網頁文件中所剖析出之資料 步驟131 依該網頁文件中所剖析出之資料之形式而掏取 步驟132 擷取該純文字内容並建立一文字檔以存入該純文字内容 步驟133 依一超連結内容至其對應之儲存位置中下載資料 步驟140 將擷取資料儲存於一資料庫 貝"

Claims (1)

1292104 十、申請專利範圍: 1.-麵用網頁模板剖析網頁文件以齡資料之方法,其至少包含下列步 驟· a·透過一網頁剖析器建立一網頁模板; b· 5亥網頁剖析益言買取一網頁文件; c·該網頁剖析器依據該網頁模板剖析該網頁文件; d·擷取該網頁文件中所剖析出之資料;及 e.將擷取資料健存於一資料庫。 2. 如專辦錢圍第丨項所述之剖析網頁文件_取資料之 方法’其中糊頁拉板係為一個具有複數個操取目標之指引播案,而該等 指員取目標可由使用者备疗設定。 3. 如專利中請範圍第2項所述之利用網板剖析網頁文件以擷取資料之 方法,其中該擷取目標係指一組標籤_。 項所述之糊網頁模板剖析網頁文件以擷取資料之 百Π'、中該、顺剖析器係、為—具有剖析功能之舰程式,其係依據該網 頁杈板之設定以剖析該網頁文件。 範圍第1項所述之利用網頁模板剖析網頁文件以擷取資料之 J Ψ^(Standard Generalized =up Language,SGML)相容之標記語言所組成之文件。 方、、範圍第1項所述之利用網頁模板剖析網頁文件以操取資料之 7. 如專利棘自該網頁文件中所剖析出之資料。 方.1 項所述之利用網頁模板剖析網頁文件以擷取資料之 8. 如專“請該網頁文件中所剖析出之資料之形式而娜。 方法,^次、圍第項所述之利用網頁模板剖析網頁文件以擷取資料之 - P二貝,形式為一純文字(Te_容,則擷取該純文字内容,並建立 文子如存人該純文字内容。 方^利圍第7項所述之利用網頁模板剖析網頁文件以揭取資料之 右貝;斗形式為一超連結(hyperlink)内容,則依該超連結内容至其對 1292104 應之儲存位置中下載資料。
TW094111727A 2005-04-13 2005-04-13 Method of using Web Page template to analyze Web Page document for extracting data TW200636504A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW094111727A TW200636504A (en) 2005-04-13 2005-04-13 Method of using Web Page template to analyze Web Page document for extracting data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW094111727A TW200636504A (en) 2005-04-13 2005-04-13 Method of using Web Page template to analyze Web Page document for extracting data

Publications (2)

Publication Number Publication Date
TW200636504A TW200636504A (en) 2006-10-16
TWI292104B true TWI292104B (zh) 2008-01-01

Family

ID=45067419

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094111727A TW200636504A (en) 2005-04-13 2005-04-13 Method of using Web Page template to analyze Web Page document for extracting data

Country Status (1)

Country Link
TW (1) TW200636504A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI512505B (zh) * 2010-05-20 2015-12-11 Alibaba Group Holding Ltd The method, device and e - commerce system of crawling web pages
CN108090076A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 页面文字处理方法及装置
US10043199B2 (en) 2013-01-30 2018-08-07 Alibaba Group Holding Limited Method, device and system for publishing merchandise information

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201019142A (en) * 2008-11-06 2010-05-16 guo-ren Zhao Dynamic webpage content capturing method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI512505B (zh) * 2010-05-20 2015-12-11 Alibaba Group Holding Ltd The method, device and e - commerce system of crawling web pages
US10043199B2 (en) 2013-01-30 2018-08-07 Alibaba Group Holding Limited Method, device and system for publishing merchandise information
CN108090076A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 页面文字处理方法及装置

Also Published As

Publication number Publication date
TW200636504A (en) 2006-10-16

Similar Documents

Publication Publication Date Title
US7519573B2 (en) System and method for clipping, repurposing, and augmenting document content
US7913163B1 (en) Determining semantically distinct regions of a document
Lowagie iText in Action
US20140304307A1 (en) Framework for Media Presentation Playback
US20050288943A1 (en) Apparatus and method for creating an electronic version of printed matter
US20100199166A1 (en) Image Component WEB/PC Repository
CN101702160B (zh) 一种互联网主题信息采集方法及装置
CN100461173C (zh) 电子归档系统和电子归档方法
CN108259620B (zh) 一种广告编辑和预览方法、智能终端、系统及存储装置
US8140438B2 (en) Method, apparatus, and program product for processing product evaluations
CN106354861A (zh) 电影标签自动标引方法及自动标引系统
CN105531700A (zh) 通过扩充服务的内容的自动扩充
WO2009000141A1 (fr) Procédé, système et dispositif de représentation d'informations de structure logique de fichier de mise en page
CN102165410A (zh) 打印结构化文档
JP2004139466A (ja) 電子ドキュメント印刷プログラムおよび電子ドキュメント印刷システム
KR101147256B1 (ko) 표준화된 전자책 생성장치 및 방법
TWI292104B (zh)
CN113536172A (zh) 一种百科信息展示的方法、装置及计算机存储介质
CN117235019B (zh) 多文件摘抄组合生成新的可读文件的方法
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN112596688A (zh) 一种基于TinyMCE富文本的web端自定义打印方法
CN101233494B (zh) 插件模块、浏览器、邮箱运行方法及终端装置
JPH10289250A (ja) Wwwブラウザにおけるurl登録及び表示方式
CN107066437B (zh) 数字作品标注的方法及装置
US20120268795A1 (en) Web Widget Fir Formatting Web Content