TWI410099B - 下載資料解析及處理系統及方法 - Google Patents
下載資料解析及處理系統及方法 Download PDFInfo
- Publication number
- TWI410099B TWI410099B TW96131386A TW96131386A TWI410099B TW I410099 B TWI410099 B TW I410099B TW 96131386 A TW96131386 A TW 96131386A TW 96131386 A TW96131386 A TW 96131386A TW I410099 B TWI410099 B TW I410099B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- data
- information
- server
- picture
- Prior art date
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明涉及一種下載資料解析及處理系統及方法。
近年來,由於電腦技術和網路技術的迅速發展,網上瀏覽資訊已成為人們日常工作、學習和生活中不可或缺的一個重要部分,網路以其信息量大、資訊更新迅速,成為全球“最大的圖書館”。
通過網路,人們可以瞭解任何各種各樣的事物,收集自己想要的資料。例如,在企業進行新產品研發過程中,研發人員需要通過本地端伺服器從網上下載大量與產品相關的資料並將這些資料儲存於本地端的資料庫,這些資料大多是以網頁的形式顯示的。
通常,在下載資料的過程中,原始資料中圖片的URL(uniform resource locator,統一資源定位符)在本端伺服器端會被網管修改成可顯示圖片的本地URL。與本端伺服器相連的用戶可以通過該本地URL獲取圖片。這樣做的缺陷是,若顯示圖片的本地URL發生變化,用戶端未收到變更後的新的本地URL時,或者原本地URL沒有映射到新的本地URL
,用戶將無法通過原本地URL訪問圖片。
鑒於以上內容,有必要提供一種下載資料解析及處理系統及方法,可以在本端伺服器下載資料過程中對資料中的圖片URL資訊進行靈活處理,提高用戶訪問下載資料時圖片顯示的靈活性。
一種下載資料解析及處理系統,該系統包括通過網路從遠端伺服器下載資料的本端伺服器、與本端伺服器相連的資料庫伺服器及圖片儲存伺服器。所述本端伺服器包括:資料緩存區,用於暫存所述下載資料;資料解析模組,用於解析所述下載資料得到該下載資料的文字資訊,所述文字資訊包括下載資料中圖片的原始URL資訊;圖片屬性變更模組,用於將下載資料中各圖片的原始URL資訊替換為預先定義好且包含該圖片識別字的字串;及資料存儲模組,用於將上述下載資料的文字資訊,包括上述替換圖片原始URL資訊的字串,儲存於所述資料庫伺服器,根據資料庫伺服器返回的圖片識別資訊將資料緩存區中的相應圖片儲存於所述圖片儲存伺服器,並將圖片儲存伺服器返回的圖片存儲路徑保存至上述資料庫伺服器中該圖片的資訊記錄中。
一種下載資料解析及處理方法,該方法包括以下步驟:(A)將本端伺服器從遠端伺服器下載的資料暫存於本端伺服器的資料緩存區;(B)解析所述下載資料得到該下載資料的文字資訊,包括下載資料中圖片的原始URL資訊;(C)將下
載資料中各圖片的URL資訊替換為預先定義好且包含該圖片識別字的字串;(D)將所述文字資訊,包括上述替換圖片原始URL資訊的字串,儲存於所述資料庫伺服器;(E)資料庫伺服器為下載資料中的每一張圖片分配一個標識,並為每一張圖片創建一條資訊記錄,以記錄該圖片的識別資訊及該圖片的存儲路徑資訊;(F)資料庫伺服器返回圖片識別資訊給本端伺服器;(G)本端伺服器根據圖片識別資訊從資料緩存區擷取相應圖片,並將該圖片儲存於圖片儲存伺服器;及(H)本端伺服器接收圖片儲存伺服器返回的圖片的存儲路徑資訊,並將該存儲路徑資訊添加至該圖片的資訊記錄中。
相較於習知技術,本發明所提供的下載資料解析及處理系統及方法不直接將下載資料中圖片的原始URL屬性更改為下載伺服器端定義的URL,而是替換為為預先定義好、包含該圖片識別字的的字串,當下載伺服器的用戶訪問下載資料時,字串自動轉換成用戶想要顯示所述的圖片的URL。
10‧‧‧本地伺服器
20‧‧‧互聯網
30‧‧‧遠端伺服器
40‧‧‧資料庫伺服器
50‧‧‧圖片儲存伺服器
60‧‧‧內部網路
70‧‧‧用戶端
100‧‧‧資料緩存區
110‧‧‧資料下載模組
120‧‧‧資料解析模組
130‧‧‧圖片屬性變更模組
140‧‧‧資料儲存模組
圖1係本發明下載資料解析及處理系統較佳實施例的硬體架構圖。
圖2係圖1中本端伺服器10的功能模組圖。
圖3係本發明下載資料解析及處理方法較佳實施例的流程圖。
圖4係用戶向應用本發明網頁資訊解析及處理方法的本端伺服器10請求瀏覽新聞網頁時的作業流程圖。
如圖1所示,係本發明下載資料解析及處理系統較佳實施例的硬體架構圖。該系統包括本端伺服器10,該本端伺服器10通過互聯網20從遠端伺服器30下載資料(如新聞網頁),並將所下載的資料儲存於資料庫,如本端伺服器10將新聞網頁中的文字資訊及圖片資訊分別儲存於資料庫伺服器40及圖片儲存伺服器50。該資料庫伺服器40及該圖片儲存伺服器50可以位於本端伺服器10內部,也可以位於本端伺服器10外部。
進一步地,本端伺服器10通過內部網路60連接多個用戶端70,接收用戶端訪問下載網頁的請求,從資料庫伺服器40及圖片儲存伺服器50擷取網頁的相關文字資訊和圖片資訊返回給用戶端70。
用戶端70具有互動式圖形介面,供用戶向本端伺服器10發送請求及瀏覽本端伺服器10提供的網頁資料。
如圖2所示,係圖1中本端伺服器10的功能模組圖。該本端伺服器10包括資料下載模組110、資料解析模組120、圖片屬性變更模組130及資料儲存模組140。
資料下載模組110用於通過互聯網20從遠端伺服器30下載資料,如下載新聞網頁,並將下載資料暫存於本端伺服器10的資料緩存區100。
資料解析模組120用於解析緩存區100儲存的下載資料,如解析新聞網頁,獲取新聞網頁中的文字資訊,包括新聞網址、新聞發佈機構、發佈時間、新聞標題、摘要、網頁中圖片的URL等資訊。
圖片屬性變更模組130用於每一筆下載資料中圖片的URL資訊替換為預先定義好且包含該圖片識別字的的字串。例如,將一個新聞網頁中<image src=http://www.google.com/intl/zh-CN_ALL/images/logo.gif/>替換成<image src=“$1”,其中數位1表示該圖片為該新聞網頁中的第一幅圖片。
資料儲存模組140用於將解析所得的文字資訊,包括上述替換圖片原始URL資訊的字串,儲存於資料庫伺服器40。
資料庫伺服器40接收上述解析所得的資料的文字資訊後,為每一筆下載資料及該筆下載資料中的每一個圖片分配一個標識,例如為每一個新聞網頁分配一個新聞標識(newID)、為該新聞網頁中的每一張圖片分配一個圖片標識(imageID)。進一步地,資料庫伺服器40為每一張圖片創建一條資訊記錄,記錄中包括該圖片所屬資料的標識、圖片標識、圖片原始URL資訊、替換該原始URL資訊的字串資訊及圖片存儲路徑等欄位元。最後,資料庫伺服器40並將各資訊記錄中的圖片識別資訊,包括圖片標識、圖片原始URL資訊及替換該原始URL資訊的字串資訊,返回給資料解析模組120。
接下來,資料解析模組120根據資料庫伺服器40返回的上述圖片識別資訊將資料緩存區100中的相應圖片儲存至圖片儲存伺服器50;圖片儲存伺服器50返回該圖片的存儲路徑資訊通過本端伺服器10送交資料庫伺服器40。最後,資料庫伺服器40將該圖片存儲路徑資訊添加至該圖片的資訊記錄中。
如圖3所示,係本發明下載資料解析及處理方法較佳實施例的流程圖。首先,資料下載模組110通過互聯網20從遠端伺服器30下載資料(如一個新聞網頁),並將該下載資料暫存於資料緩存區100(步驟S10)。資料解析模組120解析下載資料得到該下載資料的文字資訊,如解析所述新聞網頁,獲取新聞網址、新聞發佈機構、發佈時間、新聞標題、摘要、網頁中圖片的URL屬性等資訊(步驟S12)。圖片屬性變更模組130將該下載資料中圖片的URL資訊替換為預先定義好且包含該圖片識別字的的字串。例如,將一個新聞網頁中<image src=http://www.google.com/intl/zh-CN_ALL/images/logo.gif/>替換成<image src=“$1”,其中數位1表示該圖片為該新聞網頁中的第一幅圖片(步驟S14)。資料儲存模組140將解析所得的文字資訊,包括上述替換圖片原始URL資訊的字串,儲存於資料庫伺服器40(步驟S16)。資料庫伺服器40接收上述下載資料的文字資訊後,為該下載資料及該下載資料中的每一張圖片各分配一個標識,例如為每一個新聞網頁分配一個新聞標識(newID)、為該新聞網頁中的每一條圖片
屬性資訊分配一個圖片標識(imageID),並為每一張圖片創建一條資訊記錄,記錄中包括該圖片所屬資料的標識、圖片標識、圖片原始URL資訊、替換該原始URL資訊的字串資訊及圖片存儲路徑等欄位元(步驟S18)。資料庫伺服器40將記錄中的圖片識別資訊,包括圖片標識、圖片原始URL資訊及替換該原始URL資訊的字串資訊,返回給資料解析模組120(步驟S20)。資料解析模組120根據資料庫伺服器40返回的上述圖片識別資訊從資料緩存區100擷取相應圖片,並將該圖片儲存至圖片儲存伺服器50(步驟S22)。本端伺服器1將圖片儲存伺服器50返回的該圖片的存儲路徑資訊添加至資料庫伺服器40中該圖片的資訊記錄中(步驟S24)。
如圖4所示,係用戶向應用本發明網頁資訊解析及處理方法的本端伺服器10請求瀏覽新聞網頁時的作業流程圖。首先,用戶端70的用戶通過內部網路60向本端伺服器10發送瀏覽新聞網頁的請求(步驟S30)。本端伺服器10接收請求後,從資料庫伺服器40獲取該新聞網頁的記錄資訊,包括新聞標識、圖片標識、圖片的存儲路徑、替換圖片原始URL資訊的字串資訊(步驟S32)。進一步地,本端伺服器10根據圖片的存儲路徑資訊從圖片儲存伺服器50中獲取該網頁中的圖片(步驟S34)。本端伺服器10將圖片被儲存時所生成的屬性資訊,即替換圖片原始URL資訊的字串替換成用戶需要顯示該圖片的URL(步驟S36)。最後,本端伺服器10返回一個完整的新聞網頁供用戶瀏覽(步驟S38)。
以上所述僅為本發明之較佳實施例而已,且已達廣泛之使用功效,凡其他未脫離本發明所揭示之精神下所完成之均等變化或修飾,均應包含在下述之申請專利範圍內。
10‧‧‧本地伺服器
100‧‧‧資料緩存區
110‧‧‧資料下載模組
120‧‧‧資料解析模組
130‧‧‧圖片屬性變更模組
140‧‧‧資料儲存模組
40‧‧‧資料庫伺服器
50‧‧‧圖片儲存伺服器
Claims (5)
- 一種下載資料解析及處理系統,該系統包括本端伺服器、與本端伺服器相連的資料庫伺服器及圖片儲存伺服器,該本端伺服器通過網路從遠端伺服器下載資料,該本端伺服器包括:資料緩存區,用於暫存所述下載資料;資料解析模組,用於解析所述下載資料得到該下載資料的文字資訊,所述文字資訊包括下載資料的新聞網址、新聞發佈機構、發佈時間、新聞標題、摘要、網頁中圖片的原始URL資訊;圖片屬性變更模組,用於將下載資料中各圖片的原始URL資訊替換為預先定義好且包含該圖片識別字的字串;及資料存儲模組,用於將下載資料的文字資訊,包括上述替換圖片原始URL資訊的字串,儲存於所述資料庫伺服器;所述資料庫伺服器用於接收下載資料的文字資訊並為下載資料中的每一張圖片創建一條資訊記錄,以記錄該圖片的識別資訊及該圖片的存儲路徑資訊,並返回圖片識別資訊給資料存儲模組;所述資料存儲模組根據資料庫伺服器返回的圖片識別資訊將資料緩存區中的相應圖片儲存於所述圖片儲存伺服器,並將圖片儲存伺服器返回的圖片存儲路徑保存至上述資料庫伺服器該圖片的資訊記錄。
- 如申請專利範圍第1項所述的下載資料解析及處理系統,其中所述資料庫伺服器還用於為所述下載資料及該下載資料中的各圖片分別分配一個標識。
- 如申請專利範圍第2項所述的下載資料解析及處理系統,其中所述資料庫伺服器返回的圖片識別資訊包括該圖片所屬下載資料的標識、該圖片的標識、該圖片的原始URL資訊及替換該原始URL資訊的字串。
- 一種下載資料解析及處理方法,該方法包括以下步驟:將本端伺服器從遠端伺服器下載的資料暫存於本端伺服器的資料緩存區;解析所述下載資料得到該下載資料的文字資訊,包括下載資料的新聞網址、新聞發佈機構、發佈時間、新聞標題、摘要、網頁中圖片的原始URL資訊;將下載資料中各圖片的原始URL資訊替換為預先定義好且包含該圖片識別字的字串;將所述文字資訊,包括上述替換圖片原始URL資訊的字串,儲存於所述資料庫伺服器;資料庫伺服器為下載資料中的每一張圖片分配一個標識,並為每一張圖片創建一條資訊記錄,以記錄該圖片的識別資訊及該圖片的存儲路徑資訊;資料庫伺服器返回圖片識別資訊給本端伺服器;本端伺服器根據圖片識別資訊從資料緩存區擷取相應圖片,並將該圖片儲存於圖片儲存伺服器;及本端伺服器接收圖片儲存伺服器返回的圖片的存儲路徑資訊 ,並將該存儲路徑資訊添加至該圖片的資訊記錄中。
- 如申請專利範圍第4項所述的下載資料解析及處理方法,其中所述資料庫伺服器返回的圖片識別資訊包括該圖片所屬下載資料的標識、該圖片的標識、該圖片的原始URL資訊及替換該原始URL資訊的字串資訊。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW96131386A TWI410099B (zh) | 2007-08-24 | 2007-08-24 | 下載資料解析及處理系統及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW96131386A TWI410099B (zh) | 2007-08-24 | 2007-08-24 | 下載資料解析及處理系統及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200910873A TW200910873A (en) | 2009-03-01 |
TWI410099B true TWI410099B (zh) | 2013-09-21 |
Family
ID=44724486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW96131386A TWI410099B (zh) | 2007-08-24 | 2007-08-24 | 下載資料解析及處理系統及方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI410099B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346101A (zh) * | 2013-07-29 | 2015-02-11 | 鸿富锦精密工业(深圳)有限公司 | 存储空间动态分配系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020010725A1 (en) * | 2000-03-28 | 2002-01-24 | Mo Lawrence Wai Ming | Internet-based font server |
US20020078093A1 (en) * | 1999-10-21 | 2002-06-20 | Christopher Samaniego | Automated media delivery system |
-
2007
- 2007-08-24 TW TW96131386A patent/TWI410099B/zh not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020078093A1 (en) * | 1999-10-21 | 2002-06-20 | Christopher Samaniego | Automated media delivery system |
US20020010725A1 (en) * | 2000-03-28 | 2002-01-24 | Mo Lawrence Wai Ming | Internet-based font server |
Also Published As
Publication number | Publication date |
---|---|
TW200910873A (en) | 2009-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
US11694215B2 (en) | Systems and methods for managing web content | |
CN101364979B (zh) | 下载资料解析及处理系统及方法 | |
US9495429B2 (en) | Automatic synthesis and presentation of OLAP cubes from semantically enriched data sources | |
US9710436B1 (en) | Method and system for generating a modified website | |
US20130151946A1 (en) | System and Method for Bulk Web Domain Generation and Management | |
US20190332972A1 (en) | Dynamic query response with metadata | |
US10454859B1 (en) | In-message applications in a messaging platform | |
KR20090016118A (ko) | 웹 페이지의 하이퍼링크를 교체하기 위한 방법 및 시스템 | |
KR100987058B1 (ko) | 인터넷 컨텐츠의 키워드를 이용한 광고 서비스 제공 방법,시스템 및 이를 위한 프로그램 기록매체 | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
CN110799971A (zh) | 媒体内容的生成和呈现 | |
CN105808642B (zh) | 推荐方法及装置 | |
KR20160069402A (ko) | 이용자 반응형 웹페이지 제공 방법 | |
TWI410099B (zh) | 下載資料解析及處理系統及方法 | |
US20190095542A1 (en) | Method and system of dynamic website creation through url parameter analysis | |
KR100962342B1 (ko) | 홈페이지 생성, 등록 및 관리 서비스 제공 시스템 및 방법 | |
US20140063339A1 (en) | In Browser Muxing and Demuxing For Video Playback | |
KR20150059206A (ko) | 모바일 단말기의 잠금화면을 이용한 광고방법, 그 방법을 위한 모바일 단말기 및 프로그램 분배 서버 | |
CN110968682A (zh) | 评论信息发布方法、装置、客户端、服务器和系统 | |
TWI612432B (zh) | Html網頁自動生成方法及其電腦程式產品、系統 | |
JP5420983B2 (ja) | プラットフォームシステム | |
KR20140072243A (ko) | 웹 사이트 검색창을 이용한 광고 방법 및 시스템 | |
KR100945570B1 (ko) | 홈페이지 등록, 관리 및 검색 서비스 제공 시스템 및 방법 | |
CN116561456A (zh) | 信息筛选方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |