TWI468951B - A method and device for implementing subscription information from a web page - Google Patents

A method and device for implementing subscription information from a web page Download PDF

Info

Publication number
TWI468951B
TWI468951B TW100100489A TW100100489A TWI468951B TW I468951 B TWI468951 B TW I468951B TW 100100489 A TW100100489 A TW 100100489A TW 100100489 A TW100100489 A TW 100100489A TW I468951 B TWI468951 B TW I468951B
Authority
TW
Taiwan
Prior art keywords
webpage
block
user
url
subscribed
Prior art date
Application number
TW100100489A
Other languages
English (en)
Other versions
TW201229783A (en
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Priority to TW100100489A priority Critical patent/TWI468951B/zh
Publication of TW201229783A publication Critical patent/TW201229783A/zh
Application granted granted Critical
Publication of TWI468951B publication Critical patent/TWI468951B/zh

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Description

一種實現從網頁中訂閱資訊的方法及裝置
本發明涉及網際網路資訊處理領域,特別涉及一種實現從網頁中訂閱資訊的方法及裝置。
隨著網際網路的發展,大多數使用者從網際網路獲取新聞資訊資訊,最初獲取資訊的方式是使用者打開一個一個的網站才能獲取所需要的內容。為了方便使用者獲取資訊,使用者可從網站中訂閱資訊。其中,用戶在流覽網頁時,通常只對網頁中的某一塊內容感興趣,而IE8.0(Internet Explorer 8.0,網際網路流覽器8.0版本)提供的WebSlices(網頁訂閱)可以實現對網頁中的某塊內容進行訂閱。
WebSlices訂閱資訊的過程具體為:網站事先通過對網頁的HTML(HyperText Markup Language,超檔標示語言)代碼中加入一些特殊的標記,該標記用於描述網頁中的某塊內容,WebSlices通過網頁中的特殊標記,可以對網頁中的對應的塊進行訂閱。
在實現本發明的過程中,發明人發現現有技術至少存在以下問題:第一、WebSlices只能對具有特殊標記的內容進行訂閱,因而不能夠實現對網頁中的任意塊內容進行訂閱;第二、由於需要網站在網頁的HTML代碼中事先插入標記,使得網站內容提供者需要提供更多的服務資源。
為了能夠對任意網頁中的任意塊內容進行訂閱以及減少網站內容提供者提供的服務資源或無需網站內容提供者提供與訂閱相關的服務資源,本發明實施例提供了一種實現從網頁中訂閱資訊的方法及裝置。該技術方案如下:一種實現從網頁中訂閱資訊的方法,該方法可包括:通過該網頁的DOM(Document Object Model,檔物件模型)樹,對使用者訂閱的網頁塊進行標識得到標識資訊;提取並儲存該使用者訂閱的網頁塊內的所有連結的URL(Uniform Resource Locator,環球資源定位器),根據該標識資訊和該儲存的URL,即時監控該用戶訂閱的網頁塊內的URL是否發生變化;如果該用戶訂閱的網頁塊內的URL發生變化,顯示該變化的URL對應的網頁。
顯示該變化的URL對應的網頁可包括:根據該變化的URL更新該儲存的URL;顯示該使用者訂閱的網頁塊的正文資訊。
在該通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊之前,該方法還可包括:建立該網頁的DOM樹。
通過該網頁的檔物件模型DOM樹,對使用者訂閱的網頁塊進行標識得到標識資訊可包括:從該網頁的DOM樹中,獲取該用戶訂閱的網頁塊中的第一個基本單元塊的序號和該用戶訂閱的網頁塊內包括的基本單元塊的個數;獲取該使用者訂閱的網頁塊的URL首碼; 根據該URL首碼,從該網頁的DOM樹中搜索該用戶訂閱的網頁塊的標題區段點,提取該標題區段點中的標題和標題URL;其中,將該用戶訂閱的網頁塊中的第一個基本單元塊的序號、該用戶訂閱的網頁塊內包括的基本單元塊的個數、該標題區段點的標題和標題URL作為該標識資訊。也就是,該標識資訊可包括:該用戶訂閱的網頁塊中的第一個基本單元塊的序號、該用戶訂閱的網頁塊內包括的基本單元塊的個數、該標題區段點的標題和標題URL。
該基本單元塊對應的節點不再包含其他節點且該基本單元塊包含的文字個數超過預設的閥值。該閥值可以設置為20。
該從該網頁的DOM樹中,獲取該用戶訂閱的網頁塊中的第一個基本單元塊的序號可包括:前序走訪該網頁的DOM樹,當走訪到該用戶訂閱的網頁塊包括的每個基本單元塊對應的節點時,讀取該節點的序號為該基本單元塊的序號;選取該用戶訂閱的網頁塊中的序號最小的基本單元塊的序號作為該用戶訂閱的網頁塊中的第一個基本單元塊的序號。
該獲取該用戶訂閱的網頁塊內包括的基本單元塊的個數可包括:前序走訪該網頁的DOM樹,統計該用戶訂閱的網頁塊內包括的基本單元塊的個數。
獲取該使用者訂閱的網頁塊的URL首碼可包括:提取該用戶訂閱的網頁塊中的所有連結的URL首碼,統計每種URL首碼的數目,選取數目最大的一種URL首碼為該使用者訂閱的網頁塊的URL首碼。
根據該URL首碼,從該網頁的DOM樹中搜索該用戶訂閱的網頁塊的標題區段點可包括:在該網頁的DOM樹中,從該用戶訂閱的網頁塊中的第一個基本單元塊對應的節點起,向前搜索標題區段點;從該搜索的標題區段點中,查找該標題區段點的URL與該URL首碼相同或相似的標題區段點為該用戶訂閱的網頁塊的標題區段點。
根據該標識資訊和該儲存的URL,即時監控該用戶訂閱的網頁塊內的URL是否發生變化可包括:讀取該標識資訊和該儲存的URL;建立該網頁的DOM樹;根據該讀取的該用戶訂閱的網頁塊中的第一個基本單元塊的序號,在該建立的DOM樹中定位出初始節點;根據該初始節點、該讀取的該標題區段點的標題和標題URL以及該用戶訂閱的網頁塊內包括的基本單元塊的個數,從該建立的DOM樹中搜索該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點;對該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點中的URL和該儲存的URL進行比較。
根據該初始節點、該讀取的該標題區段點的標題和標題URL以及該用戶訂閱的網頁塊內包括基本單元塊的個數,從該建立的DOM樹中搜索該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點可包括:根據該標題區段點的標題和標題URL,在該建立的DOM樹中,從該初始節點起,同時向前和向後搜索對應的標題區段點; 在該建立的DOM樹中,從該標題區段點起向後連續搜索節點,且搜索的節點的個數與該用戶訂閱的網頁塊內包括的基本單元的個數相同,其中,該搜索的節點為該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點。
通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊之前,該方法還可包括:判斷該網頁中是否存在用戶已訂閱的網頁塊,如果是,在該網頁中用特定的背景色顯示該已訂閱的網頁塊。
一種實現從網頁中訂閱資訊的裝置,該裝置可包括:標識模組,用於通過該網頁的檔物件模型DOM樹,對使用者訂閱的網頁塊進行標識得到標識資訊;即時監控模組,用於提取並儲存該使用者訂閱的網頁塊內的所有連結的環球資源定位器URL,根據該標識資訊和該儲存的URL,即時監控該用戶訂閱的網頁塊內的URL是否發生變化;顯示模組,用於如果該使用者訂閱的網頁塊內的URL發生變化,顯示該變化的URL對應的網頁。
該顯示模組可包括:更新模組,用於根據該變化的URL更新該儲存的URL;顯示子模組,用於顯示該使用者訂閱的網頁塊的正文資訊。
該裝置可進一步包括:預建立單元,用於建立該網頁的DOM樹。
該標識模組可包括:第一獲取單元,用於從該網頁的DOM樹中,獲取該用戶訂閱的網頁塊 中的第一個基本單元塊的序號和該用戶訂閱的網頁塊內包括的基本單元塊的個數;第二獲取單元,用於獲取該使用者訂閱的網頁塊的URL首碼;第一搜索單元,用於根據該URL首碼,從該網頁的DOM樹中搜索該用戶訂閱的網頁塊的標題區段點,提取該標題區段點中的標題和標題URL;其中,將該用戶訂閱的網頁塊中的第一個基本單元塊的序號、該用戶訂閱的網頁塊內包括的基本單元塊的個數、該標題區段點的標題和URL作為該標識資訊。也就是,該標識資訊包括該使用者訂閱的網頁塊中的第一個基本單元塊的序號、該用戶訂閱的網頁塊內包括的基本單元塊的個數、該標題區段點的標題和標題URL。
該第一獲取單元可包括:走訪子單元,用於前序走訪該網頁的DOM樹,當走訪到該用戶訂閱的網頁塊包括每個基本單元塊對應的節點時,讀取該節點的序號為該基本單元塊的序號;選取子單元,用於選取該使用者訂閱的網頁塊中的序號最小的基本單元塊的序號作為該用戶訂閱的網頁塊中的第一個基本單元塊的序號;第一統計子單元,用於統計該使用者訂閱的網頁塊內包括的基本單元塊的個數。
該第二獲取單元可包括:第二統計子單元,用於提取該使用者訂閱的網頁塊中的所有連結的URL首碼,統計每種URL首碼的數目,選取數目最大的一種URL首碼為該使用者訂閱的網頁塊的URL首碼。
該第一搜索單元可包括:第一搜索子單元,用於在該網頁的DOM樹中,從該用戶訂閱的網頁塊中的第一個基本單元塊對應的節點起,向前搜索標題區段點;查找子單元,用於從該搜索的標題區段點中,查找該標題區段點的URL與該URL首碼相同或相似的標題區段點為該用戶訂閱的網頁塊的標題區段點,提取該標題區段點中的標題和標題URL。
該即時監控模組可包括:讀取單元,用於讀取該標識資訊和該儲存的URL;建立單元,用於建立該網頁的DOM樹;定位單元,用於根據該讀取的該用戶訂閱的網頁塊中的第一個基本單元塊的序號,在該建立的DOM樹中定位出初始節點;第二搜索單元,用於根據該初始節點、該讀取的該標題區段點的標題和標題URL以及該用戶訂閱的網頁塊內包括的基本單元塊的個數,從該建立的DOM樹中搜索該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點;比較單元,用於對該使用者訂閱的網頁塊內包括的每個基本單元塊對應的節點中的URL和該儲存的URL進行比較。
該第二搜索單元可包括:第二搜索子單元,用於根據該標題區段點的標題和標題URL,在該建立的DOM樹中,從該初始節點起,同時向前和向後搜索對應的標題區段點;第三搜索子單元,用於在該建立的DOM樹中,從該標題區段點起向後連續搜索節點,且搜索的節點的個數與該用戶訂閱的網頁塊內包括的基本 單元的個數相同,其中,該搜索的節點為該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點。
該裝置還可包括:判斷模組,用於判斷該網頁中是否存在用戶已訂閱的網頁塊,如果是,在該網頁中用特定的背景色顯示該已訂閱的網頁塊。
通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊,提取並儲存訂閱的網頁塊內的URL,根據標識資訊和儲存的URL,即時監控訂閱的網頁塊內的URL變化,顯示變化的URL對應的網頁。由於能夠對網頁中的任意網頁塊進行自動地標識,而不需要網站內容提供者事先對網頁的內容進行標識,使得能夠訂閱網頁中任意塊內容且減少網站內容提供者提供的服務資源;另外,還可以判斷出用戶從該網頁中已訂閱的網頁塊,並在該網頁中用特定的背景色顯示已訂閱的網頁塊,如此,提高了用戶體驗。
為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步地詳細描述。
實施例1
如第一圖所示,本發明實施例提供了一種實現從網頁中訂閱資訊的方法,包括:步驟101:當使用者從網站的網頁中進行訂閱資訊時,通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊; 步驟102:提取並儲存使用者訂閱的網頁塊內的所有連結的URL,根據標識資訊和儲存的URL,即時監控用戶訂閱的網頁塊內的URL是否發生變化,如果發生變化,則執行步驟103;步驟103:顯示變化的URL對應的網頁。
在該步驟中,顯示變化的URL對應的網頁包括:根據該變化的URL更新該儲存的URL,也就是,用新的用戶訂閱的網頁塊內的所有連結的URL替換先前儲存的URL。顯示變化的URL對應的網頁還包括:向使用者顯示訂閱的網頁塊的正文資訊,該正文資訊去除了廣告、標語、導航資訊、版權資訊等無關資訊。另外,在向使用者顯示訂閱的網頁塊的正文資訊之前,可以下載URL列表中對應的網頁,分析客戶對網頁中的哪些內容更為感興趣,對這些內容進行整理,然後將網頁塊的正文資訊向客戶顯示。
由於能夠對任意網頁中的任意網頁塊進行自動地標識,而不需要網站內容提供者事先對網頁的內容進行標識,從而能夠訂閱網頁中任意塊的內容且減少網站內容提供者提供的服務資源。
實施例2
如第二圖所示,本發明實施例提供了一種實現從網頁中訂閱資訊的方法,包括: 步驟201:接收來自使用者的ID(Identification,身份標識)和網頁的URL;其中,使用者需要從該網頁中訂閱資訊,且該網頁中包括至少一個網頁塊,每個網頁塊中包括至少一個基本單元塊,每個網頁塊都有自身的標題和標題URL,每個網頁塊內包括多個連結,且這些連結都為該網頁中自帶 的內容。
例如,如第三圖所示為從騰訊網首頁中截取的一個標題為“汽車”的網頁塊,該網頁塊的標題為“汽車”,標題URL為“http://auto.qq.com”,該網頁塊包括基本單元塊1和基本單元塊2,該網頁塊內包括十三個連結,且這些連結都為騰訊網首頁自帶的內容。在本實施例中以網頁塊作為用戶從該網頁中訂閱資訊的基本單位。
其中,在網頁引用的代碼中,網頁塊為一個Div節點,在該Div節點內還嵌套多個Div節點。基本單元塊也為Div節點,而基本單元塊對應的Div節點嵌套在網頁塊對應的Div節點之內,基本單元塊對應的Div節點內不再嵌套其他Div節點且包含的文字個數超過預設的閥值,該閥值通常設置為20。
步驟202:根據該網頁的URL從網站中下載對應的網頁;其中,下載該網頁即為下載該網頁中引用的代碼,該代碼為HTML代碼或XML(Extensible Markup Language,可延伸標記語言)代碼,將下載的代碼都儲存在文字檔中,當下載完該網頁的代碼後,將下載的代碼中的絕對路徑改為相對路徑,同時自動補全網頁中的CSS(Cascading Style Sheets,串接式表單)和IMG(IMAGINE,圖片格式)相對路徑資訊,從而使得網頁能夠正常顯示給使用者(此為現有技術,在本實施例中不加以限制)。
步驟203:根據該網頁的代碼,利用現有的文檔分析技術建立該網頁對應的DOM樹;其中,利用文檔分析技術對文字檔中保存的代碼進行掃描,建立出該網頁對應的DOM樹。文檔分析技術將網頁塊作為DOM樹中的節點,將網頁 塊的標題和標題URL作為其自身對應的節點的子節點,將網頁塊包括的每個基本單元塊分別作為其自身對應的節點的子節點。其中,為了便於說明將DOM樹中用於儲存網頁塊的標題和標題URL的節點稱為標題區段點。
步驟204:接收來自用戶訂閱的網頁塊;其中,當將該網頁顯示給使用者時,使用者可以從網頁中選擇需要訂閱的資訊,由於在本實施例中以網頁塊作為用戶從網頁中訂閱資訊的基本單位,所以根據使用者從網頁中訂閱資訊的位置映射出所在的網頁塊,並進一步獲取該網頁塊包括的所有基本單元塊。用戶訂閱的網頁塊可以為一個或多個。在本實施例中以用戶訂閱一個網頁塊為例進行說明。例如,用戶從騰訊網首頁中的如第三圖所示的網頁塊中訂閱資訊,根據該訂閱資訊的位置映射出所在的網頁塊,進一步獲取該網頁塊包括的基本單元塊1和基本單元塊2,且該用戶的ID為ID1,騰訊網首頁的URL為“http://www.qq.com”。
另外,在本實施例中,還可以以推薦的方式從網頁中訂閱資訊,具體為:記錄使用者每次訂閱的網頁塊的標題,當將該網頁顯示給使用者時,根據記錄網頁塊的標題,從該網頁中選擇對應的網頁塊,並將選擇的網頁塊推薦給用戶,由用戶確認,如果用戶確認訂閱選擇的網頁塊,則執行步驟205;如果用戶不訂閱選擇的網頁塊,則由使用者重新訂閱需要的資訊。例如,假設,用戶事先訂閱“汽車”網頁塊,記錄該網頁塊的標題“汽車”,此時,用戶再從騰訊網首頁開始訂閱資訊時,從騰訊網首頁中自動地選擇“汽車”網頁塊,並將“汽車”網頁塊推薦給用戶,由用戶確認,如果用戶確認訂閱“汽車”網頁塊,則執行步驟205,如果不訂閱“汽車”網頁塊, 則由用戶重新從騰訊網首頁中訂立資訊。
步驟205:通過對訂閱的網頁塊進行標識,獲取網頁塊的標識資訊,該標識資訊至少包括該網頁塊的第一個基本單元塊的序號,該網頁塊的標題區段點的標題和標題URL以及該網頁塊內包括的基本單元塊的個數;具體包括以下(1)至(4)步驟:
(1)獲取該網頁塊包括的第一個基本單元塊的序號以及基本單元塊的個數;其中,設置一個變數的初始值為0,採用現有的前序走訪演算法對該網頁的DOM樹進行前序走訪,當走訪到基本單元塊對應的節點時,將該變數加1,同時將該變數值作為該基本單元塊的序號,然後再繼續走訪該DOM樹,直到走訪完該DOM樹時,得到每個基本單元塊對應的節點的序號。其中,需要說明的是:對於同一個網頁塊,在DOM樹中該網頁塊的標題區段點和該網頁塊包括的每個基本單元塊對應的節點都連續地分佈在一起,所以在前序走訪的過程中,首先走訪標題區段點,然後再走訪該標題區段點後連續的每個基本單元塊對應的節點。
例如,如第四圖所示,在DOM樹中將如第三圖所示的網頁塊作為一個節點A,該網頁塊的標題和標題URL,基本單元塊1,基本單元塊2分別為該節點的三個子節點,該三個子節點分別為節點B、節點12和節點13,其中,節點B為標題區段點。另外,設置一個變數的初值為0,採用現有的前序走訪演算法對DOM樹進行前序走訪,當在該DOM樹中走訪到基本單元塊1對應的節點12時,假設該變數的值已加為11,則此時將該變數再加1得到的值為12,並將該變數的值12作為該基本單元塊1對應的節點12的序號, 再繼續走訪到基本單元塊2對應的節點13時,將該變數加1得到的值為13,並將該變數的值13作為基本單元塊2對應的節點13的序號,如此,直到走訪完整個DOM樹。
也就是,對於該網頁塊內包括的每個基本單元塊,通過前序走訪DOM樹,當走訪出該網頁塊包括的每個基本單元塊對應的節點時,讀取該節點的序號作為基本單元塊的序號,從所有基本單元塊中選取序號最小的基本單元塊為該網頁塊的第一個基本單元塊,並將該最小的序號作為該網頁塊中的第一個基本單元塊的序號;並且,統計該網頁塊內包括的所有基本單元塊的個數。
例如,對於如第三圖所示的網頁塊內包括的基本單元塊1和基本單元塊2,通過前序走訪如第四圖所示的DOM樹,當走訪到基本單元塊1對應的節點12時,讀取該節點的序號12作為基本單元塊1的序號12,當走訪到基本單元塊2對應的節點13時,讀取該節點的序號13作為基本單元塊2的序號,選取序號最小的基本單元塊1作為該網頁塊的第一個基本單元塊,並將基本單元塊1的序號12作為該網頁塊中的第一個基本單元塊的序號。並且,統計如第三圖所示的網頁塊包括的基本單元塊的個數為2。
(2)讀取該網頁塊內包括的所有連結的URL首碼,統計每種URL首碼的數目,選取數目最大的一種URL首碼為該網頁塊對應的URL首碼;其中,網頁塊內包括多個連結的URL按各自的結構進行分類,且每類包括的每個URL的前部都存在共同的子串,該共同的子串即為該類每個URL的URL首碼。
其中,網頁塊內包括大部分或全部的連結的URL的結構為“網頁塊的 URL+子目錄”,網頁塊內還可能存在少部分的連結的URL的結構為其他形式。在如第三圖所示的網頁塊內的大部分連結的URL的結構為“http://auto.qq.com+子目錄”,如連結“豪華車圈地二三線市場”的URL為“http://auto.qq.com/a/2009 1119/000082.htm”。因此,對於URL結構為“網頁塊的URL+子目錄”的連結的所有URL,從每個URL提取的URL首碼與網頁塊的URL相同或相似,且URL首碼與網頁塊的URL相似的情況包括:網頁塊的URL是URL首碼的子串,或URL首碼是網頁塊的URL子串。如提取連結“豪華車圈地二三線市場”的URL首碼可以為“http://auto.qq.com”,此URL首碼與該網頁塊的URL相同;再如,提取連結“豪華車圈地二三線市場”的URL首碼還可以為“http://auto.qq.com/a”,而網頁塊的URL為該URL首碼的子串,兩者相似。
其中,由於網頁塊內大部分或全部的連結的URL的結構為“網頁塊的URL+子目錄”,因此,提取出的大部分或全部的連結的URL首碼通常與網頁塊的URL相同或相似,所以選取出的數目最大的一種URL首碼與網頁塊的URL相同或相似。
(3)根據選取的URL首碼,從DOM樹中搜索出該網頁塊的標題區段點;具體地,在DOM樹中從該網頁塊的第一個基本單元塊對應的節點起,向前搜索,當搜索出標題區段點時,判斷該標題區段點內的URL是否與選取的URL首碼相同或相似,如果是,則該標題區段點為該網頁塊的標題區段點,如果否,繼續向前搜索。
其中,在DOM樹中向前搜索是與前序走訪的方向相反,向後搜索是與 前序走訪的方向相同。
例如,假設,在(2)中得到如第三圖所示的網頁塊的URL首碼為“http://auto.qq.com/a”,在DOM樹中從該網頁塊的第一個基本單元塊即基本單元塊1對應的節點12起,向前搜索,當搜索到標題區段點B時,從標題區段點B內讀取儲存的URL為“http://auto.qq.com”,判斷該URL與該URL首碼相似,所以標題區段點B為如第三圖所示網頁塊的標題區段點。
(4)從搜索出的標題區段點中讀取其內儲存的URL和標題,即得到該標題區段點的標題和標題URL。
例如,從標題區段點B中讀取儲存的標題和標題URL分別為“汽車”和“http://auto.qq.com。
然後,根據使用者的ID、網頁的URL和標識資訊的對應關係,可以將該用戶的ID、該網頁的URL、該網頁塊的標識資訊儲存為一條記錄。
例如,將用戶的ID即為ID1、該網頁的URL即“http://www.qq.com”、網頁塊中的第一個基本單元塊的序號12、網頁塊的標題區段點的標題和標題URL分別為“汽車”和“http://auto.qq.com”、該網頁塊包括的基本單元塊的個數2作為一條記錄,並儲存該條記錄如表1所示。
步驟206:從訂閱的該網頁塊內讀取並儲存包括的所有連結對應的URL;其中,可以根據該使用者的ID和該網頁的URL,將讀取的所有URL儲存在先前建立的記錄中;另外,當儲存讀取的所有URL時,設置一個計時器,以監控訂閱的網頁塊內的URL變化。該計時器的時間可以由使用者根據需要進行設置,也可以設置成默認的時間,其中,該計時器的時間通常被設置得較短,例如為半小時或1小時等。
例如,從如第三圖所示的網頁塊中讀取的十三個URL分別為S1、S2、S3、S4、S5、S6、S7、S8、S9、S10、S11、S12和S13,根據使用者的ID即ID1和該網頁的URL即http://www.qq.com,將讀取的十三個URL儲存在表1所示的記錄中,如表2所示。然後,再為該條記錄設置一個計時器。
步驟207:根據獲取的標識資訊和儲存的所有URL,即時監控訂閱的網頁塊中的URL是否發生變化,如果發生變化,則執行步驟208;具體地,包括如下第一步至第四步的內容:第一步:當在步驟206中設置的計時器溢出時,根據該使用者的ID和該網頁的URL例如從以上儲存的記錄中讀取對應的標識資訊,該標識資訊至少包括該網頁塊中的第一個基本單元塊的序號、該網頁塊的標題區段點的標題和標題URL以及該網頁塊中包括的基本單元塊的個數;例如,在步驟206中為儲存的記錄設置一個計時器,當該計時器溢出時,根據該記錄中儲存的ID1和“http://www.qq.com”,從如表1所示的用戶的ID、網頁的URL和標識資訊的對應關係,讀取對應的標識資訊包括網頁塊中的第一個基本單元塊的序號13、標題區段點的標題“汽車”和URL“http://auto.qq.com”以及網頁塊中包括的基本單元塊個數2。
第二步,根據該網頁的URL,下載對應的網頁,根據該網頁引用的代碼,並利用現有的文檔分析技術,重新建立該網頁的DOM樹,對新建立的DOM樹進行前序走訪,得出DOM樹中包括的每個基本單元塊對應的節點的序號;其中,此時下載的該網頁的結構可能發生了變化,使得到建立的DOM樹的結構與步驟203建立的DOM樹的結構存在不同,但由於計時器的時間設置的不是很長,使得該網頁結構發生的變化不是很大,如此建立的DOM樹中的大部分基本單元塊對應的節點的序號都沒有發生變化,即使有一部 分節點的序號發生變化,該序號變化的差值通常不超過3。例如,在本步驟中建立的標題為“汽車”的網頁塊的DOM樹如第五圖所示,該網頁塊的標題區段點為節點B,該網頁塊包括的基本單元塊1和基本單元塊2分別對應的節點為節點11和節點12,其中,節點11和節點12的序號分別為11和12。
第三步,根據在第一步中讀取的標識資訊,從此時建立的DOM樹中查找訂閱的網頁塊內包括的所有基本單元塊對應的節點,並提取每個節點中包括的所有連結的URL,具體包括如下(1)至(5)的步驟:
(1)根據在第一步中讀取的網頁塊中的第一個基本單元塊的序號,在重新建立的DOM樹中定位出對應的一個節點為初始節點;其中,由於與步驟203相比,在步驟207中下載的該網頁的結構可能發生變化,使得在步驟207中建立的DOM樹的結構可能發生變化,因此,定位出的初始節點可能是該網頁塊中的第一個基本單元塊對應的節點,也可能不是該網頁塊中的第一個基本單元塊對應的節點。
例如,根據標題為“汽車”的網頁塊中的第一個基本單元塊的序號12,在如第五圖所示的DOM樹中定位出一個序號為12的初始節點。
(2)在重新建立的DOM樹中,從該初始節點起,同時向前和向後搜索標題區段點,當搜索到標題區段點時,從搜出的標題區段點中讀取其標題和標題URL;例如,在如第五圖所示的DOM樹中,在序號為12的初始節點起,同時向前和向後,搜索標題區段點,當搜索出標題區段點B時,從標題區段點B中讀取標題和標題URL分別為“汽車”和“http://auto.qq.com”。
(3)判斷讀取的標題和標題URL與在第一步中讀取的標識資訊中的標題和標題URL是否都相同,如果都相同,則該標題區段點為該網頁塊的標題區段點,執行(4),如果不都相同,則執行(2);例如,判斷出讀取的“汽車”和“http://auto.qq.com”和在第一步中從記錄中儲存的“汽車”和“http://auto.qq.com”都相同,執行(4)。
(4)在重新建立的DOM樹中,從該標題區段點起,向後連續搜索節點,且搜索的節點的個數與在第一步中讀取的該網頁塊包括的基本單元塊的個數相同;其中,在DOM樹中,同一個網頁塊內包括的每個基本單元塊的對應的節點與該網頁塊的標題區段點都連續地分佈在一起,所以當找到該網頁塊的標題區段點時,再從該標題區段點向後搜索與在第一步中讀取的該網頁塊包括的基本單元塊的個數相同的個數的節點,即為該網頁塊包括的所有基本單元塊對應的節點。
例如,標題為“汽車”網頁塊包括的基本單元塊的個數為2,在如第五圖所示DOM樹中,從標題區段點B起,向後連續搜索2個節點分別為節點11和節點12,將節點11和節點12分別作為該網頁塊包括的基本單元塊1和基本單元塊2對應的節點。
(5)從該網頁塊包括的所有基本單元塊對應的節點中,讀取所有節點內的所有連結的URL,其中,讀取的所有URL即為該網頁塊內包括的所有連結的URL。
例如,從節點11和節點12中提取其內包括的所有連結的URL分別為S1、S2、S3、S4、S5、S6、S7、U1、U2、U3、U4、U5和U6。
第四步、將此時得到的該網頁塊內包括的所有連結的URL與記錄中儲存的所有連結的URL進行比較,如果發生變化,則執行步驟208。
步驟208:顯示該變化的URL對應的網頁。
具體地,當網頁塊內包括的所有連結的URL發生變化時,對該記錄中儲存的訂閱的網頁塊包括的所有URL進行更新,並可重新為該記錄設置計時器,該計時器與步驟206中設置的計時器完全相同,並且當該計時器再次溢出時,重新按上述步驟監控訂閱的網頁塊內的所有URL是否變化。
例如,將此時讀取的S1、S2、S3、S4、S5、S6、S7、U1、U2、U3、U4、U5、U6與記錄中儲存的S1、S2、S3、S4、S5、S6、S7、S8、S9、S10、S11、S12、S13進行比較,用讀取的S1、S2、S3、S4、S5、S6、S7、U1、U2、U3、U4、U5、U6替代先前記錄中儲存的S1、S2、S3、S4、S5、S6、S7、S8、S9、S10、S11、S12、S13,即更新記錄如表3所示,再為該記錄重新設置一個計時器。
然後,在本實施例中,通過RSS(Really Simple Syndication,資源分享模式的延伸)顯示的方式向使用者顯示該使用者訂閱的網頁塊的正文 資訊。RSS顯示的方式可以從網頁的Web文檔中提取正文,並直接顯示。
其中,在本實施例中用戶還可一次訂閱多個網頁塊,然後獲取每個網頁塊的標識資訊,該標識資訊至少包括網頁塊中的第一個基本單元塊的序號,網頁塊的標題區段點的標題和標題URL以及網頁塊包括基本單元塊的個數。然後儲存每個網頁塊的標識資訊。
由於能夠對網頁中的任意網頁塊進行自動地標識,而不需要網站內容提供者事先對網頁的內容進行標識,使得能夠訂閱網頁中任意塊內容且減少網站內容提供者提供的服務資源。
實施例3
如第六圖所示,本發明實施例提供了一種實現從網站中訂閱資訊的方法,包括: 步驟301:接收用戶的ID和網頁的URL,其中,用戶從該網頁中訂閱需要訂閱的資訊;同樣,在本實施例中,以網頁塊作為用戶從網頁中訂閱所需資訊的基本單位。
步驟302:根據該網頁的URL從網站中下載對應的網頁,根據該網頁引用的代碼利用文檔分析技術,建立該網頁的DOM樹;進一步地,對建立的DOM樹進行前序走訪,得到該DOM樹中的每個節點被走訪的序號。
步驟303:根據該ID和該網頁的URL,查找用戶的ID、網頁的URL和標識資訊的對應關係,如果查找出對應的標識資訊,則執行步驟304,否則,執行步驟305; 其中,如果從用戶的ID、網頁的URL和標識資訊的對應關係中查找出包括該ID和該網頁的URL的記錄,則說明使用者已在該網頁中訂閱過網頁塊。在本實施例中,可以向使用者顯示已經從網頁中訂閱的網頁塊,用戶再修改已訂閱的網頁塊。
步驟304:根據查找的標識資訊,在該網頁中用特定的背景色標出已訂閱的網頁塊,並顯示給使用者,執行步驟306;其中,標識資訊包括已訂閱的網頁塊中的第一個基本單元的序號、已訂閱的網頁塊的標題區段點的標題和標題URL以及已訂閱的網頁塊包括的基本單元塊的個數。
具體地,第一步,根據查找的標識資訊,從DOM樹中查找已訂閱的網頁塊包括的每個基本單元塊對應的節點,具體為:(1)根據已訂閱的網頁塊中的第一個基本單元塊的序號,在DOM樹中定位出對應的一個節點為初始節點;(2)在DOM樹中,從該初始節點起,同時向前和向後搜索標題區段點,當搜索到標題區段點時,從搜出的標題區段點中讀取儲存的標題和標題URL;(3)判斷讀取的標題和標題URL與標識資訊中的標題和標題URL是否都相同,如果都相同,則該標題區段點為該網頁塊的標題區段點,執行(4),如果不都相同,則執行(2);(4)在DOM樹中,從該標題區段點起,向後搜索節點的個數與已訂閱的網頁塊包括的基本單元塊的個數相同數目的節點,即為已訂閱的網頁塊包括的所有基本單元塊對應的節點; 第二步、將已訂閱的網頁塊包括的每個基本單元塊對應的節點映射成網頁中的每個基本單元塊,並將映射的基本單元塊的背景色修改為特定的顏色,再將該網頁顯示給使用者。
其中,映射的每個基本單元塊即為已訂閱的網頁塊中包括的每個基本單元塊,用特定的背景色在網頁中顯示使用者已訂閱的網頁塊中包括的每個基本單元塊。用戶可以從該網頁中修改已訂閱的網頁塊,即重新訂閱網頁塊。
步驟305:將下載的該網頁顯示給使用者;其中,使用者可以從該網頁中選擇需要訂閱的資訊;步驟306:接收用戶訂閱的網頁塊;步驟307:通過對訂閱的網頁塊進行標識,獲取該網頁塊的標識資訊,該標識資訊至少包括該網頁塊中的第一個基本單元塊的序號、該網頁塊的的標題和標題URL以及該網頁塊包括基本單元塊的個數;將該ID、該網頁的URL和該標識資訊作為一條記錄,並將該條記錄儲存在使用者的ID、網頁的URL和標識資訊的對應關係中;其中,此步驟與實施例2的步驟205相同,在此不再贅述。
步驟308:從訂閱的網頁塊中提取並儲存包括的所有連結對應的URL,然後儲存使用者ID,該網頁的URL和提取的所有URL的對應關係;其中,此步驟與實施例2的步驟206相同,在此不再贅述。
步驟309:根據訂閱的網頁塊的標識資訊和儲存的URL,即時監控訂閱的網頁塊中的URL是否發生變化,如果發生變化,則執行步驟310;其中,此步驟與實施例2的步驟207相同,在此不再贅述。
步驟310:顯示變化的URL對應的網頁。
其中,此步驟與實施例2的步驟208相同,在此不再贅述。
由於能夠對網頁中的任意網頁塊進行自動地標識,而不需要網站內容提供者事先對網頁的內容進行標識,使得能夠訂閱網頁中任意塊的內容且減少網站內容提供者提供的服務資源,由於在該網頁中用特定的背景色顯示已訂閱的網頁塊,如此,提高了用戶體驗。
實施例4
如第七圖所示,本發明實施例提供了一種實現從網頁中訂閱資訊的裝置,包括:標識模組401,用於當使用者在網頁中進行訂閱資訊時,通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊;即時監控模組402,用於提取並儲存使用者訂閱的網頁塊內的所有連結的URL,根據標識資訊和儲存的URL,即時監控用戶訂閱的網頁塊內的URL是否發生變化;顯示模組403,用於如果該用戶訂閱的網頁塊內的URL發生變化,顯示變化的URL對應的網頁。
該顯示模組403可包括:更新模組,用於根據該變化的URL更新該儲存的URL;顯示子模組,用於顯示該使用者訂閱的網頁塊的正文資訊。
該裝置還可進一步包括預建立單元,用於建立該網頁的DOM樹。
其中,標識模組401可包括:第一獲取單元,用於從該網頁的DOM樹中,獲取用戶訂閱的網頁塊中的第一個基本單元塊的序號和該用戶訂閱的網頁塊內包括的基本單元塊的 個數;第二獲取單元,用於獲取使用者訂閱的網頁塊的URL首碼;第一搜索單元,用於根據獲取的URL首碼,從該網頁的DOM樹中搜索用戶訂閱的網頁塊的標題區段點,提取搜索的標題區段點中的標題和標題URL;其中,將用戶訂閱的網頁塊中的第一個基本單元塊的序號、使用者訂閱的網頁塊內包括的基本單元塊的個數、使用者訂閱的網頁塊的標題區段點的標題和標題URL作為標識資訊;其中,第一獲取單元可包括:走訪子單元,用於前序走訪該網頁的DOM樹,當走訪到用戶訂閱的網頁塊包括的每個基本單元塊對應的節點時,讀取該節點的序號為該基本單元塊的序號;選取子單元,用於選取使用者訂閱的網頁塊中的序號最小的基本單元塊的序號作為使用者訂閱的網頁塊中的第一個基本單元塊的序號;第一統計子單元,用於統計該使用者訂閱的網頁塊內包括的基本單元塊的個數。
其中,第二獲取單元可包括:第二統計子單元,用於提取使用者訂閱的網頁塊中的所有連結的URL首碼,統計每種URL首碼的數目,選取數目最大的一種URL首碼為使用者訂閱的網頁塊的URL首碼。
其中,第一搜索單元可包括:第一搜索子單元,用於在該網頁的DOM樹中,從用戶訂閱的網頁塊中 的第一個基本單元塊對應的節點起,向前搜索標題區段點;查找子單元,用於從搜索的標題區段點中,查找URL與獲取的URL首碼相同或相似的標題區段點為用戶訂閱的網頁塊的標題區段點,提取查找的標題區段點中的標題和標題URL。
其中,即時監控模組402可包括:讀取單元,用於讀取該標識資訊和該儲存的URL;建立單元,用於建立網頁的DOM樹;定位單元,用於根據該讀取的使用者訂閱的網頁塊中的第一個基本單元塊的序號,在建立的DOM樹中定位出初始節點;第二搜索單元,用於根據定位的初始節點、該讀取的標題區段點的標題和標題URL以及用戶訂閱的網頁塊內包括的基本單元塊的個數,從建立的DOM樹中搜索用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點;比較單元,用於對使用者訂閱的網頁塊內包括的每個基本單元塊對應的節點中的URL和儲存的URL進行比較。
其中,第二搜索單元可包括:第二搜索子單元,用於根據標題區段點的標題和標題URL,在建立的DOM樹中,從初始節點起,同時向前和向後搜索對應的標題區段點;第三搜索子單元,用於在建立的DOM樹中,從該標題區段點起向後連續搜索節點,且搜索的節點的個數與用戶訂閱的網頁塊內包括的基本單元的個數相同,其中,搜索的節點為用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點。
進一步地,如第八圖所示,該裝置還可包括: 判斷模組404,用於判斷該網頁中是否存在用戶已訂閱的網頁塊,如果是,在該網頁中用特定的背景色顯示已訂閱的網頁塊。
在本發明實施例中,由於能夠對網頁中的任意網頁塊進行自動地標識,而不需要網站內容提供者事先對網頁的內容進行標識,使得能夠訂閱網頁中任意塊的內容且減少網站內容提供者提供的服務資源。
以上實施例提供的技術方案中的全部或部分內容可以通過軟體程式設計實現,其軟體程式儲存在可讀取的儲存介質中,儲存介質例如:電腦中的硬碟、光碟或軟碟。
以上所述僅為本發明的較佳實施例,並不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
1‧‧‧基本單元塊
2‧‧‧基本單元塊
A、B、11、12、13‧‧‧節點
401‧‧‧標識模組
402‧‧‧即時監控模組
403‧‧‧顯示模組
404‧‧‧判斷模組
第一圖是本發明實施例1提供的一種實現從網頁中訂閱資訊的方法流程圖;第二圖是本發明實施例2提供的一種實現從網頁中訂閱資訊的方法流程圖;第三圖是本發明實施例2提供的一種網頁塊示意圖;第四圖是本發明實施例2提供的第一種DOM樹示意圖;第五圖是本發明實施例2提供的第二種DOM樹示意圖;第六圖是本發明實施例3提供的一種實現從網頁中訂閱資訊的方法流程圖;第七圖是本發明實施例4提供的第一種實現從網頁中訂閱資訊的裝置示意圖;第八圖是本發明實施例4提供的第二種實現從網頁中訂閱資訊的裝置示意圖。

Claims (14)

  1. 一種實現從網頁中訂閱資訊的方法,該方法包括:通過該網頁的檔物件模型DOM樹,對使用者訂閱的網頁塊進行標識得到標識資訊;提取並儲存該使用者訂閱的網頁塊內的所有連結的環球資源定位器URL,根據該標識資訊和該儲存的URL,即時監控該用戶訂閱的網頁塊內的URL是否發生變化;以及如果該用戶訂閱的網頁塊內的URL發生變化,顯示該變化的URL對應的網頁;其中通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊包括:從該網頁的DOM樹中,獲取該用戶訂閱的網頁塊中的第一個基本單元塊的序號和該用戶訂閱的網頁塊內包括的基本單元塊的個數;獲取該使用者訂閱的網頁塊的URL首碼;根據該URL首碼,從該網頁的DOM樹中搜索該用戶訂閱的網頁塊的標題區段點,提取該標題區段點中的標題和標題URL;以及其中,該標識資訊包括:該用戶訂閱的網頁塊中的第一個基本單元塊的序號、該用戶訂閱的網頁塊內包括的基本單元塊的個數、該標題區段點的標題和標題URL;並且該基本單元塊對應的節點不再包含其他節點且該基本單元塊包含的文字個數超過預設的閥值。
  2. 如申請專利範圍第1項所述之一種實現從網頁中訂閱資訊的方法,其中顯示該變化的URL對應的網頁包括:根據該變化的URL更新該儲存的 URL,顯示該使用者訂閱的網頁塊的正文資訊;以及在通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊之前,該方法還包括:建立該網頁的DOM樹。
  3. 如申請專利範圍第1項所述之一種實現從網頁中訂閱資訊的方法,其中從該網頁的DOM樹中,獲取該用戶訂閱的網頁塊中的第一個基本單元塊的序號包括:前序走訪該網頁的DOM樹,當走訪到該用戶訂閱的網頁塊包括的每個基本單元塊對應的節點時,讀取該節點的序號為該基本單元塊的序號;以及選取該用戶訂閱的網頁塊中的序號最小的基本單元塊的序號作為該用戶訂閱的網頁塊中的第一個基本單元塊的序號。
  4. 如申請專利範圍第1項所述之一種實現從網頁中訂閱資訊的方法,其中獲取該用戶訂閱的網頁塊內包括的基本單元塊的個數包括:前序走訪該網頁的DOM樹,統計該用戶訂閱的網頁塊內包括的基本單元塊的個數;以及獲取該使用者訂閱的網頁塊的URL首碼包括:提取該用戶訂閱的網頁塊中的所有連結的URL首碼,統計每種URL首碼的數目,選取數目最大的一種URL首碼為該使用者訂閱的網頁塊的URL首碼。
  5. 如申請專利範圍第1項所述之一種實現從網頁中訂閱資訊的方法,其中根據該URL首碼,從該網頁的DOM樹中搜索該用戶訂閱的網頁塊的標題區段點包括:在該網頁的DOM樹中,從該用戶訂閱的網頁塊中的第一個基本單元塊 對應的節點起,向前搜索標題區段點;以及從該搜索的標題區段點中,查找該標題區段點的URL與該URL首碼相同或相似的標題區段點為該用戶訂閱的網頁塊的標題區段點。
  6. 如申請專利範圍第1項所述之一種實現從網頁中訂閱資訊的方法,其中根據該標識資訊和該儲存的URL,即時監控該用戶訂閱的網頁塊內的URL是否發生變化包括:讀取該標識資訊和該儲存的URL;建立該網頁的DOM樹;根據該讀取的該用戶訂閱的網頁塊中的第一個基本單元塊的序號,在該建立的DOM樹中定位出初始節點;根據該初始節點、該讀取的該標題區段點的標題和標題URL以及該用戶訂閱的網頁塊內包括的基本單元塊的個數,從該建立的DOM樹中搜索該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點;以及對該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點中的URL和該儲存的URL進行比較。
  7. 如申請專利範圍第6項所述之一種實現從網頁中訂閱資訊的方法,其中根據該初始節點、該讀取的該標題區段點的標題和標題URL以及該用戶訂閱的網頁塊內包括基本單元塊的個數,從該建立的DOM樹中搜索該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點包括:根據該標題區段點的標題和標題URL,在該建立的DOM樹中,從該初始節點起,同時向前和向後搜索對應的標題區段點;以及在該建立的DOM樹中,從該標題區段點起向後連續搜索節點,且搜索 的節點的個數與該用戶訂閱的網頁塊內包括的基本單元的個數相同,其中,該搜索的節點為該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點。
  8. 如申請專利範圍第1項所述之一種實現從網頁中訂閱資訊的方法,其中通過該網頁的DOM樹,對用戶訂閱的網頁塊進行標識得到標識資訊之前,該方法還包括:判斷該網頁中是否存在用戶已訂閱的網頁塊,如果是,在該網頁中用特定的背景色顯示該已訂閱的網頁塊。
  9. 一種實現從網頁中訂閱資訊的裝置,該裝置包括:一標識模組,用於通過該網頁的檔物件模型DOM樹,對使用者訂閱的網頁塊進行標識得到一標識資訊;一即時監控模組,用於提取並儲存該使用者訂閱的網頁塊內的所有連結的環球資源定位器URL,根據該標識資訊和該儲存的URL,即時監控該用戶訂閱的網頁塊內的URL是否發生變化;以及一顯示模組,用於如果該使用者訂閱的網頁塊內的URL發生變化,顯示該變化的URL對應的網頁;其中該標識模組包括:一第一獲取單元,用於從該網頁的DOM樹中,獲取該用戶訂閱的網頁塊中的第一個基本單元塊的序號和該用戶訂閱的網頁塊內包括的基本單元塊的個數;一第二獲取單元,用於獲取該使用者訂閱的網頁塊的URL首碼;一第一搜索單元,用於根據該URL首碼,從該網頁的DOM樹中搜索該 用戶訂閱的網頁塊的標題區段點,提取該標題區段點中的標題和標題URL;以及其中,該標識資訊包括該使用者訂閱的網頁塊中的第一個基本單元塊的序號、該用戶訂閱的網頁塊內包括的基本單元塊的個數、該標題區段點的標題和標題URL。
  10. 如申請專利範圍第9項所述之一種實現從網頁中訂閱資訊的裝置,其中該顯示模組包括:一更新模組,用於根據該變化的URL更新該儲存的URL;以及一顯示子模組,用於顯示該使用者訂閱的網頁塊的正文資訊。
  11. 如申請專利範圍第9項所述之一種實現從網頁中訂閱資訊的裝置,其中該第一獲取單元包括:一走訪子單元,用於前序走訪該網頁的DOM樹,當走訪到該用戶訂閱的網頁塊包括每個基本單元塊對應的節點時,讀取該節點的序號為該基本單元塊的序號;一選取子單元,用於選取該使用者訂閱的網頁塊中的序號最小的基本單元塊的序號作為該用戶訂閱的網頁塊中的第一個基本單元塊的序號;一第一統計子單元,用於統計該使用者訂閱的網頁塊內包括的基本單元塊的個數;該第二獲取單元包括:一第二統計子單元,用於提取該使用者訂閱的網頁塊中的所有連結的URL首碼,統計每種URL首碼的數目,選取數目最大的一種URL首碼為該使用者訂閱的網頁塊的URL首碼;以及該第一搜索單元包括:一第一搜索子單元,用於在該網頁的DOM樹中,從該用戶訂閱的網頁塊中的第一個基本單元塊對應的節點起,向前搜索標題區段點;一查找子單元,用於從該搜索的標題區段點中,查找該標題區 段點的URL與該URL首碼相同或相似的標題區段點為該用戶訂閱的網頁塊的標題區段點,提取該標題區段點中的標題和標題URL。
  12. 如申請專利範圍第9項所述之一種實現從網頁中訂閱資訊的裝置,其中該即時監控模組包括:一讀取單元,用於讀取該標識資訊和該儲存的URL;一建立單元,用於建立該網頁的DOM樹;一定位單元,用於根據該讀取的該用戶訂閱的網頁塊中的第一個基本單元塊的序號,在該建立的DOM樹中定位出初始節點;一第二搜索單元,用於根據該初始節點、該讀取的該標題區段點的標題和標題URL以及該用戶訂閱的網頁塊內包括的基本單元塊的個數,從該建立的DOM樹中搜索該用戶訂閱的網頁塊內包括的每個基本單元塊對應的節點;以及一比較單元,用於對該使用者訂閱的網頁塊內包括的每個基本單元塊對應的節點中的URL和該儲存的URL進行比較。
  13. 如申請專利範圍第12項所述之一種實現從網頁中訂閱資訊的裝置,其中該第二搜索單元包括:一第二搜索子單元,用於根據該標題區段點的標題和標題URL,在該建立的DOM樹中,從該初始節點起,同時向前和向後搜索對應的標題區段點;以及一第三搜索子單元,用於在該建立的DOM樹中,從該標題區段點起向後連續搜索節點,且搜索的節點的個數與該用戶訂閱的網頁塊內包括的基本單元的個數相同,其中,該搜索的節點為該用戶訂閱的網頁塊內包括的 每個基本單元塊對應的節點。
  14. 如申請專利範圍第9項所述之一種實現從網頁中訂閱資訊的裝置,其中該裝置還包括:一預建立單元,用於建立該網頁的DOM樹;以及一判斷模組,用於判斷該網頁中是否存在用戶已訂閱的網頁塊,如果是,在該網頁中用特定的背景色顯示該已訂閱的網頁塊。
TW100100489A 2011-01-06 2011-01-06 A method and device for implementing subscription information from a web page TWI468951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW100100489A TWI468951B (zh) 2011-01-06 2011-01-06 A method and device for implementing subscription information from a web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100100489A TWI468951B (zh) 2011-01-06 2011-01-06 A method and device for implementing subscription information from a web page

Publications (2)

Publication Number Publication Date
TW201229783A TW201229783A (en) 2012-07-16
TWI468951B true TWI468951B (zh) 2015-01-11

Family

ID=46934032

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100100489A TWI468951B (zh) 2011-01-06 2011-01-06 A method and device for implementing subscription information from a web page

Country Status (1)

Country Link
TW (1) TWI468951B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6742015B1 (en) * 1999-08-31 2004-05-25 Accenture Llp Base services patterns in a netcentric environment
TW201033832A (en) * 2009-03-11 2010-09-16 Microsoft Corp Programming model for synchronizing browser caches across devices and web services
US7827527B1 (en) * 2004-02-12 2010-11-02 Chiluvuri Raju V System and method of application development
CN101930448A (zh) * 2009-06-23 2010-12-29 北京搜狗科技发展有限公司 一种网页信息的订阅方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6742015B1 (en) * 1999-08-31 2004-05-25 Accenture Llp Base services patterns in a netcentric environment
US7827527B1 (en) * 2004-02-12 2010-11-02 Chiluvuri Raju V System and method of application development
TW201033832A (en) * 2009-03-11 2010-09-16 Microsoft Corp Programming model for synchronizing browser caches across devices and web services
CN101930448A (zh) * 2009-06-23 2010-12-29 北京搜狗科技发展有限公司 一种网页信息的订阅方法和装置

Also Published As

Publication number Publication date
TW201229783A (en) 2012-07-16

Similar Documents

Publication Publication Date Title
US8601120B2 (en) Update notification method and system
US10667101B2 (en) Contextual deep linking of applications
WO2011088724A1 (zh) 一种实现从网页中订阅信息的方法及装置
US8688534B2 (en) System and method for gathering ecommerce data
US9448999B2 (en) Method and device to detect similar documents
JP5571091B2 (ja) サーチ結果の提供
US7702675B1 (en) Automated categorization of RSS feeds using standardized directory structures
US8756313B2 (en) Method and system for notifying network resource updates
US20150058712A1 (en) Method for assisting website design using keywords
CN109426541A (zh) 一种页面换肤的方法和装置
CN103605848A (zh) 路径分析方法和装置
WO2014108038A1 (zh) 一种生成常用网址的客户端、服务器、系统和方法
CN103246699A (zh) 一种基于浏览器的数据访问控制方法和装置
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
US20150058339A1 (en) Method for automating search engine optimization for websites
CN107526748B (zh) 一种识别用户点击行为的方法和设备
JP2015185153A (ja) 関心ワード抽出システム及びその方法
CN108108381B (zh) 页面的监测方法及装置
US20160117392A1 (en) Information search method and apparatus
EP2738696A1 (en) Methods for providing web search suggestions and devices thereof
CN105989167A (zh) 基于新闻客户端的数据采集方法及装置
TWI468951B (zh) A method and device for implementing subscription information from a web page
US9904944B2 (en) System and method for domain name query metrics
JP5717099B2 (ja) 分散コンシェルジュシステム、分散コンシェルジュシステムの制御方法、ソーシャルコンシェルジュ装置、及びソーシャルコンシェルジュ装置の制御プログラム
JP5331166B2 (ja) 検索サーバ及び方法