TW201520791A - 網頁的處理方法及裝置 - Google Patents
網頁的處理方法及裝置 Download PDFInfo
- Publication number
- TW201520791A TW201520791A TW103110120A TW103110120A TW201520791A TW 201520791 A TW201520791 A TW 201520791A TW 103110120 A TW103110120 A TW 103110120A TW 103110120 A TW103110120 A TW 103110120A TW 201520791 A TW201520791 A TW 201520791A
- Authority
- TW
- Taiwan
- Prior art keywords
- webpage
- class
- website
- classes
- distance
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本發明提供一種網頁的處理方法及裝置。本發明實施例通過獲取指定網站的網頁,進而根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類,使得能夠根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,無需操作人員參與列表網頁集合的建立過程,操作簡單,且正確率高,從而提高了列表網頁庫建立的效率和可靠性。
Description
本發明涉及網頁處理技術,尤其涉及一種網頁的處理方法及裝置。
一般來說,網站的網頁可以是基於超文件標示語言(HyperText Markup Language,HTML)、可延伸超文件標示語言(eXtensible HTML,XHTML)或無線標示語言(Wireless Markup Language,WML)編寫的網頁(Web Page),也可以稱為Web頁面。對網站的網頁進行資料獲取與分析,通常需要用到列表網頁庫,根據指定頻率對列表網頁庫中所包含的列表網頁進行資料抓取。現有技術中,由操作人員逐一瀏覽每個網站,對網站的列表網頁進行人工識別和標注,以建立列表網頁庫。
然而,現有建立列表網頁庫的操作複雜,且容易出錯,從而導致了列表網頁庫建立的效率和可靠性的降低。
本發明的多個方面提供一種網頁的處理方法及裝置,
用以提高列表網頁庫建立的效率和可靠性。
本發明的一方面,提供一種網頁的處理方法,包括:獲取指定網站的網頁;根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類;根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,包括:根據每個類中的網頁所連出的其它網頁和所述每個類中的網頁所連入的其它網頁,確定所述每個類中的網頁作為所述網站的列表頁的概率;根據所述概率,選擇所述至少一個類,以作為所述列表網頁集合。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據每個類中的網頁所連出的其它網頁和所述每個類中的網頁所連入的其它網頁,確定所述每個類中的網頁作為所述網站的列表頁的概率,包括:根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度;根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度;
確定所述每個類的指向類的數量;其中,所述每個類和所述每個類的指向類滿足:所述每個類相對於所述指向類的關聯出度大於所述每個類相對於所述指向類的關聯入度;根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述每個類的出度為所述每個類中的每個網頁的出度的總和;其中,所述每個網頁的出度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定;所述每個類的入度為所述每個類中的每個網頁的入度的總和;其中,所述每個網頁的入度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度,包括:
根據,獲得所述每個類的出度;其中,
OUT k 為第k個類的出度,k為自然數;為第k個類的第j個網頁的出度,j為自然數,
DO i 為第j個網頁在所述連結關係中指向的第i個其它網頁貢獻的出度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =α;若第j個網頁與所述網站的根節點的距離小於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =β,α〈β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =χ,且χ=N/2,N為自然數;所述根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度,包括:
根據,獲得所述每個類的入度;其中,
IN k 為第k個類的入度,k為自然數;
為第k個類的第j個網頁的入度,j為自然數,
DI i 為在所述連結關係中指向第j個網頁的第i個其它網頁貢獻的入度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =α;若第j個網頁與所述網站的根節點的距離小於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =β,α〉β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於指向第j個網頁的第i個其它網頁
與所述網站的根節點的距離,DI i =χ,且χ=N/2,N為自然數。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率,包括:
根據,獲得所述每個類的概率;其中,
P k 為第k個類的概率;IN k 為第K個類的入度,k為自然數;OUT k 為第k個類的出度,k為自然數;IO為第k個類的指向類的數量;N為類的類別總數;δ為權重係數。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述方法還包括:利用所述列表網頁集合,進行模型訓練,以建立列表頁識別模型。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述利用所述列表網頁集合,進行模型訓練,以建立列表頁識別模型之後,還包括:利用所述列表頁識別模型,對網頁進行識別;若所述識別的結果為列表網頁,將所述網頁加入所述列表網頁集合。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述方法還包括:
根據所述列表網頁集合中的每個列表網頁的更新資訊,更新所述列表網頁集合、調整所述每個列表網頁的抓取頻率或者生成網頁範本。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述網頁特徵包括下列資訊中的至少一項:網頁的佈局特徵;網頁的統一資源定位符;以及網頁的內容特徵。
本發明的另一方面,提供一種網頁的處理裝置,包括:獲取單元,用於獲取指定網站的網頁;聚類單元,用於根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類;選擇單元,用於根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述選擇單元,具體用於根據每個類中的網頁所連出的其它網頁和所述每個類中的網頁所連入的其它網頁,確定所述每個類中的網頁作為所述網站的列表頁的概率;以及根據所述概率,選擇所述至少一個類,以作為所述列表網頁集合。
如上所述的方面和任一可能的實現方式,進一步提供
一種實現方式,所述選擇單元,具體用於根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度;根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度;確定所述每個類的指向類的數量;其中,所述每個類和所述每個類的指向類滿足:所述每個類相對於所述指向類的關聯出度大於所述每個類相對於所述指向類的關聯入度;以及根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述選擇單元所確定的所述每個類的出度為所述每個類中的每個網頁的出度的總和;其中,所述每個網頁的出度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定;所述選擇單元所確定的所述每個類的入度為所述每個類中的每個網頁的入度的總和;其中,所述每個網頁的入度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定。
如上所述的方面和任一可能的實現方式,進一步提供
一種實現方式,
所述選擇單元,具體用於
根據,獲得所述每個類的出度;其中,
OUT k 為第k個類的出度,k為自然數;
為第k個類的第j個網頁的出度,j為自然數,
DO i 為第j個網頁在所述連結關係中指向的第i個其它網頁貢獻的出度增量,i為自然數;其中,
若第j個網頁與所述網站的根節點的距離大於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =α;若第j個網頁與所述網站的根節點的距離小於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =β,α〈β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =χ,且χ=N/2,N為自然數;
所述選擇單元,具體用於
根據,獲得所述每個類的入度;其中,
IN k 為第k個類的入度,k為自然數;
為第k個類的第j個網頁的入度,j為自然數,
DI i 為在所述連結關係中指向第j個網頁的第i個其它網頁貢獻的入度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於指向第j
個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =α;若第j個網頁與所述網站的根節點的距離小於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =β,α〉β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =χ,且χ=N/2,N為自然數。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述選擇單元,具體用於
根據,獲得所述每個類的概率;其中,
P k 為第k個類的概率;IN k 為第k個類的入度,k為自然數;OUT k 為第k個類的出度,k為自然數;IO為第k個類的指向類的數量;N為類的類別總數;δ為權重係數。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述裝置還包括建模單元,用於利用所述列表網頁集合,進行模型訓練,以建立列表頁識別模型。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述裝置還包括識別單元,用於利用所述列表頁識別模型,對網頁進行識別;以及若所述識別的結果為列表網頁,將所述網頁加入所述
列表網頁集合。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述裝置還包括更新單元,用於根據所述列表網頁集合中的每個列表網頁的更新資訊,更新所述列表網頁集合、調整所述每個列表網頁的抓取頻率或者生成網頁範本。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述網頁特徵包括下列資訊中的至少一項:網頁的佈局特徵;網頁的統一資源定位符;以及網頁的內容特徵。
由上述技術方案可知,本發明實施例通過獲取指定網站的網頁,進而根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類,使得能夠根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,無需操作人員參與列表網頁集合的建立過程,操作簡單,且正確率高,從而提高了列表網頁庫建立的效率和可靠性。
另外,採用本發明提供的技術方案,由於能夠獲取到網站當前的所有網頁,因此,基於一個網站的所有網頁所建立的列表網頁集合,能夠有效提高列表網頁的覆蓋率。
另外,採用本發明提供的技術方案,通過利用所建立的列表網頁集合建立列表頁識別模型,自動識別網站新增
加的網頁,能夠提高列表網頁的覆蓋性和時效性。
另外,採用本發明提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,即時更新所述列表網頁集合,能夠提高列表網頁的時效性。
另外,採用本發明提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,調整所述每個列表網頁的抓取頻率,能夠提高列表網頁的抓取成功率。
另外,採用本發明提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,生成網頁範本,以用於自動識別網站新增加的網頁,或者提取網站的網頁內容,能夠提高列表網頁的覆蓋性和時效性,或者網頁內容的獲取效率。
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的圖式作一簡單地介紹,顯而易見地,下面描述中的圖式是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。
圖1為本發明一實施例提供的網頁的處理方法的流程示意圖;圖2為本發明另一實施例提供的網頁的處理裝置的結構示意圖;
圖3為本發明另一實施例提供的網頁的處理裝置的結構示意圖;圖4為本發明另一實施例提供的網頁的處理裝置的結構示意圖;圖5為本發明另一實施例提供的網頁的處理裝置的結構示意圖。
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的圖式,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的全部其他實施例,都屬於本發明保護的範圍。
需要說明的是,本發明實施例中所涉及的終端可以包括但不限於手機、個人數位助理(Personal Digital Assistant,PDA)、無線手持裝置、無線輕省筆電、個人電腦、便攜電腦、MP3播放機、MP4播放機等。
需要說明的是,本發明所涉及的網頁,可以是基於超文件標示語言(HyperText Markup Language,HTML)、可延伸超文件標示語言(eXtensible HTML,XHTML)或無線標示語言(Wireless Markup Language,WML)編寫的網頁(Web Page),也可以稱為Web頁面。
另外,本文中術語「和/或」,僅僅是一種描述關聯圖像的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字元「/」,一般表示前後關聯對像是一種「或」的關係。
圖1為本發明一實施例提供的網頁的處理方法的流程示意圖,如圖1所示。
101、獲取指定網站的網頁。
102、根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類。
其中,所述網頁特徵可以包括但不限於下列資訊中的至少一項:網頁的佈局特徵;網頁的統一資源定位符(Uniform Resource Locator,URL)特徵;以及網頁的內容特徵。其中,所述網頁的佈局特徵,用於表示網頁的文字、圖形或表格的格式資訊,例如,字體、字型大小、以及頁邊距等。
所述網頁的URL特徵,用於表示網頁的URL的屬性資訊,例如,URL中所包含的關鍵字、URL的尾碼等。
所述網頁的內容特徵,用於表示網頁的內容資訊,例如,內容中所包含的關鍵字、內容中所包含的符號等。
可選地,在本實施例的一個可能的實現方式中,每個
網頁特徵可以用一個特徵向量X表示,例如特徵向量X1、特徵向量X2、......、或特徵向量Xn等,n為自然數。每個網頁的網頁特徵,可以組成一個特徵矩陣Z,記作[X1 X2......Xn]。
具體地,在102中,具體可以根據每個網頁的特徵矩陣,獲得網頁之間的距離,即網頁的特徵矩陣之間的距離。具體可以採用通常的距離演算法,例如,曼哈頓距離演算法、歐氏距離演算法等,演算法的詳細描述可以參見技術中的相關內容,此處不再贅述。然後,根據兩個網頁之間的距離和預先設置的聚類閾值,對所述兩個網頁進行聚類。若所述兩個網頁之間的距離小於或等於預先設置的聚類閾值,則將這兩個網頁放在一個相同的類中;若所述兩個網頁之間的距離大於預先設置的聚類閾值,則將這兩個網頁放在兩個不同的類中。因此,在同一類中,網頁間的特徵矩陣相同或網頁間的特徵矩陣的差異在預設的閾值範圍以內,不同的類的分別對應不同的特徵矩陣。具體可以參見表1所示。
103、根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合。
其中,列表網頁是指包含多個內容的分類列表的網頁,例如,在網站中分類列出該網站其它網頁的連結的網頁。
一般來說,在建立一個網站時,系統可以自動建立一個根節點(root),然後再從根節點開始,建立網站的網頁。
可選地,在本實施例的一個可能的實現方式中,在103中,具體可以根據每個類中的網頁所連出的其它網頁和該類中的網頁所連入的其它網頁(即連入所述類中的網
頁的其他網頁),確定所述每個類中的網頁作為所述網站的列表頁的概率;然後,則可以根據所述概率,選擇所述至少一個類,以作為所述列表網頁集合。
具體可以執行如下操作:根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度;根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度;確定所述每個類的指向類的數量;其中,所述每個類和所述每個類的指向類滿足:所述每個類相對於所述指向類的關聯出度大於所述每個類相對於所述指向類的關聯入度;以及根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率。
可以理解的是,所述每個類中的網頁所連出的其它網頁不包含在該類中。所述每個類中的網頁所連入的其它網頁不包含在該類中。
其中,所述每個類的出度為所述每個類中的每個網頁的出度的總和;其中,所述每個網頁的出度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離,確定;所述每個類的入度為所述每個類中的每個網頁的入度的總和;其中,所述每個網頁的入度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離,確定。
其中,網頁與根節點的距離,是指從根節點開始對網頁內的連結進行逐層廣度遍歷後得到的網頁深度。例如,根節點的網頁深度為1,根節點的網頁所包含的連結所指向的網頁的深度就是2。
入度(indegree),針對一個網頁,表徵在所述連結關係中連結到該網頁的其它網頁對該網頁的影響的評分。
網頁的入度可以由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離,確定。
類的入度可以根據該類中的每個網頁的入度綜合統計獲得,例如,可以為該類中的每個網頁的入度的總和。
在計算類的入度時,為便於說明,將當前類中的網頁作為目標網頁,將連結到目標網頁,即通過超連結指向目標網頁的網頁作為目標網頁的連入網頁。其中,這裡的連入網頁為與目標網頁不在同一類中的網頁。
每個目標網頁的連入網頁在網站中的深度不同時,對該目標網頁的入度的影響也不同。
目標網頁的每個連入網頁對該目標網頁的入度的影響記作入度增量DI。當目標網頁j與所述網站的根節點的距離大於該目標網頁j的連入網頁i與所述網站的根節點之間的距離根節點的距離時,該連入網頁i為該目標網頁j貢獻的入度增量為α,記作DI i =α。當目標網頁j與所述網站的根節點之間的距離根節點的距離小於該目標網頁j的連入網頁i與所述網站的根節點之間的距離根節點的距離
時,DI i =β,α〉β,且α+β=N,N為自然數。當目標網頁j與所述網站的根節點之間的距離根節點的距離等於該目標網頁j的連入網頁i與所述網站的根節點之間的距離根節點的距離時,DI i =χ,且χ=N/2,N為自然數。所述目標網頁j的入度則為每個連入網頁貢獻的入度增量的和,記作
,i和j為自然數。
所述類的入度則為該類中所有目標網頁的入度的和,
記作
類似的,可以根據所述每個類中所包含的每個網頁與所述網站的根節點的距離、以及所述每個網頁指向的其它網頁與所述網站的根節點的距離,獲得所述每個類的出度。其中,所述每個網頁指向的其它網頁不包含在該類中。
出度(outdegree),針對一個網頁,表徵在所述連結關係中該網頁連結出去的其它網頁對該網頁的影響的評分。
網頁的出度可以由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離,確定。
類的出度則可以根據該類中的每個網頁的出度綜合統計獲得,例如,可以為該類中的每個網頁的出度的總和。
在計算類的出度時,為便於說明,將當前類中的網頁作為目標網頁,將該目標網頁連結出去的網頁,即目標網
頁通過超連結所指向的網頁作為目標網頁的連出網頁。其中,這裡的連出網頁為與目標網頁不在同一類中的網頁。
每個目標網頁的連出網頁在網站中的深度不同時,對該目標網頁的出度的影響也不同。
目標網頁的每個連出網頁對該目標網頁的出度的影響記作出度增量DO。當目標網頁j與所述網站的根節點的距離大於該目標網頁j的連出網頁i與所述網站的根節點的距離時,該連出網頁i為該目標網頁j貢獻的出度增量為α,記作DO i =α。當目標網頁j與所述網站的根節點的距離小於該目標網頁j的連出網頁i與所述網站的根節點的距離時,DO i =β,α〈β,且α+β=N,N為自然數。當目標網頁j與所述網站的根節點的距離等於該目標網頁j的連出網頁i與所述網站的根節點的距離時,DO i =χ,且χ=N/2,N為自然數。所述目標網頁j的出度則為每個連出網頁貢
獻的出度增量的和,記作,i和j為自然數。
所述類的出度則為該類中所有目標網頁的出度的和,
記作
根據當前類中所包含的每個網頁與所述網站的根節點的距離、以及指向該網頁的在另一個類中的其它網頁與所述網站的根節點的距離,獲得所述當前類相對於所述另一個類的關聯入度。其中,指向當前類的某一網頁的其它網頁包含在所述另一類中。
具體地,當前某一個類相對於另一類的關聯入度的具
體獲得方法可以參照所述每個類的入度的計算公式,區別在於,公式中,當前類的入度的獲得只取當前類相對於另一個類的入度分量進行求和即可,即僅計入當前類中的目標網頁的連入網頁中屬於所述另一類的網頁所貢獻的入度增量。
根據當前類中所包含的每個網頁與所述網站的根節點的距離、以及該網頁指向的屬於另一類的其它網頁與所述網站的根節點的距離,獲得當前類相對於所述另一類的關聯出度,其中,當前類的每個網頁指向的其它網頁包含在所述另一類中。
具體地,當前類相對於另一個類的關聯出度的具體獲得方法可以同理參見每個類的出度的計算公式,區別在於,公式中,只取當前類相對於所述另一個類的出度分量進行求和即可,即僅計入當前類中的目標網頁連出的屬於所述另一個類的網頁所貢獻的出度增量。
這樣,則可以根據一個類相對另一個類的關聯出度和關聯入度的比較,確定這兩個類之間的指向關係。
當前類相對於另一個類的關聯出度大於當前類相對於所述另一類的關聯入度時,將所述另一個類作為當前類的指向類,即在當前類與所述另一個類的指向關係中,當前類指向作為所述指向類的另一個類。
根據一個類相對其他任一個類的關聯出度和關聯入度的比較,統計每一個類的指向類的數量。
具體地,根據每個類的入度、每個類的出度、每個類
的指向類的數量和類的類別總數,獲得所述每個類中的網頁作為所述網站的列表頁的概率,記作概率P k 。
例如,
根據,獲得所述每個類的概率;其中,
P k 為第k個類的概率;IN k 為第k個類的入度,k為自然數;OUT k 為第k個類的出度,k為自然數;IO為第k個類的指向類的數量;N為類的類別總數;δ為權重係數。
需要說明的是,第k個類的概率P k 可以為大於或等於0的任何數值,取值越大表示該網頁為列表網頁的可能概率越高,反之亦然。具體地,δ可以根據每個類對應的特徵矩陣或者根據每個類中網頁與根節點的距離進行設置,本實施例對此不進行特別限定。最後,根據所述每個類的概率,選擇至少一個類,以作為列表網頁集合。
具體地,具體可以選擇概率最高的一個或幾個類,以作為列表網頁集合。
可選地,在本實施例的一個可能的實現方式中,還可以進一步根據每個類中所包含的網頁的特徵矩陣,獲得每個類的特徵矩陣。進而,可以根據每個類的特徵矩陣之間的距離確定每個類之間的距離。然後,則可以根據兩個類之間的距離和預先設置的合併閾值,對所述兩個類進行合併。可以理解的是,由於有些類之間具有指向關係,合併
的結果不能破壞這種指向關係。只有不能破壞類之間的指向關係的合併,在本發明中才算是有效的合併,才可以執行,否則,即為無效的合併,則不可以執行。
這樣,通過獲取指定網站的網頁,進而根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類,使得能夠根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,無需操作人員參與列表網頁集合的建立過程,操作簡單,且正確率高,從而提高了列表網頁庫建立的效率和可靠性。
另外,採用本發明提供的技術方案,由於能夠獲取到網站當前的所有網頁,因此,基於一個網站的所有網頁所建立的列表網頁集合,能夠有效提高列表網頁的覆蓋率。
可選地,在本實施例的一個可能的實現方式中,在103之後,還可以進一步利用所述列表網頁集合,進行模型訓練,以建立列表頁識別模型。
至此,則可以利用所述列表頁識別模型,對網頁進行識別。若所述識別的結果為列表網頁,則可以進一步將所述網頁加入所述列表網頁集合。這樣,通過利用所建立的列表網頁集合建立列表頁識別模型,自動識別網站新增加的網頁,能夠提高列表網頁的覆蓋性和時效性。
可選地,在本實施例的一個可能的實現方式中,在103之後,還可以進一步根據所述列表網頁集合中的每個列表網頁的更新資訊,更新所述列表網頁集合。這樣,通過根據所建立的列表網頁集合中的每個列表網頁的更新資
訊,即時更新所述列表網頁集合,能夠提高列表網頁的時效性。
可選地,在本實施例的一個可能的實現方式中,在103之後,還可以進一步根據所述列表網頁集合中的每個列表網頁的更新資訊,調整所述每個列表網頁的抓取頻率。這樣,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,調整所述每個列表網頁的抓取頻率,能夠提高列表網頁的抓取成功率。
可選地,在本實施例的一個可能的實現方式中,在103之後,還可以進一步根據所述列表網頁集合中的每個列表網頁的更新資訊,生成網頁範本。這樣,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,生成網頁範本,以用於自動識別網站新增加的網頁,或者提取網站的網頁內容,能夠提高列表網頁的覆蓋性和時效性,或者網頁內容的獲取效率。
本實施例中,通過獲取指定網站的網頁,進而根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類,使得能夠根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,無需操作人員參與列表網頁集合的建立過程,操作簡單,且正確率高,從而提高了列表網頁庫建立的效率和可靠性。
另外,採用本發明一個具體實施例提供的技術方案,由於能夠獲取到網站當前的所有網頁,因此,基於一個網站的所有網頁所建立的列表網頁集合,能夠有效提高列表
網頁的覆蓋率。
另外,採用本發明一個具體實施例提供的技術方案,通過利用所建立的列表網頁集合建立列表頁識別模型,自動識別網站新增加的網頁,能夠提高列表網頁的覆蓋性和時效性。
另外,採用本發明一個具體實施例提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,即時更新所述列表網頁集合,能夠提高列表網頁的時效性。
另外,採用本發明一個具體實施例提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,調整所述每個列表網頁的抓取頻率,能夠提高列表網頁的抓取成功率。
另外,採用本發明一個具體實施例提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,生成網頁範本,以用於自動識別網站新增加的網頁,或者提取網站的網頁內容,能夠提高列表網頁的覆蓋性和時效性,或者網頁內容的獲取效率。
需要說明的是,對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明並不受所描述的動作順序的限制,因為依據本發明,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模組並
不一定是本發明所必須的。
在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
圖2為本發明另一實施例提供的網頁的處理裝置的結構示意圖,如圖2所示。本實施例的網頁的處理裝置可以包括獲取單元21、聚類單元22和選擇單元23。其中,獲取單元21,用於獲取指定網站的網頁;聚類單元22,用於根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類;選擇單元23,用於根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合。
其中,所述網頁特徵可以包括但不限於下列資訊中的至少一項:網頁的佈局特徵;網頁的統一資源定位符(Uniform Resource Locator,URL)特徵;以及網頁的內容特徵。
其中,所述網頁的佈局特徵,用於表示網頁的文字、圖形或表格的格式資訊,例如,字體、字型大小、以及頁邊距等。
所述網頁的URL特徵,用於表示網頁的URL的屬性資訊,例如,URL中所包含的關鍵字、URL的尾碼等。
所述網頁的內容特徵,用於表示網頁的內容資訊,例
如,內容中所包含的關鍵字、內容中所包含的符號等。
可選地,在本實施例的一個可能的實現方式中,每個網頁特徵可以用一個特徵向量X表示,例如特徵向量X1、特徵向量X2、......、或特徵向量Xn等,n為自然數。每個網頁的網頁特徵,可以組成一個特徵矩陣Z,即[X1 X2......Xn]。
具體地,聚類單元22具體可以根據每個網頁的特徵矩陣,獲得網頁之間的距離,即網頁的特徵矩陣之間的距離。具體可以採用通常的距離演算法,例如,曼哈頓距離演算法、歐氏距離演算法等,演算法的詳細描述可以參見技術中的相關內容,此處不再贅述。所述聚類單元22還可以根據兩個網頁之間的距離和預先設置的聚類閾值,對所述兩個網頁進行聚類。若所述兩個網頁之間的距離小於或等於預先設置的聚類閾值,所述聚類單元22則將這兩個網頁放在一個相同的類中;若所述兩個網頁之間的距離大於預先設置的聚類閾值,所述聚類單元22則將這兩個網頁放在兩個不同的類中。因此,在同一類中,網頁間的特徵矩陣相同或網頁間的特徵矩陣的差異在預設的閾值範圍以內,不同的類的分別對應不同的特徵矩陣。具體可以參見表1所示。
其中,列表網頁是指包含多個內容的分類列表的網頁,例如,在網站中分類列出該網站其它網頁的連結的網頁。
一般來說,在建立一個網站時,系統可以自動建立一
個根節點(root),然後再從根節點開始,建立網站的網頁。
可選地,在本實施例的一個可能的實現方式中,所述選擇單元23,具體可以用於根據每個類中的網頁所連出的其它網頁和該類中的網頁所連入的其它網頁(即連入所述類中的網頁的其他網頁),確定所述每個類中的網頁作為所述網站的列表頁的概率;以及根據所述概率,選擇所述至少一個類,以作為所述列表網頁集合。
所述選擇單元23具體可以執行如下操作:
所述選擇單元23,具體可以用於根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度;根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度;確定所述每個類的指向類的數量;其中,所述每個類和所述每個類的指向類滿足:所述每個類相對於所述指向類的關聯出度大於所述每個類相對於所述指向類的關聯入度;以及根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率。
可以理解的是,所述每個類中的網頁所連出的其它網頁不包含在該類中。所述每個類中的網頁所連入的其它網頁不包含在該類中。
其中,所述每個類的出度為所述每個類中的每個網頁的出度的總和;其中,所述每個網頁的出度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離確
定;所述每個類的入度為所述每個類中的每個網頁的入度的總和;其中,所述每個網頁的入度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定。
其中,網頁與根節點的距離,是指從根節點開始對網頁內的連結進行逐層廣度遍歷後得到的網頁深度。例如,根節點的網頁深度為1,根節點的網頁所包含的連結所指向的網頁的深度就是2。
入度(indegree),針對一個網頁,表徵在所述連結關係中連結到該網頁的其它網頁對該網頁的影響的評分。
網頁的入度可以由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離,確定。
類的入度可以根據該類中的每個網頁的入度綜合統計獲得,例如,可以為該類中的每個網頁的入度的總和。
在選擇單元23計算類的入度時,為便於說明,將當前類中的網頁作為目標網頁,將連結到目標網頁,即通過超連結指向目標網頁的網頁作為目標網頁的連入網頁。其中,這裡的連入網頁為與目標網頁不在同一類中的網頁。
每個目標網頁的連入網頁在網站中的深度不同時,對該目標網頁的入度的影響也不同。
目標網頁的每個連入網頁對該目標網頁的入度的影響記作入度增量DI。當目標網頁j與所述網站的根節點的距離大於該目標網頁j的連入網頁i與所述網站的根節點之
間的距離根節點的距離時,該連入網頁i為該目標網頁j貢獻的入度增量為α,記作DI i =α。當目標網頁j與所述網站的根節點之間的距離根節點的距離小於該目標網頁j的連入網頁i與所述網站的根節點之間的距離根節點的距離時,DI i =β,α〉β,且α+β=N,N為自然數。當目標網頁j與所述網站的根節點之間的距離根節點的距離等於該目標網頁j的連入網頁i與所述網站的根節點之間的距離根節點的距離時,DI i =χ,且χ=N/2,N為自然數。所述目標網頁j的入度則為每個連入網頁貢獻的入度增量的和,記作,i和j為自然數。
所述類的入度則為該類中所有目標網頁的入度的和,
記作
類似的,選擇單元23可以根據所述每個類中所包含的每個網頁與所述網站的根節點的距離、以及所述每個網頁指向的其它網頁與所述網站的根節點的距離,獲得所述每個類的出度。其中,所述每個網頁指向的其它網頁不包含在該類中。
出度(outdegree),針對一個網頁,表徵在所述連結關係中該網頁連結出去的其它網頁對該網頁的影響的評分。
網頁的出度可以由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離,確定。
類的出度則可以根據該類中的每個網頁的出度綜合統計獲得,例如,可以為該類中的每個網頁的出度的總和。
在選擇單元23計算類的出度時,為便於說明,將當前類中的網頁作為目標網頁,將該目標網頁連結出去的網頁,即目標網頁通過超連結所指向的網頁作為目標網頁的連出網頁。其中,這裡的連出網頁為與目標網頁不在同一類中的網頁。
每個目標網頁的連出網頁在網站中的深度不同時,對該目標網頁的出度的影響也不同。
目標網頁的每個連出網頁對該目標網頁的出度的影響記作出度增量DO。當目標網頁j與所述網站的根節點的距離大於該目標網頁j的連出網頁i與所述網站的根節點的距離時,該連出網頁i為該目標網頁j貢獻的出度增量為α,記作DO i =α。當目標網頁j與所述網站的根節點的距離小於該目標網頁j的連出網頁i與所述網站的根節點的距離時,DO i =β,α〈β,且α+β=N,N為自然數。當目標網頁j與所述網站的根節點的距離等於該目標網頁j的連出網頁i與所述網站的根節點的距離時,DO i =χ,且χ=N/2,N為自然數。所述目標網頁j的出度則為每個連出網頁貢
獻的出度增量的和,記作,i和j為自然數。
所述類的出度則為該類中所有目標網頁的出度的和,
記作
選擇單元23還可以進一步用於根據當前類中所包含
的每個網頁與所述網站的根節點的距離、以及指向該網頁的在另一個類中的其它網頁與所述網站的根節點的距離,獲得所述當前類相對於所述另一個類的關聯入度。其中,指向當前類的某一網頁的其它網頁包含在所述另一類中。
具體地,當前某一個類相對於另一類的關聯入度的具體獲得方法可以參照所述每個類的入度的計算公式,區別在於,公式中,當前類的入度的獲得只取當前類相對於另一個類的入度分量進行求和即可,即僅計入當前類中的目標網頁的連入網頁中屬於所述另一類的網頁所貢獻的入度增量。
選擇單元23還可以進一步用於根據當前類中所包含的每個網頁與所述網站的根節點的距離、以及該網頁指向的屬於另一類的其它網頁與所述網站的根節點的距離,獲得當前類相對於所述另一類的關聯出度,其中,當前類的每個網頁指向的其它網頁包含在所述另一類中。
具體地,當前類相對於另一個類的關聯出度的具體獲得方法可以同理參見每個類的出度的計算公式,區別在於,公式中,只取當前類相對於所述另一個類的出度分量進行求和即可,即僅計入當前類中的目標網頁連出的屬於所述另一個類的網頁所貢獻的出度增量。
這樣,選擇單元23則可以根據一個類相對另一個類的關聯出度和關聯入度的比較,確定這兩個類之間的指向關係。
當前類相對於另一個類的關聯出度大於當前類相對於
所述另一類的關聯入度時,將所述另一個類作為當前類的指向類,即在當前類與所述另一個類的指向關係中,當前類指向作為所述指向類的另一個類。
選擇單元23根據一個類相對其他任一個類的關聯出度和關聯入度的比較,統計每一個類的指向類的數量。
具體地,選擇單元23具體可以根據每個類的入度、每個類的出度、每個類的指向類的數量和類的類別總數,獲得所述每個類中的網頁作為所述網站的列表頁的概率,記作概率P k 。
例如,
根據,獲得所述每個類的概率;其中,
P k 為第k個類的概率;IN k 為第k個類的入度,k為自然數;OUT k 為第k個類的出度,k為自然數;IO為第k個類的指向類的數量;N為類的類別總數;δ為權重係數。
需要說明的是,第k個類的概率P k 可以為大於或等於0的任何數值,取值越大表示該網頁為列表網頁的可能概率越高,反之亦然。具體地,δ可以根據每個類對應的特徵矩陣或者根據每個類中網頁與根節點的距離進行設置,本實施例對此不進行特別限定。最後,根據所述每個類的概率,選擇至少一個類,以作為列表網頁集合。
具體地,具體可以選擇概率最高的一個或幾個類,以
作為列表網頁集合。
可選地,在本實施例的一個可能的實現方式中,聚類單元22還可以進一步用於根據每個類中所包含的網頁的特徵矩陣,獲得每個類的特徵矩陣。進而,可以根據每個類的特徵矩陣之間的距離確定每個類之間的距離。然後,則可以根據兩個類之間的距離和預先設置的合併閾值,對所述兩個類進行合併。可以理解的是,由於有些類之間具有指向關係,合併的結果不能破壞這種指向關係。只有不能破壞類之間的指向關係的合併,在本發明中才算是有效的合併,才可以執行,否則,即為無效的合併,則不可以執行。
這樣,通過獲取單元獲取指定網站的網頁,進而由聚類單元根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類,使得選擇單元能夠根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,無需操作人員參與列表網頁集合的建立過程,操作簡單,且正確率高,從而提高了列表網頁庫建立的效率和可靠性。
另外,採用本發明提供的技術方案,由於能夠獲取到網站當前的所有網頁,因此,基於一個網站的所有網頁所建立的列表網頁集合,能夠有效提高列表網頁的覆蓋率。
可選地,在本實施例的一個可能的實現方式中,如圖3所示,本實施例提供的網頁的處理裝置還可以進一步包括建模單元31,用於利用所述列表網頁集合,進行模型
訓練,以建立列表頁識別模型。
可選地,在本實施例的一個可能的實現方式中,如圖4所示,本實施例提供的網頁的處理裝置還可以進一步包括識別單元41,用於利用所述列表頁識別模型,對網頁進行識別;以及若所述識別的結果為列表網頁,將所述網頁加入所述列表網頁集合。
這樣,通過識別單元利用建模單元所建立的列表網頁集合建立列表頁識別模型,自動識別網站新增加的網頁,能夠提高列表網頁的覆蓋性和時效性。
可選地,在本實施例的一個可能的實現方式中,如圖5所示,本實施例提供的網頁的處理裝置還可以進一步包括更新單元51,用於根據所述列表網頁集合中的每個列表網頁的更新資訊,更新所述列表網頁集合、調整所述每個列表網頁的抓取頻率或者生成網頁範本。
這樣,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,即時更新所述列表網頁集合,能夠提高列表網頁的時效性,或者通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,調整所述每個列表網頁的抓取頻率,能夠提高列表網頁的抓取成功率,或者通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,生成網頁範本,以用於自動識別網站新增加的網頁,或者提取網站的網頁內容,能夠提高列表網頁的覆蓋性和時效性,或者網頁內容的獲取效率。
本實施例中,通過獲取單元獲取指定網站的網頁,進
而由聚類單元根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類,使得選擇單元能夠根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,無需操作人員參與列表網頁集合的建立過程,操作簡單,且正確率高,從而提高了列表網頁庫建立的效率和可靠性。
另外,採用本發明一個具體實施例提供的技術方案,由於能夠獲取到網站當前的所有網頁,因此,基於一個網站的所有網頁所建立的列表網頁集合,能夠有效提高列表網頁的覆蓋率。
另外,採用本發明一個具體實施例提供的技術方案,通過利用所建立的列表網頁集合建立列表頁識別模型,自動識別網站新增加的網頁,能夠提高列表網頁的覆蓋性和時效性。
另外,採用本發明一個具體實施例提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,即時更新所述列表網頁集合,能夠提高列表網頁的時效性。
另外,採用本發明一個具體實施例提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新資訊,調整所述每個列表網頁的抓取頻率,能夠提高列表網頁的抓取成功率。
另外,採用本發明一個具體實施例提供的技術方案,通過根據所建立的列表網頁集合中的每個列表網頁的更新
資訊,生成網頁範本,以用於自動識別網站新增加的網頁,或者提取網站的網頁內容,能夠提高列表網頁的覆蓋性和時效性,或者網頁內容的獲取效率。
所屬領域的技術人員可以清楚地瞭解到,為描述的方便和簡潔,上述描述的系統,裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所展現或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元展現的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的
單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。
上述以軟體功能單元的形式實現的集成的單元,可以儲存在一個電腦可讀取儲存介質中。上述軟體功能單元儲存在一個儲存介質中,包括若干指令用以使得一台電腦裝置(可以是個人電腦,伺服器,或者網路裝置等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的儲存介質包括:隨身碟、行動硬碟、唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體(Random Access Memory,RAM)、磁碟或者光碟等各種可以儲存程式碼的介質。
最後應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。
Claims (15)
- 一種網頁的處理方法,其特徵在於,包括:獲取指定網站的網頁;根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類;根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合。
- 根據申請專利範圍第1項所述的方法,其中,所述根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合,包括:根據每個類中的網頁所連出的其它網頁和所述每個類中的網頁所連入的其它網頁,確定所述每個類中的網頁作為所述網站的列表頁的概率;根據所述概率,選擇所述至少一個類,以作為所述列表網頁集合。
- 根據申請專利範圍第2項所述的方法,其中,所述根據每個類中的網頁所連出的其它網頁和所述每個類中的網頁所連入的其它網頁,確定所述每個類中的網頁作為所述網站的列表頁的概率,包括:根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度;根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度;確定所述每個類的指向類的數量;其中,所述每個類 和所述每個類的指向類滿足:所述每個類相對於所述指向類的關聯出度大於所述每個類相對於所述指向類的關聯入度;根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率。
- 根據申請專利範圍第3項所述的方法,其中,所述每個類的出度為所述每個類中的每個網頁的出度的總和;其中,所述每個網頁的出度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定;所述每個類的入度為所述每個類中的每個網頁的入度的總和;其中,所述每個網頁的入度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定。
- 根據申請專利範圍第4項所述的方法,其中,所述根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度,包括: 根據,獲得所述每個類的出度;其中, OUT k 為第k個類的出度,k為自然數; 為第k個類的第j個網頁的出度,j為自然數, DO i 為第j個網頁在所述連結關係中指向的第i個其它網頁貢獻的出度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於第j個網 頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =α;若第j個網頁與所述網站的根節點的距離小於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =β,α〈β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =χ,且χ=N/2,N為自然數;所述根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度,包括: 根據,獲得所述每個類的入度;其中, IN k 為第k個類的入度,k為自然數; 為第k個類的第j個網頁的入度,j為自然數, DI i 為在所述連結關係中指向第j個網頁的第i個其它網頁貢獻的入度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =α;若第j個網頁與所述網站的根節點的距離小於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =β,α〉β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =χ,且χ=N/2,N為自然數。
- 根據申請專利範圍第5項所述的方法,其中,所述 根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率,包括: 根據,獲得所述每個類的概率;其中, P k 為第k個類的概率;IN k 為第k個類的入度,k為自然數;OUT k 為第k個類的出度,k為自然數;IO為第k個類的指向類的數量;N為類的類別總數;δ為權重係數。
- 根據申請專利範圍第1項所述的方法,其中,所述方法還包括:利用所述列表網頁集合,進行模型訓練,以建立列表頁識別模型;利用所述列表頁識別模型,對網頁進行識別;若所述識別的結果為列表網頁,將所述網頁加入所述列表網頁集合。
- 根據申請專利範圍第1項所述的方法,其中,所述方法還包括:根據所述列表網頁集合中的每個列表網頁的更新資訊,更新所述列表網頁集合、調整所述每個列表網頁的抓取頻率或者生成網頁範本。
- 根據申請專利範圍第1項所述的方法,其中,所述網頁特徵包括下列資訊中的至少一項:網頁的佈局特徵; 網頁的統一資源定位符;以及網頁的內容特徵。
- 一種網頁的處理裝置,其特徵在於,包括:獲取單元,用於獲取指定網站的網頁;聚類單元,用於根據所述網頁的網頁特徵,對所述網頁進行聚類,以獲得一個或多個類;選擇單元,用於根據所述一個或多個類之間的網頁的連結關係,選擇至少一個類,以作為列表網頁集合。
- 根據申請專利範圍第10項所述的裝置,其中,所述選擇單元,具體用於根據每個類中的網頁所連出的其它網頁和所述每個類中的網頁所連入的其它網頁,確定所述每個類中的網頁作為所述網站的列表頁的概率;以及根據所述概率,選擇所述至少一個類,以作為所述列表網頁集合。
- 根據申請專利範圍第11項所述的裝置,其中,所述選擇單元,具體用於根據所述每個類中的網頁所連出的其它網頁,確定所述每個類的出度;根據所述每個類中的網頁所連入的其它網頁,確定所述每個類的入度;確定所述每個類的指向類的數量;其中,所述每個類和所述每個類的指向類滿足:所述每個類相對於所述指向類的關聯出度大於所述每個類相對於所述指向類的關聯入 度;以及根據所述每個類的出度、所述每個類的入度和所述指向類的數量,確定所述概率。
- 根據申請專利範圍第12項所述的裝置,其中,所述選擇單元所確定的所述每個類的出度為所述每個類中的每個網頁的出度的總和;其中,所述每個網頁的出度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連出的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定;所述選擇單元所確定的所述每個類的入度為所述每個類中的每個網頁的入度的總和;其中,所述每個網頁的入度由所述每個網頁與所述網站的根節點的距離、所述每個網頁所連入的其它網頁、以及所述其它網頁與所述網站的根節點的距離確定。
- 根據申請專利範圍第13項所述的裝置,其中,所述選擇單元,具體用於 根據,獲得所述每個類的出度;其中, OUT k 為第k個類的出度,k為自然數; 為第k個類的第j個網頁的出度,j為自然數, DO i 為第j個網頁在所述連結關係中指向的第i個其它網頁貢獻的出度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離, DO i =α;若第j個網頁與所述網站的根節點的距離小於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =β,α〈β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於第j個網頁指向的第i個其它網頁與所述網站的根節點的距離,DO i =χ,且χ=N/2,N為自然數;所述選擇單元,具體用於 根據,獲得所述每個類的入度;其中, IN k 為第k個類的入度,k為自然數; 為第k個類的第j個網頁的入度,j為自然數, DI i 為在所述連結關係中指向第j個網頁的第i個其它網頁貢獻的入度增量,i為自然數;其中,若第j個網頁與所述網站的根節點的距離大於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =α;若第j個網頁與所述網站的根節點的距離小於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =β,α〉β,且α+β=N,N為自然數;若第j個網頁與所述網站的根節點的距離等於指向第j個網頁的第i個其它網頁與所述網站的根節點的距離,DI i =χ,且χ=N/2,N為自然數。
- 根據申請專利範圍第14項所述的裝置,其中,所述選擇單元,具體用於 根據,獲得所述每個類的概率;其中, P k 為第k個類的概率;IN k 為第k個類的入度,k為自然數;OUT k 為第k個類的出度,k為自然數;IO為第k個類的指向類的數量;N為類的類別總數;δ為權重係數。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310598660.XA CN104657391B (zh) | 2013-11-21 | 2013-11-21 | 页面的处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201520791A true TW201520791A (zh) | 2015-06-01 |
Family
ID=52232402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103110120A TW201520791A (zh) | 2013-11-21 | 2014-03-18 | 網頁的處理方法及裝置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10387545B2 (zh) |
CN (1) | CN104657391B (zh) |
TW (1) | TW201520791A (zh) |
WO (1) | WO2015077501A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815273B (zh) * | 2015-12-02 | 2020-07-31 | 北京国双科技有限公司 | 数据存储方法和装置 |
CN107357716A (zh) * | 2016-05-10 | 2017-11-17 | 富士通株式会社 | 用于选取网页的装置和方法 |
CN107784034B (zh) * | 2016-08-31 | 2021-05-25 | 北京搜狗科技发展有限公司 | 页面类别识别方法及装置、用于页面类别识别的装置 |
CN108710688B (zh) * | 2018-05-21 | 2021-12-21 | 创新先进技术有限公司 | 一种页面中动画的生成方法、装置及电子设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050076000A1 (en) * | 2003-03-21 | 2005-04-07 | Xerox Corporation | Determination of table of content links for a hyperlinked document |
US20050071310A1 (en) * | 2003-09-30 | 2005-03-31 | Nadav Eiron | System, method, and computer program product for identifying multi-page documents in hypertext collections |
US7310632B2 (en) * | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US20070016863A1 (en) * | 2005-07-08 | 2007-01-18 | Yan Qu | Method and apparatus for extracting and structuring domain terms |
US7496557B2 (en) * | 2005-09-30 | 2009-02-24 | International Business Machines Corporation | Microhubs and its applications |
US20070198504A1 (en) * | 2006-02-23 | 2007-08-23 | Microsoft Corporation | Calculating level-based importance of a web page |
CN101388013A (zh) * | 2007-09-12 | 2009-03-18 | 日电(中国)有限公司 | 用于网络文件聚类的方法和系统 |
US8099408B2 (en) * | 2008-06-27 | 2012-01-17 | Microsoft Corporation | Web forum crawling using skeletal links |
US20100211533A1 (en) * | 2009-02-18 | 2010-08-19 | Microsoft Corporation | Extracting structured data from web forums |
US8484180B2 (en) * | 2009-06-03 | 2013-07-09 | Yahoo! Inc. | Graph-based seed selection algorithm for web crawlers |
US8868541B2 (en) * | 2011-01-21 | 2014-10-21 | Google Inc. | Scheduling resource crawls |
CN102768670B (zh) * | 2012-05-31 | 2014-08-20 | 哈尔滨工程大学 | 基于节点属性标签传播的网页聚类方法 |
US9390166B2 (en) | 2012-12-31 | 2016-07-12 | Fujitsu Limited | Specific online resource identification and extraction |
-
2013
- 2013-11-21 CN CN201310598660.XA patent/CN104657391B/zh active Active
-
2014
- 2014-03-18 TW TW103110120A patent/TW201520791A/zh unknown
- 2014-11-20 WO PCT/US2014/066704 patent/WO2015077501A1/en active Application Filing
- 2014-11-20 US US14/549,394 patent/US10387545B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN104657391B (zh) | 2018-08-03 |
US20150143214A1 (en) | 2015-05-21 |
CN104657391A (zh) | 2015-05-27 |
US10387545B2 (en) | 2019-08-20 |
WO2015077501A1 (en) | 2015-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
JP6594534B2 (ja) | テキスト情報処理方法およびデバイス | |
CN106156286B (zh) | 面向专业文献知识实体的类型抽取系统及方法 | |
JP6114403B2 (ja) | 入力文字列に対応する入力候補アイテムを提供する方法及び装置 | |
US20190311114A1 (en) | Man-machine identification method and device for captcha | |
US20180365209A1 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN107577763A (zh) | 检索方法和装置 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
CN111813905B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN104036160A (zh) | 一种网页浏览方法、装置及浏览器 | |
CN110929145A (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN106844640A (zh) | 一种网页数据分析处理方法 | |
CN107690634A (zh) | 自动查询模式生成 | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
CN104067273A (zh) | 将搜索结果分组为简档页面 | |
TW201520791A (zh) | 網頁的處理方法及裝置 | |
CN115941322B (zh) | 基于人工智能的攻击检测方法、装置、设备及存储介质 | |
US10217455B2 (en) | Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system | |
CN110069686A (zh) | 用户行为分析方法、装置、计算机装置及存储介质 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN112417874A (zh) | 命名实体的识别方法和装置、存储介质、电子装置 | |
JP7499946B2 (ja) | インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN116662557A (zh) | 一种网络安全领域内的实体关系抽取方法及装置 | |
CN103383697A (zh) | 确定对象标题的对象表征信息的方法与设备 |