TW201514845A - 從網頁擷取標題及主體 - Google Patents

從網頁擷取標題及主體 Download PDF

Info

Publication number
TW201514845A
TW201514845A TW103126938A TW103126938A TW201514845A TW 201514845 A TW201514845 A TW 201514845A TW 103126938 A TW103126938 A TW 103126938A TW 103126938 A TW103126938 A TW 103126938A TW 201514845 A TW201514845 A TW 201514845A
Authority
TW
Taiwan
Prior art keywords
title
text
article
subject
web page
Prior art date
Application number
TW103126938A
Other languages
English (en)
Inventor
Rui-Hua Song
Guang-Ping Gao
Qian Zhang
Ming Liu
Raman Narayanan
Shelley Summer Gu
Yanti Aruswati Gouw
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW201514845A publication Critical patent/TW201514845A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Abstract

一般提供用於擷取顯示於網頁上之文章之主體及標題之技術。網頁可顯示如除了網頁文章外之廣告、影像及連結之內容。使用者可在沒有額外內容的情況下,於閱讀器應用程式中選擇檢視文章,及閱讀器應用程式可從網頁擷取主體及標題。可藉由辨識與標題有關之元標籤及自元標籤移除網站名稱而選擇標題候選者。可藉由基於用於網頁之文件物件模型樹中之文字大小及深度辨識文字節點之群集而選擇主體候選者。可選擇最可能為主體之最佳群集及可選擇對應之標題候選者為最佳標題。

Description

從網頁擷取標題及主體
本發明係與從網頁擷取標題及主體相關。
網站可顯示各種文章,如參考文章、新聞文章、部落格及其他文字內容。除了顯示文章外,網頁可顯示各種其他內容,如廣告、至其他網頁之連結、用於分享之按鈕、列印、以電子郵件發送文章、導航連結及按鈕、音頻/視頻內容及其他相似內容。對於文章讀者來說,額外內容可能讓人分心;且很多時候讀者可選擇在閱讀器應用程式中檢視文章,其中可在沒有額外讓人分心之內容的情況下,顯示文章之主要內容於該閱讀器應用程式中。閱讀器應用程式可能需要對文章相關之部分內容及顯示於網頁上之無關內容作出區別,以選擇內容以在閱讀模式下顯示文章。
提供本【發明內容】以以用簡化形式介紹精選概念,及於以下【實施方式】中進一步地描述該等精選概念。本【發明內容】不意欲專門地辨識所主張之標的之關鍵特徵或必要特徵,亦不意欲用來作為幫助判定所主張之標的之範疇。
實施例係針對擷取內容之主體及標題,該內容如用於在閱讀器應用程式中檢視之顯示於網頁上之文章。使用者可在沒有顯示於網頁上之額外內容(如如除了網頁文章外之廣告、影像及連結)的情況下,於閱讀器應用程式中選擇檢視文章。閱讀器應用程式可從網頁擷取主體及標題。可藉由辨識與標題相關之元標籤及自元標籤移除網站名稱而選擇標題候選者。可藉由基於用於網頁之文件物件模型樹中之文字大小及深度辨識文字節點之群集而選擇主體候選者。可選擇最可能為主體之群集及可選擇對應之標題候選者為標題。
這些及其他特徵及優勢將自下述之詳細描述之閱讀及相關圖式之檢視而為顯而易見。需要瞭解的是,上述一般之說明及下述之詳細描述兩者皆為示例性的,並不限制所主張之態樣。
100‧‧‧圖
102‧‧‧客戶端裝置
104‧‧‧標題
106‧‧‧網站名稱
108‧‧‧主體
110‧‧‧廣告
112‧‧‧閱讀模式
116‧‧‧與文章及網頁相關之時間及資料資訊
118‧‧‧雨文章相關之分類及/或主題
120‧‧‧返回
200‧‧‧圖
202‧‧‧網頁
206‧‧‧網頁名稱
210‧‧‧主體
212‧‧‧標題
214‧‧‧分類
220‧‧‧閱讀器
222‧‧‧與網頁相關之文字內容
224‧‧‧URL
234‧‧‧廣告
300‧‧‧圖
310‧‧‧主體
312‧‧‧最佳標題
314‧‧‧影像
316‧‧‧嵌入影像
318‧‧‧無關文字內容
320‧‧‧導航節點
322‧‧‧第一字母
324‧‧‧列印連結
326‧‧‧顯示連結
328‧‧‧電子郵件連結
400‧‧‧圖
402‧‧‧網頁文章
404‧‧‧DOM樹
406‧‧‧擷取
408‧‧‧辨識
410‧‧‧最佳標題候選者
412‧‧‧主體種子
414‧‧‧完成
416‧‧‧過濾
418‧‧‧調整
420‧‧‧閱讀器頁面
510‧‧‧網路
511‧‧‧桌上型電腦
512‧‧‧膝上型電腦
513‧‧‧智慧型手機
514‧‧‧伺服器
516‧‧‧伺服器
518‧‧‧資料庫伺服器
519‧‧‧資料儲存器
600‧‧‧計算裝置
602‧‧‧處理單元
604‧‧‧系統記憶體
606‧‧‧作業系統
608‧‧‧虛線
609‧‧‧可移除式儲存器
610‧‧‧不可移除式儲存器
612‧‧‧輸入裝置
614‧‧‧輸出裝置
616‧‧‧通訊連接
618‧‧‧其他裝置
622‧‧‧閱讀器應用程式
624‧‧‧擷取模組
700‧‧‧程序
710‧‧‧操作
720‧‧‧操作
730‧‧‧操作
740‧‧‧操作
750‧‧‧操作
第1圖圖示網頁文章轉換至閱讀模式之範例。
第2圖圖示範例網頁文章,其中可實施用於擷取標題及主體內容之系統。
第3圖圖示用於擷取標題及主體內容之範例網頁文章。
第4圖圖示用於自網頁文章擷取標題及主體內容之範例示意圖。
第5圖為網路環境,其中可實施根據實施例之系統。
第6圖為範例計算作業環境之方塊圖,其中可實施實施例;及 第7圖圖示用於根據實施例而自網頁文章擷取主體及標題內容之程序之邏輯流程圖。
如上所簡要描述的,為了擷取為在閱讀器應用程式中檢視之經顯示於網頁上之文章之主體及標題,而描述系統。網頁可顯示各種內容,如如除了文章以外之廣告、影像、評論及連結,及使用者可想要在沒有檢視額外內容的情況下,在閱讀器應用程式中檢視文章。為了在沒有額外內容的情況下顯示文章,可自網頁擷取文章之主體及標題。可藉由辨識與標題相關之元標籤及自元標籤移除網站名稱而選擇標題候選者。可藉由基於用於網頁之文件物件模型樹之文字大小及深度辨識文字節點之群集而選擇主體候選者。可選擇最可能為主體之最佳群集,及可選擇對應之標題候選者為最佳標題。閱讀器應用程式可應用過濾程序以自網頁移除包含無關內容之節點。
在下述之詳細描述中,參考形成本說明書的一部分之附加圖式,及其中藉由圖示特定實施例或範例顯示該等參考。可結合這些態樣、可利用其他態樣,及可在沒有背離本發明之精神或範疇的情況下做結構化的變化。因此下述之詳細描述不被視為限制意義,及本發明之範疇係藉由附加之申請專利範圍及其等同物所定義。
雖然將在與執行於計算裝置上之作業系統上之應用程式一起執行之程式模組之一般環境中描述實施例,但本領域具有通常知識者將瞭解亦可結合其他程式模組實施態樣。
一般來說,程式模組包含執行特定任務或實施特定抽象資料類型之常式、程式、元件、資料結構及其他類型結構。此外,本領域具有通常知識者將瞭解可用其他電腦系統配置實行實施例,該等其他電腦系統配置包含手持裝置、多處理器系統、基於微處理器或可程式化之消費者電子裝置、迷你電腦、主機型電腦及可比較之計算裝置。實施例亦可實施於分散式計算環境中,其中藉由經由通訊網路所連接之遠端處理裝置執行任務。在分散式計算環境中,程式模組可被設置於本地端記憶體裝置及遠端記憶體裝置兩者中。
可實施實施例為電腦實施程序(方法)、計算系統或為製造物品,如電腦程式產品或電腦可讀取媒體。電腦程式產品可為可藉由電腦系統讀取及編碼包含用於使電腦或計算系統執行範例程序之指令之電腦程式之電腦儲存媒體。舉例而言,可經由一或更多個揮發性電腦記憶體、非揮發性電腦記憶體、硬驅動機、快閃驅動機、軟碟、或緊湊型伺服器、執行於單一計算裝置上之應用程式及可比較之系統實施電腦可讀取儲存媒體。術語「伺服器」一般指稱典型地於網路環境中執行一或更多個軟體程式之計算裝置。然而,亦可實施伺服器為在網路上被視為伺服器之在一或更多個計算裝置上執行之虛擬伺服器(軟體程式)。以下提供這些技術之更多細節及範例操作。
根據本文所描述之一些實施例,第1圖圖示網頁文章轉換至閱讀模式之範例。
顯示於圖100中之計算裝置及使用者介面環境係為 圖示說明之目的。可在各個本地端、網路端及運用各個計算裝置及系統之相似計算環境中實施實施例。如圖100所圖示說明的,可在客戶端裝置102上檢視內容。範例計算裝置可包含智慧型手機、平板電腦、電子閱讀器、個人數位助理(PDA)、白板、個人電腦、桌上型電腦或其他相似之用於檢視內容及與內容互動之計算裝置。
可在如雲端網路之網路上提供範例內容,且可在如平板電腦之裝置上經由網頁瀏覽器存取該等範例內容。在客戶端裝置102上所檢視之範例內容可為在網頁上所檢視之文章。範例網頁文章可為部落格、參考文章、新聞文章或其他相似內容。範例網頁文章可包含文章之標題104及文章之主體108。當在來自網頁上之原始來源之原始格式中檢視網頁文章時,網頁亦可顯示額外內容,如代管文章、與文章及網頁相關之時間及資料資訊116、與文章相關之分類及/或主題118、與文章相關之音訊/視訊內容及其他相似內容之來源或網站名稱106。此外,顯示文章之網頁亦可顯示與文章無關之內容,舉例而言如廣告110、影像、其他可在網頁上檢視之內容之標題、至網站之連結及其他相似內容。
在範例實施例中,當在客戶端裝置102上檢視網頁文章時,使用者可能想要在沒有檢視經顯示在網頁上之額外內容的情況下閱讀文章。舉例而言,使用者可在可能具有較小顯示器上之平板電腦或智慧型手機上檢視網頁文章,及額外經顯示內容可能限制使用者最佳地閱讀網頁文章之主體。
在根據實施例之系統中,使用者可選擇轉換網頁文 章為可在閱讀器應用程式中開啟之閱讀模式112。在閱讀模式112中,可自網頁擷取經檢視之網頁文章之標題104及主體108及在客戶端裝置上顯示該經檢視之網頁文章之標題104及主體108。當網頁文章經顯示於閱讀模式中時,可自檢視而隱藏額外無關內容。在於閱讀模式112中檢視網頁文章後,使用者可返回120至網頁以持續檢視顯示於網頁上之原始內容及與該顯示於網頁上之原始內容互動,且可在原始網頁格式中顯示額外無關內容。
第2圖圖示範例網頁文章,其中根據本文所討論之一些實施例可實施用於擷取標題及主體內容之系統。
如圖200所展示的,可在如平板電腦或智慧型手機裝置之客戶端裝置上檢視網頁文章。可經由客戶端裝置上的網頁瀏覽器存取文章,可由網站提供文章內容。顯示文章之網站可在網頁上顯示文章之標題212及主體210。如先前描述的,亦可在網頁上顯示額外內容,如網頁名稱206或來源、如圖片及廣告234之音訊/視訊內容、與網頁相關之文字內容222、至其他網頁之連結及其他相似內容。
在根據實施例之系統中,使用者可選擇轉換文章至閱讀器220檢視,其中在沒有額外無關內容的情況下可顯示文章之標題212及主體210。為了轉換文章至閱讀器220檢視,可自網頁擷取標題212及主體210之內容。
根據實施例之系統可應用擷取演算法以自網頁辨識及擷取標題212及主體210之內容。在範例情景中,可辨識標題212候選者,之後可辨識主體210候選者,及隨後可辨 識標題212候選者及主體210候選者之最佳組合,使得可關聯及加強主體210及標題212之辨識。
在範例實施例中,可藉由辨識網頁之標題節點決定標題212候選者。可運用超文本標記語言(HTML)、可延伸超文本標記語言(XHTML)、可延伸標記語言(XML)或相似之結構化語言以建立網頁。可運用文件物件模型(DOM)以呈現文章,該文件物件模型可為用於呈現HTML、XTHML及XML物件及與HTML、XTHML及XML物件互動之平台及與語言無關之協定。在DOM平台中,每個HTML物件為一節點及組織文件之節點為樹狀結構,稱之為DOM樹。舉例而言,DOM樹之物件可包含呈現完整文件之文件節點、元素節點(其中每個元素節點為HTML元素)、呈現HTML元素內之任何文字之文字節點及為HTML屬性之屬性節點。
此外,文章可包含可能與文章之標題相關之各個HTML元標籤或標題節點。與文章之標題相關之範例HTML元標籤可為元標題標籤、開放社交關係圖(open graph)元標籤、及元內容標籤。元標題標籤可包含作為標題標籤之文字之文章標題。當文章被分享至如社群媒體平台之另一平台時,開放社交關係圖元標籤可提供關於要被顯示之文章之資訊。元內容標籤可提供關於文章之資訊,搜尋提供者可使用該關於文章之資訊以決定文章之上下文。可常常使用一或更多個元標題標籤、開放社交關係圖元標籤及元內容標籤以定義網頁上之文章之標題。
在根據實施例之系統中,可藉由辨識用於文章之 DOM樹內之文字節點之文字大小決定一或更多個標題候選者,及將文字大小及與標題相關之元標籤做匹配。因標題常為網頁上最突出之文字片段及可能為最大之字體,故文字大小可為可指示標題之文字特徵。因在一些情況中標題以外之內容可能具有較大的文字大小,故文字大小單獨可能無法為標題212之準確指示符。舉例而言,如圖200之網頁202上所圖示說明的,文章之網頁名稱206及分類214具有大於標題212之文字大小。可一開始選擇具有較大文字大小之文字節點為標題候選者及將具有較大文字大小之文字節點與HTML標題元標籤做匹配,此可助於準確偵測標題。
在範例實施例中,系統可辨識用於網頁之HTML中之元標題標籤、開放社交關係圖元標籤及元內容標籤之存在。包含於元標題標籤、開放社交關係圖元標籤及元內容標籤中之每者之共同文字內容可指示最可能的標題候選者。在一些情況中,舉例而言,一或更多個元標題標籤、開放社交關係圖元標籤及元內容標籤亦可包含用於網頁名稱206、網站名稱或目錄名稱之文字。當網頁名稱206(或其他相似之網站名稱)出現於元標題標籤、開放社交關係圖及元內容標籤中之一者時,根據相似度函數可決定網頁名稱206相較於真實標題212而言為更相似,該相似度函數舉例而言為編輯距離或傑卡德(Jaccard)相似度指數。傑卡德相似度指數可統計地測量樣本集合間之相似度。若在標題標籤之每者中,網頁名稱206相較於真實標題212而言具有較高相似度,則可不正確地辨識網頁名稱206為標題候選者。
在根據實施例之系統中,可於元標籤中過濾掉網頁名稱206,以辨識標題212。在一範例過濾方法中,系統可辨識指示符,如包含於標籤內之破折號、冒號、斜線及/或豎線。若在標籤中僅辨識出一指示符,則此可假定指示符前之文字可為網頁名稱206,指示符後之文字可為標題212。舉例而言,標題標籤可為<title>Website:thestory</title>,其中在冒號前之文字「website」可為網頁名稱,及在冒號後之文字「The Story」可為文章之標題。
亦可運用另一過濾方法以基於網頁之統一資源定位符(URL)224自標題212分離網頁名稱。可藉由辨識URL 224中最後一個斜線而正規化用於網頁之URL 224。若在最後一個斜線後之文字包含index/default,則可移除最後一個斜線及在最後一個斜線後之文字。亦可移除如「homepage」等之其他文字。在移除最後一個斜線及隨後之文字後,經正規化之URL 224可包含兩部分,該等兩部分可被定義為路徑及檔案。檔案可為在URL 224之最後一個斜線後之URL 224之部分,及路徑可為在最後一個斜線前之文字之部分。舉例而言,用於網頁之URL可為「news.websit.com/blogs/trendingnow/the-story-is-true/index.html」。可移除index/default,及可劃分剩餘之URL為路徑及檔案,其中檔案可為「The Story is True-123908.html」及路徑可為「news.websit.com/blogs/trendingnow」。藉由檔案所呈現之文字部分可包含文章之標題212,及可辨識該藉由檔案所呈現之文字部分為標題候選者。路徑可包含網頁名稱及/或 目錄名稱,及可移除路徑以改善所辨識之標題候選者之準確性。
根據本文所描述之一些範例實施例,第3圖圖示用於擷取標題及主體內容之範例網頁文章。
在根據實施例之系統中,如圖300所展示的,在基於元標題標籤及字體大小之一或更多個標題候選者之辨識後,可基於標題候選者與網頁之文字節點群集之比較而決定最佳標題候選者。可應用主體擷取演算法以辨識用於每個標題候選者之文字節點之最佳群集。在為標題候選者辨識最佳群集後,可迭代地應用方法以辨識用於每個標題候選者之最佳群集。
在範例實施例中,給定標題候選者,可搜尋網頁之文字節點以辨識最可能屬於文章之主體310之節點。在一些範例中,可假設文章之主體310之段落可具有相似之文字大小及相似之文字長度,及可在用於網頁之DOM樹之相同深度處。為開始選擇主體候選者,可將其內部文字長度較閥值長度長者之文字節點聚集在一起。閥值長度可為預先定義之長度及可為可配置的。基於具有較閥值長度長之長度之經聚集之文字節點,兩個或更多個具有相同文字大小及相同深度之文字節點可一起聚集於群集中。可重複程序以保持網頁之文字節點而導致複數個文字節點之群集,其中在每一群集中之文字節點具有相同的文字大小及DOM深度。
在累積用於網頁之複數個群集後,可比較群集以測量每一群集之共同文字大小、每一群集之總計文字長度及每 一群集中之文字節點成員之數量。可基於文字大小、總計長度及成員之數量選擇最佳群集候選者。在範例實施例中,可選擇具有最大文字大小及最大的總計文字長度之群集為最佳群集候選者。舉例而言,大的總計文字長度可為大於預先定義之閥值字元數量(例如,500)之文字長度。用於最佳候選者之第二選擇可為帶有最大總計文字長度之群集,及用於最佳候選者之第三選擇可為帶有最大數量成員之群集。
在選擇用於每一標題群集之最佳群集後,可基於經辨識之最佳群集與標題候選者之比較而決定最佳標題312。可辨識其最佳群集候選者具有最大之文字大小之標題候選者及其最佳群集候選者具有最長之內部文字長度之標題候選者。最可能之主體可為具有最長內部文字長度之群集。此外,帶有亦具有較內部文字之預先定義長度長之內部文字長度之最大文字大小之文字之群集可為主體。舉例而言,帶有大於預先定義之閥值字元數量(例如,500)之內部文字長度及帶有大於具有最長內部文字之群集之文字大小之群集最可能為主體群集。可選擇對應最可能主體群集之標題候選者為最佳標題候選者。因此,若多於一個具有相同之內部文字長度之最佳群集,則可選擇具有最接近之相似文字之標題候選者為最佳標題候選者。
在更進一步之實施例中,在選擇最佳標題候選者後,可基於周圍文字調整最佳標題候選者以改善經選擇之最佳標題候選者之準確性。若在最佳標題候選者前之文字節點具有較大的文字大小,則先前之文字節點可取代最佳標題候 選者。此外,舉例而言,若最佳標題候選者具有少於2之內部文字長度,如當文字節點之第一字母322為大的文字大小時,則直到辨識到具有文字大小大於預先定義之閥值(例如,29pt或1.5倍的先前文字大小)之文字節點前,都可搜尋周圍文字節點。當辨識具有經定義之文字大小之文字節點時,可選擇所辨識之文字節點為最佳標題候選者。
在範例實施例中,可應用演算法以辨識網頁之主要區塊,該網頁之主要區塊有可能包含網頁文章之主體。當辨識(identifying)辨識(identify)可能完成用於主體之最佳群集之網頁之文字節點時,辨識主要區塊可減少搜尋一些文字節點。演算法可基於用於網頁之DOM樹。舉例而言,在標題候選者之辨識後,直到辨識到HTML主體節點之前,皆可向上地搜尋DOM樹。在可辨識到HTML主體節點及父文字節點後,對每個父文字節點來說,可計算目前內部文字長度相對於先前內部文字長度之比例。可選擇帶有最大內部文字比例之節點,及若父之內部文字比例相較於子節點正減少中,則往DOM樹上方可搜尋節點。當比例停止減少時,可選擇目前子節點為第一候選者。相似地,可沿DOM樹從HTML主體節點至標題節點向下地搜尋節點。可計算內部文字長度相對於內部HTML長度之比例,及若比例持續增加則可持續往DOM樹下方搜尋節點。當比例停止增加時,目前父節點可被視為第二候選者。可計算第一及第二候選者,及可選擇帶有DOM樹中較低深度之候選者為主要區塊。根據上文所描述之方法,可搜尋在經辨識之主要區塊內之文字節點,以辨識最佳 群集候選者。
如先前描述的,最佳群集候選者可為完整主體之部分或種子,及在選擇最佳標題候選者後可執行更進一步之分析以完成主體。為完成主體,可處理網頁之文字節點以新增具有較短文字長度及不同文字大小之段落,及相較於主體種子而言,該等網頁之文字節點在DOM樹中為較低的或較深的。此外,可新增嵌入影像316至主體種子,及可新增經識別為主體之部分之列表及/或表格至主體種子。
在範例實施例中,為了增加更多段落至主體種子,可從在最佳標題候選者旁之文字節點開始搜尋網頁之剩餘文字節點。若文字節點具有大於最佳群集文字大小之文字大小且DOM深度差異少於2,則可增加文字節點至最佳群集。直到辨識到指示文字節點非為主體之部分之關鍵字前,皆可持續增加文字節點至最佳群集。範例關鍵字可為指示之網頁文章之結束之關鍵字,如「相關報導」、「相關文章」及「以下檔案」。在辨識包含經定義關鍵字之文字節點後,因在網頁文章之結束後之文字節點很可能不屬於網頁文章之主體,故可停止新增文字節點至最佳群集。
在另一範例實施例中,為了新增嵌入影像316,可假設環繞嵌入影像之文字很可能在最佳群集中。為了辨識嵌入影像316,可辨識最佳群集中之至少兩個相鄰之文字節點之父節點。可計數每一父節點之出現次數,且可基於從最常見的父節點到最不常見的父節點之出現來排名父節點。可分析用於每個父節點之子節點,及若子節點之最內部文字已經處 於最佳群集中,則子節點可被標記為主體。可擷取相鄰子節點間之嵌入影像316,及新增該嵌入影像316至用於主體之最佳群集候選者。亦可決定子節點標籤之頻率,及若子節點具有最常見的標籤,則可決定純文字相對於所有內部文字之比例及內部文字相對於內部HTM之比例。若比例大於閥值,則亦可新增子節點至主體。
相似地,為了完成包含於主體之列表或表格,可辨識最常見之父節點及可分析用於最常見之父節點之子節點。若最常見之標籤為表格標籤(如<tr>),則可搜尋DOM樹以辨識其標籤為<table>之節點,及可標記在<table>標籤後之內容為主體之部分。此外,若最常見的標籤為列表標籤(如<li>),則可搜尋DOM樹以辨識其標籤為<ul>或<ol>之節點,該節點可指示有序資訊。可標記在<ul>或<ol>後之內容為主體之部分。
在更進一步之實施例中,在完成用於網頁文章之主體之最佳群集後,可過濾主體以移除已被新增至最佳群集但非為主體之部分之節點,如廣告、影像314、導航節點320(如分享至社交之網路按鈕)、列印連結324、顯示連結326、電子郵件連結328、相關報導、評論及其他相似之無關文字內容318。在範例過濾方法中,可運用啟發式規則以辨識及過濾導航節點。導航節點可由連結組成,以導航至其他網站,如相關文章、廣告及外部網站或應用程式。若節點包含預先定義之廣告關鍵字或廣告來源之名稱,則範例啟發式規則可辨識。若節點包含預先定義之關鍵字,則可移除節點。另一範 例規則可為若節點包含含有著名之廣告主機名稱之連結,則辨識。含有著名之廣告主機名稱之連結可為廣告連結,或其內部文字含有一些典型的廣告關鍵字之連結亦可為廣告連結,或若連結(http://...)真的很長,則此可暗示此為廣告連結且可移除該廣告連結。若在節點內,廣告連結計數相對於連結計數間之比例大於閥值,則此可被決定為導航節點且該節點可被移除。若在節點內,連結內部文字字元計數相對於全部節點字元計數之比例大於一些閥值,則節點可被視為導航節點且因此可被移除。在更進一步之範例中,規則可為若連結之內部文字計數相對於整個節點之內部文字計數之比例大於0.48,則此可能為導航節點且可移除該節點。
第4圖圖示用於自網頁文章擷取標題及主體內容之範例示意圖。
如上所描述的,可擷取網頁文章之標題及主體以在沒有檢視來自網頁之額外及無關內容的情況下,於閱讀器應用程式中檢視網頁文章。當在閱讀器應用程式中檢視標題及主體時,使用者可與標題及主體互動。舉例而言,可放大標題,及使用者可選擇、重點提示及註解主體之部分。此外,可在與閱讀器應用程式相關之圖書館頁面中顯示標題,其中可藉由使用者呈現及選擇文章標題之列表。
如圖400所圖示說明的,可藉由辨識顯示至少一網頁文章402之網頁而開始擷取網頁文章之標題及主體。在辨識網頁文章後,可執行初始過濾程序以修剪用於網頁文章之DOM樹404。帶有特別標籤之一些節點可具有為網頁文章之 標題或主體之低可能性。範例節點可為<script>、<input>、<style>、<cite>、<iframe>及<noscript>。此外,帶有標籤、屬性及值之特別組合之一些節點亦可具有為標題或主體之低可能性。可自DOM樹404修剪帶有為網頁文章之主體及標題之低可能性之節點。用於修剪DOM樹之範例程序可為:
在上述範例中,列表之格式可為:
舉例而言,若節點之標籤為<a>且具有屬性「class=hide」,則可自DOM樹修剪該節點。舉另外一例而言,若節點之標籤為<ul>且「id」值包含子字串「comment」,則可修剪該節點。
在根據實施例之系統中,在初始修剪DOM樹404後,可擷取406用於網頁文章之標題候選者。可基於網頁之標題元標籤之辨識而決定標題候選者。可自元標籤移除網頁名稱、網站名稱及/或目錄名稱,以改善標題候選者的準確性。在辨識標題候選者後,可辨識408用於主體之文字節點之最佳群集。可為了每個標題候選者而基於用於網頁之DOM樹之文字大小及深度而辨識文字節點之最佳群集。在辨識一組用於主體之最佳群集後,可為了每個最佳群集而基於文字大小及內部文字長度之比較而選擇用於標題之最佳標題候選者410。基於周圍文字可調整418經選擇之標題,以更進一步改善標題。此外,在選擇用於標題之最佳標題候選者後,可選 擇對應之最佳群集為主體種子412。
隨後,可藉由新增帶有較短文字長度之段落及在DOM樹中較深之段落而完成414主體,及新增嵌入影像、表格及列表。此外,可在用於主體之最佳群集中過濾416如廣告、分享按鈕、相關報導及其他無關內容之雜訊節點。在調整418標題及於主體中過濾416無關內容及雜訊節點後,可擷取標題及主體及在閱讀器應用程式之閱讀器頁面420上顯示該標題及主體。
已用特定配置、應用程式及互動描述第1圖至第4圖之範例系統。實施例並不限於根據這些範例之系統。可在應用較少或額外元件及執行其他任務之配置中實施用於自網頁文章擷取主體及標題內容之系統。此外,可使用本文所描述之原則之相似方式實施特定協定及/或介面。
第5圖為範例網路環境,其中可實施實施例。用於自網頁文章擷取主體及標題內容之系統可經由執行於一或更多個伺服器514上之軟體(如代管服務)而執行。平台可經由網路510與在個別計算裝置上之客戶端應用程式通訊,該等個別計算裝置如智慧型手機513、膝上型電腦512或桌上型電腦511(「客戶端裝置」)。
執行在任一客戶端裝置511-513之客戶端應用程式可有助於經由執行於伺服器514上或於個別伺服器516上之應用程式之通訊。執行於其中之一之伺服器之應用程式可有助於自網頁文章擷取主體及標題內容。應用程式可直接地自資料儲存器519檢索相關資料或經由資料庫伺服器518檢索 相關資料,及經由客戶端裝置511-513提供經請求服務(例如,文件編輯)至使用者。
網路510可包含伺服器、客戶端、網路服務提供者、及通訊媒體之任何拓樸。根據實施例之系統可具有靜態或動態拓樸。網路510可包含如企業網路之安全網路及如無線開放網路或網際網路之不安全網路。網路510亦可在如公用交換電話網路(PSTN)或蜂巢網路之其他網路上協調通訊。此外,網路510可包含如藍牙或諸如此類之較短距離的無線網路。網路510提供本文所描述之節點間的通訊。舉例而言(非限制),網路510可包含無線媒體,如聲音、RF、紅外線及其他無線媒體。
可應用計算裝置、應用程式、資料來源及資料分配系統之眾多其他配置以實施用於提供自網頁文章擷取主體及標題內容之系統之平台。此外,如第5圖所討論之網路環境僅為圖示說明之目的。實施例並不限於範例應用程式、模組或程序。
第6圖及相關討論係傾向提供可實行實施例之合適計算環境之簡短的及一般的描述。參考第6圖,圖示用於根據實施例之應用之範例計算作業環境之方塊圖,如計算裝置600。在基本配置中,計算裝置600可為執行提供用於根據實施例自網頁文章擷取主體及標題內容之系統之應用程式之任何計算裝置,及該計算裝置600包含至少一處理單元602及系統記憶體604。計算裝置600亦可包含在執行程式中協作之複數個處理單元。取決於計算裝置之確切配置及類型,系統 記憶體604可為揮發性的(如RAM)、非揮發性的(如ROM、快閃記憶體等)或兩者之一些結合。系統記憶體604典型地包含適合控制平台之操作之作業系統606,如來自華盛頓州雷德蒙德之微軟公司之WINDOWS ®作業系統。系統記憶體604亦可包含一或更多個軟體應用程式,如閱讀器應用程式622及擷取模組624。
閱讀器應用程式622可為在沒有顯示來自網頁之額外及無關內容的情況下使在閱讀模式中檢視網頁文章為可能之應用程式,該閱讀模式其中可顯示文章之主體及標題。為閱讀器應用程式622之部分之擷取模組624可助於辨識網頁文章,及執行演算法以自網頁擷取網頁文章之標題及主體。演算法可辨識一或更多個標題候選者及可助於自標題候選者中選擇最佳標題,及可自用於主體之最佳群集候選者中選擇最佳主體候選者。閱讀器應用程式622及擷取模組624可為分離之應用程式或代管服務之整合模組。藉由那些在虛線608內之元件圖示基本配置於第6圖中。
計算裝置600可具有額外特徵或功能。舉例而言,計算裝置600亦可包含額外資料儲存裝置(可移除的及/或不可移除的),舉例而言如磁碟、光碟或磁帶。藉由可移除式儲存器609及不可移除式儲存器610圖示此類額外儲存器於第6圖中。電腦可讀取儲存媒體可包含以用於資訊儲存之任何方法或技術實施之揮發性及非揮發性、可移除的及不可移除的媒體,該資訊如電腦可讀取指令、資料結構、程式模組或其他資料。系統記憶體604、可移除式儲存器609及不可移除式 儲存器610為電腦可讀取儲存媒體之所有範例。電腦可讀取儲存媒體包含(但不限於)RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能光碟(DVD)或其他光學儲存器、磁帶、磁碟儲存器或其他磁性儲存裝置,或可用來儲存所欲資訊及可由計算裝置600存取之任何其他媒體。任何此類電腦可讀取儲存媒體可為計算裝置600之部分。計算裝置600亦可包含輸入裝置612,如鍵盤、滑鼠、筆、聲音輸入裝置、觸控輸入裝置及可比較之輸入裝置。輸出裝置614如顯示器、揚聲器、印表機,及亦可包含其他類型之輸出裝置。這些裝置在本領域中眾所皆知,而不需於本文中詳細討論。
計算裝置600亦可包含允許裝置與其他裝置618通訊之通訊連接616,如在分散式計算環境中之有線或無線網路上、衛星連結、蜂巢連結、短距離網路及可比較機制。其他裝置618可包含執行通訊應用程式之電腦裝置、網頁伺服器、及可比較裝置。通訊連接616為通訊媒體之一範例。通訊媒體可包含在其中之電腦可讀取指令、資料結構、程式模組或其他資料。舉例而言(但不限於),通訊媒體包含有線媒體(如有線網路或硬連線連接)及無線媒體(如聲音、RF、紅外線及其他無線媒體)。
範例實施例亦包含方法。可用包含本文所描述之結構之任何數目的方式實施這些方法。一種此類方法係藉由本文所描述之類型之裝置之機器操作。
另一個可選的方式係用於要與執行一些操作之一或 更多個人類作業員一起被執行之方法之一或更多個個別操作。人類作業員不需彼此位於同處;每個人類作業員可僅與執行部份程式之機器在一起。
第7圖圖示用於根據實施例自網頁文章擷取主體及標題內容之程序700之邏輯流程圖。可在計算裝置或能經由處理器執行指令之相似電子裝置上實施程序700。
程序700開始於操作710處,其中可接收顯示文章之網頁之選擇。網頁可顯示除了文章外之其他內容,如連結、廣告、影像、分享至社交之網路按鈕、列印或電子郵件連結、相關報導、評論及其他相似之無關文字內容。在操作720處,可接收在閱讀器應用程式中檢視文章之命令。在操作730處,一旦接收命令以在閱讀器應用程式中檢視文章,就自網頁擷取文章之標題。在操作740處,可自網頁擷取文章之主體。可運用用於辨識最佳標題候選者及辨識用於主體之最佳群集候選者之演算法以擷取主體及標題,及選擇用於標題及主體之相關候選者。在操作750處,可在閱讀器應用程式處,顯示經擷取之標題及經擷取之主體於閱讀模式中。
包含於程序700中之操作係為圖示說明之目的。可藉由帶有較少或較多步驟之相似程序及不同順序之使用本文所描述之原則之操作以實施自網頁文章擷取主體及標題內容。
上述說明書、範例及資料提供實施例之組成之製造及使用之完整描述。雖然已用特定至結構特徵及/或方法行為之語言描述標的,但需瞭解的是在附加申請專利範圍中所定 義的標的不需要被限制於上文所描述之特定特徵或行為。更確切的說,上文所描述之特定特徵及行為係被揭露為實施申請專利範圍及實施例之範例形式。
300‧‧‧圖
310‧‧‧主體
312‧‧‧最佳標題
314‧‧‧影像
316‧‧‧嵌入影像
318‧‧‧無關文字內容
320‧‧‧導航節點
322‧‧‧第一字母
324‧‧‧列印連結
326‧‧‧顯示連結
328‧‧‧電子郵件連結

Claims (20)

  1. 一種至少部分於一計算裝置執行之用於自一網頁文章擷取主體及標題內容之方法,該方法包括以下步驟:接收顯示一文章之一網頁之一選擇;接收一命令以在一閱讀器應用程式中檢視該文章;自該網頁擷取該文章之一標題;自該網頁擷取該文章之一主體;及在該閱讀器應用程式處顯示該經擷取之主體及標題於一閱讀模式中。
  2. 如請求項1所述之方法,其中擷取該文章之該標題之步驟包含以下步驟:辨識一或更多個與該網頁之該標題相關之元標籤。
  3. 如請求項2所述之方法,更包含以下步驟:基於包含於該一或更多個元標籤內之文字內容,而選擇一或更多個標題候選者。
  4. 如請求項3所述之方法,更包含以下步驟:自包含於該一或更多個元標籤內之該文字內容過濾一網頁名稱。
  5. 如請求項2所述之方法,其中擷取該文章之一主體之該步驟更包含以下步驟: 辨識兩個或更多個具有一內部文字長度大於一預先定義閥值長度之文字節點;自該兩個或更多個具有一內部文字長度大於該閥值長度之文字節點選擇至少兩個具有一相同文字大小及一相同文件物件模型(DOM)樹深度之文字節點;將該至少兩個下一個節點一起聚集於一群集中;及重複以產生用於每個標題候選者之一群集。
  6. 如請求項5所述之方法,更包含以下步驟:選擇用於每一標題候選者之一最佳群集候選者為帶有一最大的文字大小及一最大的總計文字長度之群集,其中該最大的總計文字長度為大於一預先定義閥值字元數量之一文字長度。
  7. 如請求項6所述之方法,更包含以下步驟:辨識該標題候選者,該標題候選者的最佳群集候選者具有該最大的文字大小;辨識該標題候選者,該標題候選者的最佳群集候選者具有一最長的內部文字長度;選擇對應至具有一或更多個該最大的文字大小及該最長的內部文字長度之該最佳群集候選者之一最佳標題;及選擇對應至該最佳標題之該最佳群集候選者為一主體種子。
  8. 如請求項7所述之方法,更包含以下步驟:藉由執行一或更多個以下步驟完成該主體種子:新增具有一較短文字長度及一不同文字大小之段落,及該等段落相較於該主體種子在該DOM樹中為較短的或較深的;新增嵌入影像至該主體種子;及新增列表及表格至該主體種子。
  9. 如請求項1所述之方法,更包含以下步驟:過濾該經擷取主體以移除無關內容節點。
  10. 如請求項9所述之方法,其中過濾該經擷取主體之步驟更包含以下步驟:應用一組啟發式規則以辨識包含於一文字節點中之關鍵字,其中該等關鍵字指示一或更多個一廣告、一影像、一導航節點、一分享按鈕、一列印連結、一顯示連結、一電子郵件連結、一相關報導及一評論;及自該主體移除包含該等關鍵字之該文字節點。
  11. 一種用於自一網頁文章擷取主題及標題內容之伺服器,包含:一記憶體,該記憶體儲存指令;一處理器,該處理器耦合至該記憶體,該處理器執行一閱讀器應用程式,其中該閱讀器應用程式經配置以執行以下 步驟:接收顯示一文章之一網頁之一選擇;接收一命令以在該閱讀器應用程式中檢視該文章;運用基於複數個標題候選者之辨識之一擷取模組自該網頁擷取該文章之一標題;運用基於複數個文字節點群集之辨識之該擷取模組自該網頁擷取該文章之一主體;及在該閱讀器應用程式處顯示該經擷取主體及標題於一閱讀模式中。
  12. 如請求項11所述之伺服器,其中更配置該閱讀器應用程式以執行以下步驟:辨識一或更多個與該網頁之該標題相關之元標籤,其中該元標籤為一或更多個元標題標籤、開放社交關係圖元標籤及元內容標籤;基於包含於該一或更多個元標籤內之文字內容選擇一或更多個標題候選者;及自包含於該一或更多個元標籤內之該文字內容過濾一網頁名稱。
  13. 如請求項12所述之伺服器,其中更配置該閱讀器應用程式以執行以下步驟:藉由辨識包含於該元標籤內之一指示符而自包含於該元標籤內之該文字內容過濾該網頁名稱,及若在該標籤內僅辨 識出一指示符,則選擇該指示符後之該文字為該標題且移除在該指示符前之該文字。
  14. 如請求項12所述之伺服器,其中更配置該閱讀器應用程式以執行以下步驟:藉由以下步驟以自包含於元標籤內之該文字內容過濾該網頁名稱:在該網頁之一統一資源定位符(URL)中辨識一最後的斜線;選擇在該最後的斜線後之該URL之一部分為該標題;及移除在該最後的斜線前之該文字之該部分。
  15. 如請求項11所述之伺服器,其中更配置該閱讀器應用程式以基於辨識具有內部文字長度大於一閥值長度之文字節點而辨識該複數個文字節點之群集,及將兩個或更多個具有一相同的文字大小及相同深度之文字節點聚集在一群集中。
  16. 如請求項11所述之伺服器,其中更配置該閱讀器應用程式以基於辨識帶有一最大文字大小及一總計文字長度大於一預先定義之字元數量閥值之一群集,而自該複數個文字節點之群集選擇用於該主體之一最佳候選者。
  17. 如請求項16所述之伺服器,其中更配置該閱讀器應用程 式以選擇對應至用於該主體之該最佳標題之一最佳標題。
  18. 如請求項17所述之伺服器,其中更配置該閱讀器應用程式以基於周圍文字節點而調整該最佳標題。
  19. 一種帶有儲存於其上之指令之電腦可讀取記憶體裝置,該指令係用於自一網頁文章擷取主體及標題內容,該指令包含以下指令:接收顯示一文章之一網頁之一選擇;基於具有成為該文章之一主體之部分之一低可能性之節點之辨識而過濾用於該網頁之一文件物件模型(DOM)樹;接收一命令以在一閱讀器應用程式中檢視該文章;基於複數個標題候選者之辨識而自該網頁擷取該文章之一標題;基於複數個文字節點之群集之辨識而自該網頁擷取該文章之該主體;自該網頁過濾無關內容;及在該閱讀器應用程式處顯示該經擷取之主體及標題於一閱讀模式中。
  20. 如請求項19所述之電腦可讀取記憶體裝置,其中該等指令更包含以下指令:選擇對應至一最佳標題之一最佳群集候選者為一主體種子;及 藉由一或更多個以下指令完成該主體種子:新增具有一較短文字長度及一不同文字大小之段落,及該等段落相較於該主體種子在該DOM樹中為較短的或較深的;新增嵌入影像至該主體種子;及新增列表及表格至該主體種子。
TW103126938A 2013-09-25 2014-08-06 從網頁擷取標題及主體 TW201514845A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14/037,324 US20150067476A1 (en) 2013-08-29 2013-09-25 Title and body extraction from web page

Publications (1)

Publication Number Publication Date
TW201514845A true TW201514845A (zh) 2015-04-16

Family

ID=51663503

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103126938A TW201514845A (zh) 2013-09-25 2014-08-06 從網頁擷取標題及主體

Country Status (4)

Country Link
US (1) US20150067476A1 (zh)
AR (1) AR097694A1 (zh)
TW (1) TW201514845A (zh)
WO (1) WO2015047920A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI661314B (zh) * 2016-06-28 2019-06-01 香港商阿里巴巴集團服務有限公司 Data storage method and device
TWI809962B (zh) * 2022-07-04 2023-07-21 廖俊雄 可供輔助提升網路搜尋引擎檢索排名之網站製作平台

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400833B2 (en) * 2013-11-15 2016-07-26 Citrix Systems, Inc. Generating electronic summaries of online meetings
US20150254213A1 (en) * 2014-02-12 2015-09-10 Kevin D. McGushion System and Method for Distilling Articles and Associating Images
US10339199B2 (en) * 2015-04-10 2019-07-02 Oracle International Corporation Methods, systems, and computer readable media for capturing and storing a web page screenshot
CN105677764B (zh) * 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置
US10423636B2 (en) * 2016-06-23 2019-09-24 Amazon Technologies, Inc. Relating collections in an item universe
US20180113583A1 (en) * 2016-10-20 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages
TWI611308B (zh) * 2016-11-03 2018-01-11 財團法人資訊工業策進會 網頁資料擷取裝置及其網頁資料擷取方法
US11755997B2 (en) * 2017-02-22 2023-09-12 Anduin Transactions, Inc. Compact presentation of automatically summarized information according to rule-based graphically represented information
US10521106B2 (en) 2017-06-27 2019-12-31 International Business Machines Corporation Smart element filtering method via gestures
CN107609152B (zh) * 2017-09-22 2021-03-09 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN107590288B (zh) * 2017-10-11 2020-09-18 百度在线网络技术(北京)有限公司 用于抽取网页图文块的方法和装置
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
CN110020312B (zh) * 2017-12-11 2022-09-06 北京京东尚科信息技术有限公司 提取网页正文的方法和装置
AU2017279613A1 (en) * 2017-12-19 2019-07-04 Canon Kabushiki Kaisha Method, system and apparatus for processing a page of a document
US10853431B1 (en) * 2017-12-26 2020-12-01 Facebook, Inc. Managing distribution of content items including URLs to external websites
CN109657180B (zh) * 2018-12-11 2021-11-26 中科国力(镇江)智能技术有限公司 一种智能化网页内容自动模糊抽取系统
CN110244896A (zh) * 2019-06-24 2019-09-17 北京向上一心科技有限公司 网页内截图方法、装置、控制器及存储介质
CN111126050B (zh) * 2019-12-25 2023-05-05 杭州安恒信息技术股份有限公司 一种网站标题提取方法、系统及相关设备
US11803706B2 (en) * 2020-01-24 2023-10-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for structure and header extraction
CN113407889B (zh) * 2021-07-15 2023-10-20 北京百度网讯科技有限公司 小说转码方法、装置、设备以及存储介质
CN115827953B (zh) * 2023-02-20 2023-05-12 中航信移动科技有限公司 用于网页数据抽取的数据处理方法、存储介质及电子设备
CN116362223B (zh) * 2023-03-07 2023-12-15 北京粉笔蓝天科技有限公司 一种网页文章标题和正文的自动识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073865B2 (en) * 2009-09-14 2011-12-06 Etsy, Inc. System and method for content extraction from unstructured sources
WO2012012911A1 (en) * 2010-07-28 2012-02-02 Hewlett-Packard Development Company, L.P. Producing web page content
WO2012012916A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Selection of main content in web pages
US9152730B2 (en) * 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI661314B (zh) * 2016-06-28 2019-06-01 香港商阿里巴巴集團服務有限公司 Data storage method and device
US10855796B2 (en) 2016-06-28 2020-12-01 Advanced New Technologies Co., Ltd. Data storage method and device
TWI809962B (zh) * 2022-07-04 2023-07-21 廖俊雄 可供輔助提升網路搜尋引擎檢索排名之網站製作平台

Also Published As

Publication number Publication date
US20150067476A1 (en) 2015-03-05
AR097694A1 (es) 2016-04-06
WO2015047920A1 (en) 2015-04-02

Similar Documents

Publication Publication Date Title
TW201514845A (zh) 從網頁擷取標題及主體
US10298528B2 (en) Topic thread creation
CN105706080B (zh) 扩增并呈现捕获的数据
US7373606B2 (en) Method for visualizing weblog social network communities
US11580181B1 (en) Query modification based on non-textual resource context
RU2696305C2 (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
US20110082868A1 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
US11449563B2 (en) User driven clipping based on content type
JP2012529688A (ja) 更新通知方法、およびシステム
TW201118620A (en) Systems and methods for providing advanced search result page content
CN108090104B (zh) 用于获取网页信息的方法和装置
De Boer et al. DIVE into the event-based browsing of linked historical media
US20130339840A1 (en) System and method for logical chunking and restructuring websites
US20120330932A1 (en) Presenting supplemental content in context
US10430805B2 (en) Semantic enrichment of trajectory data
US20130198240A1 (en) Social Network Analysis
US20220292160A1 (en) Automated system and method for creating structured data objects for a media-based electronic document
US20140136963A1 (en) Intelligent information summarization and display
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
Gali et al. Extracting representative image from web page
US20090313558A1 (en) Semantic Image Collection Visualization
TW201523421A (zh) 決定用於擷取的文章之圖像
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP2018500696A5 (zh)
JP2007052693A (ja) Webページ情報表示装置,処理方法およびプログラム