TW201705021A - 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法 - Google Patents

利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法 Download PDF

Info

Publication number
TW201705021A
TW201705021A TW104123950A TW104123950A TW201705021A TW 201705021 A TW201705021 A TW 201705021A TW 104123950 A TW104123950 A TW 104123950A TW 104123950 A TW104123950 A TW 104123950A TW 201705021 A TW201705021 A TW 201705021A
Authority
TW
Taiwan
Prior art keywords
webpage
template
feature
target
visual
Prior art date
Application number
TW104123950A
Other languages
English (en)
Other versions
TWI570579B (zh
Inventor
彭鼎鈞
Original Assignee
葆光資訊有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 葆光資訊有限公司 filed Critical 葆光資訊有限公司
Priority to TW104123950A priority Critical patent/TWI570579B/zh
Priority to US14/860,984 priority patent/US20170024472A1/en
Publication of TW201705021A publication Critical patent/TW201705021A/zh
Application granted granted Critical
Publication of TWI570579B publication Critical patent/TWI570579B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一種利用網頁視覺特徵及網頁語法特徵之資訊擷取方法及執行此方法的系統,係包含:分析結果資料庫、網站模板資料庫、網頁蒐集模組及分析模組。網站模板資料庫儲存分別對應於複數目標網站之複數模板特徵矩陣。模板特徵矩陣包含對應於文件物件模型結構的複數模板節點的至少一模板視覺特徵及至少一模板語法特徵。經由網頁蒐集模組連結至目標網站而抓取目標網站之目標網頁之網頁特徵矩陣。以分析模組計算對應相同目標網站之網頁特徵矩陣與模板特徵矩陣的相似度,據此可找出欲關注的資訊內容而儲存至分析結果資料庫。

Description

利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法
本發明係關於一種網頁資訊擷取系統,特別是一種利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法。
隨著網路普及與速度提昇,成就電子商務在近年來蓬勃的發展。因此,如何吸引消費者前往購物,是電子商務業者需要正視的課題。而商品價格往往是消費者選擇購物平台的重要考量之一。因此,監控競爭業者之商品售價也成為電子商務業者的重要工作事項之一。
一般而言,監控競爭業者之商品售價的方式會採用人工的方式,連線至競爭業者的購物網站,搜尋與記錄各項商品的售價。然而人工記錄的方式,不但耗時,也可能造成誤看、誤記的失誤。
因此,目前也有利用網頁爬蟲技術將欲監控的網頁下載下來,並進一步根據網頁原始碼來分析、取得欲關注的資訊。然而,網頁程式語言不斷地進步,對於一些運用動態語法(如AJAX、Javascript)來撰寫之網頁,在載入網頁時不盡然會立即顯示全部的資訊,例如有些資訊需要透過滿足特定條件才會顯示(如滑鼠滾輪向下捲動、按下滑鼠按鍵或滑鼠游標經過等),因此即使取得網頁原始碼也無法取得想要的資訊。
上述之問題不僅是發生在購物網站之監控,其他網站之更新資料亦有可能是採用動態語法的方式編寫網頁,同樣無法取得想要的資訊。
鑒於以上的問題,本發明提出一種利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法,藉以解決先前技術所存在如何有效、準確地取得網頁資訊,以及如何取得使用動態語法編撰之網頁的資訊內容的問題。
本發明一實施例提出一種利用網頁視覺特徵及網頁語法特徵之資訊擷取系統,包含:分析結果資料庫、網站模板資料庫、網頁蒐集模組及分析模組。網站模板資料庫儲存分別對應於複數目標網站之複數模板特徵矩陣。模板特徵矩陣包含對應於文件物件模型結構的複數模板節點的至少一模板視覺特徵及至少一模板語法特徵。網頁蒐集模組連結至此些目標網站中的至少一者,而抓取目標網站之目標網頁之複數網頁節點的至少一網頁視覺特徵及至少一網頁語法特徵而形成一網頁特徵矩陣。分析模組計算相同之目標網站之網頁特徵矩陣與模板特徵矩陣的相似度,於相似度大於一門檻值時,將網頁節點的內容儲存至分析結果資料庫。
本發明一實施例提出一種利用網頁視覺特徵及網頁語法特徵之資訊擷取方法,包含:儲存分別對應於複數目標網站之複數模板特徵矩陣,其中模板特徵矩陣包含對應於文件物件模型結構的複數模板節點的至少一模板視覺特徵及至少一模板語法特徵;連結至目標網站中的至少一者而抓取目標網站之一目標網頁中的之複數網頁節點的至少一網頁視覺特徵及至少一網頁語法特徵而形成一網頁特徵矩陣;計算對應相同之目標網站之網頁特徵矩陣與模板特徵矩陣的一相似度;及將相似度大於一門檻值的網頁節點的內容儲存至一分析結果資料庫。
綜上所述,本發明實施例所提出之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法,可於採用動態語法撰寫之網頁上找到欲關注的資訊,也因能合併參考視覺特徵及語法特徵,故可更精準的找到欲關注的網頁資訊。
參見第1圖,係為本發明第一實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統100,包含分析結果資料庫110、網站模板資料庫120、網頁蒐集模組130及分析模組140。此資訊擷取系統100係能連結至複數目標網站300,以針對不同目標網站300自動抓取其網頁上的資訊內容。
前述之目標網站300在此以購物網站為例。參見第2圖,係為本發明第一實施例之模板特徵矩陣之示意圖,係為對應於一個購物網站的模板特徵矩陣之例。另請配合參照第3圖,係為本發明第一實施例之購物網站之商品網頁200示意圖。一般而言,不同的購物網站的網頁設計不同,因此產品名稱、圖片、售價等資訊呈現在網頁上可能會有不同的大小、位置、顏色等。然而,同一個目標網站300中的各個網頁則通常會以相同或類似的呈現方式來顯示。根據這樣的設計邏輯,網站模板資料庫120針對不同的購物網站可個別儲存對應的模板特徵矩陣。也就是說,網站模板資料庫120儲存有分別對應於複數目標網站300之複數模板特徵矩陣,以供後續根據模板特徵矩陣來抓取對應的目標網站300之目標網頁中的資訊。
合併參照第2圖及第3圖,模板特徵矩陣包含對應於文件物件模型結構(DOM Tree)的複數模板節點的至少一模板視覺特徵及至少一模板語法特徵。在本例中,如第2圖所示,網站模板資料庫120儲存的模板特徵矩陣包含了如第3圖所示之四個模板節點N1~N4的模板視覺特徵和模板語法特徵。模板語法特徵包含節點編號、階層、標籤(Tag)、類別識別(Class ID)及類別名稱(Class Name)。 節點編號係為本資訊擷取系統100給予之編號,階層為模板節點之階層。標籤為標籤屬性,如標籤名稱、影像來源、超連結等。類別識別與類別名稱分別為CSS(Cascading Style Sheets,層疊樣式表)網頁語法中宣告之名稱。相對位置為模板節點N1~N4在文件物件模型結構中的階層與在該階層的節點序號(如本例中,模板節點N1位於文件物件模型結構的第3層,且位於第3階層從左算起第11個節點)。絕對位置為模板節點N1~N4在整個文件物件模型結構中的整體節點序號(如本例中,模板節點N1位於文件物件模型結構中由上至下編號的第168個節點)。模板視覺特徵包含寬度、高度、中心X座標及中心Y座標。寬度為模板節點N1~N4在網頁顯示畫面上的區塊寬度;高度為模板節點N1~N4在網頁顯示畫面上的區塊高度。以網頁左上角為座標原點,X座標為模板節點N1~N4的區塊中心的橫座標;Y座標為模板節點N1~N4的區塊中心的縱座標。座標系統非限於以網頁左上角為原點,亦可以其他位置為原點,例如網頁中心或網頁右上角等。在此,模板特徵矩陣式一種稀疏矩陣(Sparse Matrix),矩陣中的部分元素可以沒有資料。
上述的模板視覺特徵與模板語法特徵僅為舉例,模板特徵矩陣中的參數並非以此為限,還可包含其他參數,或從上述參數中選擇部分合適者。例如,模板語法特徵還可包含其他CSS屬性(如字型大小、文字顏色、背景顏色、對齊方式、重疊順序(Z-index)等)、子節點數(即該節點底下所有階層的子節點數)、Javascript屬性(如onclick、onsubmit)等。
如第3圖所示,本例之購物網站的模板需要關注四個模板節點N1~N4之資訊內容是否有變更。模板節點N1是商品的圖片,模板節點N2是商品的描述(例如產品名稱、產品型號、產品介紹等),模板節點N3是商品的售價,模板節點N4是其他網站的連結。在其他實施例中,關注的節點資訊可不限於上述的資訊內容,亦即可增加其他的資訊內容的模板節點。此外,也可以排除上述模板節點中的部分資訊內容,例如不關注其他網站的連結;或者只關注產品名稱與型號,而不關注產品介紹之說明文字;或例如只關注商品的實際售價(如折扣價格)而不關注商品的定價。
參見第4圖,係為本發明第一實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取方法之流程圖。於步驟S301係將包含上述欲關注的模板節點的模板特徵矩陣儲存於網站模板資料庫120。如前所述,儲存之複數個模板特徵矩陣分別對應於複數個目標網站300。
接著,於步驟S302中,網頁蒐集模組130連結至目標網站300中的至少一者而抓取目標網站300之目標網頁中的複數網頁節點的至少一網頁視覺特徵及至少一網頁語法特徵而排列形成一網頁特徵矩陣。網頁蒐集模組130係具有爬蟲程式,而能至目標網站300抓取網頁資料。網頁資料係包含網頁視覺特徵及網頁語法特徵。網頁視覺特徵之參數類型係如同前述之模板視覺特徵,在此僅是為了與模板特徵矩陣區別,而將網頁蒐集模組130自目標網站300取得的網頁之視覺特徵稱之為網頁視覺特徵。也就是說,網頁視覺特徵是從要追蹤、分析的網頁資料中取出的視覺特徵,模板視覺特徵是網站模板資料庫120中儲存的視覺特徵。相似地,在此將網頁蒐集模組130自目標網站300取得的網頁之語法特徵稱之為網頁語法特徵,參數類型係與模板語法特徵相同。換言之,網頁蒐集模組130從目標網站300取得的目標網頁的網頁特徵矩陣的參數類型係和網站模板資料庫120中的模板特徵矩陣的參數類型相同。網頁語法特徵是從要追蹤、分析的網頁資料中取出的語法特徵,模板語法特徵是網站模板資料庫120中儲存的語法特徵。前述模板節點與網頁節點同樣均是文件物件模型結構之節點,僅是為了區分模板節點是模板特徵矩陣中的節點,而網頁節點是網頁特徵矩陣中的節點。
續而,在步驟S303中,分析模組140計算對應相同目標網站300之網頁特徵矩陣與模板特徵矩陣的相似度。分析模組140係可計算對應相同的目標網站300之網頁語法特徵與模板語法特徵之間的第一相似分數,並計算網頁視覺特徵與模板視覺特徵之間的第二相似分數,再根據第一相似分數及第二相似分數以權重計算出前述的相似度。於此,可針對網頁語法特徵(模板語法特徵)的多個屬性分別計算出多個第一相似分數;同樣地,也可以針對網頁視覺特徵(模板視覺特徵)的多個屬性分別計算出多個第二相似分數。再將此些第一相似分數與第二相似分數以權重計算出相似度,也就是說,每一第一相似分數與每一第二相似分數分別乘上一加權常數後彼此相加而可得出前述之相似度。
如針對寬度及高度來計算第二相似分數時,可以如下式1來計算,但本發明之實施例非限於此。若針對中心X、Y座標來計算第二相似分數,則可以如下式2來計算,本發明之實施例亦非僅能以式2來計算。
[式1] 第二相似分數=1/(寬度差+高度差+1),寬度差是指模板特徵矩陣與網頁特徵矩陣中的寬度屬性之差值,高度差是指模板特徵矩陣與網頁特徵矩陣中的高度屬性之差值。
[式2] 第二相似分數=1/(X座標差+Y座標差+1),X座標差是指模板特徵矩陣與網頁特徵矩陣中的中央X座標屬性之差值,Y座標差是指模板特徵矩陣與網頁特徵矩陣中的中央Y座標屬性之差值。
而針對第一相似分數之計算,主要分為二種形態之計算。若屬於數值型態之屬性(如相對位置、絕對位置、子節點數等),可使用餘弦相似度(Cosine Similarity)演算法來計算,但本發明之實施例非以此演算法為限。若屬於字串型態之屬性(如類別識別、類別名稱、顏色、超連結等),則可使用如傑卡德相似度(Jaccard Similarity)演算法、編輯距離(Levenshtein distance)演算法等,但本發明之實施例非以前述演算法為限。
最後,於步驟S304中,於相似度大於一門檻值時,分析模組140便將此些網頁節點的內容(即屬性資料)儲存至該分析結果資料庫110。此門檻值可為預設值,亦可根據前次相似度對應調校。據此,後續只要讀取分析結果資料庫110,便可得知所欲關注的購物網站的資訊,如售價是否調整。若一目標網頁的A節點相對於模板資料庫120中的B節點的相似度的數值愈高,表示A節點與B節點愈有可能是網頁中的同一節點,例如同樣是商品名稱。
參照第5圖,係為本發明第二實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統100。相較於第一實施例,本實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統100更可包含一模板建立模組150,係能解析目標網站300之目標網頁的原始碼,據以分析出文件物件模型結構中的多個元件節點,並可取得元件節點的至少一模板視覺特徵及至少一模板語法特徵。
參見第6圖,係為本發明第二實施例之模板節點建立示意圖。模板建立模組150能提供一選擇介面151,係顯示於商品網頁200上端,以供使用者選擇部分之元件節點152為前述的模板節點(如N1~N4),於此是以選擇商品名稱之元件節點152為模板節點N2為例。選擇介面151具有多個資訊欄位153,係能分別呈現多個資訊(如前述之模板語法特徵或模板視覺特徵),在此係顯示元件節點152之CSS路徑、寬、高、上邊界、下邊界等資訊。選擇介面151還包含多個控制元件154,係能以按鈕、選單等方式實現,而能供使用者操作欲顯示的上一層或下一層的元件節點之資訊(點選「向上層」或「向下層」按鈕)。經由控制元件154也可以設定當前顯示的元件節點所代表之意義,例如,可透過選單方式設定當前的元件節點係指商品名稱。也可以透過控制元件154清除當前的元件節點的設定(點選「清除」按鈕),或清除所有的先前設定(點選「全部清除」按鈕),也能將所做的設定送至網站模板資料庫120儲存(點選「送出」按鈕)。
因此,在本實施例中,相較於前述第4圖之資訊擷取流程,可於步驟S301之前,以模板建立模組150分析複數目標網站300之目標網頁之複數元件節點152,而取得此些元件節點152的至少一模板視覺特徵及至少一模板語法特徵。並且,模板建立模組150能提供選擇介面151,以供使用者選擇部分之元件節點為模板節點。而透過使用者選擇元件節點的過程,可滿足動態語法(如AJAX、Javascript)網頁提供完整網頁資訊的特定條件(如滑鼠滾輪向下捲動、按下滑鼠按鍵或滑鼠游標經過等),進而完整取得至少一模板視覺特徵及至少一模板語法特徵。
在另一實施例中,於如第4圖所示之步驟S303之前,亦即分析模組140於計算相似度前,可預先根據為寬高資訊之模板視覺特徵來過濾網頁節點。參見第7圖,係為本發明第三實施例之預先過濾網頁節點示意圖。商品網頁200上可能會有多個商品照片,例如第7圖左側的多個商品圖片P1~P5,僅為推薦商品,非為要分析的目標商品,可預先依照商品圖片的寬高資訊和模板視覺特徵中的寬度、高度相比,若不近似則可忽略此元件節點。判斷近似與否的方式可參照前述式1,而將利用式1計算出的第二相似分數與另一門檻值相比,若低於此門檻值則可忽略,反之則進入步驟S303。藉此,可減少候選之元件節點152數量,進而減少於步驟S303中計算相似度的資料處理量。
前述實施例之資訊擷取方法係可由前述實施例之資料擷取系統100來執行,而資料擷取系統100可由計算機系統(如桌上型電腦、伺服器等)實現,具有中央處理器、南北橋、揮發性記憶體、儲存單元、網路晶片等電子器件。儲存單元可例如為獨立磁碟備援陣列(Redundant Array of Independent Disks,RAID)或簡單磁碟綁定(Just a Bunch Of Disks,JBOD)系統等邏輯磁碟陣列。或者,儲存單元也可以是硬碟(Hard Disk Drive,HDD)等非揮發性儲存裝置。分析結果資料庫110與網站模板資料庫120係可儲存在上述儲存單元中。網頁蒐集模組130、分析模組140及模板建立模組150係為儲存於儲存單元中的電腦程式,而能被中央處理器執行而完成特定功能。
綜上所述,本發明實施例所提出之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法,可於採用動態語法撰寫之網頁上找到欲關注的資訊,也因能合併參考視覺特徵及語法特徵,故可更精準的找到欲關注的網頁資訊。上述說明雖以購物網站為例說明,然而上述系統與方法可以適用於其他網站,例如部落格網站或如第8圖所示之新聞網站、如第9圖所示之公部門網站等,都可以追蹤到網頁中的元件節點(如Q1~Q4、R1~R4)之資訊,以供後續利用此些資訊進行加值的服務,如數據統計分析、資料探勘等。
100‧‧‧利用網頁視覺特徵及網頁語法特徵之資訊擷取系統
110‧‧‧分析結果資料庫
120‧‧‧網站模板資料庫
130‧‧‧網頁蒐集模組
140‧‧‧分析模組
150‧‧‧模板建立模組
151‧‧‧選擇介面
152‧‧‧元件節點
153‧‧‧資訊欄位
154‧‧‧控制元件
200‧‧‧商品網頁
300‧‧‧目標網站
N1~N4‧‧‧模板節點
P1~P5‧‧‧商品圖片
Q1~Q4‧‧‧元件節點
R1~R4‧‧‧元件節點
X、Y‧‧‧座標
S301‧‧‧儲存分別對應於複數目標網站之複數模板特徵矩陣
S302‧‧‧連結至目標網站中的至少一者,而抓取目標網站之一目標網頁中的複數網頁節點的至少一網頁視覺特徵及至少一網頁語法特徵而形成一網頁特徵矩陣
S303‧‧‧計算對應相同購物網站之網頁特徵矩陣與模板特徵矩陣的一相似度
S304‧‧‧將相似度大於一門檻值的網頁節點的內容儲存至一分析結果資料庫
[第1圖]為本發明第一實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統。 [第2圖]為本發明第一實施例之模板特徵矩陣之示意圖。 [第3圖]為本發明第一實施例之購物網站之網頁示意圖。 [第4圖]為本發明第一實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取方法之流程圖。 [第5圖]為本發明第二實施例之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統。 [第6圖]為本發明第二實施例之模板節點建立示意圖。 [第7圖]為本發明第三實施例之預先過濾網頁節點示意圖。 [第8圖]為本發明一實施例之新聞網站網頁之元件節點之示意圖。 [第9圖]為本發明一實施例之公部門網站網頁之元件節點之示意圖。
100‧‧‧利用網頁視覺特徵及網頁語法特徵之資訊擷取系統
110‧‧‧分析結果資料庫
120‧‧‧網站模板資料庫
130‧‧‧網頁蒐集模組
140‧‧‧分析模組
300‧‧‧目標網站

Claims (8)

  1. 一種利用網頁視覺特徵及網頁語法特徵之資訊擷取系統,包含: 一分析結果資料庫; 一網站模板資料庫,儲存分別對應於複數目標網站之複數模板特徵矩陣,其中該模板特徵矩陣包含對應於文件物件模型結構的複數模板節點的至少一模板視覺特徵及至少一模板語法特徵; 一網頁蒐集模組,連結至該些目標網站中的至少一者,而抓取該目標網站之一目標網頁中的複數網頁節點的至少一網頁視覺特徵及至少一網頁語法特徵而形成一網頁特徵矩陣;及 一分析模組,計算對應相同之該目標網站之該網頁特徵矩陣與該模板特徵矩陣的一相似度,於該相似度大於一門檻值時,將該些網頁節點的內容儲存至該分析結果資料庫。
  2. 如請求項1所述之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統,更包含一模板建立模組,係分析該複數目標網站之該目標網頁之複數元件節點,而取得該些元件節點的該至少一模板視覺特徵及該至少一模板語法特徵,並且提供一選擇介面,供一使用者選擇部分之該些元件節點為該些模板節點。
  3. 如請求項1所述之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統,其中該模板視覺特徵為一寬高資訊,該分析模組於計算該相似度前預先根據該寬高資訊過濾該些網頁節點。
  4. 如請求項1所述之利用網頁視覺特徵及網頁語法特徵之資訊擷取系統,其中該分析模組係分別計算對應相同的該目標網站之該網頁語法特徵與該模板語法特徵之間的一第一相似分數與該網頁視覺特徵與該模板視覺特徵之間的一第二相似分數,而根據該第一相似分數及該第二相似分數以權重計算出該相似度。
  5. 一種利用網頁視覺特徵及網頁語法特徵之資訊擷取方法,包含: 儲存分別對應於複數目標網站之複數模板特徵矩陣,其中該模板特徵矩陣包含對應於文件物件模型結構的複數模板節點的至少一模板視覺特徵及至少一模板語法特徵; 連結至該些目標網站中的至少一者而抓取該目標網站之一目標網頁中的複數網頁節點的至少一網頁視覺特徵及至少一網頁語法特徵而形成一網頁特徵矩陣; 計算對應相同之該目標網站之該網頁特徵矩陣與該模板特徵矩陣的一相似度;及 將該相似度大於一門檻值的該網頁節點的內容儲存至一分析結果資料庫。
  6. 如請求項5所述之利用網頁視覺特徵及網頁語法特徵之資訊擷取方法,更包含: 分析該複數目標網站之該目標網頁之複數元件節點,而取得該些元件節點的該至少一模板視覺特徵及該至少一模板語法特徵;及 提供一選擇介面,供一使用者選擇部分之該些元件節點為該些模板節點。
  7. 如請求項5所述之利用網頁視覺特徵及網頁語法特徵之資訊擷取方法,其中該模板視覺特徵為一寬高資訊,於計算該相似度之前,該資訊擷取方法更包含: 預先根據該寬高資訊過濾該些網頁節點。
  8. 如請求項5所述之利用網頁視覺特徵及網頁語法特徵之資訊擷取方法,其中該計算對應相同之該目標網站之該網頁特徵矩陣與該模板特徵矩陣的一相似度,係包含: 計算對應相同的該目標網站之該網頁語法特徵與該模板語法特徵之間的一第一相似分數; 計算對應相同的該目標網站之該網頁視覺特徵與該模板視覺特徵之間的一第二相似分數;及 根據該第一相似分數及該第二相似分數以權重計算出該相似度。
TW104123950A 2015-07-23 2015-07-23 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法 TWI570579B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW104123950A TWI570579B (zh) 2015-07-23 2015-07-23 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法
US14/860,984 US20170024472A1 (en) 2015-07-23 2015-09-22 Information retrieval method utilizing webpage visual and language features and system using thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104123950A TWI570579B (zh) 2015-07-23 2015-07-23 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法

Publications (2)

Publication Number Publication Date
TW201705021A true TW201705021A (zh) 2017-02-01
TWI570579B TWI570579B (zh) 2017-02-11

Family

ID=57837160

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104123950A TWI570579B (zh) 2015-07-23 2015-07-23 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法

Country Status (2)

Country Link
US (1) US20170024472A1 (zh)
TW (1) TWI570579B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738126B (zh) * 2019-11-25 2021-09-01 大數軟體有限公司 網頁內容篩選的方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI695277B (zh) * 2018-06-29 2020-06-01 國立臺灣師範大學 自動化網站資料蒐集方法
CN110442766A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 网页数据采集方法、装置、设备及存储介质
CN111079043B (zh) * 2019-12-05 2023-05-12 北京数立得科技有限公司 一种关键内容定位方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
TW200939730A (en) * 2008-03-14 2009-09-16 Mobile Action Technology Inc Method of browsing network information by hand-held communication device
TW201216143A (en) * 2010-10-12 2012-04-16 Inventec Corp Displaying and adjusting system for webpages and method thereof
US8527516B1 (en) * 2011-02-25 2013-09-03 Google Inc. Identifying similar digital text volumes
US8856129B2 (en) * 2011-09-20 2014-10-07 Microsoft Corporation Flexible and scalable structured web data extraction
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统
CN102662958A (zh) * 2012-03-06 2012-09-12 苏州阔地网络科技有限公司 一种页面分割显示方法
US8982145B2 (en) * 2012-08-31 2015-03-17 Google Inc. Display error indications
CN103324666A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博数据的话题跟踪方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738126B (zh) * 2019-11-25 2021-09-01 大數軟體有限公司 網頁內容篩選的方法

Also Published As

Publication number Publication date
US20170024472A1 (en) 2017-01-26
TWI570579B (zh) 2017-02-11

Similar Documents

Publication Publication Date Title
US9002895B2 (en) Systems and methods for providing modular configurable creative units for delivery via intext advertising
US9665256B2 (en) Identifying selected dynamic content regions
JP6117452B1 (ja) 行動計量学を使用してコンテンツレイアウトを最適化するためのシステムおよび方法
US9330179B2 (en) Configuring web crawler to extract web page information
JP6646931B2 (ja) 推薦情報を提供するための方法および装置
US20170052937A1 (en) Previews for Contextual Searches
US10169374B2 (en) Image searches using image frame context
US11699019B2 (en) Visual content optimization system using artificial intelligence (AI) based design generation and validation
US10049095B2 (en) In-context editing of output presentations via automatic pattern detection
US20220382826A1 (en) System and method for identifying and scoring in-page behavior
TWI570579B (zh) 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法
CN107885538B (zh) 在图片上添加热区链接的方法和装置
WO2015066891A1 (en) Systems and methods for extracting and generating images for display content
US20160292275A1 (en) System and method for extracting and searching for design
WO2017160500A1 (en) User interface element for surfacing related results
US10055486B1 (en) System and method for real world event summarization with microblog data
KR20160091756A (ko) 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치
JP2023162251A (ja) 製品ソースリンクを使用したメディア注釈
US11710138B2 (en) Client-side dynamic page feed management
US20140337350A1 (en) Matrix viewing
KR20170127320A (ko) 웹 페이지 생성 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
US11907310B2 (en) Data correlation system and method
US20240054174A1 (en) Methods and systems for obtaining and storing web pages
JP2017134854A (ja) 行動計量学を使用してコンテンツレイアウトを最適化するためのシステムおよび方法
JP5670377B2 (ja) Web閲覧履歴取得装置及びプログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees