TW202001620A - 自動化網站資料蒐集方法 - Google Patents

自動化網站資料蒐集方法 Download PDF

Info

Publication number
TW202001620A
TW202001620A TW107122505A TW107122505A TW202001620A TW 202001620 A TW202001620 A TW 202001620A TW 107122505 A TW107122505 A TW 107122505A TW 107122505 A TW107122505 A TW 107122505A TW 202001620 A TW202001620 A TW 202001620A
Authority
TW
Taiwan
Prior art keywords
website
data set
seed
vocabulary
text
Prior art date
Application number
TW107122505A
Other languages
English (en)
Other versions
TWI695277B (zh
Inventor
張國恩
李郁錦
胡宗智
Original Assignee
國立臺灣師範大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺灣師範大學 filed Critical 國立臺灣師範大學
Priority to TW107122505A priority Critical patent/TWI695277B/zh
Priority to US16/356,808 priority patent/US20200004792A1/en
Publication of TW202001620A publication Critical patent/TW202001620A/zh
Application granted granted Critical
Publication of TWI695277B publication Critical patent/TWI695277B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本發明係一種自動化網站資料蒐集方法,係利用混合式網路爬蟲策略獲得網站之一網頁的網頁標籤的概率分布獲取網站的重要特徵,進而擷取網站上重要特徵的文字內容,並以複合語意計算模型集結成種子詞彙資料集。並進一步由種子詞彙資料集產生具有高頻率以及高代表性的階層架構的主題式詞彙資料集,且能進一步利用視覺化系統呈現階層架構的主題式詞彙資料集。

Description

自動化網站資料蒐集方法
本發明有關於一種資料蒐集方法,尤指一種針對網站文字內容的資料蒐集方法。
網路爆炸式發展的大數據時代來臨後,日積月累不斷增加的網路資訊,使得網路資訊具有意想不到的潛在意義,因此,有人開始進行網路資料探勘(或稱文字探勘),試圖在網路資訊中找出一些有益產業的潛在意義。
但是,如何在大量的網路資訊,尤其是如何從網站的文字內容中,找出有價值的潛在意義或規則,並且有效的被利用。以目前主要的方式而言,大都是以網路爬蟲的方式,爬取網站中的文字內容,再利用各式的語意分析模型,試圖找出潛在意義或規則,並依找出來的潛在意義或規則應用在商業上。
例如在網路廣告的應用上,係根據網頁的文字內容找出潛在意義或規則,進而投放出符合此潛在意義或規則的網路廣告,如此,當網頁瀏覽者在觀看網頁時,網站即會投放關聯網頁內容的網路廣告在網頁上,以提高網路廣告投放的有效性。為達成前述的目的,有許多人分別開發出不同的技術,並申請了專利,例如:台灣新型專利號TWM546531,此創作係透過建構多構面的文字資料集合以具體分析網路文字中的特定文字 在跟文句中所代表意思的分值,透過特徵文字與加權文字的分類系統,區隔不同文字係屬於目標表示或是觀感態度表示。
另外,因臉書(Facebook)及微博等社群網站的流行與普及,讓人們可以方便的跨時間地域地分享所知、所聽、所見的各種事情。但由於社群網站的訊息量太多、太雜,所以網站內容的文字探勘的取樣及分析都十分重要。基於前述的問題,亦有人提出相關的解決方案,例如中國發明專利號CN105975478A,其係一種基於詞向量分析的網路文章所屬事件的檢測方法和裝置,包括建立典型訓練集對典型訓練集中的每一條網路文章樣本進行分詞,去無用詞預處理,得到規範化的網路文章樣本文本;將每一條規範化的網路文章樣本文本分別用文字轉換向量(word to vector,縮寫:word2vec)演算法和線性判斷分析(Linear Discriminant Analysis,縮寫:LDA)算法提取特徵,得到每一條網路文章樣本文本對應的多維詞向量;將每一條網路文章樣本文本對應的多維詞向量和事件標籤輸入到隨機森林算法,該隨機森林算法輸出事件的分類模型,利用所述事件的分類模型對待識別的網路文章文本進行辨識,判斷出所述待辨識的網路文章所屬的事件。
上述的資料探勘中的網路爬蟲技術,其爬取網站的網頁中的文字內容的策略,大致可以分成深度優先策略和廣度優先策略二種。深度優先策略是優先對當前爬取網頁所鄰近的下一層網頁,直至網頁的最後一層,則返回網站最初頁面,並對位於同一層中的其他網址進行同一流程,直到整個網站擷取完成才結束。廣度優先策略,則是優先訪問網站中的同一層網頁,直到同一層面載入完畢後,方會跳至下一個層級的網頁中,直到整個網站擷取完成。但無論是哪一種網路爬取策略,其最大的缺點是採 擷完成後,資料過多,而且雜亂無章,不利於數值計算或是資料探勘等工作。
另外,中國發明專利號CN105975478A是對一條網路文章樣本文本分別進行word2vec特徵提取和LDA特徵提取之後,將word2vec特徵和LDA特徵進行融合。但是其先提取word2vec特徵再將LDA特徵進行融合的方式,將無法提供使用者利用分析出來的文字,進行主題式的關聯架構呈現。
綜上所述,有關於網路爬蟲所爬取後的文字資料集合或網路文章樣本,實有必要改善資料過多且雜亂無章之問題,另外,更有需要將文字資料集合或網路文章樣本所擷取出來的文字,提升字詞之間的關聯性及精準度,進一步了解網站中所隱含的潛在意義的問題。
有鑑於先前技術所述的問題,本發明之目的,係利用混合式網路爬蟲從網站自動化及結構化地萃取文字內容,再經由複合語意計算模型產生具有高頻率以及高代表性的階層架構的主題式詞彙資料集,提升網站探勘的精準度與參考價值。
根據本發明之目的,係提供一種自動化網站資料蒐集方法,應用在一電子裝置,包括指定網站的其中一個頁面作為分析網頁,並分析取得分析網頁所有的指定特徵,選出其中若干各指定特徵所關聯的網路位址作為網頁爬取種子節點,在網站內爬取各網頁爬取種子節點所關聯至少一階層的網路位址,並從中挑選出關聯網路位址集合,在網站取得與關連網路位址集合中選出爬取目標網址,取出網站中關聯爬取目標網址的所有 網頁標籤及其所對應的文字內容,並將網頁標籤及其所對應的文字內容,按照網頁階層關係產生文字資料集。
其中,從文字資料集包括選出複數個種子詞彙,並根據各種子詞彙的網頁階層關係彙整種子詞彙資料集中各個詞彙的相互關聯度產生種子詞彙資料集。
其中,至少一個網頁係為網站的初始頁面(亦可稱為網站首頁),指定特徵係可為網頁標籤,網頁標籤(tag)所指的是網頁編輯語言的語法中用來控制網頁元件(element)的指令,以描述各類資料在網頁上呈現的方式者,但本發明並不限於此,亦可為網頁編輯語言的語法中某一標籤的一項屬性(attribute),或者是某一屬性的一個值(value)。另外,網路位址則為統一資源定位符(Uniform Resource Locator,縮寫:URL)。
其中,電子裝置在完成種子詞彙資料集後,係接受輸入任一個種子詞彙作為輸入詞,並根據此輸入詞為主題,而依據輸入詞與其他種子詞彙間的文字向量關聯性產生階層架構的主題式詞彙資料集。
其中,電子裝置係將主題式詞彙資料集利用視覺化系統呈現階層架構的主題式詞彙資料集。
綜上所述,本發明具有下列之一或多個優點:
1.優異的網站文字探勘:本發明獲取文字資料集的過程,或可稱為混合式的網路爬蟲,其利用預先設定的各式條件指定特徵、網頁爬取種子節點、關聯網路位址集合、爬取目標網址等條件產生文字資料集,改善傳統網路爬蟲之深度優先策略或廣度優先策略之問題。
2.根據需求調整網站要被萃取的網頁或者指定特徵,即可擷取所需要 的文字內容,進而產生相應的種子詞彙資料集。
3.網站內容從爬取種子一步步地產生種子詞彙資料集,係屬一種聚類演算方式,其結果係可改善傳統探勘方式不易發現網站內容所隱含的潛在意義的問題。
4.主題式詞彙資料集,經過系統的聚類演算,在聚類主題中的每個詞彙,都是該主題分類中具有高度代表性及高頻之詞彙。因此將其應用在不同的產業領域中,將會有不同的效果,例如可應用在網路廣告投放上,則可達到精準投放的目的。而在教學應用上,透過聚類後的主題式詞彙資料集,能幫助學習者更有效的進行主題式詞彙學習。
S101~S106、S201~S205‧‧‧步驟
圖1係本發明之一實施例之混合式網路爬蟲爬取網站產生文字資料集的流程圖。
圖2係本發明之一實施例產生主題式詞彙資料集之流程圖。
圖3係本發明之一實施例之主題式關聯詞彙資料集之示意圖。
圖4係本發明之一實施例之主題式關聯詞彙資料集的階層式詞彙圖之示意圖。
為利 貴審查員瞭解本發明之發明特徵、內容與優點及其所能達成之功效,茲將本發明配合附圖,並以實施例之表達形式詳細說明如下,而於文中所使用之圖式,其主旨僅為示意及輔助說明書之用,故不應 侷限本發明於實際實施上的專利範圍。
請參閱圖1所示,本發明係一種自動化網站資料蒐集方法,將使用者在電子裝置(例如:個人電腦、平板電腦或伺服機…等具有資訊運算能力的電子產品)輸入的目標網站的網址後,透過多個不同爬取策略的網路爬蟲所組成的混合式網路爬蟲爬取網站內容,獲取網站的重要特徵,進而擷取網站內與重要特徵相關聯的文字內容,其步驟如下:(S101)指定網站之其中一個網頁作為分析網頁,並取得分析網頁的指定特徵,其中分析網頁係為網站的初始頁面(亦可稱為網站首頁),指定特徵係可為網頁標籤,網頁標籤(tag)所指的是網頁編輯語言的語法中用來控制網頁元件(element)的指令,以描述各類資料在網頁上呈現的方式者,例如:以html 5的網頁編輯語言的語法而言,網頁標籤係如<head>、<head/>、<title>、<title/>、</meta name…/>、<meta charset=…>…等,其中前述網頁標籤中的刪節號(…)係表示刪節後續相關的屬性或值等內容,並非指標籤中包括刪節號,此外,本發明的網頁標籤亦可為網頁編輯語言的語法中某一標籤的一項屬性(attribute),或者是某一屬性的一個值(value),但本發明實際實施時並不限於此。另外至少一個網頁係為網站的初始頁面(亦可稱為網站首頁)。舉例而言,在某個網站的首頁中可能被萃取出50個不同的網頁標籤,並記錄各網頁標籤所出現的次數及關連的網路位址,且計算各網頁標籤在被萃取的網頁中的分布概率,而指定特徵則是各網頁標籤分布概率;(S102)選出複數個被萃取得到的指定特徵作為網頁爬取種子節點,其中網頁爬取種子節點係為前若干名的網頁標籤分布概率之網頁標籤的所關 聯的網路位址(或稱統一資源定位符(Uniform Resource Locator,縮寫:URL)鏈結);(S103)在網站內爬取各網頁爬取種子節點關聯的至少一階層網頁的網路位址,並從中挑選出若干個網路位址作為關聯網路位址集合,其中挑選出關聯網路位址集合方式為將網頁爬取種子節點所關聯至少一階層的網路位址中重複最多次及具有最常相似的網路位址者,如此,關聯網路位址集合即代表最能符合網站特徵的網頁集合;(S104)在網站取得與關連網路位址集合中選出爬取目標網址,進一步而言係在讀取網站內容,以根據關連網路位址集合選出網站中相關於關連網路位址的所有網址作為爬取目標網址;(S105)取出網站中關聯爬取目標網址的網頁內容中所有網頁標籤及其所對應的文字內容;(S106)並將網頁標籤及其所對應的文字內容,按照爬取目標網址的階層關係產生文字資料集,文字資料集即是此網站中的與重要特徵相關的文字集合。
在本發明中,步驟(S101)~(S104)可以被稱為一種條件式深度網路爬蟲,其先後取得指定特徵的分布概率、網頁爬取種子節點及關聯網路位址集合後,取得網站特定深度(階層)中關聯重要特徵(如:前述的指定特徵)的爬取目標網址。而步驟(S105)~(S106)則可稱為指定廣度網路爬蟲,其只在所有的爬取目標網址中爬取網站,獲取文字資料集,因此稱之為混合式網路爬蟲,改善傳統的網路爬取策略的問題。
為了進一步了解本發明,以下係以本發明之一實施例,說明 如下,上述步驟(S101)係以下列方程式計算獲得各網頁標籤分布概率:W={E1,E2...,En}…(1);W為初始頁面中的網頁標籤集合,E1~En為初始頁面中的網頁標籤,例如:<head>、<head/>、<title>、<title/>、</meta name…/>、<meta charset=…>;E1={{e1-1,l1-1},{e1-2,l1-2},...{e1-n,l1-n}};E2={{e2-1,l2-1},{e2-2,l2-2},...{e2-n,l2-n}};…En={{en-1,ln-1},{en-2,ln-2},...{en-n,ln-n}}…(2);其中e1-1~en-n是指各網頁標籤中的次級標籤,次級標籤是指嵌套在主要標籤中的標籤,例如:將某個網站的首頁之原始檔案排除掉爪哇語言的標籤及其描述,依序將原始檔案中的所有網頁標籤予以排序,排序的結果如下所示:span-->img-->link-->a-->span-->select-->option-->option-->option-->option-->option-->option-->option-->option-->h4-->a-->section-->div-->aside-->article-->header-->p-->div-->header-->div-->section-->footer-->ins-->aside-->section-->div-->div-->section-->section-->ins-->section-->section-->div-->section-->i-->header-->div-->div-->div-->以其中第3~5行而言,各行的首個標籤即是主要標籤(各行主要標籤依 序<a>、<select>及<h4>),而次級標籤則是各行的主要標籤之後的各個標籤,而各個網頁標籤都有可能是主要標籤及次要標籤,其端看在網頁的原始碼中的編寫的階層關係而定l1-1~ln-n是URL鏈結。
另外,原始碼在次級標籤之間將會有與各個次及標籤有關的URL鏈結,如下所示:div previousEle/comment/1615458 content:神巨!夭壽大霸氣海鮮蒸籠div previousEle/home/ipeen100408 content:沙拉公主:div previousEle/comment/1621107 content:飯桶們衝阿小心會爆蛋div previousEle/home/candytastylife content:糖糖
Figure 107122505-A0101-12-0009-14
:div previousEle /comment/1623129 content:大讚!人氣雙拼起司咖哩div previousEle/home/ipeen10100 content:啾兔:div previousEle/comment/1625136 content:現實中出現森林莊園秘境div previousEle/home/ipeen1508712 content:Ruby愛旅遊:div previousEle/comment/1624437 content:美到逆天!台中最美後花園div previousEle/home/ipeen1508712 content:Ruby愛旅遊:div previousEle/comment/1615647 content:扭!巨型復古電話扭蛋機div previousEle/home/ipeen1522510 content:Miku
Figure 107122505-A0101-12-0009-15
:div previousEle/comment/1610880 content:三月限定!戀戀魯冰花div previousEle/comment/1606812 content:最美櫻花河!超浪漫夜櫻div previousEle/comment/1621338 content:一個人也可以野餐div previousEle/comment/1625358 content:最新打卡三眼怪夾娃娃機div previousEle/home/ipeen365625 content:饅頭弟:div previousEle/comment/1604712 content:超壯觀!黃金瀑布炮仗花海div previousEle/home/jasonlife content:~Jason~:div previousEle/comment/1608273 content:市區就能看到滿滿櫻花div previousEle/home/ipeen1896809 content:Saint‧聖‧吃遊:為了獲取最常相似URL鏈結,根據下列計算公式,計算次級標籤中超鏈結的比重,以找出重要的的最小URL連結:
Figure 107122505-A0101-12-0009-1
其中Count(Ei)是各網路標籤在各次級標籤具有相應連結網路位址的數量,當ei存在相應的網路位址(URL鏈結)時,L設為1,反之則為0,且i是1~n的正整數。
Figure 107122505-A0101-12-0009-2
其中
Figure 107122505-A0101-12-0010-16
(count(Ei))是所有網路標籤的各次級標籤具有相應連結網路位址的總數量,故P(Ei)則為初始頁面中的各網頁標籤分布概率,亦即是步驟(S101)的指定特徵。
在本實施例中,電子裝置取得各網頁標籤分布概率後,係將前三高網頁標籤分布概率之網頁標籤的所關聯的網路位址,作為網頁爬取種子節點,假設在愛評網中與食物有關的(http://www.ipeen.com.tw/taiwan/channel/F)網路種子節點為:
1. http://www.ipeen.com.tw/search/taipei/000/1-0-27-27/
2. http://www.ipeen.com.tw/search/taipei/100/1-0-27-27/
3. http://www.ipeen.com.tw/search/taipei/d20/1-0-27-27/
上述的三個網路位置,即為前述步驟(S102)所稱的網路種子節點。
接著,電子裝置根據此些網頁爬取種子節點爬取網站內容中,關聯網頁爬取種子節點的三個階層的網路位址,產生一個基於不同網頁爬取種子節點中的相似網路位址(URL)的關聯網路位址集合,由於關聯網路位址集合係根據最高數量的網路特徵所找出的網頁爬取種子節點所產生出來的結果,因此,關聯網路位址集合最能代表網站特徵的網路位址集合,此部分即為前述的步驟(S103)。假設在愛評網的網站找出的關聯網路位址集合為:
Figure 107122505-A0101-12-0010-3
由於上述的步驟已經找出網站中最具有代表性的關聯網路 位址集合為http://www.ipeen.com.tw/search/taipei/,因此,在步驟(S104)中電子裝置只要根據關聯網路位址集合,進一步於網站中爬取於上述網站中其他具有相關聯的網址,在一次利用公式3以及公式4計算,求取重複最多次的頁面,即可獲得目標網指集合。假設在愛評網站中爬取目標網址如下所示:
Figure 107122505-A0101-12-0011-4
從上述的內容可知,電子裝置已經取得所有需要的爬取目標網址,因此電子裝置及可讀取網站中的各爬取目標網址,進而取得如下具有網頁標籤及網頁標籤所對應的文字內容,例如下列所示:
Figure 107122505-A0101-12-0011-5
在該實施例中,上述的網頁標籤及文字內容下可進一步彙整成如下所示的文字資料集:
Figure 107122505-A0101-12-0012-6
在本發明中,請參閱圖2所示,當電子裝置完成文字資料集後,為了能夠找出文字資料集之中潛在意義或規則,係以下列步驟進行處理:(S201)從文字資料集選出複數個種子詞彙;(S202)根據各種子詞彙所屬的爬取目標網址的階層關係及各該種子詞彙彼此間的關聯度彙整出種子詞彙資料集;(S203)接受輸入任一個種子詞彙作為輸入詞;(S204)讀取輸入詞與其他種子詞彙間的關聯度;(S205)以輸入詞為根節點,並依照輸入詞與其他種子詞彙間的關聯度產生階 層架構的主題式詞彙資料集。
據上所述,當電子裝置完成文字資料集後,只要使用者操作電子裝置輸入任一個輸入詞,電子裝置即可產生階層架構的主題式詞彙資料集。
在該實施例中,當完成文字資料集後,係對文字內容進行結構化解析及自然語言處理分出多個獨立詞彙,例如:中文斷詞系統或英文斷詞系統,以中文斷詞系統而言,則包括中央研究院所開發的中文詞彙特性速描系統、漢語分詞系統(HanLP(Han Language Processing))、Ansj中文分詞器或結巴(jieba)分詞系統,再使用線性判斷分析(Linear Discriminant Analysis,縮寫:LDA)模型,將所有獨立詞彙經由概率計算,找出文字資料集中具有代表性的獨立詞彙作為種子詞彙。例如:從文字資料集以LDA模型產生20組每組五個的代表性詞彙,再根據被選出的100個詞彙產生種子詞彙資料集,並儲存在電子裝置所設的資料儲存媒體中(如:硬碟或網路資料伺服機)。
其中,文字資料集挑選出的種子詞彙,係可如下所示:
Figure 107122505-A0101-12-0013-7
其中,種子詞彙資料集係可為如下所示:
Figure 107122505-A0101-12-0013-8
Figure 107122505-A0101-12-0014-9
在上表中,各個種子詞彙已經按照階層關係產生種子詞彙資料集。
再者,前述的內容中的各個表格,係為了表達何謂網頁標籤及網頁標籤所對應的文字內容、文字資料集或種子詞彙等技術特徵,但本發明在實際實施時,並不以此些表格是的方式為唯一的呈現方式,或必須以任何方式呈現出來給使用者觀看。
在該實施例中,當電子裝置完成種子詞彙資料集時,電子裝置可以接受使用者輸入種子詞彙資料集中的任一個詞彙作為輸入詞,並根據被輸入的輸入詞使用文字轉換向量(word to vector,縮寫:word2vec)演算法,計算出輸入詞與其他種子詞彙間的關聯性,並以此輸出主題式關聯詞彙資料集。再請參閱圖3所示,主題式關聯詞彙資料集包括一標題欄以及一分欄,標題欄為關鍵詞,每一分欄包括多個詞彙,詞彙之間以特殊字符分隔開來,其中特殊字符係可以為標點符號中的頓號、分號或文書處理軟體的換行鍵。
在該實施例中,當完成主題式關聯詞彙資料集後,電子裝置係可進一步利用開源視覺化處理函式庫,針對主題式關聯詞彙集合輸出一份階層式詞彙圖(如圖4所示)。
據上所述,本發明可以快速完成網站特徵分析,利用混合式網路爬蟲取代傳統的網路爬蟲策略,以快速獲得網站網站上重要特徵,並從指定階層的網址中的擷取文字,並集結成文字資料集。改善了在先前技術所提及傳統網路爬蟲策略之問題。
再者,本發明中針對語意相關度計算模型,係採用複合的語意計算模型,以前述的實施例而言,係以概率模型(LDA模型)混合類神經網路模型(word2vec模型),以取代傳統基於詞頻計算的關鍵詞方法,以更嚴謹的數學模型來取得網站上,具有高頻率以及高代表性的關鍵詞彙。
又,本發明的階層式詞彙圖,係採用網站中文字在網頁中的階層以及語意關聯模型產生的主題式詞彙資料集,讓使用者更直接的了解網站的主題和詞彙呈現。
再者,本案的主題及詞彙間的關聯係以網站內容的所逐步篩選出來的,因此,相當的適合應用在教學應用上輔助語言學習或者網路廣告的投放,達到精準學習或準確投放廣告的目的。
最後需要陳明的是,網路爬蟲技術及語意關聯模型此兩項技術,雖已廣泛地所知的技術,但在現有的網站的文字資料探勘領域中,至少從未有利用混合式網路爬蟲爬取網站特徵後,再進一步利用複合語意模型產生主題式關聯詞彙集合。退萬步言,目前並未針對兩項技術同時具有本發明類似的優化之效果。換言之,本發明混合式網路爬蟲策略,用於快速探勘網頁架構,並將此架構所蒐集到的網頁資料,轉化成具有重要特徵的文字資料集。再使用複合語意模型產生主題式詞彙資料集,而且可以轉換出。
綜上所述,本發明具有新穎性,且為申請前所未曽有類似者公開或申請在先之前案,且已具有先前技術所無法預期或所未具有之功效,實質增進之產業利用性的價值,爰依法提出專利申請;此外,本說明書僅為較佳實施例之敘述,並非以此作為專利範圍的界定,舉凡在本發明 之原理、技術下各構成元件所作之修飾、衍變均應函蓋在本發明之專利範圍內。
S101~S108‧‧‧步驟

Claims (7)

  1. 一種自動化網站資料蒐集方法,係利用一電子裝置使用一混合式網路爬蟲爬取一網站,產生一文字資料集,包括下列步驟:指定該網站的其中一個網頁作為分析網頁,並取得該分析網頁所有的指定特徵;選出其中若干個該些指定特徵所關聯的網路位址作為一網頁爬取種子節點;在該網站內爬取各該網頁爬取種子節點所關聯至少一階層的網路位址,並從中挑選出若干個網路位址作為一關聯網路位址集合;在該網站取得與該關連網路位址集合中選出一爬取目標網址;取出該網站中關聯該爬取目標網址的所有的網頁標籤及其所對應的文字內容;以及並將該網頁標籤及該網頁標籤所對應的文字內容,按照各該爬取目標網址的階層關係產生該文字資料集。
  2. 如申請專利範圍第1項之自動化網站資料蒐集方法,其中該分析網頁係為該網站的初始頁面。
  3. 如申請專利範圍第1項之自動化網站資料蒐集方法,其中該指定特徵係為係為該分析網頁中的各個網頁標籤在該分析網頁中的分布概率。
  4. 如申請專利範圍第1項之自動化網站資料蒐集方法,其中該網頁爬取種子節點係為該分布概率前三高者的所關聯的網路位址。
  5. 如申請專利範圍第1項之自動化網站資料蒐集方法,其中當完成該文字資料集後,係利用一複合語意計算模型產生一主題式詞彙資料集,其步驟 如下:從該文字資料集選出複數個種子詞彙;根據各該種子詞彙的所屬的該爬取目標網址的階層關係及各該種子詞彙彼此間的關聯度彙整出一種子詞彙資料集;接受輸入任一個該種子詞彙作為一輸入詞;讀取該輸入詞與其他該種子詞彙間的關聯度;以及以輸入詞為根節點,並依照該輸入詞與其他該種子詞彙間的關聯度產生階層架構的一主題式詞彙資料集。
  6. 如申請專利範圍第5項之自動化網站資料蒐集方法,其中,其中當完成該文字資料集後,係對文字內容進行結構化解析及自然語言處理分出多個獨立詞彙再使用線性判斷分析模型,將所有獨立詞彙經由概率計算,挑選出該文字資料集中具有代表性的獨立詞彙作為各該種子詞彙。
  7. 如申請專利範圍第6項之自動化網站資料蒐集方法,其中當電子裝置接受使用者輸入該種子詞彙資料集之中的任一個種子詞彙作為該輸入詞時,係根據該輸入詞利用文字轉換向量演算法,計算出輸入詞與其他種子詞彙間的關聯性。
TW107122505A 2018-06-29 2018-06-29 自動化網站資料蒐集方法 TWI695277B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW107122505A TWI695277B (zh) 2018-06-29 2018-06-29 自動化網站資料蒐集方法
US16/356,808 US20200004792A1 (en) 2018-06-29 2019-03-18 Automated website data collection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107122505A TWI695277B (zh) 2018-06-29 2018-06-29 自動化網站資料蒐集方法

Publications (2)

Publication Number Publication Date
TW202001620A true TW202001620A (zh) 2020-01-01
TWI695277B TWI695277B (zh) 2020-06-01

Family

ID=69054659

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107122505A TWI695277B (zh) 2018-06-29 2018-06-29 自動化網站資料蒐集方法

Country Status (2)

Country Link
US (1) US20200004792A1 (zh)
TW (1) TWI695277B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI777163B (zh) * 2020-04-10 2022-09-11 鴻海精密工業股份有限公司 表單數據檢測方法、電腦裝置及儲存介質
TWI827984B (zh) * 2021-10-05 2024-01-01 台灣大哥大股份有限公司 網站分類系統及方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080358B2 (en) 2019-05-03 2021-08-03 Microsoft Technology Licensing, Llc Collaboration and sharing of curated web data from an integrated browser experience
WO2021154238A1 (en) * 2020-01-29 2021-08-05 Google Llc A transferrable neural architecture for structured data extraction from web documents
CN111831874B (zh) * 2020-07-16 2022-08-19 深圳赛安特技术服务有限公司 网页数据信息获取方法、装置、计算机设备及存储介质
CN112434250B (zh) * 2020-12-15 2022-07-12 安徽三实信息技术服务有限公司 一种基于在线网站的cms识别特征规则提取方法
CN113407805A (zh) * 2021-07-16 2021-09-17 山东北斗科技信息咨询有限公司 一种基于大数据的政策采集、清洗及自动精准推送的方法
CN116881595B (zh) * 2023-09-06 2023-12-15 江西顶易科技发展有限公司 一种可自定义的网页数据爬取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI570579B (zh) * 2015-07-23 2017-02-11 葆光資訊有限公司 利用網頁視覺特徵及網頁語法特徵之資訊擷取系統與方法
US20190065589A1 (en) * 2016-03-25 2019-02-28 Quad Analytix Llc Systems and methods for multi-modal automated categorization
CN106202413B (zh) * 2016-07-11 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
TWM546531U (zh) * 2017-05-10 2017-08-01 曹修源 文字探勘衡量系統

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI777163B (zh) * 2020-04-10 2022-09-11 鴻海精密工業股份有限公司 表單數據檢測方法、電腦裝置及儲存介質
TWI827984B (zh) * 2021-10-05 2024-01-01 台灣大哥大股份有限公司 網站分類系統及方法

Also Published As

Publication number Publication date
TWI695277B (zh) 2020-06-01
US20200004792A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
TWI695277B (zh) 自動化網站資料蒐集方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
JP6416150B2 (ja) 検索方法、検索システム及びコンピュータプログラム
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103049435B (zh) 文本细粒度情感分析方法及装置
Abainia et al. A novel robust Arabic light stemmer
CN103064956B (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
US9594730B2 (en) Annotating HTML segments with functional labels
US9798820B1 (en) Classification of keywords
CN103455487B (zh) 一种搜索词的提取方法及装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN103874994A (zh) 用于自动概括电子文档的内容的方法和装置
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN102567392A (zh) 一种基于时间窗口兴趣主题挖掘的控制方法
Zhao et al. ST-LDA: high quality similar words augmented LDA for service clustering
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
Kaur et al. Semantic-based integrated plagiarism detection approach for english documents
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Cao et al. Extraction of informative blocks from web pages
Xu et al. Generating risk maps for evolution analysis of societal risk events
Pu et al. A vision-based approach for deep web form extraction
Fung et al. Discover information and knowledge from websites using an integrated summarization and visualization framework