TWI827984B - 網站分類系統及方法 - Google Patents
網站分類系統及方法 Download PDFInfo
- Publication number
- TWI827984B TWI827984B TW110137071A TW110137071A TWI827984B TW I827984 B TWI827984 B TW I827984B TW 110137071 A TW110137071 A TW 110137071A TW 110137071 A TW110137071 A TW 110137071A TW I827984 B TWI827984 B TW I827984B
- Authority
- TW
- Taiwan
- Prior art keywords
- content
- web page
- feature
- webpage
- language
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 25
- 239000000203 mixture Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 239000000470 constituent Substances 0.000 claims description 4
- 230000009193 crawling Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
- Beans For Foods Or Fodder (AREA)
Abstract
本發明揭露一種網站分類系統,包含:一網頁資料取得單元,配置成接收一網頁的一構成資料並識別該構成資料中的多個網頁內容,該多個網頁內容包含該網頁的一描述內容、該網頁的一主文內容及該網頁所屬原始語言;及一網頁內容處理單元,配置成至少基於該描述內容、該主文內容及該網頁所屬原始語言而決定出該網頁內容關聯至少一內容分類指標的機率。
Description
本發明關於一種網站分類系統及方法,尤其是關於一種基於網頁內容中多個特徵之網站分類系統及方法。
在電信用戶行動網路的行為分析上,用戶所瀏覽的網站類型和其近期興趣偏好息息相關,而用戶的興趣偏好又是後續行銷與推薦的核心資訊。因此將瀏覽網站的記錄資料轉化為偏好類別的流程中,用戶所瀏覽的網頁內容識別便是其中一個相當重要的步驟。以往在網頁內容識別上,都是採用大量人工的方式,逐一透過瀏覽器進入網站後,根據作業人員本身的業務知識,將網站進行分類工作。此一作業非常耗時耗力,且不具即時性,無法應付用戶每天不斷變化的瀏覽行為。對於需要搶得先機的行銷業務而言,即難以應用用戶瀏覽網站行為這一大資料寶庫。
為了解決用人力識別網站內容缺乏即時性的問題,使用爬網結合智慧辨識技術來取代這個步驟是相當可行的。這可以將整個網站瀏覽行為分析的流程有效地完成,進而最小化人工的介入處理。大幅提升即時性,並可以處理人力難以完成的網站數量。
本發明目的在於提供一種網站分類系統,包含:一網頁資料取得單元,配置成接收一網頁的一構成資料並識別該構成資料中的多個網頁內容,該多個網頁內容包含該網頁的一描述內容、該網頁的一主文內容及該網頁所屬原始語言;及一網頁內容處理單元,配置成至少基於該描述內容、該主文內容及該網頁所屬原始語言而決定出該網頁內容關聯至少一內容分類指標的機率。
在一具體實施例中,該網頁資料取得單元包含:一爬蟲模組,配置成取得一特定身分使用者所瀏覽的一或多個網頁及其構成資料,以建立關聯於該特定身分使用者的一網頁瀏覽記錄。
在一具體實施例中,該特定身分使用者為特定電信的用戶。
在一具體實施例中,該網頁資料取得單元包含:一文字萃取模組,配置成根據該網頁的HTML構成資料識別出該網頁內容的描述內容及主文內容,作為該網頁內容的一第一特徵及一第二特徵。
在一具體實施例中,該網頁資料取得單元包含:一原始語言偵測模組,配置成根據該網頁內容的描述內容和主文內容識別出一語言代碼,該語言代碼作為該網頁內容的一第三特徵,用於指示該網頁所屬原始語言。
在一具體實施例中,該網頁資料取得單元包含:一翻譯模組,配置成將多個網頁的網頁內容的主文內容翻譯成相同語言,其中該多個網頁所屬原始語言並不相同。
在一具體實施例中,該網頁內容處理單元包含:一資料預處理與編碼模組,配置成接收和處理該網頁內容包含的第一特徵、第二特徵及第三特徵,以適用於自然語言處理。
在一具體實施例中,該至少一內容分類指標包含多個次內容分類指標,且各次內容分類指標各關聯一機率。
本發明另一目的在於提供一種網站分類方法,包含:由一網頁資料取得單元,接收一網頁的一構成資料;由該網頁資料取得單元,識別該構成資料中的多個網頁內容,包含該網頁的一描述內容、該網頁的一主文內容及該網頁所屬原始語言;及由一網頁內容處理單元,至少基於該描述內容、該主文內容及該網頁所屬原始語言,決定出該網頁內容關聯至少一內容分類指標的機率。
在一具體實施例中,由該網頁資料取得單元,判斷該網頁的構成資料是否包含HTML構成。
在一具體實施例中,該方法還包含:由該網頁資料取得單元,從該網頁的HTML構成中萃取出該網頁的描述內容和主文內容,作為該網頁內容的一第一特徵和一第二特徵。
在一具體實施例中,該方法還包含:由該網頁資料取得單元,根據該網頁所屬原始語言和一目標語言決定是否將該網頁內容的主文內容進行翻譯。
在一具體實施例中,該方法還包含:由該網頁資料取得單元,根據該網頁內容的描述內容和主文內容識別出一語言代碼,該語言代碼作為該網頁內容的一第三特徵,用於指示該網頁所屬原始語言。
在一具體實施例中,該方法還包含:由該網頁內容處理單元,將該第一特徵、該第二特徵及該第三特徵作為一自然語言處理之輸入。
在一具體實施例中,其中該至少一內容分類指標包含多個次內容分類指標,且各次內容分類指標各關聯一機率。
本發明尚一目的在於提供一種網站分類方法,包含:提供一特定身分使用者所瀏覽的多個網頁的網頁內容至一內容分類器,並令各網頁內容所包含的一描述內容、一主文內容及該網頁所屬原始語言作為該內容分類器的輸入;由該內容分類器,至少基於各網頁的描述內容、主文內容及該網頁所屬原始語言,決定各網頁內容關聯至少一內容分類指標的機率;及至少基於該至少一內容分類指標的機率,關聯出一廣告內容。
1:網站分類系統
11:網頁資料取得單元
111:爬蟲模組
112:文字萃取模組
113:原始語言偵測模組
114:翻譯模組
12:網頁內容處理單元
121:資料預處理與編碼模組
122:模型訓練模組
123:分類器預測模組
13:瀏覽記錄收集模組
14:使用者終端裝置
15:資料庫
16:人工網站分類資料庫
S40至S45:步驟
61:第一輸入
62:第二輸入
63:預訓練模型
64:連接層
65:全連結層
66:輸出
S80至S84:步驟
S90至S94:步驟
參照下列圖式與說明,可更進一步理解本發明。非限制性與非窮舉性實例系參照下列圖式而描述。在圖式中的構件並非必須為實際尺寸;重點在於說明結構及原理。
第一圖顯示本發明網站分類系統的組成實施例。
第二圖例示網站分類至不同的內容分類指標。
第三圖例示本發明網站分類系統接收輸入後的處理及輸出。
第四圖為本發明網站分類系統執行的步驟流程圖。
第五圖例示將多個網站的文字內容翻譯成中文。
第六圖示意本發明內容分類器模型的架構。
第七A圖例示用於訓練本發明內容分類器的輸入。
第七B圖例示本發明內容分類器的輸入及輸出。
第八圖為本發明內容分類器的訓練步驟流程圖。
第九圖為本發明網站分類方法的步驟流程圖。
底下將參考圖式更完整說明本發明,並且藉由例示顯示特定範例具體實施例。不過,本主張主題可具體實施於許多不同形式,因此所涵蓋或申請主張主題的建構並不受限於本說明書所揭示的任何範例具體實施例;範例具體實施例僅為例示。同樣,本發明在於提供合理寬闊的範疇給所申請或涵蓋之主張主題。
本說明書內使用的詞彙「在一實施例」並不必要參照相同具體實施例,且本說明書內使用的「在其他(一些/某些)實施例」並不必要參照不同的具體實施例。其目的在於例如主張的主題包括全部或部分範例具體實施例的組合。
第一圖為本發明網站分類系統(1)的實施例,主要包含一網頁資料取得單元(11)和一網頁內容處理單元(12)。網頁資料取得單元(11)與一瀏覽記錄收集模組(13)通訊連接,以收集一使用者終端裝置(14)所瀏覽過的網站。更具體而言,瀏覽記錄收集模組(13)可以是由一電信業者所運行的網路設備,用於記錄一特定電信用戶經由使用者終端裝置(14)所瀏覽過的網站(如購物平台網站或部落格)。舉例而言,當電信用戶透過電信業者的網路設備瀏覽網站時,瀏覽記錄收集模組(13)會儲存該用戶所瀏覽過的網站網址。
此外,瀏覽記錄收集模組(13)可將關於特定電信用戶的瀏覽記錄傳送至一資料庫(15),其可用於累積更龐大的資料量,作為本發明內容分
類器的訓練資料庫。因此,資料庫(15)亦可儲存一人工網站分類資料庫(16)的資料,作為訓練本發明內容分類器的素材。人工分類資料庫(16)可儲存有像是經由特定人員或公眾給予分類指標的網站資料,如網頁內容持有者自行定義的關鍵字。
在線上(on-line)階段的網頁內容處理單元(12)主要接收並處理網頁資料取得單元(11)所提供的資料,以執行分類網站的工作。在線下(off-line)階段的網頁內容處理單元(12)主要可使用資料庫(15)的龐大資料來進行內容分類器的訓練。
儘管瀏覽記錄收集模組(13)、資料庫(15)及人工分類資料庫(16)在圖中的表達為系統(1)以外的配置,但在可能的實施例中,這些配置亦可能屬於系統(1)的一部份而存在於網路中。
網頁資料取得單元(11)主要配置成從網站呈現的網頁中識別出該網頁的構成資料及網頁內容,並對於識別出的網頁內容進行適當的轉換。網頁資料取得單元(11)主要包含一爬蟲模組(111)、一文字萃取模組(112)、一原始語言偵測模組(113)及一翻譯模組(114)。
爬蟲模組(111)配置成爬取瀏覽記錄收集模組(13)所儲存的一或多個網站。例如,爬蟲模組(111)會瀏覽關於一電信用戶通過電信業者的網路設備所瀏覽過的網站,並取得各網站的構成資料及識別出其中的多個網頁內容,包含但不限於文字內容和影音內容。
文字萃取模組(112)配置成爬蟲模組(111)所取得的關聯於各網頁的構成資料和網頁內容。所述網頁構成資料可以是描述一網頁的構成描述,像是熟知的超文本標記語言(HTML)。文字萃取模組(112)基於一網頁的
構成資料而識別出該網頁的各種構成,例如<meta name=’description’>及<body>,並再從<meta name=’description’>中萃取出網頁的一描述內容及從<body>中萃取出網頁的一主文內容,作為後續判斷該網頁類別的基礎,但本發明不限於此。在本發明的實施例中,所述描述內容作為該網頁的一第一特徵,而所述主文內容作為該網頁的一第二特徵。
原始語言偵測模組(113)配置成根據文字萃取模組(112)所抽出的文字內容,如前述描述內容和主文內容,識別出該網頁所關聯的原始語言,如中文、英文或日文,並關聯出與該原始語言對應的代碼,像是zh、en或jp,作為該網頁的一第三特徵。所述網頁的原始語言是指網頁內容未經過機械翻譯處理所呈現的主要語言。辨識文字內容的語言可經由已知的技術手段達成,且非本發明的主要技術手段,故相關細節不在此贅述。
翻譯模組(114)配置成根據該網頁的原始語言和一目標語言是否相符而決定是否翻譯該網頁的文字內容,如前述描述內容和主文內容。在本發明實施例中,目標語言為中文(代碼為zh)。因此,若網頁的原始語言經判斷為不同於目標語言,則翻譯模組(114)以機械翻譯將網頁的文字內容轉換為目標語言,以利後續處理的一致性。但本發明不以此為限制,意即,在其他實施例中,翻譯模組(114)可被省略。
網頁內容處理單元(12)主要配置成接收與一網站相關的網頁內容及其包含的特徵,並據此輸入所述內容分類模型以決定網頁內容的一或多個分類。網頁內容處理單元(12)可配置成一自然語言處理單元,在本實施例中包含資料預處理與編碼模組(121)、模型訓練模組(122)及分類器預測模組(123)。
資料預處理與編碼模組(121)配置成主要將網頁資料取得單元(11)所取得的網頁文字內容進行特定的編碼,以符合後續模型判斷的需求。例如,經網頁資料取得單元(11)所取得的各網頁描述內容(第一特徵)、主文內容(第二特徵)及原始語言代碼(第三特徵)可經由編碼而轉換成特定的格式。儘管本實施例圖示之資料預處理與編碼模組(121)是包含在網頁內容處理單元(12),但在其他實施例中亦可包含在網頁資料取得單元(11)。
模型訓練模組(122)配置成於網頁內容處理單元(12)的離線階段下根據資料庫(15)的多筆資料進行一內容分類器的訓練。資料庫(15)儲存大量的網頁內容及關於各網頁內容所屬的類別。換言之,資料庫(15)儲存的是經分類的網頁內容,其作為模型訓練模組(122)的輸入。
分類器預測模組(123)配置成於網頁內容處理單元(12)的線上階段下執行所述內容分類器,並將經處理和編碼的各網頁特徵作為該內容分類器的輸入,而該內容分類器根據輸入的特徵決定出關聯該網站的至少一內容分類指標的機率。所述內容分類指標指示一種類別的名稱,像是旅遊、電影或語言學習,而名稱的豐富程度視訓練素材的多樣性而定。機率則是小於100%或是小於1.000的數值。因此,所述內容分類指標的機率係指一網頁內容與某一分類有關的機率或程度。當然,一網頁內容可以和多個分類有關,且這些分類可以有相似或不同的機率。
第二圖示意網站分類至不同的內容分類指標。一電信用戶曾經造訪過的網站(其網頁內容未必被完全瀏覽)丟入本發明網站分類系統後,最後可識別出關於各網站之網頁內容所屬的分類指標,像是有車輛與運輸、休閒娛樂與愛好、人力銀行或房地產等。此外,一個內容分類指標可進一步包含多個
次內容分類指標。例如,”休閒娛樂與愛好”的內容分類指標可進一步包含”電影”、”音樂”及”遊戲”。在可能實施例中,”電影”、”音樂”及”遊戲”這些次內容分類指標的機率為”休閒娛樂與愛好”內容分類指標的進一步機率。舉例而言,一網站的網頁內容被識別為”休閒娛樂與愛好”的機率是60%,且在這60%的機率中被識別為”電影”的機率是80%,被識別為”音樂”的機率是10%,”遊戲”的機率是1%。據此,一網頁可被關聯出不同的分類以及甚至是分類中的次分類。
第三圖例示本發明網站分類系統(1)接收電信用戶上網記錄、處理及關聯出內容分類指標。所述處理首先根據用戶造訪的網站進行爬網取得HTML資料。所述造訪指曾經至少瀏覽網站的一部份網頁內容,其餘網頁內容由爬蟲模組完成瀏覽。甚至,網頁內容中所存在的其他網站連結,其中的網頁內容也可被納入爬蟲模組瀏覽的範圍。接著,所述處理抽取HTML資料中的必要文字資訊,如前述<meta name=’description’>中的描述內容和<body>中的主文內容,以及網頁內容所屬原始語言,但本發明不以此為限制。然後,所述處理選擇性地將抽取的文字資訊翻譯成目標語言(如中文)並編碼成符合分類器模型的需求。最後,利用已訓練好的模型,即內容分類器,基於前述抽取且處理的資訊關聯出一或多個內容分類指標。
第四圖為本發明系統(如第一圖網頁資料取得單元11)執行的步驟流程圖,包含步驟S40至步驟S45。在步驟S40,網頁資料取得單元(11)從一電信用戶瀏覽過的目標網站取得相關的一或多個網頁內容,所述網頁內容並非一定是用戶所瀏覽過的部分,但可隨著該網站被提供至用戶的網頁瀏覽器。在步驟S41,網頁資料取得單元(11)進一步判斷所取得的網頁內容是否屬於HTML
格式的描述。若網頁內容涉及HTML的架構,則進入步驟S42。若網頁內容不涉及HTML的架構,則網頁資料取得單元(11)對網頁內容不進行任何的萃取動作。在步驟S42和步驟S43,本發明實施例令網頁資料取得單元(11)抽取出HTML架構中的<meta name=’description’>和<body>文字內容。接著,在步驟S44中,針對抽取出的文字內容判斷文章所屬的主要語言,例如英文、中文及/或日文。在步驟S45中,本實施例將抽取的文字內容統一機械翻譯為中文,結束文字內容抽取的動作。
第五圖例示將多個網站的文字內容翻譯成中文。如圖示表格中的每一列代表一個網站中所抽取的文字內容及其經偵測的原始語言。如同步驟S45的處理,抽取的文字內容從日文原文和英文原文轉換為中文,但針對特定的原文名稱可不進行翻譯。
第六圖示意本發明內容分類器模型的架構,其中如前述從網頁內容抽取的文字內容及其經偵測而得知的網頁內容原始語言分別作為內容分類器模型的第一輸入(61)和第二輸入(62),而分類器模型的輸出(66)為網站屬於各分類的機率。具體而言,所述內容分類器模型的架構包含一預訓練模型(63)、一連接層(concatenate layer,64)及一全連結層(fully connected layer,65),其中連接層(64)的輸入為第一輸入,連接層(64)的輸入包含第二輸入(62)和預訓練模型(63)的輸出。這種配置是採用了基於Transformer模型的架構,相較於已知的RNN或CNN模型架構具有較準確的預測結果。此外,本實施例納入了原始語言特徵(即第二輸入),可還原前述翻譯後失去的原始語言資訊,亦可強化模型準確度。由於還原原始語言資訊的具體手段並非本發明所欲解決問題之技術手段,故其相關說明省略。
第七A圖例示用於訓練本發明內容分類器的輸入。如圖所示,一網頁的HTML架構中的標籤<Description>和<Body>所對應的文字內容以及這些文字內容所對應的原始語言代碼,作為監督式學習訓練的網頁特徵輸入。此外,一或多個對應這些特徵的網頁標記也一併和這些特徵被輸入模型的訓練。這些標記的名稱可以是根據標籤<Description>和<Body>所對應的文字內容記載之資訊而決定,如”電信”和”行動電話服務提供商”,或者,可以是源自文字內容所記載的名詞或文字內容未記載但相關的名詞。
第七B圖例示本發明內容分類器的輸入及輸出。在此例子中,以相同網頁的文字內容(即同第七A圖標籤<Description>和<Body>所對應的的文字內容)以及該文字內容對應的原始語言代碼作為網頁的特徵輸入至內容分類器模型。最終,模型輸出的結果具有多個內容分類指標的機率,如”電信”、”行動電話服務提供商”、”旅遊”、”語言學習”及”電影”等,其中又以”電信”和”行動電話服務提供商”的機率最高,符合第七A圖訓練模型的輸入。因此,根據本發明所訓練的內容分類器模型,一網頁可被關聯出一或多個分類或性質及其機率,這樣的分類結果衍伸出其他數據應用,像是基於內容分類指標的機率決定投放廣告的內容。
第八圖為本發明內容分類器的訓練步驟流程圖,包含步驟S80至S84。併參第一圖網站分類系統(1),在步驟S80,收集人工分類的資料並提供給網站分類系統(1)執行爬網,取得作為訓練模型的輸入特徵和標記(如第七A圖所述)。在一具體實施例中,可提供多個網站網址給網站分類系統(1)進行爬網以取得相關文字內容。可替代地,可提供文字內容及其所對應的原始語言代碼和關於文字內容資訊的標記(如”電信”和”行動電話服務提供商”)。
在步驟S81,經過爬網取得各網頁的HTML構成資料,並識別出HTML架構中的<description>和<body>標籤,但本發明不以此為限制,意即基於其他架構的網頁內容,其中包含或隱含的文字內容亦可為本發明網站分類系統(1)識別的目標。在步驟S82,網站分類系統(1)偵測網頁文字內容所屬原始語言,並判斷是否為一目標語言後決定是否翻譯文字內容,作為訓練模型的資料集。所述原始語言是指未經網路瀏覽器內建的機械翻譯器處理的語言。在一具體實施例中,文字內容可經由已知的自然語言辨識手段識別出文字內容所屬主要語言。可替代地,可由人指定網頁文字內容所屬的原始語言代碼。在一可行的實施例中,統一將各網頁的文字內容翻譯為中文作為訓練模型的資料集。在步驟S83,將網頁的文字內容和原始語言代碼作為網頁的特徵,並指定網頁的分類標記。在步驟S84,使用每筆網頁的這些特徵和標記來訓練模型。
第九圖為本發明網站分類方法的步驟流程圖,包含與前述步驟類似的步驟S90至S94。在步驟S90,網站分類系統(1)收集電信用戶曾造訪過的網站清單,作為爬網目標。例如,使用者終端裝置(14)通過電信商所提供的網路設備或服務而瀏覽造訪各種網站,像是奇摩首頁。然而,此不意味本發明僅限於電信用戶的情況。在步驟S91,後續網站分類系統(1)根據這些網站的網址資訊逐一進行爬網,以取得網頁的HTML構成資料,並提取其中的<description>和<body>標籤所對應的文字內容。在步驟S92,進一步偵測取得的文字內容而決定網頁文字內容的所屬原始語言,並經由機械翻譯器轉換為中文文字內容。在步驟S93,將網頁文字內容和其所屬原始語言作為網頁的特徵,並輸入至已訓練好的模型。舉例而言,<description>標籤所對應的文字內容可作為一網頁的第一特徵,<body>標籤所對應的文字內容作為該網頁的第二特
徵,原始語言對應的代碼則作為該網頁的第三特徵。但本發明不以此為限制,意即更多的網頁特徵可被關聯和使用。更具體而言,所述第一和第二特徵可作為如第六圖的第一輸入而輸入至預訓練模型,第三特徵可作為第二輸入而輸入至預訓練模型之後的連接層。在步驟S94,模型根據輸入的這些網頁特徵輸出與該網頁內容有關的一或多個內容分類指標,且各內容分類指標具有一機率值,如第七B圖說明。所述機率值指示一網頁與一內容分類(或主題)相關的程度。例如,一網頁可以和多個內容分類相關,但這些內容分類彼此不必然相關。
綜上,透過本發明抽取網頁特徵以及訓練策略,可有效且即時地將網站進行適當的分類,亦可降低人力的處理文字的負擔。
S90至S94 步驟
Claims (10)
- 一種網站分類系統,包含:一網頁資料取得單元,配置成接收一網頁的一構成資料並識別該構成資料中的多個網頁內容,該多個網頁內容包含該網頁的一描述內容、該網頁的一主文內容及該網頁所屬原始語言;其中其中該網頁資料取得單元包含:一文字萃取模組,配置成根據該網頁的HTML構成資料識別出該網頁內容的描述內容及主文內容,作為該網頁內容的一第一特徵及一第二特徵;一原始語言偵測模組,配置成根據該網頁內容的描述內容和主文內容識別出一語言代碼,該語言代碼作為該網頁內容的一第三特徵,用於指示該網頁所屬原始語言;一翻譯模組,配置成將多個網頁的網頁內容的主文內容翻譯成相同語言,其中該多個網頁所屬原始語言並不相同;以及一網頁內容處理單元,配置成至少基於該第一特徵、該第二特徵及該第三特徵,而決定出該網頁內容關聯至少一內容分類指標的機率。
- 如請求項1所述之網站分類系統,其中該網頁資料取得單元包含:一爬蟲模組,配置成取得一特定身分使用者所瀏覽的一或多個網頁及其構成資料,以建立關聯於該特定身分使用者的一網頁瀏覽記錄。
- 如請求項2所述之網站分類系統,其中該特定身分使用者為特定電信的用戶。
- 如請求項1所述之網站分類系統,其中該網頁內容處理單元包含:一資料預處理與編碼模組,配置成接收和處理該網頁內容包含的第一特徵、第二特徵及第三特徵,以適用於自然語言處理。
- 如請求項1所述之網站分類系統,其中該至少一內容分類指標包含多個次內容分類指標,且各次內容分類指標各關聯一機率。
- 如請求項4所述之網站分類系統,其中所述自然語言處理是基於Transformer模型而完成。
- 一種網站分類方法,包含:由一網頁資料取得單元,接收一網頁的一構成資料;由該網頁資料取得單元,識別該構成資料中的多個網頁內容,包含該網頁的一描述內容、該網頁的一主文內容及該網頁所屬原始語言;由該網頁資料取得單元,從該網頁的HTML構成中萃取出該網頁的描述內容和主文內容,作為該網頁內容的一第一特徵和一第二特徵;由該網頁資料取得單元,根據該網頁所屬原始語言和一目標語言決定是否將該網頁內容的主文內容進行翻譯;由該網頁資料取得單元,根據該網頁內容的描述內容和主文內容識別出一語言代碼,該語言代碼作為該網頁內容的一第三特徵,用於指示該網頁所屬原始語言;由該網頁內容處理單元,將該第一特徵、該第二特徵及該第三特徵作為一自然語言處理之輸入;及 由一網頁內容處理單元,基於該自然語言處理之輸入,決定出該網頁內容關聯至少一內容分類指標的機率。
- 如請求項7所述之網站分類方法,還包含:由該網頁資料取得單元,判斷該網頁的構成資料是否包含HTML構成。
- 如請求項7所述之網站分類方法,其中該至少一內容分類指標包含多個次內容分類指標,且各次內容分類指標各關聯一機率。
- 一種網站分類方法,包含:提供一特定身分使用者所瀏覽的多個網頁的網頁內容至一內容分類器;由該內容分類器,從該網頁的HTML構成中萃取出該網頁的描述內容和主文內容,作為該網頁內容的一第一特徵和一第二特徵;由該內容分類器,根據該網頁所屬原始語言和一目標語言決定是否將該網頁內容的主文內容進行翻譯;由該內容分類器,根據該網頁內容的描述內容和主文內容識別出一語言代碼,該語言代碼作為該網頁內容的一第三特徵,用於指示該網頁所屬原始語言;由該內容分類器,將該第一特徵、該第二特徵及該第三特徵作為一自然語言處理之輸入;由該內容分類器,基於該自然語言處理之輸入,決定各網頁內容關聯至少一內容分類指標的機率;及至少基於該至少一內容分類指標的機率,關聯出一廣告內容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110137071A TWI827984B (zh) | 2021-10-05 | 2021-10-05 | 網站分類系統及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110137071A TWI827984B (zh) | 2021-10-05 | 2021-10-05 | 網站分類系統及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202316292A TW202316292A (zh) | 2023-04-16 |
TWI827984B true TWI827984B (zh) | 2024-01-01 |
Family
ID=86943196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110137071A TWI827984B (zh) | 2021-10-05 | 2021-10-05 | 網站分類系統及方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI827984B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577866A (zh) * | 2008-05-07 | 2009-11-11 | 中国移动通信集团公司 | 一种用户分类方法、广告投放方法及装置 |
US20120016929A1 (en) * | 2010-07-13 | 2012-01-19 | Enrique Travieso | Dynamic language translation of web site content |
US20120158724A1 (en) * | 2010-12-21 | 2012-06-21 | Tata Consultancy Services Limited | Automated web page classification |
CN104750754A (zh) * | 2013-12-31 | 2015-07-01 | 北龙中网(北京)科技有限责任公司 | 网站所属行业的分类方法和服务器 |
CN105512143A (zh) * | 2014-09-26 | 2016-04-20 | 中兴通讯股份有限公司 | 一种网页分类方法及装置 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN108629043A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
US20180329935A1 (en) * | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
TW202001620A (zh) * | 2018-06-29 | 2020-01-01 | 國立臺灣師範大學 | 自動化網站資料蒐集方法 |
CN110705290A (zh) * | 2019-09-29 | 2020-01-17 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
CN110825998A (zh) * | 2019-08-09 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种网站识别方法及可读存储介质 |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
US20200387675A1 (en) * | 2019-06-05 | 2020-12-10 | Refinitiv Us Organization Llc | Machine-learning natural language processing classifier |
US20210097571A1 (en) * | 2019-09-27 | 2021-04-01 | Knorex Ptd. Ltd. | Cross-domain contextual targeting without any in-domain labelled data |
US20210263979A1 (en) * | 2020-02-24 | 2021-08-26 | Wangsu Science & Technology Co., Ltd. | Method, system and device for identifying crawler data |
CN113468396A (zh) * | 2021-07-23 | 2021-10-01 | 成都蜀道易信科技有限公司 | 一种基于元标签的网页分类方法、装置和设备 |
-
2021
- 2021-10-05 TW TW110137071A patent/TWI827984B/zh active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101577866A (zh) * | 2008-05-07 | 2009-11-11 | 中国移动通信集团公司 | 一种用户分类方法、广告投放方法及装置 |
US20120016929A1 (en) * | 2010-07-13 | 2012-01-19 | Enrique Travieso | Dynamic language translation of web site content |
US20120158724A1 (en) * | 2010-12-21 | 2012-06-21 | Tata Consultancy Services Limited | Automated web page classification |
CN104750754A (zh) * | 2013-12-31 | 2015-07-01 | 北龙中网(北京)科技有限责任公司 | 网站所属行业的分类方法和服务器 |
CN105512143A (zh) * | 2014-09-26 | 2016-04-20 | 中兴通讯股份有限公司 | 一种网页分类方法及装置 |
US20180329935A1 (en) * | 2017-05-11 | 2018-11-15 | Oracle International Corporation | Distributed storage and processing of hierarchical data structures |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
CN108629043A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
TW202001620A (zh) * | 2018-06-29 | 2020-01-01 | 國立臺灣師範大學 | 自動化網站資料蒐集方法 |
US20200387675A1 (en) * | 2019-06-05 | 2020-12-10 | Refinitiv Us Organization Llc | Machine-learning natural language processing classifier |
CN110825998A (zh) * | 2019-08-09 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种网站识别方法及可读存储介质 |
US20210097571A1 (en) * | 2019-09-27 | 2021-04-01 | Knorex Ptd. Ltd. | Cross-domain contextual targeting without any in-domain labelled data |
CN110705290A (zh) * | 2019-09-29 | 2020-01-17 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
US20210263979A1 (en) * | 2020-02-24 | 2021-08-26 | Wangsu Science & Technology Co., Ltd. | Method, system and device for identifying crawler data |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN113468396A (zh) * | 2021-07-23 | 2021-10-01 | 成都蜀道易信科技有限公司 | 一种基于元标签的网页分类方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
TW202316292A (zh) | 2023-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599022B (zh) | 基于用户访问数据的用户画像形成方法 | |
CN110232149B (zh) | 一种热点事件检测方法和系统 | |
US8161059B2 (en) | Method and apparatus for collecting entity aliases | |
JP4097602B2 (ja) | 情報解析方法及び装置 | |
CN103678652B (zh) | 一种基于Web日志数据的信息个性化推荐方法 | |
CN101216825B (zh) | 标引关键词提取/预测方法 | |
CN111191122A (zh) | 一种基于用户画像的学习资源推荐系统 | |
CN102163187B (zh) | 文档标记方法和装置 | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
US8630972B2 (en) | Providing context for web articles | |
JP4637969B1 (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
CN105426354B (zh) | 一种句向量的融合方法和装置 | |
CN102609433A (zh) | 基于用户日志进行查询推荐的方法及系统 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN110825998A (zh) | 一种网站识别方法及可读存储介质 | |
CN118171658A (zh) | 智能机器人的用户意图响应方法、装置、设备及存储介质 | |
Li et al. | Semantic‐enhanced multimodal fusion network for fake news detection | |
TWI827984B (zh) | 網站分類系統及方法 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
JP2009259248A (ja) | ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体 | |
JP5163379B2 (ja) | 文書群検出方法及び文書群検出装置 | |
CN114547435A (zh) | 内容质量的识别方法、装置、设备及可读存储介质 | |
KR101499685B1 (ko) | 키워드 트리 제공 방법 | |
CN115277211B (zh) | 基于文本和图像多模态色情和赌博域名自动检测方法 |