TWI735543B

TWI735543B - 網頁文本分類的方法和裝置，網頁文本識別的方法和裝置

Info

Publication number: TWI735543B
Application number: TW106105613A
Authority: TW
Inventors: 段秉南
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-03-30
Filing date: 2017-02-20
Publication date: 2021-08-11
Also published as: CN107291723B; TW201737118A; CN107291723A; WO2017167067A1

Abstract

本申請實施例提供了一種網頁文本分類的方法和裝置，網頁文本識別的方法和裝置，該網頁文本分類的方法包括：採集網頁中的文本資料；對所述文本資料進行分詞，獲得基礎分詞；計算各基礎分詞的第一屬性值和第二屬性值；依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；依據所述特徵值從所述基礎分詞中篩選出特徵分詞；計算各特徵分詞相應的權重；將所述權重作為相應特徵分詞的特徵向量，採用所述特徵向量訓練出分類模型。本申請實施例不僅有效保證了特徵提取的客觀性與準確性，還兼顧了特徵對分類影響，從而提高了網頁文本分類的準確性，更方便於使用者在海量的文本中及時準確地獲得有效的資訊。

Description

網頁文本分類的方法和裝置，網頁文本識別的方法和裝置

本申請係關於文本分類的技術領域，特別是關於一種網頁文本分類的方法，一種網頁文本分類的裝置，一種網頁文本識別的方法，以及，一種網頁文本識別的裝置。

在當今的資訊社會，各種形式的資訊都極大的豐富了人們的生活，尤其隨著Internet的大規模普及，網路上的資訊量在飛速增長當中，如各種電子文檔、電子郵件和網頁充滿網路上，從而造成資訊雜亂。為了快速、準確、全面地找到我們所需要的資訊，文本分類成為了有效組織和管理文本資料的重要方式，越來越受到廣泛的關注。

網頁文本分類是指按照預先定義的主題類別，根據海量網頁文檔的內容，確定相應網頁的類別。網頁文本分類採用的技術基礎是基於內容的純文字分類。基本方法是，在抓取到的網頁集合中，對每篇網頁文本進行純文字的內容抽取，得到相應的純文字。再將抽取出的純文字組成新的文檔集合，在新的文檔集合上應用純文字分類演算法進行分類。再根據純文字與網頁文本的對應關係，對網頁文本進行分類，即應用網頁的純文字內容資訊，對網頁進行分類。

由於海量文本所具有的多意性、模糊性、各異性等特點，已有技術中，在分類特徵的選取上難以令人滿意，例如，往往會誇大某些無效詞的作用，或者，忽略某些特徵分詞的重要屬性，從而導致網頁文本分類的準確度極低。

鑒於上述問題，提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種網頁文本分類的方法，一種網頁文本識別的方法，和相應的一種網頁文本分類的裝置，一種網頁文本識別的裝置。

為了解決上述問題，本申請實施例公開了一種網頁文本分類的方法，包括：採集網頁中的文本資料；對所述文本資料進行分詞，獲得基礎分詞；計算各基礎分詞的第一屬性值和第二屬性值；依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；依據所述特徵值從所述基礎分詞中篩選出特徵分詞；計算各特徵分詞相應的權重；將所述權重作為相應特徵分詞的特徵向量，採用所述特徵向量訓練出分類模型。

較佳地，所述第一屬性值為所述基礎分詞的資訊增益值，所述第二屬性值為所述基礎分詞相對於預定義的各個分類的卡方統計量值的標準差，所述特徵值為所述基礎分詞的區分度。

較佳地，透過如下公式依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值：

其中，score為基礎分詞的區分度，igScore為基礎分詞的資訊增益值，chiScore為基礎分詞對相對於預定義的各個分類的卡方統計量值，所述n為預定義的分類的數量。

較佳地，所述依據所述特徵值從所述基礎分詞中篩選出特徵分詞的步驟包括：將所述基礎分詞按照其對應的特徵值由高至低排列；提取預設數量的，所述特徵值高於預設閾值的基礎分詞作為特徵分詞。

較佳地，所述計算各特徵分詞相應的權重的步驟包括：獲取各特徵分詞在相應網頁的文本資料中出現的次數；統計所述網頁的文本資料中特徵分詞的總數；依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。

較佳地，透過如下公式依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重：

其中，weight為特徵分詞的權重，tf為特徵分詞在相應網頁的文本資料中出現的次數，n為網頁的文本資料中特徵分詞的總數，score為特徵分詞的區分度。

較佳地，所述計算各特徵分詞相應的權重的步驟還包括：對所述特徵分詞的權重進行歸一化處理。

較佳地，透過以下公式對所述特徵分詞的權重進行歸一化處理：

其中，norm(weight)為歸一化之後的權重，weight為所述特徵分詞的權重，min(weight)為所述網頁中文本資料中最小weight值，max(weight)為所述網頁中文本資料中最大weight值。

本申請實施例還公開了一種網頁文本識別的方法，包括：提取待識別網頁中的文本資料；對所述文本資料進行分詞，獲得基礎分詞；計算各基礎分詞的第一屬性值和第二屬性值；依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；依據所述特徵值從所述基礎分詞中篩選出特徵分詞；計算各特徵分詞相應的權重；將所述權重作為特徵向量輸入預先訓練出的分類模型中，獲得分類資訊；針對所述待識別網頁標記分類資訊。

本申請實施例還公開了一種網頁文本分類的裝置，包括：採集模組，用於採集網頁中的文本資料；分詞模組，用於對所述文本資料進行分詞，獲得基礎分詞；分詞屬性計算模組，用於計算各基礎分詞的第一屬性值和第二屬性值；特徵值計算模組，用於依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；特徵提取模組，用於依據所述特徵值從所述基礎分詞中篩選出特徵分詞；特徵權重分配模組，用於計算各特徵分詞相應的權重；模型訓練模組，用於將所述權重作為相應特徵分詞的特徵向量，採用所述特徵向量訓練出分類模型。

較佳地，所述特徵值計算模組透過如下公式依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值：

較佳地，所述特徵提取模組包括：排序子模組，用於將所述基礎分詞按照其對應的特徵值由高至低排列；提取子模組，用於提取預設數量的，所述特徵值高於預設閾值的基礎分詞作為特徵分詞。

較佳地，所述特徵權重分配模組包括：次數統計子模組，用於獲取各特徵分詞在相應網頁的文本資料中出現的次數；分詞總數統計子模組，用於統計所述網頁的文本資料中特徵分詞的總數；計算子模組，用於依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。

較佳地，所述計算子模組透過如下公式依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重：

較佳地，所述特徵權重分配模組還包括：歸一化子模組，用於對所述特徵分詞的權重進行歸一化處理。

較佳地，所述歸一化子模組透過以下公式對所述特徵分詞的權重進行歸一化處理：

本申請實施例還公開了一種網頁文本識別的裝置，包括：文本提取模組，用於提取待識別網頁中的文本資料；分詞模組，用於對所述文本資料進行分詞，獲得基礎分詞；分詞屬性計算模組，用於計算各基礎分詞的第一屬性值和第二屬性值；特徵值計算模組，用於依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；特徵提取模組，用於依據所述特徵值從所述基礎分詞中篩選出特徵分詞；特徵權重分配模組，用於計算各特徵分詞相應的權重；分類模組，用於將所述權重作為特徵向量輸入預先訓練出的分類模型中，獲得分類資訊；標記模組，用於針對所述待識別網頁標記分類資訊。

本申請實施例包括以下優點：本申請實施例透過改進特徵分詞的提取方式，以及，特徵分詞權重的計算方式，不僅有效保證了特徵提取的客觀性與準確性，還兼顧了特徵對分類影響，從而提高了網頁文本分類的準確性，更方便於使用者在海量的文本中及時準確地獲得有效的資訊。

本申請實施例融合至少兩種特徵提取演算法，並在卡方統計中引入標準差，有效保證了特徵提取的客觀性與準確性。並且，透過使用長尾分佈圖選擇特徵數量，針對特徵分詞採用兼顧了特徵對分類影響的權重，因而能進一步篩選出有效特徵，從而使網頁文本分類的效果更精準。

401‧‧‧採集模組

402‧‧‧分詞模組

403‧‧‧分詞屬性計算模組

404‧‧‧特徵值計算模組

405‧‧‧特徵提取模組

406‧‧‧特徵權重分配模組

407‧‧‧模型訓練模組

501‧‧‧文本提取模組

502‧‧‧分詞模組

503‧‧‧分詞屬性計算模組

504‧‧‧特徵值計算模組

505‧‧‧特徵提取模組

506‧‧‧特徵權重分配模組

507‧‧‧分類模組

508‧‧‧標記模組

圖1是本申請的一種網頁文本分類的方法的步驟流程圖；圖2是本申請一種示例中長尾分佈的示意圖；圖3是本申請的一種網頁文本識別的步驟流程圖；圖4是本申請的一種網頁文本分類的裝置的結構框圖；圖5是本申請的一種網頁文本識別的裝置的結構框圖。

為使本申請的上述目的、特徵和優點能夠更加明顯易懂，下面結合附圖和具體實施方式對本申請作進一步詳細的說明。

文本分類是透過訓練一定的文本集合，得到類別與未知文本的映射規則，即計算出文本與類別的相關度，再根據訓練的分類器來決定文本的類別歸屬。

文本分類是一個有指導的學習過程，它根據一個已經被標注的訓練文本集合，找到文字屬性(特徵)和文本類別之間的關係模型(分類器)，然後利用這種學習得到的關係模型對新的文本進行類別判斷。文本分類的過程總體可劃分為訓練和分類兩部分。訓練的目的是透過新的文本和類別之間的聯繫構造分類模型，使其用於分類。分類過程是根據訓練結果對未知文本進行分類，給定類別標識的過程。

參考圖1，示出了本申請的一種網頁文本分類的方法實施例的步驟流程圖，具體可以包括如下步驟：

步驟101，採集網頁中的文本資料；本步驟即獲取到用於進行分類模型訓練的網頁的文本資料，在實際中，其可能是海量資料。通常的處理方法是，在抓取到的網頁集合中，對每篇網頁文本進行純文字的內容抽取，從而得到相應的純文字，然後將抽取出的純文字組成新的文檔集合，該文檔集合即為本申請所指網頁中的文本資料。

步驟102，對所述文本資料進行分詞，獲得基礎分詞；眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學生”。電腦可以很簡單透過空格知道student是一個單詞，但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞。例如，我是一個學生，分詞的結果是：我是一個學生。

下面介紹一些常用的分詞方法：

1、基於字串匹配的分詞方法：是指按照一定的策略將待分析的漢字串與一個預置的機器詞典中的詞條進行匹配，若在詞典中找到某個字串，則匹配成功(識別出一個詞)。實際使用的分詞系統，都是把機械分詞作為一種初分手段，還需透過利用各種其它的語言資訊來進一步提高切分的準確率。

2、基於特徵掃描或標誌切分的分詞方法：是指優先在待分析字串中識別和切分出一些帶有明顯特徵的詞，以這些詞作為中斷點，可將原字串分為較小的串再來進機械分詞，從而減少匹配的錯誤率；或者將分詞和詞類標注結合起來，利用豐富的詞類資訊對分詞決策提供幫助，並且在標注過程中又反過來對分詞結果進行檢驗、調整，從而提高切分的準確率。

3、基於理解的分詞方法：是指透過讓電腦模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。

4、基於統計的分詞方法：是指，中文資訊中由於字與字相鄰共現的頻率或機率能夠較好的反映成詞的可信度，所以可以對語料中相鄰共現的各個字的組合的頻度進行統計，計算它們的互現資訊，以及計算兩個漢字X、Y的相鄰共現機率。互現資訊可以體現漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時，便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計，不需要切分詞典。

本申請對所述文本資料進行分詞的方式不作限制，在針對文檔集合進行分詞，所獲得的所有分詞即為本申請所指的基礎分詞。

在具體實現中，在進入下一步驟前，還可以針對基礎分詞中的無效詞，比如，針對停用詞等預先進行去除處理。停用詞通常指在各類文本中都頻繁出現，因而被認為帶有很少的有助於分類任何資訊的代詞、介詞、連詞等高頻詞。本領域技術人員也可以按需求設計需要在特徵提取之前或特徵提取過程中刪除的特徵詞，本申請對此無需加以限制。

步驟103，計算各基礎分詞的第一屬性值和第二屬性值；步驟104，依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；步驟105，依據所述特徵值從所述基礎分詞中篩選出特徵分詞；以上步驟103-105涉及文本分類中特徵選擇的處理。通常原始特徵空間維數非常高，且存在大量冗餘的特徵，因此需要進行特徵降維。特徵選擇是特徵降維中的其中一類，它的基本思路：根據某種評價函數獨立地對每個原始特徵項進行評分，然後按分值的高低排序，從中選取若干個分值最高的特徵項，或者預先設定一個閾值，把度量值小於閾值特徵過濾掉，剩下的候選特徵作為結果的特徵子集。

特徵選擇演算法包括：文檔頻次、互資訊量、資訊增益、χ²統計量(CHI)等演算法。已有技術中，本領域技術人員通常會選用其中之一進行特徵分詞的選取，然而這種單一演算法的使用存在不少弊端，以資訊增益演算法為例，資訊增益透過分詞在文本中出現和不出現前後的資訊量之差來推斷該分詞所帶的資訊量，即一個分詞的資訊增益值表示分詞特徵包含的資訊量。可以理解，資訊增益值越高表示分詞特徵可以給分類器帶來較大的資訊量，但已有的資訊增益演算法只考慮分詞特徵對整體分類器提供的資訊量，忽略了分詞特徵對不同的各個分類的區分度。

或者，以χ²統計量(CHI)演算法為例，卡方統計也用於表徵兩個變數的相關性，它同時考慮了特徵在某類文本中出現和不出現時的情況。卡方統計量值越大，它與該類的相關性就越大，攜帶的類別資訊也就越多，但已有的χ²統計量(CHI)演算法中過分誇大低頻詞的作用。

針對上述弊端，本申請提出不採用單一演算法，而採用至少兩種演算法進行特徵提取，即分別採用不同的兩種演算法計算各基礎分詞的第一屬性值和第二屬性值，例如，採用資訊增益演算法計算第一屬性值，採用CHI演算法計算第二屬性值。

當然，本領域技術人員依據實際情況採用其它演算法分別計算分詞不同的屬性值，甚至兩個以上的屬性值，都是可行的，本申請對此不作限制。

在本申請的一種較佳實施例中，所述第一屬性值可以為所述基礎分詞的資訊增益值，所述第二屬性值可以為所述基礎分詞相對於預定義的各個分類的卡方統計量值的標準差，所述特徵值可以為所述基礎分詞的區分度，即所述步驟103具體可以包括如下子步驟：子步驟1031，計算各基礎分詞的資訊增益值；子步驟1032，計算各基礎分詞的卡方統計量值；子步驟1033，基於所述基礎分詞的數量，統計所述基礎分詞相對於預定義的各個分類的卡方統計量的標準差。

在這種情況下，所述步驟104可以為，基於所述資訊增益值和標準差的乘積獲得各基礎分詞的區分度。

更具體而言，可以透過如下公式依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值：

本申請融合至少兩種特徵提取演算法，並在卡方統計中引入標準差，有效保證了特徵提取的客觀性與準確性。

在本申請的一種較佳實施例中，所述步驟105具體可以包括如下子步驟：子步驟1051，將所述基礎分詞按照其對應的特徵值由高至低排列；子步驟1052，提取預設數量的，所述特徵值高於預設閾值的基礎分詞作為特徵分詞。

在計算出各基礎分詞的特徵值後，可以發現此值符合如圖2所示的長尾分佈(齊魯夫定律)示意圖，圖2中橫軸為基礎分詞的個數，縱軸為基礎分詞的區分度，應用本申請的較佳實施例，可以取例如橫坐標大於0小於30000的基礎分詞作為特徵分詞。

本申請透過使用長尾分佈圖選擇特徵數量，可以進一步篩選出有效特徵，從而使網頁文本分類的效果更精準。

步驟106，計算各特徵分詞相應的權重；在文本中，每一個特徵分詞賦予一個權重，表示這一特徵分詞在該文本中的重要程度。權重一般都是以特徵項的頻率為基礎進行計算，計算方式很多，例如，布林權值法，詞頻權值法，TF/IDF權值法，TFC權值法等，已有這種權重計算方法的計算也存在不少弊端，例如，TF/IDF權值法中TF表示特徵在單個文本中的數量，IDF表示特徵在整個語料中的數量，因此完全忽略了特徵對分類的影響。

因而，本申請提出了一種用於計算權重的較佳實施例，在本實施例中，所述步驟106可以包括如下子步驟：子步驟1061，獲取各特徵分詞在相應網頁的文本資料中出現的次數；子步驟1062，統計所述網頁的文本資料中特徵分詞的總數；子步驟1063，依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。

作為本申請較佳實施例具體應用的一種示例，所述子步驟1063具體可以透過如下公式計算各特徵分詞相應的權重：

在具體實現中，更佳的是，所述步驟105還可以包括如下子步驟：子步驟1064，對所述特徵分詞的權重進行歸一化處理。

作為本申請具體應用的一種示例，可以透過以下公式對所述特徵分詞的權重進行歸一化處理：

以上本申請的示例中所採用的權重則兼顧了特徵對分類影響，因而能進一步提升特徵選取的有效性。當然，本申請採用任一種權重計算方式均是可行的，對此本申請無需加以限制。

以上計算得到的各特徵分詞相應的權重(包括如子步驟1063得到的權重或如子步驟1064得到的歸一化權重)，可以作為一個文本的特徵向量，得到特徵向量之後可以選擇某個文本分類演算法訓練出分類模型。

步驟107，將所述權重作為相應特徵分詞的特徵向量，採用所述特徵向量訓練出分類模型。

本領域技術人員採用任一種文本分類演算法，比如貝葉斯機率演算法(Naive Bayese)，支援向量機，KNN演算法(k nearest neighbor)等採用特徵向量訓練出分類模型都是可行的，本申請對此不作限制。

本申請實施例透過改進特徵分詞的提取方式，以及，特徵分詞權重的計算方式，不僅有效保證了特徵提取的客觀性與準確性，還兼顧了特徵對分類影響，從而提高了網頁文本分類的準確性，更方便於使用者在海量的文本中及時準確地獲得有效的資訊。

參考圖3，示出了本申請的一種網頁文本識別的方法實施例的流程圖，具體可以包括如下步驟：步驟301，提取待識別網頁中的文本資料；步驟302，對所述文本資料進行分詞，獲得基礎分詞；步驟303，計算各基礎分詞的第一屬性值和第二屬性值；步驟304，依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；步驟305，依據所述特徵值從所述基礎分詞中篩選出特徵分詞；步驟306，計算各特徵分詞相應的權重；步驟307，將所述權重作為特徵向量輸入預先訓練出的分類模型中，獲得分類資訊；步驟308，針對所述待識別網頁標記分類資訊。

在本申請的一種較佳實施例中，所述第一屬性值可以為所述基礎分詞的資訊增益值，所述第二屬性值可以為所述基礎分詞相對於預定義的各個分類的卡方統計量值的標準差，所述特徵值可以為所述基礎分詞的區分度。

作為本申請具體應用的一種示例，可以透過如下公式依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值：

在本申請的一種較佳實施例中，所述步驟305可以包括如下子步驟：子步驟3051，將所述基礎分詞按照其對應的特徵值由高至低排列；子步驟3052，提取預設數量的，所述特徵值高於預設閾值的基礎分詞作為特徵分詞。

在本申請的一種較佳實施例中，所述步驟306可以包括如下子步驟：子步驟3061，獲取各特徵分詞在相應網頁的文本資料中出現的次數；子步驟3062，統計所述網頁的文本資料中特徵分詞的總數；子步驟3063，依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。

作為本申請較佳實施例具體應用的一種示例，所述子步驟3063具體可以透過如下公式計算各特徵分詞相應的權重：

在具體實現中，更佳的是，所述步驟306還可以包括如下子步驟：子步驟3064，對所述特徵分詞的權重進行歸一化處理。

其中，norm(weight)為歸一化之後的權重，weight 為所述特徵分詞的權重，min(weight)為所述網頁中文本資料中最小weight值，max(weight)為所述網頁中文本資料中最大weight值。

以上計算得到的各特徵分詞相應的權重，可以作為一個文本的特徵向量，得到特徵向量之後可以將其輸人按圖1所示的過程預先生成的分類模型中，即可獲得當前特徵向量所歸屬的分類資訊，最後將當前識別的網頁標記上相應的分類資訊即可。

需要說明的是，對於方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本申請實施例並不受所描述的動作順序的限制，因為依據本申請實施例，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於較佳實施例，所涉及的動作並不一定是本申請實施例所必須的。

參照圖4，示出了本申請的一種網頁文本分類的裝置實施例的結構框圖，具體可以包括如下模組：採集模組401，用於採集網頁中的文本資料；分詞模組402，用於對所述文本資料進行分詞，獲得基礎分詞；分詞屬性計算模組403，用於計算各基礎分詞的第一屬性值和第二屬性值；特徵值計算模組404，用於依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；特徵提取模組405，用於依據所述特徵值從所述基礎分詞中篩選出特徵分詞；特徵權重分配模組406，用於計算各特徵分詞相應的權重；模型訓練模組407，用於將所述權重作為相應特徵分詞的特徵向量，採用所述特徵向量訓練出分類模型。

作為本申請實施例具體應用的一種示例，所述特徵值計算模組404可以透過如下公式依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值：

在本申請的一種較佳實施例中，所述特徵提取模組405可以包括如下子模組：排序子模組4051，用於將所述基礎分詞按照其對應的特徵值由高至低排列；提取子模組4052，用於提取預設數量的，所述特徵值高於預設閾值的基礎分詞作為特徵分詞。

在本申請的一種較佳實施例中，所述特徵權重分配模組406可以包括如下子模組：次數統計子模組4061，用於獲取各特徵分詞在相應網頁的文本資料中出現的次數；分詞總數統計子模組4062，用於統計所述網頁的文本資料中特徵分詞的總數；計算子模組4063，用於依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。

作為本申請實施例具體應用的一種示例，所述計算子模組4063可以透過如下公式依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重：

在本申請的一種較佳實施例中，所述特徵權重分配模組406還可以包括如下子模組：歸一化子模組4064，用於對所述特徵分詞的權重進行歸一化處理。

作為本申請實施例具體應用的一種示例，所述歸一化子模組4064可以透過以下公式對所述特徵分詞的權重進行歸一化處理：

對於裝置實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

參照圖5，示出了本申請的一種網頁文本識別的裝置實施例的結構框圖，具體可以包括如下模組：文本提取模組501，用於提取待識別網頁中的文本資料；分詞模組502，用於對所述文本資料進行分詞，獲得基礎分詞；分詞屬性計算模組503，用於計算各基礎分詞的第一屬性值和第二屬性值；特徵值計算模組504，用於依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值；特徵提取模組505，用於依據所述特徵值從所述基礎分詞中篩選出特徵分詞；特徵權重分配模組506，用於計算各特徵分詞相應的權重；分類模組507，用於將所述權重作為特徵向量輸入預先訓練出的分類模型中，獲得分類資訊；標記模組508，用於針對所述待識別網頁標記分類資訊。

作為本申請實施例具體應用的一種示例，所述特徵值計算模組504可以透過如下公式依據所述第一屬性值和第二屬性值計算各基礎分詞的特徵值：

在本申請的一種較佳實施例中，所述特徵提取模組505可以包括如下子模組：排序子模組5051，用於將所述基礎分詞按照其對應的特徵值由高至低排列；提取子模組5052，用於提取預設數量的，所述特徵值高於預設閾值的基礎分詞作為特徵分詞。

在本申請的一種較佳實施例中，所述特徵權重分配模組506可以包括如下子模組：次數統計子模組5061，用於獲取各特徵分詞在相應網頁的文本資料中出現的次數；分詞總數統計子模組5062，用於統計所述網頁的文本資料中特徵分詞的總數；計算子模組5063，用於依據所述特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，所述網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。

在本申請的一種較佳實施例中，所述特徵權重分配模組506還可以包括如下子模組：歸一化子模組5064，用於對所述特徵分詞的權重進行歸一化處理。

本說明書中的每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本申請實施例的實施例可提供為方法、裝置、或電腦程式產品。因此，本申請實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本申請實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

在一個典型的配置中，所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備訪問的資訊。按照本文中的界定，電腦可讀媒體不包括非持續性的電腦可讀媒體(transitory media)，如調製的資料信號和載波。

本申請實施例是參照根據本申請實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器，使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上，使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

儘管已描述了本申請實施例的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附申請專利範圍意欲解釋為包括較佳實施例以及落入本申請實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本申請所提供的一種網頁文本分類的方法，一種網頁文本分類的裝置，一種網頁文本識別的方法，以及，一種網頁文本識別的裝置進行了詳細介紹，本文中應用了具體個例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。

Claims

一種網頁文本分類的方法，其特徵在於，包括：採集網頁中的文本資料；對該文本資料進行分詞，獲得基礎分詞；計算各基礎分詞的第一屬性值和第二屬性值；其中，該第一屬性值為該基礎分詞的資訊增益值，該第二屬性值為該基礎分詞相對於預定義的各個分類的卡方統計量值的標準差；依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值；依據該特徵值從該基礎分詞中篩選出特徵分詞；計算各特徵分詞相應的權重；將該權重作為相應特徵分詞的特徵向量，採用該特徵向量訓練出分類模型；其中，該特徵值為該基礎分詞的區分度；透過如下公式依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值：
其中，score為基礎分詞的區分度，igScore為基礎分詞的資訊增益值，chiScore為基礎分詞對相對於預定義的各個分類的卡方統計量值，n為預定義的分類的數量。
根據申請專利範圍第1項所述的方法，其中，所述依據該特徵值從該基礎分詞中篩選出特徵分詞的步驟包括：將該基礎分詞按照其對應的特徵值由高至低排列；提取預設數量的，該特徵值高於預設閾值的基礎分詞作為特徵分詞。
根據申請專利範圍第1項所述的方法，其中，所述計算各特徵分詞相應的權重的步驟包括：獲取各特徵分詞在相應網頁的文本資料中出現的次數；統計該網頁的文本資料中特徵分詞的總數；依據該特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，該網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。
根據申請專利範圍第3項所述的方法，其中，透過如下公式依據該特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，該網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重：
其中，weight為特徵分詞的權重，tf為特徵分詞在相應網頁的文本資料中出現的次數，n為網頁的文本資料中特徵分詞的總數，score為特徵分詞的區分度。
根據申請專利範圍第1或4項所述的方法，其中，所述計算各特徵分詞相應的權重的步驟還包括：對該特徵分詞的權重進行歸一化處理。
根據申請專利範圍第5項所述的方法，其中，透過以下公式對該特徵分詞的權重進行歸一化處理：
其中，norm(weight)為歸一化之後的權重，weight為該特徵分詞的權重，min(weight)為該網頁中文本資料中最小weight值，max(weight)為該網頁中文本資料中最大weight值。
一種網頁文本識別的方法，其特徵在於，包括：提取待識別網頁中的文本資料；對該文本資料進行分詞，獲得基礎分詞；計算各基礎分詞的第一屬性值和第二屬性值；其中，該第一屬性值為該基礎分詞的資訊增益值，該第二屬性值為該基礎分詞相對於預定義的各個分類的卡方統計量值的標準差；依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值；依據該特徵值從該基礎分詞中篩選出特徵分詞；計算各特徵分詞相應的權重；將該權重作為特徵向量輸入預先訓練出的分類模型中，獲得分類資訊；針對該待識別網頁標記分類資訊；其中，該特徵值為該基礎分詞的區分度；透過如下公式依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值：
其中，score為基礎分詞的區分度，igScore為基礎分詞的資訊增益值，chiScore為基礎分詞對相對於預定義的各個分類的卡方統計量值，n為預定義的分類的數量。
根據申請專利範圍第7項所述的方法，其中，所述依據該特徵值從該基礎分詞中篩選出特徵分詞的步驟包括：將該基礎分詞按照其對應的特徵值由高至低排列；提取預設數量的，該特徵值高於預設閾值的基礎分詞作為特徵分詞。
根據申請專利範圍第7項所述的方法，其中，所述計算各特徵分詞相應的權重的步驟包括：獲取各特徵分詞在相應網頁的文本資料中出現的次數；統計該網頁的文本資料中特徵分詞的總數；依據該特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，該網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。
根據申請專利範圍第7或9項所述的方法，其中，所述計算各特徵分詞相應的權重的步驟還包括：對該特徵分詞的權重進行歸一化處理。
一種網頁文本分類的裝置，其特徵在於，包括：採集模組，用於採集網頁中的文本資料；分詞模組，用於對該文本資料進行分詞，獲得基礎分詞；分詞屬性計算模組，用於計算各基礎分詞的第一屬性值和第二屬性值；其中，該第一屬性值為該基礎分詞的資訊增益值，該第二屬性值為該基礎分詞相對於預定義的各個分類的卡方統計量值的標準差；特徵值計算模組，用於依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值；該特徵值為該基礎分詞的區分度；該特徵值計算模組透過如下公式依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值：
其中，score為基礎分詞的區分度，igScore為基礎分詞的資訊增益值，chiScore為基礎分詞對相對於預定義的各個分類的卡方統計量值，n為預定義的分類的數量；特徵提取模組，用於依據該特徵值從該基礎分詞中篩選出特徵分詞；特徵權重分配模組，用於計算各特徵分詞相應的權重；模型訓練模組，用於將該權重作為相應特徵分詞的特徵向量，採用該特徵向量訓練出分類模型。
根據申請專利範圍第11項所述的裝置，其中，該特徵提取模組包括：排序子模組，用於將該基礎分詞按照其對應的特徵值由高至低排列；提取子模組，用於提取預設數量的，該特徵值高於預設閾值的基礎分詞作為特徵分詞。
根據申請專利範圍第11項所述的裝置，其中，該特徵權重分配模組包括：次數統計子模組，用於獲取各特徵分詞在相應網頁的文本資料中出現的次數；分詞總數統計子模組，用於統計該網頁的文本資料中特徵分詞的總數；計算子模組，用於依據該特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，該網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重。
根據申請專利範圍第13項所述的裝置，其中，該計算子模組透過如下公式依據該特徵分詞的特徵值，各特徵分詞在相應網頁的文本資料中出現的次數，以及，該網頁的文本資料中特徵分詞的總數，計算得到各特徵分詞相應的權重：
其中，weight為特徵分詞的權重，tf為特徵分詞在相應網頁的文本資料中出現的次數，n為網頁的文本資料中特徵分詞的總數，score為特徵分詞的區分度。
根據申請專利範圍第11或14項所述的裝置，其中，該特徵權重分配模組還包括：歸一化子模組，用於對該特徵分詞的權重進行歸一化處理。
根據申請專利範圍第15項所述的裝置，其中，該歸一化子模組透過以下公式對該特徵分詞的權重進行歸一化處理：
其中，norm(weight)為歸一化之後的權重，weight為該特徵分詞的權重，min(weight)為該網頁中文本資料中最小weight值，max(weight)為該網頁中文本資料中最大weight值。
一種網頁文本識別的裝置，其特徵在於，包括：文本提取模組，用於提取待識別網頁中的文本資料；分詞模組，用於對該文本資料進行分詞，獲得基礎分詞；分詞屬性計算模組，用於計算各基礎分詞的第一屬性值和第二屬性值；其中，該第一屬性值為該基礎分詞的資訊增益值，該第二屬性值為該基礎分詞相對於預定義的各個分類的卡方統計量值的標準差；特徵值計算模組，用於依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值；該特徵值為該基礎分詞的區分度；該特徵值計算模組透過如下公式依據該第一屬性值和第二屬性值計算各基礎分詞的特徵值：
其中，score為基礎分詞的區分度，igScore為基礎分詞的資訊增益值，chiScore為基礎分詞對相對於預定義的各個分類的卡方統計量值，n為預定義的分類的數量；特徵提取模組，用於依據該特徵值從該基礎分詞中篩選出特徵分詞；特徵權重分配模組，用於計算各特徵分詞相應的權重；分類模組，用於將該權重作為特徵向量輸入預先訓練出的分類模型中，獲得分類資訊；標記模組，用於針對該待識別網頁標記分類資訊。