TWI518528B

TWI518528B - Method, apparatus and system for identifying target words

Info

Publication number: TWI518528B
Application number: TW099140212A
Authority: TW
Original assignee: Alibaba Group Holding Ltd
Priority date: 2010-09-26
Filing date: 2010-11-22
Publication date: 2016-01-21
Also published as: EP2619651A4; JP2013545160A; JP5608817B2; HK1166397A1; CN102411563B; US20120078631A1; TW201214169A; EP2619651A1; CN102411563A; US8744839B2; WO2012039778A1

Description

識別目標詞的方法、裝置及系統

本申請涉及電腦領域，尤其涉及一種識別目標詞的方法、裝置及系統。

隨著互聯網技術的迅速發展，資訊呈現爆炸式地增長，資訊檢索、資訊分析、機器翻譯等領域也快速興起，對於中文資訊的處理，中文自動分詞已經成為一項基本性的任務。中文自動分詞是中文資訊處理中一項重要的基礎性任務，影響中文自動分詞效果的難點之一為未登錄詞識別。該未登錄詞是指沒有收錄至分詞詞典中的詞。對於未登錄詞又可分為兩種情況，一種是不可能全部收錄至詞典，但是能夠總結出規律的詞(如，人名、機構名等)；另一種是詞典中應該收錄，但是還沒有收錄的新詞，在這部分新詞中有些是詞，是應該收錄至分詞詞典中的目標詞，還有一部分不是詞，是不應該收錄的非目標詞。

在對新出現的詞進行識別時，首先要判斷該新出現的詞是不是詞，即判斷該新出現的詞是否為目標詞，目前的做法主要有三類：基於規則的方法，基於統計的方法，以及規則和統計相結合的方法。主流的基於統計的方法通常是在大規模文本資料的基礎上針對待識別詞的一個或幾個特徵量進行統計，根據統計結果人工設定閾值，在高於(或低於)設定閾值時，判斷該待識別詞為目標詞。

但是，隨著網路的廣泛應用，在網路上出現的文本資料很多情況下，只是一些關鍵字的堆砌，已經沒有完整的語義句式，例如，在電子商務網站中，特別是個人與個人之間的電子商務網站中，存在的海量商品標題。在這些關鍵字中，往往存在大量新出現的詞，但是，此時統計得到的這些新出現的詞的特徵值的分佈趨勢是非線性的，在進行識別時，通過針對特徵值設定單一閾值，再按照該單一閾值判斷該新出現的詞是不是目標詞，得到的結果是不準確的，因此，傳統基於統計的方法來判斷待識別詞是不是詞的方法，已經不能適應當前網路應用中的目標詞識別。

本申請提供一種識別目標詞的方法、裝置及系統，用以提高識別目標詞的準確率和召回率。

本申請實施例提供的具體技術方案為：一種識別目標詞的方法，包括：獲取候選詞集合以及特徵計算資料；基於最小粒度的文本資料對該特徵計算資料進行分詞劃分；針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合；確定該候選詞集合與該組合文本資料集合的交集；計算該交集中包含的每個組合文本資料的指定特徵值；根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。

一種識別目標詞的裝置，包括：獲取單元，用於獲取候選詞集合以及特徵計算資料；分詞單元，用於基於最小粒度的文本資料對該特徵計算資料進行分詞劃分；分詞組合單元，用於針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合；交集確定單元，用於確定該候選詞集合與該組合文本資料集合的交集；指定特徵值計算單元，用於計算該交集中包含的每個組合文本資料的指定特徵值；篩選單元，用於根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。

一種識別目標詞的系統，包括：識別目標詞裝置，用於獲取候選詞集合以及特徵計算資料，基於最小粒度的文本資料對該特徵計算資料進行分詞劃分，針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合，確定該候選詞集合與該組合文本資料集合的交集，並計算該交集中包含的每個組合文本資料的指定特徵值，根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合篩選條件的組合文本資料對應的候選詞確定為目標詞；訓練資料提供裝置，用於向識別目標詞裝置提供獲得篩選條件所需的訓練樣本詞集合，以及相應的樣本特徵計算資料；目標詞收錄裝置，用於接收識別目標詞裝置識別出的目標詞，並將未登錄的目標詞加入分詞詞典中。

基於上述技術方案，本申請實施例中，通過將特徵計算資料劃分為最小粒度的分詞，對劃分得到的多個分詞組合為多個組合文本資料，通過將候選詞和組合文本資料集合做交集，計算得到候選詞的多個指定特徵值，再根據該多個指定特徵值識別上述候選詞，實現了利用多個特徵值識別候選詞，並且篩選條件是通過分類演算法訓練得到，避免了人為設定帶來的誤差，提高識別的準確性和穩定性，在指定特徵值的分詞呈非線性時，也可以構建合適的篩選條件，正確識別出目標詞，提高了識別的準確率和召回率。

為了解決現有的基於統計方法識別文本資料的局限性，即只能利用較少的特徵值，並要求對特徵值的統計結果呈線性分佈，以及由人工調節特徵權值和設定閾值造成的誤差和不穩定性，本申請實施例中提供了一種識別目標詞的方法，可以利用任意維度的特徵值，並在特徵值的分佈趨勢為非線性時，也可正確識別出目標詞，而不需要人工干預，提高識別的準確率和召回率。該方法為：獲取候選詞集合以及特徵計算資料，基於最小粒度的文本資料對特徵計算資料進行分詞劃分，對經過分詞劃分處理的特徵計算資料進行分詞組合，獲得作為處理對象的組合文本資料集合，確定候選詞集合與組合文本資料集合的交集，並計算該交集中包含的每個組合文本資料的指定特徵值，根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對上述交集中包含的組合文本資料進行篩選，將指定特徵值符合篩選條件的組合文本資料對應的候選詞確定為目標詞。

其中，在候選詞是一個通常意義下的辭彙時，該候選詞即為目標詞；否則，在候選詞不是通常意義下的一個辭彙時，該候選詞為非目標詞。

例如，在候選詞集合中存在“蝙蝠袖”和“袖女裝”，其中，“蝙蝠袖”是一個通常意義下的辭彙，則該詞為目標詞，而“袖女裝”不是通常意義下的一個辭彙，則該詞為非目標詞。

候選詞集合可以是任意文本資料，其對應的特徵計算資料也可以是任意文本資料。本申請實施例中，優選採用用戶輸入的查詢關鍵字，根據用戶輸入的查詢關鍵字提取出的候選詞集合，並基於用戶輸入查詢關鍵字對應的查詢對象的描述資訊提取特徵計算資料。例如，在電子商務網站中，收集保存用戶輸入的用於查詢產品的查詢關鍵字，從該查詢關鍵字中提取出候選詞集合，從電子商務網站中產品的標題、產品的介紹等描述資訊中提取特徵計算資料。又例如，在新聞網站中，收集保存用戶輸入的用於查詢新聞的查詢關鍵字，從該查詢關鍵字中提取出候選詞集合，從新聞網站中的新聞標題、新聞內容等描述資訊中提取特徵計算資料。

上述候選詞集合與特徵計算資料的提取，可採用定期或者定量的方式進行。例如，定期從用戶輸入的查詢關鍵字中提取候選詞集合；對應地，定期提取的特徵計算資料；也可以是用於提取候選詞集合的用戶輸入的查詢關鍵字達到一定數量時，提取對應的特徵計算資料，然後執行本申請實施例進行目標詞識別。

本申請實施例中，準確率是指，在識別出來是目標詞的個數中，屬於正確識別的分詞的個數與識別出來是目標詞的個數的比率。召回率是指，在候選詞中，正確識別出是目標詞的個數與候選詞中實際上是目標詞的分詞的個數之間的比率。

最小粒度的文本資料可以是單個字，也可以是單個分詞。本申請實施例中，最小粒度的文本資料以單個分詞為例進行說明。

下面結合附圖對本申請優選的實施例進行詳細的說明。

參閱附圖1A所示，本申請實施例中，識別目標詞的系統包括識別目標詞裝置10、訓練資料提供裝置11和目標詞收錄裝置12，其中：識別目標詞裝置10，用於獲取候選詞集合以及特徵計算資料，基於最小粒度的文本資料對該特徵計算資料進行分詞劃分，針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合，確定該候選詞集合與該組合文本資料集合的交集，計算該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合篩選條件的組合文本資料對應的候選詞確定為目標詞；訓練資料提供裝置11，用於向識別目標詞裝置10提供獲得篩選條件所需的訓練樣本詞集合以及相應的樣本特徵計算資料；目標詞收錄裝置12，用於接收識別目標詞裝置10識別出的目標詞，並將未登錄的目標詞加入分詞詞典中。

基於上述系統架構，參閱附圖1B所示，本申請實施例中，識別目標詞裝置10包括以下處理單元：獲取單元101，用於獲取候選詞集合以及特徵計算資料；分詞單元102，用於基於最小粒度的文本資料對上述特徵計算資料進行分詞劃分；分詞組合單元103，用於針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合；交集確定單元104，用於確定該候選詞集合與該組合文本資料集合的交集；指定特徵值計算單元105，用於計算該交集中包含的每個組合文本資料的多個指定特徵值；篩選單元106，根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。

其中，上述基於多個指定特徵值的篩選條件可採用訓練樣本詞集合對分類演算法進行訓練得到。在獲得該篩選條件時，識別目標詞裝置10的獲取單元101，用於獲取訓練樣本詞集合以及樣本特徵計算資料；分詞單元102用於基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分；分詞組合單元103用於針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理，獲得作為處理對象的樣本組合文本資料集合；交集確定單元104用於確定該樣本組合文本資料集合與該訓練樣本詞集合的交集；指定特徵值計算單元105用於計算該交集中包含的每個樣本組合文本資料的多個指定特徵值；篩選單元106根據該交集中包含的每個樣本組合文本資料的多個指定特徵值，以及已知分類結果，設置該多個指定特徵值的門檻值，並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。

本申請實施例中，指定特徵可以包括互資訊、對數似然比、上下文熵(左熵、右熵)、基於位置的字構詞機率，還可以包括骰子矩陣(Dice)、卡方(Chi)等。在獲得篩選條件以及識別目標詞時，需用到的多個指定特徵值可以是上述指定特徵值中的任意兩種或兩種以上的組合。

其中，互資訊的計算公式為：

在公式[1]中，“a”，“b”分別代表最小粒度的單個分詞，“ab”代表兩個分詞組合後得到的組合文本資料，p_a、p_b分別代表分詞“a”、分詞“b”在特徵計算資料中出現的機率，p_ab代表“ab”在特徵計算資料中出現的機率，c_ab代表“ab”一起在特徵計算資料中出現的次數，c_a代表“a”在特徵計算資料中出現的次數，c_b代表“b”在特徵計算資料中出現的次數，n代表基於最小粒度的文本資料對特徵計算資料進行分詞劃分得到的分詞的個數，在分詞“a”和分詞“b”的互資訊計算中p_ab與p_a和p_b的積成負相關。

例如，假設特徵計算資料為“圓領女裝，蝙蝠袖女裝”，計算分詞“蝙蝠袖”的互資訊時，分詞“a”為“蝙蝠”，分詞“b”為“袖”，“ab”為“蝙蝠袖”，p_a是指分詞“蝙蝠”在特徵計算資料中出現的機率，p_b是指分詞“袖”在特徵計算資料中出現的機率，p_ab是指“蝙蝠袖”在特徵計算資料中出現的機率，c_ab是指“蝙蝠袖”在特徵計算資料中出現的次數，c_a代表“蝙蝠”在特徵計算資料中出現的次數，c_b代表“袖”在特徵計算資料中出現的次數，n代表基於最小粒度的文本資料對特徵計算資料進行分詞劃分得到的分詞的個數，這裏可以將特徵計算資料劃分為“圓領”、“女裝”、“蝙蝠”、“袖”、“女裝”5個分詞，可知c_ab為1，c_a為1，c_b為1，n為5。

其中，對數似然比是用於衡量各分詞之間的聯繫緊密性，計算公式為：

在公式[2]中，“a”，“b”分別代表最小粒度的單個分詞；k₁表示文本資料“ab”在特徵計算資料中出現的次數；n₁表示在採用最小粒度的文本資料對特徵計算資料進行分詞劃分，並在採用語言模型依序組合得到的多個組合文本資料中，“a”出現在左邊的組合文本資料的個數；k₂表示在上述採用語言模型依序組合得到的多個組合文本資料中，“b”出現在右邊，並且左邊不為a的組合文本資料的個數；n₂表示在上述採用語言模型依序組合得到的多個組合文本資料中，左邊不為“a”的組合文本資料的個數。

例如，基於與上例相同的特徵計算資料，在將特徵計算資料劃分為“圓領”、“女裝”、“蝙蝠”、“袖”、“女裝”5個分詞的情況下，採用語言模型對上述分詞進行二元組合得到“圓領女裝”、“女裝蝙蝠”、“蝙蝠袖”、“袖女裝”4個組合文本資料。計算“蝙蝠袖”的對數似然比時，k₁為“蝙蝠袖”在特徵計算資料中出現的次數，n₁為在上述4個組合文本資料中，“蝙蝠”出現在左邊的組合文本資料的個數，k₂為在上述4個組合文本資料中，“袖“出現在右邊，同時左邊不是“蝙蝠”的組合文本資料的個數，n₂為在上述4個組合文本資料中，左邊不是“蝙蝠”的組合文本資料的個數。

其中，上下文熵是用於表示多個分詞表達的使用自由度，熵是不確定因素的表達，熵越大說明隨機事件越不確定，只能在固定上下文中使用的字串，其上下文熵值小，而能在不同上下文中使用的字串其上下文熵值大，上下文熵包括左熵和右熵，左熵的計算公式為：

在公式[3]中，“a”，“b”分別代表最小粒度的單個分詞，“ab”代表兩個分詞組合後得到的文本資料，p(x|ab)是指在特徵計算資料中“ab”出現的前提下，左邊出現分詞“x”的機率，left是指“ab”的左邊出現分詞的集合，c_xab是指在“ab”的左邊出現分詞的次數，c_ab是指“ab”出現的次數，在左熵計算中，p(x|ab)和p(x|ab)以2為底的對數成正相關。

右熵的計算公式為：

在公式[4]中，“a”，“b”分別代表最小粒度的單個分詞，“ab”代表兩個分詞組合後得到的文本資料，p(y|ab)是指在特徵計算資料中“ab”出現的前提下，右邊出現分詞“y”的機率，right是指“ab”的右邊出現分詞的集合，在右熵計算中，p(y|ab)和p(y|ab)以2為底的對數成正相關。

例如，特徵計算資料為“圓領女裝，蝙蝠袖T恤，蝙蝠袖連衣裙”，採用最小粒度的文本資料對該特徵計算資料進行劃分後，得到“圓領”、“女裝”、“蝙蝠”、“袖”、“T恤”、“蝙蝠”、“袖”、“連衣裙”，在計算“蝙蝠袖”的左熵時，“a”為“蝙蝠”，“b”為“袖”，在“蝙蝠袖”的左邊出現的分詞有“女裝”和“T恤”，則“x”的個數為2，分別為“女裝”和“T恤”，“蝙蝠袖”出現的次數c_ab為2；在計算“蝙蝠袖”的右熵時，“a”為“蝙蝠”，“b”為“袖”，在“蝙蝠袖”的右邊出現的分詞“y”分別為“T恤”和“連衣裙”。

其中，基於位置的字構詞機率(in-word probability of a character)計算公式為：

IP(s)=IP(c,1)×IP _min(c,2)×IP(c,0)........................[5]

在公式[5]中，s是指待計算分詞，IP(c,1)指基於分詞詞典統計出的待計算分詞s的首個字元出現在分詞詞典中的分詞詞首的機率，IP(c,2)指基於分詞詞典統計出的待計算分詞s的中間位置的字元出現在分詞詞典中的分詞的中間位置的機率，在待計算分詞s的中間位置存在多個字元時，分別計算每個字元出現在分詞詞典中間位置的機率，然後取其中最小的一個作為IP _min(c,2)，以計算待計算分詞基於位置的字構詞機率，IP(c,0)指基於分詞詞典統計出的待計算分詞s的末尾字元出現在分詞詞典中的分詞的末尾的機率。在計算基於位置的字構詞機率時，IP(c,1)、IP _min(c,2)、IP(c,0)成正相關。本申請實施例中，在獲得篩選條件的流程中待計算分詞指的是樣本詞，在識別目標詞的流程中，待計算分詞指的是候選詞。

例如，待計算分詞為“阿迪達斯”，IP(c,1)指基於分詞詞典統計出的，所有首個字元為“阿”的分詞出現的機率，IP(c,0)指基於分詞詞典統計出的，所有末尾字元為“斯”的分詞出現的機率，IP(c,2)存在兩個值，一個值是基於分詞詞典統計出的，所有中間字元為“迪”的分詞出現的機率，另一個值是基於分詞詞典統計出的，所有中間字元為“達”的分詞出現的機率，在計算基於位置的字構詞機率時，在IP(c,2)的兩個值中選擇值最小的作為IP _min(c,2)。

本申請實施例中，在識別目標詞之前，首先需要獲得篩選條件，構建篩選條件的過程正是機器學習的過程，參閱附圖2所示，獲得篩選條件的具體流程如下：

步驟201：獲取訓練樣本詞集合以及樣本特徵計算資料，該訓練樣本詞集合為已知分類結果的詞的集合。

其中，上述已知分類結果的詞的集合是指，在該詞的集合中，已經獲知其中任意一個詞是否為目標詞，將同屬於目標詞的歸屬於一個類別，將不屬於目標詞的歸屬於另一個類別。

訓練樣本詞集合包括正例詞集合和反例詞集合，正例詞表示該詞是一個目標詞，反例詞表示該詞不是目標詞，而是雜訊詞。本申請實施例中，可以直接從已有的分詞詞典中獲取正例詞集合，從構建分詞詞典過程中人工審核得到的雜訊詞中獲取反例詞集合。

例如，“蝙蝠袖”為一個已知正例詞，也是目標詞，“袖T恤”是一個已知雜訊詞，即反例詞。

其中，上述樣本特徵計算資料中包含訓練樣本詞集合中的訓練樣本詞，和基於該樣本特徵計算資料計算訓練樣本詞集的各個指定特徵值。

步驟202：基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分。

上述最小粒度的文本資料可以是單個字，就是將樣本特徵計算資料以字為單位進行分詞劃分，將樣本特徵計算資料劃分為多個字，較佳地，可以將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料，將樣本特徵計算資料劃分為多個分詞。

本申請實施例中，相較於以單個字作為最小粒度的文本資料的方法，採用能夠表達語義的最簡潔辭彙作為最小粒度的文本資料，可以減少計算量，提高效率。

例如，對於樣本特徵計算資料為“圓領女裝，蝙蝠袖女裝”，將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料，對該樣本特徵計算資料進行分詞劃分，可以得到“圓領”、“女裝”、“蝙蝠”、“袖”、“女裝”5個分詞。

步驟203：針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理，以確定作為處理對象的樣本組合文本資料集合。

該步驟中採用語言模型對經過劃分處理的樣本特徵計算資料進行分詞組合處理。本申請實施例中，採用n元模型(n-gram語言模型，也稱為n階馬爾柯夫鏈)進行分詞組合處理，確定作為處理對象的樣本組合文本資料集合，具體為：採用基於n元視窗的n元模型，以劃分得到的分詞為基本單位，按照設定順序移動n元視窗，將視窗內包含的分詞進行組合處理，得到多個樣本組合文本資料。

本申請實施例中，n元模型中的n取2或3，在n取2時，表示採用二元視窗進行二元組合，即隨著視窗的移動，將劃分得到的分詞分別與相鄰的分詞進行兩兩組合。同樣地，在n取3時，表示採用三元視窗進行三元組合，即隨著視窗的移動，將劃分得到的分詞分別與相鄰的分詞進行三三組合。

例如，採用n元模型對上述劃分得到的分詞進行組合處理，在n取2時，可以得到組合後的文本資料“圓領女裝”、“女裝蝙蝠”、“蝙蝠袖”、“袖女裝”；又例如，在n取3時，可以得到組合後的文本資料“圓領女裝蝙蝠”、“女裝蝙蝠袖”、“蝙蝠袖女裝”。

步驟204：確定樣本組合文本資料集合與訓練樣本詞集合的交集。

步驟205：計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值。

根據上述基於最小粒度的文本資料對樣本特徵計算資料劃分後得到的分詞集合，以及上述作為處理對象的樣本組合文本資料集合，計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值，該多個指定特徵值可以包括互資訊的值，對數似然比的值，上下文熵(左熵、右熵)的值，基於位置的字構詞機率的值，還可以包括骰子矩陣(Dice)的值、卡方(Chi)的值等。

其中，在計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值時，可以通過計算樣本組合文本資料集合中的每個樣本組合文本資料的多個指定特徵值，進而獲得上述交集中包含的每個樣本組合文本資料的多個指定特徵值；也可以直接計算上述交集中包含的每個樣本組合文本資料的多個指定特徵值。

步驟206：根據上述交集中包含的每個樣本組合文本資料的多個指定特徵值，以及上述已知的分類結果，設置上述多個指定特徵值的門檻值，並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。

通過確定樣本組合文本資料集合和訓練樣本詞集合的交集，獲得與訓練樣本詞集合中每個詞相對應的多個指定特徵值，上述交集中包含的詞既是樣本組合文本資料，也是訓練樣本詞，已知該訓練樣本詞的分類結果，即已知該訓練樣本詞是否為目標詞，採用分類演算法對上述交集中的訓練樣本詞進行分類，將屬於目標詞的分為一類，將不屬於目標詞的分為另一類。

在採用分類演算法對訓練樣本詞進行分類時，分類演算法根據訓練樣本詞及相對應的指定特徵值，對該訓練樣本詞進行分類，將得到的分類結果與已知的該訓練樣本詞的分類結果進行比較，上述指定特徵值為上述多個指定特徵值中任意兩個或兩個以上的組合。如果比較後發現兩者不一致，分類演算法調整針對各個指定特徵值設定的門檻值，重新對該訓練樣本詞進行分類，重複上述過程，直至分類演算法基本能夠對該訓練樣本資料正確分類。以上過程為機器學習的過程，也是訓練過程，通過採用大量的訓練樣本資料重複上述訓練過程後，所得到的針對各個特徵值設定的門檻值，再由各個特徵值設定的門檻值形成相對應的篩選條件。

其中，獲得的篩選條件為基於特定知識的表達方式，該基於知識的表達方式可以是樹、圖、網路、規則等離散結構，也可以是數學公式。

例如，在採用梯度漸近決策樹(Gradient boosting and Decision tree，GBDT)分類演算法時，採用訓練樣本詞集合對該分類演算法進行訓練，得到篩選條件為樹型結構的分類規則，GBDT分類演算法採用若干決策樹組成，決策樹可以表示為：

其中，R_i表示一個區間(如，R _i={x|x ₁<0.2,0.3 x ₂<0.7})。基於該決策樹，GBDT分類演算法可以表示為：

其中，F _m(x)為可用最小二乘法、最大熵進行估算的函數。

採用訓練樣本詞集合對GBDT分類演算法進行訓練，例如，該訓練樣本詞集合包含的正例詞為“羅漢果茶”、“膠針槍”、“蘋果醋”，包含的反例詞為“立版”、“課課練”。假設基於樣本特徵計算資料分別計算每個訓練樣本詞的特徵值，計算出的“羅漢果茶”的互資訊為3.03，左熵為2.52，“膠針槍”的互資訊為3.93，左熵為0，“蘋果醋”的互資訊為1.39，左熵為3.88，“立版”的互信息為0.66，左熵為1.88，“課課練”的互信息為13.68，左熵為2.88。則基於該訓練樣本詞集合，以及每個樣本詞的特徵值，得到的篩選條件為：判斷指定特徵值中的互資訊的值所屬的區間，如果互資訊的值大於1.0且小於8.0，則返回1；否則，執行如下判斷：判斷指定特徵值中的左熵的值所屬的區間，如果左熵的值小於0.9或者是大於2.2且小於2.65或者是大於3.3，則返回1；否則，返回0。

其中，返回1表示輸入的為正例詞，返回0則表示返回的為反例詞。

該例中的篩選條件僅是基於少數訓練樣本詞以及每個訓練樣本詞的少量指定特徵值得到的。實際應用中，可根據本申請實施例，使用大規模的訓練樣本詞對分類演算法進行訓練得到能夠正確識別目標詞的篩選條件。

基於上述系統架構，參閱附圖3所示，本申請實施例中，識別目標詞的詳細流程如下：

步驟301：獲取候選詞集合以及特徵計算資料。

例如，在C2C網站的查詢日誌中，獲取用戶每週輸入的查詢關鍵字，通過對噪音、查詢次數等進行過濾，獲得候選資料，並將最新的C2C網站賣家填寫的商品標題作為特徵計算資料。

步驟302：基於最小粒度的文本資料對上述特徵計算資料進行分詞劃分。

上述最小粒度的文本資料可以是單個字，就是將特徵計算資料以字為單位進行分詞劃分，將特徵計算資料劃分為多個字。較佳地，可以將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料，將特徵計算資料劃分為多個分詞。

本申請實施例中，相較於以單個字作為最小粒度的文本資料的方法，採用能夠表達語義的最簡潔辭彙作為最小粒度的文本資料，同樣可以保證識別結果，並且可以減少計算量，提高效率。

步驟303：針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合。

採用語言模型對經過劃分處理的特徵計算資料進行分詞組合處理，本申請實施例中，採用n元模型進行分詞組合處理，確定作為處理對象的組合文本資料集合，具體為：採用基於n元視窗的n元模型，以劃分得到的分詞為基本單位，按照設定順序移動n元視窗，將視窗內包含的分詞進行組合處理。本申請實施例中，n元模型中的n取2或3，在n取2時，表示採用二元視窗進行二元組合，即隨著視窗的移動，將劃分得到的分詞分別與相鄰的分詞進行兩兩組合，同樣地，在n取3時，表示採用三元視窗進行三元組合，即隨著視窗的移動，將劃分得到的分詞分別與相鄰的分詞進行三三組合。

例如，特徵計算資料為“阿迪達斯品牌運動鞋免運費”，將能夠表達語義的最簡潔辭彙作為最小粒度的文本資料，對該特徵計算資料進行分詞劃分，可以得到分詞“阿迪達斯”、“品牌”、“運動鞋”、“免運費”，採用n元模型進行二元組合(即n取2)，可以得到“阿迪達斯品牌”、“品牌運動鞋”、“運動鞋免運費”；假設，基於上述同樣的特徵計算資料劃分得到的分詞“阿迪達斯”、“品牌”、“運動鞋”、“免運費”，採用n元模型進行三元組合(即n取3)，可以得到“阿迪達斯品牌運動鞋”、“品牌運動鞋免運費”。

步驟304：確定上述候選詞集合與上述組合文本資料集合的交集。

步驟305：計算上述交集中包含的每個組合文本資料的多個指定特徵值。

該多個指定特徵值可以包括以下值中的任意兩種或兩種以上的組合：互信息的值、對數似然比的值、上下文熵(左熵、右熵)的值、基於位置的字構詞機率的值、骰子矩陣的值、卡方的值等。

本申請實施例中，在計算指定特徵值時，可以將公式中的“a”詞和“b”詞分別看作是由多個分詞組合而成的文本資料，再按照公式計算出各個指定特徵值。

例如，對於文本資料“abc”，在計算互資訊時，可拆分為“ab”和“c”，或者是拆分為“a”、“bc”，則分別針對得到的上述兩組文本資料分別計算互資訊的值，然後取兩個計算結果中值最大的一個作為文本資料“abc”的互資訊；同樣地，在計算對數似然比時，也可拆分為“ab”和“c”，或者是拆分為“a”、“bc”，則分別針對得到的上述兩組文本資料分別計算對數似然比的值，然後取兩個計算結果中值最大的一個作為文本資料“abc”的對數似然比的值。

步驟306：根據上述交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞。

其中，交集中的組合文本資料同時也是候選詞，在計算交集中包含的每個組合文本資料的多個指定特徵值時，可以通過計算組合文本資料集合中每個組合文本資料的多個指定特徵值，進而獲得上述交集中包含的每個組合文本資料的多個指定特徵值；也可以是直接計算交集中包含的每個組合文本資料的多個指定特徵值。計算得到的上述交集中包含的組合文本資料的各個指定特徵值，同時也是與候選詞相對應的各個指定特徵值。

該基於多個指定特徵值的篩選條件是由構建篩選條件的過程(即訓練過程)獲得的。根據採用的分類演算法的不同，該預設的篩選條件的表現形式也不相同，可以是樹、圖、網路、規則等離散結構，也可以是數學公式。例如，預設的篩選條件可以用數學公式表示為：

，其中，p _i=exp(L _i-c)，L ₁=-0.0728575×MI+0.17012×LE，L₂=0.0728575×MI-0.17012×LE，，該數學公式表示，在根據指定特徵值計算得到的p₁大於p₂時，可判定候選詞為目標詞，否則，可判定候選詞不是目標詞。

按照預設的篩選條件對候選詞進行篩選時，將上述交集中包含的組合文本資料的指定特徵值，和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較，將指定特徵值符合門檻值的組合文本資料對應的候選詞確定為目標詞。其中，在將交集中包含的組合文本資料的指定特徵值和基於預設的篩選條件確定的與指定特徵值相對應的門檻值進行比較時，可以是將上述交集中包含的組合文本資料的指定特徵值，和基於預設篩選條件確定的與該指定特徵值相對應的門檻值直接比較，或者是將上述交集中包含的組合文本資料的指定特徵值，輸入基於篩選條件確定的公式中，計算出的值再與篩選條件確定的門檻值進行比較。

本申請實施例中，在對候選詞進行識別之後，獲知該候選詞為目標詞時，將該目標詞與已知分詞詞典進行比對，在該已知分詞詞典中不包含該目標詞時，確定該目標詞為未登錄詞，將該目標詞加入上述分詞詞典中。

較佳地，可以在對候選詞進行識別之前，將該候選詞與已知分詞詞典進行比較，如果該已知分詞詞典中不包含該分詞，則對上述候選詞進行識別，在確定該候選詞為目標詞後，加入上述已知分詞詞典中；如果將上述候選詞與已知分詞詞典進行比較後，發現該候選詞已經存在於該分詞詞典中，說明該候選詞為已登錄詞，即該候選詞是目標詞，並且已經收錄至分詞詞典，無需再執行識別流程。

基於上述實施例，通過對特徵計算資料進行分詞劃分，將特徵計算資料劃分為最小粒度的分詞，再通過語言模型進行分詞組合，基於組合後的文本資料計算得到候選詞的各個指定特徵值，按照預設的篩選條件，對該候選詞進行識別，從而利用多個指定特徵值對候選詞進行識別，並且在識別時預設的篩選條件是採用訓練資料對分類演算法進行訓練獲得，並非人為設定的閾值，從而避免了人為設定造成的誤差，提高了準確性和穩定性，並且採用對分類演算法進行訓練構建出的篩選條件對候選詞進行識別，並不要求候選詞的各個指定特徵值呈線性分佈，對於各個指定特徵值呈非線性分佈的情況，也可以正確識別候選詞，提高了識別的準確率和召回率。

顯然，本領域的技術人員可以對本申請進行各種改動和變型而不脫離本發明的精神和範圍。這樣，倘若本申請的這些修改和變型屬於本申請之申請專利範圍及其等同技術的範圍之內，則本申請也意圖包含這些改動和變型在內。

10．．．識別目標詞裝置

11．．．訓練資料提供裝置

12．．．目標詞收錄裝置

101．．．獲取單元

102．．．分詞單元

103．．．分詞組合單元

104．．．交集確定單元

105．．．指定特徵值計算單元

106．．．篩選單元

圖1A為本申請實施例中識別目標詞的系統架構圖；

圖1B為本申請實施例中識別目標詞裝置結構圖；

圖2為本申請實施例中獲得篩選條件的詳細流程圖；

圖3為本申請實施例中識別目標詞的詳細流程圖。

Claims

一種識別目標詞的方法，其特徵在於，包括：獲取候選詞集合以及特徵計算資料；基於最小粒度的文本資料對該特徵計算資料進行分詞劃分；針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合；確定該候選詞集合與該組合文本資料集合的交集；計算該交集中包含的每個組合文本資料的指定特徵值；根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞，其中，該篩選條件通過以下步驟取得：選取訓練樣本詞集合以及樣本特徵計算資料，該訓練樣本詞集合為已知分類結果的詞的集合；基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分；針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理，獲得作為處理對象的樣本組合文本資料集合；確定該樣本組合文本資料集合與該訓練樣本詞集合的交集；計算該交集中包含的每個樣本組合文本資料的多個指定特徵值；根據該交集中包含的每個樣本組合文本資料的多個指定特徵值，以及該已知分類結果，設置該多個指定特徵值的門檻值，並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。
如申請專利範圍第1項所述的方法，其中，該進行分詞組合處理包括：採取基於n元視窗的n元模型，按照設定順序移動n元視窗，將視窗內包含的分詞進行分詞組合，得到組合後的組合文本資料。
如申請專利範圍第1項所述的方法，其中，根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞，包括：將該交集中包含的組合文本資料的指定特徵值，和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較，將指定特徵值符合相應門檻值的組合文本資料對應的候選詞確定為目標詞。
如申請專利範圍第3項所述的方法，其中，將該交集中包含的組合文本資料的指定特徵值，和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較，包括：將該交集中包含的組合文本資料的指定特徵值，和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較；或者將該交集中包含的組合文本資料的指定特徵值，輸入基於篩選條件確定的公式進行計算，計算出的值再與篩選條件確定的門檻值進行比較。
如申請專利範圍第1-4項之任一項所述的方法，其中，該組合文本資料的指定特徵值至少包含互資訊、對數似然比、左熵、右熵和基於位置的字構詞機率值中的任意兩種或兩種以上的組合。
一種識別目標詞的裝置，其特徵在於，包括：獲取單元，用於獲取候選詞集合以及特徵計算資料；分詞單元，用於基於最小粒度的文本資料對該特徵計算資料進行分詞劃分；分詞組合單元，用於針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合；交集確定單元，用於確定該候選詞集合與該組合文本資料集合的交集；指定特徵值計算單元，用於計算該交集中包含的每個組合文本資料的指定特徵值；篩選單元，用於根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞，其中，該篩選單元的篩選條件通過以下步驟獲得：選取訓練樣本詞集合以及樣本特徵計算資料，該訓練樣本詞集合為已知分類結果的詞的集合；基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分；針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理，獲得作為處理對象的樣本組合文本資料集合；確定該樣本組合文本資料集合與該訓練樣本詞集合的交集；計算該交集中每個樣本組合文本資料的多個指定特徵值；根據該交集中包含的每個樣本組合文本資料的多個指定特徵值，以及該已知分類結果，設置該多個指定特徵值的門檻值，並基於該門檻值得到相應的基於多個指定特徵值的篩選條件。
如申請專利範圍第6項所述的裝置，其中，該篩選單元根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞，具體為：將該交集中包含的組合文本資料的指定特徵值，和基於預設的篩選條件確定的與該指定特徵值相對應的門檻值進行比較，將指定特徵值符合相應門檻值的組合文本資料對應的候選詞確定為目標詞。
一種識別目標詞的系統，其特徵在於，包括：識別目標詞裝置，用於獲取候選詞集合以及特徵計算資料，基於最小粒度的文本資料對該特徵計算資料進行分詞劃分，針對經過分詞劃分處理的特徵計算資料進行分詞組合處理，獲得作為處理對象的組合文本資料集合，確定該候選詞集合與該組合文本資料集合的交集，並計算該交集中包含的每個組合文本資料的指定特徵值，根據該交集中包含的每個組合文本資料的多個指定特徵值，按照預設的基於多個指定特徵值的篩選條件對該交集中包含的組合文本資料進行篩選，將指定特徵值符合該篩選條件的組合文本資料對應的候選詞確定為目標詞，其中，該篩選條件通過以下步驟取得：選取訓練樣本詞集合以及樣本特徵計算資料，該訓練樣本詞集合為已知分類結果的詞的集合；基於最小粒度的文本資料對該樣本特徵計算資料進行分詞劃分；針對經過分詞劃分處理的樣本特徵計算資料進行分詞組合處理，獲得作為處理對象的樣本組合文本資料集合；確定該樣本組合文本資料集合與該訓練樣本詞集合的交集；計算該交集中包含的每個樣本組合文本資料的多個指定特徵值；根據該交集中包含的每個樣本組合文本資料的多個指定特徵值，以及該已知分類結果，設置該多個指定特徵值的門檻值，並基於該門檻值得到相應的基於多個指定特徵值的篩選條件；訓練資料提供裝置，用於向識別目標詞裝置提供獲得該篩選條件所需的該訓練樣本詞集合，以及相應的該樣本特徵計算資料；目標詞收錄裝置，用於接收識別目標詞裝置識別出的目標詞，並將未登錄的目標詞加入分詞詞典中。