TWI519976B

TWI519976B - Category misplaced recognition methods and devices

Info

Publication number: TWI519976B
Application number: TW100116340A
Authority: TW
Original assignee: Alibaba Group Holding Ltd
Priority date: 2011-01-25
Filing date: 2011-05-10
Publication date: 2016-02-01
Also published as: JP2014507716A; WO2012102898A1; TW201232301A; EP2668590A4; US20130304687A1; JP5864614B2; CN102609422A; US8812420B2; US9104968B2; JP2016066376A; EP2668590A1; US20140297577A1; JP6109290B2; CN107122980A; CN107122980B

Description

類目錯放識別方法和裝置

本發明關於資料處理領域，尤其關於一種類目錯放識別方法和裝置。

隨著電子商務的發展，開網店和網購在線民中越來越普遍。網上交易系統提供一個網上交易平臺，其按照類目對網店的商品進行管理。每個大的類目可以劃分成更細的子類目，形成一顆類目樹。網購商品不斷增多，類目樹也不斷增長，隨之產生一個問題，開網店的賣家會無意或者故意將所賣的商品放在錯誤的類目下，這被稱為類目錯放。

類目錯放會導致搜索結果不準確，並造成系統儲存、計算資源的浪費，而且對用戶造成不好的體驗。例如，用戶通過點擊類目樹，查看類目A的商品，卻看到了類目B的商品，並且也會對賣家造成損失，例如放到錯誤的類目下的商品可能會被忽略掉。如果能夠識別出類目錯放的商品，將其改正，則可以消除上述負面影響，提高系統的儲存和計算資源的利用率，給買家和賣家帶來更好的服務。

對商品類目錯放進行識別的一種方法是，通過點擊字典進行類目錯放識別。其中，點擊字典由多條記錄組成，每條記錄中標明在用戶的一個查詢的搜索結果中，用戶點擊到某個類目的機率。通過記錄用戶的查詢和點擊行為，能夠得到對於一個查詢，用戶點擊的商品的分佈。當判斷一個商品是否屬於類目錯放的時候，將該商品的標題進行分詞，將標題分詞後的每個詞當作一個查詢，在點擊字典裏查找該查詢的類目分佈，如果查找到原來標注的類目，就認為不是類目錯放，否則認為類目錯放。

用上述的方法，在對大量資料(如千萬、上億級商品資料)進行錯放識別時遺漏情況嚴重，只能識別並召回幾萬的類目錯放的資料。一個原因是點擊字典資料量龐大且分佈具有稀疏性，大部分類目錯放的商品沒有被點擊字典中的查詢覆蓋到。另一個原因是，這種方式運算量大，且運算過程複雜，對系統資源要求高，計算時間長。

因此，上述方法不能滿足網際網路行業快速回應的業務需求。如何提供一種類目錯放識別技術，以減少類目錯放的遺漏，降低類目錯放識別對系統資源要求，提高系統的儲存和計算資源的利用率，是本發明所需要解決的技術問題。

本發明的目的在於，提供一種類目錯放識別方法和裝置，以減少類目錯放識別的遺漏機率，降低類目錯放識別對系統資源要求，節省系統資源，提高運算效率。

為了實現上述目的，本發明的一個方案提供了一種類目錯放識別方法，包括如下步驟：獲取商品標題中各個詞在當前類目下的詞頻；根據各個詞在當前類目下的詞頻，計算所述商品標題的綜合詞頻；以及將所述綜合詞頻與當前類目的第一臨限值相比較，根據比較結果確定是否存在類目錯放。

本發明的另一個方案提供了一種類目錯放識別方法，包括如下步驟：獲取商品標題中各個詞在當前類目下的TOP值；詞在類目下的TOP值為一個類目下，詞頻高於該詞的所有詞的詞頻之和；根據預先確定的TOP值與相關度值的映射關係，獲取各個詞的TOP值對應的相關度值，並將各個詞的TOP值對應的相關度值相加，獲取商品標題在所述當前類目下的綜合相關度值；將所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放。

本發明的再一個方案提供了一種類目錯放識別裝置，包括：詞頻獲取模組，用於獲取商品標題中各個詞在當前類目下的詞頻；綜合詞頻計算模組，用於根據所述詞頻獲取模組獲取的各個詞在當前類目下的詞頻，計算所述商品標題的綜合詞頻；以及類目錯放確定模組，用於將所述綜合詞頻計算模組計算得到的綜合詞頻與當前類目的第一臨限值相比較，根據比較結果確定是否存在類目錯放。

本發明的又一個方案提供了一種類目錯放識別裝置，包括：TOP值獲取模組，用於獲取商品標題中各個詞在當前類目下的TOP值；其中，詞在當前類目下的TOP值為當前類目下，詞頻比該詞高的所有詞的詞頻之和；綜合相關度值獲取模組，用於根據預先確定的TOP值與相關度值的映射關係，獲取所述TOP值獲取模組得到的各個詞的TOP值對應的相關度值，並將各個詞的TOP值對應的相關度值相加，獲取商品標題在當前類目下的綜合相關度值；以及類目錯放確定模組，用於將所述綜合相關度值獲取模組獲取的所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放。

本發明提供的方法和裝置，能夠通過將商品標題的綜合詞頻與當前類目的第一臨限值相比較來確定是否存在類目錯放；此外，由於TOP值能夠反映商品標題與類目的匹配程度，所以根據TOP值確定的商品標題與類目的綜合相關度值也就能夠反映商品標題與類目的匹配程度，根據商品標題在當前類目下的綜合相關度值與第二臨限值相比的比較結果來確定是否存在類目錯放，可以準確識別出類目錯放；通過設置第二臨限值，可以減少類目錯放識別的遺漏機率，例如，如果第二臨限值設置較低，即可以識別出大多數類目錯放。另外，本發明提供的方法中，主要涉及到TOP值的獲取和綜合相關度值的獲取，獲取這兩個值的運算與習知技術相比，所需的系統資源要求低，從而可以節省系統資源，提高運算效率。

通過以下參照附圖對較佳實施例的說明，本發明的上述以及其他目的、特徵和優點將更加明顯。

下面將詳細描述本發明的實施例。應當注意，這裏描述的實施例只用於舉例說明，並不用於限制本發明。商品是按照類目存放的，每個商品都有一個標題，作為對這件商品的描述。類目和標題是商品的兩個最基本的屬性。

標題一般是一個短語，可以通過分詞將標題分成詞的集合。標題和詞的關係可以用如下公式(1)來表示：

T=t₁t₂...t_n　(1)

上述公式(1)中，T表示標題，標題T是由許多詞t(包括t₁,t₂,...,t_n，其中n為正整數)構成。

另外，在本發明的實施例中，還需要統計一個類目下商品的數量。具體地，根據預先設置的規則，一件商品能夠且只能放在唯一的類目下，因此所有類目下商品的數量之和等於所有商品的數量。一個類目下的商品數量能夠體現出該類目出現的頻率。

為了識別類目錯放，可以首先檢測商品標題和該商品標題所在的當前類目是否匹配。也就是說，給定一個類目，對於不同的商品標題，可以首先度量每個商品標題與當前類目的匹配程度。

下面詳細介紹本發明的實施例。

實施例一

圖1示例性示出本發明類目錯放識別方法實施例一的流程圖，該實施例包括：步驟101、獲取商品標題中各個詞在當前類目下的詞頻。

提供一包括多個類目的資料庫，該資料庫中每個類目下包括至少一詞以及每個詞在該類目下的詞頻；其中，詞頻為詞在各類目下的機率值。一般而言，一個詞在不同類目下的詞頻是不同的。下面結合實例來具體說明“詞頻”的概念。

一個商品標題由一個詞或多個詞構成，而每個詞在不同的類目下出現的頻率是不同的。比如“耐克”會在“運動鞋”和“運動服”等運動產品類目下的商品標題中大量出現，而“諾基亞”在“手機”類目下的商品標題中大量出現。相反地，“耐克”在“手機”類目下的商品標題中很少出現，“諾基亞”在“運動鞋”類目下的商品標題中很少出現。可見，同樣的詞在不同的類目下的詞頻是不同的，可利用這種不同對類目進行區分。

根據本發明的實施例，可以統計所有的詞在所有類目下的詞頻。具體地，對於給定詞t和類目C，可以得到詞頻TF_t,C，TF_t,C表示詞t在類目C下出現的機率，即P(t|C)。根據一個類目下所有商品標題中詞的數量，可以將該詞頻TF_t,C歸一化為(0,1)之間的一個數值。t和C進行不同組合，可以得到多個詞頻。

在實際應用中，對於市場上出現的商品標題中存在的各種詞，都能夠得到其在不同類目下的詞頻，以建立在一個資料庫中。該資料庫可以儲存在如ROM、RAM等各種儲存裝置中。

步驟102、根據各個詞在當前類目下的詞頻，計算所述商品標題的綜合詞頻；該步驟中，可根據已經取得的各個詞在當前類目下的詞頻，通過累加等方式計算所述商品標題的綜合詞頻，或者，還可根據所述商品標題中各個順序、是否重複等資訊，為各個詞設定權重值，根據各個詞的權重值和詞頻，通過加權計算所述商品標題的綜合詞頻。本發明實施例中對此不作限定。

步驟103、將所述綜合詞頻與當前類目的第一臨限值相比較，根據比較結果確定是否存在類目錯放。

其中，所述第一臨限值可根據所述資料庫中每個類目下包括的詞以及每個詞在該類目下的詞頻進行設定。所述綜合詞頻越低，表明該商品標題的商品分類在當前類目下的可能性越低，當低於設定的所述第一臨限值時，可以認為存在類目錯放。

其中，所述第一臨限值在不同的類目下可以是不同的。也就是說，根據商品標題中的詞在不同類目下的詞頻的分佈特點，可在不同的類目下預先設置不同的第一臨限值，以建立第一臨限值資料庫。該第一臨限值資料庫可以與所述包括多個類目的資料庫合併為一個資料庫，也可以是兩個獨立的資料庫，並可以儲存在相應的儲存裝置中。

舉例而言，假設在“運動鞋”這一類目下的第一臨限值可以設為0.6，而在“手機”這一類目下的第一臨限值可以設為3。並假設“耐克慢跑鞋”在“運動鞋”類目下得到的綜合詞頻為1.5，在“手機”類目下得到的綜合詞頻為0.2。由於“耐克慢跑鞋”在“運動鞋”類目下得到的綜合詞頻為1.5大於該類目下的第一臨限值0.6，這表明分類在該類目下的可能性較高。而“耐克慢跑鞋”在“手機”類目下得到的綜合詞頻為0.2，遠小於該類目下的第一臨限值3，這表明分類在該類目下的可能性非常小。

此外，在進行詞頻統計時，有些詞在各個類目下都大量出現，比如“沖鑽”、“優惠”、“熱賣”等詞，“【】”等符號的修飾詞，以及“的”、“也”等助詞，這些詞稱為停用詞。由於停用詞在所有類目下的商品標題中出現的頻率波動不大，對於區分商品所屬的類目幫助不大，如果對這些停用詞也進行詞頻統計，不但會浪費計算資源，有時甚至會出現反作用。例如A類目下的商品標題中大量出現某個停用詞x，在B類目下的商品標題中如果偶爾出現x，則這商品有被放到A類目下的可能。

為了減少停用詞對於類目識別的影響，最好，可以預先設置一個停用詞表，根據這個停用詞表可以將商品標題中的停用詞剔除掉，從而有助於減少運算量，降低誤判率。

下面介紹確定停用詞的方法。

根據停用詞的定義，一個詞的詞頻在多個類目下分佈越均勻，這個詞成為停用詞的可能性越高。可以根據每個詞在所有類目下的分佈熵來確定這個詞是否是停用詞，停用詞的確定可採用多種方案，以下列舉一實例進行說明，需要說明的是，該實例不構成對本發明中停用詞確定方式的限定。

具體地，可以根據如下公式(2)計算一個詞在所有類目下的分佈熵：

上述公式(2)中，Ent(t)表示詞t在所有類目下的分佈熵，P(t|C_i)為詞t在類目C_i下的詞頻，n為正整數。

計算出所有詞的分佈熵後，將各個詞按照分佈熵從大到小的順序排列。根據各個詞的排列，確定一個臨限值。分佈熵高於臨限值的詞確定為停用詞，列入到停用詞表中。根據本發明的一個實施例，該臨限值可以根據資料處理的實際需要來確定。

在本發明的實施例一以及後續的類目錯放識別的各個實施例中，可以將停用詞過濾掉，從而減少運算量，降低誤判率，提高資料處理的速度。

實施例二

圖2示例性示出本發明類目錯放識別方法實施例二的流程圖，該實施例包括：步驟201、獲取商品標題中各個詞在當前類目下的TOP值；本實施例中，提供一包括多個類目的資料庫，該資料庫中每個類目下包括至少一詞以及每個詞在該類目下的TOP值。

在本實施例中，採用了TOP值。一個詞在一個類目下的TOP值為該類目下，詞頻比該詞高的所有詞的詞頻之和。例如，類目C下詞頻從高到低的3個詞依次是t₁，t₂和t₃，這三個詞對應的詞頻分別為p₁，p₂和p₃，對應於t₁，t₂，t₃這3個詞的TOP值分別為0，p₁，p₁+p₂。TOP值反映出一個商品標題中的詞和一個類目的匹配程度，通過TOP值可以簡化類目錯放識別複雜度。在上面的例子中，t₁的詞頻p₁最高，其TOP值為0；t₃的詞頻p₃最低，其TOP值為p₁+p₂。也就是說，商品標題中的詞在某一類目下的TOP值越低，則該商品標題中的該詞在該類目下的匹配程度越高；反之，在某一類目下的TOP值越高，則該商品標題中的該詞在該類目下的匹配程度越低。

在計算每個類目下的各商品標題中的每個詞在該類目下的TOP值時，同樣可以首先過濾掉停用詞，即不計算停用詞的TOP值，以使TOP值更能反映出一個商品標題中的詞和一個類目的匹配程度。

具體地，在該步驟201中，對於某一個商品標題，為了識別該商品標題是否放在錯誤的類目下，可以首先獲取該商品標題中的各個詞在該商品標題的當前類目下的TOP值。該商品標題中的各個詞可以是通過分詞的方式獲得。步驟202、根據預先確定的TOP值與相關度值的映射關係，獲取各個詞的TOP值對應的相關度值，並將各個詞的TOP值對應的相關度值相加，獲取商品標題的綜合相關度值。

表一示例性示出了本發明實施例中TOP值與相關度值的映射關係。

表一中的相關度值體現了某一個TOP值對應的類目與詞的相關程度。在獲取到各個詞的TOP值以後，通過表一就可以獲取各個詞對應的相關度值。

由於TOP值中機率值是數值非常小的多位數字，如果直接以TOP值相加，其計算量大，並且計算出的結果差別小，不能很好地反映出商品標題在對應類目相關程度的高低。因此，本發明實施例中，通過TOP值與相關度值的關係表，將TOP值對應的相關度值根據TOP值的分佈狀況進行量化，以簡化TOP值的計算，這不但可以降低計算的複雜度，而且可以更好地反映出商品標題在對應類目的相關程度。

表一中TOP值與相關度值的映射關係可以根據資料處理的實際需求來設置，表一中只是給出一個示例性的例子，TOP值與相關度值的映射關係不限於表一所示。

在獲取各個詞的TOP值對應的相關度值後，將各個詞的TOP值對應的相關度值相加，即可得到商品標題與當前類目的綜合相關度值。具體地，可以如公式(3)所示：

上述公式(3)，RR(T,C)為商品標題T與類目C的綜合相關度值，TOP(t_i,C)為商品標題T中的詞t_i在類目C下的TOP值，F_TR為將每個詞的TOP值映射到相關度值的映射函數，n為正整數。

例如，對於一個商品標題T，其包括三個詞t₁、t₂和t_3,，這三個詞在類目C下的TOP值分別為TOP(t₁,C)、TOP(t₂,C)和TOP(t₃,C)，根據表一，可以分別查找到這三個TOP值對應的相關度值，例如，查找到這三個TOP值對應的相關度值分別是10、5和1，將這三個相關度值相加，得到商品標題T與類目C的綜合相關度值為10+5+1=16。

步驟203、將所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放。

具體地，如果商品標題在當前類目下的綜合相關度值低於第二臨限值，則說明商品標題與當前類目的相關性較低，可以認為存在類目錯放。如果商品標題在當前類目下的綜合相關度值大於或等於該第二臨限值，則說明商品標題在當前類目下的綜合相關度值可以達到要求，可以認為不存在類目錯放。

其中，所述第二臨限值可根據商品標題的綜合相關度值分佈狀況進行設定。待分類的商品的商品標題的綜合相關度值越低，表明分類在當前類目下的可能性越低，當低於設定的第二臨限值時，可以認為存在類目錯放。例如，當第二臨限值被設置為20時，上述商品標題T與類目C的綜合相關度值為16，小於第二臨限值20，可以認為商品標題T對應的商品在該商品類目C下存在類目錯放。

所述第二臨限值在不同的類目下可以是不同的。也就是說，對於同一個商品標題，可以根據實踐中得到的資料在不同的類目下預先設置對應的第二臨限值，以建立第二臨限值資料庫。該第二臨限值資料庫可以是一個單獨的資料庫，也可以是與所述包括多個類目的資料庫合併，形成一個資料庫，並儲存在相應的儲存裝置中。

此外，也可以根據實際需要在同一類目下設置不同的第二臨限值。如果第二臨限值設置得較高，則被認為存在類目錯放的機率比較大，可以提高召回率，即可以將確定為放到錯誤的類目下的商品召回，重新確定該商品應該放置的類目，這樣可促使用戶重新選擇類目或者修改商品標題中的詞，以提高搜索的準確率。

為了減少資料運算量，在步驟201中，具體可以是獲取商品標題中除了停用詞以外的各個詞在當前類目下的TOP值。步驟201中獲取商品標題中各個詞在當前類目下的TOP值的步驟可以包括：確定商品標題中是否存在停用詞；如果存在停用詞，將商品標題的各個詞中的停用詞過濾掉；獲取過濾掉停用詞之後的各個詞在當前類目下的TOP值。

本發明實施例二提供的技術方案中，由於TOP值能夠反映商品標題與類目的匹配程度，所述綜合相關度值是根據TOP值確定的，因此根據TOP值確定的商品標題與類目的綜合相關度值能夠反映商品標題與類目的匹配程度，根據商品標題在當前類目下的綜合相關度值與第二臨限值相比的比較結果來確定是否存在類目錯放，可以準確識別出類目錯放；通過設置第二臨限值，可以減少類目錯放識別的遺漏機率。另外，在實施例二的方案中，主要涉及到TOP值的獲取和綜合相關度值的獲取，獲取這兩個值的運算與習知技術相比，所需的系統資源要求低，從而可以節省系統資源，提高運算效率。

實施例三

實施例二提供的方法中，如果商品標題在當前類目下的綜合相關度值低於第二臨限值，則確定存在類目錯放。然而，在有的情況下，商品標題在當前類目下的綜合相關度值低於第二臨限值的情況，也不一定就是類目錯放。例如，如果第二臨限值設置得過高，則有可能導致一些與當前類目的綜合相關度值低於第二臨限值的商品標題被認為放到了錯誤的類目下，而實際上該商品標題並沒有錯放。

為了進一步提高類目錯放識別的準確度，本發明的實施例三中，當商品標題與當前類目的綜合相關度值低於第二臨限值時，確定存在類目錯放後，最好，還進一步包括類目預測步驟。

圖3示例性示出本發明類目錯放識別方法實施例三的流程圖，包括：步驟301、獲取商品標題中各個詞在當前類目下的TOP值；步驟302、根據預先確定的TOP值與相關度值的映射關係，獲取各個詞的TOP值對應的相關度值，將各個詞的TOP值對應的相關度值相加，獲取商品標題與當前類目的綜合相關度值；步驟303將商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果商品標題在當前類目下的綜合相關度值小於第二臨限值，確定存在商品放置異常，執行步驟304。如果商品標題在當前類目下的綜合相關度值大於或等於第二臨限值，則確定不存在商品放置異常；步驟304獲取該商品標題的推薦類目；步驟305根據該商品標題和該商品標題的推薦類目，得到與商品標題匹配的目標類目；步驟306獲取商品標題在目標類目下的後驗機率和商品標題在當前類目下的後驗機率，並比較商品標題在目標類目下的後驗機率和商品標題在當前類目下的後驗機率，如果商品標題在目標類目下的後驗機率與商品標題在當前類目下的後驗機率之間的差值或比值大於第三臨限值，則確定存在類目錯放；否則，確定不存在類目錯放。

在上述步驟303中，當確定存在商品放置異常時，說明當前類目可能不是最合適的類目。因此可以獲取一些其他的類目，從而進一步確定該商品標題是否與其他的類目更加匹配。

在步驟304獲取該商品標題的推薦類目中，獲取與商品標題匹配的推薦類目時，可以比較商品標題與所有類目的匹配程度，從而獲取與商品標題匹配的推薦類目。具體如何比較商品標題與類目的匹配程度，可以根據本領域的技術手段來實現，例如，可以根據商品標題中的詞檢索各類目，根據商品標題中的詞與各類目的匹配結果，獲得推薦類目，此處不再詳細贅述。但是，上述通過比較商品標題與所有類目的匹配程度，從而獲取與商品標題匹配的推薦類目的方法，相對來說，效率比較低，因為資料處理量很大。

根據本發明的一個實施例，最好，提供一推薦類目資料庫，該資料庫中儲存有商品標題中的各個詞及與每個詞對應的推薦類目。該推薦類目資料庫可以是一個獨立的資料庫，也可以是與實施例二中的所述包括多個類目的資料庫合併成一個資料庫，即該資料庫中每個類目下包括至少一詞以及每個詞在該類目下的TOP值以及每個詞對應的推薦類目。每個詞的推薦類目可以依據該詞在不同類目中的出現機率確定，例如將出現該詞機率高的至少一個類目作為該詞的推薦類目。所述步驟304中，通過該推薦類目資料庫獲得商品標題中各個詞的推薦類目。

所述步驟305中，具體可以包括：根據獲取的商品標題中各個詞對應的推薦類目，將各個詞在對應的推薦類目下的詞頻作為推薦類目的權重，統計每個推薦類目的權重之和，將權重之和最大的推薦類目作為目標類目。

例如，如表二所示為本發明的實施例中推薦類目的一個示例，假設商品標題為“孔明燈”，即只具有一個詞“孔明燈”，這個詞的兩個推薦類目分別是類目(類目編號：50014247)“居家日用/收納/禮品>>婚慶用品服務區>>孔明燈/許願燈”和類目(類目編號：50016031)“玩具/模型/娃娃/人偶>>中國傳統玩具>>孔明燈”。“孔明燈”在類目“居家日用/收納/禮品>>婚慶用品服務區>>孔明燈/許願燈”下的詞頻為0.144263，即該推薦類目的權重為0.144263；“孔明燈”在類目“玩具/模型/娃娃/人偶>>中國傳統玩具>>孔明燈”下的詞頻為0.139776，即該推薦類目的權重為0.139776。由於只有一個詞，所以這兩個推薦類目的權重之和分別為0.144263和0.139776。可以將推薦類目“居家日用/收納/禮品>>婚慶用品服務區>>孔明燈/許願燈”作為首選的目標類目，也可以將這兩個類目均作為備選的目標類目。

上述“孔明燈”是以一個商品標題具有一個詞舉例說明。下面以一個商品標題由多個詞構成為例進行說明。

假設某一商品的商品標題為“藍色純棉襯衫”，對該商品標題進行分詞後得到“藍色”、“純棉”和“襯衫”三個詞。

從上述的推薦類目資料庫中，可以得到這三個詞各自對應的推薦類目。其中，每個詞可以對應有多個不同的推薦類目，且在不同推薦類目下的推薦權重不同；依據推薦權重值從大到小的排序，可以選取出權重較大的幾個類目。例如，對於每個詞選取出其對應的權重較大的前三個類目，則在這些類目互不重複的情況下，三個詞共對應九個類目。在這九個類目中，再通過比較這三個詞在每個類目下的權重之和，選取出權重之和較大的前幾個類目作為推薦類目。

例如，對於“藍色純棉襯衫”，經上述過程從推薦類目資料庫中得到的前三個推薦類目為“童裝/童鞋/孕婦裝>>襯衫”、類目“男裝>>襯衫”和類目“女裝/女士精品>>襯衫”。如表三所示為商品標題“藍色純棉襯衫”推薦類目的示例。

表三中，詞“藍色”在這三個推薦類目下的詞頻分別是：0.00351304、0.00271352和0.00186753，即這三個推薦類自在詞“藍色”下獲得的權重分別是0.00351304、0.00271352和0.00186753。類似地，這三個推薦類目在詞“純棉”下獲得的權重分別是：0.0149095、0.0148579和0.00693222。在詞“襯衫”下獲得的權重分別是0.0974684、0.129388和0.0905442。

推薦類目“童裝/童鞋/孕婦裝>>襯衫”的權重之和為0.00351304+0.0149095+0.0974684=0.11589094；推薦類目“男裝>>襯衫”的權重和為0.00271352+0.0148579+0.129388=0.14695942；推薦類目“女裝/女士精品>>襯衫”的權重和為0.00186753+0.00693222+0.0905442=0.09934395。其中，權重之和最大的是“男裝>>襯衫”，因此可以將類目“男裝>>襯衫”作為首選的目標類目，也可以將這三個類目均作為備選的目標類目。

根據上述實例，步驟305中是通過計算各個推薦類目的權重之和來獲取目標類目。在另一個實例中，可以將各個詞在商品標題中出現的機率組成一個標題向量，將每個詞在某個類目下的詞頻組成一個類目向量，通過計算標題向量和類目向量的乘積，確定目標類目。

具體地，步驟305可以包括：獲取預測類目的標題向量和類目向量，標題向量中的元素為商品標題中各個詞在該商品標題中出現的機率，類目向量中的元素為商品標題中各個詞在該預測類目下的詞頻；對於每個預測類目，獲取標題向量和類目向量的乘積，選擇乘積最大的預測類目作為目標類目。

在本發明的實施例中，預測類目是指供選擇的候選類目。

下面通過一個具體的例子來說明如何獲取目標類目。

例如，商品標題“米奇MP3四代眨眼睛米奇(2G)多色可選”經過分詞後可以得到“米奇”、“MP3”、“四代”、“眨眼睛”、“米奇”、“2G”、“多色”和“可選”，一共8個詞，“米奇”在該商品標題中出現的機率為0.25，其他詞的機率為0.125，則該商品標題的標題向量可以表示為：

[0.25_米奇　0.125_MP3　0.125--_四代　0.125_眨眼睛　0.125_2G　0.125_多色　0.125_可選]。

其中，0.25_米奇表示“米奇”在商品標題中出現的機率，即在八個片語成的商品標題中出現了兩次，其他的各個元素的含義類似。

另外，每個類目下的詞有不同的詞頻，這樣每個類目也可以表示為類目向量的形式，上述商品標題對於類目C的類目向量可以表示為：

[TF_米奇,C　TF_MP3,C　TF--_四代,C　TF_眨眼睛,C　TF_2G,C　TF_多色,C　TF_可選,C]。

其中，TF_米奇,C表示“米奇”在類目C下的詞頻。其他各個元素的含義類似。

對於類目C，標題向量和類目向量的乘積為：

[0.25_米奇　0.125_MP3　0.125--_四代　0.125_眨眼睛　0.125_2G　0.125_多色　0.125_可選]x[TF_米奇,C　TF_MP3,C　TF--_四代,C　TF_眨眼睛,C　TF_2G,C　TF_多色,C　TF_可選,C]=0.25_米奇x TF_米奇,C+0.125_MP3 x TF_MP3,C+0.125--_四代x TF--_四代,C+0.125_眨眼睛x TF_眨眼睛,C+0.125_2G x TF_2G,C+0.125_多色x TF_多色,C+0.125_可選x TF_可選,C

依據上述方法可以計算出各個預測類目的類目向量與標題向量的乘積，將乘積值最大的預測類目作為目標類目。

在該實施例中，假設任意詞在任意類目下都有大於0的詞頻。而事實上並非如此。如果一個詞t在一個類目C下沒有出現過，那麼該詞在該類目下的機率P(t|C)為0，這樣含有t的商品標題T屬於該類目C的後驗機率P(t|C)也為0，為平滑處理這種情況，根據本發明的一個較佳實施例，如果需要計算P(t|C)，而詞t在類目C下從來都沒有出現過，則可以認為該詞在該類目下只出現過一次，這種情況可用如下的公式來表示詞t_i在類目C下的詞頻：

上述公式(6)中，t_i為類目C下出現過的所有詞，#t_i為t_i在類目C下出現的次數，n為正整數。

由於一個類目下所有詞的總數很大，對一個沒出現的詞增加一個計數，不會影響結果的準確性。

該實例提供的方法中，在計算某個詞在某個類目下的詞頻時，對於一個詞在一個類目下沒有出現的情況，可以認為該詞在該類目下只出現過一次，以提高類目錯放識別的全面性。

在步驟306中，商品標題在類目下的後驗機率可以通過如公式(4)所示的貝葉斯公式獲得：

上述公式中，P(C|T)為類商品標題T在類目C下的後驗機率，P(C)為類目C下所有商品的數量，P(T)為常量，對於任意的類目C，P(T)都一樣。

假設商品標題中的各個詞服從獨立分佈，則公式(4)可以簡化為：

公式(5)中，P(t _i|C)表示詞t_i在類目C下的後驗機率。

根據公式(5)，只要知道一個詞在一個類目下的詞頻以及每個類目下商品的數量，就可以計算出商品標題在一個類目下的後驗機率。

其中，第三臨限值的取值可以根據資料處理的實際需要來確定。第三臨限值的資料庫可以儲存在相應的儲存裝置中。較佳地，第三臨限值的取值可以大一些，使得P(C_new|T)遠大於P(C_old|T)，這樣就能夠更準確地保證目標類目更匹配該商品標題，提高類目錯放識別的準確性。

實施例三中步驟301和302分別與實施例二中的步驟201和202類似，此處不再贅述。

本發明實施例三提供的技術方案中，如果商品標題與當前類目的綜合相關度值小於第二臨限值，則確定存在商品放置異常，在獲取目標類目後，比較商品標題在目標類目下的後驗機率和商品標題在當前類目下的後驗機率，進一步確定是否存在比當前類目更合適的類目。這不但能夠更加準確地識別是否存在類目錯放，而且還能夠為錯放的商品標題的商品提供更恰當的目標類目。

實施例四

在實施例三中，通過比較商品標題在當前類目下的後驗機率和商品標題在目標類目下的後驗機率來確定是否存在類目錯放。也可以通過將商品標題在當前類目下的綜合相關度與商品標題在目標類目下的綜合相關度相比較來確定是否存在類目錯放。

圖4示例性示出本發明類目錯放識別方法實施例四的流程圖。

其中，步驟401-405與實施例三中對應的步驟301-305類似，此處不再贅述。下面描述本實施例與實施例三的不同之處。

步驟406獲取商品標題在目標類目下的綜合相關度值，比較商品標題在目標類目下的綜合相關度值與商品標題在當前類目下的綜合相關度值。如果商品標題在目標類目下的綜合相關度值與商品標題在當前類目下的綜合相關度值之間的差值或比值大於第四臨限值，則確定存在類目錯放。否則，確定不存在類目錯放，結束。

步驟406中，通過比較商品標題在目標類目下的綜合相關度值與商品標題在當前類目下的綜合相關度值，可以確定目標類目是否更匹配商品標題。第四臨限值可以根據資料處理的實際情況確定，第四臨限值的資料庫可以儲存在相應的儲存裝置中。較佳地，第四臨限值可以取較大的值，使得商品標題在目標類目下的綜合相關度值遠大於商品標題在當前類目下的綜合相關度值，這樣就能夠更準確地保證目標類目與當前類目相比，更匹配商品標題，提高類目錯放識別的準確性。

商品標題在目標類目下的綜合相關度值，和商品標題在當前類目下的綜合相關度值，可以根據實施例二中介紹的商品標題在類目下的綜合相關度值的獲取方法來獲取和計算，此處不再贅述。

本發明實施例四提供的技術方案中，如果商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在商品放置異常，在獲取目標類目後，比較商品標題在目標類目下的綜合相關度值與商品標題在當前類目下的綜合相關度值，進一步確定是否存在比當前類目更合適的類目，從而確定是否類目錯放。通過兩次判斷，可以更加準確地識別是否存在類目錯放，減少類目錯放識別的遺漏機率。另外，實施例四的技術方案中，主要涉及到TOP值的獲取、綜合相關度值的獲取以及比較商品標題在目標類目下的綜合相關度值與商品標題在當前類目下的綜合相關度值的步驟，與習知技術相比，其對系統資源要求低，從而可以節省系統資源，提高運算效率。

本發明的類目錯放識別方法可用電腦等硬體執行電腦可執行程式來實現。

根據本發明的一個實施例，可以使用C++語言，在分散式機群環境下來實現上述類目錯放識別方法。其中，所述分散式機群環境就硬體架構而言，例如有工作站集群(COW)、大規模並行處理機(MPP)、對稱多處理機(SMP)、分散式異構計算集群(典型是GRID)等等，在此不予贅述。

下面描述根據本發明執行上述方法的類目錯放識別裝置的實例。

實施例五

圖5示例性示出本發明類目錯放識別裝置500的框圖。

本實施例的類目錯放識別裝置500其與實施例一提供的方法相對應，包括：詞頻獲取模組501、綜合詞頻計算模組502以及類目錯放確定模組503。其中，所述綜合詞頻計算模組502與所述詞頻獲取模組501相連接，所述類目錯放確定模組503與所述綜合詞頻計算模組502相連接，其中：所述詞頻獲取模組501，用於獲取商品標題中各個詞在當前類目下的詞頻；所述綜合詞頻計算模組502，用於根據所述詞頻獲取模組501獲取的各個詞在當前類目下的詞頻，計算所述商品標題的綜合詞頻；所述類目錯放確定模組503，用於將所述綜合詞頻計算模組502計算得到的綜合詞頻與當前類目的第一臨限值相比較，根據比較結果確定是否存在類目錯放。

實施例六

圖6示例性示出本發明類目錯放識別裝置600的框圖。

本實施例的類目錯放識別裝置600其與實施例一提供的方法相對應，包括詞頻獲取模組601、綜合詞頻計算模組602以及類目錯放確定模組603，其與實施例五相同，在此不予贅述。

本實施例與實施例五的不同之處在於，還包括與所述詞頻獲取模組601相連接的停用詞過濾模組604，用於在所述詞頻獲取模組601獲取商品標題中各個詞在當前類目下的詞頻之前，將所述商品標題的各個詞中的停用詞進行過濾。

實施例七

圖7示例性示出本發明類目錯放識別裝置700的框圖。

本實施例的類目錯放識別裝置700其與實施例二提供的方法相對應，包括TOP值獲取模組701、綜合相關度值獲取模組702以及類目錯放確定模組703。其中，所述綜合相關度值獲取模組702與TOP值獲取模組701相連接，所述類目錯放確定模組703與所述綜合相關度值獲取模組702相連接，其中：所述TOP值獲取模組701，用於獲取商品標題中各個詞在當前類目下的TOP值；詞在當前類目下的TOP值為當前類目下，詞頻比該詞高的所有詞的詞頻之和。

所述綜合相關度值獲取模組702，用於根據預先確定的TOP值與相關度值的映射關係，獲取所述TOP值獲取模組701得到的各個詞的TOP值對應的相關度值，並將各個詞的TOP值對應的相關度值相加，獲取商品標題在當前類目下的綜合相關度值。

所述類目錯放確定模組703，用於將所述綜合相關度值獲取模組702獲取的所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放。

其中，所述類目錯放確定模組703將所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果所述商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在類目錯放；如果所述商品標題在當前類目下的綜合相關度值大於或等於第二臨限值，則確定不存在類目錯放。

實施例八

圖8示例性示出根據實施例八的類目錯放確定模組的框圖。

本實施例的類目錯放識別裝置其與實施例三提供的方法相對應，包括的TOP值獲取模組701、綜合相關度值獲取模組702，其與實施例七相同，此處不予贅述。本實施例與實施例七的不同之處在於，本實施例的類目錯放確定模組703包括商品放置異常確定單元801、目標類目獲取單元802、後驗機率獲取單元803以及類目錯放確定單元804，其中，所述目標類目獲取單元802與所述商品放置異常確定單元801相連接，所述後驗機率獲取單元803與所述目標類目獲取單元802相連接，所述類目錯放確定單元804與所述後驗證機率獲取單元803相連接。

所述商品放置異常確定單元801，用於將所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果所述商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在商品放置異常。

所述目標類目獲取單元802，用於在所述商品放置異常確定單元801確定存在商品放置異常的情況下，獲取該商品標題的推薦類目，再根據該商品標題和該商品標題的推薦類目，得到與所述商品標題匹配的目標類目。

所述後驗機率比較單元803，用於獲取商品標題在目標類目下的後驗機率和商品標題在當前類目下的後驗機率。

所述類目錯放確定單元804，用於比較所述商品標題在所述目標類目獲取模組獲取的目標類目下的後驗機率和所述商品標題在當前類目下的後驗機率，並在商品標題在目標類目下的後驗機率與商品標題在當前類目下的後驗機率之間的差值或比值大於第三臨限值的情況下確定存在類目錯放。

實施例九

圖9示例性示出根據實施例九的類目錯放確定模組的框圖。

本實施例的類目錯放識別裝置與實施例四提供的方法相對應，包括TOP值獲取模組701、綜合相關度值獲取模組702，其與實施例七相同，此處不予贅述。本實施例與實施例七的不同之處在於，本實施例的所述類目錯放確定模組703包括商品放置異常確定單元901、目標類目獲取單元902、綜合相關度值比較單元903以及類目錯放確定單元904。其中，所述目標類目獲取單元902與所述商品放置異常確定單元901相連接，所述綜合相關度值比較單元903與所述目標類目獲取單元902相連接，所述類目錯放確定單元904與所述綜合相關度值比較單元903相連接。

所述商品放置異常確定單元901，用於將所述商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果所述商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在商品放置異常。

所述目標類目獲取單元902，用於在所述商品放置異常確定單元901確定存在商品放置異常的情況下，獲取該商品標題的推薦類目，再根據該商品標題和該商品標題的推薦類目，得到與所述商品標題匹配的目標類目。

所述綜合相關度值比較單元903，用於比較所述商品標題在所述目標類目獲取單元902獲取的目標類目下的綜合相關度值與所述商品標題在當前類目下的綜合相關度。

所述類目錯放確定單元904，用於在所述商品標題在所述目標類目下的綜合相關度值與所述商品標題在所述當前類目下的綜合相關度值之間的差值或比值大於第四臨限值的情況下確定存在類目錯放。

另外，在上述實施例七至實施例九中，如圖10所示，TOP值獲取模組可以包括TOP值獲取單元1000、停用詞查找單元1001以及停用詞過濾單元1002，該停用詞過濾單元1002與所述停用詞查找單元1001、TOP值獲取單元1000相連接。

其中，停用詞查找單元1001用於基於詞在類目下的分佈熵來確定所述商品標題中是否存在停用詞；停用詞過濾單元1002用於在所述停用詞查找單元1001確定存在停用詞的情況下，過濾所述停用詞。TOP值獲取單元1000獲取過濾掉停用詞之後的各個詞在當前類目下的TOP值。

利用本發明如上所述的裝置，能夠通過將商品標題的綜合詞頻與當前類目的第一臨限值相比較來確定是否存在類目錯放；此外，由於TOP值能夠反映商品標題與類目的匹配程度，所以根據TOP值確定的商品標題與類目的綜合相關度值也就能夠反映商品標題與類目的匹配程度，根據商品標題在當前類目下的綜合相關度值與第二臨限值相比的比較結果來確定是否存在類目錯放，可以準確識別出類目錯放；通過設置第二臨限值，可以減少類目錯放識別的遺漏機率，例如，如果第二臨限值設置較低，即可以識別出大多數類目錯放。另外，本發明提供的裝置中，主要涉及到TOP值的獲取和綜合相關度值的獲取，獲取這兩個值的運算與習知技術相比，所需的系統資源要求低，從而可以節省系統資源，提高運算效率。

雖然已參照典型實施例描述了本發明，但應當理解，所用的術語是說明和示例性、而非限制性的術語。由於本發明能夠以多種形式具體實施而不脫離發明的精神或實質，所以應當理解，上述實施例不限於任何前述的細節，而應在隨附申請專利範圍所限定的精神和範圍內廣泛地解釋，因此落入申請專利範圍或其等效範圍內的全部變化和改型都應為隨附申請專利範圍所涵蓋。

500．．．類目錯放識別裝置

501．．．詞頻獲取模組

502．．．綜合詞頻計算模組

503．．．類目錯放確定模組

600．．．類目錯放識別裝置

601．．．詞頻獲取模組

602．．．綜合詞頻計算模組

603．．．類目錯放確定模組

604．．．停用詞過濾模組

700．．．類目錯放識別裝置

701．．．TOP值獲取模組

702．．．綜合相關度值獲取模組

703．．．類目錯放確定模組

801．．．商品放置異常確定單元

802．．．目標類目獲取單元

803．．．後驗機率獲取單元

804．．．類目錯放確定單元

901．．．商品放置異常確定單元

902．．．目標類目獲取單元

903．．．綜合相關度值比較單元

904．．．類目錯放確定單元

1000．．．TOP值獲取單元

1001．．．停用詞查找單元

1002．．．停用詞過濾單元

圖1示例性示出本發明實施例一的類目錯放識別方法的流程圖；

圖2示例性示出本發明實施例二的類目錯放識別方法的流程圖；

圖3示例性示出本發明實施例三的類目錯放識別方法的流程圖；

圖4示例性示出本發明實施例四的類目錯放識別方法的流程圖；

圖5示例性示出本發明實施例五的類目錯放識別裝置的框圖；

圖6示例性示出本發明實施例六的類目錯放識別裝置的框圖；

圖7示例性示出本發明實施例七的類目錯放識別裝置的框圖；

圖8示例性示出本發明實施例八的類目錯放確定模組的框圖；

圖9示例性示出本發明實施例九的類目錯放確定模組的框圖；以及

圖10示例性示出本發明TOP值獲取模組的框圖。

Claims

一種類目錯放識別方法，包括如下步驟：獲取商品標題中各個詞在當前類目下的詞頻；根據各個詞在當前類目下的詞頻，計算該商品標題的綜合詞頻；以及將該綜合詞頻與當前類目的第一臨限值相比較，根據比較結果確定是否存在類目錯放。
如申請專利範圍第1項之方法，其中，在獲取商品標題中各個詞在當前類目下的詞頻之前，還包括將該商品標題的各個詞中的停用詞(stop word)進行過濾的步驟。
一種類目錯放識別方法，包括如下步驟：藉由相加在當前類目下詞頻高於各個詞的所有詞的詞頻所得到之和，獲取商品標題中各個詞在當前類目下的TOP值；根據預先確定的TOP值與相關度值的映射關係，獲取各個詞的TOP值對應的相關度值，並將各個詞的TOP值對應的相關度值相加，獲取商品標題在當前類目下的綜合相關度值；將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放。
如申請專利範圍第3項之方法，其中，將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放，包括：將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果該商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在類目錯放；如果該商品標題在當前類目下的綜合相關度值大於或等於第二臨限值，則確定不存在類目錯放。
如申請專利範圍第3項之方法，其中，將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放，包括：將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果該商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在商品放置異常；如果確定存在商品放置異常，則獲取該商品標題的推薦類目，再根據該商品標題和該商品標題的推薦類目，得到與該商品標題匹配的目標類目；獲取商品標題在目標類目下的後驗機率和商品標題在當前類目下的後驗機率，並比較該商品標題在該目標類目下的後驗機率和該商品標題在當前類目下的後驗機率；如果商品標題在目標類目下的後驗機率與商品標題在當前類目下的後驗機率之間的差值或比值大於第三臨限值，則確定存在類目錯放。
如申請專利範圍第5項之方法，其中，獲取與該商品標題匹配的目標類目，包括：獲取商品標題中各個詞對應的推薦類目；將各個詞在對應的推薦類目下的詞頻作為推薦類目的權重，統計每個推薦類目的權重之和，將權重之和最大的推薦類目作為目標類目。
如申請專利範圍第5項之方法，其中，獲取與該商品標題匹配的目標類目，包括：獲取預測類目的標題向量和類目向量，該標題向量中的元素為該商品標題中各個詞在該商品標題中出現的機率，該類目向量中的元素為該商品標題中各個詞在該預測類目下的詞頻；對於每個預測類目，獲取標題向量和類目向量的乘積，選擇乘積最大的預測類目作為該目標類目。
如申請專利範圍第3項之方法，其中，將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放，包括：將該商品標題在當前類目下的綜合相關度值與第二臨限值相比，如果該商品標題在當前類目下的綜合相關度值小於第二臨限值，則確定存在商品放置異常；如果確定存在商品放置異常，則獲取該商品標題的推薦類目，再根據該商品標題和該商品標題的推薦類目，得到與該商品標題匹配的目標類目；比較該商品標題在目標類目下的綜合相關度值與該商品標題在當前類目下的綜合相關度值；如果該商品標題在該目標類目下的綜合相關度值與該商品標題在該當前類目下的綜合相關度值之間的差值或比值大於第四臨限值，則確定存在類目錯放。
如申請專利範圍第3至8項的任意一項之方法，其中，獲取商品標題中各個詞在當前類目下的TOP值，包括：基於詞在類目下的分佈熵來確定該商品標題中是否存在停用詞；如果存在停用詞，則過濾該停用詞；獲取過濾停用詞之後的各個詞在當前類目下的TOP值。
一種類目錯放識別裝置，包括：詞頻獲取模組，用於獲取商品標題中各個詞在當前類目下的詞頻；綜合詞頻計算模組，用於根據該詞頻獲取模組獲取的各個詞在當前類目下的詞頻，計算該商品標題的綜合詞頻；以及類目錯放確定模組，用於將該綜合詞頻計算模組計算得到的綜合詞頻與當前類目的第一臨限值相比較，根據比較結果確定是否存在類目錯放。
一種類目錯放識別裝置，包括：TOP值獲取模組，用於相加當前類目下詞頻高於各個詞的所有詞的詞頻所得到之和，獲取商品標題中各個詞在當前類目下的TOP值；綜合相關度值獲取模組，用於根據預先確定的TOP值與相關度值的映射關係，獲取該TOP值獲取模組得到的各個詞的TOP值對應的相關度值，並將各個詞的TOP值對應的相關度值相加，獲取商品標題在當前類目下的綜合相關度值；以及類目錯放確定模組，用於將該綜合相關度值獲取模組獲取的該商品標題在當前類目下的綜合相關度值與第二臨限值相比，根據比較結果確定是否存在類目錯放。