TWI794157B

TWI794157B - 自動多閾值特徵過濾方法及裝置

Info

Publication number: TWI794157B
Application number: TW106104931A
Authority: TW
Inventors: 瞿神全; 周俊; 崔卿; 丁永明
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-03-17
Filing date: 2017-02-15
Publication date: 2023-03-01
Also published as: JP2019513265A; JP6890607B2; TW201734840A; CN107203891A; US20190042982A1; US11544618B2; WO2017157183A1

Abstract

本發明揭示了一種自動多閾值特徵過濾方法及裝置，所述特徵過濾方法在機器學習模型訓練的迭代過程中，根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值，並根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾。本發明的特徵過濾裝置包括計算模組和特徵過濾模組。本發明的方法及裝置在每一輪迭代時，都能自動生成不同的特徵過濾閾值，極大地提高了過濾閾值的精準度，與現有固定單一閾值相比，能極大地提高機器自動學習的訓練速度和機器學習模型的準確度。

Description

自動多閾值特徵過濾方法及裝置

本發明係有關人工智慧技術領域，尤其有關一種自動多閾值特徵過濾方法及裝置。

超大規模機器學習演算法是當前互聯網公司實現搜索查詢結果排序、互聯網廣告點擊率預測、商品個性化推薦、語音識別、智慧問答等系統的基礎技術支持。不斷擴大的資料規模在提升演算法應用效果的同時，也對大規模資料處理帶來了極大的理論和工程實踐的挑戰。高效的資料處理成為互聯網大資料應用的核心技術。

互聯網資料通常都非常稀疏，所以在使用互聯網資料對機器學習模型進行訓練後，會得到稀疏模型，而且稀疏模型方便後續儲存和預測。在極度稀疏的互聯網資料訓練中應用高效的特徵過濾演算法，可以有效地去除不相關的特徵和冗餘特徵，提高學習演算法的泛化性能和運行效率，對於訓練機器學習模型具有較大的幫助。

互聯網公司用於機器學習模型訓練的大規模資料，一般由若干樣本資料組成，每個樣本由固定數目的特徵集合組成。以下是一個例子：一個樣本特徵：{feature_1,feature_2,...,feature_n}；由於互聯網大資料樣本特徵非常稀疏，大部分特徵(feature)都是0，所以可以應用某種機制把某些特徵過濾掉，不參與後續的模型訓練，這樣將會極大的提升機器學習模型的訓練效率。

現有的特徵過濾方法通常透過人工設定一個固定的閾值來進行過濾，例如：設定一個固定的過濾閾值r；根據樣本資料而算得梯度g；根據某維梯度值g_i和其他模型參數而算得一個值x，比較x與r的大小，如果x小於r則過濾掉該維特徵。

可見現有的特徵過濾方法中用於過濾的閾值需要人工指定，所以過濾的效果強依賴人的經驗，過濾效果不穩定，因為過濾的閾值不能根據樣本資料而自動調整，導致訓練得到的模型預測精度降低；並且閾值只有一個而且是固定的，不能根據訓練的情況而動態調整閾值，所以不能很好地過濾所有特徵。由於閾值的大小不好確定，如果閾值選擇不好，會導致訓練得到的機器學習模型不可靠，預測精度降低。

本發明的目的是提供一種自動多閾值特徵過濾方法及裝置，以解決現有技術的特徵過濾方法只能使用固定閾值來進行特徵過濾，造成訓練效率不高及訓練得到的機器學習模型不夠精確的問題。

為了實現上述目的，本發明技術方案如下：一種自動多閾值特徵過濾方法，用以在機器學習模型訓練時對樣本資料進行特徵過濾，所述特徵過濾方法包括：根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值；根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾。

進一步地，所述特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值。

進一步地，所述根據上一輪迭代的結果來計算本輪迭代的特徵相關值，包括：根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度；根據各維度特徵的梯度來計算對應的特徵相關值。

進一步地，所述各維度特徵的特徵相關值為各維度的梯度的線性函數。

進一步地，所述根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾，包括：如果各維度特徵相關值小於本維度特徵過濾閾值，則本維特徵被過濾掉，不參與後續迭代計算，否則保留本維特徵，繼續參與後續迭代計算。

本發明同時提出了一種自動多閾值特徵過濾裝置，用以在機器學習模型訓練時對樣本資料進行特徵過濾，所述特徵過濾裝置包括：計算模組，用以根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值；特徵過濾模組，用以根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾。

進一步地，所述計算模組在根據上一輪迭代的結果來計算本輪迭代的特徵相關值時，執行如下步驟：根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度；根據各維度特徵的梯度來計算對應的特徵相關值。

進一步地，所述特徵過濾模組根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾，執行如下步驟：如果各維度特徵相關值小於本維度特徵過濾閾值，則本維特徵被過濾掉，不參與後續迭代計算，否則保留本維特徵，繼續參與後續迭代計算。

本發明提出了一種自動多閾值特徵過濾方法及裝置，突破了現有人工設定單閾值來進行特徵過濾的方式，可以根據每批樣本資料的迭代結果而自動計算出多個閾值來過濾特徵，極大的提升了訓練速度和訓練得到的機器學習模型的精準度。

圖1為本發明自動多閾值特徵過濾方法流程圖；圖2為本發明自動多閾值特徵過濾裝置結構示意圖。

下面結合附圖和實施例對本發明技術方案做進一步詳細說明，以下實施例不構成對本發明的限定。

互聯網業務中有大量原始用戶資料，比如在廣告點擊和商品推薦業務中為了提升點擊率和商品推薦的精度會使用大量原始樣本資料來訓練一個機器學習模型。樣本資料有多維特徵，比如價格、商品類目等，這些特徵對效果的提升不一樣，有的特徵可能對效果沒有提升作用，可以把這個特徵過濾掉，而有效果的特徵會保留下來，這些保留下來的特徵最後透過訓練會得到不同的權重，這些權重就是得到的機器學習模型對應的模型參數。在機器學習模型的訓練過程中，需要透過不斷迭代計算來得到機器學習模型對應的模型參數。本發明的總體思路就是在機器學習模型訓練的每一輪迭代的過程中，根據當前模型參數來計算特徵過濾值，並使用計算得到的特徵過濾值來進行特徵過濾。

如圖1所示，本實施例自動多閾值特徵過濾方法，包括：

步驟S1、根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值。

本實施例以一個典型的機器學習過程為例，假設機器學習模型的估計函數為：h _θ(x)=θ ₀+θ ₁ x ₁+…+θ _n x _n 公式1

其中，θ為模型參數，x為樣本特徵，兩者皆為向量，x _i為第i維特徵。

在機器學習中還定義了損失函數J(θ)來評估θ是否比較好，調整θ以使得J(θ)取得最小值。為了達到這個目的，需要根據最小二乘法或梯度下降法來進行迭代直到最終收斂取得一個θ值使得J(θ)最小為止。

本實施例以梯度下降法為例，計算第k輪梯度g _k的公式如下：

關於機器學習模型的訓練過程以及梯度下降方法這裏不再贅述，本實施例利用上述過程中迭代結果來計算特徵過濾閾值。具體計算方法如下：假設第k輪迭代的特徵過濾閾值為r _k，則：

其中，l為樣本數量，g _(k-1)i為第k-1輪第i維特徵對應的梯度值。

需要說明的是，本實施例根據原始樣本資料樣本數量l以及梯度g _k計算出特徵過濾閾值r _k，該計算可以採用多種演算法來實現，並不依賴某種特定的演算法。例如還可以根據梯度g _k以及樣本特徵的維度來進行計算，或者是根據梯度g _k以及樣本特徵的顯著性參數來進行計算，這裏不一一贅述。

同理，本實施例還需要計算出第k輪第i維特徵對應的特徵相關值s _ki，計算公式如下：s _ki=g _ki+δ 公式4

其中，δ為固定常數。可見本實施例特徵過濾閾值r _k根據上一輪迭代的梯度g _(k-1)i來計算，而特徵相關值根據本輪的梯度g _ki來計算，各維度特徵的特徵相關值為各維度的梯度的線性函數。

為此，需要根據公式2先計算出本輪迭代的梯度g _k，關於梯度的計算，這裏不再贅述。在第一輪迭代的時候，由於沒有上一輪的梯度資料，不進行特徵過濾。

需要說明的是，本實施例特徵過濾閾值與特徵相關值的計算參數需要統一，即特徵過濾閾值根據梯度來計算，則特徵相關值也根據梯度來計算，但是具體的計算公式根據訓練模型的不同，可以設計的不一樣，即使是訓練相同模型也可以設計的不一樣。比如在邏輯斯特回歸(LR)模型訓練中，固定閾值過濾特徵的KKT方法，計算相關值的公式就是：s _i=g _i+δ。本實施例特徵相關值與此不同之處在於，對每輪迭代計算不同的特徵相關值。本發明並不限於具體的特徵過濾閾值與特徵相關值的計算方法。

步驟S2、根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾。

步驟S1已經計算得到特徵過濾閾值和特徵相關值，本步驟透過比較特徵過濾閾值g _ki和過濾閾值s _ki之間的大小，對樣本進行特徵過濾。具體地說：如果s _ki小於g _ki，則第i維特徵被過濾掉，不參與後續計算，否則保留第i維特徵，繼續參與後續計算。

透過特徵過濾後，原始樣本資料將有部分維度的特徵被過濾掉，過濾完成後的資料將作為新的樣本資料導入系統進行下一輪迭代，直到達到迭代終止條件為止。

需要說明的是，由於特徵過濾閾值g _ki以及樣本資料的每維特徵的特徵相關值s _ki都和梯度g _ki相關，而梯度g _ki是根據樣本資料、損失函數和模型參數而算得的，每輪迭代中的樣本資料和模型參數都不同，因此每輪迭代中算出來的特徵過濾閾值和樣本資料的每維特徵的相關值s _ki都不同。

容易理解的是，隨著迭代次數的增加，被過濾掉的無效特徵會越來越多，每輪迭代中計算出來的特徵過濾閾值也會越來越精確，這會極大地加快訓練的速度。

關於迭代計算的終止條件，根據具體的演算法而定，例如完成上一輪迭代後不再有新的特徵被過濾掉，或者迭代次數超過設定的最大值，這裏不再贅述。迭代完成後保留下來的特徵最後透過訓練會得到不同的模型參數，根據這些模型參數就得到機器學習模型。

如圖2所示，與上述方法對應地，本實施例同時提出了一種自動多閾值特徵過濾裝置，用以在機器學習模型訓練時對樣本資料進行特徵過濾，該裝置包括：計算模組，用以根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值；特徵過濾模組，用以根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾。

在本實施例中，特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值。計算模組根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值，其中，計算模組在根據上一輪迭代的結果來計算本輪迭代的特徵相關值時，執行如下步驟：根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度；根據各維度特徵的梯度來計算對應的特徵相關值。

本實施例第k輪第i維特徵對應的特徵相關值s _ki根據公式4來進行計算，各維度特徵的特徵相關值為各維度的梯度的線性函數。

在本實施例中，特徵過濾模組根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾，執行如下步驟：如果各維度特徵相關值小於本維度特徵過濾閾值，則本維特徵被過濾掉，不參與後續迭代計算，否則保留本維特徵，繼續參與後續迭代計算。

以上實施例僅用以說明本發明的技術方案而非對其進行限制，在不背離本發明精神及其實質的情況下，熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形，但這些相應的改變和變形都應屬於本發明所附的申請專利範圍的保護範圍。

Claims

一種自動多閾值特徵過濾方法，用以在機器學習模型訓練時對樣本資料進行特徵過濾，該樣本資料包括互聯網業務中的原始用戶資料，其特徵在於，該特徵過濾方法包括：根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值；以及根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾，其中，如果各維度特徵相關值小於本維度特徵過濾閾值，則本維度特徵被過濾掉，不參與後續迭代計算，否則保留本維度特徵，繼續參與後續迭代計算，其中，該特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值，其中，該根據上一輪迭代的結果來計算本輪迭代的特徵相關值，包括：根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度；以及根據各維度特徵的梯度來計算對應的特徵相關值，並且其中，該各維度特徵的特徵相關值為各維度的梯度的線性函數。
一種自動多閾值特徵過濾裝置，用以在機器學習模型訓練時對樣本資料進行特徵過濾，該樣本資料包括互聯網業務中的原始用戶資料，其特徵在於，該特徵過濾裝置包括：計算模組，用以根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值；以及特徵過濾模組，用以根據計算得到的特徵過濾閾值和特徵相關值，對樣本進行特徵過濾，其中，如果各維度特徵相關值小於本維度特徵過濾閾值，則本維度特徵被過濾掉，不參與後續迭代計算，否則保留本維度特徵，繼續參與後續迭代計算，其中，該特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值，其中，該計算模組在根據上一輪迭代的結果來計算本輪迭代的特徵相關值時，執行如下步驟：根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度；以及根據各維度特徵的梯度來計算對應的特徵相關值，並且其中，該各維度特徵的特徵相關值為各維度的梯度的線性函數。