TWI705388B

TWI705388B - 用於建構機器學習模型的特徵選取方法、裝置及設備

Info

Publication number: TWI705388B
Application number: TW108126774A
Authority: TW
Inventors: 唐渝洲; 金宏; 王維強; 聞飆趙
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-10-24
Filing date: 2019-07-29
Publication date: 2020-09-21
Also published as: TW202032440A; WO2020082865A1; US11222285B2; US20210150415A1; CN109460825A

Abstract

本說明書的實施例提供一種用於構建機器學習模型的特徵選取方法、裝置及設備，在特徵選取方法中，獲取篩選後的訓練資料集。根據預設的拆分方式，對訓練資料集進行拆分，以獲得k組訓練資料子集。對該k組訓練資料子集，並存執行如下過程k次：從k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集。根據當前訓練資料集，計算多個待篩選的特徵的m個評價指標。根據各個評價指標，對多個特徵進行排序，從而得到m組多個特徵的指標排名。基於當前訓練資料集，訓練機器學習模型，以預測一組多個特徵的重要性排名。將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取多個特徵的總排名。根據總排名，從多個特徵中選取目標特徵。

Description

用於建構機器學習模型的特徵選取方法、裝置及設備

本說明書的一個或多個實施例涉及電腦技術領域，尤其涉及一種用於構建機器學習模型的特徵選取方法、裝置及設備。

為了構建一個性能最優的機器學習模型，資料分析師和資料採擷工程師通常會根據業務經驗以及對資料的理解，暴力衍生出很多維度的特徵（也稱變數）。但這個過程往往會產生很多冗餘細微的資訊，這些資訊對於我們想要構建的機器學習模型沒有太多價值甚至會產生副作用。因此在構建機器學習模型的過程中，我們需要不斷的去試驗，經過細緻的特徵篩選，最後構建一個最優的機器學習模型。對於上述特徵篩選的過程，當通過人為的方式進行時，通常非常耗費人力，且會拖慢模型構建的速度，因此通常採用自動化的方式進行。傳統技術中，主要有如下幾種自動化的特徵選取方式：過濾式特徵選擇、嵌入式特徵選擇以及包裹式特徵選擇。這些特徵選取方式在篩選特徵時，通常只考慮特徵在部分資料拆分集合上的表現。因此，需要提供一種特徵的選取方式，以能夠篩選出更準確的特徵。

本說明書的一個或多個實施例描述了一種用於構建機器學習模型的特徵選取方法、裝置及設備，可以篩選出更準確的特徵。第一方面，提供了一種用於構建機器學習模型的特徵選取方法，包括：獲取訓練資料集；根據預設的拆分方式，對所述訓練資料集進行拆分，以獲得k組訓練資料子集；對所述k組訓練資料子集，並存執行如下過程k次：從所述k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集；根據所述當前訓練資料集，計算多個待篩選的特徵的m個評價指標；根據各個評價指標，對所述多個特徵進行排序，從而得到m組所述多個特徵的指標排名；基於所述當前訓練資料集，訓練機器學習模型，以預測一組所述多個特徵的重要性排名；將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名；根據所述總排名，從所述多個特徵中選取目標特徵。第二方面，提供了一種用於構建機器學習模型的特徵選取裝置，包括：獲取單元，用於獲取訓練資料集；拆分單元，用於根據預設的拆分方式，對所述獲取單元獲取的所述訓練資料集進行拆分，以獲得k組訓練資料子集；執行單元，用於對所述拆分單元拆分得到的所述k組訓練資料子集，並存執行如下過程k次：從所述k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集；根據所述當前訓練資料集，計算多個待篩選的特徵的m個評價指標；根據各個評價指標，對所述多個特徵進行排序，從而得到m組所述多個特徵的指標排名；基於所述當前訓練資料集，訓練機器學習模型，以預測一組所述多個特徵的重要性排名；融合單元，用於將所述執行單元執行k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名；選取單元，用於根據所述融合單元得到的所述總排名，從所述多個特徵中選取目標特徵。第三方面，提供了一種用於構建機器學習模型的特徵選取設備，包括：記憶體；一個或多個處理器；以及一個或多個程式，其中所述一個或多個程式存儲在所述記憶體中，並且被配置成由所述一個或多個處理器執行，所述程式被所述處理器執行時實現以下步驟：獲取訓練資料集；根據預設的拆分方式，對所述訓練資料集進行拆分，以獲得k組訓練資料子集；對所述k組訓練資料子集，並存執行如下過程k次：從所述k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集；根據所述當前訓練資料集，計算多個待篩選的特徵的m個評價指標；根據各個評價指標，對所述多個特徵進行排序，從而得到m組所述多個特徵的指標排名；基於所述當前訓練資料集，訓練機器學習模型，以預測一組所述多個特徵的重要性排名；將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名；根據所述總排名，從所述多個特徵中選取目標特徵。本說明書的一個或多個實施例提供的用於構建機器學習模型的特徵選取方法、裝置及設備，獲取訓練資料集。根據預設的拆分方式，對訓練資料集進行拆分，以獲得k組訓練資料子集。對該k組訓練資料子集，並存執行如下過程k次：從k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集。根據當前訓練資料集，計算多個待篩選的特徵的m個評價指標。根據各個評價指標，對多個特徵進行排序，從而得到m組多個特徵的指標排名。基於當前訓練資料集，訓練機器學習模型，以預測一組多個特徵的重要性排名。將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取多個特徵的總排名。根據總排名，從多個特徵中選取目標特徵。由此可以看出，本說明書在拆分得到k組訓練資料子集之後，並存執行了k次當前訓練資料集的選取、多個特徵的指標排名以及重要性排名。由此。可以實現考慮多個特徵在各組訓練資料子集中的綜合表現，進而可以篩選出更準確的特徵。此外，本說明書提供的特徵選取方法，還綜合考慮了各個特徵的多個評價指標，由此可以篩選出更穩定、更有效的特徵。

下面結合附圖，對本說明書提供的方案進行描述。在介紹本說明書的一個或多個實施例提供的用於構建機器學習模型的特徵選取方法之前，先對該方法的發明構思進行如下描述。在訓練資料集劃分方面，傳統技術中，首先將總的訓練資料集劃分為多組。之後從多組中選取若干組訓練資料集，並基於該若干組訓練資料集來選取特徵。由此可以看出，該特徵選取方法只考慮了特徵在部分訓練資料集上的表現，並沒有考慮特徵在各個訓練資料集上的綜合表現。因此，藉由該特徵選取方法選取的特徵通常不夠穩定。為了提高選取的特徵的穩定性，本說明書提供的方案（簡稱本方案）可以借鑒k-折疊交叉驗證（k-fold Cross Validation）的做法。k-折疊交叉驗證的主要概念如下：將初始採樣分割成k個子樣本，一個單獨的子樣本被保留作為驗證模型的資料，其他k-1個樣本用來訓練。交叉驗證重複k次，每個子樣本驗證一次，平均k次的結果或者使用其它結合方式，最終得到一個單一估測。由於本方案是為了選取特徵，而並非為了訓練模型。由此，本方案可以只採用k-折疊交叉驗證的樣本劃分概念以及重複k次的概念。具體地，可以將訓練資料集拆分為k組，然後執行k次從k組中選取訓練資料子集以及特徵排名的步驟，其中，每次選取的訓練資料子集為：k-1組。舉例來說，假設k為4，且拆分的4組訓練數據子集為：訓練子集1-4。則第1次選取的訓練資料子集可以為：訓練子集2-4，而訓練子集1作為測試集；第2次選取的訓練資料子集可以為：訓練子集1以及訓練子集3-4，而訓練子集2作為測試集；第3次選取的訓練資料子集可以為：訓練子集1-2以及訓練子集4，而訓練子集3作為測試集；第4次選取的訓練資料子集可以為：訓練子集1-3，而訓練子集4作為測試集。需要說明的是，在拆分得到k組訓練資料子集之後，當執行k次訓練資料子集的選取步驟時，可以使得每組訓練資料子集都可以被選取到。也即可以實現考慮多個特徵在各組訓練資料子集中的綜合表現，進而可以篩選出更準確的特徵。此外，根據先前技術的內容可知，可以藉由過濾式特徵選擇的方法來進行特徵的篩選。而過濾式特徵選擇主要是基於訓練資料集，計算每個特徵的某個評價指標，之後再基於該評價指標來篩選特徵。然而當僅依據一個評價指標進行特徵篩選時，選取的特徵通常不夠穩定。因此，本方案將綜合考慮每個特徵的多個評價指標。需要說明的是，上述評價指標可以包括但不限於資訊價值或者資訊量（Information Value，IV）、基尼係數GINI、資訊增益（Info Gain，IG）、相互資訊（Mutual Information，MI）、Relief分數以及樣本穩定指數（Sample stability index，PSI）等。需要說明的是，上述各評價指標的計算方法為傳統常規技術，在此不復贅述。最後，需要說明的是，當執行本方案一次，就可以完成一次特徵的篩選。當待篩選的特徵的數量比較大時，通常需要反覆運算執行多次（或者多輪）特徵的篩選過程，也即需要執行本方案多次，以避免一次性完成特徵的篩選時，會遺漏掉部分重要特徵的問題。具體地，可以在每次特徵篩選的過程中，都消除掉一定個數的特徵。關於特徵的消除可以借鑒遞迴式特徵消除（Recursive Feature Elimination）的想法。Recursive Feature Elimination的核心概念是：第一輪：基於所有特徵訓練模型，以得到所有特徵的重要性。下一輪：減少1個最不重要的特徵，並基於剩餘的特徵，繼續訓練模型，並得到該剩餘特徵的重要性。之後再從剩餘特徵中減少1個最不重要的特徵，以此類推，直至篩選得到指定數量的特徵。可以理解的是，當總的特徵個數為100個，而指定數量為50個時，則需要執行上述模型訓練的過程50輪。然而，當待篩選的特徵的個數通常為成千上萬個，而指定數量可能為幾百個時，若採用上述每輪只消除1個特徵的方法會極大地耗費計算資源。因此，本方案為了減少計算資源的消耗，在每輪模型訓練結束後，可以消除N（如，10）個不重要的特徵。以N為10為例來說，則針對前述例子，只需執行模型訓練的過程5輪。需要說明的是，雖然本方案增加了每輪消除的特徵的個數，但由於在每一輪的特徵篩選過程中，並存執行k次訓練資料子集的選取以及特徵排名，因此，並不影響通過本方案選取的特徵的準確性和穩定性。上述就是本說明書提供的方案的發明構思，基於該發明構思，就可以得到本說明書提供的方案。以下對本說明書提供的方案進行進一步地詳細闡述：本說明書的一個或多個實施例提供的用於構建機器學習模型的特徵選取方法可以應用於如圖1所示的特徵選取系統10中。圖1中，特徵選取系統10可以包括：資料模組102、功能模組104、分析模組106以及決策模組108。資料模組102用於根據預設的拆分方式，將訓練資料集劃分為k組訓練資料子集。這裡的預設的拆分方式可以包括但不限於時間拆分方式以及隨機拆分方式等。功能模組104用於執行如下過程k次：從k組訓練資料子集中選取k-1組訓練資料子集。基於選取的訓練資料子集，計算多個特徵的m個評價指標。根據各個評價指標，對多個特徵進行排序，從而得到m組多個特徵的指標排名。此外，還基於選取的訓練資料子集，訓練機器學習模型，以預測一組多個特徵的重要性排名。分析模組106用於對各個特徵的指標排名以及重要性排名進行融合。具體地，將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取多個特徵的總排名。此外，還可以根據功能模組104計算的各個特徵的評價指標，進行指標衍生以及指標融合等。其中，指標衍生是指根據某個特徵的當前計算得到的評價指標，衍生出其它指標。如，根據某個特徵的k組IV值，得到IV值變化率等。指標融合是指將某個特徵的多個評價指標進行融合。如，將某個特徵的k組IV值融合為一個IV值。這裡的融合過程可以為取k組IV值中的最大值、最小值以及平均值等等。決策模組108用於根據各個特徵的總排名，從多個特徵中選取目標特徵。當然，在實際應用中，也可以結合其它的配置資訊，來進行目標特徵的選取。這裡的配置資訊可以包括預先配置的變數資訊（如，變數中繼資料（metaData）以及變數所屬分類等）以及篩選條件（如，IV＞0.01，MAX_PSI＜0.25，TOP_N=100）等。需要說明的是，這裡配置的變數資訊是為了便於後續精細篩選條件的配置。此外，對上述特徵的選取方式可以包括但不限於如下兩種：直接剔除以及反覆運算剔除等。直接剔除是指直接根據硬性條件一次性剔除不滿足條件的特徵，篩選出符合要求的目標特徵。反覆運算剔除是指反覆運算執行多次或者多輪特徵篩選的過程，其中在每輪特徵篩選的過程中，消除掉N個不重要的特徵。圖2為本說明書的一個實施例提供的用於構建機器學習模型的特徵選取方法流程圖。所述方法的執行主體可以為圖1中的特徵選取系統。如圖2所示，所述方法具體可以包括：步驟202，獲取訓練資料集。以構建的機器學習模型為風險控制模型（一種用於識別和防控盜用、欺詐以及作弊等風險的模型）為例來說，這裡的訓練資料集可以為多條使用者的交易記錄，該交易記錄可以包括使用者資訊、交易金額以及交易時間等資訊。此外，這裡的訓練資料集可以是經過篩選後的訓練資料集。步驟204，根據預設的拆分方式，對訓練資料集進行拆分，以獲得k組訓練資料子集。這裡的k可以為大於1的正整數。上述預設的拆分方式可以包括但不限於時間拆分的方式以及隨機拆分的方式等。以時間拆分的方式為例來說，假設訓練資料集中的訓練資料的記錄時間為2017年1月1日-2017年1月30日，那麼當k為3時，可以將2017年1月1日-2017年1月10日的訓練數據拆分為一組；將2017年1月11日-2017年1月20日的訓練數據拆分為另一組；將2017年1月21日-2017年1月30日的訓練資料拆分為第三組。需要說明的是，上述步驟202和步驟204可以是由資料模組102執行的。步驟206，並存執行k次步驟a-步驟d。步驟a，從k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集。如前述例子，可以選取其中的2組訓練資料子集作為當前訓練資料集。需要說明的是，當執行k次訓練資料子集的選取步驟時，可以使得每組訓練資料子集都可以被選取到。也即可以實現考慮多個特徵在各組訓練資料子集中的綜合表現，進而可以篩選出更準確的特徵。步驟b，根據當前訓練資料集，計算多個待篩選的特徵的m個評價指標。多個待篩選的特徵可以是由資料分析師和資料採擷工程師根據業務經驗以及對資料的理解預先設置好的。其例如可以為：使用者的身份資訊或者使用者在過去若干天的交易次數等等。上述評價指標可以用於表徵特徵的絕對重要性，與其它特徵無關。其可以包括但不限於IV、GINI、IG、MI、Relief分數以及PSI等。本實施例中，可以統計m個評價指標，其中m為正整數。藉由綜合考慮各個特徵的多個評價指標，可以保證篩選的目標特徵的穩定性以及有效性。以待篩選的特徵為：特徵1-3，各評價指標為：IV、GINI以及IG為例來說，上述三個特徵的計算結果可以如表1所示。

需要說明的是，表1中的各評價指標僅僅是基於1次選取的訓練資料子集（表示為CV1）而計算得到的。可以理解的是，當基於k次選取的訓練資料子集，計算各個特徵的各個評價指標時，可以得到k組如表1所示的資料。步驟c，根據各個評價指標，對多個特徵進行排序，從而得到m組多個特徵的指標排名。以表1為例來說，當根據IV對各個特徵進行排序時，假設CV1_IV1＞ CV1_IV2＞ CV1_IV3，則排序結果可以為：特徵1，特徵2，特徵3。根據該排序結果，可以得到一組多個特徵的指標排名：{1,2,3} ，其中，第1位元數位代表特徵1對應的指標排名，第2位元數位代表特徵2對應的指標排名，依次類推。同理，依據m個排名指標，可以獲取到m組多個特徵的指標排名。可以理解的是，僅根據1次選取的訓練資料子集就可以得到m組指標排名。那麼當執行k次步驟c時，就可以得到k*m組指標排名。也即基於k次選取的訓練資料子集，就可以得到k*m組指標排名。步驟d，基於當前訓練資料集，訓練機器學習模型，以預測一組多個特徵的重要性排名。這裡的重要性排名是依據各個特徵的相對重要性而得到的。相對重要性顧名思義是相對於其它特徵的重要性，即與其它特徵相關。具體地，在對機器學習模型進行訓練時，可以設置在模型訓練好之後輸出特徵的重要性排序結果。根據該重要性排序結果，就可以得到一組多個特徵的重要性排名。舉例來說，假設有3個特徵：特徵1-3，且該3個特徵的重要性排序結果為：特徵2，特徵3，特徵1。根據該重要性排序結果，可以得到一組特徵1-3的重要性排名：{3,1,2}。可以理解的是，重複執行k次步驟d之後，就可以得到k組重要性排名。需要說明的是，在實際應用中，上述步驟b-c與步驟d的執行順序可以互換，也可以並存執行，本說明書對此不作限定。此外，上述步驟a-d可以是由功能模組104執行的。步驟208，將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取多個特徵的總排名。在一種實施方式中，可以直接對k*m組指標排名與k組重要性排名進行融合，以獲取多個特徵的總排名。在另一種實施方式中，可以先對k*m組指標排名進行融合，以獲取多個特徵的總指標排名。並對k組重要性排名進行融合，以獲取多個特徵的總重要性排名。之後，再將總指標排名與總重要性排名進行融合，以獲取多個特徵的總排名。上述總指標排名的具體獲取過程可以為：從k*m組指標排名中抽取依據同一評價指標所獲得的k組指標排名。根據第一排序融合演算法，分別對各個特徵在k組指標排名中對應的排名進行融合，以獲取各個特徵與該評價指標對應的指標綜合排名。重複執行上述抽取以及融合處理的步驟，直至獲取到各個特徵與m個評價指標對應的m個指標綜合排名。根據第二排序融合演算法，分別將所述各個特徵的m個指標綜合排名進行融合，以獲取各個特徵的總指標排名。當然，在實際應用中，也可以直接根據一種排序融合演算法，將k*m組指標排名直接進行融合，本說明書對此不作限定。上述第一排序融合演算法或者第二排序融合演算法可以包括但不限於均值演算法、最大值演算法、最小值演算法、加權平均值演算法以及魯棒性聚合（Robust Rank Aggregation，RRA）演算法等等。可以理解是，上述第一排序融合演算法與第二排序融合演算法可以相同也可以不同。在本說明書中，以兩者相同且均為均值演算法為例。以下對各個指標排名以及總指標排名的獲取過程進行舉例說明。假設有3個特徵：特徵1-3，3個評價指標：IV、GINI以及IG。此外，還假設k=4，也即每個特徵有4個IV值，4個GINI值以及4個IG值。那麼各個特徵與3個評價指標對應的3個指標綜合排名可以如表2-4所示。

表2中，以第2列為例來說，第2列中的各行數字用於表示基於CV1所獲取的IV值，對各個特徵排序之後，所獲得的各個特徵的排名。也即與IV值對應的一組各個特徵的指標排名。

表3中，以第2列為例來說，第2列中的各行數字用於表示基於CV1所獲取的GINI值，對各個特徵排序之後，所獲得的各個特徵的排名。也即與GINI值對應的一組各個特徵的指標排名。

表4中，以第2列為例來說，第2列中的各行數字用於表示基於CV1所獲取的IG值，對各個特徵排序之後，所獲得的各個特徵的排名。也即與IG值對應的一組各個特徵的指標排名。在獲取到如上3個評價指標的綜合排名之後，就可以得到各個特徵的總指標排名，如表5所示。

可以理解的是，表5中的第2-4列的數字分別取自表2-4的計算結果。類似於上述指標排名或者總指標排名的獲取過程，還可以獲取到各個特徵的重要性排名。具體地，可以根據第三排序融合演算法，分別對各個特徵在k組重要性排名中對應的排名進行融合，以獲取各個特徵的總重要性排名。這裡的第三排序融合演算法的定義可以同上述第一排序融合演算法或者第二排序融合演算法，在此不復贅述。以上述例子為例來說，假設第三排序融合演算法為均值演算法，那麼獲取到的重要性排名可以如表6所示。

表6中，以第2列為例來說，第2列中的各行數字用於表示基於CV1對一種機器學習模型進行訓練後，由該機器學習模型輸出的各個特徵的重要性排名。也即一組各個特徵的重要性排名。在獲取到各個特徵的總指標排名以及總重要性排名之後，就可以得到各個特徵的總排名。具體地，可以根據第四排序融合演算法，將總指標排名與總重要性排名進行融合，以獲取多個特徵的總排名。這裡的第四排序融合演算法的定義可以同上述第一排序融合演算法或者第二排序融合演算法，在此不復贅述。以上述例子為例來說，假設第四排序融合演算法為均值演算法，那麼獲取到的總排名可以如表7所示。

可以理解的是，表7中的第2-3列的數字分別取自表5-6的計算結果。需要說明的是，上述步驟208可以是由分析模組106執行的。步驟210，根據總排名，從多個特徵中選取目標特徵。以表7中的總排名結果為例來說，假設要選取兩個特徵，那麼就可以選取特徵1和特徵2，從而特徵1和特徵2即為選取的目標特徵。當然，這裡僅僅是依照排名來進行特徵篩選。在實際應用中，可以是由決策模組108結合預先配置的變數資訊或者篩選條件進行篩選。可以理解的是，當決策模組108採用反覆運算剔除的特徵選取方式時，則可以重複執行上述步驟202-步驟210，直至篩選得到指定數量的目標特徵。其中在每輪特徵篩選的過程中，消除掉N個不重要的特徵。上述另一種實施方式的具體融合過程可參照圖3所示。圖3中，k=4。在圖3的左上方示出了各個特徵的與相同評價指標（如，IV、GINI或者IG等）對應的4組指標排名的融合過程，最後得到的指標綜合排名包括IV綜合排名、GINI綜合排名以及IG綜合排名等等。右上方示出了各個特徵的4組重要性排名的融合過程，最後得到各個特徵的總重要性排名。最下方示出了首先對各個特徵的各指標排名進行融合，得到總指標排名。之後再將總指標排名與總重要性排名進行融合，得到各個特徵的總排名。藉由本說明書的實施例選取的目標特徵可以用於構建機器學習模型，如，風險控制模型（一種用於識別和防控盜用、欺詐以及作弊等風險的模型）等。綜上，本說明書的實施例提供的用於構建機器學習模型的特徵選取方法，可以實現考慮多個特徵在各組訓練資料子集中的綜合表現，進而可以篩選出更準確的特徵。此外，本說明書提供的特徵選取方法，還綜合考慮了各個特徵的絕對重要性（如，各個評價指標）以及相對重要性，由此可以篩選出更穩定、更有效的特徵。與上述用於構建機器學習模型的特徵選取方法對應地，本說明書的一個實施例還提供的一種用於構建機器學習模型的特徵選取裝置，如圖4所示，該裝置可以包括：獲取單元402，用於獲取訓練資料集。拆分單元404，用於根據預設的拆分方式，對獲取單元402獲取的訓練資料集進行拆分，以獲得k組訓練資料子集。這裡的預設的拆分方式包括以下任一種：時間拆分方式以及隨機拆分方式。執行單元406，用於對拆分單元404拆分得到的k組訓練資料子集，並存執行如下過程k次：從k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集。根據當前訓練資料集，計算多個待篩選的特徵的m個評價指標。根據各個評價指標，對多個特徵進行排序，從而得到m組多個特徵的指標排名。基於當前訓練資料集，訓練機器學習模型，以預測一組多個特徵的重要性排名。上述評價指標可以包括：資訊價值IV、基尼係數GINI、資訊增益IG、互資訊MI、Relief分數以及PSI中的若干個。融合單元408，用於將執行單元406執行k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取多個特徵的總排名。選取單元410，用於根據融合單元408得到的總排名，從多個特徵中選取目標特徵。可選地，融合單元408具體可以用於：對k*m組指標排名進行融合，以獲取多個特徵的總指標排名。對k組重要性排名進行融合，以獲取多個特徵的總重要性排名。將總指標排名與總重要性排名進行融合，以獲取多個特徵的總排名。融合單元408還具體可以用於：從k*m組指標排名中抽取依據同一評價指標所獲得的k組指標排名。根據第一排序融合演算法，分別對各個特徵在k組指標排名中對應的排名進行融合，以獲取各個特徵與評價指標對應的指標綜合排名。重複執行上述抽取以及融合處理的步驟，直至獲取到各個特徵與m個評價指標對應的m個指標綜合排名。根據第二排序融合演算法，分別將各個特徵的m個指標綜合排名進行融合，以獲取各個特徵的總指標排名。這裡的第一排序融合演算法或者第二融合排序演算法可以包括以下任一種：均值演算法、最大值演算法、最小值演算法、加權平均值演算法以及魯棒性聚合RRA演算法。融合單元408還具體可以用於：根據第三排序融合演算法，分別對各個特徵在k組重要性排名中對應的排名進行融合，以獲取各個特徵的總重要性排名。融合單元408還具體可以用於：根據第四排序融合演算法，將總指標排名與總重要性排名進行融合，以獲取多個特徵的總排名。需要說明的是，上述獲取單元402以及拆分單元404的功能可以由資料模組102來實現。執行單元406的功能可以由功能模組104來實現。融合單元408的功能可以由分析模組106來實現。選取單元410的功能可以由決策模組108來實現。本說明書的上述實施例裝置的各功能模組的功能，可以藉由上述方法實施例的各步驟來實現，因此，本說明書一個實施例提供的裝置的具體工作過程，在此不復贅述。本說明書的一個實施例提供的用於構建機器學習模型的特徵選取裝置，可以篩選出更穩定、更有效的特徵。與上述用於構建機器學習模型的特徵選取方法對應地，本說明書的實施例還提供了一種用於構建機器學習模型的特徵選取設備，如圖5所示，該設備可以包括：記憶體502、一個或多個處理器504以及一個或多個程式。其中，該一個或多個程式儲存在記憶體502中，並且被配置成由一個或多個處理器504執行，該程式被處理器504執行時實施以下步驟：獲取訓練資料集。根據預設的拆分方式，對訓練資料集進行拆分，以獲得k組訓練資料子集。對k組訓練資料子集，並存執行如下過程k次：從k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集。根據當前訓練資料集，計算多個待篩選的特徵的m個評價指標。根據各個評價指標，對多個特徵進行排序，從而得到m組多個特徵的指標排名。基於當前訓練資料集，訓練機器學習模型，以預測一組多個特徵的重要性排名。將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取多個特徵的總排名。根據總排名，從多個特徵中選取目標特徵。本說明書的一個實施例提供的用於構建機器學習模型的特徵選取設備，可以篩選出更穩定、更有效的特徵。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其是，對於設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。結合本說明書公開內容所描述的方法或者演算法的步驟可以硬體的方式來實現，也可以是由處理器執行軟體指令的方式來實施。軟體指令可以由相應的軟體模組組成，軟體模組可以被存放於RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、移動硬碟、CD-ROM或者本領域熟知的任何其它形式的儲存儲媒介中。一種示例性的儲存媒介耦合至處理器，從而使處理器能夠從該儲存媒介讀取資訊，且可向該儲存媒介寫入資訊。當然，儲存媒介也可以是處理器的組成部分。處理器和儲存媒介可以位於ASIC中。另外，該ASIC可以位於伺服器中。當然，處理器和儲存媒介質也可以作為分離元件存在於伺服器中。本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、固件或它們的任意組合來實施。當使用軟體實施時，可以將這些功能存儲在電腦可讀的媒介中或者作為電腦可讀媒介上的一個或多個指令或代碼進行傳輸。電腦可讀媒介包括電腦儲存媒介和通信媒介，其中通信媒介包括便於從一個地方向另一個地方傳送電腦程式的任何媒介。儲存媒介可以是通用或專用電腦能夠存取的任何可用媒介。上述對本說明書特定實施例進行了描述。其它實施例在所申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多工處理和並行處理也是可以的或者可能是有利的。以上所述的具體實施方式，對本說明書的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本說明書的具體實施方式而已，並不用於限定本說明書的保護範圍，凡在本說明書的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本說明書的保護範圍之內。

10：特徵選取系統 102：資料模組 104：功能模組 106：分析模組 108：決策模組 402：獲取單元 404：拆分單元 406：執行單元 408：融合單元 410：選取單元

為了更清楚地說明本說明書的實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本說明書的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其它的附圖。圖1為本說明書提供的特徵選取系統示意圖；圖2為本說明書一個實施例提供的用於構建機器學習模型的特徵選取方法流程圖；圖3為本說明書提供的特徵排名融合過程示意圖；圖4為本說明書一個實施例提供的用於構建機器學習模型的特徵選取裝置示意圖；圖5為本說明書一個實施例提供的用於構建機器學習模型的特徵選取設備示意圖。

Claims

一種用於構建機器學習模型的特徵選取方法，包含：獲取訓練資料集；根據預設的拆分方式，對所述訓練資料集進行拆分，以獲得k組訓練資料子集；對所述k組訓練資料子集，並存執行如下過程k次：從所述k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集；根據所述當前訓練資料集，計算多個待篩選的特徵的m個評價指標；根據各個評價指標，對所述多個特徵進行排序，從而得到m組所述多個特徵的指標排名；基於所述當前訓練資料集，訓練機器學習模型，以預測一組所述多個特徵的重要性排名；將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名；根據所述總排名，從所述多個特徵中選取目標特徵。
如申請專利範圍第1項所述的方法，所述將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名，包括：對所述k*m組指標排名進行融合，以獲取所述多個特徵的總指標排名；對所述k組重要性排名進行融合，以獲取所述多個特徵的總重要性排名；將所述總指標排名與所述總重要性排名進行融合，以獲取所述多個特徵的總排名。
如申請專利範圍第2項所述的方法，所述對所述k*m組指標排名進行融合，以獲取所述多個特徵的總指標排名，包括：從所述k*m組指標排名中抽取依據同一評價指標所獲得的k組指標排名；根據第一排序融合演算法，分別對各個特徵在所述k組指標排名中對應的排名進行融合，以獲取所述各個特徵與所述評價指標對應的指標綜合排名；重複執行上述抽取以及融合處理的步驟，直至獲取到所述各個特徵與所述m個評價指標對應的m個指標綜合排名；根據第二排序融合演算法，分別將所述各個特徵的所述m個指標綜合排名進行融合，以獲取所述各個特徵的總指標排名。
如申請專利範圍第2項所述的方法，所述對所述k組重要性排名進行融合，以獲取所述多個特徵的總重要性排名，包括：根據第三排序融合演算法，分別對所述各個特徵在所述k組重要性排名中對應的排名進行融合，以獲取所述各個特徵的總重要性排名。
如申請專利範圍第2項所述的方法，所述將所述總指標排名與所述總重要性排名進行融合，以獲取所述多個特徵的總排名，包括：根據第四排序融合演算法，將所述總指標排名與所述總重要性排名進行融合，以獲取所述多個特徵的總排名。
如申請專利範圍第2項所述的方法，所述第一排序融合演算法或者所述第二融合排序演算法包括以下任一種：均值演算法、最大值演算法、最小值演算法、加權平均值演算法以及魯棒性聚合RRA演算法。
如申請專利範圍第1項所述的方法，所述預設的拆分方式包括以下任一種：時間拆分方式以及隨機拆分方式。
如申請專利範圍第1項所述的方法，所述評價指標包括：資訊價值IV、基尼係數GINI、資訊增益IG、互資訊MI、Releif分數以及樣本穩定指數PSI中的若干個。
一種用於構建機器學習模型的特徵選取裝置，包含：獲取單元，用於獲取訓練資料集；拆分單元，用於根據預設的拆分方式，對所述獲取單元獲取的所述訓練資料集進行拆分，以獲得k組訓練資料子集；執行單元，用於對所述拆分單元拆分得到的所述k組訓練資料子集，並存執行下列過程k次：從所述k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集；根據所述當前訓練資料集，計算多個待篩選的特徵的m個評價指標；根據各個評價指標，對所述多個特徵進行排序，從而得到m組所述多個特徵的指標排名；基於所述當前訓練資料集，訓練機器學習模型，以預測一組所述多個特徵的重要性排名；融合單元，用於將所述執行單元執行k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名；選取單元，用於根據所述融合單元得到的所述總排名，從所述多個特徵中選取目標特徵。
如申請專利範圍第9項所述的裝置，所述融合單元具體用於：對所述k*m組指標排名進行融合，以獲取所述多個特徵的總指標排名；對所述k組重要性排名進行融合，以獲取所述多個特徵的總重要性排名；將所述總指標排名與所述總重要性排名進行融合，以獲取所述多個特徵的總排名。
如申請專利範圍第10項所述的裝置，所述融合單元還具體用於：從所述k*m組指標排名中抽取依據同一評價指標所獲得的k組指標排名；根據第一排序融合演算法，分別對各個特徵在所述k組指標排名中對應的排名進行融合，以獲取所述各個特徵與所述評價指標對應的指標綜合排名；重複執行上述抽取以及融合處理的步驟，直至獲取到所述各個特徵與所述m個評價指標對應的m個指標綜合排名；根據第二排序融合演算法，分別將所述各個特徵的所述m個指標綜合排名進行融合，以獲取所述各個特徵的總指標排名。
如申請專利範圍第10項所述的裝置，所述融合單元還具體用於：根據第三排序融合演算法，分別對所述各個特徵在所述k組重要性排名中對應的排名進行融合，以獲取所述各個特徵的總重要性排名。
如申請專利範圍第10項所述的裝置，所述融合單元還具體用於：根據第四排序融合演算法，將所述總指標排名與所述總重要性排名進行融合，以獲取所述多個特徵的總排名。
如申請專利範圍第10項所述的裝置，所述第一排序融合演算法或者所述第二融合排序演算法包括以下任一種：均值演算法、最大值演算法、最小值演算法、加權平均值演算法以及魯棒性聚合RRA演算法。
如申請專利範圍第9項所述的裝置，所述預設的拆分方式包括以下任一種：時間拆分方式以及隨機拆分方式。
如申請專利範圍第9項所述的裝置，所述評價指標包括：資訊價值IV、基尼係數GINI、資訊增益IG、互資訊MI、Releif分數以及樣本穩定指數PSI中的若干個。
一種用於構建機器學習模型的特徵選取設備，包含：記憶體；一個或多個處理器；以及一個或多個程式，其中所述一個或多個程式儲存在所述記憶體中，並且被配置成由所述一個或多個處理器執行，所述程式被所述處理器執行時實施以下步驟：獲取訓練資料集；根據預設的拆分方式，對所述訓練資料集進行拆分，以獲得k組訓練資料子集；對所述k組訓練資料子集，並存執行如下過程k次：從所述k組訓練資料子集中選取k-1組訓練資料子集，以作為當前訓練資料集；根據所述當前訓練資料集，計算多個待篩選的特徵的m個評價指標；根據各個評價指標，對所述多個特徵進行排序，從而得到m組所述多個特徵的指標排名；基於所述當前訓練資料集，訓練機器學習模型，以預測一組所述多個特徵的重要性排名；將k次得到的k*m組指標排名以及k組重要性排名進行融合，以獲取所述多個特徵的總排名；根據所述總排名，從所述多個特徵中選取目標特徵。