TW201738780A - 利用訓練資料訓練模型的方法和訓練系統 - Google Patents
利用訓練資料訓練模型的方法和訓練系統 Download PDFInfo
- Publication number
- TW201738780A TW201738780A TW106104130A TW106104130A TW201738780A TW 201738780 A TW201738780 A TW 201738780A TW 106104130 A TW106104130 A TW 106104130A TW 106104130 A TW106104130 A TW 106104130A TW 201738780 A TW201738780 A TW 201738780A
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- value
- training
- columns
- feature columns
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Complex Calculations (AREA)
Abstract
本發明公開一種利用訓練資料訓練模型的方法和系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練方法包括:計算每一個特徵列的重要程度值;判斷每一個特徵列的重要程度值是否小於對應的閾值;當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併;以及將合併後的所述多個樣本輸入機器學習算法模型,訓練所述機器學習算法模型。本發明實施例能夠對重要特徵和輔助特徵進行區別處理,達到訓練特徵參數可控,並提高模型訓練的準確性的目的。
Description
本發明關於資料處理領域,尤其關於利用訓練資料訓練模型的方法和訓練系統。
在資料挖掘的業務場景中,經常需要利用大規模的訓練資料訓練機器學習算法模型,進行分類或者回歸計算。只有用大量資料訓練該機器學習算法模型之後,才有可能獲得預測精度較高的該算法模型,進而才能在後續根據輸入的資料進行各種行為的預測。
在當前互聯網的環境下,訓練資料的資料規模經常達到數十億甚至上千億,每個訓練資料的特徵規模隨著業務擴展,也會到一個非常大的數量級。
以CTR(Click-Through Rate)預估為例,CTR預估是互聯網計算廣告中的關鍵環節,預估準確性直接影響公司廣告收入。CTR預估使用特定的算法模型,輸入該算法模型進行計算的訓練資料可能達到千億規模,每個訓練資料的特徵維度也可能達到百億的規模。如此龐大的規模輸入算法模型中,容易造成機器學習算法模型的計算難度增
大、效率降低。
為了減少計算難度並提高計算的效率,常規的解決方案是使用並行計算的方式處理訓練資料,例如使用LR(Logistic Regression)模型進行處理。LR是廣義線性模型,可以進行並行化處理,即將原本海量的訓練資料分發到N個不同的計算處理器(worker)中計算,每個計算處理器處理的資料量為總資料量的1/N。
利用上述方式可以對一定數量級的資料進行處理,但是對於百億特徵*千億資料的規模下,資料總量可能超過PB級別,超出了一般計算集群的計算範圍。即使可以利用超大規模的計算集群進行計算,得到最終最優結果的時間也非常長,導致運行效率低,滿足不了業務的更新需求。
另外,在一種相反的情況下,訓練資料可能會存在維度過低、資料量過小的問題,同樣影響機器學習模型的訓練精度。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的利用訓練資料訓練模型的方法和訓練系統。
為解決上述問題,本發明一實施例公開一種利用訓練資料訓練模型的方法,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N
個特徵列,所述訓練方法包括:計算每一個特徵列的重要程度值;判斷每一個特徵列的重要程度值是否小於對應的閾值;當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併,得到(N-M+P)個特徵列;以及將包括所述(N-M+P)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
本發明另一實施例公開一種利用訓練資料訓練模型的方法,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練方法包括:計算每一個特徵列的重要程度值;判斷每一個特徵列的重要程度值是否大於對應的閾值;當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列,其中R>Q,且Q<N;將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的(N-Q)個特徵列合併,得到(R+N-
Q)個特徵列;以及將包括所述(R+N-Q)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
本發明再一實施例公開一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練系統包括:第一計算模組,用於計算每一個特徵列的重要程度值;第一判斷模組,用於判斷每一個特徵列的重要程度值是否小於對應的閾值;第一降維模組,用於當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;第一合併模組,用於將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併,得到(N-M+P)個特徵列;以及第一訓練模組,用於將包括所述(N-M+P)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
本發明再另一實施例公開一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所
述訓練系統包括:第二計算模組,用於計算每一個特徵列的重要程度值;第二判斷模組,用於判斷每一個特徵列的重要程度值是否大於對應的閾值;升維模組,用於當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列,其中R>Q,且Q<N;第二合併模組,用於將將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的(N-Q)個特徵列合併,得到(R+N-Q)個特徵列;以及第二訓練模組,用於將包括所述(R+N-Q)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
本發明實施例至少具有以下優點:本發明實施例通過判斷每一個特徵列的重要程度值,對重要特徵和輔助特徵進行區別處理,採用保留重要特徵、將輔助特徵進行降維的方式,或者對應地採用將重要特徵升維的方式,對於較大規模的訓練資料,能夠降低原本特徵維度較高的訓練資料的維度,在將該降維後的訓練資料輸入模型進行訓練時,能夠達到訓練特徵參數可控、訓練資料大幅降低、運行效率提升的目的。同時由於本發明實施例的方法中保留了重要特徵,而對輔助特徵進行降
維,最大限度地減小了該模型的預測準確度的降低程度。同時,本發明實施例通過判斷每一個特徵列的重要程度值,對於較小規模的訓練資料,能夠升高重要程度值較高的訓練資料的維度,能夠達到訓練特徵參數可控、提高模型訓練的準確性的問題。
400‧‧‧利用訓練資料訓練模型的系統
401‧‧‧第一計算模組
402‧‧‧第一判斷模組
403‧‧‧第一降維模組
404‧‧‧第一合併模組
405‧‧‧第一訓練模組
500‧‧‧利用訓練資料訓練模型的系統
501‧‧‧第一計算模組
502‧‧‧第一判斷模組
503‧‧‧第一降維模組
504‧‧‧第一合併模組
505‧‧‧第一訓練模組
51‧‧‧資訊值計算模組
52‧‧‧資訊增益計算模組
600‧‧‧利用訓練資料訓練模型的系統
601‧‧‧第二計算模組
602‧‧‧第二判斷模組
603‧‧‧升維模組
604‧‧‧第二合併模組
605‧‧‧第二訓練模組
圖1是本發明實施例的訓練資料的示意圖。
圖2是本發明第一實施例的利用訓練資料訓練模型的方法的流程圖。
圖3是本發明實施例的特徵列的重要程度值輸出的結果的示意圖。
圖4是本發明第二實施例的利用訓練資料訓練模型的方法的流程圖。
圖5是本發明第三實施例的利用訓練資料訓練模型的方法的流程圖。
圖6是本發明第四實施例的利用訓練資料訓練模型的系統的方框圖。
圖7是本發明第五實施例的利用訓練資料訓練模型的系統的方框圖。
圖8是本發明第六實施例的利用訓練資料訓練模型的系統的方框圖。
下面將結合本發明實施例中的圖式,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域習知技術人員所獲得的所有其他實施例,都屬本發明保護的範圍。
本發明的核心思想之一在於,提出一種利用訓練資料訓練模型的方法和系統,該方法或系統中首先進行特徵列選擇,通過計算每一個特徵列的重要程度值並判斷每一個特徵列的重要程度值是否小於對應的閾值,選擇出重要特徵列和輔助特徵列。之後將多個輔助特徵列進行降維處理,最後將重要特徵列和降維處理後的輔助特徵列合併,並輸入機器學習算法模型,對機器學習算法模型進行訓練。
本發明第一實施例提出一種利用訓練資料訓練模型的方法,圖1是本發明一實施例的訓練資料的示意圖。圖2是利用訓練資料訓練模型的方法的流程圖。本發明第一實施例提出的利用訓練資料訓練模型的方法可以用於訓練各種機器學習算法模型,特別地,本發明第一實施例提出的利用訓練資料訓練模型的方法可以應用於具有高維稀疏特徵的訓練資料。如圖1所示,所述的訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列。
如圖2所示,本發明第一實施例的利用訓練資料訓練模型的方法可以包括如下步驟:S101,計算每一個特徵列的重要程度值;在這一步驟中,該重要程度值用於評估該特徵列對該模型在訓練後的預測準確度的重要程度。舉例來說,該重要程度值可以是該特徵列的資訊值IV(Information Value,後稱IV值)或資訊增益IG(Information Gain,後稱IG值)。
當該重要程度值為該特徵列的資訊值IV時,舉例來說,以二分模型為例,可以通過如下公式計算:WoE=ln(pctlGood/pctlBad) (1)
MIV=WoE*(pctlGood-pctlBad) (2)
IV=ΣM IV (3)
該二分模型可以為國外廣泛使用的信用卡評分模型,該二分模型尤其在信用風險評估以及金融風險控制領域更是得到了廣泛的使用,其原理是將模型變量WoE編碼方式離散化之後運用logistic回歸模型進行的一種二分類變量的廣義線性模型。在該模型中,每一個訓練資料即是每一個信用卡用戶的資訊,該訓練資料包括多個特徵,例如信用卡用戶的年齡、職業、性別等。每一個訓練資料對應一個標籤值,當該信用卡用戶為違約用戶時,該標籤值記為1,當該信用卡用戶為正常用戶時,該標籤值記為0。
在上述公式(1)中,WoE為顯著性權重(Weight of Evidence),計算IV值之前首先需要進行WoE值計算。
公式(1)中的pctlGood和pctlBad分別是通過多個訓練資料的特徵列中的特徵以及每一個資料對應的標籤值計算得出。其中pctlGood表示將某一特徵列(例如“信用卡用戶的年齡”)進行離散處理後,每一個區間內對應的標籤值為1的信用卡用戶個數與全部區間內對應的標籤值為1的信用卡用戶個數,pctlBad表示每一個區間內對應的標籤值為0的信用卡用戶個數與全部區間內對應的標籤值為0的信用卡用戶個數。
例如,表1所示為將信用卡用戶的年齡進行離散處理後獲得的每個年齡區間對應的WoE值。
在完成WoE計算之後,通過公式(2)計算出針對每個年齡區間的MIV值,再通過公式(3)計算出每個年齡區間的MIV值的總和,從而得出該特徵列的全部年齡區間的IV值。
當該重要程度值為該特徵列的資訊增益IG時,該資訊增益Gain(S,A)被定義為:
在上述公式(4)中,其中Entropy(S)為資料集合S的熵,V(A)是某一特徵列A所有可能值的集合,Sv是S中某一特徵列A的值為v的子集,權值為某一特徵列Sv的樣例占原始樣例S的比例|Sv|/|S|,即Gain(S,A)是由於給定特徵列A的值而得到的關於目標函數值的資訊。
在計算出IV值和/或IG值之後,可以對計算獲得的IV值和/或IG值進行輸出。圖3所示為輸出的結果的示意圖,圖3中,col列為特徵名,IV為資訊值,IG為資訊增益。
以上對每一個特徵列的IV值和IG值的計算方法進行了舉例描述。本領域技術人員應當可以明確的是,本領域還有其他多種能夠用於評估該特徵列對該模型在訓練後的預測準確度的重要程度的值,並且計算方法也多種多樣,本發明並不特別限制該重要程度值的類型和計算方法。
步驟S102,判斷每一個特徵列的重要程度值是否小於對應的閾值;在這一步驟中,舉例來說,可以根據步驟S101中計算出的每一個特徵列的重要程度值,判斷該重要程度值是否小於對應的閾值。
例如,可以根據步驟S101中計算出的每一特徵列的IV值,判斷該IV值是否小於對應的閾值。特徵列的IV值對應的閾值例如為第一閾值B,在這一步驟中,用每一
個特徵列的IV值與該第一閾值B進行比較。
同樣地,可以根據步驟S101中計算出的每一特徵列的IG值,判斷該IG值是否小於對應的閾值。特徵列的IG值對應的閾值例如為第二閾值C,在這一步驟中,用每一個特徵列的IG值與該第二閾值C進行比較。
此外,還可以同時判斷每一個特徵列的IV值和IG值是否同時小於對應的閾值。例如,針對每一個特徵列,判斷該特徵列的IV值是否小於上述的第一閾值B,再判斷該特徵列的IG值是否小於上述的第二閾值C。
步驟S103,當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;在這一步驟中,通過資訊值和/或資訊增益與對應的閾值比較,可以確定哪些特徵列為重要特徵,哪些特徵列為輔助特徵。即,哪些特徵列對該模型在訓練後的預測準確度影響較大,即可以視為重要特徵,哪些特徵列對該模型在訓練後的預測準確度影響較小,即可以視為輔助特徵。
如果僅用IV值進行比較,則可以認為IV值小於上述的第一閾值B的特徵列為輔助特徵,IV值大於或等於上述的第一閾值B的特徵列為重要特徵。
如果僅用IG值進行比較,則可以認為IG值小於上述的第二閾值C的特徵列為輔助特徵,IG值大於或等於上
述的第二閾值C的特徵列為重要特徵。
如果同時用IV值和IG值進行比較,則可以認為IV值小於上述的第一閾值B的特徵列為輔助特徵,或者IG值小於上述的第二閾值C的特徵列為輔助特徵,只有IV值大於或等於上述的第一閾值B,且IG值大於或等於上述的第二閾值C的特徵列才可以認為是重要特徵。
以下通過一個示例,描述將所述M個資訊值和/或資訊增益小於對應閾值的特徵列進行降維處理的步驟。
某個訓練資料包括三個樣本,每個樣本包括N個特徵,三個樣本分別為:
A1(a11,a12,a13,......a1N)
A2(a21,a22,a23,......a2N)
A3(a31,a32,a33,......a3N)
在步驟S101中計算每一個特徵列的重要程度值的步驟,例如是計算a11,a21,a31構成的特徵列的資訊值和/或資訊增益、a12,a22,a32構成的特徵列的資訊值和/或資訊增益、a13,a23,a33構成的特徵列的資訊值和/或資訊增益,直到a1N,a2N,a3N構成的特徵列的資訊值和/或資訊增益。
在步驟S103中,根據步驟S102中得出的每一個特徵列的重要程度值是否小於對應的閾值,將多個特徵列分為重要特徵和輔助特徵。在本示例中,重要特徵例如是(a11,a21,a31)構成的特徵列,以及(a12,a22,a32)構成的特徵列.....直到(a1(N-M),a2(N-M),a3(N-M))構成的特
徵列;輔助特徵是後M列即(a1(N-M+1),a2(N-M+1),a3(N-M+1))構成的特徵列......直到(a1N,a2N,a3N)構成的特徵列。
在步驟S103中,可以將M個重要程度值小於閾值得輔助特徵進行降維處理,轉換成P個特徵列。即,原先的(a1(N-M+1),a1(N-M+2)......a1N)、(a2(N-M+1),a2(N-M+2)......a2N)、(a3(N-M+1),a3(N-M+2)......a3N)可以分別經過降維處理,轉換為(a’1(N-M+1),a’1(N-M+2)......a’1(N-M+P))、(a’2(N-M+1),a’2(N-M+2)......a’2(N-M+P))、(a’3(N-M+1),a’3(N-M+2)......a’3(N-M+P))。
這一步驟S103例如可以通過minwise hashing算法實現。minwise hashing算法廣泛的應用於海量資料下的資訊檢索,在這一算法中,將(b=64位)縮小到b位,降低了儲存空間和計算時間。
該算法的實現例如為:
通過minwise hashing算法後,原先輔助特徵被轉化為一個k*2b維度的向量,其中k,b為算法指定參數,
即,步驟S103中的P=k*2b。
另外,正如本領域技術人員所知,步驟S103並不限於通過minwise hashing算法完成,同樣可以使用主成分分析算法(PCA)、Linear Discriminant Analysis(LDa)、局部線性嵌入(LLE)、拉普拉斯特徵映射(Laplacian Eigenmaps)等算法,在此並不特別限定。
步驟S104,將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併,得到(N-M+P)個特徵列;
在這一步驟中,可以將步驟S102中判斷出的重要程度值大於或等於對應的閾值的(N-M)個特徵列與降維處理後產生的P個特徵列合併,得到包括(N-M+P)個特徵列的新的訓練資料。
舉例來說,重要程度大於或等於對應閾值的(N-M)個特徵列例如為:
A1”(a11,a12......a1(N-M))
A2”(a21,a22......a2(N-M))
A3”(a31,a32......a3(N-M)),上述降維處理後產生的輔助特徵為:
A1'''(a’1(N-M+1),a’1(N-M+2)......a’1(N-M+P))
A2'''(a’2(N-M+1),a’2(N-M+3)......a’2(N-M+P))
A3'''(a’3(N-M+1),a’3(N-M+2)......a’3(N-M+P))
將上述重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併的結果為:
A1''''(a11,a12,......a1(N-M),......a1(N-M+P))
A2''''(a21,a22,......a2(N-M),......a2(N-M+P))
A3''''(a31,a32,......a3(N-M),......a3(N-M+P))
上述合併後產生的訓練資料可以稱為特徵指紋。合併後產生的訓練資料的特徵維度為(N-M+P)個,短於原先的N個。以訓練資料包括1億特徵列為例,取k=200,b=12,重要特徵取前10000個特徵列,所產生特徵列為2000*2^12+10000=829100個,降維比約為829100/1000000000=0.008292,特徵和資料不到原先的1%。
S105,將包括所述(N-M+P)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
在這一步驟中,將合併後的多個樣本輸入機器學習算法模型,對機器學習算法模型進行訓練,或者使用機器學習算法模型進行預測。機器學習算法模型可以是分類算法模型或回歸算法模型,例如邏輯回歸(LR)算法模型、隨機森林算法模型、Gradient Boost Decision Tree算法模型等等,本發明並不以此為限。
根據本發明第一實施例提出的利用訓練資料訓練模型的方法,通過判斷每一個特徵列的資訊值和/或資訊增益,採用保留重要特徵、將輔助特徵進行降維的方式,降低原本特徵維度較高的訓練資料的維度,在將該降維後的訓練資料輸入模型進行訓練時,能夠達到訓練特徵參數可控、訓練資料大幅降低、運行效率提升的目的。同時由於本發明實施例的方法中保留了重要特徵,而對輔助特徵進
行降維,最大限度地減小了該模型的預測準確度的降低程度。本發明提出的利用訓練資料訓練模型的方法應用在高維稀疏特徵的訓練資料中的效果尤其明顯,例如在廣告CTR資料中,通過上述的改動,在廣告CTR的1億特徵資料上,AUC較全量訓練提升2‰,資料大小為原先資料量1%。
本發明第二實施例提出一種利用訓練資料訓練模型的方法,圖4所示為本發明第二實施例的利用訓練資料訓練模型的方法的流程圖。本發明第二實施例提出的利用訓練資料訓練模型的方法可以用於訓練各種機器學習算法模型,特別地,本發明提出的利用訓練資料訓練模型的方法可以應用於具有高維稀疏特徵的訓練資料。高維稀疏矩陣,例如總維度與有數值的維度的比例為100:1或者1000:1以上。所述的訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列。
如圖4所示,本發明第二實施例的利用訓練資料訓練模型的方法可以包括如下步驟:
S201,計算每一個特徵列的資訊值和/或資訊增益;在這一步驟中,該資訊值(Information Value,後稱IV值)或資訊增益(Information Gain,後稱IG值)均能夠評估該特徵列對該模型在訓練後的預測準確度的重要程
度。
當該重要程度值為該特徵列的資訊值IV時,舉例來說,以二分模型為例,可以通過步驟S101中列出的公式(1)至公式(3)計算,通過上述方法計算出IV值和/或IG值之後,可以對計算獲得的IV值和/或IG值進行輸出。圖3所示為輸出的結果的示意圖,圖3中,col列為特徵名,IV為資訊值,IG為資訊增益。
步驟S202,判斷每一個特徵列的資訊值和/或資訊增益是否小於對應的閾值;在這一步驟中,舉例來說,可以根據步驟S201中計算出的每一個特徵列的資訊值和/或資訊增益,判斷該資訊值和/或資訊增益是否小於對應的閾值。
例如,可以根據步驟S201中計算出的每一特徵列的IV值,判斷該IV值是否小於對應的閾值。特徵列的IV值對應的閾值例如為第一閾值B,在這一步驟中,用每一個特徵列的IV值與該第一閾值B進行比較。
同樣地,可以根據步驟S201中計算出的每一特徵列的IG值,判斷該IG值是否小於對應的閾值。特徵列的IG值對應的閾值例如為第二閾值C,在這一步驟中,用每一個特徵列的IG值與該第二閾值C進行比較。
此外,還可以同時判斷每一個特徵列的IV值和IG值是否同時小於對應的閾值。例如,針對每一個特徵列,判斷該特徵列的IV值是否小於上述的第一閾值B,再判斷該特徵列的IG值是否小於上述的第二閾值C。
步驟S203,當判斷出所述N個特徵列中的M個特徵列的資訊值和/或資訊增益小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;在這一步驟中,通過資訊值和/或資訊增益與對應的閾值比較,可以確定哪些特徵列為重要特徵,哪些特徵列為輔助特徵。即,哪些特徵列對該模型在訓練後的預測準確度影響較大,即可以視為重要特徵,哪些特徵列對該模型在訓練後的預測準確度影響較小,即可以視為輔助特徵。
如果僅用IV值進行比較,則可以認為IV值小於上述的第一閾值B的特徵列為輔助特徵,IV值大於或等於上述的第一閾值B的特徵列為重要特徵。
如果僅用IG值進行比較,則可以認為IG值小於上述的第二閾值C的特徵列為輔助特徵,IG值大於或等於上述的第二閾值C的特徵列為重要特徵。
如果同時用IV值和IG值進行比較,則可以認為IV值小於上述的第一閾值B的特徵列為輔助特徵,或者IG值小於上述的第二閾值C的特徵列為輔助特徵,只有IV值大於或等於上述的第一閾值B,且IG值大於或等於上述的第二閾值C的特徵列才可以認為是重要特徵。
這一步驟S203例如可以通過minwise hashing算法實現。minwise hashing算法廣泛的應用於海量資料下的資訊檢索,在這一算法中,將(b=64位)縮小到b位,降低
了儲存空間和計算時間。
該算法可以使用與第一實施例提出的具體實現方式來實現,在此不再贅述。
通過minwise hashing算法後,原先輔助特徵被轉化為一個k*2b維度的向量,其中k,b為算法指定參數,即,步驟S203中的P=k*2b。
步驟S204,將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併,得到(N-M+P)個特徵列;在這一步驟中,可以將步驟S202中判斷出的資訊值和/或資訊增益大於或等於對應的閾值的(N-M)個特徵列與降維處理後產生的P個特徵列合併,得到新的訓練資料。
舉例來說,資訊值和/或資訊增益大於或等於對應閾值的(N-M)個特徵列例如為:
A1”(a11,a12......a1(N-M))
A2”(a21,a22......a2(N-M))
A3”(a31,a32......a3(N-M)),上述降維處理後產生的輔助特徵為:
A1'''(a’1(N-M+1),a’1(N-M+2)......a’1(N-M+P))
A2'''(a’2(N-M+1),a’2(N-M+2)......a’2(N-M+P))
A3'''(a’3(N-M+1),a’3(N-M+2)......a’3(N-M+P))
將上述資訊值和/或資訊增益大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併
的結果為:
A1''''(a11,a12,......a1(N-M),......a1(N-M+P))
A2''''(a21,a22,......a2(N-M),......a2(N-M+P))
A3''''(a31,a32,......a3(N-M),......a3(N-M+P))
上述合併後產生的訓練資料可以稱為特徵指紋。合併後產生的訓練資料的特徵維度為(N-M+P)個,短於原先的N個。以訓練資料包括1億特徵列為例,取k=200,b=12,重要特徵取前10000個特徵列,所產生特徵列為2000*2^12+10000=829100個,降維比約為829100/1000000000=0.008292,特徵和資料不到原先的1%。同時由於本發明實施例的方法中保留了重要特徵,而對輔助特徵進行降維,該特徵指紋仍然可以全面反映原先的訓練資料,並不會降低訓練的準確度。
S205,將包括所述(N-M+P)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
在這一步驟中,將合併後的多個樣本輸入機器學習算法模型,對機器學習算法模型進行訓練,或者使用機器學習算法模型進行預測。機器學習算法模型可以是分類算法模型或回歸算法模型,例如邏輯回歸(LR)算法模型、隨機森林算法模型、Gradient Boost Decision Tree算法模型等等,本發明並不以此為限。
根據本發明第二實施例提出的利用訓練資料訓練模型的方法,通過判斷每一個特徵列的資訊值和/或資訊增益,採用保留重要特徵、將輔助特徵進行降維的方式,降
低原本特徵維度較高的訓練資料的維度,在將該降維後的訓練資料輸入模型進行訓練時,能夠達到訓練特徵參數可控、訓練資料大幅降低、運行效率提升的目的。同時由於本發明實施例的方法中保留了重要特徵,而對輔助特徵進行降維,該特徵指紋仍然可以全面反映原先的訓練資料,最大限度地減小了該模型的預測準確度的降低程度。本發明提出的利用訓練資料訓練模型的方法應用在高維稀疏特徵的訓練資料中的效果尤其明顯,例如在廣告CTR資料中,通過上述的改動,在廣告CTR的1億特徵資料上,AUC較全量訓練提升2‰,資料大小為原先資料量1%。
本發明第三實施例提出一種利用訓練資料訓練模型的方法,圖5所示為本發明第三實施例的利用訓練資料訓練模型的方法的流程圖。本發明第三實施例提出的利用訓練資料訓練模型的方法可以用於訓練各種機器學習算法模型,特別地,本發明提出的利用訓練資料訓練模型的方法可以應用於具有高維稀疏特徵的訓練資料。高維稀疏矩陣,例如總維度與有數值的維度的比例為100:1或者1000:1以上。所述的訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列。
如圖5所示,本發明第三實施例的利用訓練資料訓練模型的方法可以包括如下步驟:
S301,計算每一個特徵列的重要程度值;S302,判斷每一個特徵列的重要程度值是否大於對應的閾值;S303,當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列,其中R>Q,且Q<N;S304,將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的特徵列合併;以及S305,將合併的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
其中,步驟S301和步驟S305可與第二實施例中的步驟S201和S205相同或相似,在此不再贅述。
在步驟S302中,相比於步驟S102,本實施例中是判斷重要程度值是否大於對應的閾值,具體的判斷方式與步驟S102相似,在此不再贅述。
在步驟S303中,例如可以參考步驟S103中的方法,根據步驟S302中得出的每一個特徵列的重要程度值是否大於對應的閾值,將多個特徵列分為重要特徵和輔助特徵。在本示例中,重要特徵例如是(a11,a21,a31)構成的特徵列,以及(a12,a22,a32)構成的特徵列.....直到(a1Q,a2Q,a3Q)構成的特徵列;輔助特徵是後N-Q列即(a1(Q+1),a2(Q+2),a3(Q+3))構成的特徵列......直到(a1N,a2N,a3N)構成的特徵列。
在步驟S303中,可以將Q個重要程度值大於閾值的
重要特徵進行升維處理,轉換成R個特徵列。即,原先的(a11,a12......a1Q)、(a21,a22......a2Q)、(a31,a32......a3Q)可以分別經過升維處理,轉換為(a’11,a’12......a’1R)、(a’21,a’22......a’2R)、(a’31),a’32......a’3R)。
這一步驟S303例如可以通過minwise hashing算法實現。minwise hashing算法廣泛的應用於海量資料下的資訊檢索,在這一算法中,通過參數的設定,將(b=64位)擴大到b位,提升重要特徵的維度。
該算法的實現可以參考步驟S103所述,在此不再贅述。
在S304中,例如可以將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的(N-Q)個特徵列合併,可以參考步驟S103,在此不再贅述。
另外,在步驟S303中,當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,可以利用minwise Hashing算法對所述Q個特徵列進行升維處理,產生R個特徵列,其中P=k*2b,k和b為算法指定參數。
較佳地,上述重要程度值可以為第二實施例中的資訊值或資訊增益。在此不再贅述。
另外,在步驟S302之後,該方法還可以包括:S302a,當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;
步驟S304即將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的特徵列合併的步驟例如可以包括:將升維處理後產生的R個特徵列和所述降維處理後產生的P個特徵列合併,產生(R+P)個特徵列。
在步驟S305中,例如,可以將上述合併的(R+P)個特徵列訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
根據本發明第三實施例提出的利用訓練資料訓練模型的方法,通過判斷每一個特徵列的重要程度值,採用將重要特徵升維的方式,對於較小規模的訓練資料,能夠升高重要程度值較高的訓練資料的維度,提高模型訓練的準確性的問題。
本發明第四實施例公開一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,如圖6所示為本發明第四實施例的利用訓練資料訓練模型的系統以及訓練資料的示意圖。所述訓練系統400包括:第一計算模組401,用於計算每一個特徵列的重要程度值;第一判斷模組402,用於判斷每一個特徵列的重要程度值是否小於對應的閾值;
第一降維模組403,用於當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;第一合併模組404,用於將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併;以及第一訓練模組405,用於將合併後的所述多個樣本輸入機器學習算法模型,訓練所述機器學習算法模型。
根據本發明第四實施例提出的利用訓練資料訓練模型的系統,通過判斷每一個特徵列的重要程度值,採用保留重要特徵、將輔助特徵進行降維的方式,降低原本特徵維度較高的訓練資料的維度,在將該降維後的訓練資料輸入模型進行訓練時,能夠達到訓練特徵參數可控、訓練資料大幅降低、運行效率提升的目的。同時由於本發明實施例的方法中保留了重要特徵,而對輔助特徵進行降維,降維後的資料能夠最大限度地減小了該模型的預測準確度的降低程度。
本發明第五實施例公開一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,如圖7所示為本發明第五實施例的利用訓練資料訓練模型的系
統以及訓練資料的示意圖。所述訓練系統500包括:第一計算模組501,用於計算每一個特徵列的重要程度值;第一判斷模組502,用於判斷每一個特徵列的重要程度值是否小於對應的閾值;第一降維模組503,用於當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;第一合併模組504,用於將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併;以及第一訓練模組505,用於將合併後的所述多個樣本輸入機器學習算法模型,訓練所述機器學習算法模型。
在一較佳實施例中,所述訓練資料還包括對應於每一個樣本的標籤值,所述重要程度值為資訊值和/或資訊增益,所述計算模模組501包括:資訊值計算模組51,用於利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊值;和/或資訊增益計算模組52,用於利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊增益。
在一較佳實施例中,所述資訊值對應的閾值為第一閾
值,所述資訊資訊資訊增益對應的閾值為第二閾值。
在一較佳實施例中,所述降維模組用於:利用minwise Hashing算法對所述M個特徵列進行降維處理,產生P個特徵列,其中P=k*2b,k和b為算法指定參數。
在一較佳實施例中,所述機器學習算法模型為分類算法模型或回歸算法模型。
根據本發明第五實施例提出的利用訓練資料訓練模型的系統,通過判斷每一個特徵列的資訊值和/或資訊增益,採用保留重要特徵、將輔助特徵進行降維的方式,降低原本特徵維度較高的訓練資料的維度,在將該降維後的訓練資料輸入模型進行訓練時,能夠達到訓練特徵參數可控、訓練資料大幅降低、運行效率提升的目的。同時由於本發明實施例的方法中保留了重要特徵,而對輔助特徵進行降維,該特徵指紋仍然可以全面反映原先的訓練資料,最大限度地減小了該模型的預測準確度的降低程度。本發明提出的利用訓練資料訓練模型的方法應用在高維稀疏特徵的訓練資料中的效果尤其明顯,例如在廣告CTR資料中,通過上述的改動,在廣告CTR的1億特徵資料上,AUC較全量訓練提升2‰,資料大小為原先資料量1%。
本發明第六實施例公開一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個
特徵,所述多個樣本中對應的特徵構成N個特徵列,如圖8所示為本發明第六實施例的利用訓練資料訓練模型的系統以及訓練資料的示意圖。所述訓練系統600包括:第二計算模組601,用於計算每一個特徵列的重要程度值;第二判斷模組602,用於判斷每一個特徵列的重要程度值是否小於對應的閾值;升維模組603,用於當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列,其中R>Q,且Q<N;第二合併模組604,用於將將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的(N-Q)個特徵列合併,得到(R+N-Q)個特徵列;以及第二訓練模組605,用於將包括所述(R+N-Q)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
在一較佳實施例中,所述升維模組603用於:利用minwise Hashing算法對所述M個特徵列進行升維處理,產生R個特徵列,其中P=k*2b,k和b為算法指定參數。
在一較佳實施例中,所述機器學習算法模型為分類算法模型或回歸算法模型。
在一較佳實施例中,所述系統還包括:
第二降維模組602a,用於當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;所述第二合併模組604用於:所述將升維處理後產生的R個特徵列和所述降維處理後產生的P個特徵列合併。
根據本發明第六實施例提出的利用訓練資料訓練模型的系統,通過判斷每一個特徵列的重要程度值,採用將重要特徵升維的方式,對於較小規模的訓練資料,能夠升高重要程度值較高的訓練資料的維度,提高模型訓練的準確性的問題。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例可提供為方法、裝置、或計算機程序產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶
體等)上實施的計算機程序產品的形式。
在一個典型的配置中,所述計算機設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和隨機存取記憶體。記憶體可能包括計算機可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性隨機存取記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。隨機存取記憶體是計算機可讀媒體的示例。計算機可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信號儲存。信號可以是計算機可讀指令、資料結構、程序的模組或其他資料。計算機的儲存媒體的例子包括,但不限於相變隨機存取記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他隨機存取記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的信號。按照本文中的界定,計算機可讀媒體不包括非持續性的電腦可讀媒體(transitory media),如調製的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或
方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可儲存在能引導計算機或其他可編程資料處理終端設備以特定方式工作的計算機可讀記憶體中,使得儲存在該計算機可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程資料處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術入員一旦得知了基本具進步性的概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種利用訓練資料訓練模型的方法和系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
Claims (18)
- 一種利用訓練資料訓練模型的方法,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練方法包括:計算每一個特徵列的重要程度值;判斷每一個特徵列的重要程度值是否小於對應的閾值;當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併,得到(N-M+P)個特徵列;以及將包括所述(N-M+P)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
- 如申請專利範圍第1項所述的訓練模型的方法,其中,當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述多個特徵列進行降維處理,產生P個特徵列的步驟包括:當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,利用minwise Hashing算法對所述M個特徵列進行降維處理,產生P個特徵列,其中P=k*2b,k和b為算法指定參數。
- 如申請專利範圍第1項所述的訓練模型的方法, 其中,所述訓練資料還包括對應於每一個樣本的標籤值,所述計算每一個特徵列的重要程度值的步驟包括:利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊值和/或資訊增益,以所述資訊值和/或資訊增益作為重要程度值。
- 如申請專利範圍第3項所述的訓練模型的方法,其中,所述資訊值對應的閾值為第一閾值,所述資訊增益對應的閾值為第二閾值。
- 如申請專利範圍第1項所述的訓練模型的方法,其中,所述機器學習算法模型為分類算法模型或回歸算法模型。
- 一種利用訓練資料訓練模型的方法,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練方法包括:計算每一個特徵列的重要程度值;判斷每一個特徵列的重要程度值是否大於對應的閾值;當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列,其中R>Q,且Q<N;將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的特徵列合併;以及將合併的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
- 如申請專利範圍第6項所述的訓練模型的方法,其中,當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列的步驟包括:當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,利用minwise Hashing算法對所述Q個特徵列進行升維處理,產生R個特徵列,其中P=k*2b,k和b為算法指定參數。
- 如申請專利範圍第6項所述的訓練模型的方法,其中,所述訓練資料還包括對應於每一個樣本的標籤值,所述計算每一個特徵列的重要程度值的步驟包括:利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊值和/或資訊增益,以所述資訊值和/或資訊增益作為重要程度值。
- 如申請專利範圍第6項所述的訓練模型的方法,其中,所述判斷每一個特徵列的重要程度值是否大於對應的閾值的步驟之後,所述方法還包括:當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;所述將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的特徵列合併的步驟包括:將升維處理後產生的R個特徵列和所述降維處理後產生的P個特徵列合併。
- 一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練系統包括:第一計算模組,用於計算每一個特徵列的重要程度值;第一判斷模組,用於判斷每一個特徵列的重要程度值是否小於對應的閾值;第一降維模組,用於當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;第一合併模組,用於將重要程度值大於或等於對應的閾值的(N-M)個特徵列和降維處理後產生的P個特徵列合併,得到(N-M+P)個特徵列;以及第一訓練模組,用於將包括所述(N-M+P)個特徵列的訓練資料輸入機器學習算法模型,訓練所述機器學習算法模型。
- 如申請專利範圍第10項所述的訓練模型的系統,其中,所述降維模組用於:利用minwise Hashing算法對所述M個特徵列進行降維處理,產生P個特徵列,其中P=k*2b,k和b為算法指定參數。
- 如申請專利範圍第10項所述的訓練模型的系統,其中,所述訓練資料還包括對應於每一個樣本的標籤 值,所述第一計算模組包括:資訊值計算模組,用於利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊值,以所述資訊值作為所述重要程度值;和/或資訊增益計算模組,用於利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊增益,以所述資訊增益作為所述重要程度值。
- 如申請專利範圍第10項所述的訓練模型的系統,其中,所述資訊值對應的閾值為第一閾值,所述資訊增益對應的閾值為第二閾值。
- 如申請專利範圍第10項所述的訓練模型的系統,其中,所述機器學習算法模型為分類算法模型或回歸算法模型。
- 一種利用訓練資料訓練模型的系統,所述訓練資料包括多個樣本,每一個樣本包括N個特徵,所述多個樣本中對應的特徵構成N個特徵列,所述訓練系統包括:第二計算模組,用於計算每一個特徵列的重要程度值;第二判斷模組,用於判斷每一個特徵列的重要程度值是否大於對應的閾值;升維模組,用於當判斷出所述N個特徵列中的Q個特徵列的重要程度值大於對應的閾值時,將所述Q個特徵列進行升維處理,產生R個特徵列,其中R>Q,且Q<N; 第二合併模組,用於將將升維處理後產生的R個特徵列和重要程度值小於或等於對應的閾值的(N-Q)個特徵列合併,得到(R+N-Q)個特徵列;以及第二訓練模組,用於將包括所述(R+N-Q)個特徵列的訓練資料資料資料輸入機器學習算法模型,訓練所述機器學習算法模型。
- 如申請專利範圍第15項所述的訓練模型的系統,其中,所述升維模組用於:利用minwise Hashing算法對所述M個特徵列進行升維處理,產生R個特徵列,其中P=k*2b,k和b為算法指定參數。
- 如申請專利範圍第15項所述的訓練模型的系統,其中,所述訓練資料還包括對應於每一個樣本的標籤值,所述計算模組包括:資訊值計算模組,用於利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊值,以所述資訊值作為所述重要程度值;和/或資訊增益計算模組,用於利用每一個樣本對應的標籤值和所述特徵列中的多個特徵,計算出所述特徵列的資訊增益,以所述資訊增益作為所述重要程度值。
- 如申請專利範圍第15項所述的訓練模型的系統,其中,所述系統還包括:第二降維模組,用於當判斷出所述N個特徵列中的M個特徵列的重要程度值小於對應的閾值時,將所述M 個特徵列進行降維處理,產生P個特徵列,其中M<N,且P<M;所述第二合併模組用於:所述將升維處理後產生的R個特徵列和所述降維處理後產生的P個特徵列合併。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610105840.3 | 2016-02-25 | ||
CN201610105840.3A CN107122327B (zh) | 2016-02-25 | 2016-02-25 | 一种利用训练数据训练模型的方法和训练系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201738780A true TW201738780A (zh) | 2017-11-01 |
TWI740891B TWI740891B (zh) | 2021-10-01 |
Family
ID=59685834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106104130A TWI740891B (zh) | 2016-02-25 | 2017-02-08 | 利用訓練資料訓練模型的方法和訓練系統 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11615346B2 (zh) |
CN (1) | CN107122327B (zh) |
TW (1) | TWI740891B (zh) |
WO (1) | WO2017143914A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122327B (zh) | 2016-02-25 | 2021-06-29 | 阿里巴巴集团控股有限公司 | 一种利用训练数据训练模型的方法和训练系统 |
CN108021986A (zh) * | 2017-10-27 | 2018-05-11 | 平安科技(深圳)有限公司 | 电子装置、多模型样本训练方法和计算机可读存储介质 |
CN108108848B (zh) * | 2017-12-29 | 2019-08-13 | 英特尔产品(成都)有限公司 | 缺陷率预测模型的训练方法、装置及系统 |
CN111353626B (zh) * | 2018-12-21 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 数据的审核方法、装置及设备 |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
CN110335134A (zh) * | 2019-04-15 | 2019-10-15 | 梵界信息技术(上海)股份有限公司 | 一种基于woe转换实现信贷客户资质分类的方法 |
JP7215324B2 (ja) * | 2019-05-17 | 2023-01-31 | 富士通株式会社 | 予測プログラム、予測方法及び予測装置 |
CN112085205A (zh) * | 2019-06-14 | 2020-12-15 | 第四范式(北京)技术有限公司 | 用于自动训练机器学习模型的方法和系统 |
CN112541776B (zh) * | 2019-09-20 | 2024-08-16 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN110852443B (zh) * | 2019-09-26 | 2023-02-21 | 支付宝(杭州)信息技术有限公司 | 特征稳定性检测方法、设备及计算机可读介质 |
CN110825966B (zh) * | 2019-10-31 | 2022-03-04 | 广州市百果园信息技术有限公司 | 一种信息推荐的方法、装置、推荐服务器和存储介质 |
EP4100889A4 (en) | 2020-02-07 | 2023-05-03 | Telefonaktiebolaget LM Ericsson (publ) | DATA TRANSMISSION BY DATA PRIORITIZATION |
US11797372B2 (en) | 2020-03-26 | 2023-10-24 | Shenzhen Institutes Of Advanced Technology | Method and apparatus for generating time series data based on multi-condition constraints, and medium |
CN114090601B (zh) * | 2021-11-23 | 2023-11-03 | 北京百度网讯科技有限公司 | 一种数据筛选方法、装置、设备以及存储介质 |
EP4369194A1 (en) | 2022-01-27 | 2024-05-15 | Samsung Electronics Co., Ltd. | Electronic device for executing application in background process, and operation method thereof |
KR20230115752A (ko) * | 2022-01-27 | 2023-08-03 | 삼성전자주식회사 | 애플리케이션을 백그라운드 프로세스에서 실행하는 전자 장치 및 그 동작 방법 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169735A1 (en) * | 2001-03-07 | 2002-11-14 | David Kil | Automatic mapping from data to preprocessing algorithms |
WO2007096849A1 (en) * | 2006-02-20 | 2007-08-30 | University College Cork - National University Of Ireland, Cork | A voltammetric analysis system |
CN102609714B (zh) * | 2011-12-31 | 2017-07-07 | 哈尔滨理工大学 | 基于信息增益和在线支持向量机的新型分类器及分类方法 |
IL226747B (en) * | 2013-06-04 | 2019-01-31 | Verint Systems Ltd | A system and method for studying malware detection |
CN104239351B (zh) * | 2013-06-20 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
US9082084B2 (en) * | 2013-06-28 | 2015-07-14 | Linkedin Corporation | Facilitating machine learning in an online social network |
US8957984B2 (en) * | 2013-06-30 | 2015-02-17 | Konica Minolta Laboratory U.S.A., Inc. | Ghost artifact detection and removal in HDR image processsing using multi-scale normalized cross-correlation |
US9305358B2 (en) * | 2013-07-01 | 2016-04-05 | Kabushiki Kaisha Toshiba | Medical image processing |
CN104680121B (zh) * | 2013-11-27 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 一种人脸图像的处理方法及装置 |
US9324022B2 (en) * | 2014-03-04 | 2016-04-26 | Signal/Sense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
CN104050242B (zh) * | 2014-05-27 | 2018-03-27 | 哈尔滨理工大学 | 基于最大信息系数的特征选择、分类方法及其装置 |
CN104239485B (zh) * | 2014-09-05 | 2018-05-01 | 中国科学院计算机网络信息中心 | 一种基于统计机器学习的互联网暗链检测方法 |
CN104376326B (zh) * | 2014-11-02 | 2017-06-16 | 吉林大学 | 一种用于图像场景识别的特征提取方法 |
CN104715021B (zh) * | 2015-02-27 | 2018-09-11 | 南京邮电大学 | 一种基于哈希方法的多标记学习的学习方法 |
CN105243139B (zh) * | 2015-10-10 | 2018-10-23 | 天津大学 | 一种基于深度学习的三维模型检索方法及其检索装置 |
CN107122327B (zh) | 2016-02-25 | 2021-06-29 | 阿里巴巴集团控股有限公司 | 一种利用训练数据训练模型的方法和训练系统 |
-
2016
- 2016-02-25 CN CN201610105840.3A patent/CN107122327B/zh active Active
-
2017
- 2017-02-08 TW TW106104130A patent/TWI740891B/zh active
- 2017-02-13 WO PCT/CN2017/073340 patent/WO2017143914A1/zh active Application Filing
-
2018
- 2018-08-24 US US16/112,592 patent/US11615346B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017143914A1 (zh) | 2017-08-31 |
TWI740891B (zh) | 2021-10-01 |
US20180365521A1 (en) | 2018-12-20 |
CN107122327B (zh) | 2021-06-29 |
CN107122327A (zh) | 2017-09-01 |
US11615346B2 (en) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI740891B (zh) | 利用訓練資料訓練模型的方法和訓練系統 | |
US11809993B2 (en) | Systems and methods for determining graph similarity | |
WO2023124204A1 (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
US11899747B2 (en) | Techniques to embed a data object into a multidimensional frame | |
WO2019114412A1 (zh) | 一种基于图结构模型的信用风险控制方法、装置以及设备 | |
US11514369B2 (en) | Systems and methods for machine learning model interpretation | |
US20210081798A1 (en) | Neural network method and apparatus | |
TW201734893A (zh) | 信用分的獲取、特徵向量值的輸出方法及其裝置 | |
Niimi | Deep learning for credit card data analysis | |
Górecki et al. | First and second derivatives in time series classification using DTW | |
WO2021218037A1 (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
US20240126730A1 (en) | Schema Validation with Data Synthesis | |
US11675817B1 (en) | Synthetic data generation | |
US11709798B2 (en) | Hash suppression | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
Fraser et al. | The linear Lasso: A location model approach | |
US20240013089A1 (en) | Sequential Synthesis and Selection for Feature Engineering | |
US20240078415A1 (en) | Tree-based systems and methods for selecting and reducing graph neural network node embedding dimensionality | |
US20230195842A1 (en) | Automated feature engineering for predictive modeling using deep reinforcement learning | |
CN107451662A (zh) | 优化样本向量的方法及装置、计算机设备 | |
US20240070534A1 (en) | Individualized classification thresholds for machine learning models | |
US20240013295A1 (en) | Explaining adverse actions in credit decisions using shapley decomposition | |
WO2024052349A1 (en) | Synthetic time-series data generation and its use in survival analysis and selection of frug for further development | |
CN116091209A (zh) | 信贷业务处理方法、装置、计算机设备和存储介质 |