TW201942814A - 物件分類方法、裝置、伺服器及儲存媒體 - Google Patents
物件分類方法、裝置、伺服器及儲存媒體 Download PDFInfo
- Publication number
- TW201942814A TW201942814A TW107141242A TW107141242A TW201942814A TW 201942814 A TW201942814 A TW 201942814A TW 107141242 A TW107141242 A TW 107141242A TW 107141242 A TW107141242 A TW 107141242A TW 201942814 A TW201942814 A TW 201942814A
- Authority
- TW
- Taiwan
- Prior art keywords
- features
- sub
- decision tree
- training
- level
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本說明書實施例提供了一種物件分類方法,透過對物件資料的特徵進行切分處理,針對切分後的各類物件子特徵,利用深度森林網路對物件進行決策分類。
Description
本說明書實施例涉及網際網路技術領域,尤其涉及一種物件方法、裝置、伺服器及儲存媒體。
隨著移動網際網路的普及,線上支付越來越成為人們的一種生活方式,線上上支付中,往往存在著異常使用者或交易,試圖透過非法手段,來獲取線上支付的利益(如線上金融的獎勵金套現)。對於這一部分異常使用者或異常交易的挖掘和發現,可有效的發現並阻止這一異常行為。
本說明書實施例提供及一種物件方法、裝置、伺服器及儲存媒體。
本說明書實施例提供一種物件方法,包括:對待識別物件的資料進行特徵提取得到使用者原始特徵,並對所述物件原始特徵進行切分處理,得到多類物件子特徵;將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於深度森林網路,對所述待識別物件進行決策分類。
本說明書實施例還提供一種物件分類裝置,包括:特徵提取及處理單元,用於對待識別物件的資料進行特徵提取得到使用者初始特徵,並對所述物件初始特徵進行切分處理,得到多類物件子特徵;預測單元,將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於深度森林網路,對所述待識別物件進行決策分類。
本說明書實施例又提供一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現上述任一項所述方法的步驟。
本說明書實施例再提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現上述任一項所述方法的步驟。
本說明書實施例有益效果如下:
本發明實施例提出的物件分類方法中,透過對物件資料的特徵進行切分處理,針對切分後的各類物件子特徵,利用深度森林網路中每級決策樹森林集的多個基分類器進行決策分類,最終確定出物件是否為異常的概率。另外,針對異常物件樣本有可能稀疏的情況,可採取k折交叉驗證的方式進行基分類器的訓練,從而緩解過擬合的問題。
本說明書實施例提供一種物件方法,包括:對待識別物件的資料進行特徵提取得到使用者原始特徵,並對所述物件原始特徵進行切分處理,得到多類物件子特徵;將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於深度森林網路,對所述待識別物件進行決策分類。
本說明書實施例還提供一種物件分類裝置,包括:特徵提取及處理單元,用於對待識別物件的資料進行特徵提取得到使用者初始特徵,並對所述物件初始特徵進行切分處理,得到多類物件子特徵;預測單元,將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於深度森林網路,對所述待識別物件進行決策分類。
本說明書實施例又提供一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現上述任一項所述方法的步驟。
本說明書實施例再提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現上述任一項所述方法的步驟。
本說明書實施例有益效果如下:
本發明實施例提出的物件分類方法中,透過對物件資料的特徵進行切分處理,針對切分後的各類物件子特徵,利用深度森林網路中每級決策樹森林集的多個基分類器進行決策分類,最終確定出物件是否為異常的概率。另外,針對異常物件樣本有可能稀疏的情況,可採取k折交叉驗證的方式進行基分類器的訓練,從而緩解過擬合的問題。
為了更好的理解上述技術方案,下面透過圖式以及具體實施例對本說明書實施例的技術方案做詳細的說明,應當理解本說明書實施例以及實施例中的具體特徵是對本說明書實施例技術方案的詳細的說明,而不是對本說明書技術方案的限定,在不衝突的情況下,本說明書實施例以及實施例中的技術特徵可以相互組合。
請參見圖1,為本說明書實施例的物件分類的場景示意圖。終端100位於使用者側,與網路側的伺服器200通信。終端100中的物件處理使用者端101可以是基於網際網路實現使用者業務的APP或網站,為使用者提供交易的介面並將物件資料(使用者相關資料或交易相關資料)提供給網路側進行處理;伺服器200利用預先訓練的深度森林網路201用於對交易處理使用者端101中涉及的物件進行分類。
本發明實施例中,物件包括但不限於使用者和業務這兩個物件。
對於使用者這個物件,當對使用者進行分類時,可以是用於識別使用者是否為異常使用者或正常使用者。使用者資料是指與使用者屬性或行為相關的資料,例如包括但不限於使用者基本資訊(如性別,年齡等)、使用者動態資訊(如近期N比交易的描述資訊)及使用者關聯資訊(即與使用者有關的其他使用者資訊,如近期與之交易的其他使用者資訊)等。從使用者資料進行特徵提取得到各類使用者子特徵。使用者子特徵包括但不限於使用者靜態特徵(提取於使用者基本資訊)、使用者動態特徵(提取於使用者動態資訊)、使用者關聯特徵(提取於使用者關聯資訊)。
對於業務這個物件,業務又可進一步可以是指線上交易,也可以是指搜尋引擎、線上資源或廣告推薦等網路服務。以線上交易為例,當對線上交易進行分類時,可以是用於識別交易是否為異常交易或正常交易。業務資料是指業務相關的歷史資料以及即時資料,例如包括但不限於業務成交量、業務額度、業務頻次等相關資料。從業務資料進行特徵提取得到各類業務子特徵。業務子特徵包括但不限於業務歷史特徵及業務即時特徵。
以上僅是對物件包括使用者或業務這兩種情況的舉例說明,不應作為限定。
下面以使用者物件為例對本發明實施例進行示例性說明。
隨著人工智慧的興起,機器學習作為人工智慧中最重要的技術,也日益受到人們的重視。機器學習演算法具有更加靈活更為智慧的優點。如今的基於多種類型特徵(離散特徵,連續特徵,類別屬性特徵)的機器學習解決方案,大都採用梯度決策提升樹,然而這種結構雖然能夠適應多種場景,但也有一定的局限性,例如對於黑樣本較少的場景,如何找到更多的黑使用者,如何提高預測準確性等方面還存在不足。
在風控場景中,通常需要找到帶有安全隱患的使用者,相較於正常使用者而言,這類使用者的數目相對少。對此,本發明實施例提出一種用於異常使用者識別的物件分類方法,應用在智慧風控領域,透過使用者特徵切分以及交叉驗證等方式,能夠比以往的演算法找到更多的異常使用者。
本說明書實施例提供一種用於物件分類的深度森林網路訓練方法流程圖方法,請參考圖2,包括步驟S201-S206。
S201:收集有關異常物件的黑白樣本,並對黑白樣本資料進行特徵提取得到物件初始特徵。
以使用者物件為例,從歷史交易資料中,分別收集使用者的黑白樣本。黑樣本是指異常使用者樣本,白樣本是指正常使用者的樣本。在實際場景中,異常使用者相較於正常交易畢竟是少數,因此往往存在黑樣本數量不足而導致訓練到的網路準確度不高的問題。
得到黑白樣本之後,對黑白樣本進行特徵提取,得到使用者初始特徵。針對於每個使用者有大量的特徵描述這一情況,使用者初始特徵過於龐大,如果直接輸入深度森林網路會導致特徵數太大,訓練(以及預測)效率低下,且提升效果不理想。因此,本發明實施例中在步驟S202中,將使用者初始特徵資訊進行了切分處理。
S202:對物件初始特徵進行切分處理,得到多類物件子特徵。
仍以使用者物件為例,參考圖3,為本說明書實施例對使用者原始特徵進行切分的示意圖。可以將使用者初始特徵資訊分為不同的幾組特徵,例如:使用者靜態特徵(包括使用者的基本資訊,如性別,年齡等);使用者動態特徵(動態資訊,如近期N比交易的描述資訊);使用者關聯特徵(即與使用者有關的其他使用者資訊,如近期與之交易的其他使用者資訊)。
在後續的處理中,將以上幾類子特徵分別提取,用於訓練深度森林網路不同層(不同級),而不是將原來的使用者初始特徵整體全都進行統一處理。這種基於特徵切分利用各類子特徵用做訓練的處理辦法,既可以降低每一層訓練的維度,降低訓練時間,又有利於防止模型過擬合的問題。
S203:根據第一類物件子特徵訓練第一級決策樹森林集的各個基分類器。
S204:將前一級決策樹森林集的輸出特徵與下一類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;
S205:判斷是否達到預定結束條件,如果未達到結束條件,則返回重複執行步驟S204;如果達到結束條件,則執行步驟S206。
其中,結束條件可以包括多個,例如,當預測結果在評價指標上沒有提升,或是已經達到了最大網路層數(級數L),則確定達到了結束條件。
S206:當達到預定結束條件時,結束訓練,得到由多級決策樹森林集構成的深度森林網路。
深度森林網路,是借鑒集成學習的思想,以基於決策樹的集合(森林)為基分類器,構建一個多層(多級)網路,網路的層數可以自我調整得到。每層網路的節點為一個梯度提升決策樹。
如圖4所示,為深度森林網路的一個示意圖。該深度森林網路包括L級(L層),每個級是決策樹森林的一個集合(決策樹森林集),即集成的集成(ensemble of ensembles)。每一級決策樹森林集包括多個基分類器(森林:forest)。每一級決策樹森林集可以包含不同類型的森林(例如隨機森林或完全隨機樹木森林),從而提高網路的多樣性。例如,圖4中級決策樹森林集包括四個基分類器。每個基分類器又由一個或多個決策樹構成的。
在網路訓練過程中,級聯的各級決策樹森林集中,除了最後一級決策樹森林集中的每一級決策樹森林集的輸入,都是前一級處理的特徵資訊與對應的使用者子特徵拼接的拼接特徵(其中,第一級決策樹森林集沒有前一級,因此輸入僅是第一類使用者子特徵)。可見,由於對使用者初始特徵進行切分為多類使用者子特徵,因此在訓練過程中,結合切分特徵這一操作,來對每一層進行訓練,這一點與原始深度森林網路演算法有很大差別,原始演算法中,會統一處理全域特徵,而本發明實施例在每一層使用不同的使用者子特徵。
假定資料有d=d1+d2+d3維特徵(靜態特徵d1維,動態特徵d2維,關聯特徵d3維);假定有n組基分類器(圖中示例為4個),異常使用者識別問題是二分類問題(檢測使用者是否異常)。
訓練過程可以區分為以下幾個部分:
(1)基礎層訓練:可以理解為是第0層,將使用者初始特徵切分為使用者靜態特徵、使用者動態特徵、使用者關聯特徵,由此構建使用者的基本分類狀況;
(2)中間層訓練:從第一層(level-1)開始,每一層採用上一層的輸出結果,拼接上本層對應的使用者子特徵,注意的是,每層拼接的使用者子特徵有差異,例如,第一層拼接使用者靜態特徵,第二層拼接使用者動態特徵,第三層拼接使用者關聯特徵,第四層再拼接使用者靜態特徵…依次迴圈。如此訓練達到最佳層數(評測指標不再增長為止)。
(3)最後一層訓練:在最後一層(L層),輸入僅是上一層(L-1)的輸出(並不拼接使用者子特徵)。
例如圖4中,level-1的輸入是第一類使用者子特徵(例如使用者靜態特徵),假設是二分類問題,則level-1每個基分類器將輸出二維類向量(class vector),則四個基分類器每一個都將產生一個二維的類向量,得到八維的類向量(4×2);繼而,在level-2,將該八維類向量與第二類使用者子特徵(例如使用者動態特徵)相拼接,將接收(n×c+d2)個增強特徵(augmented feature),其中,d2為輸入的第二類使用者子特徵的數量、n為基分類器個數、c為分類數目;同理在level-3至level-(L-1)均與level-2類似處理;在最後一級level-L,輸入僅是上一級的輸出(並不拼接使用者子特徵),輸出得到八維類向量;最後對這八維類向量進行平均取值等處理,輸出二維類向量。
可見,在上述圖4的例子中,各類使用者子特徵是依次迴圈輸入各級決策樹森林集的。即假設有三類使用者子特徵A、B、C,決策樹森林集共5級,則各級決策樹森林集的輸入可表示為:
A——>level-1
B+level-1-result——>level-2
C+level-2-result——>level-3
A+level-3-result——>level-4
level-4-result——>level-5
其中level-1、level-2、level-3、level-4、level-5分別代表各級決策樹森林集;level-1-result、level-2-result、level-3-result分別代表各級決策樹森林集輸出。
從上面表示不難看出:
(1)各類使用者子特徵是依次迴圈輸入至各級決策樹森林集(除了最後一級決策樹森林集)的,所謂依次是按照A、B、C順序;所謂迴圈是在最後一個類特徵(C)已輸入之後再重新按照A、B、C順序重新進行。
(2)除了第一級(輸入僅有使用者子特徵)和最後一級(輸入僅有上一級輸出),中間各級決策樹森林集的輸入都由兩部分組成:按順序選取的使用者子特徵及上一級輸出。
需要說明的是,上述圖4這種按各類使用者子特徵是依次迴圈輸入各級決策樹森林集的方式僅僅是一個示例而已。實際操作中,還可以隨機選擇任意一類或任意多類使用者子特徵輸入到當前級決策樹森林集(除最後一級)。
例如圖5所示的另一個例子中,假設有三類使用者子特徵A、B、C,決策樹森林集共L級,則各級決策樹森林集的輸入可表示為:
B——>level-1
C+level-1-result——>level-2
……
A+C+level-(L-2)-result——>level-(L-1)
level-(L-1)-result——>level-L
在上述圖5例子中,是隨機選擇一類或多類使用者子特徵輸入到當前級決策樹森林集(除最後一級)的。
在一種可選方式中,可在對每級決策樹森林集的各個基分類器進行訓練時,透過k折交叉驗證的方式進行,以緩解過擬合問題。
交叉驗證,是將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set or test set),首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的性能指標。
交叉驗證的具體做法可以是:將黑白樣本的資料劃分為預置數目的分組;任選一個分組作為驗證集,其餘分組的資料集合作為訓練集;在每級決策樹森林集的訓練過程中,利用每個訓練集分別訓練以及每個對應驗證集分別驗證每級決策樹森林集中的各個基分類器。
例如,假設將選取出的總計1000個黑白樣本進行隨機劃分分為三個分組:分組1、分組2、分組3;則得到三種組合方式:分組1為驗證集,分組2、3的資料集合作為訓練集;分組2為驗證集,分組1、3的資料集合作為訓練集;分組3為驗證集,分組1、2的資料集合作為訓練集。在訓練基分類器過程中,需要針對上述三個訓練集分別進行訓練。
本說明書實施例提供一種物件分類方法。參考圖6,該方法包括:
S601:對待識別物件的資料進行特徵提取得到物件初始特徵,並對物件初始特徵進行切分處理,得到多類物件子特徵;
S602:將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;
S603:基於深度森林網路,對待識別物件進行決策分類。
其中對於特徵切分處理以及深度森林網路的訓練過程請參見本發明實施例前述內容。
假定深度森林網路為L層(即包括L級決策樹森林集),則在利用深度森林網路對待識別使用者的資料進行預測的過程中,執行如下過程:
(1)利用n個分類器對待識別交易資料進行預測:對於待識別交易資料,得到n*c個預測結果,拼接到對應的使用者子特徵d-i維特徵上,得到新的(d-i+n*c)維特徵;
(2)對於最後L層的n*c個預測結果,在n個分類結果取平均,得到最終的c個預測結果,該c個預測結果便是深度森林網路在c個類別上的最終預測概率。
可見,上述以使用者物件為例的物件分類方法中,透過對使用者資料的特徵進行切分處理,針對切分後的各類使用者子特徵,利用深度森林網路中每級決策樹森林集的多個基分類器進行決策分類,最終確定出使用者是否為異常的概率。另外,針對異常使用者樣本有可能稀疏的情況,可採取k折交叉驗證的方式進行基分類器的訓練,從而緩解過擬合的問題。
除了使用者物件,如前所述的,本發明實施例還可以對業務物件進行分類。
業務包括交易、線上服務等多種情況。以交易為例,在風控場景中,通常需要找到帶有安全隱患的交易,這類交易稱為非法交易,相較於正常交易而言,這類交易的數目非常少,通常是一比幾百甚至幾千,而且異常交易有著形形色色的區別,因而挖掘非法交易是一件較為困難的事情。對此,本發明實施例提出的用於業務識別的物件分類方法中,基於深度森林網路,利用深度森林網路的高效性特點,能夠比以往的演算法找到更多的非法交易。
本發明實施例提供的物件分類方法用於對業務進行識別時,可參考上述圖2-圖5的原理和步驟,僅是將使用者子特徵替換為業務子特徵即可,因此不贅述。
基於同一發明構思,本說明書實施例提供一種物件分類裝置,請參考圖7,包括:
特徵提取及處理單元701,用於對待識別物件的資料進行特徵提取得到物件初始特徵,並對所述物件初始特徵進行切分處理,得到多類物件子特徵;
預測單元702,將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於深度森林網路,對所述待識別物件進行決策分類。
在一種可選方式中,還包括:網路訓練單元703;
所述網路訓練單元703包括:
樣本獲取子單元7031,用於收集有關異常物件的黑白樣本;
特徵提取及處理子單元7032,用於對黑白樣本資料進行特徵提取得到物件初始特徵,以及對物件初始特徵進行切分處理,得到多類物件子特徵;
訓練執行子單元7033,用於根據第一類物件子特徵訓練第一級決策樹森林集的各個基分類器,並將前一級決策樹森林集的輸出特徵與下一類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練;或者,根據任意一類或幾類物件子特徵訓練第一級決策樹森林集的各個基分類器,然後將前一級決策樹森林集的輸出特徵與任意一類或幾類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練;
網路確定子單元7034,用於當達到預定結束條件時,結束訓練,得到由多級決策樹森林集構成的所述深度森林網路。
在一種可選方式中,所述特徵提取及處理單元702或所述特徵提取及處理子單元7032具體用於:根據所述物件原始特徵中各特徵所屬類型,對所屬物件原始特徵進行分組;分組得到所述各類物件子特徵。
在一種可選方式中,所述物件子特徵包括使用者子特徵和業務子特徵中的至少一項;所述使用者子特徵包括使用者靜態特徵、使用者動態特徵及使用者關聯特徵中的兩項或多項;所述業務子特徵包括業務歷史特徵及業務即時特徵。
在一種可選方式中,所述網路訓練單元703還包括:
交叉驗證控制子單元7035:用於採取交叉驗證的方式訓練各個基分類器。
在一種可選方式中,交叉驗證控制子單元7035具體用於:
將黑白樣本的資料劃分為預置數目的分組;任選一個分組作為驗證集,其餘分組的資料集合作為訓練集;
在每級決策樹森林集的訓練過程中,利用每個訓練集分別訓練以及每個對應驗證集分別驗證每級決策樹森林集中的各個基分類器。
基於與前述實施例中物件分類方法同樣的發明構思,本發明還提供一種伺服器,如圖8所示,包括記憶體804、處理器802及儲存在記憶體804上並可在處理器802上運行的電腦程式,所述處理器802執行所述程式時實現前文所述物件分類方法的步驟。
其中,在圖8中,匯流排架構(用匯流排800來代表),匯流排800可以包括任意數量的互聯的匯流排和橋,匯流排800將包括由處理器802代表的一個或多個處理器和記憶體804代表的記憶體的各種電路連結在一起。匯流排800還可以將諸如週邊設備、穩壓器和功率管理電路等之類的各種其他電路連結在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。匯流排界面806在匯流排800和接收器801和發送器803之間提供介面。接收器801和發送器803可以是同一個元件,即收發機,提供用於在傳輸媒體上與各種其他裝置通信的單元。處理器802負責管理匯流排800和通常的處理,而記憶體804可以被用於儲存處理器802在執行操作時所使用的資料。
基於與前述實施例中物件分類方法的發明構思,本發明還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前文所述物件分類方法的步驟。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的設備。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令設備的製造品,該指令設備實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本說明書的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,申請專利範圍意欲解釋為包括優選實施例以及落入本說明書範圍的所有變更和修改。
顯然,本領域的技術人員可以對本說明書進行各種改動和變型而不脫離本說明書的精神和範圍。這樣,倘若本說明書的這些修改和變型屬於本說明書權利要求及其等同技術的範圍之內,則本說明書也意圖包含這些改動和變型在內。
請參見圖1,為本說明書實施例的物件分類的場景示意圖。終端100位於使用者側,與網路側的伺服器200通信。終端100中的物件處理使用者端101可以是基於網際網路實現使用者業務的APP或網站,為使用者提供交易的介面並將物件資料(使用者相關資料或交易相關資料)提供給網路側進行處理;伺服器200利用預先訓練的深度森林網路201用於對交易處理使用者端101中涉及的物件進行分類。
本發明實施例中,物件包括但不限於使用者和業務這兩個物件。
對於使用者這個物件,當對使用者進行分類時,可以是用於識別使用者是否為異常使用者或正常使用者。使用者資料是指與使用者屬性或行為相關的資料,例如包括但不限於使用者基本資訊(如性別,年齡等)、使用者動態資訊(如近期N比交易的描述資訊)及使用者關聯資訊(即與使用者有關的其他使用者資訊,如近期與之交易的其他使用者資訊)等。從使用者資料進行特徵提取得到各類使用者子特徵。使用者子特徵包括但不限於使用者靜態特徵(提取於使用者基本資訊)、使用者動態特徵(提取於使用者動態資訊)、使用者關聯特徵(提取於使用者關聯資訊)。
對於業務這個物件,業務又可進一步可以是指線上交易,也可以是指搜尋引擎、線上資源或廣告推薦等網路服務。以線上交易為例,當對線上交易進行分類時,可以是用於識別交易是否為異常交易或正常交易。業務資料是指業務相關的歷史資料以及即時資料,例如包括但不限於業務成交量、業務額度、業務頻次等相關資料。從業務資料進行特徵提取得到各類業務子特徵。業務子特徵包括但不限於業務歷史特徵及業務即時特徵。
以上僅是對物件包括使用者或業務這兩種情況的舉例說明,不應作為限定。
下面以使用者物件為例對本發明實施例進行示例性說明。
隨著人工智慧的興起,機器學習作為人工智慧中最重要的技術,也日益受到人們的重視。機器學習演算法具有更加靈活更為智慧的優點。如今的基於多種類型特徵(離散特徵,連續特徵,類別屬性特徵)的機器學習解決方案,大都採用梯度決策提升樹,然而這種結構雖然能夠適應多種場景,但也有一定的局限性,例如對於黑樣本較少的場景,如何找到更多的黑使用者,如何提高預測準確性等方面還存在不足。
在風控場景中,通常需要找到帶有安全隱患的使用者,相較於正常使用者而言,這類使用者的數目相對少。對此,本發明實施例提出一種用於異常使用者識別的物件分類方法,應用在智慧風控領域,透過使用者特徵切分以及交叉驗證等方式,能夠比以往的演算法找到更多的異常使用者。
本說明書實施例提供一種用於物件分類的深度森林網路訓練方法流程圖方法,請參考圖2,包括步驟S201-S206。
S201:收集有關異常物件的黑白樣本,並對黑白樣本資料進行特徵提取得到物件初始特徵。
以使用者物件為例,從歷史交易資料中,分別收集使用者的黑白樣本。黑樣本是指異常使用者樣本,白樣本是指正常使用者的樣本。在實際場景中,異常使用者相較於正常交易畢竟是少數,因此往往存在黑樣本數量不足而導致訓練到的網路準確度不高的問題。
得到黑白樣本之後,對黑白樣本進行特徵提取,得到使用者初始特徵。針對於每個使用者有大量的特徵描述這一情況,使用者初始特徵過於龐大,如果直接輸入深度森林網路會導致特徵數太大,訓練(以及預測)效率低下,且提升效果不理想。因此,本發明實施例中在步驟S202中,將使用者初始特徵資訊進行了切分處理。
S202:對物件初始特徵進行切分處理,得到多類物件子特徵。
仍以使用者物件為例,參考圖3,為本說明書實施例對使用者原始特徵進行切分的示意圖。可以將使用者初始特徵資訊分為不同的幾組特徵,例如:使用者靜態特徵(包括使用者的基本資訊,如性別,年齡等);使用者動態特徵(動態資訊,如近期N比交易的描述資訊);使用者關聯特徵(即與使用者有關的其他使用者資訊,如近期與之交易的其他使用者資訊)。
在後續的處理中,將以上幾類子特徵分別提取,用於訓練深度森林網路不同層(不同級),而不是將原來的使用者初始特徵整體全都進行統一處理。這種基於特徵切分利用各類子特徵用做訓練的處理辦法,既可以降低每一層訓練的維度,降低訓練時間,又有利於防止模型過擬合的問題。
S203:根據第一類物件子特徵訓練第一級決策樹森林集的各個基分類器。
S204:將前一級決策樹森林集的輸出特徵與下一類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;
S205:判斷是否達到預定結束條件,如果未達到結束條件,則返回重複執行步驟S204;如果達到結束條件,則執行步驟S206。
其中,結束條件可以包括多個,例如,當預測結果在評價指標上沒有提升,或是已經達到了最大網路層數(級數L),則確定達到了結束條件。
S206:當達到預定結束條件時,結束訓練,得到由多級決策樹森林集構成的深度森林網路。
深度森林網路,是借鑒集成學習的思想,以基於決策樹的集合(森林)為基分類器,構建一個多層(多級)網路,網路的層數可以自我調整得到。每層網路的節點為一個梯度提升決策樹。
如圖4所示,為深度森林網路的一個示意圖。該深度森林網路包括L級(L層),每個級是決策樹森林的一個集合(決策樹森林集),即集成的集成(ensemble of ensembles)。每一級決策樹森林集包括多個基分類器(森林:forest)。每一級決策樹森林集可以包含不同類型的森林(例如隨機森林或完全隨機樹木森林),從而提高網路的多樣性。例如,圖4中級決策樹森林集包括四個基分類器。每個基分類器又由一個或多個決策樹構成的。
在網路訓練過程中,級聯的各級決策樹森林集中,除了最後一級決策樹森林集中的每一級決策樹森林集的輸入,都是前一級處理的特徵資訊與對應的使用者子特徵拼接的拼接特徵(其中,第一級決策樹森林集沒有前一級,因此輸入僅是第一類使用者子特徵)。可見,由於對使用者初始特徵進行切分為多類使用者子特徵,因此在訓練過程中,結合切分特徵這一操作,來對每一層進行訓練,這一點與原始深度森林網路演算法有很大差別,原始演算法中,會統一處理全域特徵,而本發明實施例在每一層使用不同的使用者子特徵。
假定資料有d=d1+d2+d3維特徵(靜態特徵d1維,動態特徵d2維,關聯特徵d3維);假定有n組基分類器(圖中示例為4個),異常使用者識別問題是二分類問題(檢測使用者是否異常)。
訓練過程可以區分為以下幾個部分:
(1)基礎層訓練:可以理解為是第0層,將使用者初始特徵切分為使用者靜態特徵、使用者動態特徵、使用者關聯特徵,由此構建使用者的基本分類狀況;
(2)中間層訓練:從第一層(level-1)開始,每一層採用上一層的輸出結果,拼接上本層對應的使用者子特徵,注意的是,每層拼接的使用者子特徵有差異,例如,第一層拼接使用者靜態特徵,第二層拼接使用者動態特徵,第三層拼接使用者關聯特徵,第四層再拼接使用者靜態特徵…依次迴圈。如此訓練達到最佳層數(評測指標不再增長為止)。
(3)最後一層訓練:在最後一層(L層),輸入僅是上一層(L-1)的輸出(並不拼接使用者子特徵)。
例如圖4中,level-1的輸入是第一類使用者子特徵(例如使用者靜態特徵),假設是二分類問題,則level-1每個基分類器將輸出二維類向量(class vector),則四個基分類器每一個都將產生一個二維的類向量,得到八維的類向量(4×2);繼而,在level-2,將該八維類向量與第二類使用者子特徵(例如使用者動態特徵)相拼接,將接收(n×c+d2)個增強特徵(augmented feature),其中,d2為輸入的第二類使用者子特徵的數量、n為基分類器個數、c為分類數目;同理在level-3至level-(L-1)均與level-2類似處理;在最後一級level-L,輸入僅是上一級的輸出(並不拼接使用者子特徵),輸出得到八維類向量;最後對這八維類向量進行平均取值等處理,輸出二維類向量。
可見,在上述圖4的例子中,各類使用者子特徵是依次迴圈輸入各級決策樹森林集的。即假設有三類使用者子特徵A、B、C,決策樹森林集共5級,則各級決策樹森林集的輸入可表示為:
A——>level-1
B+level-1-result——>level-2
C+level-2-result——>level-3
A+level-3-result——>level-4
level-4-result——>level-5
其中level-1、level-2、level-3、level-4、level-5分別代表各級決策樹森林集;level-1-result、level-2-result、level-3-result分別代表各級決策樹森林集輸出。
從上面表示不難看出:
(1)各類使用者子特徵是依次迴圈輸入至各級決策樹森林集(除了最後一級決策樹森林集)的,所謂依次是按照A、B、C順序;所謂迴圈是在最後一個類特徵(C)已輸入之後再重新按照A、B、C順序重新進行。
(2)除了第一級(輸入僅有使用者子特徵)和最後一級(輸入僅有上一級輸出),中間各級決策樹森林集的輸入都由兩部分組成:按順序選取的使用者子特徵及上一級輸出。
需要說明的是,上述圖4這種按各類使用者子特徵是依次迴圈輸入各級決策樹森林集的方式僅僅是一個示例而已。實際操作中,還可以隨機選擇任意一類或任意多類使用者子特徵輸入到當前級決策樹森林集(除最後一級)。
例如圖5所示的另一個例子中,假設有三類使用者子特徵A、B、C,決策樹森林集共L級,則各級決策樹森林集的輸入可表示為:
B——>level-1
C+level-1-result——>level-2
……
A+C+level-(L-2)-result——>level-(L-1)
level-(L-1)-result——>level-L
在上述圖5例子中,是隨機選擇一類或多類使用者子特徵輸入到當前級決策樹森林集(除最後一級)的。
在一種可選方式中,可在對每級決策樹森林集的各個基分類器進行訓練時,透過k折交叉驗證的方式進行,以緩解過擬合問題。
交叉驗證,是將原始資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set or test set),首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的性能指標。
交叉驗證的具體做法可以是:將黑白樣本的資料劃分為預置數目的分組;任選一個分組作為驗證集,其餘分組的資料集合作為訓練集;在每級決策樹森林集的訓練過程中,利用每個訓練集分別訓練以及每個對應驗證集分別驗證每級決策樹森林集中的各個基分類器。
例如,假設將選取出的總計1000個黑白樣本進行隨機劃分分為三個分組:分組1、分組2、分組3;則得到三種組合方式:分組1為驗證集,分組2、3的資料集合作為訓練集;分組2為驗證集,分組1、3的資料集合作為訓練集;分組3為驗證集,分組1、2的資料集合作為訓練集。在訓練基分類器過程中,需要針對上述三個訓練集分別進行訓練。
本說明書實施例提供一種物件分類方法。參考圖6,該方法包括:
S601:對待識別物件的資料進行特徵提取得到物件初始特徵,並對物件初始特徵進行切分處理,得到多類物件子特徵;
S602:將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;
S603:基於深度森林網路,對待識別物件進行決策分類。
其中對於特徵切分處理以及深度森林網路的訓練過程請參見本發明實施例前述內容。
假定深度森林網路為L層(即包括L級決策樹森林集),則在利用深度森林網路對待識別使用者的資料進行預測的過程中,執行如下過程:
(1)利用n個分類器對待識別交易資料進行預測:對於待識別交易資料,得到n*c個預測結果,拼接到對應的使用者子特徵d-i維特徵上,得到新的(d-i+n*c)維特徵;
(2)對於最後L層的n*c個預測結果,在n個分類結果取平均,得到最終的c個預測結果,該c個預測結果便是深度森林網路在c個類別上的最終預測概率。
可見,上述以使用者物件為例的物件分類方法中,透過對使用者資料的特徵進行切分處理,針對切分後的各類使用者子特徵,利用深度森林網路中每級決策樹森林集的多個基分類器進行決策分類,最終確定出使用者是否為異常的概率。另外,針對異常使用者樣本有可能稀疏的情況,可採取k折交叉驗證的方式進行基分類器的訓練,從而緩解過擬合的問題。
除了使用者物件,如前所述的,本發明實施例還可以對業務物件進行分類。
業務包括交易、線上服務等多種情況。以交易為例,在風控場景中,通常需要找到帶有安全隱患的交易,這類交易稱為非法交易,相較於正常交易而言,這類交易的數目非常少,通常是一比幾百甚至幾千,而且異常交易有著形形色色的區別,因而挖掘非法交易是一件較為困難的事情。對此,本發明實施例提出的用於業務識別的物件分類方法中,基於深度森林網路,利用深度森林網路的高效性特點,能夠比以往的演算法找到更多的非法交易。
本發明實施例提供的物件分類方法用於對業務進行識別時,可參考上述圖2-圖5的原理和步驟,僅是將使用者子特徵替換為業務子特徵即可,因此不贅述。
基於同一發明構思,本說明書實施例提供一種物件分類裝置,請參考圖7,包括:
特徵提取及處理單元701,用於對待識別物件的資料進行特徵提取得到物件初始特徵,並對所述物件初始特徵進行切分處理,得到多類物件子特徵;
預測單元702,將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於深度森林網路,對所述待識別物件進行決策分類。
在一種可選方式中,還包括:網路訓練單元703;
所述網路訓練單元703包括:
樣本獲取子單元7031,用於收集有關異常物件的黑白樣本;
特徵提取及處理子單元7032,用於對黑白樣本資料進行特徵提取得到物件初始特徵,以及對物件初始特徵進行切分處理,得到多類物件子特徵;
訓練執行子單元7033,用於根據第一類物件子特徵訓練第一級決策樹森林集的各個基分類器,並將前一級決策樹森林集的輸出特徵與下一類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練;或者,根據任意一類或幾類物件子特徵訓練第一級決策樹森林集的各個基分類器,然後將前一級決策樹森林集的輸出特徵與任意一類或幾類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練;
網路確定子單元7034,用於當達到預定結束條件時,結束訓練,得到由多級決策樹森林集構成的所述深度森林網路。
在一種可選方式中,所述特徵提取及處理單元702或所述特徵提取及處理子單元7032具體用於:根據所述物件原始特徵中各特徵所屬類型,對所屬物件原始特徵進行分組;分組得到所述各類物件子特徵。
在一種可選方式中,所述物件子特徵包括使用者子特徵和業務子特徵中的至少一項;所述使用者子特徵包括使用者靜態特徵、使用者動態特徵及使用者關聯特徵中的兩項或多項;所述業務子特徵包括業務歷史特徵及業務即時特徵。
在一種可選方式中,所述網路訓練單元703還包括:
交叉驗證控制子單元7035:用於採取交叉驗證的方式訓練各個基分類器。
在一種可選方式中,交叉驗證控制子單元7035具體用於:
將黑白樣本的資料劃分為預置數目的分組;任選一個分組作為驗證集,其餘分組的資料集合作為訓練集;
在每級決策樹森林集的訓練過程中,利用每個訓練集分別訓練以及每個對應驗證集分別驗證每級決策樹森林集中的各個基分類器。
基於與前述實施例中物件分類方法同樣的發明構思,本發明還提供一種伺服器,如圖8所示,包括記憶體804、處理器802及儲存在記憶體804上並可在處理器802上運行的電腦程式,所述處理器802執行所述程式時實現前文所述物件分類方法的步驟。
其中,在圖8中,匯流排架構(用匯流排800來代表),匯流排800可以包括任意數量的互聯的匯流排和橋,匯流排800將包括由處理器802代表的一個或多個處理器和記憶體804代表的記憶體的各種電路連結在一起。匯流排800還可以將諸如週邊設備、穩壓器和功率管理電路等之類的各種其他電路連結在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。匯流排界面806在匯流排800和接收器801和發送器803之間提供介面。接收器801和發送器803可以是同一個元件,即收發機,提供用於在傳輸媒體上與各種其他裝置通信的單元。處理器802負責管理匯流排800和通常的處理,而記憶體804可以被用於儲存處理器802在執行操作時所使用的資料。
基於與前述實施例中物件分類方法的發明構思,本發明還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前文所述物件分類方法的步驟。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的設備。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令設備的製造品,該指令設備實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本說明書的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,申請專利範圍意欲解釋為包括優選實施例以及落入本說明書範圍的所有變更和修改。
顯然,本領域的技術人員可以對本說明書進行各種改動和變型而不脫離本說明書的精神和範圍。這樣,倘若本說明書的這些修改和變型屬於本說明書權利要求及其等同技術的範圍之內,則本說明書也意圖包含這些改動和變型在內。
100‧‧‧終端
101‧‧‧交易處理使用者端
200‧‧‧伺服器
201‧‧‧深度森林網路
701‧‧‧特徵提取及處理單元
702‧‧‧預測單元
703‧‧‧網路訓練單元
800‧‧‧匯流排
801‧‧‧接收器
802‧‧‧處理器
803‧‧‧發送器
804‧‧‧記憶體
806‧‧‧匯流排界面
7031‧‧‧樣本獲取子單元
7032‧‧‧特徵提取及處理子單元
7033‧‧‧訓練執行子單元
7034‧‧‧網路確定子單元
7035‧‧‧交叉驗證控制子單元
圖1為本說明書實施例物件分類的場景示意圖;
圖2為本說明書實施例提供的用於物件分類的深度森林網路的訓練方法流程圖;
圖3為本說明書實施例提供的用於物件分類的深度森林網路訓練方法中使用者原始特徵切分示意圖;
圖4為本說明書實施例提供的用於物件分類的深度森林網路訓練方法中深度森林網路示意圖;
圖5為本說明書實施例提供的用於物件分類的深度森林網路訓練方法中深度森林網路示意圖;
圖6為本說明書實施例提供的物件分類方法流程圖;
圖7為本說明書實施例提供的物件分類裝置結構示意圖;
圖8為本說明書實施例提供的伺服器結構示意圖。
Claims (14)
- 一種物件分類方法,包括: 對待識別物件的資料進行特徵提取得到物件原始特徵,並對該物件原始特徵進行切分處理,得到多類物件子特徵; 將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集; 基於該深度森林網路,對該待識別物件進行決策分類。
- 根據申請專利範圍第1項所述的方法,還包括:基於物件樣本訓練出該深度森林網路; 該基於物件樣本訓練出該深度森林網路包括: 收集有關物件的黑白樣本,並對黑白樣本資料進行特徵提取得到物件原始特徵,以及對物件原始特徵進行切分處理,得到多類物件子特徵; 根據第一類物件子特徵訓練第一級決策樹森林集的各個基分類器,然後將前一級決策樹森林集的輸出特徵與下一類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練;或者,根據任意一類或幾類物件子特徵訓練第一級決策樹森林集的各個基分類器,然後將前一級決策樹森林集的輸出特徵與任意一類或幾類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練; 當達到預定結束條件時,結束訓練,得到由多級決策樹森林集構成的該深度森林網路。
- 根據申請專利範圍第1或2項所述的方法,該對該物件原始特徵進行切分處理,得到多類物件子特徵包括: 根據該物件原始特徵中各特徵所屬類型,對所屬物件原始特徵進行分組; 分組得到多類物件子特徵。
- 根據申請專利範圍第3項所述的方法,該物件子特徵包括使用者子特徵和業務子特徵中的至少一項;該使用者子特徵包括使用者靜態特徵、使用者動態特徵及使用者關聯特徵中的兩項或多項;該業務子特徵包括業務歷史特徵及業務即時特徵。
- 根據申請專利範圍第2項所述的方法,還包括:採取交叉驗證的方式訓練各個基分類器。
- 根據申請專利範圍第5項所述的方法,該採取交叉驗證方式訓練各個基分類器包括: 將黑白樣本的資料劃分為預置數目的分組;任選一個分組作為驗證集,其餘分組的資料集合作為訓練集; 在該每級決策樹森林集的訓練過程中,利用每個訓練集分別訓練以及每個對應驗證集分別驗證每級決策樹森林集中的各個基分類器。
- 一種物件分類裝置,包括: 特徵提取及處理單元,用於對待識別物件的資料進行特徵提取得到物件初始特徵,並對該物件初始特徵進行切分處理,得到多類物件子特徵; 預測單元,將各類物件子特徵依次迴圈或隨機輸入至預先訓練的深度森林網路的各級決策樹森林集;基於各級決策樹森林集中各個基分類器,對該待識別物件進行決策分類。
- 根據申請專利範圍第7項所述的裝置,還包括:網路訓練單元; 該網路訓練單元包括: 樣本獲取子單元,用於收集有關異常物件的黑白樣本; 特徵提取及處理子單元,用於對黑白樣本資料進行特徵提取得到物件初始特徵,以及對物件初始特徵進行切分處理,得到多類物件子特徵; 訓練執行子單元,用於根據第一類物件子特徵訓練第一級決策樹森林集的各個基分類器,並將前一級決策樹森林集的輸出特徵與下一類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練;或者,根據任意一類或幾類物件子特徵訓練第一級決策樹森林集的各個基分類器,然後將前一級決策樹森林集的輸出特徵與任意一類或幾類物件子特徵進行拼接,利用拼接特徵訓練下一級決策樹森林集的各個基分類器;其中在每一級決策樹森林集訓練完成後判斷是否達到預定結束條件,如果未達到才進行下一級決策樹森林集的訓練; 網路確定子單元,用於當達到預定結束條件時,結束訓練,得到由多級決策樹森林集構成的該深度森林網路。
- 根據申請專利範圍第7或8項所述的裝置,該特徵提取及處理單元或該特徵提取及處理子單元具體用於:根據該物件原始特徵中各特徵所屬類型,對所屬物件原始特徵進行分組;分組得到該各類物件子特徵。
- 根據申請專利範圍第9項所述的裝置,該物件子特徵包括使用者子特徵和業務子特徵中的至少一項;該使用者子特徵包括使用者靜態特徵、使用者動態特徵及使用者關聯特徵中的兩項或多項;該業務子特徵包括業務歷史特徵及業務即時特徵。
- 根據申請專利範圍第8項所述的裝置,該網路訓練單元還包括: 交叉驗證控制子單元:用於採取交叉驗證的方式訓練各個基分類器。
- 根據申請專利範圍第11項所述的裝置,該交叉驗證控制子單元具體用於:將黑白樣本的資料劃分為預置數目的分組;任選一個分組作為驗證集,其餘分組的資料集合作為訓練集; 在每級決策樹森林集的訓練過程中,利用每個訓練集分別訓練以及每個對應驗證集分別驗證每級決策樹森林集中的各個基分類器。
- 一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,該處理器執行該程式時實現申請專利範圍第1至6項中任一項所述方法的步驟。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現申請專利範圍第1至6項中任一項所述方法的步驟。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810258227.4A CN110310114B (zh) | 2018-03-27 | 2018-03-27 | 对象分类方法、装置、服务器及存储介质 |
CN201810258227.4 | 2018-03-27 | ||
??201810258227.4 | 2018-03-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201942814A true TW201942814A (zh) | 2019-11-01 |
TWI696964B TWI696964B (zh) | 2020-06-21 |
Family
ID=66102794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107141242A TWI696964B (zh) | 2018-03-27 | 2018-11-20 | 物件分類方法、裝置、伺服器及儲存媒體 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10692089B2 (zh) |
CN (1) | CN110310114B (zh) |
SG (1) | SG11202004454QA (zh) |
TW (1) | TWI696964B (zh) |
WO (1) | WO2019191266A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11386342B2 (en) * | 2018-04-20 | 2022-07-12 | H2O.Ai Inc. | Model interpretation |
US11922283B2 (en) | 2018-04-20 | 2024-03-05 | H2O.Ai Inc. | Model interpretation |
US20190378009A1 (en) * | 2018-06-12 | 2019-12-12 | Nokia Technologies Oy | Method and electronic device for classifying an input |
US11893499B2 (en) * | 2019-03-12 | 2024-02-06 | International Business Machines Corporation | Deep forest model development and training |
CN110782342B (zh) * | 2019-10-29 | 2022-03-01 | 北京明略软件系统有限公司 | 基于二分类模型验证新渠道特征工程正确性的方法及装置 |
CN112836741B (zh) * | 2021-02-01 | 2024-05-24 | 深圳无域科技技术有限公司 | 耦合决策树的人群画像提取方法、系统、设备及计算机可读介质 |
CN113033827B (zh) * | 2021-03-03 | 2024-03-15 | 南京大学 | 一种用于深度森林的训练方法和装置 |
US20230403270A1 (en) * | 2022-06-13 | 2023-12-14 | Bank Of America Corporation | System and method for dynamic user authentication |
US12093355B2 (en) * | 2022-09-07 | 2024-09-17 | Bank Of America Corporation | Secure data transfer in a virtual environment using blockchain |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2004267843B2 (en) * | 2003-08-22 | 2011-03-24 | Mastercard International Incorporated | Methods and systems for predicting business behavior from profiling consumer card transactions |
US7853533B2 (en) * | 2004-03-02 | 2010-12-14 | The 41St Parameter, Inc. | Method and system for identifying users and detecting fraud by use of the internet |
US10572877B2 (en) * | 2014-10-14 | 2020-02-25 | Jpmorgan Chase Bank, N.A. | Identifying potentially risky transactions |
US20180060728A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | Deep Embedding Forest: Forest-based Serving with Deep Embedding Features |
CN107240087B (zh) * | 2016-11-01 | 2020-04-24 | 北京深鉴智能科技有限公司 | 目标检测系统和方法 |
CN107506796A (zh) * | 2017-08-25 | 2017-12-22 | 电子科技大学 | 一种基于深度森林的阿尔兹海默病分类方法 |
-
2018
- 2018-03-27 CN CN201810258227.4A patent/CN110310114B/zh active Active
- 2018-11-20 TW TW107141242A patent/TWI696964B/zh active
-
2019
- 2019-03-27 WO PCT/US2019/024334 patent/WO2019191266A1/en active Application Filing
- 2019-03-27 US US16/366,841 patent/US10692089B2/en active Active
- 2019-03-27 SG SG11202004454QA patent/SG11202004454QA/en unknown
Also Published As
Publication number | Publication date |
---|---|
TWI696964B (zh) | 2020-06-21 |
SG11202004454QA (en) | 2020-06-29 |
CN110310114A (zh) | 2019-10-08 |
US20190303943A1 (en) | 2019-10-03 |
WO2019191266A1 (en) | 2019-10-03 |
US10692089B2 (en) | 2020-06-23 |
CN110310114B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI703503B (zh) | 風險交易識別方法、裝置、伺服器及儲存媒體 | |
TWI696964B (zh) | 物件分類方法、裝置、伺服器及儲存媒體 | |
US11741361B2 (en) | Machine learning-based network model building method and apparatus | |
JP7322044B2 (ja) | レコメンダシステムのための高効率畳み込みネットワーク | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
Patel et al. | Study of various decision tree pruning methods with their empirical comparison in WEKA | |
US20190340533A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
WO2019179403A1 (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
JP2018528521A (ja) | メディア分類 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
Mohammed et al. | Feature reduction based on hybrid efficient weighted gene genetic algorithms with artificial neural network for machine learning problems in the big data | |
Ali et al. | Fake accounts detection on social media using stack ensemble system | |
US11960531B2 (en) | Content analysis | |
Sobolewski et al. | SCR: simulated concept recurrence–a non‐supervised tool for dealing with shifting concept | |
US20160217386A1 (en) | Computer implemented classification system and method | |
CN115994331A (zh) | 基于决策树的报文分拣方法及装置 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
CN114662580A (zh) | 数据分类模型的训练方法、分类方法、装置、设备和介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US20200265270A1 (en) | Mutual neighbors | |
CN111539210B (zh) | 跨网络实体的识别方法、装置、电子设备及介质 | |
US20230297848A1 (en) | Optimizing cascade of classifiers schema using genetic search | |
US11966930B1 (en) | Computing tool risk discovery | |
US20240062051A1 (en) | Hierarchical data labeling for machine learning using semi-supervised multi-level labeling framework | |
Shi | Multi-dimensional processing for big data with Noise |