TWI739798B

TWI739798B - 一種建立資料識別模型的方法及裝置

Info

Publication number: TWI739798B
Application number: TW106104133A
Authority: TW
Inventors: 姜曉燕; 楊旭; 代斌; 褚崴
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-02-26
Filing date: 2017-02-08
Publication date: 2021-09-21
Also published as: WO2017143919A1; TW201732662A; US20180365522A1; US11551036B2; CN107133628A

Abstract

本發明揭露了一種建立資料識別模型的方法及裝置，用於根據包括正、負樣本的訓練樣本建立資料識別模型，該方法採用採用訓練樣本進行邏輯回歸訓練，得到第一模型；對訓練樣本按比例取樣，獲得第一訓練樣本集；採用訓練得到的第一模型對正樣本進行識別，從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集；採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練，得到最終的資料識別模型。本發明的裝置包括第一訓練模組、取樣模組、選擇模組和最終模型訓練模組。本發明的方法及裝置，提高了資料識別模型的穩定性。

Description

一種建立資料識別模型的方法及裝置

本發明屬於資料處理技術領域，尤其關於一種建立資料識別模型的方法及裝置。

商家的信用是消費者決定是否消費的重要指標，目前網上電商平臺也是按照商家的信用高低進行排名。商家的信用根據交易的數量和評分逐步累積，剛開的店鋪沒有信用，排名就會靠後。消費者出於對自身權益的考慮，更願意選擇信用較高的商家或者銷量較高的商品。而商家排名的先後直接關係到消費者是否能夠搜索到商家，搜索不到的情況下，消費者就無法進入商家的店鋪進行消費。

因此網上商家都有提升信用的需求，催生了一些專為商家提升信用的網站和個人，藉由刷單等虛假交易行為來提升商家的信用。虛假交易行為不利於市場的健康發展，不利於保護消費者的權益，屬於電商平臺需要嚴厲打擊的行為。

電商平臺例如小微金服花唄和信貸業務，在使用時都要利用訓練得到的識別模型來識別交易是否是虛假交易。通常在業務上藉由TOP抓壞率來衡量對虛假交易的識別是否準確，所謂抓壞率也稱為召回率，是指識別出的虛假交易占虛假交易總數的比率。TOP抓壞率是用於對訓練得到的模型進行評估的指標，按模型識別得到的虛假交易概率對交易記錄進行排序，接著對排序後的交易記錄進行分組，計算各組的抓壞率，如果TOP抓壞率保持穩定且能達到設定的標準，則判斷模型可靠，可用於後續的識別。

然而目前小微金服等電商平臺在訓練識別模型時，一般是先對訓練樣本藉由特徵工程處理後，經過邏輯回歸演算法訓練得到識別模型，接著採用測試樣本來計算抓壞率，根據抓壞率來判斷訓練得到的識別模型是否可靠。

但是現在訓練得到的識別模型是使用邏輯回歸模型，對於訓練樣本按比例取樣，沒有對正樣本進行區分，導致噪音進入邏輯回歸演算法，無法有效提高TOP抓壞率和保證穩定性。並且隨著虛假交易維度越來越多，線性模型已經無法學到更多維度的資訊，模型單一，效果受限。

本發明的目的是提供一種建立資料識別模型的方法及裝置，以解決現有技術邏輯回歸模型訓練時噪音的影響，以及模型單一、效果不理想等問題。結合機器學習和深度學習進行訓練，在判斷虛假交易時，有效提高TOP抓壞率，取得很好的效果。

為了實現上述目的，本發明技術方案如下：一種建立資料識別模型的方法，用於根據包括正、負樣本的訓練樣本建立資料識別模型，所述建立資料識別模型的方法包括：採用訓練樣本進行邏輯回歸訓練，得到第一模型；對訓練樣本按比例取樣，獲得第一訓練樣本集；採用訓練得到的第一模型對正樣本進行識別，從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集；採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練，得到最終的資料識別模型。

進一步地，所述建立資料識別模型的方法，在進行按比例取樣或進行邏輯回歸訓練前，還包括：對訓練樣本進行特徵工程預處理。

進一步地，所述建立資料識別模型的方法，在採用訓練樣本進行邏輯回歸訓練之前，還包括：對訓練樣本進行特徵篩選，所述特徵篩選藉由計算特徵的資訊值，去除資訊值小於設定閾值的特徵。

較佳地，所述從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集之前，還包括：採用第一訓練樣本集進行DNN訓練，得到第二模型。

進一步地，所述從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集，包括：對訓練得到的第一模型進行評估，得到第一模型對應的ROC曲線；對訓練得到的第二模型進行評估，得到第二模型對應的ROC曲線；根據第一模型與第二模型ROC曲線的交點對應的閾值概率，從第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為第二訓練樣本集。

本發明較佳地選擇第二訓練樣本集的方法能夠選擇出更加符合訓練要求的樣本，提高最終資料識別模型的穩定性。

本發明還提出了一種建立資料識別模型的裝置，用於根據包括正、負樣本的訓練樣本建立資料識別模型，所述裝置包括：第一訓練模組，用於採用訓練樣本進行邏輯回歸訓練，得到第一模型；取樣模組，用於對訓練樣本按比例取樣，獲得第一訓練樣本集；選擇模組，用於採用訓練得到的第一模型對正樣本進行識別，從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集；最終模型訓練模組，用於採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練，得到最終的資料識別模型。

進一步地，所述裝置還包括：預處理模組，用於在進行按比例取樣或進行邏輯回歸訓練前，對訓練樣本進行特徵工程預處理。

進一步地，所述裝置還包括：特徵篩選模組，用於在採用訓練樣本進行邏輯回歸訓練之前，對訓練樣本進行特徵篩選，所述特徵篩選藉由計算特徵的資訊值，去除資訊值小於設定閾值的特徵。

較佳地，本發明所述裝置還包括：第二訓練模組，用於採用第一訓練樣本集進行DNN訓練，得到第二模型。

進一步地，所述選擇模組從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集時，執行如下操作：對訓練得到的第一模型進行評估，得到第一模型對應的ROC曲線；對訓練得到的第二模型進行評估，得到第二模型對應的ROC曲線；根據第一模型與第二模型ROC曲線的交點對應的閾值概率，從第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為第二訓練樣本集。

本發明提出的一種建立資料識別模型的方法及裝置，藉由對全部訓練樣本進行特徵工程預處理以及特徵篩選，並根據邏輯回歸訓練得到的第一模型識別結果和採用第一訓練樣本集進行DNN訓練的結果，從具有識別結果的所有正樣本中選擇出第二訓練樣本集，來結合深度神經網路訓練得到最終的資料識別模型，提高了模型的穩定性。

圖1為本發明建立資料識別模型的方法流程圖；圖2為本發明資料識別模型評估效果對照圖；圖3為本發明建立資料識別模型的裝置結構示意圖。

下面結合附圖和實施例對本發明技術方案做進一步詳細說明，以下實施例不構成對本發明的限定。

如圖1所示，本實施例一種建立資料識別模型的方法，包括：

步驟S1：對訓練樣本進行特徵工程預處理。

對於獲取的全部訓練樣本，由於樣本中的特徵有些值缺失，或者偏差超出正常的範圍，會影響到後續的訓練，通常需要對樣本進行特徵工程處理。本實施例首先對樣本進行特徵工程預處理，即對樣本的特徵進行資料替換和清洗，剔除無意義特徵。例如對樣本中缺失的特徵進行資料替換等。

步驟S2：對預處理後的訓練樣本進行特徵篩選，採用特徵篩選後的訓練樣本進行邏輯回歸訓練，採用訓練得到的第一模型對正樣本進行識別。

全部訓練樣本中包括正樣本和負樣本，本實施例以虛假交易為例來進行說明，正樣本表示是虛假交易的樣本，負樣本表示不是虛假交易的樣本。

在模型識別中，因為有些特徵與最終識別結果關係不大，若把這些特徵作為變數會使得模型識別結果變差，或一般情況下應使特徵數大大小於樣本數，所以有必要採用特徵篩選來篩選掉不重要甚至有負作用的特徵。進行特徵篩選的方法很多，例如有最近鄰演算法、偏最小二乘法等。本實施例較佳地藉由採用資訊值IV(information value)來對樣本的特徵進行篩選。藉由計算樣本每個特徵對應的資訊值，將特徵對應的資訊值小於設定閾值的樣本特徵去除，減少其對樣本分佈的影響。

本實施例計算樣本特徵對應的資訊值是根據所有訓練樣本的特徵來計算，假設一條訓練樣本的特徵包括{feature 1、feature 2、...、feature m}，對於其中的一個特徵feature i，i屬於(1~m)，m為特徵數量。所有訓練樣本對應該feature i的值為{i1，i2，...，in}，n為訓練樣本總數。

則可以根據feature i的值進行分組，例如將feature i的值為a的劃分為一組，這樣將fenturei分為K組，根據如下公式計算特徵feature i的資訊值IV：

其中，Disgood_ki為樣本組中負樣本數量，Disbad_ki為樣本組中正樣本數量。本實施例不限定哪個為負樣本數量，哪個為正樣本數量，即也可以用Disgood_ki表示正樣本數量，Disbad_ki表示負樣本數量。從而可以根據特徵對應的資訊值來篩選特徵，將對應資訊值小於設定閾值的特徵捨棄，保留對結果有影響的特徵用來進行後續的訓練，提高訓練模型的可靠性。

在進行特徵篩選後，採用特徵篩選後的全部訓練樣本進行邏輯回歸訓練得到第一模型，該模型即為現有技術方案中採用的識別模型。本發明在此基礎上進一步訓練以得到更加可靠的模型。一般來說採用特徵篩選後的全部訓練樣本進行邏輯回歸訓練得到第一模型穩定性比較好，可以選擇其中的一些樣本來進行後續的訓練，以使得後續訓練得到的模型具有較好的穩定性。衡量模型穩定性一般採用TOP抓壞率指標，TOP抓壞率可以根據模型識別樣本得到的虛假交易概率來進行計算。

為此，本實施例採用訓練得到的第一模型對所有正樣本進行識別，得到每個訓練樣本對應的為虛假交易的概率，記所有正樣本及其識別得到的概率為訓練集合B，即藉由第一模型識別後具有識別結果的正樣本。在後續步驟中根據識別結果從訓練集合B中選擇一部分訓練樣本作為後續的訓練用。

步驟S3：對預處理後的訓練樣本按比例取樣，採用取樣後得到的第一訓練樣本集進行DNN訓練，得到第二模型。

為了從訓練集合B中選擇一部分訓練樣本作為後續的訓練用，可以直接從訓練集合B中選擇識別準確的樣本作為後續訓練採用的第二訓練樣本集。

本實施例較佳地對預處理後的全部訓練樣本按比例取樣得到訓練集合A(第一訓練樣本集)，例如正負樣本的比例為1：10。在操作中，先選擇出所有的正樣本，接著從負樣本中選擇足夠多的負樣本，保持1：10的比例。接著採用取樣後得到的第一訓練樣本集進行DNN訓練，可以得到一個第二模型。深度神經網路DNN(Deep Neural Networks)是近年來機器學習領域中的研究熱點，DNN訓練廣泛應用在語音辨識及其他資料分類上，關於DNN訓練的內容這裡不再贅述。

在後續步驟中根據第二模型的訓練結果與第一模型的訓練結果從訓練集合B中選擇第二訓練樣本集。

根據實驗得到的經驗，第二模型的識別結果穩定性不夠。而結合第二訓練樣本集在後續步驟中進行訓練能夠得到穩定性好的最終資料識別模型。

需要說明的是，本實施例對全部訓練樣本進行特徵工程預處理，以及採用特徵篩選來篩選掉不重要甚至有負作用的特徵，都是為了訓練得到的模型更加可靠。在具體的實施例中，可以在訓練得到第一模型和訓練得到第二模型時都需要對訓練樣本進行預處理和特徵篩選，也可以僅在訓練得到第一模型時進行特徵篩選，而在訓練第二模型時不進行特徵篩選。容易理解的是，即使不進行特徵工程預處理及特徵篩選，也能提高訓練得到的模型的識別效果，使得訓練得到的模型的識別效果好於現有技術，這裡不再贅述。

步驟S4：根據採用第一訓練樣本集進行DNN訓練的結果與採用第一模型對正樣本進行識別的結果，從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集。

ROC曲線是顯示模型真正率和假正率的一種圖形化方法，常用來評估模型的效果，ROC曲線上每個點對應有三個值，分別為縱座標真正率(True Positive Rate，TPR)、橫座標假正率(False Positive Rate，FPR)和閾值概率。真正率(True Positive Rate，TPR)是指被模型預測為正的正樣本與正樣本實際數量的比率；假正率(False Positive Rate，FPR)是指被模型預測為正的負樣本與負樣本實際數量的比率；閾值概率是用來判定預測結果為正的判定閾值，如果樣本預測的結果大於該閾值概率則判定為正，否則判定為負。模型的預測效果越好，其TPR越接近於1，FPR越接近於0。

本實施例從訓練集合B中選擇一部分訓練樣本作為後續的訓練用，選擇的具體方法包括：對訓練得到的第二模型進行評估，得到第二模型對應的ROC曲線；對訓練得到的第一模型進行評估，得到第一模型對應的ROC曲線；根據第一模型與第二模型ROC曲線的交點對應的閾值概率，選擇訓練集合B中概率小於該閾值概率的樣本，作為第二訓練樣本集。

需要說明的是，選擇的第二訓練樣本集中的樣本數量小於第一訓練樣本集中的正樣本數量，最多不超過第一訓練樣本集中的正樣本數量，這樣是為了保證正負樣本的比例，以防止正樣本過多導致模型整體效果變差。

選擇第二訓練樣本集還可以根據模型評估得到的概率，從訓練集合B中按照概率從大到小順序選擇一定數量的樣本第二訓練樣本集。或者根據經驗設定一個閾值，從訓練集合B中選擇概率大於該閾值的樣本作為第二訓練樣本集。本發明較佳地根據ROC曲線的交點進行選擇，能夠保證在後續的訓練中得到更好的結果。

步驟S5：採用第一訓練樣本集和第二訓練樣本集進行DNN訓練得到最終的資料識別模型。

最後採用第一訓練樣本集和第二訓練樣本集進行DNN訓練得到最終的資料識別模型，關於DNN深度學習訓練模型，這裡不再贅述。如圖2所示的ROC曲線指出，本實施例訓練得到的最終的資料識別模型效果遠遠好於直接藉由邏輯回歸訓練得到的第一模型效果。圖2中上面的曲線為本實施例訓練得到的最終的資料識別模型對應的ROC曲線，下面的曲線為直接藉由邏輯回歸訓練得到的第一模型對應的ROC曲線。

藉由對最終資料識別模型TOP抓壞率的計算，可以發現本實施例提出的建立資料識別模型的方法大大提高了模型的穩定性。

如圖3所示，本實施例還提出了一種建立資料識別模型的裝置，用於根據包括正、負樣本的訓練樣本建立資料識別模型，該裝置包括：第一訓練模組，用於採用訓練樣本進行邏輯回歸訓練，得到第一模型；取樣模組，用於對訓練樣本按比例取樣，獲得第一訓練樣本集；選擇模組，用於採用訓練得到的第一模型對正樣本進行識別，從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集；最終模型訓練模組，用於採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練，得到最終的資料識別模型。

與上述方法對應地，容易理解的是，本裝置還包括：預處理模組，用於在進行按比例取樣或進行邏輯回歸訓練前，對訓練樣本進行特徵工程預處理。

以及，本裝置還包括：特徵篩選模組，用於在採用訓練樣本進行邏輯回歸訓練之前，對訓練樣本進行特徵篩選，所述特徵篩選藉由計算特徵的資訊值，去除資訊值小於設定閾值的特徵。

較佳地，本裝置還包括：第二訓練模組，用於採用第一訓練樣本集進行DNN 訓練，得到第二模型。

則本實施例採用較佳的方法來選擇第二訓練資料集，選擇模組從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集時，執行如下操作：對訓練得到的第一模型進行評估，得到第一模型對應的ROC曲線；對訓練得到的第二模型進行評估，得到第二模型對應的ROC曲線；根據第一模型與第二模型ROC曲線的交點對應的閾值概率，從第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為第二訓練樣本集。

以上實施例僅用以說明本發明的技術方案而非對其進行限制，在不背離本發明精神及其實質的情況下，熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形，但這些相應的改變和變形都應屬於本發明所附的申請專利範圍的保護範圍。

Claims

一種建立資料識別模型的方法，用於根據包括正、負樣本的訓練樣本建立資料識別模型，所述建立資料識別模型的方法包括：採用訓練樣本進行邏輯回歸訓練，得到第一模型；對訓練樣本按比例取樣，獲得第一訓練樣本集；採用訓練得到的所述第一模型對正樣本進行識別，從所述第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集；採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練，得到最終的資料識別模型；其中，所述從所述第一模型識別後具有識別結果的正樣本中選擇出所述第二訓練樣本集之前，還包括：採用第一訓練樣本集進行DNN訓練，得到第二模型；其中，所述從所述第一模型識別後具有識別結果的正樣本中選擇出所述第二訓練樣本集，包括：對訓練得到的所述第一模型進行評估，得到所述第一模型對應的ROC曲線；對訓練得到的所述第二模型進行評估，得到所述第二模型對應的ROC曲線；根據所述第一模型與所述第二模型對應的ROC曲線的交點對應的閾值概率，從所述第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為所述第二訓練樣本集。
根據申請專利範圍第1項所述的建立資料識別模型的方法，其中，所述建立資料識別模型的方法，在進行按比例取樣或進行邏輯回歸訓練前，還包括：對訓練樣本進行特徵工程預處理。
根據申請專利範圍第2項所述的建立資料識別模型的方法，其中，所述建立資料識別模型的方法，在採用訓練樣本進行邏輯回歸訓練之前，還包括：對訓練樣本進行特徵篩選，所述特徵篩選藉由計算特徵的資訊值，去除資訊值小於設定閾值的特徵。
一種建立資料識別模型的裝置，用於根據包括正、負樣本的訓練樣本建立資料識別模型，所述裝置包括：第一訓練模組，用於採用訓練樣本進行邏輯回歸訓練，得到第一模型；取樣模組，用於對訓練樣本按比例取樣，獲得第一訓練樣本集；選擇模組，用於採用訓練得到的所述第一模型對正樣本進行識別，從所述第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集；最終模型訓練模組，用於採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練，得到最終的資料識別模型；其中，所述裝置還包括：第二訓練模組，用於採用第一訓練樣本集進行DNN訓練，得到第二模型；其中，所述選擇模組從所述第一模型識別後具有識別結果的正樣本中選擇出所述第二訓練樣本集時，執行如下操作：對訓練得到的所述第一模型進行評估，得到所述第一模型對應的ROC曲線；對訓練得到的所述第二模型進行評估，得到所述第二模型對應的ROC曲線；根據所述第一模型與所述第二模型對應的ROC曲線的交點對應的閾值概率，從所述第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為所述第二訓練樣本集。
根據申請專利範圍第4項所述的建立資料識別模型的裝置，其中，所述裝置還包括：預處理模組，用於在進行按比例取樣或進行邏輯回歸訓練前，對訓練樣本進行特徵工程預處理。
根據申請專利範圍第5項所述的建立資料識別模型的裝置，其中，所述裝置還包括：特徵篩選模組，用於在採用訓練樣本進行邏輯回歸訓練之前，對訓練樣本進行特徵篩選，所述特徵篩選藉由計算特徵的資訊值，去除資訊值小於設定閾值的特徵。