TWI739798B - 一種建立資料識別模型的方法及裝置 - Google Patents

一種建立資料識別模型的方法及裝置 Download PDF

Info

Publication number
TWI739798B
TWI739798B TW106104133A TW106104133A TWI739798B TW I739798 B TWI739798 B TW I739798B TW 106104133 A TW106104133 A TW 106104133A TW 106104133 A TW106104133 A TW 106104133A TW I739798 B TWI739798 B TW I739798B
Authority
TW
Taiwan
Prior art keywords
training
model
samples
sample set
data recognition
Prior art date
Application number
TW106104133A
Other languages
English (en)
Other versions
TW201732662A (zh
Inventor
姜曉燕
楊旭
代斌
褚崴
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201732662A publication Critical patent/TW201732662A/zh
Application granted granted Critical
Publication of TWI739798B publication Critical patent/TWI739798B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Abstract

本發明揭露了一種建立資料識別模型的方法及裝置,用於根據包括正、負樣本的訓練樣本建立資料識別模型,該方法採用採用訓練樣本進行邏輯回歸訓練,得到第一模型;對訓練樣本按比例取樣,獲得第一訓練樣本集;採用訓練得到的第一模型對正樣本進行識別,從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集;採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練,得到最終的資料識別模型。本發明的裝置包括第一訓練模組、取樣模組、選擇模組和最終模型訓練模組。本發明的方法及裝置,提高了資料識別模型的穩定性。

Description

一種建立資料識別模型的方法及裝置
本發明屬於資料處理技術領域,尤其關於一種建立資料識別模型的方法及裝置。
商家的信用是消費者決定是否消費的重要指標,目前網上電商平臺也是按照商家的信用高低進行排名。商家的信用根據交易的數量和評分逐步累積,剛開的店鋪沒有信用,排名就會靠後。消費者出於對自身權益的考慮,更願意選擇信用較高的商家或者銷量較高的商品。而商家排名的先後直接關係到消費者是否能夠搜索到商家,搜索不到的情況下,消費者就無法進入商家的店鋪進行消費。
因此網上商家都有提升信用的需求,催生了一些專為商家提升信用的網站和個人,藉由刷單等虛假交易行為來提升商家的信用。虛假交易行為不利於市場的健康發展,不利於保護消費者的權益,屬於電商平臺需要嚴厲打擊的行為。
電商平臺例如小微金服花唄和信貸業務,在使用時都要利用訓練得到的識別模型來識別交易是否是虛假交易。 通常在業務上藉由TOP抓壞率來衡量對虛假交易的識別是否準確,所謂抓壞率也稱為召回率,是指識別出的虛假交易占虛假交易總數的比率。TOP抓壞率是用於對訓練得到的模型進行評估的指標,按模型識別得到的虛假交易概率對交易記錄進行排序,接著對排序後的交易記錄進行分組,計算各組的抓壞率,如果TOP抓壞率保持穩定且能達到設定的標準,則判斷模型可靠,可用於後續的識別。
然而目前小微金服等電商平臺在訓練識別模型時,一般是先對訓練樣本藉由特徵工程處理後,經過邏輯回歸演算法訓練得到識別模型,接著採用測試樣本來計算抓壞率,根據抓壞率來判斷訓練得到的識別模型是否可靠。
但是現在訓練得到的識別模型是使用邏輯回歸模型,對於訓練樣本按比例取樣,沒有對正樣本進行區分,導致噪音進入邏輯回歸演算法,無法有效提高TOP抓壞率和保證穩定性。並且隨著虛假交易維度越來越多,線性模型已經無法學到更多維度的資訊,模型單一,效果受限。
本發明的目的是提供一種建立資料識別模型的方法及裝置,以解決現有技術邏輯回歸模型訓練時噪音的影響,以及模型單一、效果不理想等問題。結合機器學習和深度學習進行訓練,在判斷虛假交易時,有效提高TOP抓壞率,取得很好的效果。
為了實現上述目的,本發明技術方案如下: 一種建立資料識別模型的方法,用於根據包括正、負樣本的訓練樣本建立資料識別模型,所述建立資料識別模型的方法包括:採用訓練樣本進行邏輯回歸訓練,得到第一模型;對訓練樣本按比例取樣,獲得第一訓練樣本集;採用訓練得到的第一模型對正樣本進行識別,從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集;採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練,得到最終的資料識別模型。
進一步地,所述建立資料識別模型的方法,在進行按比例取樣或進行邏輯回歸訓練前,還包括:對訓練樣本進行特徵工程預處理。
進一步地,所述建立資料識別模型的方法,在採用訓練樣本進行邏輯回歸訓練之前,還包括:對訓練樣本進行特徵篩選,所述特徵篩選藉由計算特徵的資訊值,去除資訊值小於設定閾值的特徵。
較佳地,所述從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集之前,還包括:採用第一訓練樣本集進行DNN訓練,得到第二模型。
進一步地,所述從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集,包括: 對訓練得到的第一模型進行評估,得到第一模型對應的ROC曲線;對訓練得到的第二模型進行評估,得到第二模型對應的ROC曲線;根據第一模型與第二模型ROC曲線的交點對應的閾值概率,從第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為第二訓練樣本集。
本發明較佳地選擇第二訓練樣本集的方法能夠選擇出更加符合訓練要求的樣本,提高最終資料識別模型的穩定性。
本發明還提出了一種建立資料識別模型的裝置,用於根據包括正、負樣本的訓練樣本建立資料識別模型,所述裝置包括:第一訓練模組,用於採用訓練樣本進行邏輯回歸訓練,得到第一模型;取樣模組,用於對訓練樣本按比例取樣,獲得第一訓練樣本集;選擇模組,用於採用訓練得到的第一模型對正樣本進行識別,從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集;最終模型訓練模組,用於採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練,得到最終的資料識別模型。
進一步地,所述裝置還包括: 預處理模組,用於在進行按比例取樣或進行邏輯回歸訓練前,對訓練樣本進行特徵工程預處理。
進一步地,所述裝置還包括:特徵篩選模組,用於在採用訓練樣本進行邏輯回歸訓練之前,對訓練樣本進行特徵篩選,所述特徵篩選藉由計算特徵的資訊值,去除資訊值小於設定閾值的特徵。
較佳地,本發明所述裝置還包括:第二訓練模組,用於採用第一訓練樣本集進行DNN訓練,得到第二模型。
進一步地,所述選擇模組從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集時,執行如下操作:對訓練得到的第一模型進行評估,得到第一模型對應的ROC曲線;對訓練得到的第二模型進行評估,得到第二模型對應的ROC曲線;根據第一模型與第二模型ROC曲線的交點對應的閾值概率,從第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為第二訓練樣本集。
本發明提出的一種建立資料識別模型的方法及裝置,藉由對全部訓練樣本進行特徵工程預處理以及特徵篩選,並根據邏輯回歸訓練得到的第一模型識別結果和採用第一訓練樣本集進行DNN訓練的結果,從具有識別結果的所有正樣本中選擇出第二訓練樣本集,來結合深度神經網路 訓練得到最終的資料識別模型,提高了模型的穩定性。
圖1為本發明建立資料識別模型的方法流程圖;圖2為本發明資料識別模型評估效果對照圖;圖3為本發明建立資料識別模型的裝置結構示意圖。
下面結合附圖和實施例對本發明技術方案做進一步詳細說明,以下實施例不構成對本發明的限定。
如圖1所示,本實施例一種建立資料識別模型的方法,包括:
步驟S1:對訓練樣本進行特徵工程預處理。
對於獲取的全部訓練樣本,由於樣本中的特徵有些值缺失,或者偏差超出正常的範圍,會影響到後續的訓練,通常需要對樣本進行特徵工程處理。本實施例首先對樣本進行特徵工程預處理,即對樣本的特徵進行資料替換和清洗,剔除無意義特徵。例如對樣本中缺失的特徵進行資料替換等。
步驟S2:對預處理後的訓練樣本進行特徵篩選,採用特徵篩選後的訓練樣本進行邏輯回歸訓練,採用訓練得到的第一模型對正樣本進行識別。
全部訓練樣本中包括正樣本和負樣本,本實施例以虛假交易為例來進行說明,正樣本表示是虛假交易的樣本, 負樣本表示不是虛假交易的樣本。
在模型識別中,因為有些特徵與最終識別結果關係不大,若把這些特徵作為變數會使得模型識別結果變差,或一般情況下應使特徵數大大小於樣本數,所以有必要採用特徵篩選來篩選掉不重要甚至有負作用的特徵。進行特徵篩選的方法很多,例如有最近鄰演算法、偏最小二乘法等。本實施例較佳地藉由採用資訊值IV(information value)來對樣本的特徵進行篩選。藉由計算樣本每個特徵對應的資訊值,將特徵對應的資訊值小於設定閾值的樣本特徵去除,減少其對樣本分佈的影響。
本實施例計算樣本特徵對應的資訊值是根據所有訓練樣本的特徵來計算,假設一條訓練樣本的特徵包括{feature 1、feature 2、...、feature m},對於其中的一個特徵feature i,i屬於(1~m),m為特徵數量。所有訓練樣本對應該feature i的值為{i1,i2,...,in},n為訓練樣本總數。
則可以根據feature i的值進行分組,例如將feature i的值為a的劃分為一組,這樣將fenturei分為K組,根據如下公式計算特徵feature i的資訊值IV:
Figure 106104133-A0202-12-0007-1
其中,Disgoodki為樣本組中負樣本數量,Disbadki為 樣本組中正樣本數量。本實施例不限定哪個為負樣本數量,哪個為正樣本數量,即也可以用Disgoodki表示正樣本數量,Disbadki表示負樣本數量。從而可以根據特徵對應的資訊值來篩選特徵,將對應資訊值小於設定閾值的特徵捨棄,保留對結果有影響的特徵用來進行後續的訓練,提高訓練模型的可靠性。
在進行特徵篩選後,採用特徵篩選後的全部訓練樣本進行邏輯回歸訓練得到第一模型,該模型即為現有技術方案中採用的識別模型。本發明在此基礎上進一步訓練以得到更加可靠的模型。一般來說採用特徵篩選後的全部訓練樣本進行邏輯回歸訓練得到第一模型穩定性比較好,可以選擇其中的一些樣本來進行後續的訓練,以使得後續訓練得到的模型具有較好的穩定性。衡量模型穩定性一般採用TOP抓壞率指標,TOP抓壞率可以根據模型識別樣本得到的虛假交易概率來進行計算。
為此,本實施例採用訓練得到的第一模型對所有正樣本進行識別,得到每個訓練樣本對應的為虛假交易的概率,記所有正樣本及其識別得到的概率為訓練集合B,即藉由第一模型識別後具有識別結果的正樣本。在後續步驟中根據識別結果從訓練集合B中選擇一部分訓練樣本作為後續的訓練用。
步驟S3:對預處理後的訓練樣本按比例取樣,採用取樣後得到的第一訓練樣本集進行DNN訓練,得到第二模型。
為了從訓練集合B中選擇一部分訓練樣本作為後續的訓練用,可以直接從訓練集合B中選擇識別準確的樣本作為後續訓練採用的第二訓練樣本集。
本實施例較佳地對預處理後的全部訓練樣本按比例取樣得到訓練集合A(第一訓練樣本集),例如正負樣本的比例為1:10。在操作中,先選擇出所有的正樣本,接著從負樣本中選擇足夠多的負樣本,保持1:10的比例。接著採用取樣後得到的第一訓練樣本集進行DNN訓練,可以得到一個第二模型。深度神經網路DNN(Deep Neural Networks)是近年來機器學習領域中的研究熱點,DNN訓練廣泛應用在語音辨識及其他資料分類上,關於DNN訓練的內容這裡不再贅述。
在後續步驟中根據第二模型的訓練結果與第一模型的訓練結果從訓練集合B中選擇第二訓練樣本集。
根據實驗得到的經驗,第二模型的識別結果穩定性不夠。而結合第二訓練樣本集在後續步驟中進行訓練能夠得到穩定性好的最終資料識別模型。
需要說明的是,本實施例對全部訓練樣本進行特徵工程預處理,以及採用特徵篩選來篩選掉不重要甚至有負作用的特徵,都是為了訓練得到的模型更加可靠。在具體的實施例中,可以在訓練得到第一模型和訓練得到第二模型時都需要對訓練樣本進行預處理和特徵篩選,也可以僅在訓練得到第一模型時進行特徵篩選,而在訓練第二模型時不進行特徵篩選。容易理解的是,即使不進行特徵工程預 處理及特徵篩選,也能提高訓練得到的模型的識別效果,使得訓練得到的模型的識別效果好於現有技術,這裡不再贅述。
步驟S4:根據採用第一訓練樣本集進行DNN訓練的結果與採用第一模型對正樣本進行識別的結果,從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集。
ROC曲線是顯示模型真正率和假正率的一種圖形化方法,常用來評估模型的效果,ROC曲線上每個點對應有三個值,分別為縱座標真正率(True Positive Rate,TPR)、橫座標假正率(False Positive Rate,FPR)和閾值概率。真正率(True Positive Rate,TPR)是指被模型預測為正的正樣本與正樣本實際數量的比率;假正率(False Positive Rate,FPR)是指被模型預測為正的負樣本與負樣本實際數量的比率;閾值概率是用來判定預測結果為正的判定閾值,如果樣本預測的結果大於該閾值概率則判定為正,否則判定為負。模型的預測效果越好,其TPR越接近於1,FPR越接近於0。
本實施例從訓練集合B中選擇一部分訓練樣本作為後續的訓練用,選擇的具體方法包括:對訓練得到的第二模型進行評估,得到第二模型對應的ROC曲線;對訓練得到的第一模型進行評估,得到第一模型對應的ROC曲線; 根據第一模型與第二模型ROC曲線的交點對應的閾值概率,選擇訓練集合B中概率小於該閾值概率的樣本,作為第二訓練樣本集。
需要說明的是,選擇的第二訓練樣本集中的樣本數量小於第一訓練樣本集中的正樣本數量,最多不超過第一訓練樣本集中的正樣本數量,這樣是為了保證正負樣本的比例,以防止正樣本過多導致模型整體效果變差。
選擇第二訓練樣本集還可以根據模型評估得到的概率,從訓練集合B中按照概率從大到小順序選擇一定數量的樣本第二訓練樣本集。或者根據經驗設定一個閾值,從訓練集合B中選擇概率大於該閾值的樣本作為第二訓練樣本集。本發明較佳地根據ROC曲線的交點進行選擇,能夠保證在後續的訓練中得到更好的結果。
步驟S5:採用第一訓練樣本集和第二訓練樣本集進行DNN訓練得到最終的資料識別模型。
最後採用第一訓練樣本集和第二訓練樣本集進行DNN訓練得到最終的資料識別模型,關於DNN深度學習訓練模型,這裡不再贅述。如圖2所示的ROC曲線指出,本實施例訓練得到的最終的資料識別模型效果遠遠好於直接藉由邏輯回歸訓練得到的第一模型效果。圖2中上面的曲線為本實施例訓練得到的最終的資料識別模型對應的ROC曲線,下面的曲線為直接藉由邏輯回歸訓練得到的第一模型對應的ROC曲線。
藉由對最終資料識別模型TOP抓壞率的計算,可以 發現本實施例提出的建立資料識別模型的方法大大提高了模型的穩定性。
如圖3所示,本實施例還提出了一種建立資料識別模型的裝置,用於根據包括正、負樣本的訓練樣本建立資料識別模型,該裝置包括:第一訓練模組,用於採用訓練樣本進行邏輯回歸訓練,得到第一模型;取樣模組,用於對訓練樣本按比例取樣,獲得第一訓練樣本集;選擇模組,用於採用訓練得到的第一模型對正樣本進行識別,從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集;最終模型訓練模組,用於採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練,得到最終的資料識別模型。
與上述方法對應地,容易理解的是,本裝置還包括:預處理模組,用於在進行按比例取樣或進行邏輯回歸訓練前,對訓練樣本進行特徵工程預處理。
以及,本裝置還包括:特徵篩選模組,用於在採用訓練樣本進行邏輯回歸訓練之前,對訓練樣本進行特徵篩選,所述特徵篩選藉由計算特徵的資訊值,去除資訊值小於設定閾值的特徵。
較佳地,本裝置還包括:第二訓練模組,用於採用第一訓練樣本集進行DNN 訓練,得到第二模型。
則本實施例採用較佳的方法來選擇第二訓練資料集,選擇模組從第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集時,執行如下操作:對訓練得到的第一模型進行評估,得到第一模型對應的ROC曲線;對訓練得到的第二模型進行評估,得到第二模型對應的ROC曲線;根據第一模型與第二模型ROC曲線的交點對應的閾值概率,從第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為第二訓練樣本集。
以上實施例僅用以說明本發明的技術方案而非對其進行限制,在不背離本發明精神及其實質的情況下,熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形,但這些相應的改變和變形都應屬於本發明所附的申請專利範圍的保護範圍。

Claims (6)

  1. 一種建立資料識別模型的方法,用於根據包括正、負樣本的訓練樣本建立資料識別模型,所述建立資料識別模型的方法包括:採用訓練樣本進行邏輯回歸訓練,得到第一模型;對訓練樣本按比例取樣,獲得第一訓練樣本集;採用訓練得到的所述第一模型對正樣本進行識別,從所述第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集;採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練,得到最終的資料識別模型;其中,所述從所述第一模型識別後具有識別結果的正樣本中選擇出所述第二訓練樣本集之前,還包括:採用第一訓練樣本集進行DNN訓練,得到第二模型;其中,所述從所述第一模型識別後具有識別結果的正樣本中選擇出所述第二訓練樣本集,包括:對訓練得到的所述第一模型進行評估,得到所述第一模型對應的ROC曲線;對訓練得到的所述第二模型進行評估,得到所述第二模型對應的ROC曲線;根據所述第一模型與所述第二模型對應的ROC曲線的交點對應的閾值概率,從所述第一模型識別後具有識別 結果的正樣本中選擇出概率小於所述閾值概率的樣本作為所述第二訓練樣本集。
  2. 根據申請專利範圍第1項所述的建立資料識別模型的方法,其中,所述建立資料識別模型的方法,在進行按比例取樣或進行邏輯回歸訓練前,還包括:對訓練樣本進行特徵工程預處理。
  3. 根據申請專利範圍第2項所述的建立資料識別模型的方法,其中,所述建立資料識別模型的方法,在採用訓練樣本進行邏輯回歸訓練之前,還包括:對訓練樣本進行特徵篩選,所述特徵篩選藉由計算特徵的資訊值,去除資訊值小於設定閾值的特徵。
  4. 一種建立資料識別模型的裝置,用於根據包括正、負樣本的訓練樣本建立資料識別模型,所述裝置包括:第一訓練模組,用於採用訓練樣本進行邏輯回歸訓練,得到第一模型;取樣模組,用於對訓練樣本按比例取樣,獲得第一訓練樣本集;選擇模組,用於採用訓練得到的所述第一模型對正樣本進行識別,從所述第一模型識別後具有識別結果的正樣本中選擇出第二訓練樣本集;最終模型訓練模組,用於採用取樣後得到的第一訓練樣本集與所述第二訓練樣本集進行深度神經網路DNN訓練,得到最終的資料識別模型; 其中,所述裝置還包括:第二訓練模組,用於採用第一訓練樣本集進行DNN訓練,得到第二模型;其中,所述選擇模組從所述第一模型識別後具有識別結果的正樣本中選擇出所述第二訓練樣本集時,執行如下操作:對訓練得到的所述第一模型進行評估,得到所述第一模型對應的ROC曲線;對訓練得到的所述第二模型進行評估,得到所述第二模型對應的ROC曲線;根據所述第一模型與所述第二模型對應的ROC曲線的交點對應的閾值概率,從所述第一模型識別後具有識別結果的正樣本中選擇出概率小於所述閾值概率的樣本作為所述第二訓練樣本集。
  5. 根據申請專利範圍第4項所述的建立資料識別模型的裝置,其中,所述裝置還包括:預處理模組,用於在進行按比例取樣或進行邏輯回歸訓練前,對訓練樣本進行特徵工程預處理。
  6. 根據申請專利範圍第5項所述的建立資料識別模型的裝置,其中,所述裝置還包括:特徵篩選模組,用於在採用訓練樣本進行邏輯回歸訓練之前,對訓練樣本進行特徵篩選,所述特徵篩選藉由計算特徵的資訊值,去除資訊值小於設定閾值的特徵。
TW106104133A 2016-02-26 2017-02-08 一種建立資料識別模型的方法及裝置 TWI739798B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610110817.3A CN107133628A (zh) 2016-02-26 2016-02-26 一种建立数据识别模型的方法及装置
CN201610110817.3 2016-02-26

Publications (2)

Publication Number Publication Date
TW201732662A TW201732662A (zh) 2017-09-16
TWI739798B true TWI739798B (zh) 2021-09-21

Family

ID=59684712

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104133A TWI739798B (zh) 2016-02-26 2017-02-08 一種建立資料識別模型的方法及裝置

Country Status (4)

Country Link
US (1) US11551036B2 (zh)
CN (1) CN107133628A (zh)
TW (1) TWI739798B (zh)
WO (1) WO2017143919A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133628A (zh) 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN107391760B (zh) * 2017-08-25 2018-05-25 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN109559214A (zh) 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
CN107798390B (zh) * 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备
US11539716B2 (en) * 2018-07-31 2022-12-27 DataVisor, Inc. Online user behavior analysis service backed by deep learning models trained on shared digital information
CN109325357B (zh) * 2018-08-10 2021-12-14 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质
CN109241770B (zh) * 2018-08-10 2021-11-09 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109242165A (zh) * 2018-08-24 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种模型训练及基于模型训练的预测方法及装置
CN109685527B (zh) * 2018-12-14 2024-03-29 拉扎斯网络科技(上海)有限公司 检测商户虚假交易的方法、装置、系统及计算机存储介质
CN110009509B (zh) * 2019-01-02 2021-02-19 创新先进技术有限公司 评估车损识别模型的方法及装置
CN109636242A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 企业评分方法、装置、介质及电子设备
CN109919931B (zh) * 2019-03-08 2020-12-25 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价系统
CN110163652B (zh) * 2019-04-12 2021-07-13 上海上湖信息技术有限公司 获客转化率预估方法及装置、计算机可读存储介质
CN110263824B (zh) * 2019-05-29 2023-09-05 创新先进技术有限公司 模型的训练方法、装置、计算设备及计算机可读存储介质
CN110363534B (zh) * 2019-06-28 2023-11-17 创新先进技术有限公司 用于识别异常交易的方法及装置
CN110472137B (zh) * 2019-07-05 2023-07-25 中国平安人寿保险股份有限公司 识别模型的负样本构建方法、装置和系统
CN110348523A (zh) * 2019-07-15 2019-10-18 北京信息科技大学 一种基于Stacking的恶意网页集成识别方法及系统
CN111160485B (zh) * 2019-12-31 2022-11-29 中国民用航空总局第二研究所 基于回归训练的异常行为检测方法、装置及电子设备
CN111340102B (zh) * 2020-02-24 2022-03-01 支付宝(杭州)信息技术有限公司 评估模型解释工具的方法和装置
CN111667028B (zh) * 2020-07-09 2024-03-12 腾讯科技(深圳)有限公司 一种可靠负样本确定方法和相关装置
CN112350956B (zh) * 2020-10-23 2022-07-01 新华三大数据技术有限公司 一种网络流量识别方法、装置、设备及机器可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147851A (zh) * 2010-02-08 2011-08-10 株式会社理光 多角度特定物体判断设备及多角度特定物体判断方法
CN104702492A (zh) * 2015-03-19 2015-06-10 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096207B2 (en) * 2002-03-22 2006-08-22 Donglok Kim Accelerated learning in machine vision using artificially implanted defects
US9443141B2 (en) * 2008-06-02 2016-09-13 New York University Method, system, and computer-accessible medium for classification of at least one ICTAL state
CN101799875B (zh) * 2010-02-10 2011-11-30 华中科技大学 一种目标检测方法
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US20150112765A1 (en) * 2013-10-22 2015-04-23 Linkedln Corporation Systems and methods for determining recruiting intent
CN103902968B (zh) * 2014-02-26 2015-03-25 中国人民解放军国防科学技术大学 一种基于AdaBoost分类器的行人检测模型训练方法
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content
CN104636732B (zh) * 2015-02-12 2017-11-07 合肥工业大学 一种基于序列深信度网络的行人识别方法
WO2017004448A1 (en) * 2015-07-02 2017-01-05 Indevr, Inc. Methods of processing and classifying microarray data for the detection and characterization of pathogens
CN105184226A (zh) * 2015-08-11 2015-12-23 北京新晨阳光科技有限公司 数字识别方法和装置及神经网络训练方法和装置
CN107133628A (zh) 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
US20170249594A1 (en) * 2016-02-26 2017-08-31 Linkedln Corporation Job search engine for recent college graduates

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147851A (zh) * 2010-02-08 2011-08-10 株式会社理光 多角度特定物体判断设备及多角度特定物体判断方法
CN104702492A (zh) * 2015-03-19 2015-06-10 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN104966097A (zh) * 2015-06-12 2015-10-07 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法

Also Published As

Publication number Publication date
WO2017143919A1 (zh) 2017-08-31
TW201732662A (zh) 2017-09-16
US20180365522A1 (en) 2018-12-20
US11551036B2 (en) 2023-01-10
CN107133628A (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
TWI739798B (zh) 一種建立資料識別模型的方法及裝置
TWI731297B (zh) 一種風險預測方法、存儲介質和伺服器
Gideon et al. Mood state prediction from speech of varying acoustic quality for individuals with bipolar disorder
KR20180041174A (ko) 위험 평가 방법 및 시스템
TW201734837A (zh) 一種多重抽樣模型訓練方法及裝置
WO2017140222A1 (zh) 机器学习模型的建模方法及装置
US20130283378A1 (en) System and method for distinguishing human swipe input sequence behavior and using a confidence value on a score to detect fraudsters
Nguyen et al. Deep learning methods for credit card fraud detection
KR102168198B1 (ko) 기업 부도 예측 시스템 및 이의 동작 방법
TW201514472A (zh) 整合影像分析與資料挖礦之自動光學檢測缺陷影像分類方法
CN107807941A (zh) 信息处理方法和装置
CN108197636A (zh) 一种基于深度多视点特征的稻谷检测和分类方法
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN111461216A (zh) 一种基于机器学习的案件风险识别方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
KR102387886B1 (ko) 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 및 장치
CN111626821A (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
AU2019101158A4 (en) A method of analyzing customer churn of credit cards by using logistics regression
CN111062834A (zh) 纠纷案件实体识别方法、装置、计算机设备及存储介质
CN107679862A (zh) 一种欺诈交易模型的特征值确定方法及装置
CN106022915A (zh) 企业信用风险评估方法和装置
CN110728310B (zh) 一种基于超参数优化的目标检测模型融合方法及融合系统
CN112270548B (zh) 一种基于深度学习的信用卡欺诈检测方法
US11361254B2 (en) Computerized-system and method for generating a reduced size superior labeled training dataset for a high-accuracy machine learning classification model for extreme class imbalance of instances