TW201734844A

TW201734844A - 機器學習模型的建模方法及裝置

Info

Publication number: TW201734844A
Application number: TW106103976A
Authority: TW
Inventors: Ke Zhang; Wei Chu; Xing Shi; shu-kun Xie; Feng Xie
Original assignee: Alibaba Group Services Ltd
Priority date: 2016-02-19
Filing date: 2017-02-07
Publication date: 2017-10-01
Also published as: CN107103171A; CN107103171B; JP7102344B2; WO2017140222A1; JP2019511037A; TWI789345B; US20180374098A1

Abstract

本發明提供了機器學習模型的建模方法及裝置，通過針對每一個中間目標變量所對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值，進而將各機器學習子模型的機率值進行機率求和，基於求和所獲得的目標機率值以及用於描述交易行為的特徵變量建立用於判定目標行為的目標機器學習模型。在虛假交易判斷的應用場景中，目標行為即為虛假交易，從而每一個機器學習子模型用於判定對應的中間目標變量所指示的虛假交易類型，對各機器學習子模型的機率值進行機率求和就能夠獲得用於判定屬多種虛假交易類型中的至少一種的機率，基於這一機率值所構建的模型便能夠對於多種虛假交易類型進行判定，實現了節省成本，提高虛假交易的識別效率的目的。

Description

機器學習模型的建模方法及裝置

本發明關於計算機技術，尤其關於一種機器學習模型的建模方法及裝置。

在利用機器學習模型進行行為模式的判定時，往往採用針對同屬某一種目標行為的各種具體行為進行共性特徵提取，從而依據這些共性特徵構建機器學習模型。在判定某一個具體行為是否屬該目標行為時，所構建的機器學習模型依據其是否具有這些共性特徵，來確定是否為該目標行為。

以網路中的虛假交易為例，虛假交易是指賣方用戶和/或買方用戶通過虛構或隱瞞交易事實、規避或惡意利用信用記錄規則、干擾或妨害信用記錄秩序等不正當方式獲取虛假的商品銷量、店鋪評分、信用積分或商品評論等不當利益的行為。例如現在已經出現了刷單、炒信、套現和製造虛假訂單貸款等虛假交易類型，為了規範網路交易行為，需要對虛假交易這種行為模式進行判定。

由於虛假交易有著不同的類型，每一種類型的虛假交易又有著多種具體的實現方式，同時各種類型虛假交易之間的交易行為差異較大，在現有技術中，無法採用提取共性特徵的方式構建用於判斷虛假交易的機器模型，因此，現有技術中採用了每一個機器學習模型針對某一種實現形式或者一個類型的虛假交易進行判定的方式。在利用機器學習模型識別虛假交易時，便需要建立多個模型，需要耗費大量成本，識別效率較低。

本發明提供一種機器學習模型的建模方法及裝置，用於構建一個能夠適用於在目標行為具有多種不同類型的實現形式時，對目標行為進行綜合判定的機器學習模型，從而節省成本，提高識別效率。

為達到上述目的，本發明的實施例採用如下技術方案：

第一方面，提供了一種機器學習模型的建模方法，包括：獲得互斥的各中間目標變量；其中，所述中間目標變量用於指示虛假交易的類型；分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值；其中，所述機器學習子模型用於根據描述交易行為的特徵變量判定對應中間目標變量指示的虛假交易類型；對各機器學習子模型的機率值進行機率求和，獲得目標機率值；根據所述目標機率值和所述特徵變量，建立用於判定虛假交易的目標機器學習模型。

第二方面，提供了一種機器學習模型的建模裝置，包括：獲得模組，用於獲得互斥的各中間目標變量；其中，所述中間目標變量用於指示虛假交易的類型；訓練模組，用於分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值；其中，所述機器學習子模型用於根據描述交易行為的特徵變量判定對應中間目標變量指示的虛假交易類型；求和模組，用於對各機器學習子模型的機率值進行機率求和，獲得目標機率值；建模模組，用於根據所述目標機率值和所述特徵變量，建立用於判定虛假交易的目標機器學習模型。

本發明實施例提供的機器學習模型的建模方法及裝置，通過針對每一個中間目標變量所對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值，進而將各機器學習子模型的機率值進行機率求和，基於求和所獲得的目標機率值以及用於描述交易行為的特徵變量建立用於判定目標行為的目標機器學習模型。由於每一個機器學習子模型用於判定目標行為的某一特定類型，對各機器學習子模型的機率值進行機率求和，從而獲得樣本屬多種目標行為類型中的至少一種類型的機率，基於這一機率所構建的機器學習模型可以用於對目標行為進行綜合判定。舉例來說，若將這種建模方法應用於虛假交易的應用場景中，所構建的模型便能夠對於虛假交易進行綜合判定，而無需現有技術中需要針對虛假交易的不同實現形式或類型構建多個模型，實現了節省成本，提高虛假交易的識別效率的目的。

上述說明僅是本發明技術方案的概述，為了能夠更清楚瞭解本發明的技術手段，而可依照說明書的內容予以實施，並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂，以下特舉本發明的具體實施方式。

41‧‧‧訓練模組

42‧‧‧求和模組

43‧‧‧建模模組

44‧‧‧獲得模組

45‧‧‧協方差計算模組

46‧‧‧篩選模組

47‧‧‧計算模組

48‧‧‧複製模組

49‧‧‧樣本模組

441‧‧‧計算單元

442‧‧‧組合單元

443‧‧‧構建單元

444‧‧‧拆分單元

445‧‧‧合併單元

446‧‧‧確定單元

通過閱讀下文較佳實施方式的詳細描述，各種其他的優點和益處對於本領域普通技術人員將變得清楚明瞭。附圖僅用於示出較佳實施方式的目的，而並不認為是對本發明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中：圖1為本發明實施例一提供的一種機器學習模型的建模方法的流程示意圖；圖2為本發明實施例二提供的一種機器學習模型的建模方法的流程示意圖；圖3為重構目標變量的流程示意圖；圖4為本發明實施例三提供的一種機器學習模型的建模裝置的結構示意圖；圖5為本發明實施例四提供的一種機器學習模型的建模裝置的結構示意圖。

下面將參照圖式更詳細地描述本公開的示例性實施例。雖然圖式中顯示了本公開的示例性實施例，然而應當理解，可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本公開，並且能夠將本公開的範圍完整的傳達給本領域的技術人員。

下面結合附圖對本發明實施例提供的機器學習模型的建模方法及裝置進行詳細描述。

實施例一

圖1為本發明實施例一提供的一種機器學習模型的建模方法的流程示意圖，本實施例所提供的方法，可以用於進行虛假交易的判斷中，也就是說，本實施例中所提及的目標行為可以為虛假交易，本實施例所提供的方法還可以用於其他異常交易中，本實施例中對此不做限定，如圖1所示，包括：

步驟101、分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值。

其中，機器學習子模型用於根據描述交易行為的特徵變量判定對應中間目標變量指示的目標行為類型。

具體地，目標行為有著多種實現形式，可以將交易行為相似的實現形式劃分為一種類型，從而使得在每一種類型的內部，交易行為是相似的，但每一種類型之間的交易行為往往具有較大的差異性。例如，在虛假交易判定的應用場景中，虛假交易有著多種實現形式，在刷單、套現、騙貸和炒信的實現形式中，炒信和刷單的交易行為相似性較高，可以劃分為一個類型，而套現和騙貸的交易行為則與之具有較大差異，可以分別作為一個類型。

在進行目標行為的類別劃分時，可以根據用於指示目標行為的具體實現形式的初始目標變量之間的相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量。若不同實現形式的目標行為的交易行為差異性較大，則不同實現形式所對應的初始目標變量之間為相斥的；若不同實現形式的目標行為的交易行為差異性較小，則不同實現形式所對應的初始目標變量之間為相容的。

構建各中間目標變量對應的機器學習子模型，機器學習子模型是一個二分類模型，用於根據描述交易行為的特徵變量判定樣本是否屬對應中間目標變量指示的目標行為類型。利用訓練樣本，對各機器學習子模型進行訓練，獲得各機器學習子模型的機率值。

步驟102、對各機器學習子模型的機率值進行機率求和，獲得目標機率值。

由於每一個機器學習子模型用於判定對應的中間目標變量所指示的目標行為類型，對各機器學習子模型的機率值進行機率求和就能夠獲得用於判定屬多種目標行為類型中的至少一種的機率，即目標機率值。

步驟103、根據目標機率值和特徵變量，建立用於判定目標行為的目標機器學習模型。

具體地，構建用於判定目標行為的目標機器學習模型，目標機器學習模型是一個二分類模型，目標機器學習模型的機率取目標機率值，目標機器學習模型的輸入為描述交易行為的特徵變量，輸出為用於指示是否為目標行為的目標變量，該目標變量的取值為0或1，當根據樣本的特徵變量判定出目標變量取值為1時，該樣本為正樣本，即屬目標行為，否則不為目標行為。

本實施例中，通過針對每一個中間目標變量所對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值，進而將各機器學習子模型的機率值進行機率求和，基於求和所獲得的目標機率值以及用於描述交易行為的特徵變量建立用於判定目標行為的目標機器學習模型。在虛假交易判斷的應用場景中，目標行為即為虛假交易，從而每一個機器學習子模型用於判定對應的中間目標變量所指示的虛假交易類型，對各機器學習子模型的機率值進行機率求和就能夠獲得用於判定屬多種虛假交易類型中的至少一種的機率，基於這一機率值所構建的模型便能夠對於多種虛假交易類型進行判定，實現了節省成本，提高虛假交易的識別效率的目的。

實施例二

圖2為本發明實施例二提供的一種機器學習模型的建模方法的流程示意圖，本實施例中，以構建對虛假交易進行綜合判定的機器學習模型為例，進一步說明本發明實施例的技術方案，如圖2所示，該方法包括：

步驟201、獲得預設的初始目標變量和特徵變量。

具體的，在歷史交易資料中記錄有歷史發生過的交易所形成的交易記錄，在每一條交易記錄中包括三個維度的交易資訊，分別為買家交易資訊、賣家交易資訊和商品交易資訊。另外，每一條交易記錄還包括是否屬各種虛假交易的具體實現形式的資訊，虛假交易具體實現形式包括但不限於刷單、套現、騙貸和炒信。

用戶可以從歷史交易資料中，提取用於描述交易資訊的參數，設定為特徵變量x，以及提取用於描述虛假交易類型的參數設定為初始特徵變量y。

例如：可以將刷單作為初始特徵變量y₁，將套現作為初始特徵變量y₂，將騙貸作為初始特徵變量y₃，將炒信作為初始特徵變量y₄。

由於歷史資訊中包含有大量的參數，在進行特徵變量設定時，用戶可以儘量多地提取用於描述交易資訊的參數作為特徵變量，通過提取完善的交易資訊，使得特徵變量所描述的交易行為也就更加準確。基於此所建立的機器學習模型在進行分類等分析運算時，所獲得的結果也就更加準確。

步驟202、根據初始目標變量獲得互斥的中間目標變量。

具體地，確定初始目標變量之間的相容或互斥狀態，根據相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量。

首先，根據公式確定初始目標變量之間的相容或互斥狀態，將存在互斥狀態的兩初始目標變量作為一個初始目標變量對。其中，Num_ij表示歷史交易資料中被初始目標變量y_i和初始目標變量y_j同時定義為正樣本的交易記錄的條數。Num_i表示歷史交易資料中被初始目標變量y_i定義為正樣本的交易記錄的條數，Num_j表示歷史交易資料中被初始目標變量y_j定義為正樣本的交易記錄的條數。i和j的取值範圍為：1iN，1jN。N為初始特徵變量的總數。H=1時兩初始目標變量之間為互斥，H=0時兩初始目標變量之間為相融。另外，上述公式中的0.2僅是一種較佳的閾值，在實際使用中，可以選擇其他取值，閾值的取值越小，則當H=1時所判定出的兩初始目標變量之間的互斥就更加嚴格，也就是說，一個初始目標變量對另一初始目標變量的取值所構成的影響越小。

需要說明的是，正樣本在這裡是指交易記錄屬初始目標變量所指示的虛假交易類型，反之為負樣本。互斥在這裡是指一個初始目標變量的取值對另一個初始目標變量的取值構成影響小，而相融是指一個初始目標變量的取值對另一個初始目標變量的取值構成影響大。

其次，構建一個拆分集合，集合中包括全部的初始目標變量。進而，重複執行根據一個初始目標變量對，將拆分集合拆分為兩個下一級的拆分集合的步驟，其中，下一級的拆分集合用於根據下一個初始目標變量對進行拆分，直至全部的初始目標變量對執行完畢。在每一個拆分集合中包含有初始目標變量對中的一個初始目標變量，以及被拆分集合中除初始目標變量對之外的全部元素。對相互之間存在包含關係的拆分集合進行合併，獲得目標子集。將同一目標子集中的初始目標變量合併，作為中間目標變量Y。

例如：若初始目標變量為y₁，y₂，y₃，y₄，經過計算，若確定存在互斥關係的為初始目標變量對y1和y2、初始目標變量對y1和y4、初始目標變量對y2和y4、初始目標變量對y3和y4，則可以據此對拆分集合{y1，y2，y3，y4}執行進行拆分和合併的重構過程，圖3為重構目標變量的流程示意圖，如圖3所示，獲得的目標子集為{y1，y2}、{y2，y3}、{y4}。將y1和y2相合併為Y1，將y2和y3相合併為Y2，將y4作為Y3。

步驟203、構建各中間目標變量對應的機器學習子模型。

具體地，針對每一個中間目標變量構建一個二分類的機器學習子模型，該中間目標變量的機器學習子模型用於確定樣本是否為該中間目標變量的正樣本。

在機器學習子模型為線性模型的基礎上，為了在對機器學習子模型進行訓練的過程中，提高機器學習子模型的性能，減少訓練噪聲，可以針對每一個中間目標變量的機器學習子模型，進行特徵變量的篩選，篩選後的每一個機器學習子模型的特徵變量有可能是不相同的，在每個機器學習子模型中僅保留同向的特徵變量，避免由於特徵變量的同向性不一致所導致的訓練噪聲。具體篩選過程為：計算各特徵變量與用於合併獲得該中間目標變量的各初始目標變量之間的協方差，篩選掉與這些初始目標變量之間的協方差正負向不一致的特徵變量。

例如：特徵變量包括X₁、X₂、…X_q…、X_n，其中，n為特徵變量的總個數，中間目標變量包括Y₁、Y₂、…Y_v…、Y_N’，其中，N’為中間目標變量的總個數。

合併獲得中間目標變量Y_v的各初始目標變量記為y_s。在中間目標變量Y_v的機器學習子模型中，依次針對每一個特徵變量X_q，採用公式計算與各初始目標變量y_s之間的協方差，若計算出的各協方差特徵變量Cov_q1，Cov_q2，……Cov_{q S}正負號相同，則保留該特徵變量X_q，否則篩選掉該特徵變量X_q。

其中，1qn，1sS，S為合併獲得該中間目標變量Y_v的各初始目標變量y_s的個數，X_qk為特徵變量X_q在歷史交易資料中第k條交易記錄中的取值，y_sk為初始目標變量y_s在歷史交易資料中第k條交易記錄中的取值，為特徵變量X_q在歷史交易資料中的平均值，為各目標初始目標變量y_s在歷史交易資料中的平均值。

構建中間目標變量Y的機器學習子模型M，機器學習子模型M的輸入為篩選後的特徵變量X，輸出為中間目標變量Y。

步驟204、對各中間目標變量對應的機器學習子模型進行訓練，獲得機器學習子模型的機率。

具體地，將歷史交易資料中的每一條交易記錄作為一個訓練樣本，利用歷史交易資料所構成的訓練樣本集，分別對各機器學習子模型進行訓練，獲得機器學習子模型的機率p_v。

為了使得對於機器學習子模型進行訓練的模擬性更好，可以根據用於合併獲得機器學習子模型所對應的中間目標變量的各初始目標變量的權重，在歷史交易資料中，對每一條交易記錄進行複製，將複製後的歷史交易資料作為訓練樣本集。採用該方式，構建每個機器學習子模型的訓練樣本集。

由於權重是用於指示初始目標變量的嚴重程度，從而當初始目標變量越嚴重時，經過複製的操作後，在訓練樣本集中，該初始目標變量的正樣本的數量也就越多，從而在訓練過程中能夠提高訓練的模擬性。

例如：對於中間目標變量Y_v的機器學習子模型構建訓練樣本集時，預先確定合併獲得該中間目標變量Y_v的各初始目標變量y_s的權重分別為W₁、W₂、…W_s…W_S。針對每一條交易記錄，將合併獲得該中間目標變量Y_v的各初始目標變量y_s的權重W_s，代入公式

若該訓練樣本為初始目標變量y_s正樣本，則y_s=1，若該訓練樣本為初始目標變量y_s負樣本，則y_s=0，獲得該樣本的複製份數CN。對每一條訓練樣本複製對應的CN份，從而構建一個訓練樣本集。

進而，利用該複製後的訓練樣本集分別對各中間目標變量對應的機器學習子模型進行訓練，獲得機器學習子模型的機率p₁、p₂、…p_v…、p_N’。

步驟205、對機器學習子模型的機率進行機率求和，獲得目標機率值。

具體地，將機器學習子模型的機率p₁、p₂、…p_v…、 p_N’代入公式計算獲得機器學習模型的機率P。

步驟206、構建機器學習模型。

具體地，該機器學習模型為二分類模型，機器學習模型機率為P，輸入為特徵變量x，輸出為用於指示是否為虛假交易的目標變量。所構建的機器學習模型用於判定輸入的特徵變量所描述的交易行為是否屬虛假交易。基於該機器學習模型對樣本進行判定，若判定出該樣本為正樣本則說明樣本所指示的交易為虛假交易的可能性很高，若判定出該樣本為負樣本，則說明樣本所指示的交易為虛假交易的可能性很小。

實施例三

圖4為本發明實施例三提供的一種機器學習模型的建模裝置的結構示意圖，如圖4所示，包括：訓練模組41、求和模組42和建模模組43。

訓練模組41，用於分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值。

求和模組42，用於對各機器學習子模型的機率值進行機率求和，獲得目標機率值。

具體地，求和模組42，具體用於將各機器學習子模型的機率p_v代入公式計算獲得機器學習模型的機率P。

其中，N’為機器學習子模型的個數。

建模模組43，用於根據目標機率值和特徵變量，建立用於判定是否為目標行為的目標機器學習模型。

實施例四

圖5為本發明實施例四提供的一種機器學習模型的建模裝置的結構示意圖，如圖5所示，在圖4所提供的機器學習模型的建模裝置的基礎上，建模裝置還包括：獲得模組44。

獲得模組44，用於根據各初始目標變量之間的相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量；其中，所述初始目標變量用於指示目標行為的實現形式。

具體地，圖5為本發明實施例四提供的另一種機器學習模型的建模裝置的結構示意圖，作為一種可能的實現形式，獲得模組44進一步包括：計算單元441、組合單元442、構建單元443、拆分單元444、合併單元445和確定單元446。

計算單元441，用於根據公式確定初始目標變量之間的相容或互斥狀態。

其中，Num_ij表示歷史交易資料中初始目標變量y_i和初始目標變量y_j同時定義為正樣本的交易記錄的條數，Num_i表示所述歷史交易資料中初始目標變量y_i定義為正樣本的交易記錄的條數，Num_j表示所述歷史交易資料中初始目標變量y_j定義為正樣本的交易記錄的條數，1iN，1jN，N為初始特徵變量的總數，H=1時兩初始目標變量之間為互斥，H=0時兩初始目標變量之間為相融。

T₁和T₂為預設閾值，0<T₁<1，0<T₂<1。較佳的，T₁=T₂=0.2。

組合單元442，用於將兩兩之間為互斥狀態的初始目標變量組成初始目標變量對。

構建單元443，用於構建包括各初始目標變量的拆分集合。

拆分單元444，用於依次針對每一個初始目標變量對，執行根據所述初始目標變量對，將拆分集合拆分為兩個下一級的拆分集合，在每一個下一級的拆分集合中包含有所述初始目標變量對中的一個初始目標變量，以及被拆分的拆分集合中除所述初始目標變量對之外的全部元素的步驟。

其中，所述下一級的拆分集合用於根據下一個初始目標變量對進行拆分。

合併單元445，用於對相互之間存在包含關係的拆分集合進行合併，獲得目標子集。

確定單元446，用於將同一目標子集中的初始目標變量合併，作為所述中間目標變量。

進一步，機器學習子模型為線性模型，建模裝置，還包括：協方差計算模組45、篩選模組46、計算模組47、複製模組48和樣本模組49。

協方差計算模組45，用於針對每一個機器學習子模型，計算特徵變量X_q與各初始目標變量y_s之間的協方差。

其中，所述初始目標變量y_s用於合併獲得所述機器學習子模型所對應的中間目標變量。

篩選模組46，用於若所述特徵變量X_q與各初始目標變量y_s之間的協方差正負號不相同，則篩選掉所述特徵變量X_q，否則，保留所述特徵變量X_q。

計算模組47，用於針對每一條交易記錄，將初始目標變量y_s及所述初始目標變量y_s的權重W_s，代入公式，獲得所述交易記錄的複製條數CN。

其中，所述交易記錄為所述初始目標變量y_s正樣本時，y_s=1，否則，y_s=0；S為所述初始目標變量y_s的個數。

複製模組48，用於針對每一個機器學習子模型，根據各初始目標變量y_s權重W_s所確定出的交易記錄複製條數，對所述歷史交易資料中的交易記錄進行複製；其中，所述初始目標變量y_s用於合併獲得所述機器學習子模型所對應的中間目標變量；樣本模組49，用於將複製後的歷史交易資料作為所述機器學習子模型的訓練樣本。

本實施例所提供的裝置，用於執行如圖1和2所示的方法，各功能模組的描述請參見前述實施例，本實施例中不再贅述。

本領域普通技術人員可以理解：實現上述各方法實施例的全部或部分步驟可以通過程序指令相關的硬體來完成。前述的程序可以儲存於一計算機可讀取儲存媒體中。該程序在執行時，執行包括上述各方法實施例的步驟；而前述的儲存媒體包括：ROM、RAM、磁碟或者光碟等各種可以儲存程序代碼的媒體。

最後應說明的是：以上各實施例僅用以說明本發明的技術方案，而非對其限制；儘管參照前述各實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分或者全部技術特徵進行等同替換；而這些修改或者替換，並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。

Claims

一種機器學習模型的建模方法，包括：分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值；其中，所述機器學習子模型用於根據描述交易行為的特徵變量判定對應中間目標變量指示的目標行為類型；對各機器學習子模型的機率值進行機率求和，獲得目標機率值；根據所述目標機率值和所述特徵變量，建立用於判定是否為目標行為的目標機器學習模型。
根據申請專利範圍第1項所述的建模方法，其中，所述分別對各中間目標變量對應的機器學習子模型進行訓練之前，包括：根據各初始目標變量之間的相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量；其中，所述初始目標變量用於指示目標行為的實現形式。
根據申請專利範圍第2項所述的建模方法，其中，所述根據各初始目標變量之間的相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量，包括：將兩兩之間為互斥狀態的初始目標變量組成初始目標變量對；構建包括各初始目標變量的拆分集合；依次針對每一個初始目標變量對，執行根據所述初始目標變量對，將拆分集合拆分為兩個下一級的拆分集合的步驟，在每一個下一級的拆分集合中包含有所述初始目標變量對中的一個初始目標變量，以及被拆分的拆分集合中除所述初始目標變量對之外的全部元素；其中，所述下一級的拆分集合用於根據下一個初始目標變量對進行拆分；對相互之間存在包含關係的拆分集合進行合併，獲得目標子集；將同一目標子集中的初始目標變量合併，作為所述中間目標變量。
根據申請專利範圍第2項所述的建模方法，其中，所述根據各初始目標變量之間的相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量之前，還包括：根據公式確定初始目標變量之間的相容或互斥狀態；其中，Num_ij表示歷史交易資料中初始目標變量y_i和初始目標變量y_j同時定義為正樣本的交易記錄的條數，Num_i表示所述歷史交易資料中初始目標變量y_i定義為正樣本的交易記錄的條數，Num_j表示所述歷史交易資料中初始目標變量y_j定義為正樣本的交易記錄的條數，1iN，1jN，N為初始特徵變量的總數，H=1時兩初始目標變量之間為互斥，H=0時兩初始目標變量之間為相融，T₁和T₂為預設閾值，0 <T₁<1，0<T₂<1。
根據申請專利範圍第2項所述的建模方法，其中，所述機器學習子模型為線性模型，所述分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率之前，還包括：針對每一個機器學習子模型，計算特徵變量X_q與各初始目標變量y_s之間的協方差；其中，所述初始目標變量y_s用於合併獲得所述機器學習子模型所對應的中間目標變量；若所述特徵變量X_q與各初始目標變量y_s之間的協方差正負號不相同，則篩選掉所述特徵變量X_q，否則，保留所述特徵變量X_q。
根據申請專利範圍第2項所述的建模方法，其中，所述分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率之前，還包括：針對每一個機器學習子模型，根據各初始目標變量y_s權重W_s所確定出的交易記錄複製條數，對所述歷史交易資料中的交易記錄進行複製；其中，所述初始目標變量y_s用於合併獲得所述機器學習子模型所對應的中間目標變量；將複製後的歷史交易資料作為所述機器學習子模型的訓練樣本。
根據申請專利範圍第6項所述的建模方法，其中，所述對所述歷史交易資料中的交易記錄進行複製之前，還包括：針對每一條交易記錄，將初始目標變量y_s及所述初始目標變量y_s的權重W_s，代入公式，獲得所述交易記錄的複製條數CN；其中，所述交易記錄為所述初始目標變量y_s正樣本時，y_s=1，否則，y_s=0；S為所述初始目標變量y_s的個數。
根據申請專利範圍第1項所述的建模方法，其中，所述對各機器學習子模型的機率值進行機率求和，獲得目標機率值，包括：將各機器學習子模型的機率p_v代入公式計算獲得機器學習模型的機率P；其中，N’為機器學習子模型的個數。
根據申請專利範圍第1-8項任一項所述的建模方法，其中，所述目標行為為虛假交易。
一種機器學習模型的建模裝置，包括：訓練模組，用於分別對各中間目標變量對應的機器學習子模型進行訓練，獲得各機器學習子模型的機率值；其中，所述機器學習子模型用於根據描述交易行為的特徵變量判定對應中間目標變量指示的目標行為類型；求和模組，用於對各機器學習子模型的機率值進行機率求和，獲得目標機率值；建模模組，用於根據所述目標機率值和所述特徵變量，建立用於判定是否為目標行為的目標機器學習模型。
根據申請專利範圍第10項所述的建模裝置，其中，所述裝置，還包括：獲得模組，用於根據各初始目標變量之間的相容或互斥狀態，對相容的初始目標變量進行合併，獲得相互之間為互斥狀態的中間目標變量；其中，所述初始目標變量用於指示目標行為的實現形式。
根據申請專利範圍第11項所述的建模裝置，其中，所述獲得模組，包括：組合單元，用於將兩兩之間為互斥狀態的初始目標變量組成初始目標變量對；構建單元，用於構建包括各初始目標變量的拆分集合；拆分單元，用於依次針對每一個初始目標變量對，執行根據所述初始目標變量對，將拆分集合拆分為兩個下一級的拆分集合，在每一個下一級的拆分集合中包含有所述初始目標變量對中的一個初始目標變量，以及被拆分的拆分集合中除所述初始目標變量對之外的全部元素的步驟；其中，所述下一級的拆分集合用於根據下一個初始目標變量對進行拆分；合併單元，用於對相互之間存在包含關係的拆分集合進行合併，獲得目標子集；確定單元，用於將同一目標子集中的初始目標變量合併，作為所述中間目標變量。
根據申請專利範圍第11項所述的建模裝置，其中，所述獲得模組，還包括：計算單元，用於根據公式確定初始目標變量之間的相容或互斥狀態；其中，Num_ij表示歷史交易資料中初始目標變量y_i和初始目標變量y_j同時定義為正樣本的交易記錄的條數，Num_i表示所述歷史交易資料中初始目標變量y_i定義為正樣本的交易記錄的條數，Num_j表示所述歷史交易資料中初始目標變量y_j定義為正樣本的交易記錄的條數，1iN，1jN，N為初始特徵變量的總數，H=1時兩初始目標變量之間為互斥，H=0時兩初始目標變量之間為相融，T₁和T₂為預設閾值，0<T₁<1，0<T₂<1。
根據申請專利範圍第11項所述的建模裝置，其中，所述機器學習子模型為線性模型，所述裝置，還包括：協方差計算模組，用於針對每一個機器學習子模型，計算特徵變量X_q與各初始目標變量y_s之間的協方差；其中，所述初始目標變量y_s用於合併獲得所述機器學習子模型所對應的中間目標變量；篩選模組，用於若所述特徵變量X_q與各初始目標變量y_s之間的協方差正負號不相同，則篩選掉所述特徵變量X_q，否則，保留所述特徵變量X_q。
根據申請專利範圍第11項所述的建模裝置，其中，所述裝置，還包括：複製模組，用於針對每一個機器學習子模型，根據各初始目標變量y_s權重W_s所確定出的交易記錄複製條數，對所述歷史交易資料中的交易記錄進行複製；其中，所述初始目標變量y_s用於合併獲得所述機器學習子模型所對應的中間目標變量；樣本模組，用於將複製後的歷史交易資料作為所述機器學習子模型的訓練樣本。
根據申請專利範圍第15項所述的建模裝置，其中，所述裝置，還包括：計算模組，用於針對每一條交易記錄，將初始目標變量y_s及所述初始目標變量y_s的權重W_s，代入公式，獲得所述交易記錄的複製條數CN；其中，所述交易記錄為所述初始目標變量y_s正樣本時，y_s=1，否則，y_s=0；S為所述初始目標變量y_s的個數。
根據申請專利範圍第10項所述的建模裝置，其中，所述求和模組，具體用於將各機器學習子模型的機率p_v代入公式計算獲得機器學習模型的機率P；其中，N’為機器學習子模型的個數。
根據申請專利範圍第10-17項任一項所述的建模裝置，其中，所述目標行為為虛假交易。