TW201933242A

TW201933242A - 訓練詐欺交易檢測模型的方法、檢測方法以及對應裝置

Info

Publication number: TW201933242A
Application number: TW107141000A
Authority: TW
Inventors: 李龍飛
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-01-26
Filing date: 2018-11-19
Publication date: 2019-08-16
Also published as: EP3701471A1; CN110084603B; WO2019147918A1; US20190236609A1; CN110084603A; SG11202004565WA; US20200126086A1

Abstract

本說明書實施例提供一種訓練詐欺交易檢測模型的方法，該詐欺交易檢測模型包括卷積層和分類器層，訓練方法包括：獲取分類樣本集，樣本集中的標定樣本包括用戶操作序列和時間序列，用戶操作序列包括，按時間順序排列的預定數目的用戶操作，時間序列包括用戶操作序列中相鄰用戶操作之間的時間間隔。對於這樣的樣本集，在卷積層中，對用戶操作序列進行第一卷積處理，獲得第一卷積資料；對時間序列進行第二卷積處理，獲得第二卷積資料；然後對第一卷積資料和第二卷積資料進行結合，獲得時間調整卷積資料。將如此獲得的時間調整卷積資料輸入分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。如此訓練的模型可以更加有效地進行詐欺交易的檢測。

Description

訓練詐欺交易檢測模型的方法、檢測方法以及對應裝置

本說明書一個或多個實施例係有關電腦技術領域，尤其有關訓練詐欺交易檢測模型的方法，檢測詐欺交易的方法以及對應裝置。

互聯網技術的發展使得人們的生活越來越方便，人們可以利用網路進行購物、支付、繳費、轉帳等各種交易和操作。然而，與此同時，由此引起的安全問題也越來越突顯出。近年來，金融詐欺情況時有發生，不法分子採用各種手段誘騙用戶進行一些詐欺交易。例如，將一些詐欺連結偽裝成銀行或通信公司的官方連結，誘導用戶交費或轉帳；或者，透過一些虛假資訊誘騙用戶操作網銀或電子錢包，進行詐欺交易。因此，需要快速地對詐欺交易進行檢測和識別，以便採取相應的應對措施，避免或減少用戶的財產損失，提高網路金融平臺的安全性。
現有技術中，採用了諸如邏輯斯蒂回歸，隨機森林，深度神經網路等方法來檢測詐欺交易。然而，檢測的方式並不全面，結果也不夠準確。
因此，需要更為有效的方式，檢測金融平臺中的詐欺交易。

本說明書一個或多個實施例描述了一種方法和裝置，引入用戶操作的時間因素，訓練詐欺交易檢測模型，並利用這樣的模型對詐欺交易進行檢測。
根據第一態樣，提供了一種訓練詐欺交易檢測模型的方法，所述詐欺交易檢測模型包括卷積層和分類器層，所述方法包括：
獲取分類樣本集，所述分類樣本集包括多個標定樣本，所述標定樣本包括用戶操作序列和時間序列，所述用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述時間序列包括所述用戶操作序列中相鄰用戶操作之間的時間間隔；
在所述卷積層中，對所述用戶操作序列進行第一卷積處理，獲得第一卷積資料；
對所述時間序列進行第二卷積處理，獲得第二卷積資料；
對所述第一卷積資料和所述第二卷積資料進行結合，獲得時間調整卷積資料；
將所述時間調整卷積資料輸入所述分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。
根據一種實施方式，在對所述用戶操作序列進行第一卷積處理之前，將所述用戶操作序列處理為操作矩陣。
根據一種實施例方式，採用獨熱編碼方法，或者詞嵌入方法，將所述用戶操作序列處理為操作矩陣。
根據一種實施方式，在第二卷積處理中，採用預定長度k的卷積核，依次處理所述時間序列中的多個元素，獲得時間調整向量A作為第二卷積資料，其中，所述時間調整向量A的維度與所述第一卷積資料的維度相對應。
根據一個實施例，透過以下公式而獲得時間調整向量A中的向量元素ai：

其中，f為轉換函數，xi為時間序列中的第i個元素，Cj為與卷積核相關的參數。
在一個例子中，所述轉換函數f為以下之一：tanh函數，指數函數，sigmoid函數。
根據一種實施方式，對所述第一卷積資料和所述第二卷積資料進行結合包括：將所述第一卷積資料對應的矩陣與所述第二卷積資料對應的向量進行點乘結合。
在一種實施方式中，詐欺交易檢測模型的卷積層包括多個卷積層，相應地，將上一個卷積層獲得的所述時間調整卷積資料作為下一個卷積層的用戶操作序列來進行處理，並將最後一個卷積層獲得的所述時間調整卷積資料輸出到所述分類器層。
根據第二態樣，提供一種檢測詐欺交易的方法，所述方法包括：
獲取待檢測樣本，所述待檢測樣本包括待檢測用戶操作序列和待檢測時間序列，所述待檢測用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述待檢測時間序列包括所述待檢測用戶操作序列中相鄰用戶操作之間的時間間隔；
將所述待檢測樣本輸入詐欺交易檢測模型，使其輸出檢測結果，所述詐欺交易檢測模型是根據第一態樣的方法而訓練得到的模型。
根據協力廠商側，提供一種訓練詐欺交易檢測模型的裝置，所述詐欺交易檢測模型包括卷積層和分類器層，所述裝置包括：
樣本集獲取單元，係配置成獲取分類樣本集，所述分類樣本集包括多個標定樣本，所述標定樣本包括用戶操作序列和時間序列，所述用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述時間序列包括所述用戶操作序列中相鄰用戶操作之間的時間間隔；
第一卷積處理單元，係配置成在所述卷積層中，對所述用戶操作序列進行第一卷積處理，獲得第一卷積資料；
第二卷積處理單元，係配置成對所述時間序列進行第二卷積處理，獲得第二卷積資料；
結合單元，係配置成對所述第一卷積資料和所述第二卷積資料進行結合，獲得時間調整卷積資料；
分類訓練單元，係配置成將所述時間調整卷積資料輸入所述分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。
根據第四態樣，提供一種檢測詐欺交易的裝置，所述裝置包括：
樣本獲取單元，係配置成獲取待檢測樣本，所述待檢測樣本包括待檢測用戶操作序列和待檢測時間序列，所述待檢測用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述待檢測時間序列包括所述待檢測用戶操作序列中相鄰用戶操作之間的時間間隔；
檢測單元，係配置成將所述待檢測樣本輸入詐欺交易檢測模型，使其輸出檢測結果，所述詐欺交易檢測模型是利用協力廠商側的裝置而訓練得到的模型。
根據第五態樣，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行第一態樣或第二態樣的方法。
根據第六態樣，提供了一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現第一態樣或第二態樣的方法。
透過本說明書實施例提供的方法及裝置，在詐欺交易檢測模型的輸入樣本資料中引入了時間序列，並在卷積層中引入了時間調整參數，使得詐欺交易檢測模型的訓練過程考慮了用戶操作的時序因素以及操作的時間間隔的因素，採用如此訓練獲得的詐欺交易檢測模型能夠更全面更準確地對詐欺交易進行檢測。

下面結合附圖，對本說明書提供的方案進行描述。
圖1為本說明書披露的一個實施例的實施場景示意圖。如圖1所示，用戶有可能透過網路進行多種交易操作，例如支付、轉帳、繳費等。相應地，交易操作對應的伺服器，例如支付寶伺服器，可以記錄用戶的操作歷史。可以理解到，記錄用戶的操作歷史的伺服器可以是集中的伺服器，也可以是分散式伺服器，在此不做限定。
為了訓練詐欺交易檢測模型，可以從伺服器中記錄的用戶操作記錄中獲取訓練樣本集。具體地，可以採用人工標定或其他方式，預先確定出一些詐欺交易操作和正常操作。然後，基於此而形成詐欺樣本和正常樣本，其中，詐欺樣本包括詐欺交易操作以及該操作之前的操作歷史構成的詐欺操作序列，正常樣本包括正常操作以及該操作之前的操作歷史構成的正常操作序列。並且，還獲取操作歷史中的時間資訊，即，各個操作之間的時間間隔，由這些時間間隔而構成時間序列。
計算平臺可以如上所述獲取上述的詐欺樣本和正常樣本，每一項樣本均包括用戶操作序列和對應的時間序列。計算平臺基於操作序列和時間序列兩者來訓練詐欺交易檢測模型。更具體而言，採用卷積神經網路來處理用戶操作序列和對應的時間序列，從而訓練詐欺交易檢測模型。
在訓練得到詐欺交易檢測模型的基礎上，對於有待檢測的交易樣本，同樣提取出其用戶操作序列和時間序列，將其輸入到訓練好的模型中，就可以輸出得到檢測結果，亦即，目前的有待檢測的交易是否為詐欺交易。
上述計算平臺可以是任何具有計算、處理能力的裝置、設備和系統，例如可以是伺服器，它既可以作為獨立的計算平臺，也可以被整合到記錄用戶操作歷史的伺服器中。如上所述，在訓練詐欺交易檢測模型的過程中，計算平臺引入了與用戶操作序列對應的時間序列，這使得模型可以考慮到用戶操作的時序因素和操作間隔因素，更為全面地刻畫和捕獲詐欺交易的特點，更有效地檢測詐欺交易。下面描述計算平臺訓練詐欺交易檢測模型的具體過程。
圖2示出根據一個實施例的訓練詐欺交易檢測模型的方法的流程圖。該方法可以由例如圖1的計算平臺來執行，該計算平臺可以是任何具有計算、處理能力的裝置、設備和系統，例如可以是伺服器。如圖2所示，訓練詐欺交易檢測模型的方法可以包括以下步驟：步驟21，獲取分類樣本集，其中，包括多個標定樣本，所述標定樣本包括用戶操作序列和時間序列，所述用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述時間序列包括所述用戶操作序列中相鄰用戶操作之間的時間間隔；步驟22，在詐欺交易檢測模型的卷積層中，對所述用戶操作序列進行第一卷積處理，獲得第一卷積資料；在步驟23，對所述時間序列進行第二卷積處理，獲得第二卷積資料；在步驟24，對所述第一卷積資料和所述第二卷積資料進行結合，獲得時間調整卷積資料；在步驟25，將所述時間調整卷積資料輸入所述分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。下面描述以上各個步驟的具體執行過程。
首先，在步驟21，獲取用於訓練的分類樣本集，其中，包括多個標定樣本，所述標定樣本包括用戶操作序列和時間序列。如本領域人員所知，為了對模型進行訓練，需要一些已經標定好的樣本作為訓練樣本。標定的過程可以採取人工標定等各種方式。在本步驟中，為了訓練詐欺交易檢測模型，需要獲取與詐欺交易操作有關的訓練樣本。具體地，獲取的分類樣本集可以包括詐欺交易樣本集，又稱“黑樣本集”，和正常操作樣本集，又稱“白樣本集”，黑樣本集中包括與詐欺交易操作相關的黑樣本，白樣本集中包括與正常操作相關的白樣本。
為了獲得黑樣本集，首先獲取預先被確定為詐欺交易的操作，然後從用戶的操作記錄中進一步獲取，該用戶在該詐欺交易之前的預定數目的用戶操作，這些用戶操作與標定為詐欺交易的用戶操作按時間順序排列，構成一個用戶操作序列。例如，假定用戶操作O0被標定為詐欺交易，那麼從該操作O0向前追溯預定數目的操作，例如n個操作，獲得連續的操作O1，O2，…On，這些操作連同O0，按時間順序排列，構成一個用戶操作序列(O0,O1,O2,…On)。當然，操作序列也可以反向從On排到O1和O0。在一個實施例中，已經標定的詐欺交易操作O0位於操作序列的端點。另一方面，還獲取以上用戶操作序列中相鄰的用戶操作之間的時間間隔，由這些時間間隔構成一個時間序列。可以理解，記錄用戶操作歷史的用戶記錄一般地包括多條記錄，每條記錄除了包含用戶操作的操作名稱，還會包括用戶執行這項操作時的時間戳記。利用這些時間戳記資訊，可以容易地獲取到用戶操作之間的時間間隔，進而獲得時間序列。例如，對於以上的用戶操作序列(O0,O1,O2,…On)，可以獲得對應的時間序列(x1，x2，…xn)，其中，xi為操作Oi-1和Oi之間的時間間隔。
對於與正常用戶操作相關的白樣本集，類似地獲得白樣本的用戶操作序列和時間序列。亦即，獲取預先被確定為正常交易的操作，然後從用戶的操作記錄中獲取，該用戶在該正常操作之前的預定數目的用戶操作。這些用戶操作與標定為正常操作的用戶操作按時間順序排列，同樣構成一個用戶操作序列。在該用戶操作序列中，已經標定的正常交易操作同樣位於操作序列的端點。另一方面，獲取以上用戶操作序列中相鄰的用戶操作之間的時間間隔，由這些時間間隔而構成一個時間序列。
如此，獲取的分類樣本集中含有多個標定樣本(其中，包括標定為詐欺交易的樣本和標定為正常交易的樣本)，每個標定樣本包括用戶操作序列和時間序列，用戶操作序列包括預定數目的多個用戶操作，這多個用戶操作以標定類別的用戶操作為端點，且按照時間順序排列，所述標定類別的用戶操作為標定為詐欺交易的操作，或標定為正常交易的操作；上述時間序列包括所述多個用戶操作中相鄰用戶操作之間的時間間隔。
在獲取了上述的分類樣本集的基礎上，就可以利用這樣的樣本集對詐欺交易檢測模型進行訓練。在一個實施例中，詐欺交易檢測模型總體上採用卷積神經網路CNN (Convolution Neural Network)的演算法模型。
卷積神經網路CNN是影像處理領域常用的一種神經網路模型，通常可以認為包含有卷積層、池化層等處理層。在卷積層中，對輸入的較大維度的矩陣或向量進行局部特徵提取和操作，產生若干特徵圖(feature map)。用以進行局部特徵提取和操作的計算模組又稱為篩檢程式或卷積核。篩檢程式或卷積核的大小可以根據實際需要而設定和調整。並且，可以設定多種卷積核，來針對同一局部區域提取不同方面的特徵。
在卷積處理之後，通常，還對卷積處理的結果進行池化(pooling)處理。卷積處理可以認為是將整個輸入樣本拆分為多個局部區域，並對其進行特徵刻畫的過程，而為了描述整個樣本的全貌，還需要對不同位置不同區域的特徵進行聚合統計，以此進行降維，同時改善結果，避免過擬合的出現。這種聚合的操作就叫做池化，根據具體的池化方法，又分為平均池化、最大池化等。
通常的卷積神經網路還存在有若干隱藏層，對池化之後的結果進行進一步處理。在採用卷積神經網路進行分類的情況下，卷積層、池化層、隱藏層等處理之後的結果可以被輸入到分類器中，對輸入樣本進行分類。
如前所述，在一個實施例中，詐欺交易檢測模型採用卷積神經網路CNN模型。那麼相應地，詐欺交易檢測模型至少包括卷積層和分類器層。卷積層用以對輸入的樣本資料進行卷積處理，分類器層用以對初步處理的樣本資料進行分類。由於在步驟21已經獲得用於訓練的分類樣本集，在接下來的步驟中，可以將分類樣本集中的標定樣本資料輸入到卷積神經網路進行處理。
具體地，在步驟22，在卷積層中，對標定樣本中的用戶操作序列進行第一卷積處理，獲得第一卷積資料；在步驟23，對標定樣本中的時間序列進行第二卷積處理，獲得第二卷積資料。
步驟22中的第一卷積處理可以是習知的卷積處理。也就是，利用一定大小的卷積核，從用戶操作序列中提取局部特徵，並利用與卷積核相關的卷積演算法對提取的特徵進行運算操作。
在一個實施例中，用戶操作序列表示為向量的形式，輸入到卷積層。卷積層直接對該操作序列向量進行卷積處理。卷積處理的結果通常被表示為矩陣，也可以透過矩陣-向量轉化，輸出向量形式的輸出結果。
在另一實施例中，在輸入到卷積層之前，首先將用戶操作序列處理為操作矩陣。
更具體地，在一個實施例中，採用獨熱編碼(one-hot) 方法，將用戶操作序列處理為操作矩陣。獨熱編碼方法又稱為一位元有效編碼方法，在機器學習中可以用來將離散的不連續的特徵處理為單個編碼。在一個例子中，假定要處理的用戶操作序列(O0,O1,O2.,,,On)中包括m種不同的操作，那麼就可以將每一項操作轉換為一個m維向量，該向量中僅包含一個為1的元素，其他元素均為0，其中，第i個元素為1，則代表對應第i種操作。如此，可以將用戶操作序列處理為m*(n+1)的操作矩陣，其中，每一行代表一項操作，對應一個m維向量。獨熱編碼處理得出的矩陣一般比較稀疏。
在另一實施例中，採用詞嵌入(embedding)模型，將用戶操作序列處理為操作矩陣。詞嵌入模型是自然語言處理NLP中用到的一種模型，用以將單個詞轉換為一個向量。在最簡單的模型中，為每個單詞構造一組特徵作為其對應向量。更進一步地，為了體現單詞之間的關係，例如類別關係，從屬關係，可以採用各種方式來訓練語言模型，最佳化向量表達。例如，word2vec的工具中包含了多種詞嵌入的方法，能夠快速得到單詞的向量表達，並且向量表達能夠體現單詞之間的類比關係。如此，可以採取詞嵌入模型，將用戶操作序列中的各個操作轉換為向量形式，相應地，整個操作序列被轉換處理為一個操作矩陣。
本領域技術人員瞭解，還可以採取其他方式，將用戶操作序列處理為矩陣形式，例如將向量形式的操作序列乘以預先定義或預先學習的矩陣，也會得到用戶操作序列的矩陣表達形式。
在將用戶操作序列轉換為矩陣形式的情況下，經過第一卷積處理，獲得的第一卷積資料通常也是一個矩陣。當然，也可以透過矩陣-向量轉化，輸出向量形式的第一卷積資料。
另一方面，在步驟23，在卷積層中，還對標定樣本中的時間序列進行第二卷積處理，獲得第二卷積資料。
在一個實施例中，時間序列可以被表示為向量形式，輸入到卷積層中。在卷積層中，對時間序列資料進行專門的卷積處理，即第二卷積處理，以獲得第二卷積資料。
具體地，在一個實施例中，採用預定長度k的卷積核，依次處理所述時間序列中的多個元素，獲得時間調整向量A作為時間調整卷積資料：
A=(a₁ ,a₂ ,…a_s )。
可以理解，第二卷積處理得到的時間調整向量A的維度s，依賴於原時間序列中元素的數目，以及卷積核的長度。在一個實施例中，將卷積核的長度k設定為，使得輸出的時間調整向量A的維度s與該第一卷積資料的維度相對應。更具體地，在前述第一卷積處理獲得的第一卷積資料為卷積矩陣的情況下，輸出的時間調整向量A的維度s與該第一卷積資料的列數相對應。例如，假定時間序列包含n個元素，即(x1，x2，…,xn)，如果卷積核長度為k，那麼得到的時間調整向量A的維度s=(n-k+1)。透過調整k，可以使得s與卷積矩陣的列數相當。
更具體地，在一個例子中，第二卷積處理的過程可以包括，透過以下公式而獲得時間調整向量A中的向量元素ai：
(1)
其中，f為轉換函數，用以將數值壓縮到預定範圍，xi為時間序列中的第i個元素。可以看到，A中的每個元素ai都是用長度為k的卷積核對時間序列中的元素(x_i+1 ,x_i+2 ,…x_i+k )進行卷積操作的結果，其中，Cj為與卷積核相關的參數，更具體來說，Cj可以認為是卷積核中定義的權重因數。
為了防止求和結果取向正無窮，採用轉換函數f來限制其範圍。轉換函數f可以根據需要來進行設定。在一個實施例中，轉換函數f採用tanh函數；在另一實施例中，轉換函數f採用指數函數；在又一實施例中，轉換函數採用sigmoid函數。轉換函數f還有可能採取其他形式。
在一個實施例中，還可以對上述的時間調整向量A進行進一步運算，獲得更多形式的第二卷積資料，例如矩陣形式，數值形式等。
透過如上所述的第二卷積處理，獲得了例如時間調整向量A作為第二卷積資料。
接著，在步驟24，將步驟22獲得的第一卷積資料和步驟23獲得的第二卷積資料進行結合，從而獲得時間調整卷積資料。
在一個實施例中，步驟22獲得的第一卷積資料為向量形式，步驟23獲得的第二卷積資料為上述的時間調整向量A。此時，在步驟24，可以透過叉乘、連接等方式，對這兩個向量進行結合，從而獲得時間調整卷積資料。
在另一實施例中，步驟22獲得的第一卷積資料為卷積矩陣，步驟23獲得了時間調整向量A。如前所述，時間調整向量A的維度s可被設定為，與卷積矩陣的列數相對應。如此，在步驟24，可以將卷積矩陣與時間調整向量A進行點乘，從而進行結合，點乘之後的矩陣作為時間調整卷積資料。
即：C_o =C_in ⊙A
其中，C_in 為步驟22獲得的卷積矩陣，A為時間調整向量，C_o 為結合獲得的時間調整卷積資料。
在其他實施例中，第一卷積資料和/或第二卷積資料採取其他形式。在這樣的情況下，可以相應地調整步驟24中的結合演算法，從而將兩者結合在一起。如此，獲得的時間調整卷積資料中引入了與用戶操作序列相對應的時間序列，從而引入了用戶操作過程的時序和時間間隔的因素。
對於如此獲得的時間調整卷積資料，在步驟25，將其輸入分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。
可以理解到，分類器層根據預定的分類演算法，對輸入的樣本資料進行分析，進而給出分類結果。根據分類器層的分類結果，可以對整個詐欺交易檢測模型進行訓練。更具體地，可以將分類器層的分類結果(例如，將樣本分類為詐欺交易操作還是正常操作)與輸入樣本的標定分類情況(亦即，該樣本實際上被標定為詐欺交易操作還是正常操作)進行比對，由此確定分類損失函數。然後，透過對分類損失函數求導，進行梯度傳遞，返回來修改詐欺交易檢測模型中的各種參數，然後再次訓練和分類，直到分類損失函數在可接受範圍之內為止。如此，實現對詐欺交易檢測模型的訓練。
圖3示出根據一個實施例的詐欺交易檢測模型的示意圖。如圖3所示，詐欺交易檢測模型總體上採取卷積神經網路CNN的結構，包括卷積層和分類器層。採用已經標定的詐欺交易操作樣本和正常操作樣本來訓練該模型，其中，每個樣本都包括用戶操作序列和時間序列，用戶操作序列包含以標定為詐欺交易操作/正常操作的用戶操作為端點的、預定數目的用戶操作，時間序列包含相鄰用戶操作之間的時間間隔。
如圖3所示，將用戶操作序列和時間序列分別輸入卷積層，但是分別進行第一卷積處理和第二卷積處理。然後將第一卷積處理得到的第一卷積資料，和第二卷積處理得到的第二卷積資料進行結合，獲得時間調整卷積資料。第一卷積處理、第二卷積處理和結合處理的具體演算法如前所述，不再贅述。獲得的時間調整卷積資料被輸入到分類器層，進行分類，從而得到分類結果。分類結果用來確定分類損失函數，從而調整模型參數，進一步訓練模型。
在一個實施例中，在輸入到卷積層之前，用戶操作序列還經過一個嵌入層，該嵌入層用以將用戶操作序列處理為一個操作矩陣。處理的具體方法可以包括獨熱編碼方法，詞嵌入模型等。
在圖3的模型中，將第一卷積處理得到的第一卷積資料，和第二卷積處理得到的第二卷積資料進行結合，獲得了時間調整卷積資料。結合的過程起到了聚合統計的作用，從而可以省卻習知卷積神經網路中的池化處理，因而在圖3的模型中並沒有包含池化層。結合獲得的時間調整卷積資料由於引入了時間序列，使得分類器層的分類考慮了用戶操作的時間間隔這一影響因素，從而可以訓練獲得更加準確更加全面的詐欺交易檢測模型。
圖4示出根據另一實施例的詐欺交易檢測模型的示意圖。如圖4所示，該詐欺交易檢測模型包括多個卷積層(圖4所示為3個)。實際上，對於較為複雜的輸入樣本來說，利用多個卷積層進行多次卷積處理，是卷積神經網路中常見的情況。在多個卷積層的情況下，如圖4所示，在每一卷積層中，對用戶操作序列進行第一卷積處理，對時間序列進行第二卷積處理，並將第一卷積處理得到的第一卷積資料和第二卷積處理得到的第二卷積資料進行結合，從而獲得時間調整卷積資料。上一個卷積層獲得的時間調整卷積資料作為下一個卷積層的用戶操作序列進行處理，最後一個卷積層獲得的時間調整卷積資料輸出到分類器層中進行分類。如此，實現多卷積層的時間調整卷積處理，並利用這樣的經過時間調整卷積處理的操作樣本資料來訓練詐欺交易檢測模型。
不管是圖3所示的單卷積層的模型還是圖4所示的多卷積層的模型，由於在樣本資料中引入了時間序列，並在卷積層中引入了第二卷積資料作為時間調整參數，使得詐欺交易檢測模型的訓練過程考慮了用戶操作的時序因素以及操作的時間間隔的因素，如此訓練獲得的詐欺交易檢測模型能夠更全面更準確地對詐欺交易進行檢測。
根據另一態樣實施例，還提供一種檢測詐欺交易的方法。圖5示出根據一個實施例的檢測詐欺交易的方法的流程圖。該方法的執行主體可以為任何具有計算和處理能力的計算平臺。如圖5所示，該方法包括以下步驟。
首先，在步驟51，獲取待檢測樣本。可以理解，待檢測樣本的構成應與用來訓練詐欺交易檢測模型的標定樣本的構成相同。具體地，當想要檢測某個用戶操作，即待檢測用戶操作，是否為詐欺交易操作時，從該操作開始向前回溯預定數目的用戶操作，這些用戶操作構成一個待檢測用戶操作序列。如此構成的待檢測用戶操作序列包括預定數目的多個用戶操作，這些用戶操作以待檢測操作為端點，且按照時間順序排列。另一方面，還獲取待檢測時間序列，它包括待檢測用戶操作序列中的相鄰用戶操作之間的時間間隔。
在獲取這樣的待檢測樣本之後，在步驟52，將待檢測樣本輸入透過圖2的方法而訓練獲得的詐欺交易檢測模型，使其輸出檢測結果。
更具體地，在步驟52，將待檢測樣本輸入所訓練的詐欺交易檢測模型的卷積層，使得待檢測樣本中的待檢測用戶操作序列和待檢測時間序列在其中分別進行第一卷積處理和第二卷積處理，獲得時間調整卷積資料；將所述時間調整卷積資料輸入所述詐欺交易檢測模型中的分類器層，從所述分類器層獲得檢測結果。
在一個實施例中，在將所述待檢測樣本輸入詐欺交易檢測模型之前，將所述待檢測用戶操作序列處理為待檢測操作矩陣。
與模型的訓練過程相對應地，在進行檢測時，輸入的待檢測樣本中也包含了時間序列的特徵。在檢測過程中，詐欺交易檢測模型根據訓練中設定好的各種參數，對輸入的待檢測樣本進行分析，包括對時間序列進行卷積處理，並將其結合到用戶操作序列，然後基於結合的結果來進行分類。如此，詐欺交易檢測模型可以更全面更準確地識別、檢測出詐欺交易操作。
根據另一態樣的實施例，還提供一種訓練詐欺交易檢測模型的裝置。圖6示出根據一個實施例的訓練詐欺交易檢測模型的裝置的示意性方塊圖，所訓練的詐欺交易檢測模型包括卷積層和分類器層。如圖6所示，訓練裝置600包括：樣本集獲取單元61，係配置成獲取分類樣本集，所述分類樣本集包括多個標定樣本，所述標定樣本包括用戶操作序列和時間序列，所述用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述時間序列包括所述用戶操作序列中相鄰用戶操作之間的時間間隔；第一卷積處理單元62，係配置成在卷積層中，對所述用戶操作序列進行第一卷積處理，獲得第一卷積資料；第二卷積處理單元63，係配置成對所述時間序列進行第二卷積處理，獲得第二卷積資料；結合單元64，係配置成對所述第一卷積資料和所述第二卷積資料進行結合，獲得時間調整卷積資料；以及分類訓練單元65，係配置成將所述時間調整卷積資料輸入所述分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。
在一個實施例中，上述裝置還包括轉換單元611，係配置成將所述用戶操作序列處理為操作矩陣。
在一個實施例中，上述轉換單元611係配置成：採用獨熱編碼方法，或者詞嵌入模型，將所述用戶操作序列處理為操作矩陣。
在一個實施例中，上述第二卷積處理單元63係配置成：採用預定長度k的卷積核，依次處理所述時間序列中的多個元素，獲得時間調整向量A作為第二卷積資料，其中，所述時間調整向量A的維度與所述第一卷積資料的維度相對應。
在進一步的實施例中，上述第二卷積處理單元63係配置成，透過以下公式而獲得時間調整向量A中的向量元素ai：

其中，f為轉換函數，xi為時間序列中的第i個元素，Cj為與卷積核相關的參數。
在更進一步的實施例中，所述轉換函數f為以下之一：tanh函數，指數函數，sigmoid函數。
在一個實施例中，結合單元64係配置成：將所述第一卷積資料對應的矩陣與所述第二卷積資料對應的向量進行點乘結合。
在一個實施例中，詐欺交易檢測模型的卷積層包括多個卷積層，相應地，所述裝置還包括處理單元(未示出)，係配置成：將上一個卷積層獲得的時間調整卷積資料作為下一個卷積層的用戶操作序列進行處理，並將最後一個卷積層獲得的所述時間調整卷積資料輸出到分類器層。
根據另一態樣的實施例，還提供一種檢測詐欺交易的裝置。圖7示出根據一個實施例的檢測詐欺交易的裝置的示意性方塊圖。如圖7所示，該檢測裝置700包括：樣本獲取單元71，係配置成獲取待檢測樣本，所述待檢測樣本包括待檢測用戶操作序列和待檢測時間序列，所述待檢測用戶操作序列包括預定數目的用戶操作，所述預定數目的用戶操作按照時間順序排列；所述待檢測時間序列包括所述待檢測用戶操作序列中相鄰用戶操作之間的時間間隔；以及檢測單元72，係配置成將所述待檢測樣本輸入詐欺交易檢測模型，使其輸出檢測結果，其中，詐欺交易檢測模型是利用圖6所示的裝置訓練得到的模型。
在一個實施例中，上述檢測單元72係配置成：將所述待檢測樣本輸入所述詐欺交易檢測模型的卷積層，使得所述待檢測樣本中的待檢測用戶操作序列和待檢測時間序列在其中分別進行第一卷積處理和第二卷積處理，獲得時間調整卷積資料；將所述時間調整卷積資料輸入所述詐欺交易檢測模型中的分類器層，從所述分類器層獲得檢測結果。
在一個實施例中，裝置700還包括轉換單元711，係配置成將所述待檢測用戶操作序列處理為待檢測操作矩陣。
利用圖6所示的裝置，可以訓練改進的詐欺交易檢測模型，圖7的裝置基於如此訓練的詐欺交易檢測模型，對輸入樣本進行檢測，確定其是否為詐欺交易。在如上訓練和利用的詐欺交易檢測模型中，輸入的樣本中包含了時間序列的特徵，並且時間序列的特徵經過卷積處理之後，與用戶操作序列相結合。因此，模型中引入了用戶操作的時間間隔這一重要因素，使得檢測結果更加全面，更加準確。
根據另一態樣的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行結合圖2或圖5所描述的方法。
根據再一態樣的實施例，還提供一種計算設備，包括記憶體和處理器，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現結合圖2或圖5所述的方法。
本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。
以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用來限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

61‧‧‧樣本集獲取單元

62‧‧‧第一卷積處理單元

63‧‧‧第二卷積處理單元

64‧‧‧結合單元

65‧‧‧分類訓練單元

71‧‧‧樣本獲取單元

72‧‧‧檢測單元

600‧‧‧訓練裝置

611‧‧‧轉換單元

700‧‧‧檢測裝置

711‧‧‧轉換單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖而獲得其它的附圖。

圖1為本說明書披露的一個實施例的實施場景示意圖；

圖2示出根據一個實施例的訓練詐欺交易檢測模型的方法的流程圖；

圖3示出根據一個實施例的詐欺交易檢測模型的示意圖；

圖4示出根據另一實施例的詐欺交易檢測模型的示意圖；

圖5示出根據一個實施例的檢測詐欺交易的方法的流程圖；

圖6示出根據一個實施例的訓練詐欺交易檢測模型的裝置的示意性方塊圖；

圖7示出根據一個實施例的檢測詐欺交易的裝置的示意性方塊圖。

Claims

一種訓練詐欺交易檢測模型的方法，該詐欺交易檢測模型包括卷積層和分類器層，該方法包括：獲取分類樣本集，該分類樣本集包括多個標定樣本，該等標定樣本包括用戶操作序列和時間序列，該用戶操作序列包括預定數目的用戶操作，該預定數目的用戶操作按照時間順序排列；該時間序列包括該用戶操作序列中相鄰用戶操作之間的時間間隔；在該卷積層中，對該用戶操作序列進行第一卷積處理，獲得第一卷積資料；對該時間序列進行第二卷積處理，獲得第二卷積資料；對該第一卷積資料和該第二卷積資料進行結合，獲得時間調整卷積資料；以及將該時間調整卷積資料輸入該分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。
根據請求項1所述的方法，在對該用戶操作序列進行第一卷積處理之前，還包括：採用獨熱編碼方法，或者詞嵌入模型，將該用戶操作序列處理為操作矩陣。
根據請求項1所述的方法，其中，對該時間序列進行第二卷積處理，獲得第二卷積資料包括：採用預定長度k的卷積核，依次處理該時間序列中的多個元素，獲得時間調整向量A作為第二卷積資料，其中，該時間調整向量A的維度與該第一卷積資料的維度相對應。
根據請求項3所述的方法，其中，該獲得時間調整向量A作為第二卷積資料包括，透過以下公式而獲得時間調整向量A中的向量元素ai：其中，f為轉換函數，xi為時間序列中的第i個元素，Cj為與卷積核相關的參數。
根據請求項4所述的方法，其中，該轉換函數f為以下之一：tanh函數，指數函數，sigmoid函數。
根據請求項1所述的方法，其中，對該第一卷積資料和該第二卷積資料進行結合包括：將該第一卷積資料對應的矩陣與該第二卷積資料對應的向量進行點乘結合。
根據請求項1所述的方法，其中，該卷積層包括多個卷積層，該方法還包括：將上一個卷積層獲得的該時間調整卷積資料作為下一個卷積層的用戶操作序列來進行處理，並將最後一個卷積層獲得的該時間調整卷積資料輸出到該分類器層。
一種檢測詐欺交易的方法，該方法包括：獲取待檢測樣本，該待檢測樣本包括待檢測用戶操作序列和待檢測時間序列，該待檢測用戶操作序列包括預定數目的用戶操作，該預定數目的用戶操作按照時間順序排列；該待檢測時間序列包括該待檢測用戶操作序列中相鄰用戶操作之間的時間間隔；以及將該待檢測樣本輸入詐欺交易檢測模型，使其輸出檢測結果，該詐欺交易檢測模型是根據請求項1的方法而訓練得到的模型。
根據請求項8所述的方法，其中，將該待檢測樣本輸入詐欺交易檢測模型，使其輸出檢測結果，包括：將該待檢測樣本輸入該詐欺交易檢測模型的卷積層，使得該待檢測樣本中的該待檢測用戶操作序列和該待檢測時間序列在其中分別進行第一卷積處理和第二卷積處理，獲得時間調整卷積資料；以及將該時間調整卷積資料輸入該詐欺交易檢測模型中的分類器層，從該分類器層獲得檢測結果。
根據請求項8或9的方法，還包括，在將該待檢測樣本輸入詐欺交易檢測模型之前，將該待檢測用戶操作序列處理為待檢測操作矩陣。
一種訓練詐欺交易檢測模型的裝置，該詐欺交易檢測模型包括卷積層和分類器層，該裝置包括：樣本集獲取單元，係配置成獲取分類樣本集，該分類樣本集包括多個標定樣本，該等標定樣本包括用戶操作序列和時間序列，該用戶操作序列包括預定數目的用戶操作，該預定數目的用戶操作按照時間順序排列；該時間序列包括該用戶操作序列中相鄰用戶操作之間的時間間隔；第一卷積處理單元，係配置成在該卷積層中，對該用戶操作序列進行第一卷積處理，獲得第一卷積資料；第二卷積處理單元，係配置成對該時間序列進行第二卷積處理，獲得第二卷積資料；結合單元，係配置成對該第一卷積資料和該第二卷積資料進行結合，獲得時間調整卷積資料；以及分類訓練單元，係配置成將該時間調整卷積資料輸入該分類器層，根據分類器層的分類結果來訓練詐欺交易檢測模型。
根據請求項11所述的裝置，還包括轉換單元，係配置成：採用獨熱編碼方法，或者詞嵌入模型，將該用戶操作序列處理為操作矩陣。
根據請求項11所述的裝置，其中，該第二卷積處理單元係配置成：採用預定長度k的卷積核，依次處理該時間序列中的多個元素，獲得時間調整向量A作為第二卷積資料，其中，該時間調整向量A的維度與該第一卷積資料的維度相對應。
根據請求項13所述的裝置，其中，該第二卷積處理單元係配置成，透過以下公式而獲得時間調整向量A中的向量元素ai：其中，f為轉換函數，xi為時間序列中的第i個元素，Cj為與卷積核相關的參數。
根據請求項14所述的裝置，其中，該轉換函數f為以下之一：tanh函數，指數函數，sigmoid函數。
根據請求項11所述的裝置，其中，該結合單元係配置成：將該第一卷積資料對應的矩陣與該第二卷積資料對應的向量進行點乘結合。
根據請求項11所述的裝置，其中，該卷積層包括多個卷積層，該裝置還包括處理單元，係配置成：將上一個卷積層獲得的該時間調整卷積資料作為下一個卷積層的用戶操作序列來進行處理，並將最後一個卷積層獲得的該時間調整卷積資料輸出到該分類器層。
一種檢測詐欺交易的裝置，該裝置包括：樣本獲取單元，係配置成獲取待檢測樣本，該待檢測樣本包括待檢測用戶操作序列和待檢測時間序列，該待檢測用戶操作序列包括預定數目的用戶操作，該預定數目的用戶操作按照時間順序排列；該待檢測時間序列包括該待檢測用戶操作序列中相鄰用戶操作之間的時間間隔；檢測單元，係配置成將該待檢測樣本輸入詐欺交易檢測模型，使其輸出檢測結果，該詐欺交易檢測模型是利用請求項11的裝置而訓練得到的模型。
根據請求項18所述的裝置，其中，該檢測單元係配置成：將該待檢測樣本輸入該詐欺交易檢測模型的卷積層，使得該待檢測樣本中的該待檢測用戶操作序列和該待檢測時間序列在其中分別進行第一卷積處理和第二卷積處理，獲得時間調整卷積資料；以及將該時間調整卷積資料輸入該詐欺交易檢測模型中的分類器層，從該分類器層獲得檢測結果。
根據請求項18或19的裝置，還包括轉換單元，係配置成將該待檢測用戶操作序列處理為待檢測操作矩陣。
一種電腦可讀儲存媒體，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行請求項1至7中任一項所述的方法。
一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現請求項1至7中任一項所述的方法。