TW202143146A

TW202143146A - 基於差分隱私的異常檢測模型的訓練方法及裝置

Info

Publication number: TW202143146A
Application number: TW110110603A
Authority: TW
Inventors: 濤熊
Original assignee: 大陸商支付寶（杭州）信息技術有限公司
Priority date: 2020-04-27
Filing date: 2021-03-24
Publication date: 2021-11-16
Also published as: TWI764640B; CN111539769A; WO2021218828A1

Abstract

本說明書實施例提供一種基於差分隱私的異常檢測模型的訓練方法，包括：將訓練集中任意樣本的第一向量輸入自編碼網路，透過編碼器輸出降維的第二向量，透過解碼器輸出復原的第三向量。然後，基於第二向量建構評估向量，輸入到評估網路，並獲取評估網路輸出的該樣本屬於混合高斯分佈中K個子高斯分佈的子分佈概率。然後，根據訓練集中各樣本對應的評估向量和子分佈概率，得到該任意樣本在混合高斯分佈中的第一概率。據此確定預測損失，其與各樣本對應的第一概率負相關，且與第一向量和第三向量之間的相似度負相關。進而，利用差分隱私的方式，在基於預測損失得到的原始梯度上添加雜訊，利用包含雜訊的梯度，調整異常檢測模型的模型參數。

Description

基於差分隱私的異常檢測模型的訓練方法及裝置

本說明書一個或多個實施例涉及電腦技術領域，尤其涉及透過電腦執行的基於差分隱私的異常檢測模型的訓練方法和裝置。

隨著電腦技術的發展，安全性成為日益關注的問題，例如電腦資料的安全性，電子支付的交易安全性，網路存取的安全性，等等。為此，在許多場景下，需要從大量樣本中發現有可能影響安全性的異常樣本，並針對這些異常樣本採取措施。例如，希望從大量交易操作樣本中發現異常交易操作，從而提前防範欺詐交易；希望從網路存取的樣本中檢測異常存取，從而發現不安全的存取，例如駭客攻擊；希望從進行各種操作的用戶帳戶中發現異常帳戶，從而鎖定涉嫌進行高風險操作(欺詐交易、刷單等虛假交易、網路攻擊)的帳戶；希望從大量權益領取操作(例如，領取營銷紅包、獎勵金、優惠券等操作)中發現異常操作，從而防範惡意領取優惠權益的“黑產”操作，等等。然而，在許多情況下，異常樣本的標定非常耗費時間和人力，並且通常異常樣本的數量較少，這使得常規典型的有監督學習方法難以發揮作用。因此，提出了一些無監督的方式，試圖從大量樣本中檢測出異常樣本。無監督的異常檢測通常是基於樣本的分佈概率或密度估計，從統計意義上尋找出偏離多數常規樣本的那些離群樣本，作為異常樣本。然而，現有的無監督異常檢測模型，往往存在洩露訓練樣本的風險，以及因為過擬合造成的強健性不足，泛化能力不足的缺點。因此，希望能有改進的方案，能夠得到更為安全、更為有效的異常檢測模型。

本說明書一個或多個實施例描述了一種基於差分隱私的異常檢測模型的訓練方法，用以得到保護隱私且具有強健性的異常檢測模型。根據第一方面，提供了一種基於差分隱私的異常檢測模型的訓練方法，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；該方法包括：將訓練集中任意業務樣本對應的第一特徵向量輸入該自編碼網路，透過該編碼器輸出對該第一特徵向量降維的第二特徵向量，透過該解碼器輸出基於該第二特徵向量對該第一特徵向量進行復原的第三特徵向量；基於該第二特徵向量，建構評估向量，輸入該評估網路；獲取該評估網路輸出的該任意業務樣本屬於混合高斯分佈中K個子高斯分佈的子分佈概率；根據該訓練集中各個業務樣本對應的該評估向量和該子分佈概率，得到該任意業務樣本在該混合高斯分佈中的第一概率；確定該訓練集對應的預測損失，該預測損失與該各個業務樣本對應的該第一概率負相關，且與該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度負相關；利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，利用包含雜訊的梯度，調整該異常檢測模型的模型參數。在一個實施例中，該評估向量即為該第二特徵向量。在另一實施例中，評估向量透過以下方式建構：基於該第一特徵向量和該第三特徵向量，得到重構誤差向量；將該第二特徵向量和該重構誤差向量相組合，作為該評估向量。根據一種實施方式，第一概率透過以下方式確定得到：根據該各個業務樣本的該評估向量和該子分佈概率，確定該K個子高斯分佈中各個子高斯分佈的均值、協方差，以及該子高斯分佈在該K個子高斯分佈中的出現概率；根據各個子高斯分佈的均值、協方差和出現概率，重構該混合高斯分佈；將該任意業務樣本的評估向量代入重構的混合高斯分佈，得到該第一概率。在一個實施例中，確定該訓練集對應的預測損失的步驟可以包括：根據該各個業務樣本對應的該第一概率，確定第一損失項，該第一損失項與各個業務樣本的該第一概率負相關；根據該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度，確定第二損失項，該第二損失項與該相似度負相關；根據預設權重因子，對該第一損失項和第二損失項加權求和，得到該預測損失。根據一種實施方式，利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，具體可以包括：根據該預測損失，確定使得預測損失減小的原始梯度；基於預設的裁剪閾值，對該原始梯度進行裁剪，得到裁剪梯度；利用基於該裁剪閾值確定的高斯分佈，確定用於實現差分隱私的高斯雜訊，其中，該高斯分佈的方差與該裁剪閾值的平方正相關；將該高斯雜訊與該裁剪梯度疊加，得到該包含雜訊的梯度。在一個實施例中，透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第一原始梯度和第二原始梯度中分別添加雜訊，得到第一雜訊梯度和第二雜訊梯度；利用該第一雜訊梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。在另一實施例中，在透過梯度反向傳播，分別確定第一原始梯度和第二原始梯度的基礎上，利用差分隱私的方式，在該第二原始梯度中添加雜訊，得到第二雜訊梯度；利用該第一原始梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。在各個實施例中，該任意業務樣本可以包括以下之一：樣本用戶，樣本商戶，樣本事件。根據第二方面，提供了一種預測異常樣本的方法，包括：獲取根據第一方面的方法訓練得到的基於差分隱私的異常檢測模型，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；將待測的目標業務樣本對應的第一目標向量輸入該自編碼網路，透過該編碼器輸出對該第一目標向量降維的第二目標向量；基於該第二目標向量，建構目標評估向量；將該目標評估向量輸入該評估網路建構的混合高斯分佈中，得到該目標業務樣本在該混合高斯分佈中的目標概率；根據該目標概率，確定該目標業務樣本是否為異常樣本。根據第三方面，提供了一種基於差分隱私的異常檢測模型的訓練裝置，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；該裝置包括：第一輸入單元，配置為將訓練集中任意業務樣本對應的第一特徵向量輸入該自編碼網路，透過該編碼器輸出對該第一特徵向量降維的第二特徵向量，透過該解碼器輸出基於該第二特徵向量對該第一特徵向量進行復原的第三特徵向量；第二輸入單元，配置為基於該第二特徵向量，建構評估向量，輸入該評估網路；子分佈獲取單元，配置為獲取該評估網路輸出的該任意業務樣本屬於混合高斯分佈中K個子高斯分佈的子分佈概率；概率確定單元，配置為根據該訓練集中各個業務樣本對應的該評估向量和該子分佈概率，得到該任意業務樣本在該混合高斯分佈中的第一概率；損失確定單元，配置為確定該訓練集對應的預測損失，該預測損失與該各個業務樣本對應的該第一概率負相關，且與該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度負相關；參數調整單元，配置為利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，利用包含雜訊的梯度，調整該異常檢測模型的模型參數。根據第四方面，提供了一種預測異常樣本的裝置，包括：模型獲取單元，配置為獲取根據第三方面的裝置訓練得到的基於差分隱私的異常檢測模型，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；輸入單元，配置為將待測的目標業務樣本對應的第一目標向量輸入該自編碼網路，透過該編碼器輸出對該第一目標向量降維的第二目標向量；向量建構單元，配置為基於該第二目標向量，建構目標評估向量；概率確定單元，配置為將該目標評估向量輸入該評估網路建構的混合高斯分佈中，得到該目標業務樣本在該混合高斯分佈中的目標概率；異常判斷單元，配置為根據該目標概率，確定該目標業務樣本是否為異常樣本。根據第五方面，提供了一種電腦可讀取儲存媒體，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行第一方面或第二方面的方法。根據第六方面，提供了一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現第一方面或第二方面的方法。透過本說明書實施例提供的方法和裝置，透過差分隱私的梯度下降方式，在異常檢測模型中引入了差分隱私。如此得到的異常檢測模型，至少具有兩方面的優勢。其一，由於引入了差分隱私，難以基於公開的模型反推或識別出訓練樣本的資訊，為模型提供了隱私保護。此外，無監督的異常檢測模型的訓練過程，其目標是要擬合訓練樣本的分佈。常規訓練往往造成對一些樣本的過擬合的情況出現，特別是，訓練集中有時候也存在一些雜訊樣本，當模型針對這些雜訊樣本進行過擬合時，往往造成模型本身的預測性能的下降。而由於差分隱私的引入，在梯度中也添加了雜訊，這使得模型可以對抗雜訊樣本的影響，避免出現過擬合的情況，從而提高異常檢測模型的強健性和預測性能。

下面結合圖式，對本說明書提供的方案進行描述。圖1示出了根據本說明書技術構思的異常檢測模型的架構示意圖。如圖1所示，異常檢測模型整體上包括自編碼網路100和評估網路200，自編碼網路100包括編碼器110和解碼器120。編碼器110用於將輸入的業務樣本的高維特徵向量x編碼為低維向量z_c ，解碼器120基於該低維向量z_c ，輸出用於還原高維特徵向量x的解碼向量x’。經過訓練的自編碼網路，編碼器得到的低維向量z_c 可以很好地表徵原始高維特徵向量x的核心特徵，起到向量降維的作用。對樣本集中各個樣本的分佈統計基於降維後的低維向量z_c 而進行。具體的，可以將編碼器輸出的各個樣本的低維向量z_c 輸入評估網路200。根據本說明書的實施例，評估網路200為基於混合高斯分佈模型GMM(Gaussian Mixture Model)的網路，其假定多個樣本整體上服從混合高斯分佈，該混合高斯分佈為K個子高斯分佈的組合。於是，評估網路200可以針對各個樣本輸出其分別屬於K個子高斯分佈的子分佈概率。而多個樣本的子分佈概率整體，又可以用於重構上述混合高斯分佈，從而實現GMM無監督的訓練和學習。進一步的，為了增強模型的隱私安全性和強健性，可以在異常檢測模型，特別是在編碼器110中，引入差分隱私。具體的，可以透過在訓練過程中，採用基於差分隱私的梯度下降，在梯度中添加雜訊，從而獲得基於差分隱私的編碼器。如此，一方面保護隱私資料安全，避免從訓練得到的異常檢測模型中反推出訓練樣本，另一方面，差分隱私的引入，避免模型對於一些樣本(特別是本身就有雜訊干擾的樣本)產生過擬合，從而提高異常檢測模型的強健性。下面描述以上構思的具體實現過程。圖2示出根據一個實施例的基於差分隱私的異常檢測模型的訓練方法的流程圖。可以理解，該方法可以透過任何具有計算、處理能力的裝置、設備、平台、設備集群來執行。下面結合圖1所示的異常檢測模型的架構和圖2所示的方法流程，描述基於差分隱私的異常檢測模型的訓練過程。首先，在步驟21，將訓練集中任意的第一業務樣本對應的第一特徵向量x輸入自編碼網路，透過編碼器輸出對第一特徵向量x降維的第二特徵向量z_c ，以及透過解碼器輸出基於第二特徵向量z對第一特徵向量x進行復原的第三特徵向量x’。具體而言，訓練集可以是對業務樣本隨機採樣得到的樣本集，各個業務樣本並沒有人為打標的異常/正常的標注。在不同實施例中，業務樣本可以是樣本用戶，樣本商戶，樣本事件等等，其中樣本事件又可以包括，例如交易事件，登錄事件，購買事件，社交交互事件，等等。假定訓練集中包含N個業務樣本，上述第一業務樣本可以是其中任意一條業務樣本。取決於業務樣本的具體實例，第一特徵向量x可以包含不同的內容。例如，當業務樣本為用戶時，第一特徵向量x可以包含用戶的屬性特徵，例如年齡，性別，註冊時長，教育程度等基礎屬性特徵，以及例如最近瀏覽歷史，最近購物歷史等行為屬性特徵。又例如，當業務樣本為商戶時，第一特徵向量x可以包含商戶的屬性特徵，例如，商戶類別，註冊時長，商品數量，銷量，關注人數，等等。或者，在一個例子中，上述業務樣本為業務事件，例如登錄事件，相應的第一特徵向量x可以包括，登錄用戶的屬性特徵，登錄行為的行為特徵，登錄所使用的設備的設備特徵，等等。通常來說，為了更好地刻畫業務樣本，第一特徵向量x可以是維度較高的特徵向量，例如幾百維，甚至更高。高維向量為樣本分佈統計帶來一定的困難。因此，在本說明書的實施例中，採用自編碼網路對其進行降維。具體的，將上述第一特徵向量x輸入如圖1所示的編碼器110。編碼器110具體可以實現為多層感知機，各層神經元數目逐層遞減，在其輸出層得到第二特徵向量z_c ，又稱為編碼向量。編碼向量z_c 的維度d遠遠小於輸入的第一特徵向量x的維度D，從而實現對輸入向量的降維。例如，可以將幾百維的特徵向量x，壓縮為幾十維，甚至幾維的編碼向量z_c 。該編碼向量z_c 被進一步輸入到解碼器120。解碼器120結構與編碼器110對稱，其演算法和模型參數與編碼器110中對應關聯(例如為其逆運算)。因此，解碼器120可以根據該編碼向量z_c ，對第一特徵向量x進行還原，輸出第三特徵向量x’。可以理解，編碼向量z_c 對第一特徵向量x進行了降維，該降維操作的資訊損失越小，或者說，降維後的編碼向量z_c 資訊含量越高，越容易還原出輸入的特徵向量x，即第一特徵向量x和還原的第三特徵向量x’之間的相似度越高。這一性質可以在後續用於訓練自編碼網路。接下來，在步驟22，基於上述降維得到的第二特徵向量z_c ，建構評估向量z，輸入到評估網路。在一個實施例中，可以直接將第二特徵向量z_c 作為評估向量z，輸入圖1的評估網路200。在另一實施例中，可以基於上述第一特徵向量x和還原的第三特徵向量x’，得到重構誤差向量z_r ，然後將第二特徵向量z_c 和該重構誤差向量z_r 相組合，作為評估向量z。這一過程可以表示為：

其中，上述公式(1)中的f表示計算重構誤差向量z_r 的函數。在不同例子中，函數f可以是，計算第一特徵向量x和第三特徵向量x’的絕對歐式距離，相對歐氏距離，餘弦相似度，等等。公式(2)中將第二特徵向量z_c 和重構誤差向量z_r 相組合，可以包括，拼接，求和，加權求和等等。透過以上各種方式，可以得到評估向量z，該評估向量z的維度遠小於原始的第一特徵向量x。然後，將該評估向量z輸入評估網路200。如前所述，評估網路200基於混合高斯分佈模型GMM。根據GMM，假定樣本分佈服從混合高斯分佈，該混合高斯分佈可以分解為K個子高斯分佈的組合。當將第一業務樣本對應的評估向量z輸入評估網路200，在步驟23，評估網路200可以基於該評估向量z，輸出該第一業務樣本分別在K個子高斯分佈中的子分佈概率

，其中

為K維向量，其中第k個元素為該第一業務樣本在第k子高斯分佈中的概率。在一個例子中，上述子分佈概率

為使用softmax函數歸一化後的分佈概率，其中K個元素之和為1。可以理解，以上第一業務樣本為訓練集所包含的N個樣本中任意的一個。對於N個樣本中的每個樣本i，均可以透過上述步驟21-23，得到其評估向量z_i 和子分佈概率

。於是，在步驟24，可以根據訓練集的N個樣本中各個業務樣本對應的評估向量和子分佈概率，重構該混合高斯分佈，進而得到上述第一業務樣本在混合高斯分佈中的第一概率。在一個實施例中，可以首先根據各個業務樣本i的評估向量z_i 和對應的子分佈概率

，確定K個子高斯分佈中任意的第k子高斯分佈的出現概率、均值和協方差，其中出現概率為該第k子高斯分佈在K個子高斯分佈中的出現概率。具體的，在一個例子中，可以透過以下公式(3)確定第k子高斯分佈在K個子高斯分佈中的出現概率

：

其中，

表示N個樣本中的樣本i在第k子高斯分佈中的概率，換而言之，其為樣本i對應的子分佈概率向量

中的第k個元素。透過對N個樣本在第k子高斯分佈中的概率求和，得到第k子高斯分佈在K個子高斯分佈中的出現概率

。根據高斯分佈的均值和協方差的定義，可以透過以下公式(4)確定第k子高斯分佈的均值

，透過以下公式(5)確定第k子高斯分佈的協方差

：

以上公式(4)和(5)中，

表示N個樣本中的樣本i在第k子高斯分佈中的概率，z_i 為樣本i的評估向量。如此，基於訓練集中N個樣本各自的評估向量和子分佈概率，得到各個子高斯分佈的出現概率，均值和協方差。透過各個子高斯分佈的均值和協方差，可以重構各個子高斯分佈；進一步結合各個子高斯分佈的出現概率，可以重構得到混合高斯分佈。具體的，混合高斯分佈可以是，以出現概率為權重，將各個子高斯分佈組合在一起得到的總分佈。基於重構的混合高斯分佈，可以得到上述第一業務樣本在混合高斯分佈中的第一概率P：

也就是，將第一業務樣本的評估向量z，代入混合高斯分佈中，即得到上述第一概率P。接著，在步驟25，根據解碼器對訓練集中各個樣本輸出的第三特徵向量對第一特徵向量的還原度，以及如上方式得到的各個樣本的第一概率，確定訓練集對應的預測損失L，該預測損失L與各個業務樣本對應的第一概率P負相關，且與各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度負相關。具體的，在一個實施例中，可以根據各個樣本的第一概率，確定第一損失項L1，該第一損失項L1與各個樣本的第一概率負相關。例如，設定上述任意的第一業務樣本對應的概率損失為E(z)(或者稱為樣本能量)，該概率損失E(z)負相關於該樣本對應的第一概率P。例如，在一個例子中： E(z)=-logP，即：

如此，第一損失項L1可以是N個樣本的概率損失之和或均值，例如：

需要理解，以上先基於各個樣本在各個子高斯分佈中的子分佈概率重構了混合高斯分佈，然後又得到各個樣本在重構的混合高斯分佈中的概率，因此，上述N個樣本的第一概率整體，可以反映混合高斯分佈對該N個樣本分佈的擬合狀況，該第一損失項L1實際上對應於，N個樣本整體擬合混合高斯分佈的擬合損失。另一方面，可以根據各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度，確定第二損失項L2，該第二損失項L2與相似度負相關。例如，設定上述任意的第一業務樣本對應的向量重構損失為Lr(x,x’)，該向量重構損失負相關於x與x’之間的相似度，即，x與x’越相似，Lr值越小。兩個向量之間的相似度可以透過多種方式計算和衡量，例如餘弦相似度，歐式距離等等。如此，第二損失項L2可以是N個樣本的向量重構損失之和或均值，例如：

然後，根據預設權重因子，對上述第一損失項L1和第二損失項L2加權求和，得到訓練集的總預測損失L。在一個例子中，預測損失L可以寫為：

其中，

為權重因子，可以為超參數。在另一實施例中，還可以將預測損失L設置為：

公式(11)中，

和

為權重因子，最後一項用於表示對協方差矩陣

的對角元素的操作函數，用於防止該矩陣不可逆。如此，透過以上方式，得到了針對訓練集的預測損失。接下來，可以基於該預測損失，確定使得損失減小的模型參數梯度，用以對模型參數進行更新和調優。創新性的，在本說明書的實施例中，在步驟26，根據以上預測損失得到原始梯度的基礎上，利用差分隱私的方式，在原始梯度上添加雜訊，利用包含雜訊的梯度，調整該異常檢測模型的模型參數。差分隱私(differential privacy)是密碼學中的一種手段，旨在提供一種當從統計資料庫查詢時，最大化資料查詢的準確性，同時最大限度減少識別其記錄的機會。設有隨機演算法M，PM為M所有可能的輸出構成的集合。對於任意兩個鄰近資料集D和D＇以及PM的任何子集SM，若隨機演算法M滿足：Pr[M(D)∈SM]＜=e^ε ×Pr[M(D＇)∈SM]，則稱演算法M提供ε-差分隱私保護，其中參數ε稱為隱私保護預算，用於平衡隱私保護程度和準確度。ε通常可以預先設定。ε越接近0，e^ε 越接近1，隨機演算法對兩個鄰近資料集D和D＇的處理結果越接近，隱私保護程度越強。差分隱私的實現方式包括，雜訊機制、指數機制等。為了在模型中引入差分隱私，根據本說明書的實施例，在此利用雜訊機制，透過在參數梯度中添加雜訊的方式，實現差分隱私。根據雜訊機制，雜訊可以體現為拉普拉斯雜訊，高斯雜訊，等等。根據一個實施例，在該步驟26中，透過在梯度中添加高斯雜訊，實現差分隱私。具體過程可以包括如下步驟。首先，可以根據前述預測損失L，確定使得預測損失減小的原始梯度；然後，基於預設的裁剪閾值，對原始梯度進行裁剪，得到裁剪梯度；接著，利用基於裁剪閾值確定的高斯分佈，確定用於實現差分隱私的高斯雜訊，其中，高斯分佈的方差與裁剪閾值的平方正相關；然後，將由此得到的高斯雜訊與前述裁剪梯度疊加，得到包含雜訊的梯度。更具體的，作為一個示例，假設針對上述訓練集，得到的原始梯度為：

其中，

表示當前為第

輪次的迭代訓練，

表示當前輪次使用的訓練集，

表示針對該批訓練集得到的損失梯度，

表示第

輪訓練開始時的模型參數，

表示前述預測損失。如前所述，對上述原始梯度添加實現差分隱私的雜訊，可以透過諸如拉普拉斯雜訊、高斯雜訊等方式實現。在一個實施例中，以高斯雜訊為例，可以基於預設的裁剪閾值，對原始梯度進行梯度裁剪，得到裁剪梯度，再基於該裁剪閾值和預定的雜訊縮放係數(預先設定的超參)，確定用於實現差分隱私的高斯雜訊，然後將裁剪梯度與高斯雜訊融合(例如求和)，得到包含雜訊的梯度。可以理解的是，此種方式一方面對原始梯度進行裁剪，另一方面將裁剪後的梯度疊加，從而對梯度進行滿足高斯雜訊的差分隱私處理。例如，將原始梯度進行梯度裁剪為：

其中，

表示裁剪後的梯度，

表示裁剪閾值，

表示

的二階範數。也就是說，在梯度小於或等於裁剪閾值

的情況下，保留原始梯度，而梯度大於裁剪閾值

的情況下，將原始梯度按照大於裁剪閾值

的比例裁剪到相應大小。為裁剪後的梯度添加高斯雜訊，得到包含雜訊的梯度，例如為：

其中，

表示包含雜訊的梯度；

表示概率密度符合以0為均值、

為方差的高斯分佈的高斯雜訊；

表示上述雜訊縮放係數，為預先設定的超參，可以按需設定；

為上述裁剪閾值；

表示指示函數，可以取0或1，比如，可以設定在多輪訓練中的偶數輪次取1，而奇數輪次取0。於是，可以使用添加高斯雜訊後的梯度，以最小化前述預測損失L為目標，將模型參數調整為：

其中，

表示學習步長，或者說學習率，為預先設定的超參數，例如為0.5、0.3等；

表示經過第

輪訓練得到的調整後模型參數。在梯度添加高斯雜訊滿足差分隱私的情況下，模型參數的調整滿足差分隱私。以上描述了在梯度中添加雜訊，以及根據含有雜訊的梯度更新模型參數的實現方式。另一方面，如圖1所示，本方案中的異常檢測模型包含自編碼網路和評估網路，相應的，模型參數可以劃分為自編碼網路參數和評估網路參數，這兩部分參數分別根據對應的梯度進行更新。通常，在透過多層神經網路實現的模型中，梯度一般透過反向傳播來逐層確定。因此，在如圖1所示的異常檢測模型中，在根據模型輸出得到預測損失後，透過梯度反向傳播，首先確定出評估網路對應的第一原始梯度，然後繼續回傳，確定出自編碼網路對應的第二原始梯度。在基於差分隱私對梯度添加雜訊時，可以從第一原始梯度開始就添加雜訊，也可以僅針對第二原始梯度添加雜訊。具體的，在一個實施例中，在分別確定出對應於評估網路的第一原始梯度，和對應於自編碼網路的第二原始梯度基礎上，利用差分隱私的方式，在第一原始梯度和第二原始梯度中分別添加雜訊，得到第一雜訊梯度和第二雜訊梯度。然後，利用第一雜訊梯度，調整評估網路的參數；利用第二雜訊梯度，調整自編碼網路的參數。如此，在整個異常檢測模型中引入差分隱私。在另一實施例中，在分別確定出對應於評估網路的第一原始梯度，和對應於自編碼網路的第二原始梯度基礎上，利用差分隱私的方式，在第二原始梯度中添加雜訊，得到第二雜訊梯度。然後，利用第一原始梯度，調整評估網路的參數；利用第二雜訊梯度，調整自編碼網路的參數。對自編碼器網路的模型參數進行調整的核心是調整編碼器的模型參數，因為解碼器的參數與編碼器相對應關聯。如此，在編碼器中引入了差分隱私。需要理解，在正向對業務樣本進行處理時，編碼器位於整個網路模型的最上游。在編碼器中引入差分隱私，就使得後續處理均具有差分隱私的特性，同樣可以起到使得整個異常檢測模型具有差分隱私特性的效果。如此，透過差分隱私的梯度下降方式，在異常檢測模型中引入了差分隱私。如此得到的異常檢測模型，至少具有兩方面的優勢。其一，由於引入了差分隱私，難以基於公開的模型反推或識別出訓練樣本的資訊，為模型提供了隱私保護。此外，無監督的異常檢測模型的訓練過程，其目標是要擬合訓練樣本的分佈。常規訓練往往造成對一些樣本的過擬合的情況出現，特別是，訓練集中有時候也存在一些雜訊樣本，當模型針對這些雜訊樣本進行過擬合時，往往造成模型本身的預測性能的下降。而由於差分隱私的引入，在梯度中也添加了雜訊，這使得模型可以對抗雜訊樣本的影響，避免出現過擬合的情況，從而提高異常檢測模型的強健性和預測性能。利用以上訓練方式得到的基於差分隱私的異常檢測模型，就可以對待測的目標樣本進行異常檢測了。圖3示出在一個實施例對業務樣本進行異常檢測的方法流程圖。類似的，該方法可以透過任何具有計算、處理能力的裝置、設備、平台、設備集群來執行。如圖3所示，在步驟31，首先獲取根據以上方式訓練得到的基於差分隱私的異常檢測模型。如圖1所示，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器。透過前述的訓練過程，評估網路已建構出可以較好的擬合業務樣本分佈的混合高斯模型。並且，該異常檢測模型是引入有差分隱私的模型。更具體的，至少其中的編碼器具有差分隱私的特性。在步驟32，將待測的目標業務樣本對應的第一目標向量x_t 輸入該自編碼網路，透過編碼器輸出對第一目標向量降維的第二目標向量。這一過程與圖2的步驟21相似，不復贅述。然後在步驟33，基於該第二目標向量，建構目標評估向量z_t 。需要理解，目標評估向量的建構方式與訓練階段相對應。在一種情況下，直接將第二目標向量作為目標評估向量。在另一種情況下，獲取解碼器輸出的第三目標向量x’_t ；基於第一目標向量x_t 和第三目標向量x’_t ，得到重構誤差向量；然後將第二目標向量和重構誤差向量相組合，作為目標評估向量z_t 。接著，在步驟34，將目標評估向量z_t 輸入評估網路建構的混合高斯分佈中，得到該目標業務樣本在該混合高斯分佈中的目標概率。具體的，可以直接將目標評估向量z_t 代入前述公式(6)中，其中混合高斯分佈的參數為評估網路透過訓練過程確定好的參數。於是，在步驟35，根據該目標概率，確定目標業務樣本是否為異常樣本。具體的，可以將目標概率與預先設定的概率閾值進行比較，當小於該概率閾值時，則認為當前的目標業務樣本為異常樣本。在另一例子中，也可以將目標概率進一步代入前述公式(7)中(或者也可以認為是直接將目標評估向量直接代入該公式(7)中)，得到該業務樣本的概率損失E(z_t )。當該概率損失大於一定閾值，認為當前的目標業務樣本為異常樣本。如此，實現了業務樣本的異常檢測。根據另一方面的實施例，還提供一種基於差分隱私的異常檢測模型的訓練裝置，該裝置可以部署在任何具有計算、處理能力的裝置、設備、平台、設備集群中。圖4示出根據一個實施例的異常檢測模型的訓練裝置的示意性方塊圖。如圖4所示，訓練裝置400包括：第一輸入單元41，配置為將訓練集中任意業務樣本對應的第一特徵向量輸入該自編碼網路，透過該編碼器輸出對該第一特徵向量降維的第二特徵向量，透過該解碼器輸出基於該第二特徵向量對該第一特徵向量進行復原的第三特徵向量；第二輸入單元42，配置為基於該第二特徵向量，建構評估向量，輸入該評估網路；子分佈獲取單元43，配置為獲取該評估網路輸出的該任意業務樣本屬於混合高斯分佈中K個子高斯分佈的子分佈概率；概率確定單元44，配置為根據該訓練集中各個業務樣本對應的該評估向量和該子分佈概率，得到該任意業務樣本在該混合高斯分佈中的第一概率；損失確定單元45，配置為確定該訓練集對應的預測損失，該預測損失與該各個業務樣本對應的該第一概率負相關，且與該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度負相關；參數調整單元46，配置為利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，利用包含雜訊的梯度，調整該異常檢測模型的模型參數。在一個實施例中，第二輸入單元42配置為：將該第二特徵向量作為該評估向量。在另一實施例中，第二輸入單元42配置為：基於該第一特徵向量和該第三特徵向量，得到重構誤差向量；將該第二特徵向量和該重構誤差向量相組合，作為該評估向量。根據一種實施方式，概率確定單元44配置為：根據該各個業務樣本的該評估向量和該子分佈概率，確定該K個子高斯分佈中各個子高斯分佈的均值、協方差，以及該子高斯分佈在該K個子高斯分佈中的出現概率；根據各個子高斯分佈的均值、協方差和出現概率，重構該混合高斯分佈；將該任意業務樣本的評估向量代入重構的混合高斯分佈，得到該第一概率。在一個實施例中，該損失確定單元45配置為：根據該各個業務樣本對應的該第一概率，確定第一損失項，該第一損失項與各個業務樣本的該第一概率負相關；根據該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度，確定第二損失項，該第二損失項與該相似度負相關；根據預設權重因子，對該第一損失項和第二損失項加權求和，得到該預測損失。根據一種實施方式，該參數調整單元46配置為：根據該預測損失，確定使得預測損失減小的原始梯度；基於預設的裁剪閾值，對該原始梯度進行裁剪，得到裁剪梯度；利用基於該裁剪閾值確定的高斯分佈，確定用於實現差分隱私的高斯雜訊，其中，該高斯分佈的方差與該裁剪閾值的平方正相關；將該高斯雜訊與該裁剪梯度疊加，得到該包含雜訊的梯度。在一個實施例中，該參數調整單元46可以配置為：透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第一原始梯度和第二原始梯度中分別添加雜訊，得到第一雜訊梯度和第二雜訊梯度；利用該第一雜訊梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。在另一實施例中，該參數調整單元46可以配置為：透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第二原始梯度中添加雜訊，得到第二雜訊梯度；利用該第一原始梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。在不同實施例中，業務樣本可以包括以下之一：樣本用戶，樣本商戶，樣本事件。值得說明的是，圖4所示的裝置400是與圖2示出的方法實施例相對應的裝置實施例，圖2示出的方法實施例中的相應描述同樣適用於裝置400，在此不再贅述。根據另一方面的實施例，還提供一種預測異常樣本的裝置，該裝置可以部署在任何具有計算、處理能力的裝置、設備、平台、設備集群中。圖5示出根據一個實施例的預測異常樣本的裝置的示意性方塊圖。如圖5所示，預測裝置500包括：模型獲取單元51，配置為獲取根據圖4的裝置訓練得到的基於差分隱私的異常檢測模型，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；輸入單元52，配置為將待測的目標業務樣本對應的第一目標向量輸入該自編碼網路，透過該編碼器輸出對該第一目標向量降維的第二目標向量；向量建構單元53，配置為基於該第二目標向量，建構目標評估向量；概率確定單元54，配置為將該目標評估向量輸入該評估網路建構的混合高斯分佈中，得到該目標業務樣本在該混合高斯分佈中的目標概率；異常判斷單元55，配置為根據該目標概率，確定該目標業務樣本是否為異常樣本。在一個實施例中，上述向量建構單元53具體配置為：獲取該解碼器輸出的第三目標向量；基於該第一目標向量和第三目標向量，得到重構誤差向量；將該第二目標向量和該重構誤差向量相組合，作為該目標評估向量。根據又一方面的實施例，還提供一種電腦可讀取儲存媒體，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行結合圖2所描述的方法。根據再一方面的實施例，還提供一種計算設備，包括記憶體和處理器，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現結合圖2所述的方法。本領域技術人員應該可以意識到，在上述一個或多個示例中，本說明書實施例所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀取媒體中或者作為電腦可讀取媒體上的一個或多個指令或代碼進行傳輸。以上所述的具體實施方式，對本說明書的技術構思的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本說明書的技術構思的具體實施方式而已，並不用於限定本說明書的技術構思的保護範圍，凡在本說明書實施例的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本說明書的技術構思的保護範圍之內。

21~26,31~35:步驟 100:自編碼網路 110:編碼器 120:解碼器 200:評估網路 400:訓練裝置 41:第一輸入單元 42:第二輸入單元 43:子分佈獲取單元 44:概率確定單元 45:損失確定單元 46:參數調整單元 500:預測裝置 51:模型獲取單元 52:輸入單元 53:向量建構單元 54:概率確定單元 55:異常判斷單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。 [圖1]示出了根據本說明書技術構思的異常檢測模型的架構示意圖； [圖2]示出根據一個實施例的基於差分隱私的異常檢測模型的訓練方法的流程圖； [圖3]示出在一個實施例對業務樣本進行異常檢測的方法流程圖； [圖4]示出根據一個實施例的異常檢測模型的訓練裝置的示意性方塊圖； [圖5]示出根據一個實施例的預測異常樣本的裝置的示意性方塊圖。

100:自編碼網路

110:編碼器

120:解碼器

200:評估網路

Claims

一種基於差分隱私的異常檢測模型的訓練方法，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；該方法包括：將訓練集中任意業務樣本對應的第一特徵向量輸入該自編碼網路，透過該編碼器輸出對該第一特徵向量降維的第二特徵向量，透過該解碼器輸出基於該第二特徵向量對該第一特徵向量進行復原的第三特徵向量；基於該第二特徵向量，建構評估向量，輸入該評估網路；獲取該評估網路輸出的該任意業務樣本屬於混合高斯分佈中K個子高斯分佈的子分佈概率；根據該訓練集中各個業務樣本對應的該評估向量和該子分佈概率，得到該任意業務樣本在該混合高斯分佈中的第一概率；確定該訓練集對應的預測損失，該預測損失與該各個業務樣本對應的該第一概率負相關，且與該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度負相關；利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，利用包含雜訊的梯度，調整該異常檢測模型的模型參數。
根據請求項1所述的方法，其中，基於該第二特徵向量，建構評估向量，包括：將該第二特徵向量作為該評估向量。
根據請求項1所述的方法，其中，基於該第二特徵向量，建構評估向量，包括：基於該第一特徵向量和該第三特徵向量，得到重構誤差向量；將該第二特徵向量和該重構誤差向量相組合，作為該評估向量。
根據請求項1所述的方法，其中，根據該訓練集中各個業務樣本對應的該評估向量和該子分佈概率，得到該任意業務樣本在該混合高斯分佈中的第一概率，包括：根據該各個業務樣本的該評估向量和該子分佈概率，確定該K個子高斯分佈中各個子高斯分佈的均值、協方差，以及該子高斯分佈在該K個子高斯分佈中的出現概率；根據各個子高斯分佈的均值、協方差和出現概率，重構該混合高斯分佈；將該任意業務樣本的評估向量代入重構的混合高斯分佈，得到該第一概率。
根據請求項1所述的方法，其中，確定該訓練集對應的預測損失，包括：根據該各個業務樣本對應的該第一概率，確定第一損失項，該第一損失項與各個業務樣本的該第一概率負相關；根據該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度，確定第二損失項，該第二損失項與該相似度負相關；根據預設權重因子，對該第一損失項和第二損失項加權求和，得到該預測損失。
根據請求項1所述的方法，其中，利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，包括：根據該預測損失，確定使得預測損失減小的原始梯度；基於預設的裁剪閾值，對該原始梯度進行裁剪，得到裁剪梯度；利用基於該裁剪閾值確定的高斯分佈，確定用於實現差分隱私的高斯雜訊，其中，該高斯分佈的方差與該裁剪閾值的平方正相關；將該高斯雜訊與該裁剪梯度疊加，得到該包含雜訊的梯度。
根據請求項1所述的方法，其中，利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，包括：透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第一原始梯度和第二原始梯度中分別添加雜訊，得到第一雜訊梯度和第二雜訊梯度；利用包含雜訊的梯度，調整該異常樣本檢測模型的模型參數，包括：利用該第一雜訊梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。
根據請求項1所述的方法，其中，利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，包括：透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第二原始梯度中添加雜訊，得到第二雜訊梯度；利用包含雜訊的梯度，調整該異常樣本檢測模型的模型參數，包括：利用該第一原始梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。
根據請求項1所述的方法，其中，該任意業務樣本包括以下之一：樣本用戶，樣本商戶，樣本事件。
一種預測異常樣本的方法，包括：獲取根據請求項1的方法訓練得到的基於差分隱私的異常檢測模型，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；將待測的目標業務樣本對應的第一目標向量輸入該自編碼網路，透過該編碼器輸出對該第一目標向量降維的第二目標向量；基於該第二目標向量，建構目標評估向量；將該目標評估向量輸入該評估網路建構的混合高斯分佈中，得到該目標業務樣本在該混合高斯分佈中的目標概率；根據該目標概率，確定該目標業務樣本是否為異常樣本。
根據請求項10所述的方法，其中，基於該第二目標向量，建構目標評估向量，包括：獲取該解碼器輸出的第三目標向量；基於該第一目標向量和第三目標向量，得到重構誤差向量；將該第二目標向量和該重構誤差向量相組合，作為該目標評估向量。
一種基於差分隱私的異常檢測模型的訓練裝置，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；該裝置包括：第一輸入單元，配置為將訓練集中任意業務樣本對應的第一特徵向量輸入該自編碼網路，透過該編碼器輸出對該第一特徵向量降維的第二特徵向量，透過該解碼器輸出基於該第二特徵向量對該第一特徵向量進行復原的第三特徵向量；第二輸入單元，配置為基於該第二特徵向量，建構評估向量，輸入該評估網路；子分佈獲取單元，配置為獲取該評估網路輸出的該任意業務樣本屬於混合高斯分佈中K個子高斯分佈的子分佈概率；概率確定單元，配置為根據該訓練集中各個業務樣本對應的該評估向量和該子分佈概率，得到該任意業務樣本在該混合高斯分佈中的第一概率；損失確定單元，配置為確定該訓練集對應的預測損失，該預測損失與該各個業務樣本對應的該第一概率負相關，且與該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度負相關；參數調整單元，配置為利用差分隱私的方式，在基於該預測損失得到的原始梯度上添加雜訊，利用包含雜訊的梯度，調整該異常檢測模型的模型參數。
根據請求項12所述的裝置，其中，第二輸入單元配置為：將該第二特徵向量作為該評估向量。
根據請求項12所述的裝置，其中，第二輸入單元配置為：基於該第一特徵向量和該第三特徵向量，得到重構誤差向量；將該第二特徵向量和該重構誤差向量相組合，作為該評估向量。
根據請求項12所述的裝置，其中，該概率確定單元配置為：根據該各個業務樣本的該評估向量和該子分佈概率，確定該K個子高斯分佈中各個子高斯分佈的均值、協方差，以及該子高斯分佈在該K個子高斯分佈中的出現概率；根據各個子高斯分佈的均值、協方差和出現概率，重構該混合高斯分佈；將該任意業務樣本的評估向量代入重構的混合高斯分佈，得到該第一概率。
根據請求項12所述的裝置，其中，該損失確定單元配置為：根據該各個業務樣本對應的該第一概率，確定第一損失項，該第一損失項與各個業務樣本的該第一概率負相關；根據該各個業務樣本對應的第一特徵向量和第三特徵向量之間的相似度，確定第二損失項，該第二損失項與該相似度負相關；根據預設權重因子，對該第一損失項和第二損失項加權求和，得到該預測損失。
根據請求項12所述的裝置，其中，該參數調整單元配置為：根據該預測損失，確定使得預測損失減小的原始梯度；基於預設的裁剪閾值，對該原始梯度進行裁剪，得到裁剪梯度；利用基於該裁剪閾值確定的高斯分佈，確定用於實現差分隱私的高斯雜訊，其中，該高斯分佈的方差與該裁剪閾值的平方正相關；將該高斯雜訊與該裁剪梯度疊加，得到該包含雜訊的梯度。
根據請求項12所述的裝置，其中，該參數調整單元配置為：透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第一原始梯度和第二原始梯度中分別添加雜訊，得到第一雜訊梯度和第二雜訊梯度；利用該第一雜訊梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。
根據請求項12所述的裝置，其中，該參數調整單元配置為：透過梯度反向傳播，分別確定對應於該評估網路的第一原始梯度，和對應於該自編碼網路的第二原始梯度；利用差分隱私的方式，在該第二原始梯度中添加雜訊，得到第二雜訊梯度；利用該第一原始梯度，調整該評估網路的參數；利用該第二雜訊梯度，調整該自編碼網路的參數。
根據請求項12所述的裝置法，其中，該任意業務樣本包括以下之一：樣本用戶，樣本商戶，樣本事件。
一種預測異常樣本的裝置，包括：模型獲取單元，配置為獲取根據請求項12的裝置訓練得到的基於差分隱私的異常檢測模型，該異常檢測模型包括自編碼網路和評估網路，該自編碼網路包括編碼器和解碼器；輸入單元，配置為將待測的目標業務樣本對應的第一目標向量輸入該自編碼網路，透過該編碼器輸出對該第一目標向量降維的第二目標向量；向量建構單元，配置為基於該第二目標向量，建構目標評估向量；概率確定單元，配置為將該目標評估向量輸入該評估網路建構的混合高斯分佈中，得到該目標業務樣本在該混合高斯分佈中的目標概率；異常判斷單元，配置為根據該目標概率，確定該目標業務樣本是否為異常樣本。
根據請求項21所述的裝置，其中，該向量建構單元配置為：獲取該解碼器輸出的第三目標向量；基於該第一目標向量和第三目標向量，得到重構誤差向量；將該第二目標向量和該重構誤差向量相組合，作為該目標評估向量。
一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現請求項1-11中任一項所述的方法。