TWI761151B

TWI761151B - 基於差分隱私的資料生成系統的訓練方法及裝置

Info

Publication number: TWI761151B
Application number: TW110110849A
Authority: TW
Inventors: 濤熊
Original assignee: 大陸商支付寶（杭州）信息技術有限公司
Priority date: 2020-05-06
Filing date: 2021-03-25
Publication date: 2022-04-11
Also published as: TW202143118A; CN111523668A; CN113642731B; CN113642731A; CN111523668B; WO2021223663A1

Abstract

本說明書實施例提供一種基於差分隱私的資料生成系統的訓練方法和裝置，該資料生成系統包括自編碼網路和判別器，方法包括，將真實樣本輸入自編碼網路，得到復原樣本；根據真實樣本和復原樣本的比對，確定樣本重構損失。此外，通過自編碼網路生成合成樣本。將真實樣本和合成樣本分別輸入判別器，得到其分別屬於真實樣本的第一概率和第二概率。針對判別器，以減小第一損失為目標，以差分隱私的方式在梯度上添加雜訊，以調整判別器參數，其中第一損失負相關於第一概率，正相關於第二概率。針對自編碼網路，以減小第二損失為目標，在梯度上添加雜訊，以調整自編碼網路參數，其中第二損失與樣本重構損失正相關，與第一損失負相關。

Description

基於差分隱私的資料生成系統的訓練方法及裝置

本說明書一個或多個實施例涉及電腦技術領域，尤其涉及通過電腦執行的基於差分隱私的資料生成系統的訓練方法和裝置。

隨著電腦技術的發展，存在大量自動進行資料合成的需求。例如，在圖片識別的場景下，需要自動生成或合成大量圖片，以進行機器學習；在例如智能客服的場景下，需要自動生成對話文本。在一種情況下，在展示基於用戶樣本資料的研究結果時，出於保護用戶隱私的目的，則需要合成一些類比用戶樣本資料替代真實用戶資料進行展示。在其他情況下，還可能需要自動生成諸如音訊等其他格式的合成資料。為此，試圖通過機器學習的方式，訓練得到一些生成模型來自動進行資料生成。例如，在一種方式中，訓練一個生成對抗網路(GAN，Generative Adversarial Networks)，利用其中的生成模型來進行資料合成。然而，常規的GAN訓練方式，一方面生成模型的生成效果有待進一步提高，另一方面，容易受到攻擊，難以保證資料的隱私安全。因此，希望能有改進的方案，能夠得到更為安全、更為有效的資料生成系統。

本說明書一個或多個實施例描述了一種基於差分隱私的資料生成系統的訓練方法，用以得到保護隱私且更為有效的資料生成系統。根據第一態樣，提供了一種基於差分隱私的資料生成系統的訓練方法，所述資料生成系統包括自編碼網路和判別器，所述方法包括：將第一真實樣本輸入所述自編碼網路，得到第一復原樣本；根據所述第一真實樣本和所述第一復原樣本的比對，確定樣本重構損失；通過所述自編碼網路生成第一合成樣本；將第一真實樣本輸入所述判別器，得到其屬於真實樣本的第一概率；以及，將所述第一合成樣本輸入所述判別器，得到其屬於真實樣本的第二概率；針對所述判別器對應的第一參數，利用差分隱私的方式，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，其中所述第一預測損失負相關於所述第一概率，正相關於所述第二概率；針對所述自編碼網路對應的第二參數，利用差分隱私的方式，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，其中所述第二預測損失與所述樣本重構損失正相關，與所述第一概率正相關，且與所述第二概率負相關。根據一種實施方式，自編碼網路包括編碼器，生成器和解碼器；在這樣的情況下，將第一真實樣本輸入所述自編碼網路，得到第一復原樣本，具體包括：將所述第一真實樣本對應的第一原始向量輸入所述編碼器，得到降維到第一表徵空間的第一特徵向量；將所述第一特徵向量輸入所述解碼器，得到所述第一復原樣本；通過所述自編碼網路生成第一合成樣本，具體包括：通過所述生成器生成在所述第一表徵空間中的第二特徵向量；將所述第二特徵向量輸入所述解碼器，得到所述第一合成資料。進一步的，在一個實施例中，所述編碼器可以實現為第一多層感知機，其各層神經元數目逐層遞減；所述解碼器可以實現為第二多層感知機，其各層神經元數目逐層遞增。根據一種實施方式，通過以下方式確定樣本重構損失：確定第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離；將所述樣本重構損失確定為，正相關於所述向量距離。在一個實施例中，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，具體包括：針對所述第一參數，確定使得所述第一預測損失減小的第一原始梯度；基於預設的第一裁剪閾值，對所述第一原始梯度進行裁剪，得到第一裁剪梯度；利用基於所述第一裁剪閾值確定的第一高斯分佈，確定用於實現差分隱私的第一高斯雜訊；將所述第一高斯雜訊與所述第一裁剪梯度疊加，得到所述第一雜訊梯度。在一個實施例中，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，具體包括：針對所述第二參數，確定使得所述第二預測損失減小的第二原始梯度；基於預設的第二裁剪閾值，對所述第二原始梯度進行裁剪，得到第二裁剪梯度；利用基於所述第二裁剪閾值確定的第二高斯分佈，確定用於實現差分隱私的第二高斯雜訊；將所述第二高斯雜訊與所述第二裁剪梯度疊加，得到所述第二雜訊梯度。進一步的，所述第二參數可以劃分為包括，編碼器參數，生成器參數和解碼器參數；在一個實施例中，可以通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊，得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四雜訊梯度，調整所述編碼器參數；利用所述第五雜訊梯度，調整所述生成器參數。在另一實施例中，在通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度後，利用差分隱私的方式，在所述第三原始梯度中添加雜訊，得到對應的第三雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四原始梯度，調整所述編碼器參數；利用所述第五原始梯度，調整所述生成器參數。在各種實施例中，第一真實樣本可以是圖片樣本，音訊樣本，文本樣本，或業務物件樣本。根據第二態樣，提供了一種基於差分隱私的資料生成系統的訓練裝置，所述資料生成系統包括自編碼網路和判別器，所述裝置包括：復原樣本獲取單元，配置為將第一真實樣本輸入所述自編碼網路，得到第一復原樣本；重構損失確定單元，配置為根據所述第一真實樣本和所述第一復原樣本的比對，確定樣本重構損失；合成樣本獲取單元，配置為通過所述自編碼網路生成第一合成樣本；概率獲取單元，配置為將第一真實樣本輸入所述判別器，得到其屬於真實樣本的第一概率；以及，將所述第一合成樣本輸入所述判別器，得到其屬於真實樣本的第二概率；第一參數調整單元，配置為針對所述判別器對應的第一參數，利用差分隱私的方式，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，其中所述第一預測損失負相關於所述第一概率，正相關於所述第二概率；第二參數調整單元，配置為針對所述自編碼網路對應的第二參數，利用差分隱私的方式，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，其中所述第二預測損失與所述樣本重構損失正相關，與所述第一概率正相關，且與所述第二概率負相關。根據第三態樣，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行第一態樣的方法。根據第四態樣，提供了一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現第一態樣的方法。通過本說明書實施例提供的方法和裝置，通過自編碼網路來實現常規GAN中的生成模型，該自編碼網路可以借助於對真實樣本進行還原的編碼過程進行輔助訓練，從而得到高度類比真實樣本的合成資料。並且，在訓練過程中，通過差分隱私的梯度下降方式，在自編碼網路和判別器中分別引入了差分隱私，得到具有差分隱私特性的資料生成系統。由於引入了差分隱私，難以基於公開的模型反推或識別出訓練樣本的資訊，為模型提供了隱私保護。如此，得到了更為有效也更為安全的資料生成系統。

下面結合附圖，對本說明書提供的方案進行描述。圖1示出了根據本說明書技術構思的資料生成系統的架構示意圖。如圖1所示，資料生成系統整體上包括自編碼網路100和判別器200。自編碼網路100可以包括編碼器110，生成器120和解碼器130。編碼器110用於將輸入的真實樣本資料x的高維特徵向量編碼為低維表徵空間中的樣本向量E(x)，生成器120用於基於雜訊z，在上述低維表徵空間中生成雜訊向量G(z)。解碼器130用於基於低維表徵空間中的向量，解碼出對應的樣本資料。當將真實樣本資料x對應的低維樣本向量E(x)輸入解碼器130，解碼器輸出復原的樣本資料x’；當將雜訊向量G(z)輸入解碼器130，解碼器輸出合成的樣本資料s。判別器200用於判別輸入的樣本資料為真實樣本資料，還是合成的樣本資料。當將上述真實樣本資料x輸入該判別器200，判別器可以輸出其為真實資料的概率P1；當將上述合成資料s輸入該判別器200，判別器可以輸出其為真實資料的概率P2。以上的生成器120，解碼器130和判別器200，共同構成生成對抗網路GAN。具體而言，判別器的訓練目標是，盡量區分出真實樣本和合成樣本，也就是，希望以上的概率P1盡可能大，概率P2盡可能小。而生成器連同解碼器的訓練目標是，生成盡可能亂真的合成樣本資料，使得判別器難以區分。因此，生成器和解碼器的訓練目標為，使得復原樣本資料x’盡可能接近真實樣本資料x，同時使得以上的概率P1盡可能小，概率P2盡可能大。如此，通過解碼器和判別器的對抗訓練，逐步提升解碼器生成合成資料的能力。進一步的，為了增強模型的隱私安全性，可以在以上GAN網路中，特別是在解碼器130和判別器200中，引入差分隱私。具體的，可以通過在對抗訓練過程中，採用基於差分隱私的梯度下降，在梯度中添加雜訊，從而獲得基於差分隱私的解碼器和基於差分隱私的判別器。如此，可以避免模型受到攻擊時從訓練得到的模型中反推出訓練樣本，保護隱私資料安全。下面描述以上構思的具體實現過程。圖2示出根據一個實施例的基於差分隱私的資料生成系統的訓練方法的流程圖。可以理解，該方法可以通過任何具有計算、處理能力的裝置、設備、平臺、設備集群來執行。下面結合圖1所示的資料生成系統的架構和圖2所示的方法流程，描述基於差分隱私的資料生成系統的訓練過程。首先，在步驟21，將第一真實樣本x輸入自編碼網路，得到第一復原樣本x’。在不同實施例中，上述第一真實樣本x可以是各種不同形式的樣本資料。例如，在圖片合成場景下，第一真實樣本可以是一張圖片；在文本問答場景下，上述第一真實樣本可以是一條文本；在語音合成場景下，上述第一真實樣本可以是一段音訊。在其他例子中，第一真實樣本還可以是一些業務物件樣本，例如用戶樣本，商戶樣本，交互事件樣本，等等。通常，可以通過向量F(x)來表示第一真實樣本x，該向量F(x)稱為第一原始向量。例如，當第一真實樣本x為圖片時，第一原始向量F(x)對應於圖片中的圖元特徵構成的向量；當第一真實樣本x為音訊時，第一原始向量F(x)對應於音頻頻譜特徵構成的向量；在其他例子中，可以對應獲得第一原始向量，來表示第一真實樣本。當將第一真實樣本對應的第一原始向量輸入自編碼網路，自編碼網路可以對該第一原始向量進行編碼解碼處理，輸出第一復原樣本。具體的，在一個實施例中，自編碼器網路採用圖1所示的結構，其中包括編碼器110，生成器120和解碼器130。在這樣的情況下，在步驟21，將第一真實樣本x對應的第一原始向量F(x)輸入編碼器110，編碼器110對該第一原始向量F(x)進行降維處理，得到降維後的表徵空間K中的第一特徵向量E(x)。該第一特徵向量E(x)被進一步輸入到解碼器130。解碼器130結構與編碼器110對稱，其演算法和模型參數與編碼器130中對應關聯(例如為其逆運算)。因此，解碼器130可以根據該第一特徵向量E(x)，對第一真實樣本x進行還原，輸出第一復原樣本x’。圖3示出根據一個實施例的編碼器和解碼器的結構示意圖。如圖3所示，編碼器110和解碼器130各自可以實現為多層感知機，其中包含多個神經網路層。不同的是，在編碼器110中，各層神經元數目逐層遞減，即各層維度逐層遞減，從而對輸入的第一原始向量F(x)逐層壓縮維度，至輸出層輸出表徵空間K中的第一特徵向量E(x)，又稱為表徵向量。表徵空間K的維度d遠遠小於輸入的第一原始向量的維度D，從而實現對輸入原始向量的降維。例如，可以將幾百維的第一原始向量，壓縮為幾十維，甚至幾維的編碼向量。而在解碼器130中，各層神經元數目逐層遞增，即各層維度逐層遞增，從而對低維的第一特徵向量E(x)逐層恢復維度，至輸出層得到與第一原始向量F(x)維度相同的向量，作為第一復原樣本x’的復原向量。可以理解，表徵空間K中的表徵向量(例如第一特徵向量E(x))對輸入的原始向量(例如第一原始向量F(x))進行了降維，該降維操作的資訊損失越小，或者說，表徵空間K中表徵向量資訊含量越高，解碼器越容易還原出輸入的真實樣本，即復原樣本和真實樣本之間的相似度越高。這一性質可以在後續用於輔助訓練自編碼網路。需要理解，儘管以上描述了編碼器和解碼器的示例性結構，但是其具體實現方式可以多種多樣。例如，在處理圖片樣本資料時，編碼器中還可以相應包含若干卷積層，解碼器中包含若干反卷積層，等等。編碼器和解碼器的具體設計可以取決於樣本資料的形式而具有多種變體，在此不做限定。通過以上方式，自編碼網路對輸入的第一真實樣本進行還原，得到第一復原樣本。接著，在步驟22，根據第一真實樣本和第一復原樣本的比對，確定樣本重構損失Lr。在一個實施例中，可以比對第一真實樣本x對應的第一原始向量F(x)和第一復原樣本對應的第一復原向量，得到兩個向量之間的向量距離，例如，歐式距離，餘弦距離等等。於是，可以將樣本重構損失Lr確定為，正相關於該向量距離。也就是說，第一原始向量和第一復原向量之間的向量距離越小，資料差異越小，樣本重構損失越小。在另一實施例中，可以比對第一真實樣本和第一復原樣本，得到兩者之間的相似度。例如，相似度可以根據第一原始向量和第一復原向量之間的點乘結果而確定。由此，還可以將樣本重構損失Lr確定為，負相關於上述相似度。即，相似度越大，樣本重構損失越小。以上確定的樣本重構損失Lr可以用於衡量自編碼網路，特別是其中的解碼器，對於樣本的重構能力，從而用於訓練自編碼網路。另一方面，在步驟23，通過自編碼網路生成第一合成樣本。在一個實施例中，自編碼網路採用圖1所示的結構，其中包括編碼器110，生成器120和解碼器130。在這樣的情況下，在步驟23，通過生成器120，在前述表徵空間K中生成模擬真實表徵向量的第二特徵向量G(z)；然後，將該第二特徵向量G(z)輸入解碼器130，得到第一合成資料s。在一個實施例中，生成器120獲取編碼器110輸出的多個真實樣本的表徵向量的資料分佈，在該資料分佈空間中，以一定的概率進行採樣，由此生成第二特徵向量G(z)。在另一實施例中，將雜訊信號輸入給生成器120，生成器120基於該雜訊信號，在上述表徵空間K中生成第二特徵向量G(z)。通過以上方式生成的第二特徵向量G(z)，可用於類比真實樣本在表徵空間K中的表徵向量。因此，當將第二特徵向量G(z)輸入解碼器130，解碼器130可以按照處理前述真實表徵向量E(x)一樣，對其進行解碼，從而得到與真實樣本資料形式相同的合成樣本s。需要理解的是，上述步驟23與前述步驟21-22，可以以任何合理的相對順序執行，例如並行執行，在其之前或之後執行。之後，在步驟24，將第一真實樣本x和第一合成樣本s分別輸入判別器，從而分別得到第一真實樣本屬於真實樣本的第一概率P1，以及，第一合成樣本s屬於真實樣本的第二概率P2。需要理解，判別器用於區分輸入的樣本資料是真實樣本還是合成樣本。具體的，判別器通過輸出預測概率，來給出判別結果。通常，判別器輸出樣本資料為真實樣本的概率。在這樣的情況下，上述第一概率P1即為，將第一真實樣本x輸入判別器後，判別器的輸出概率；上述第二概率P2即為，將第一合成樣本s輸入判別器後，判別器的輸出概率。在另一例子中，判別器也可以輸出樣本資料為合成樣本的概率。在這樣的情況下，上述第一概率P1可以理解為1-P1’，其中P1’為判別器針對第一真實樣本x的輸出概率；上述第二概率P2可以理解為1-P2’，其中P2’為判別器針對第一合成樣本s的輸出概率。基於步驟22得到的樣本重構損失Lr，以及步驟24得到的第一概率P1和第二概率P2，可以分別確定用於訓練判別器的第一預測損失L1和用於訓練自編碼網路的第二預測損失L2。可以理解，判別器的訓練目標是，盡量區分出真實樣本和合成樣本，因此，對於判別器來說，希望以上的第一概率P1盡可能大，第二概率P2盡可能小。因此，可以將第一預測損失L1設定為，與第一概率P1負相關，與第二概率P2正相關。如此，第一預測損失L1減小的方向，即為增大第一概率P1，減小第二概率P2的方向。更具體的，在一個實施例中，第一預測損失可以設定為：

其中，i為真實樣本，P1為各個真實樣本對應的第一概率，j為合成樣本，P2為各個合成樣本對應的第二概率。另一方面，自編碼網路的訓練目標是，對於真實樣本，希望重構出更為接近的復原樣本，並且，希望判別器無法區分真實樣本和解碼器生成的合成樣本，因此，對於自編碼網路來說，希望前述的樣本重構損失Lr盡量小，並且，希望以上的第一概率P1盡可能小，第二概率P2盡可能大。因此，可以將第二預測損失L2設定為，與樣本重構損失和第一概率P1正相關，與第二概率P2負相關。如此，第二預測損失L2減小的方向，即為減小樣本重構損失，減小第一概率P1，增大第二概率P2的方向。更具體的，在一個實施例中，第二預測損失可以設定為：

如此，通過以上方式，得到了針對判別器的第一預測損失和針對自編碼網路的第二預測損失。通過以上第一預測損失L1和第二預測損失L2的定義可以看到，自編碼網路和判別器的訓練目標形成對抗。接下來，可以基於該第一和第二預測損失，確定使得損失減小的參數梯度，從而分別訓練判別器和自編碼網路。創新性的，在本說明書的實施例中，在訓練過程中利用差分隱私的方式，在梯度中添加雜訊，根據含有雜訊的梯度來訓練資料生成系統。即，在步驟25，針對判別器對應的第一參數，利用差分隱私的方式，在以減小第一預測損失L1為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整第一參數；在步驟26，針對自編碼網路對應的第二參數，利用差分隱私的方式，在以減小第二預測損失L2為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整第二參數。如此，分別在判別器和自編碼網路中引入差分隱私的特性。差分隱私(differential privacy)是密碼學中的一種手段，旨在提供一種當從統計資料庫查詢時，最大化資料查詢的準確性，同時最大限度減少識別其記錄的機會。設有隨機演算法M，PM為M所有可能的輸出構成的集合。對於任意兩個鄰近資料集D和D’以及PM的任何子集SM，若隨機演算法M滿足：Pr[M(D)∈SM]＜=e^ε ×Pr[M(D’)∈SM]，則稱演算法M提供ε-差分隱私保護，其中參數ε稱為隱私保護預算，用於平衡隱私保護程度和準確度。ε通常可以預先設定。ε越接近0，e^ε 越接近1，隨機演算法對兩個鄰近資料集D和D’的處理結果越接近，隱私保護程度越強。差分隱私的實現方式包括，雜訊機制、指數機制等。為了在資料生成系統中引入差分隱私，根據本說明書的實施例，在此利用雜訊機制，通過在參數梯度中添加雜訊的方式，實現差分隱私。根據雜訊機制，雜訊可以體現為拉普拉斯雜訊，高斯雜訊，等等。根據一個實施例，在該步驟25中，通過在基於第一預測損失確定的梯度中添加高斯雜訊，在判別器中引入差分隱私。具體過程可以包括如下步驟。首先，針對判別器對應的第一參數，可以根據前述第一預測損失L1，確定使得第一預測損失L1減小的第一原始梯度；然後，基於預設的裁剪閾值，對第一原始梯度進行裁剪，得到第一裁剪梯度；接著，利用基於第一裁剪閾值確定的高斯分佈，確定用於實現差分隱私的第一高斯雜訊，其中，高斯分佈的方差與第一裁剪閾值的平方正相關；然後，將由此得到的第一高斯雜訊與前述第一裁剪梯度疊加，得到第一雜訊梯度，用於更新判別器的第一參數。更具體的，作為一個示例，假設針對由第一真實樣本x和第一合成樣本s構成的訓練集X，對於判別器得到的第一原始梯度為：

其中，

表示前述第一預測損失，

為判別器中的參數，即第一參數。如前所述，對原始梯度添加實現差分隱私的雜訊，可以通過諸如拉普拉斯雜訊、高斯雜訊等方式實現。在一個實施例中，以高斯雜訊為例，可以基於預設的裁剪閾值，對原始梯度進行梯度裁剪，得到裁剪梯度，再基於該裁剪閾值和預定的雜訊縮放係數(預先設定的超參)，確定用於實現差分隱私的高斯雜訊，然後將裁剪梯度與高斯雜訊融合(例如求和)，得到包含雜訊的梯度。可以理解的是，此種方式一方面對原始梯度進行裁剪，另一方面將裁剪後的梯度疊加，從而對梯度進行滿足高斯雜訊的差分隱私處理。例如，將第一原始梯度進行梯度裁剪為：

其中，

表示裁剪後的梯度，即第一裁剪梯度，

表示第一裁剪閾值，

表示

的二階範數。也就是說，在原始梯度小於或等於裁剪閾值

的情況下，保留原始梯度，而在原始梯度大於裁剪閾值

的情況下，將原始梯度按照大於裁剪閾值

的比例裁剪到相應大小。為第一裁剪梯度添加第一高斯雜訊，得到包含雜訊的第一雜訊梯度，例如為：

其中，

表示第一雜訊梯度；

表示概率密度符合以0為均值、

為方差的高斯分佈的第一高斯雜訊；

表示上述雜訊縮放係數，為預先設定的超參，可以按需設定；

為上述第一裁剪閾值；

表示指示函數，可以取0或1，比如，可以設定在多輪訓練中的偶數輪次取1，而奇數輪次取0。於是，可以使用添加高斯雜訊後的第一雜訊梯度，以最小化前述預測損失L1為目標，將判別器的第一參數

調整為：

其中，

表示學習步長，或者說學習率，為預先設定的超參數，例如為0.5、0.3等。在梯度添加高斯雜訊滿足差分隱私的情況下，上述判別器的模型參數的調整滿足差分隱私。另一方面，在步驟26，對於自編碼網路，可以以類似的方式，通過在梯度中添加雜訊，以差分隱私的方式調整自編碼網路的參數。具體的，在一個實施例中，針對自編碼網路的第二參數

，確定使得前述第二預測損失L2減小的第二原始梯度

，例如：

然後，基於預設的第二裁剪閾值C2，對第二原始梯度進行裁剪，得到第二裁剪梯度

。裁剪方式類似於以上公式(4)，其中第二裁剪閾值C2與第一裁剪閾值C1獨立設置，可以相同或不同。接著，利用基於第二裁剪閾值確定的第二高斯分佈，確定用於實現差分隱私的第二高斯雜訊

；將第二高斯雜訊與第二裁剪梯度疊加，得到第二雜訊梯度

。於是，可以根據第二雜訊梯度，調整自編碼網路對應的第二參數。以上描述了在針對自編碼網路的第二原始梯度中添加高斯雜訊，進而調整第二參數的方式。進一步的，在一個實施例中，如圖1所示，自編碼網路進一步包括編碼器110，生成器120和解碼器130，相應的，上述第二參數又可以劃分為編碼器參數，生成器參數和解碼器參數，各部分參數對應有各部分原始參數梯度。針對第二原始梯度添加雜訊，可以針對各個部分的原始參數梯度均添加雜訊，也可以僅針對其中部分原始參數梯度，例如解碼器對應的原始參數梯度，添加雜訊。具體的，在一個實施例中，在步驟26，可以通過梯度反向傳播，分別確定自編碼網路中針對各個參數部分的各個原始參數梯度，包括，對應於解碼器參數的第三原始梯度，對應於編碼器參數的第四原始梯度，和對應於生成器參數的第五原始梯度。然後，利用差分隱私的方式，在第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊，得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度。其中，添加雜訊的方式，可以參照以上描述的添加高斯雜訊的過程。於是，可以利用第三雜訊梯度，調整解碼器參數；利用第四雜訊梯度，調整編碼器參數；利用第五雜訊梯度，調整生成器參數。通過這樣的方式，在自編碼網路中引入差分隱私特性。根據另一實施例，在步驟26中，在通過梯度反向傳播，分別確定出對應於解碼器參數的第三原始梯度，對應於編碼器參數的第四原始梯度，和對應於生成器參數的第五原始梯度之後，僅針對第三原始梯度，利用差分隱私的方式，在其中添加雜訊，得到對應的第三雜訊梯度。然後，利用該第三雜訊梯度，調整解碼器參數，從而在解碼器中引入差分隱私的特性。對於編碼器和生成器，則可以利用對應的原始參數梯度來更新，即利用第四原始梯度，調整編碼器參數；利用第五原始梯度，調整生成器參數。需要理解，解碼器是自編碼網路中的核心模組，真實樣本通過該解碼器進行還原，合成樣本通過該解碼器而生成。因此，在解碼器中引入差分隱私，就使得整個自編碼網路具有了差分隱私的特性，同樣可以起到使得整個資料生成系統具有差分隱私特性的效果。需要說明的是，實際操作中，步驟25中對判別器的訓練，和步驟26中對自編碼網路的訓練，可以是交替反覆運算進行的。例如，利用包含真實樣本和生成樣本的樣本集，對判別器進行m次反覆運算更新後，再對自編碼網路進行n次反覆運算更新，如此交複執行。對於判別器和自編碼網路的更新順序和反覆運算方式，在此不做限定。在通過以上方式反復更新判別器和自編碼網路，直到達到預定的結束條件(例如反覆運算了預定次數，參數達到收斂，等等)後，就可以得到訓練後的資料生成系統。使用該資料生成系統生成樣本資料時，只需要利用其中的生成器生成雜訊向量，用解碼器解碼，就可以得到類比真實樣本的合成樣本資料。回顧以上過程，通過自編碼網路來實現常規GAN中的生成模型，該自編碼網路可以借助於對真實樣本進行還原的編碼過程進行輔助訓練，從而得到高度類比真實樣本的合成資料。並且，在訓練過程中，通過差分隱私的梯度下降方式，在自編碼網路和判別器中分別引入了差分隱私，得到具有差分隱私特性的資料生成系統。由於引入了差分隱私，難以基於公開的模型反推或識別出訓練樣本的資訊，為模型提供了隱私保護。如此，得到了更為有效也更為安全的資料生成系統。根據另一態樣的實施例，還提供一種基於差分隱私的資料生成系統的訓練裝置，所述資料生成系統包括自編碼網路和判別器，所述訓練裝置可以部署在任何具有計算、處理能力的裝置、設備、平臺、設備集群中。圖4示出根據一個實施例的資料生成系統的訓練裝置的示意性框圖。如圖4所示，訓練裝置400包括：復原樣本獲取單元41，配置為將第一真實樣本輸入所述自編碼網路，得到第一復原樣本；重構損失確定單元42，配置為根據所述第一真實樣本和所述第一復原樣本的比對，確定樣本重構損失；合成樣本獲取單元43，配置為通過所述自編碼網路生成第一合成樣本；概率獲取單元44，配置為將第一真實樣本輸入所述判別器，得到其屬於真實樣本的第一概率；以及，將所述第一合成樣本輸入所述判別器，得到其屬於真實樣本的第二概率；第一參數調整單元45，配置為針對所述判別器對應的第一參數，利用差分隱私的方式，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，其中所述第一預測損失負相關於所述第一概率，正相關於所述第二概率；第二參數調整單元46，配置為針對所述自編碼網路對應的第二參數，利用差分隱私的方式，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，其中所述第二預測損失與所述樣本重構損失正相關，與所述第一概率正相關，且與所述第二概率負相關。根據一種實施方式，所述自編碼網路包括編碼器，生成器和解碼器。在這樣的情況下，所述復原樣本獲取單元41可以配置為：將所述第一真實樣本對應的第一原始向量輸入所述編碼器，得到降維到第一表徵空間的第一特徵向量；將所述第一特徵向量輸入所述解碼器，得到所述第一復原樣本；所述合成樣本獲取單元43可以配置為：通過所述生成器生成在所述第一表徵空間中的第二特徵向量；將所述第二特徵向量輸入所述解碼器，得到所述第一合成資料。進一步的，在一個實施例中，所述編碼器可以實現為第一多層感知機，其各層神經元數目逐層遞減；所述解碼器可以實現為第二多層感知機，其各層神經元數目逐層遞增。根據一種實施方式，所述重構損失確定單元42具體配置為：確定所述第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離；將所述樣本重構損失確定為，正相關於所述向量距離。在一種實施方式中，所述第一參數調整單元45具體配置為：針對所述第一參數，確定使得所述第一預測損失減小的第一原始梯度；基於預設的第一裁剪閾值，對所述第一原始梯度進行裁剪，得到第一裁剪梯度；利用基於所述第一裁剪閾值確定的第一高斯分佈，確定用於實現差分隱私的第一高斯雜訊；將所述第一高斯雜訊與所述第一裁剪梯度疊加，得到所述第一雜訊梯度。類似的，所述第二參數調整單元46可以具體配置為：針對所述第二參數，確定使得所述第二預測損失減小的第二原始梯度；基於預設的第二裁剪閾值，對所述第二原始梯度進行裁剪，得到第二裁剪梯度；利用基於所述第二裁剪閾值確定的第二高斯分佈，確定用於實現差分隱私的第二高斯雜訊；將所述第二高斯雜訊與所述第二裁剪梯度疊加，得到所述第二雜訊梯度。更具體的，在一個實施例中，所述第二參數具體包括，編碼器參數，生成器參數和解碼器參數。在一個例子中，所述第二參數調整單元46具體配置為：通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊，得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四雜訊梯度，調整所述編碼器參數；利用所述第五雜訊梯度，調整所述生成器參數。在另一例子中，所述第二參數調整單元46具體配置為：通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度中添加雜訊，得到對應的第三雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四原始梯度，調整所述編碼器參數；利用所述第五原始梯度，調整所述生成器參數。在各個不同實施例中，第一真實樣本可以是圖片樣本，音訊樣本，文本樣本，或業務物件樣本。值得說明的是，圖4所示的裝置400是與圖2示出的方法實施例相對應的裝置實施例，圖2示出的方法實施例中的相應描述同樣適用於裝置400，在此不再贅述。根據又一態樣的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行結合圖2所描述的方法。根據再一態樣的實施例，還提供一種計算設備，包括記憶體和處理器，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現結合圖2所述的方法。本領域技術人員應該可以意識到，在上述一個或多個示例中，本說明書實施例所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。以上所述的具體實施方式，對本說明書的技術構思的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本說明書的技術構思的具體實施方式而已，並不用於限定本說明書的技術構思的保護範圍，凡在本說明書實施例的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本說明書的技術構思的保護範圍之內。

21:步驟 22:步驟 23:步驟 24:步驟 25:步驟 26:步驟 41:復原樣本獲取單元 42:重構損失確定單元 43:合成樣本獲取單元 44:概率獲取單元 45:第一參數調整單元 46:第二參數調整單元 100:自編碼網路 110:編碼器 120:生成器 130:解碼器 200:判別器 400:訓練裝置

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動的前提下，還可以根據這些附圖獲得其它的附圖。 [圖1]示出了根據本說明書技術構思的資料生成系統的架構示意圖； [圖2]示出根據一個實施例的基於差分隱私的資料生成系統的訓練方法的流程圖； [圖3]示出根據一個實施例的編碼器和解碼器的結構示意圖； [圖4]示出根據一個實施例的資料生成系統的訓練裝置的示意性框圖。

100:自編碼網路

110:編碼器

120:生成器

130:解碼器

200:判別器

Claims

一種基於差分隱私的資料生成系統的訓練方法，所述資料生成系統包括自編碼網路和判別器，所述自編碼網路包括編碼器，生成器和解碼器；所述方法包括：將第一真實樣本對應的第一原始向量輸入所述編碼器，得到降維到第一表徵空間的第一特徵向量；將所述第一特徵向量輸入所述解碼器，得到第一復原樣本；根據所述第一真實樣本和所述第一復原樣本的比對，確定樣本重構損失；通過所述生成器基於雜訊信號生成在所述第一表徵空間中的第二特徵向量；將所述第二特徵向量輸入所述解碼器，得到第一合成樣本；將第一真實樣本輸入所述判別器，得到其屬於真實樣本的第一概率；以及，將所述第一合成樣本輸入所述判別器，得到其屬於真實樣本的第二概率；針對所述判別器對應的第一參數，利用差分隱私的方式，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，其中所述第一預測損失負相關於所述第一概率，正相關於所述第二概率；針對所述自編碼網路對應的第二參數，利用差分隱私的方式，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，其中所述第二預測損失與所述樣本重構損失正相關，與所述第一概率正相關，且與所述第二概率負相關。
根據請求項1所述的方法，其中，所述編碼器實現為第一多層感知機，其各層神經元數目逐層遞減；所述解碼器實現為第二多層感知機，其各層神經元數目逐層遞增。
根據請求項1所述的方法，其中，確定樣本重構損失，包括：確定所述第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離；將所述樣本重構損失確定為，正相關於所述向量距離。
根據請求項1所述的方法，其中，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，包括：針對所述第一參數，確定使得所述第一預測損失減小的第一原始梯度；基於預設的第一裁剪閾值，對所述第一原始梯度進行裁剪，得到第一裁剪梯度；利用基於所述第一裁剪閾值確定的第一高斯分佈，確定用於實現差分隱私的第一高斯雜訊；將所述第一高斯雜訊與所述第一裁剪梯度疊加，得到所述第一雜訊梯度。
根據請求項1所述的方法，其中，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，包括：針對所述第二參數，確定使得所述第二預測損失減小的第二原始梯度；基於預設的第二裁剪閾值，對所述第二原始梯度進行裁剪，得到第二裁剪梯度；利用基於所述第二裁剪閾值確定的第二高斯分佈，確定用於實現差分隱私的第二高斯雜訊；將所述第二高斯雜訊與所述第二裁剪梯度疊加，得到所述第二雜訊梯度。
根據請求項1所述的方法，其中，所述第二參數包括，編碼器參數，生成器參數和解碼器參數；在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，包括：通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊，得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四雜訊梯度，調整所述編碼器參數；利用所述第五雜訊梯度，調整所述生成器參數。
根據請求項1所述的方法，其中，所述第二參數包括，編碼器參數，生成器參數和解碼器參數；在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，包括：通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度中添加雜訊，得到對應的第三雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四原始梯度，調整所述編碼器參數；利用所述第五原始梯度，調整所述生成器參數。
根據請求項1所述的方法，其中，所述第一真實樣本包括以下之一：圖片樣本，音訊樣本，文本樣本，業務物件樣本。
一種基於差分隱私的資料生成系統的訓練裝置，所述資料生成系統包括自編碼網路和判別器，所述自編碼網路包括編碼器，生成器和解碼器；所述裝置包括：復原樣本獲取單元，配置為將第一真實樣本對應的第一原始向量輸入所述編碼器，得到降維到第一表徵空間的第一特徵向量；將所述第一特徵向量輸入所述解碼器，得到第一復原樣本；重構損失確定單元，配置為根據所述第一真實樣本和所述第一復原樣本的比對，確定樣本重構損失；合成樣本獲取單元，配置為通過所述生成器基於雜訊信號生成在所述第一表徵空間中的第二特徵向量；將所述第二特徵向量輸入所述解碼器，得到第一合成樣本；概率獲取單元，配置為將第一真實樣本輸入所述判別器，得到其屬於真實樣本的第一概率；以及，將所述第一合成樣本輸入所述判別器，得到其屬於真實樣本的第二概率；第一參數調整單元，配置為針對所述判別器對應的第一參數，利用差分隱私的方式，在以減小第一預測損失為目標得到的梯度上添加雜訊，根據得到的第一雜訊梯度調整所述第一參數，其中所述第一預測損失負相關於所述第一概率，正相關於所述第二概率；第二參數調整單元，配置為針對所述自編碼網路對應的第二參數，利用差分隱私的方式，在以減小第二預測損失為目標得到的梯度上添加雜訊，根據得到的第二雜訊梯度調整所述第二參數，其中所述第二預測損失與所述樣本重構損失正相關，與所述第一概率正相關，且與所述第二概率負相關。
根據請求項9所述的裝置，其中，所述編碼器實現為第一多層感知機，其各層神經元數目逐層遞減；所述解碼器實現為第二多層感知機，其各層神經元數目逐層遞增。
根據請求項9所述的裝置，其中，所述重構損失確定單元配置為：確定所述第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離；將所述樣本重構損失確定為，正相關於所述向量距離。
根據請求項9所述的裝置，其中，所述第一參數調整單元配置為：針對所述第一參數，確定使得所述第一預測損失減小的第一原始梯度；基於預設的第一裁剪閾值，對所述第一原始梯度進行裁剪，得到第一裁剪梯度；利用基於所述第一裁剪閾值確定的第一高斯分佈，確定用於實現差分隱私的第一高斯雜訊；將所述第一高斯雜訊與所述第一裁剪梯度疊加，得到所述第一雜訊梯度。
根據請求項9所述的裝置，其中，所述第二參數調整單元配置為：針對所述第二參數，確定使得所述第二預測損失減小的第二原始梯度；基於預設的第二裁剪閾值，對所述第二原始梯度進行裁剪，得到第二裁剪梯度；利用基於所述第二裁剪閾值確定的第二高斯分佈，確定用於實現差分隱私的第二高斯雜訊；將所述第二高斯雜訊與所述第二裁剪梯度疊加，得到所述第二雜訊梯度。
根據請求項9所述的裝置，其中，所述第二參數包括，編碼器參數，生成器參數和解碼器參數；所述第二參數調整單元配置為：通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊，得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四雜訊梯度，調整所述編碼器參數；利用所述第五雜訊梯度，調整所述生成器參數。
根據請求項9所述的裝置，其中，所述第二參數包括，編碼器參數，生成器參數和解碼器參數；所述第二參數調整單元配置為：通過梯度反向傳播，分別確定對應於所述解碼器參數的第三原始梯度，對應於所述編碼器參數的第四原始梯度，和對應於所述生成器參數的第五原始梯度；利用差分隱私的方式，在所述第三原始梯度中添加雜訊，得到對應的第三雜訊梯度；利用所述第三雜訊梯度，調整所述解碼器參數；利用所述第四原始梯度，調整所述編碼器參數；利用所述第五原始梯度，調整所述生成器參數。
根據請求項9所述的裝置，其中，所述第一真實樣本包括以下之一：圖片樣本，音訊樣本，文本樣本，業務物件樣本。
一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行根據請求項1-8中任一項的所述的方法。
一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現根據請求項1-8中任一項所述的方法。