TWI761151B - 基於差分隱私的資料生成系統的訓練方法及裝置 - Google Patents

基於差分隱私的資料生成系統的訓練方法及裝置 Download PDF

Info

Publication number
TWI761151B
TWI761151B TW110110849A TW110110849A TWI761151B TW I761151 B TWI761151 B TW I761151B TW 110110849 A TW110110849 A TW 110110849A TW 110110849 A TW110110849 A TW 110110849A TW I761151 B TWI761151 B TW I761151B
Authority
TW
Taiwan
Prior art keywords
gradient
noise
sample
parameter
original
Prior art date
Application number
TW110110849A
Other languages
English (en)
Other versions
TW202143118A (zh
Inventor
濤 熊
Original Assignee
大陸商支付寶(杭州)信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商支付寶(杭州)信息技術有限公司 filed Critical 大陸商支付寶(杭州)信息技術有限公司
Publication of TW202143118A publication Critical patent/TW202143118A/zh
Application granted granted Critical
Publication of TWI761151B publication Critical patent/TWI761151B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本說明書實施例提供一種基於差分隱私的資料生成系統的訓練方法和裝置,該資料生成系統包括自編碼網路和判別器,方法包括,將真實樣本輸入自編碼網路,得到復原樣本;根據真實樣本和復原樣本的比對,確定樣本重構損失。此外,通過自編碼網路生成合成樣本。將真實樣本和合成樣本分別輸入判別器,得到其分別屬於真實樣本的第一概率和第二概率。針對判別器,以減小第一損失為目標,以差分隱私的方式在梯度上添加雜訊,以調整判別器參數,其中第一損失負相關於第一概率,正相關於第二概率。針對自編碼網路,以減小第二損失為目標,在梯度上添加雜訊,以調整自編碼網路參數,其中第二損失與樣本重構損失正相關,與第一損失負相關。

Description

基於差分隱私的資料生成系統的訓練方法及裝置
本說明書一個或多個實施例涉及電腦技術領域,尤其涉及通過電腦執行的基於差分隱私的資料生成系統的訓練方法和裝置。
隨著電腦技術的發展,存在大量自動進行資料合成的需求。例如,在圖片識別的場景下,需要自動生成或合成大量圖片,以進行機器學習;在例如智能客服的場景下,需要自動生成對話文本。在一種情況下,在展示基於用戶樣本資料的研究結果時,出於保護用戶隱私的目的,則需要合成一些類比用戶樣本資料替代真實用戶資料進行展示。在其他情況下,還可能需要自動生成諸如音訊等其他格式的合成資料。 為此,試圖通過機器學習的方式,訓練得到一些生成模型來自動進行資料生成。例如,在一種方式中,訓練一個生成對抗網路(GAN,Generative Adversarial Networks),利用其中的生成模型來進行資料合成。然而,常規的GAN訓練方式,一方面生成模型的生成效果有待進一步提高,另一方面,容易受到攻擊,難以保證資料的隱私安全。 因此,希望能有改進的方案,能夠得到更為安全、更為有效的資料生成系統。
本說明書一個或多個實施例描述了一種基於差分隱私的資料生成系統的訓練方法,用以得到保護隱私且更為有效的資料生成系統。 根據第一態樣,提供了一種基於差分隱私的資料生成系統的訓練方法,所述資料生成系統包括自編碼網路和判別器,所述方法包括: 將第一真實樣本輸入所述自編碼網路,得到第一復原樣本; 根據所述第一真實樣本和所述第一復原樣本的比對,確定樣本重構損失; 通過所述自編碼網路生成第一合成樣本; 將第一真實樣本輸入所述判別器,得到其屬於真實樣本的第一概率;以及,將所述第一合成樣本輸入所述判別器,得到其屬於真實樣本的第二概率; 針對所述判別器對應的第一參數,利用差分隱私的方式,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,其中所述第一預測損失負相關於所述第一概率,正相關於所述第二概率; 針對所述自編碼網路對應的第二參數,利用差分隱私的方式,在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,其中所述第二預測損失與所述樣本重構損失正相關,與所述第一概率正相關,且與所述第二概率負相關。 根據一種實施方式,自編碼網路包括編碼器,生成器和解碼器;在這樣的情況下,將第一真實樣本輸入所述自編碼網路,得到第一復原樣本,具體包括:將所述第一真實樣本對應的第一原始向量輸入所述編碼器,得到降維到第一表徵空間的第一特徵向量;將所述第一特徵向量輸入所述解碼器,得到所述第一復原樣本;通過所述自編碼網路生成第一合成樣本,具體包括:通過所述生成器生成在所述第一表徵空間中的第二特徵向量;將所述第二特徵向量輸入所述解碼器,得到所述第一合成資料。 進一步的,在一個實施例中,所述編碼器可以實現為第一多層感知機,其各層神經元數目逐層遞減;所述解碼器可以實現為第二多層感知機,其各層神經元數目逐層遞增。 根據一種實施方式,通過以下方式確定樣本重構損失:確定第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離;將所述樣本重構損失確定為,正相關於所述向量距離。 在一個實施例中,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,具體包括:針對所述第一參數,確定使得所述第一預測損失減小的第一原始梯度;基於預設的第一裁剪閾值,對所述第一原始梯度進行裁剪,得到第一裁剪梯度;利用基於所述第一裁剪閾值確定的第一高斯分佈,確定用於實現差分隱私的第一高斯雜訊;將所述第一高斯雜訊與所述第一裁剪梯度疊加,得到所述第一雜訊梯度。 在一個實施例中,在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,具體包括:針對所述第二參數,確定使得所述第二預測損失減小的第二原始梯度;基於預設的第二裁剪閾值,對所述第二原始梯度進行裁剪,得到第二裁剪梯度;利用基於所述第二裁剪閾值確定的第二高斯分佈,確定用於實現差分隱私的第二高斯雜訊;將所述第二高斯雜訊與所述第二裁剪梯度疊加,得到所述第二雜訊梯度。 進一步的,所述第二參數可以劃分為包括,編碼器參數,生成器參數和解碼器參數;在一個實施例中,可以通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊,得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四雜訊梯度,調整所述編碼器參數;利用所述第五雜訊梯度,調整所述生成器參數。 在另一實施例中,在通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度後,利用差分隱私的方式,在所述第三原始梯度中添加雜訊,得到對應的第三雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四原始梯度,調整所述編碼器參數;利用所述第五原始梯度,調整所述生成器參數。 在各種實施例中,第一真實樣本可以是圖片樣本,音訊樣本,文本樣本,或業務物件樣本。 根據第二態樣,提供了一種基於差分隱私的資料生成系統的訓練裝置,所述資料生成系統包括自編碼網路和判別器,所述裝置包括: 復原樣本獲取單元,配置為將第一真實樣本輸入所述自編碼網路,得到第一復原樣本; 重構損失確定單元,配置為根據所述第一真實樣本和所述第一復原樣本的比對,確定樣本重構損失; 合成樣本獲取單元,配置為通過所述自編碼網路生成第一合成樣本; 概率獲取單元,配置為將第一真實樣本輸入所述判別器,得到其屬於真實樣本的第一概率;以及,將所述第一合成樣本輸入所述判別器,得到其屬於真實樣本的第二概率; 第一參數調整單元,配置為針對所述判別器對應的第一參數,利用差分隱私的方式,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,其中所述第一預測損失負相關於所述第一概率,正相關於所述第二概率; 第二參數調整單元,配置為針對所述自編碼網路對應的第二參數,利用差分隱私的方式,在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,其中所述第二預測損失與所述樣本重構損失正相關,與所述第一概率正相關,且與所述第二概率負相關。 根據第三態樣,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一態樣的方法。 根據第四態樣,提供了一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現第一態樣的方法。 通過本說明書實施例提供的方法和裝置,通過自編碼網路來實現常規GAN中的生成模型,該自編碼網路可以借助於對真實樣本進行還原的編碼過程進行輔助訓練,從而得到高度類比真實樣本的合成資料。並且,在訓練過程中,通過差分隱私的梯度下降方式,在自編碼網路和判別器中分別引入了差分隱私,得到具有差分隱私特性的資料生成系統。由於引入了差分隱私,難以基於公開的模型反推或識別出訓練樣本的資訊,為模型提供了隱私保護。如此,得到了更為有效也更為安全的資料生成系統。
下面結合附圖,對本說明書提供的方案進行描述。 圖1示出了根據本說明書技術構思的資料生成系統的架構示意圖。如圖1所示,資料生成系統整體上包括自編碼網路100和判別器200。自編碼網路100可以包括編碼器110,生成器120和解碼器130。編碼器110用於將輸入的真實樣本資料x的高維特徵向量編碼為低維表徵空間中的樣本向量E(x),生成器120用於基於雜訊z,在上述低維表徵空間中生成雜訊向量G(z)。解碼器130用於基於低維表徵空間中的向量,解碼出對應的樣本資料。當將真實樣本資料x對應的低維樣本向量E(x)輸入解碼器130,解碼器輸出復原的樣本資料x’;當將雜訊向量G(z)輸入解碼器130,解碼器輸出合成的樣本資料s。 判別器200用於判別輸入的樣本資料為真實樣本資料,還是合成的樣本資料。當將上述真實樣本資料x輸入該判別器200,判別器可以輸出其為真實資料的概率P1;當將上述合成資料s輸入該判別器200,判別器可以輸出其為真實資料的概率P2。 以上的生成器120,解碼器130和判別器200,共同構成生成對抗網路GAN。具體而言,判別器的訓練目標是,盡量區分出真實樣本和合成樣本,也就是,希望以上的概率P1盡可能大,概率P2盡可能小。而生成器連同解碼器的訓練目標是,生成盡可能亂真的合成樣本資料,使得判別器難以區分。因此,生成器和解碼器的訓練目標為,使得復原樣本資料x’盡可能接近真實樣本資料x,同時使得以上的概率P1盡可能小,概率P2盡可能大。如此,通過解碼器和判別器的對抗訓練,逐步提升解碼器生成合成資料的能力。 進一步的,為了增強模型的隱私安全性,可以在以上GAN網路中,特別是在解碼器130和判別器200中,引入差分隱私。具體的,可以通過在對抗訓練過程中,採用基於差分隱私的梯度下降,在梯度中添加雜訊,從而獲得基於差分隱私的解碼器和基於差分隱私的判別器。如此,可以避免模型受到攻擊時從訓練得到的模型中反推出訓練樣本,保護隱私資料安全。 下面描述以上構思的具體實現過程。 圖2示出根據一個實施例的基於差分隱私的資料生成系統的訓練方法的流程圖。可以理解,該方法可以通過任何具有計算、處理能力的裝置、設備、平臺、設備集群來執行。下面結合圖1所示的資料生成系統的架構和圖2所示的方法流程,描述基於差分隱私的資料生成系統的訓練過程。 首先,在步驟21,將第一真實樣本x輸入自編碼網路,得到第一復原樣本x’。 在不同實施例中,上述第一真實樣本x可以是各種不同形式的樣本資料。例如,在圖片合成場景下,第一真實樣本可以是一張圖片;在文本問答場景下,上述第一真實樣本可以是一條文本;在語音合成場景下,上述第一真實樣本可以是一段音訊。在其他例子中,第一真實樣本還可以是一些業務物件樣本,例如用戶樣本,商戶樣本,交互事件樣本,等等。 通常,可以通過向量F(x)來表示第一真實樣本x,該向量F(x)稱為第一原始向量。例如,當第一真實樣本x為圖片時,第一原始向量F(x)對應於圖片中的圖元特徵構成的向量;當第一真實樣本x為音訊時,第一原始向量F(x)對應於音頻頻譜特徵構成的向量;在其他例子中,可以對應獲得第一原始向量,來表示第一真實樣本。 當將第一真實樣本對應的第一原始向量輸入自編碼網路,自編碼網路可以對該第一原始向量進行編碼解碼處理,輸出第一復原樣本。 具體的,在一個實施例中,自編碼器網路採用圖1所示的結構,其中包括編碼器110,生成器120和解碼器130。在這樣的情況下,在步驟21,將第一真實樣本x對應的第一原始向量F(x)輸入編碼器110,編碼器110對該第一原始向量F(x)進行降維處理,得到降維後的表徵空間K中的第一特徵向量E(x)。該第一特徵向量E(x)被進一步輸入到解碼器130。解碼器130結構與編碼器110對稱,其演算法和模型參數與編碼器130中對應關聯(例如為其逆運算)。因此,解碼器130可以根據該第一特徵向量E(x),對第一真實樣本x進行還原,輸出第一復原樣本x’。 圖3示出根據一個實施例的編碼器和解碼器的結構示意圖。如圖3所示,編碼器110和解碼器130各自可以實現為多層感知機,其中包含多個神經網路層。不同的是,在編碼器110中,各層神經元數目逐層遞減,即各層維度逐層遞減,從而對輸入的第一原始向量F(x)逐層壓縮維度,至輸出層輸出表徵空間K中的第一特徵向量E(x),又稱為表徵向量。表徵空間K的維度d遠遠小於輸入的第一原始向量的維度D,從而實現對輸入原始向量的降維。例如,可以將幾百維的第一原始向量,壓縮為幾十維,甚至幾維的編碼向量。 而在解碼器130中,各層神經元數目逐層遞增,即各層維度逐層遞增,從而對低維的第一特徵向量E(x)逐層恢復維度,至輸出層得到與第一原始向量F(x)維度相同的向量,作為第一復原樣本x’的復原向量。 可以理解,表徵空間K中的表徵向量(例如第一特徵向量E(x))對輸入的原始向量(例如第一原始向量F(x))進行了降維,該降維操作的資訊損失越小,或者說,表徵空間K中表徵向量資訊含量越高,解碼器越容易還原出輸入的真實樣本,即復原樣本和真實樣本之間的相似度越高。這一性質可以在後續用於輔助訓練自編碼網路。 需要理解,儘管以上描述了編碼器和解碼器的示例性結構,但是其具體實現方式可以多種多樣。例如,在處理圖片樣本資料時,編碼器中還可以相應包含若干卷積層,解碼器中包含若干反卷積層,等等。編碼器和解碼器的具體設計可以取決於樣本資料的形式而具有多種變體,在此不做限定。 通過以上方式,自編碼網路對輸入的第一真實樣本進行還原,得到第一復原樣本。接著,在步驟22,根據第一真實樣本和第一復原樣本的比對,確定樣本重構損失Lr。 在一個實施例中,可以比對第一真實樣本x對應的第一原始向量F(x)和第一復原樣本對應的第一復原向量,得到兩個向量之間的向量距離,例如,歐式距離,餘弦距離等等。於是,可以將樣本重構損失Lr確定為,正相關於該向量距離。也就是說,第一原始向量和第一復原向量之間的向量距離越小,資料差異越小,樣本重構損失越小。 在另一實施例中,可以比對第一真實樣本和第一復原樣本,得到兩者之間的相似度。例如,相似度可以根據第一原始向量和第一復原向量之間的點乘結果而確定。由此,還可以將樣本重構損失Lr確定為,負相關於上述相似度。即,相似度越大,樣本重構損失越小。 以上確定的樣本重構損失Lr可以用於衡量自編碼網路,特別是其中的解碼器,對於樣本的重構能力,從而用於訓練自編碼網路。 另一方面,在步驟23,通過自編碼網路生成第一合成樣本。 在一個實施例中,自編碼網路採用圖1所示的結構,其中包括編碼器110,生成器120和解碼器130。在這樣的情況下,在步驟23,通過生成器120,在前述表徵空間K中生成模擬真實表徵向量的第二特徵向量G(z);然後,將該第二特徵向量G(z)輸入解碼器130,得到第一合成資料s。 在一個實施例中,生成器120獲取編碼器110輸出的多個真實樣本的表徵向量的資料分佈,在該資料分佈空間中,以一定的概率進行採樣,由此生成第二特徵向量G(z)。在另一實施例中,將雜訊信號輸入給生成器120,生成器120基於該雜訊信號,在上述表徵空間K中生成第二特徵向量G(z)。 通過以上方式生成的第二特徵向量G(z),可用於類比真實樣本在表徵空間K中的表徵向量。因此,當將第二特徵向量G(z)輸入解碼器130,解碼器130可以按照處理前述真實表徵向量E(x)一樣,對其進行解碼,從而得到與真實樣本資料形式相同的合成樣本s。 需要理解的是,上述步驟23與前述步驟21-22,可以以任何合理的相對順序執行,例如並行執行,在其之前或之後執行。 之後,在步驟24,將第一真實樣本x和第一合成樣本s分別輸入判別器,從而分別得到第一真實樣本屬於真實樣本的第一概率P1,以及,第一合成樣本s屬於真實樣本的第二概率P2。 需要理解,判別器用於區分輸入的樣本資料是真實樣本還是合成樣本。具體的,判別器通過輸出預測概率,來給出判別結果。通常,判別器輸出樣本資料為真實樣本的概率。在這樣的情況下,上述第一概率P1即為,將第一真實樣本x輸入判別器後,判別器的輸出概率;上述第二概率P2即為,將第一合成樣本s輸入判別器後,判別器的輸出概率。 在另一例子中,判別器也可以輸出樣本資料為合成樣本的概率。在這樣的情況下,上述第一概率P1可以理解為1-P1’,其中P1’為判別器針對第一真實樣本x的輸出概率;上述第二概率P2可以理解為1-P2’,其中P2’為判別器針對第一合成樣本s的輸出概率。 基於步驟22得到的樣本重構損失Lr,以及步驟24得到的第一概率P1和第二概率P2,可以分別確定用於訓練判別器的第一預測損失L1和用於訓練自編碼網路的第二預測損失L2。 可以理解,判別器的訓練目標是,盡量區分出真實樣本和合成樣本,因此,對於判別器來說,希望以上的第一概率P1盡可能大,第二概率P2盡可能小。因此,可以將第一預測損失L1設定為,與第一概率P1負相關,與第二概率P2正相關。如此,第一預測損失L1減小的方向,即為增大第一概率P1,減小第二概率P2的方向。 更具體的,在一個實施例中,第一預測損失可以設定為:
Figure 02_image001
其中,i為真實樣本,P1為各個真實樣本對應的第一概率,j為合成樣本,P2為各個合成樣本對應的第二概率。 另一方面,自編碼網路的訓練目標是,對於真實樣本,希望重構出更為接近的復原樣本,並且,希望判別器無法區分真實樣本和解碼器生成的合成樣本,因此,對於自編碼網路來說,希望前述的樣本重構損失Lr盡量小,並且,希望以上的第一概率P1盡可能小,第二概率P2盡可能大。因此,可以將第二預測損失L2設定為,與樣本重構損失和第一概率P1正相關,與第二概率P2負相關。如此,第二預測損失L2減小的方向,即為減小樣本重構損失,減小第一概率P1,增大第二概率P2的方向。 更具體的,在一個實施例中,第二預測損失可以設定為:
Figure 02_image003
如此,通過以上方式,得到了針對判別器的第一預測損失和針對自編碼網路的第二預測損失。通過以上第一預測損失L1和第二預測損失L2的定義可以看到,自編碼網路和判別器的訓練目標形成對抗。接下來,可以基於該第一和第二預測損失,確定使得損失減小的參數梯度,從而分別訓練判別器和自編碼網路。 創新性的,在本說明書的實施例中,在訓練過程中利用差分隱私的方式,在梯度中添加雜訊,根據含有雜訊的梯度來訓練資料生成系統。即,在步驟25,針對判別器對應的第一參數,利用差分隱私的方式,在以減小第一預測損失L1為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整第一參數;在步驟26,針對自編碼網路對應的第二參數,利用差分隱私的方式,在以減小第二預測損失L2為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整第二參數。如此,分別在判別器和自編碼網路中引入差分隱私的特性。 差分隱私(differential privacy)是密碼學中的一種手段,旨在提供一種當從統計資料庫查詢時,最大化資料查詢的準確性,同時最大限度減少識別其記錄的機會。設有隨機演算法M,PM為M所有可能的輸出構成的集合。對於任意兩個鄰近資料集D和D’以及PM的任何子集SM,若隨機演算法M滿足:Pr[M(D)∈SM]<=eε ×Pr[M(D’)∈SM],則稱演算法M提供ε-差分隱私保護,其中參數ε稱為隱私保護預算,用於平衡隱私保護程度和準確度。ε通常可以預先設定。ε越接近0,eε 越接近1,隨機演算法對兩個鄰近資料集D和D’的處理結果越接近,隱私保護程度越強。 差分隱私的實現方式包括,雜訊機制、指數機制等。為了在資料生成系統中引入差分隱私,根據本說明書的實施例,在此利用雜訊機制,通過在參數梯度中添加雜訊的方式,實現差分隱私。根據雜訊機制,雜訊可以體現為拉普拉斯雜訊,高斯雜訊,等等。根據一個實施例,在該步驟25中,通過在基於第一預測損失確定的梯度中添加高斯雜訊,在判別器中引入差分隱私。具體過程可以包括如下步驟。 首先,針對判別器對應的第一參數,可以根據前述第一預測損失L1,確定使得第一預測損失L1減小的第一原始梯度;然後,基於預設的裁剪閾值,對第一原始梯度進行裁剪,得到第一裁剪梯度;接著,利用基於第一裁剪閾值確定的高斯分佈,確定用於實現差分隱私的第一高斯雜訊,其中,高斯分佈的方差與第一裁剪閾值的平方正相關;然後,將由此得到的第一高斯雜訊與前述第一裁剪梯度疊加,得到第一雜訊梯度,用於更新判別器的第一參數。 更具體的,作為一個示例,假設針對由第一真實樣本x和第一合成樣本s構成的訓練集X,對於判別器得到的第一原始梯度為:
Figure 02_image005
其中,
Figure 02_image007
表示前述第一預測損失,
Figure 02_image009
為判別器中的參數,即第一參數。 如前所述,對原始梯度添加實現差分隱私的雜訊,可以通過諸如拉普拉斯雜訊、高斯雜訊等方式實現。在一個實施例中,以高斯雜訊為例,可以基於預設的裁剪閾值,對原始梯度進行梯度裁剪,得到裁剪梯度,再基於該裁剪閾值和預定的雜訊縮放係數(預先設定的超參),確定用於實現差分隱私的高斯雜訊,然後將裁剪梯度與高斯雜訊融合(例如求和),得到包含雜訊的梯度。可以理解的是,此種方式一方面對原始梯度進行裁剪,另一方面將裁剪後的梯度疊加,從而對梯度進行滿足高斯雜訊的差分隱私處理。 例如,將第一原始梯度進行梯度裁剪為:
Figure 02_image011
其中,
Figure 02_image013
表示裁剪後的梯度,即第一裁剪梯度,
Figure 02_image015
表示第一裁剪閾值,
Figure 02_image017
表示
Figure 02_image019
的二階範數。也就是說,在原始梯度小於或等於裁剪閾值
Figure 02_image015
的情況下,保留原始梯度,而在原始梯度大於裁剪閾值
Figure 02_image015
的情況下,將原始梯度按照大於裁剪閾值
Figure 02_image015
的比例裁剪到相應大小。 為第一裁剪梯度添加第一高斯雜訊,得到包含雜訊的第一雜訊梯度,例如為:
Figure 02_image021
其中,
Figure 02_image023
表示第一雜訊梯度;
Figure 02_image025
表示概率密度符合以0為均值、
Figure 02_image027
為方差的高斯分佈的第一高斯雜訊;
Figure 02_image029
表示上述雜訊縮放係數,為預先設定的超參,可以按需設定;
Figure 02_image015
為上述第一裁剪閾值;
Figure 02_image032
表示指示函數,可以取0或1,比如,可以設定在多輪訓練中的偶數輪次取1,而奇數輪次取0。 於是,可以使用添加高斯雜訊後的第一雜訊梯度,以最小化前述預測損失L1為目標,將判別器的第一參數
Figure 02_image034
調整為:
Figure 02_image036
其中,
Figure 02_image038
表示學習步長,或者說學習率,為預先設定的超參數,例如為0.5、0.3等。在梯度添加高斯雜訊滿足差分隱私的情況下,上述判別器的模型參數的調整滿足差分隱私。 另一方面,在步驟26,對於自編碼網路,可以以類似的方式,通過在梯度中添加雜訊,以差分隱私的方式調整自編碼網路的參數。具體的,在一個實施例中,針對自編碼網路的第二參數
Figure 02_image040
,確定使得前述第二預測損失L2減小的第二原始梯度
Figure 02_image042
,例如:
Figure 02_image044
然後,基於預設的第二裁剪閾值C2,對第二原始梯度進行裁剪,得到第二裁剪梯度
Figure 02_image046
。裁剪方式類似於以上公式(4),其中第二裁剪閾值C2與第一裁剪閾值C1獨立設置,可以相同或不同。接著,利用基於第二裁剪閾值確定的第二高斯分佈,確定用於實現差分隱私的第二高斯雜訊
Figure 02_image048
;將第二高斯雜訊與第二裁剪梯度疊加,得到第二雜訊梯度
Figure 02_image050
。於是,可以根據第二雜訊梯度,調整自編碼網路對應的第二參數。 以上描述了在針對自編碼網路的第二原始梯度中添加高斯雜訊,進而調整第二參數的方式。進一步的,在一個實施例中,如圖1所示,自編碼網路進一步包括編碼器110,生成器120和解碼器130,相應的,上述第二參數又可以劃分為編碼器參數,生成器參數和解碼器參數,各部分參數對應有各部分原始參數梯度。針對第二原始梯度添加雜訊,可以針對各個部分的原始參數梯度均添加雜訊,也可以僅針對其中部分原始參數梯度,例如解碼器對應的原始參數梯度,添加雜訊。 具體的,在一個實施例中,在步驟26,可以通過梯度反向傳播,分別確定自編碼網路中針對各個參數部分的各個原始參數梯度,包括,對應於解碼器參數的第三原始梯度,對應於編碼器參數的第四原始梯度,和對應於生成器參數的第五原始梯度。 然後,利用差分隱私的方式,在第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊,得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度。其中,添加雜訊的方式,可以參照以上描述的添加高斯雜訊的過程。於是,可以利用第三雜訊梯度,調整解碼器參數;利用第四雜訊梯度,調整編碼器參數;利用第五雜訊梯度,調整生成器參數。通過這樣的方式,在自編碼網路中引入差分隱私特性。 根據另一實施例,在步驟26中,在通過梯度反向傳播,分別確定出對應於解碼器參數的第三原始梯度,對應於編碼器參數的第四原始梯度,和對應於生成器參數的第五原始梯度之後,僅針對第三原始梯度,利用差分隱私的方式,在其中添加雜訊,得到對應的第三雜訊梯度。然後,利用該第三雜訊梯度,調整解碼器參數,從而在解碼器中引入差分隱私的特性。對於編碼器和生成器,則可以利用對應的原始參數梯度來更新,即利用第四原始梯度,調整編碼器參數;利用第五原始梯度,調整生成器參數。 需要理解,解碼器是自編碼網路中的核心模組,真實樣本通過該解碼器進行還原,合成樣本通過該解碼器而生成。因此,在解碼器中引入差分隱私,就使得整個自編碼網路具有了差分隱私的特性,同樣可以起到使得整個資料生成系統具有差分隱私特性的效果。 需要說明的是,實際操作中,步驟25中對判別器的訓練,和步驟26中對自編碼網路的訓練,可以是交替反覆運算進行的。例如,利用包含真實樣本和生成樣本的樣本集,對判別器進行m次反覆運算更新後,再對自編碼網路進行n次反覆運算更新,如此交複執行。對於判別器和自編碼網路的更新順序和反覆運算方式,在此不做限定。 在通過以上方式反復更新判別器和自編碼網路,直到達到預定的結束條件(例如反覆運算了預定次數,參數達到收斂,等等)後,就可以得到訓練後的資料生成系統。使用該資料生成系統生成樣本資料時,只需要利用其中的生成器生成雜訊向量,用解碼器解碼,就可以得到類比真實樣本的合成樣本資料。 回顧以上過程,通過自編碼網路來實現常規GAN中的生成模型,該自編碼網路可以借助於對真實樣本進行還原的編碼過程進行輔助訓練,從而得到高度類比真實樣本的合成資料。並且,在訓練過程中,通過差分隱私的梯度下降方式,在自編碼網路和判別器中分別引入了差分隱私,得到具有差分隱私特性的資料生成系統。由於引入了差分隱私,難以基於公開的模型反推或識別出訓練樣本的資訊,為模型提供了隱私保護。如此,得到了更為有效也更為安全的資料生成系統。 根據另一態樣的實施例,還提供一種基於差分隱私的資料生成系統的訓練裝置,所述資料生成系統包括自編碼網路和判別器,所述訓練裝置可以部署在任何具有計算、處理能力的裝置、設備、平臺、設備集群中。圖4示出根據一個實施例的資料生成系統的訓練裝置的示意性框圖。如圖4所示,訓練裝置400包括: 復原樣本獲取單元41,配置為將第一真實樣本輸入所述自編碼網路,得到第一復原樣本; 重構損失確定單元42,配置為根據所述第一真實樣本和所述第一復原樣本的比對,確定樣本重構損失; 合成樣本獲取單元43,配置為通過所述自編碼網路生成第一合成樣本; 概率獲取單元44,配置為將第一真實樣本輸入所述判別器,得到其屬於真實樣本的第一概率;以及,將所述第一合成樣本輸入所述判別器,得到其屬於真實樣本的第二概率; 第一參數調整單元45,配置為針對所述判別器對應的第一參數,利用差分隱私的方式,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,其中所述第一預測損失負相關於所述第一概率,正相關於所述第二概率; 第二參數調整單元46,配置為針對所述自編碼網路對應的第二參數,利用差分隱私的方式,在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,其中所述第二預測損失與所述樣本重構損失正相關,與所述第一概率正相關,且與所述第二概率負相關。 根據一種實施方式,所述自編碼網路包括編碼器,生成器和解碼器。在這樣的情況下,所述復原樣本獲取單元41可以配置為:將所述第一真實樣本對應的第一原始向量輸入所述編碼器,得到降維到第一表徵空間的第一特徵向量;將所述第一特徵向量輸入所述解碼器,得到所述第一復原樣本;所述合成樣本獲取單元43可以配置為:通過所述生成器生成在所述第一表徵空間中的第二特徵向量;將所述第二特徵向量輸入所述解碼器,得到所述第一合成資料。 進一步的,在一個實施例中,所述編碼器可以實現為第一多層感知機,其各層神經元數目逐層遞減;所述解碼器可以實現為第二多層感知機,其各層神經元數目逐層遞增。 根據一種實施方式,所述重構損失確定單元42具體配置為:確定所述第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離;將所述樣本重構損失確定為,正相關於所述向量距離。 在一種實施方式中,所述第一參數調整單元45具體配置為:針對所述第一參數,確定使得所述第一預測損失減小的第一原始梯度;基於預設的第一裁剪閾值,對所述第一原始梯度進行裁剪,得到第一裁剪梯度;利用基於所述第一裁剪閾值確定的第一高斯分佈,確定用於實現差分隱私的第一高斯雜訊;將所述第一高斯雜訊與所述第一裁剪梯度疊加,得到所述第一雜訊梯度。 類似的,所述第二參數調整單元46可以具體配置為:針對所述第二參數,確定使得所述第二預測損失減小的第二原始梯度;基於預設的第二裁剪閾值,對所述第二原始梯度進行裁剪,得到第二裁剪梯度;利用基於所述第二裁剪閾值確定的第二高斯分佈,確定用於實現差分隱私的第二高斯雜訊;將所述第二高斯雜訊與所述第二裁剪梯度疊加,得到所述第二雜訊梯度。 更具體的,在一個實施例中,所述第二參數具體包括,編碼器參數,生成器參數和解碼器參數。在一個例子中,所述第二參數調整單元46具體配置為:通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊,得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四雜訊梯度,調整所述編碼器參數;利用所述第五雜訊梯度,調整所述生成器參數。 在另一例子中,所述第二參數調整單元46具體配置為:通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度中添加雜訊,得到對應的第三雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四原始梯度,調整所述編碼器參數;利用所述第五原始梯度,調整所述生成器參數。 在各個不同實施例中,第一真實樣本可以是圖片樣本,音訊樣本,文本樣本,或業務物件樣本。 值得說明的是,圖4所示的裝置400是與圖2示出的方法實施例相對應的裝置實施例,圖2示出的方法實施例中的相應描述同樣適用於裝置400,在此不再贅述。 根據又一態樣的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2所描述的方法。 根據再一態樣的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現結合圖2所述的方法。 本領域技術人員應該可以意識到,在上述一個或多個示例中,本說明書實施例所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。 以上所述的具體實施方式,對本說明書的技術構思的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本說明書的技術構思的具體實施方式而已,並不用於限定本說明書的技術構思的保護範圍,凡在本說明書實施例的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本說明書的技術構思的保護範圍之內。
21:步驟 22:步驟 23:步驟 24:步驟 25:步驟 26:步驟 41:復原樣本獲取單元 42:重構損失確定單元 43:合成樣本獲取單元 44:概率獲取單元 45:第一參數調整單元 46:第二參數調整單元 100:自編碼網路 110:編碼器 120:生成器 130:解碼器 200:判別器 400:訓練裝置
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出進步性勞動的前提下,還可以根據這些附圖獲得其它的附圖。 [圖1]示出了根據本說明書技術構思的資料生成系統的架構示意圖; [圖2]示出根據一個實施例的基於差分隱私的資料生成系統的訓練方法的流程圖; [圖3]示出根據一個實施例的編碼器和解碼器的結構示意圖; [圖4]示出根據一個實施例的資料生成系統的訓練裝置的示意性框圖。
100:自編碼網路
110:編碼器
120:生成器
130:解碼器
200:判別器

Claims (18)

  1. 一種基於差分隱私的資料生成系統的訓練方法,所述資料生成系統包括自編碼網路和判別器,所述自編碼網路包括編碼器,生成器和解碼器;所述方法包括:將第一真實樣本對應的第一原始向量輸入所述編碼器,得到降維到第一表徵空間的第一特徵向量;將所述第一特徵向量輸入所述解碼器,得到第一復原樣本;根據所述第一真實樣本和所述第一復原樣本的比對,確定樣本重構損失;通過所述生成器基於雜訊信號生成在所述第一表徵空間中的第二特徵向量;將所述第二特徵向量輸入所述解碼器,得到第一合成樣本;將第一真實樣本輸入所述判別器,得到其屬於真實樣本的第一概率;以及,將所述第一合成樣本輸入所述判別器,得到其屬於真實樣本的第二概率;針對所述判別器對應的第一參數,利用差分隱私的方式,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,其中所述第一預測損失負相關於所述第一概率,正相關於所述第二概率;針對所述自編碼網路對應的第二參數,利用差分隱私的方式,在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,其中 所述第二預測損失與所述樣本重構損失正相關,與所述第一概率正相關,且與所述第二概率負相關。
  2. 根據請求項1所述的方法,其中,所述編碼器實現為第一多層感知機,其各層神經元數目逐層遞減;所述解碼器實現為第二多層感知機,其各層神經元數目逐層遞增。
  3. 根據請求項1所述的方法,其中,確定樣本重構損失,包括:確定所述第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離;將所述樣本重構損失確定為,正相關於所述向量距離。
  4. 根據請求項1所述的方法,其中,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,包括:針對所述第一參數,確定使得所述第一預測損失減小的第一原始梯度;基於預設的第一裁剪閾值,對所述第一原始梯度進行裁剪,得到第一裁剪梯度;利用基於所述第一裁剪閾值確定的第一高斯分佈,確定用於實現差分隱私的第一高斯雜訊;將所述第一高斯雜訊與所述第一裁剪梯度疊加,得到所述第一雜訊梯度。
  5. 根據請求項1所述的方法,其中,在以減 小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,包括:針對所述第二參數,確定使得所述第二預測損失減小的第二原始梯度;基於預設的第二裁剪閾值,對所述第二原始梯度進行裁剪,得到第二裁剪梯度;利用基於所述第二裁剪閾值確定的第二高斯分佈,確定用於實現差分隱私的第二高斯雜訊;將所述第二高斯雜訊與所述第二裁剪梯度疊加,得到所述第二雜訊梯度。
  6. 根據請求項1所述的方法,其中,所述第二參數包括,編碼器參數,生成器參數和解碼器參數;在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,包括:通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊,得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四雜訊梯度,調整所述編碼器參數;利用所述第五雜訊梯度,調整所述生成器參數。
  7. 根據請求項1所述的方法,其中,所述第 二參數包括,編碼器參數,生成器參數和解碼器參數;在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,包括:通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度中添加雜訊,得到對應的第三雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四原始梯度,調整所述編碼器參數;利用所述第五原始梯度,調整所述生成器參數。
  8. 根據請求項1所述的方法,其中,所述第一真實樣本包括以下之一:圖片樣本,音訊樣本,文本樣本,業務物件樣本。
  9. 一種基於差分隱私的資料生成系統的訓練裝置,所述資料生成系統包括自編碼網路和判別器,所述自編碼網路包括編碼器,生成器和解碼器;所述裝置包括:復原樣本獲取單元,配置為將第一真實樣本對應的第一原始向量輸入所述編碼器,得到降維到第一表徵空間的第一特徵向量;將所述第一特徵向量輸入所述解碼器,得到第一復原樣本;重構損失確定單元,配置為根據所述第一真實樣本和所述第一復原樣本的比對,確定樣本重構損失; 合成樣本獲取單元,配置為通過所述生成器基於雜訊信號生成在所述第一表徵空間中的第二特徵向量;將所述第二特徵向量輸入所述解碼器,得到第一合成樣本;概率獲取單元,配置為將第一真實樣本輸入所述判別器,得到其屬於真實樣本的第一概率;以及,將所述第一合成樣本輸入所述判別器,得到其屬於真實樣本的第二概率;第一參數調整單元,配置為針對所述判別器對應的第一參數,利用差分隱私的方式,在以減小第一預測損失為目標得到的梯度上添加雜訊,根據得到的第一雜訊梯度調整所述第一參數,其中所述第一預測損失負相關於所述第一概率,正相關於所述第二概率;第二參數調整單元,配置為針對所述自編碼網路對應的第二參數,利用差分隱私的方式,在以減小第二預測損失為目標得到的梯度上添加雜訊,根據得到的第二雜訊梯度調整所述第二參數,其中所述第二預測損失與所述樣本重構損失正相關,與所述第一概率正相關,且與所述第二概率負相關。
  10. 根據請求項9所述的裝置,其中,所述編碼器實現為第一多層感知機,其各層神經元數目逐層遞減;所述解碼器實現為第二多層感知機,其各層神經元數目逐層遞增。
  11. 根據請求項9所述的裝置,其中,所述重構損失確定單元配置為: 確定所述第一真實樣本對應的第一原始向量和所述第一復原樣本對應的第一復原向量之間的向量距離;將所述樣本重構損失確定為,正相關於所述向量距離。
  12. 根據請求項9所述的裝置,其中,所述第一參數調整單元配置為:針對所述第一參數,確定使得所述第一預測損失減小的第一原始梯度;基於預設的第一裁剪閾值,對所述第一原始梯度進行裁剪,得到第一裁剪梯度;利用基於所述第一裁剪閾值確定的第一高斯分佈,確定用於實現差分隱私的第一高斯雜訊;將所述第一高斯雜訊與所述第一裁剪梯度疊加,得到所述第一雜訊梯度。
  13. 根據請求項9所述的裝置,其中,所述第二參數調整單元配置為:針對所述第二參數,確定使得所述第二預測損失減小的第二原始梯度;基於預設的第二裁剪閾值,對所述第二原始梯度進行裁剪,得到第二裁剪梯度;利用基於所述第二裁剪閾值確定的第二高斯分佈,確定用於實現差分隱私的第二高斯雜訊;將所述第二高斯雜訊與所述第二裁剪梯度疊加,得到所述第二雜訊梯度。
  14. 根據請求項9所述的裝置,其中,所述第二參數包括,編碼器參數,生成器參數和解碼器參數;所述第二參數調整單元配置為:通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度、第四原始梯度和第五原始梯度中分別添加雜訊,得到對應的第三雜訊梯度、第四雜訊梯度和第五雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四雜訊梯度,調整所述編碼器參數;利用所述第五雜訊梯度,調整所述生成器參數。
  15. 根據請求項9所述的裝置,其中,所述第二參數包括,編碼器參數,生成器參數和解碼器參數;所述第二參數調整單元配置為:通過梯度反向傳播,分別確定對應於所述解碼器參數的第三原始梯度,對應於所述編碼器參數的第四原始梯度,和對應於所述生成器參數的第五原始梯度;利用差分隱私的方式,在所述第三原始梯度中添加雜訊,得到對應的第三雜訊梯度;利用所述第三雜訊梯度,調整所述解碼器參數;利用所述第四原始梯度,調整所述編碼器參數;利用所述第五原始梯度,調整所述生成器參數。
  16. 根據請求項9所述的裝置,其中,所述 第一真實樣本包括以下之一:圖片樣本,音訊樣本,文本樣本,業務物件樣本。
  17. 一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行根據請求項1-8中任一項的所述的方法。
  18. 一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現根據請求項1-8中任一項所述的方法。
TW110110849A 2020-05-06 2021-03-25 基於差分隱私的資料生成系統的訓練方法及裝置 TWI761151B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010373419.7A CN111523668B (zh) 2020-05-06 2020-05-06 基于差分隐私的数据生成系统的训练方法及装置
CN202010373419.7 2020-05-06

Publications (2)

Publication Number Publication Date
TW202143118A TW202143118A (zh) 2021-11-16
TWI761151B true TWI761151B (zh) 2022-04-11

Family

ID=71908527

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110110849A TWI761151B (zh) 2020-05-06 2021-03-25 基於差分隱私的資料生成系統的訓練方法及裝置

Country Status (3)

Country Link
CN (2) CN111523668B (zh)
TW (1) TWI761151B (zh)
WO (1) WO2021223663A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523668B (zh) * 2020-05-06 2021-08-20 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN112800468B (zh) * 2021-02-18 2022-04-08 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN113127931B (zh) * 2021-06-18 2021-09-03 国网浙江省电力有限公司信息通信分公司 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法
CN113408653A (zh) * 2021-07-12 2021-09-17 广东电网有限责任公司 一种自适应减少复杂光影干扰的识别方法及相关装置
CN113923476B (zh) * 2021-09-30 2024-03-26 支付宝(杭州)信息技术有限公司 一种基于隐私保护的视频压缩方法及装置
CN114841364B (zh) * 2022-04-14 2024-06-14 北京理工大学 一种满足个性化本地差分隐私需求的联邦学习方法
CN115033915B (zh) * 2022-06-06 2024-07-26 大连理工大学 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法
CN115238827B (zh) * 2022-09-16 2022-11-25 支付宝(杭州)信息技术有限公司 保护隐私的样本检测系统训练方法及装置
CN115499658B (zh) * 2022-09-20 2024-05-07 支付宝(杭州)信息技术有限公司 虚拟世界的数据传输方法及装置
CN115426205B (zh) * 2022-11-05 2023-02-10 北京淇瑀信息科技有限公司 一种基于差分隐私的加密数据生成方法及装置
CN115982757B (zh) * 2022-12-12 2023-07-07 支付宝(杭州)信息技术有限公司 一种模型的隐私保护程度的确定方法、装置及设备
CN117392979B (zh) * 2023-10-23 2024-07-19 深圳市茂捷智能科技有限公司 一种智慧语音led/lcd时钟及语音处理方法
CN117116350B (zh) * 2023-10-25 2024-02-27 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) Rna测序数据的校正方法、装置、电子设备及存储介质
CN117240982B (zh) * 2023-11-09 2024-01-26 沐城测绘(北京)有限公司 一种基于隐私保护的视频脱敏方法
CN118037573A (zh) * 2023-11-28 2024-05-14 北京航空航天大学 隐私保护的毫米波人体安检图像动态范围智能压缩方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107347077A (zh) * 2017-08-30 2017-11-14 郑州云海信息技术有限公司 一种基于用户权限的软件安全保护方法及设备
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
TW201828109A (zh) * 2017-01-19 2018-08-01 阿里巴巴集團服務有限公司 圖像檢索、獲取圖像資訊及圖像識別方法、裝置及系統
US20190327501A1 (en) * 2018-07-06 2019-10-24 Capital One Services, Llc Real-time synthetically generated video from still frames
TW202001694A (zh) * 2018-06-05 2020-01-01 美商光子智能股份有限公司 計算系統

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521106B2 (en) * 2014-10-24 2022-12-06 National Ict Australia Limited Learning with transformed data
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
US11468262B2 (en) * 2017-10-30 2022-10-11 Nec Corporation Deep network embedding with adversarial regularization
US11663483B2 (en) * 2018-10-30 2023-05-30 Huawei Technologies Co., Ltd. Latent space and text-based generative adversarial networks (LATEXT-GANs) for text generation
CN110348330B (zh) * 2019-06-24 2022-06-14 电子科技大学 基于vae-acgan的人脸姿态虚拟视图生成方法
CN110458904B (zh) * 2019-08-06 2023-11-10 苏州瑞派宁科技有限公司 胶囊式内窥镜图像的生成方法、装置及计算机存储介质
CN110572696B (zh) * 2019-08-12 2021-04-20 浙江大学 一种变分自编码器与生成对抗网络结合的视频生成方法
CN110969243B (zh) * 2019-11-29 2022-07-22 支付宝(杭州)信息技术有限公司 防止隐私泄漏的对抗生成网络的训练方法及装置
CN113159288B (zh) * 2019-12-09 2022-06-28 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置
CN111523668B (zh) * 2020-05-06 2021-08-20 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201828109A (zh) * 2017-01-19 2018-08-01 阿里巴巴集團服務有限公司 圖像檢索、獲取圖像資訊及圖像識別方法、裝置及系統
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN107347077A (zh) * 2017-08-30 2017-11-14 郑州云海信息技术有限公司 一种基于用户权限的软件安全保护方法及设备
TW202001694A (zh) * 2018-06-05 2020-01-01 美商光子智能股份有限公司 計算系統
US20190327501A1 (en) * 2018-07-06 2019-10-24 Capital One Services, Llc Real-time synthetically generated video from still frames

Also Published As

Publication number Publication date
CN113642731A (zh) 2021-11-12
CN111523668B (zh) 2021-08-20
CN111523668A (zh) 2020-08-11
WO2021223663A1 (zh) 2021-11-11
TW202143118A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
TWI761151B (zh) 基於差分隱私的資料生成系統的訓練方法及裝置
TWI764640B (zh) 基於差分隱私的異常檢測模型的訓練方法及裝置
Walker et al. Predicting video with vqvae
CN108765261B (zh) 图像变换方法和装置、电子设备、计算机存储介质
Bonettini et al. On the use of Benford's law to detect GAN-generated images
CN110084193A (zh) 用于面部图像生成的数据处理方法、设备和介质
Chen et al. Toward Robust Neural Image Compression: Adversarial Attack and Model Finetuning
Ororbia et al. Learned neural iterative decoding for lossy image compression systems
Monga et al. Robust image hashing via non-negative matrix factorizations
CN112101946A (zh) 联合训练业务模型的方法及装置
CN114897189A (zh) 模型训练方法、视频编码方法及解码方法
Yang et al. Provably secure robust image steganography
Mandelli et al. Multiple JPEG compression detection through task-driven non-negative matrix factorization
Ali et al. Image Denoising with Color Scheme by Using Autoencoders
Ororbia et al. Learned iterative decoding for lossy image compression systems
CN113554569B (zh) 基于双记忆字典的人脸图像复原系统
Zhao et al. Image and Video Tokenization with Binary Spherical Quantization
KR20240025629A (ko) 광학 흐름를 이용한 비디오 압축
CN113723604B (zh) 一种神经网络训练方法、装置、电子设备及可读存储介质
CN111539263B (zh) 一种基于聚合对抗网络的视频人脸识别方法
WO2022229495A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
Mahfuz et al. Mitigating gradient-based adversarial attacks via denoising and compression
Dumas et al. Shallow sparse autoencoders versus sparse coding algorithms for image compression
Broda et al. Universal statistical steganalytic method
WO2020122800A1 (en) A method, computer program, computer program product and system for representing visual information