TWI829558B

TWI829558B - 保護資料摘要的聯邦學習系統及其方法

Info

Publication number: TWI829558B
Application number: TW112109976A
Authority: TW
Inventors: 許之凡; 陳維超; 張明清
Original assignee: 英業達股份有限公司
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2024-01-11

Abstract

保護資料摘要的聯邦學習方法包括：協調裝置發送通用模型至多個客戶裝置，每個客戶裝置依據原始資料產生編碼特徵並執行訓練程序，訓練程序包括：「更新通用模型以產生客戶模型，當收到摘要請求時，選擇至少二編碼特徵、至少二標籤計算特徵加權和及標籤加權和，將摘要與客戶模型的更新參數送至協調裝置，摘要包括特徵加權和與雜訊的總和及標籤加權和」，以及協調裝置執行下列步驟：「判斷客戶裝置中的缺席客戶及出席客戶，依據通用模型及缺席客戶產生替代模型，依據出席客戶的客戶模型及替代模型產生聚合模型，訓練聚合模型以更新通用模型」。

Description

保護資料摘要的聯邦學習系統及其方法

本發明關於聯邦學習，特別是一種保護資料摘要的聯邦學習系統及其方法。

聯邦學習（Federated Learning，FL）藉由透過中央協作（orchestration）的跨設備及分散式學習（distributed learning）解決許多隱私和資料共享的問題。現有的聯邦學習系統大多假設客戶之間的協作設置可以容忍客戶（moderator）臨時斷開其與協調者（moderator）之間的連接。

然而，實務上，由於商業競爭或其他非技術性原因，可能會發生客戶長時間缺席或離開的情況。當資料在客戶之間不平衡、偏斜（skewed）或非獨立且相同分佈（non independent and identically distributed，non-IID）時，性能下降可能會很嚴重。

當協調者需要評估模型並將其發布給消費者時會出現另一個問題。由於協調者無法存取私人的客戶資料，當客戶停止協作時，代表性資料將丟失，從而導致聯邦學習的梯度更新大幅度的偏差和長期訓練退化。在訓練過程中記住梯度的簡單方法不是一個合適的解決方案，因為隨著迭代的進行，梯度很快地變得不具代表性。

總體而言，目前的聯邦學習仍無法在以下三種場景的組合中具有良好的表現：(1)不可靠的客戶；(2)刪除客戶後的訓練；及(3)增加客戶後的訓練。

有鑑於此，本發明提出一種保護資料摘要（digest）的聯邦學習系統及其方法，這是一種聯邦學習框架，藉由在協調者處合成代表性客戶資料解決客戶離開的問題。本發明提出一種特徵混合的解決方案以減少隱私問題，並使用特徵干擾的方法來保護摘要。

依據本發明實施例的一種保護資料摘要的聯邦學習方法包括下列步驟：協調裝置發送通用模型至多個客戶裝置，每個客戶裝置執行摘要生成器，從而依據多個原始資料產生多個編碼特徵，每個客戶裝置執行訓練程序，訓練程序包括：「依據原始資料、編碼特徵、對應編碼特徵的多個標籤及出席客戶損失函數更新通用模型以產生客戶模型，當收到摘要請求時，選擇至少二編碼特徵計算特徵加權和、計算特徵加權和與雜訊的總和、選擇至少二標籤計算標籤加權和，將總和及標籤加權和作為摘要發送至協調裝置，及發送客戶模型的更新參數至協調裝置」，以及協調裝置執行下列步驟：「判斷客戶裝置中的缺席客戶及出席客戶，依據通用模型、缺席客戶的摘要及缺席客戶損失函數產生替代模型，依據出席客戶的客戶模型的更新參數及替代模型的更新參數執行聚合運算以產生聚合模型，及依據協調裝置損失函數訓練聚合模型以更新通用模型」。

依據本發明實施例的一種保護資料摘要的聯邦學習系統包括多個客戶裝置及一協調裝置。每個客戶裝置包括第一處理器及第一通訊電路。第一處理器用於執行摘要生成器，從而依據多個原始資料產生多個編碼特徵。第一處理器更用於依據原始資料、編碼特徵、對應編碼特徵的多個標籤及出席客戶損失函數更新通用模型以產生客戶模型。當收到摘要請求時，第一處理器更用於選擇至少二編碼特徵計算特徵加權和、計算特徵加權和與雜訊的總和、選擇至少二標籤中計算標籤加權和。第一通訊電路電性連接於第一處理器。第一通訊電路用於將總和及標籤加權和作為摘要發送至協調裝置，以及發送客戶模型的更新參數至協調裝置。協調裝置通訊連接每個客戶裝置。協調裝置包括第二通訊電路及第二處理器。第二通訊電路用於發送通用模型至每個客戶裝置。第二處理器電性連接於第二通訊電路。第二處理器用於判斷客戶裝置中的缺席客戶及出席客戶，依據通用模型、缺席客戶的摘要及缺席客戶損失函數產生替代模型，依據出席客戶的客戶模型的更新參數及替代模型的更新參數執行聚合運算以產生聚合模型，以及依據協調裝置損失函數訓練聚合模型以更新通用模型。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及特點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

本發明的實施例的詳細說明中包含多個技術名詞，以下為這些技術名詞的說明：客戶：一個端點（endpoint），提供資料以加入分散式訓練或聯邦學習，又稱為客戶裝置。協調者（moderator）：一個服務提供者，從多個客戶收集模型以聚合成一個用於提供服務的通用模型，又稱為協調裝置。原始資料（raw data）：由客戶持有且需要被保護的資料，又稱為私有資料（private data）。摘要（digest）：一種可共享的代表性資料，用於代表原始資料。摘要中不包含隱私部分。摘要的維度通常低於原始資料，但不以此為限。導引（guidance）：在客戶缺席時支援模型訓練的資料。導引和原始資料通常具有相同的域（domain）。客戶模型：每個客戶擁有的模型，由客戶依據原始資料訓練而成。通用模型：協調者擁有的模型，由客戶模型聚合而成。隨機梯度下降（stochastic gradient decent，SGD）：一種優化程序，基於預定義的損失函數更新機器學習模型的參數。聯邦學習（Federated Learning，FL）：一種用於訓練機器學習模型的協作訓練架構，不共享客戶資料以保護資料隱私。機器學習：一個賦予電腦在沒有明確編寫程式的情況下學習的能力的研究領域。損失函數：用於訓練機器學習模型的優化程序的目標函數。差分隱私（Differential Privacy，DP），DP是隱私的嚴格數學定義。 DP 技術允許在不暴露任何單一樣本的情況下共享資料資訊。

本發明提出一種保護資料摘要的聯邦學習系統（本發明將其稱為FedDig 架構）及此系統的運作方法。圖1是依據本發明一實施例的保護資料摘要的聯邦學習系統的方塊圖。如圖1所示，保護資料摘要的聯邦學習系統包括多個客戶裝置Ci, Cj及一個協調裝置Mo。本發明不限制客戶裝置的數量，為便於說明，圖1繪示兩個客戶裝置Ci, Cj作為範例。

客戶裝置Ci, Cj的每一者的硬體架構基本上相同，以下採用圖1中的客戶裝置Ci為例說明，而客戶裝置Cj的實施範例可參考客戶裝置Ci。客戶裝置Ci包括第一處理器i1、第一通訊電路i2以及第一儲存電路i3。第一通訊電路i2電性連接第一處理器i1，第一儲存電路i3電性連接第一處理器i1及第一通訊電路i2。在一實施例中，可採用下列裝置中的一者作為客戶裝置Ci：伺服器、個人電腦、行動運算裝置以及任何用於訓練機器學習模型的電子裝置。

客戶裝置Ci用於收集原始資料，原始資料包括隱私部分和除了隱私部分之外的非隱私部分。例如：原始資料是積體電路圖，隱私部分是積體電路圖中的關鍵電路設計。例如：原始資料是產品設計圖、隱私部分是產品標誌（logo）。例如：原始資料是文本，隱私部分是個人資訊如姓名、電話及住址。

第一處理器i1用於執行摘要生成器（digest producer），從而依據多個原始資料產生多個編碼特徵。在圖1繪示的實施例中，摘要生成器是運行在處理器i1上的軟體，但本發明不限制執行摘要生成器的硬體。摘要生成器被儲存於儲存電路i3，或被儲存於處理器i1的內部記憶體中。

在一實施例中，可依據原始資料的類型，選擇適合的神經網路模型作為摘要生成器。例如當原始資料集為CIFAR-10（Canadian Institute for Advanced Research）時，可以選用EfficientNetV2作為摘要生成器；當原始資料集為EMINST（Extended Modified National Institute of Standards and Technology database）時，可以選用VGG16作為摘要生成器。

在一實施例中，原始資料直接被輸入至摘要生成器以產生編碼特徵。在另一實施例中，在將原始資料輸入至摘要生成器以產生編碼特徵之前，第一處理器i1對原始資料的隱私部分進行前處理。例如：當原始資料是影像時，前處理是從影像中移除掉（crop）隱私部分。例如：當原始資料是文本時，前處理是移除特定欄位或遮蔽特定字串。摘要生成器將一個原始資料轉換成一個編碼特徵。一般而言，原始資料的維度大於編碼特徵的維度。

假設原始資料的樣本數為K，在摘要生成器依據K個原始資料產生K個編碼特徵之後，第一處理器i1依據K個原始資料、K個編碼特徵、對應K個編碼特徵的K個標籤及一個出席客戶損失函數，更新來自協調裝置Mo的通用模型以產生客戶模型。在一實施例中，標籤數量K及標籤本身係由人為給定。

圖2是依據本發明一實施例的摘要生成器及客戶模型的架構圖。客戶模型包括第一特徵擷取器F _R、第二特徵擷取器F _D及分類器C。本發明不限制客戶模型的實施方式。例如：可採用EfficientNetV2或VGG16等神經網路模型作為客戶模型，這些神經網路模型本身已包含特徵擷取器（可作為上述的第一特徵擷取器F _R）及分類器的設計。至於第二特徵擷取器F _D，例如可採用ResNet, UNet, EfficientNet, MobieNet等神經網路模型中的特徵擷取器予以實作。如圖2所示，第一處理器i1將多個原始資料輸入至第一特徵擷取器F _R產生多個第一特徵（原始資料的數量與第一特徵F _R的數量相同）。第一處理器i1將多個原始資料輸入至摘要生成器產生多個編碼特徵。這些編碼特徵被輸入至第二特徵擷取器F _D以產生多個第二特徵。第一處理器i1再將第一特徵及第二特徵的連接（concatenation）結果輸入至分類器C以產生預測結果。第一處理器i1更輸入預測結果及實際結果至出席客戶損失函數，並依據出席客戶損失函數的輸出調整第一特徵擷取器F _R、第二特徵擷取器F _D及分類器C中至少一者的權重。在一實施例中，出席客戶損失函數如下方式一所示：

（式一）

其中為出席客戶損失函數，可以根據不同模型的用途選擇適合的損失函數，在一實施例中，採用交叉熵（cross entropy）作為，為客戶裝置Ci的客戶模型，為原始資料，為編碼特徵，代表預測結果，為實際結果（又稱為標籤）。通用模型完成訓練的條件是：出席客戶損失函數的輸出小於特定閾值。在客戶裝置Ci完成訓練的通用模型被稱為客戶模型，並被傳送至協調裝置Mo。

當第一通訊電路i2收到來自協調裝置Mo的摘要請求時，第一處理器i1更用於從編碼特徵中選擇至少二者計算特徵加權和（weighted sum）、從標籤中選擇至少二者計算標籤加權和，以及計算特徵加權和與一雜訊的總和。

在一實施例中，特徵加權和如下方式二所示，標籤加權和如下方式三所示：

（式二）

（式三）

其中，為特徵加權和，為標籤加權和，為權重，是編碼特徵，是標籤，代表每個摘要包含的樣本數量（Samples per Digest）。在一實施例中，權重被平均分配。例如：，則。但本發明不限制權重的設定方式。

圖3是依據本發明一實施例計算特徵加權和的示意圖。在此範例中，假設原始資料的樣本數為6，且。如圖3所示，摘要生成器依據六筆原始資料R1~R6分別產生六個編碼特徵r1~r6。第一處理器i1將六個編碼特徵r1~r6與六個預設權重分別執行乘法運算，再將r1~r3對應的三個乘法結果執行加法運算得到特徵加權和，將r4~r6對應的三個乘法結果執行加法運算得到特徵加權和。本發明並不限制第一處理器i1如何選擇符合數量的多個乘法結果進行加總運算。例如：在圖3的範例中，第一處理器可以隨機地選擇3個乘法結果，如r1, r3, r6對應的乘法結果，執行加法運算得到特徵加權和，再從剩餘的乘法結果中隨機地選擇3個乘法結果，如r2, r4, r5對應的乘法結果，執行加法運算得到特徵加權和。請注意：每次選擇的多個乘法結果彼此不會重複。換言之，若第一處理器在本次選擇了r1, r3, r6，則在後續的選擇中，曾經被選到的r1, r3, r6不會再一次被選擇到。這種作法可以確保特徵加權和的安全性。若無法整除樣本數量，則未被選取到的剩餘編碼特徵會被捨棄。

在一實施例中，特徵加權和與雜訊的總和如下方式四所示：

（式四）

其中，為特徵加權和，為雜訊，為特徵干擾（feature perturb）函數，為控制雜訊程度的參數，為特徵加權和與雜訊的總和。在一實施例中，特徵干擾函數是差分隱私的拉普拉斯機制（Laplace mechanism）或高斯機制（Gaussian mechanism）。當特徵干擾函數是拉普拉斯機制時，式四可以改寫如下方式五：

（式五）

在其他實施例中，可以是任何引入特徵干擾的函數。在第一處理器i1完成式二至式四的計算之後，可以將總和及標籤加權和的配對（pair）作為一個摘要，透過第一通訊電路i2輸出。

在一實施例中，可以採用下列裝置中的一者作為第一處理器i1：特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、數位訊號處理器(Digital Signal Processor，DSP)、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)及系統晶片(system-on-a-chip， SOC)、深度學習加速器（deep learning accelerator）。

第一通訊電路i2用於將總和及標籤加權和作為摘要發送至協調裝置Mo，以及發送客戶模型的更新參數至協調裝置Mo。在一實施例中，更新參數例如是模型的梯度（gradient）或權重。第一通訊電路i2更用於從協調裝置Mo接收通用模型以及更新後的通用模型。在一實施例中，第一通訊電路i2透過有線網路或無線網路進行上述的傳送接收任務。

第一儲存電路i3用於儲存原始資料、摘要、通用模型以及客戶模型。在一實施例中，可以採用下列裝置中的一者作為儲存電路i3：動態隨機存取記憶體（Dynamic Random Access Memory，DRAM）、靜態隨機存取記憶體（Static Random Access Memory，SRAM）、雙倍資料率同步動態隨機存取記憶體（Double Data Rate Synchronous Dynamic Random Access Memory，DDR SDRAM）、快閃記憶體及硬碟。

協調裝置Mo通訊連接至每一個客戶裝置Ci, Cj。協調裝置Mo包括第二處理器M1、第二通訊電路M2以及第二儲存電路M3。第二處理器M1電性連接第二通訊電路M2，第二儲存電路M3電性連接第二處理器M1及第二通訊電路M2。協調裝置Mo及其內部元件M1, M2, M3的硬體實作範例可參考客戶裝置Ci及其內部元件i1, i2, i3，在此不重複敘述。

第二處理器M1用於判斷客戶裝置Ci, Cj中的缺席客戶及出席客戶。在一實施例中，第二處理器M1檢查第二通訊電路M2與每個客戶裝置Ci的通訊連線狀況，從而判斷所有客戶裝置Ci, Cj中的一或多者是否斷開連線。保持連線的客戶裝置Ci被稱為出席客戶，斷開連線的客戶裝置Cj被稱為缺席客戶。

第二處理器M1用於執行導引生成器（guidance producer），從而依據缺席客戶的摘要產生導引。在聯邦學習的訓練初期，每個客戶裝置Ci都會將原始資料轉換為摘要並發送至協調裝置Mo，因此，從摘要復原的導引相當於原始資料中具有代表性的部分，且不包含原始資料中的隱私部分。在協調裝置Mo更新通用模型時，導引生成器與通用模型一起接受訓練，其細節容後詳述。在圖1繪示的實施例中，導引生成器是運行在第二處理器M1上的軟體，本發明不限制執行導引生成器的硬體。導引生成器被儲存於第二儲存電路M3，或被儲存於第二處理器M1的內部記憶體中。由於導引生成器可以生成代表客戶裝置的原始資料的導引，因此導引生成器必須受到協調裝置Mo的保護，避免被未經授權的客戶存取，從而避免潛在的資料洩漏或對抗性攻擊（adversarial attack）。

在聯邦學習的訓練初期，第二處理器M1更用於初始化通用模型，並透過第二通訊電路M2將通用模型發送至每個客戶裝置Ci。在聯邦學習的訓練過程中，若第二處理器M1判斷出缺席客戶Cj，則第二處理器M1依據通用模型、缺席客戶Cj的摘要及缺席客戶損失函數產生替代模型。

圖4是依據本發明一實施例的導引生成器及替代模型的架構圖。替代模型包括第一特徵擷取器F _R、第二特徵擷取器F _D以及分類器C。如圖4所示。第二處理器M1用於輸入缺席客戶Cj的摘要至導引生成器以產生導引，輸入導引至第一特徵擷取器F _R以產生第一特徵，輸入缺席客戶Cj的摘要至第二特徵擷取器F _D以產生第二特徵，再將第一特徵及第二特徵的連接結果輸入至分類器C以產生預測結果。第二處理器M1更輸入預測結果及實際結果至缺席客戶損失函數，並依據缺席客戶損失函數的輸出調整第一特徵擷取器F _R、第二特徵擷取器F _D及分類器C中至少一者的權重。在一實施例中，缺席客戶損失函數如下方式六所示：

（式六）

其中，為缺席客戶函數，可以根據不同模型的用途選擇適合的損失函數，在一實施例中，採用交叉熵作為，為替代模型（假設缺席客戶為客戶裝置Cj），為導引生成器，為缺席客戶Cj對應的摘要，代表導引，代表替代模型的預測結果，為實際結果。替代模型完成訓練的條件是：缺席客戶損失函數的輸出小於特定閾值。完成訓練的通用模型被稱為替代模型。

綜觀而言，若客戶裝置不是缺席客戶，則客戶裝置自行依據通用模型及原始資料訓練得到客戶模型；而若客戶裝置成為缺席客戶，則協調裝置代替缺席客戶，並依據代表原始資料的摘要產生導引，依據通用模型及導引訓練得到替代模型。從圖2及圖4可看出客戶模型與替代模型具有相同架構，因為這兩個模型都是基於通用模型訓練而產生，差別在於使用不同的訓練資料。

第二處理器M1更用於依據通用模型、出席客戶的客戶模型的更新參數及缺席客戶的替代模型的更新參數執行聚合（aggregation）運算以產生聚合模型。在一實施例中，模型的更新參數例如是梯度（gradient）或權重。在一實施例中，聚合運算如下方式七所示：

（式七）

其中，為聚合模型，為通用模型，為出席客戶對應的權重，為出席客戶的客戶模型的更新參數，為缺席客戶Cj對應的權重，為缺席客戶Cj的替代模型的更新參數，為訓練的迭代次數。

在一實施例中，出席客戶對應的權重及缺席客戶Cj對應的權重滿足下方式八：

（式八）

在其他實施例中，聚合運算可採用FedAvg演算法、FedProx演算法或FedNova演算法，本發明不限制聚合運算的方式。

第二處理器M1更用於依據協調裝置損失函數訓練聚合模型以更新通用模型。在一實施例中，協調裝置損失函數如下方式九所示：

（式九）

其中，為協調裝置損失函數，可以根據不同模型的用途選擇適合的損失函數，在一實施例中，採用交叉熵作為，為聚合模型，為導引生成器，為所有客戶裝置的總和（如前所述，每個總和是一個客戶裝置的特徵加權和與雜訊相加的結果），為所有客戶裝置的標籤加權和。通用模型完成更新的條件為：協調裝置損失函數的輸出小於特定閾值。請注意：在訓練過程中協調裝置損失函數的輸出逐漸減少，此過程也實現了對導引生成器的訓練。

第二通訊電路M2用於發送通用模型、摘要生成器至客戶裝置Ci, Cj的每一者。換言之，協調裝置Mo與每個客戶裝置Ci擁有相同的摘要生成器。另外，在聯邦學習的訓練初期，第二處理器M1控制第二通訊電路M2發送摘要請求至每個客戶裝置Ci，然後接收每個客戶裝置Ci回傳的摘要。

第二儲存電路M3用於儲存所有客戶裝置Ci, Cj的摘要，更儲存摘要生成器、導引、通用模型及替代模型。

圖5及圖6是依據本發明一實施例的保護資料摘要的聯邦學習系統的概觀圖。圖5及圖6分別代表訓練過程中的兩個相異時間，且圖6對應的時間點晚於圖5對應的時間點。圖 5及圖6 顯示了FedDig訓練時的兩種情況，其中圖5是在客戶裝置Ci, Cj可用時收集摘要，圖6是在客戶裝置Cj缺席時使用導引繼續訓練。

在圖5代表的時間點之前，客戶裝置Ci已從協調裝置Mo接收通用模型。在圖5代表的時間點，客戶裝置Ci, Cj皆存在並各自進行訓練。以客戶裝置Ci為例，摘要生成器將多個原始資料轉換為多個編碼特徵，再混合這些編碼特徵成為摘要並發送至協調裝置Mo。客戶裝置Ci依據原始資料、編碼特徵及通用模型執行訓練，從而產生客戶模型。客戶裝置Cj的運作與客戶裝置Ci相同，在此不重複敘述。

協調裝置Mo從客戶裝置Ci, Cj接收摘要並儲存。協調裝置Mo從客戶裝置Ci, Cj接收客戶模型的更新參數，並依據這些客戶模型的更新參數執行聚合運算，從而更新通用模型。最終，訓練完成的通用模型可部署在消費者U的裝置。

在圖6代表的時間點，客戶裝置Ci為出席客戶，客戶裝置Cj離開而成為缺席客戶。因此，協調裝置Mo的導引生成器依據缺席客戶Cj對應的摘要產生導引，協調裝置Mo再依據缺席客戶Cj對應的摘要及導引產生替代模型，以及依據替代模型及出席客戶的客戶模型執行聚合運算，從而更新通用模型。

如此一來，無論客戶裝置Cj是否存在，本發明提出的保護資料摘要的聯邦學習系統的訓練都不會中斷。

圖7是依據本發明一實施例的保護資料摘要的聯邦學習方法的流程圖，包括步驟S1至步驟S7。步驟S1是「協調裝置發送通用模型及摘要生成器至每個客戶裝置」，步驟S2是「每個客戶裝置執行摘要生成器產生編碼特徵」，步驟S3是「每個客戶裝置執行訓練程序以產生客戶模型」，步驟S4是「協調裝置判斷客戶裝置中的缺席客戶及出席客戶」，步驟S5是「協調裝置依據缺席客戶的摘要及通用模型產生替代模型」，步驟S6是「協調裝置依據通用模型、出席客戶的客戶模型的更新參數及替代模型的更新參數執行聚合運算以產生聚合模型」，以及步驟S7是「協調裝置訓練聚合模型以更新通用模型，並發送更新的通用模型至每個客戶裝置」。

聯邦學習的訓練包括多次迭代程序，而圖7的步驟S3~S7展示了迭代程序其中一次的細節。在一實施例中，圖7所示的方法可採用圖1、圖5及圖6所示的系統。

在一實施例中，步驟S1被執行於聯邦學習的第一次迭代程序。在步驟S1中，協調裝置初始化一個通用模型，並將此通用模型發送至每個客戶裝置。另外，為了確保所有客戶裝置擁有相同的摘要生成器，協調裝置發送摘要生成器至每個客戶裝置。

在步驟S2中，每個客戶裝置將多個原始資料輸入至摘要生成器以產生多個編碼特徵，再從這些編碼特徵中依據指定數量選擇數個編碼特徵進行混合，從而產生摘要發送至協調裝置。在一實施例中，步驟S2被執行於聯邦學習的第一次迭代程序。在另一實施例中，若客戶裝置從協調裝置接收到摘要請求，則執行步驟S2。

在步驟S3中，訓練程序的細節請參考圖8。圖8是步驟S3的細部流程圖，包括步驟S31至步驟S36。在步驟S31中，客戶裝置依據多個原始資料、多個編碼特徵、對應這些編碼特徵的多個標籤及出席客戶損失函數更新通用模型以產生客戶模型。步驟S31的執行細節請參考圖9。圖9是步驟S31的細部流程圖，包括步驟S311至步驟S314。步驟S311是「輸入原始資料至第一特徵擷取器以產生第一特徵」，步驟S312是「輸入編碼特徵至第二特徵擷取器以產生第二特徵」，步驟S313是「將第一特徵及第二特徵的連接結果輸入至分類器以產生預測結果」，步驟S314是「輸入預測結果及實際結果至出席客戶損失函數，並依據出席客戶損失函數的輸出調整第一特徵擷取器、第二特徵擷取器及分類器中至少一者的權重」。

在步驟S32中，客戶裝置判斷「是否收到摘要請求？」，若判斷為「是」則執行步驟S33，若判斷為「否」則執行步驟S35。在步驟S33中，客戶裝置從多個編碼特徵中選擇至少二編碼特徵以計算特徵加權和、從多個標籤中選擇至少二標籤以計算標籤加權和。在步驟S34中，客戶裝置計算特徵加權和與雜訊相加的總和。在步驟S35中，客戶裝置將總和及標籤加權和作為摘要發送至協調裝置。在步驟S36中，客戶裝置將客戶模型的更新參數發送至協調裝置。

在步驟S4中，協調裝置偵測本身與每個客戶裝置的連線狀況，並將保持連線的客戶裝置判斷為出席客戶，斷開連線的客戶裝置判斷為缺席客戶。

在步驟S5中，產生替代模型的細節請參考圖10。圖10是步驟S5的細部流程圖，包括步驟S51至步驟S55。步驟S51是「輸入缺席客戶的摘要至導引生成器以產生導引」步驟S52是「輸入導引至第一特徵擷取器以產生第一特徵」，步驟S53是「輸入缺席客戶的摘要至第二特徵擷取器以產生第二特徵」，步驟S54是「將第一特徵及第二特徵的連接結果輸入至分類器以產生預測結果」，步驟S55是「輸入預測結果及實際結果至缺席客戶損失函數，並依據缺席客戶損失函數的輸出調整第一特徵擷取器、第二特徵擷取器及分類器中至少一者的權重」。

在步驟S6中，產生聚合模型的細節請參考圖11。圖11是步驟S6的細部流程圖，包括步驟S61至步驟S63。步驟S61是「計算每個出席客戶的客戶模型的更新參數及第一權重的第一加權和」，步驟S62是「計算替代模型的更新參數及第二權重的第二加權和」，步驟S63是「加總通用模型的參數、第一加權和及第二加權和以產生聚合模型的參數」。

在步驟S7中，更新通用模型的細節請參考圖12。圖12是步驟S7的細部流程圖，包括步驟S71至步驟S73。步驟S71是「輸入每個客戶裝置的摘要至導引生成器以產生導引」，步驟S72是「輸入導引及每個客戶裝置的摘要至聚合模型以產生預測結果」，步驟S73是「輸入預測結果及實際結果至該協調裝置損失函數，並依據協調裝置損失函數的輸出調整聚合模型的參數，並更新導引生成器」。在步驟S73完成之後，可將完成訓練的聚合模型作為更新後的通用模型傳送至每個客戶裝置。

下方的演算法為本發明一實施例的保護同義資料的聯邦學習方法的虛擬碼（pseudo code）：

01	Initialize: and
02	forEach training iteration do
03	Moderator pushes server model to all clients
04	(Client side)
05	foravailable client = 1, 2, …, n in parallel do
06	Generate encoded features
07	Generate with loss and update
08	Push model gradient to the moderator
09	if then
10	Produce digests )
11	Push to the moderator
12	end if
13	end for
14	(Moderator side)
15	forabsent client = 1, 2, …, k in parallel do
16	ifthe digests exists then
17	Generate replacement model from
18	Generate with loss and update
19	end if
20	end for
21	Moderator updates with , , and
22	Moderator updates with loss
23	Moderator updates
24	end for

其中，為初始化的通用模型，為初始化的導引生成器，為迭代次數，為第次迭代時的通用模型，n為客戶裝置的數量，為編碼特徵，為摘要生成器，為原始資料，為出席客戶的客戶模型的更新參數，為出席客戶損失函數，為出席客戶裝置Ci的客戶模型，為出席客戶裝置Ci的摘要，為特徵加權和與雜訊相加的總和，為標籤加權和，k為缺席客戶的數量，為缺席客戶的摘要，為缺席客戶Cj的替代模型，為缺席客戶的替代模型的更新參數，為缺席客戶損失函數，為聚合模型，為協調裝置損失函數，為通用模型更新後的參數，為更新後於第次迭代時發送給客戶裝置的通用模型。

請一併參考圖8至圖12及上方的演算法。演算法的第3行對應於步驟S1，第4至6行對應於步驟S2，第7~11行對應於步驟S3，其中第7行對應於步驟S31，第8行對應於步驟S36，第9行對應於步驟32，第10行對應於步驟S33和步驟S34，第11行對應於步驟S35，第14至15行對應於步驟S4，第16至18行對應於步驟S5，第21行對應於步驟S6，第22至23行對應至步驟S7。

綜上所述，本發明提出一種保護同義資料的聯邦學習方法，這是一種聯邦學習框架，藉由在協調裝置合成代表性客戶資料解決客戶離開的問題。本發明提出一種資料記憶機制來有效地處理客戶缺席。具體來說，本發明處理以下三種場景：1. 不可靠的客戶、2. 移除客戶後的訓練；以及3. 增加客戶後進行訓練。

本發明在聯邦學習訓練期間處理潛在客戶缺席的解決方案是將原始資料和相應標籤等資訊編碼和混合為資料摘要，並在摘要中加入特徵擾亂的機制。當客戶離開時，協調裝置可以從這些資料摘要中恢復資訊以生成訓練導引，從而減輕由於缺少資料導致模型準確率下降。由於摘要在協調裝置端共享和儲存以供訓練使用，因此不能從摘要中恢復可能導致資料隱私洩漏的資訊。為了增加資料摘要的隱私保護，本發明藉由通過混合從原始資料中提取的特徵來引入樣本干擾，而且加入基於差分隱私產生的雜訊來保護資料摘要的隱私性。此外，本發明在現有的聯邦學習的訓練過程中加入可訓練的導引生成器，以便協調裝置可以學習從摘要中自動提取資訊並生成訓練用的導引。本發明提出的摘要和導引適用於大多數的的聯邦學習系統。

圖13是基於不同方式重建的導引與原始資料的示意圖。如圖13所示，R0代表原始資料的樣本，包括16個手寫字。G _mix代表依據只有編碼特徵混合的摘要重建出的導引。G1代表依據編碼特徵混合並加入拉普拉斯雜訊的摘要重建出的導引，其中控制雜訊程度的參數設定為0.005。由圖13可看出，G1相較於G _mix在視覺上更難以辨識出其對應於原始樣本的特徵。

圖14(a)至圖14(c)是改變特徵干擾方法的參數所呈現的視覺結果圖，從圖中可以明顯地看出視覺品質的退化。圖14(a)是原始資料的樣本，圖14(b)是加入設定為0.005的雜訊後的結果，圖14(c)是加入設定為0.0005的雜訊後的結果。如圖14(a)至圖14(c)所示，設定值愈小，相當於加入的雜訊愈多。實務上，可依據客戶裝置擁有的原始資料的性質，適應性的決定的設定值。換言之，本發明可以透過調整的設定值，控制不同的隱私級別以滿足使用者的隱私需求。

圖15展示將摘要加入不同程度的雜訊後的模型的測試精確度。測試精確度是評估機器學習模型效能的量化指標。如圖15所示，未使用特徵混合，只有加入雜訊，且設定為0.005時，測試精確度約為87%。未使用特徵混合，只有加入雜訊，且設定為0.0005時，測試精確度約為83%，只有使用特徵混合而未加入雜訊時，模型精確度約為77%，使用特徵混合並加入雜訊（本發明採用的方式），且設定為0.005時，測試精確度約為78%。從圖15可知，在使用特徵混合的機制下，加入設定為0.005的雜訊，對於模型的測試精確度影響並不嚴重（從77%上升至78%）。另外，由圖15左邊兩個長條圖可得知，設定值的大小對於測試精確度的影響程度。

在聯邦學習的訓練過程，常見下列四種訓練場景：1. 客戶在聯邦學習的訓練期間暫時離開；2. 客戶永遠離開訓練；3. 所有客戶循序離開訓練；4. 多個客戶群在不同的時間段加入訓練。圖16(a)至圖16(d)分別對應於上述四個場景，並呈現通用模型的準確率，其中C0、C1、C2及C3代表不同的客戶裝置，使用的資料集為EMNIST。在圖16(a)至圖16(d)的測試中，具有最大資料量的客戶裝置被要求離開系統，藉此凸顯客戶裝置離開對於效能的影響。如圖16(a)至圖16(d)所能觀察到的，FedAvg、FedNova、FedProx 等常見的聯邦學習演算法都無法在四個場景中的測試準確度上存活下來。另一方面，本發明提出的保護資料摘要的聯邦學習方法（FedDig）在各個場景中都實現了穩定的測試精確度。上述的實驗結果顯示了本發明提出的聯邦學習方法的強健性（robustness）。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

Ci, Cj, C0, C1, C2, C3:客戶裝置 :摘要生成器 i1, j1:第一處理器 i2, j2:第一通訊電路 i3, j3:第一儲存電路 Mo:協調裝置 :導引生成器 M1:第二處理器 M2:第二通訊電路 M3:第二儲存電路 , R1~R6:原始資料 , r1~r6:編碼特徵 d1~d6:特徵編碼加權和 F _R:第一特徵擷取器 F _D:第二特徵擷取器 C:分類器 :客戶模型 :客戶模型的預測結果 w1~w6:權重 :替代模型的預測結果 :客戶裝置的摘要 :特徵加權和與雜訊的總和 :所有客戶裝置的導引 :缺席客戶的導引 :通用模型 :替代模型 U:消費者 S1~S7,S31~S36,S311~S314,S51~S55,S61~S63,S71~S73:步驟 G1, G _mix:導引視覺圖

圖1是依據本發明一實施例的保護資料摘要的聯邦學習系統的方塊圖；圖2是依據本發明一實施例的摘要生成器及通用模型的架構圖；圖3是依據本發明一實施例計算特徵加權和的示意圖；圖4是依據本發明一實施例的導引生成器及通用模型的架構圖；圖5及圖6是依據本發明一實施例的保護資料摘要的聯邦學習系統的概觀圖；圖7是依據本發明第一實施例的保護資料摘要的聯邦學習方法的流程圖；圖8是圖7中步驟的細部流程圖；圖9是圖8中步驟的細部流程圖；圖10是圖7中步驟的細部流程圖；圖11是圖7中步驟的細部流程圖；圖12是圖7中步驟的細部流程圖；圖13是基於不同方式重建的導引與原始資料的示意圖；圖14(a)至圖14(c)是改變特徵干擾方法的參數所呈現的視覺結果圖；圖15展示將摘要加入不同程度的雜訊後的模型的測試精確度；以及圖16(a)至圖16(d)是不同訓練場景的模型性能比對圖。

S2,S3,S31~S36,S4:步驟

Claims

一種保護資料摘要的聯邦學習方法，包括：協調裝置發送通用模型至多個客戶裝置；該些客戶裝置的每一者執行摘要生成器，從而依據多個原始資料產生多個編碼特徵；該些客戶裝置的每一者執行訓練程序，該訓練程序包括：依據該些原始資料、該些編碼特徵、對應該些編碼特徵的多個標籤及出席客戶損失函數更新該通用模型以產生客戶模型；當收到摘要請求時，從該些編碼特徵中選擇至少二者計算特徵加權和、計算該特徵加權和與一雜訊的總和、從該些標籤中選擇至少二者計算標籤加權和，將該總和及該標籤加權和作為摘要發送至該協調裝置；及發送該客戶模型的更新參數至該協調裝置；以及該協調裝置執行下列步驟：判斷該些客戶裝置中的缺席客戶及出席客戶；依據該缺席客戶的該摘要及缺席客戶損失函數產生替代模型；依據該出席客戶的該客戶模型的該更新參數及該替代模型的更新參數執行聚合運算以產生聚合模型；及依據協調裝置損失函數訓練該聚合模型以更新該通用模型。
如請求項1的保護資料摘要的聯邦學習方法，更包括：依據差分隱私的拉普拉斯機制或高斯機制產生該雜訊。
如請求項1的保護資料摘要的聯邦學習方法，其中該通用模型包括第一特徵擷取器、第二特徵擷取器及分類器；且依據該些原始資料、該些編碼特徵、對應該些編碼特徵的該些標籤及該出席客戶損失函數更新該通用模型以產生該客戶模型之步驟包括下列子步驟：輸入該些原始資料至該第一特徵擷取器以產生第一特徵；輸入該些編碼特徵至該第二特徵擷取器以產生第二特徵；將該第一特徵及該第二特徵的連接結果輸入至該分類器以產生預測結果；以及輸入該預測結果及實際結果至該出席客戶損失函數，並依據該出席客戶損失函數的輸出調整該第一特徵擷取器、該第二特徵擷取器及該分類器中至少一者的權重。
如請求項1的保護資料摘要的聯邦學習方法，其中該通用模型包括第一特徵擷取器、第二特徵擷取器及分類器；且依據該缺席客戶的該摘要及缺席客戶損失函數產生該替代模型包括：輸入該缺席客戶的該摘要至導引生成器以產生導引；輸入該導引至該第一特徵擷取器以產生第一特徵；輸入該缺席客戶的該摘要至第二特徵擷取器以產生第二特徵；將該第一特徵及該第二特徵的連接結果輸入至該分類器以產生預測結果；以及輸入該預測結果及實際結果至該缺席客戶損失函數，並依據該缺席客戶損失函數的輸出調整該第一特徵擷取器、該第二特徵擷取器及該分類器中至少一者的權重，其中該替代模型為更新權重後的該通用模型。
如請求項1的保護資料摘要的聯邦學習方法，其中依據該出席客戶的該客戶模型的該更新參數及該替代模型的該更新參數執行該聚合運算以產生該聚合模型包括：計算該出席客戶的該客戶模型的該更新參數及第一權重的第一加權和；計算該替代模型的該更新參數及第二權重的第二加權和；以及加總該通用模型的參數、該第一加權和及該第二加權和以產生該聚合模型的參數。
如請求項1的保護資料摘要的聯邦學習方法，其中依據協調裝置損失函數訓練該聚合模型以更新該通用模型包括：輸入該些客戶裝置的每一者的該摘要至導引生成器以產生導引；輸入該導引及該些客戶裝置的每一者的該摘要至該聚合模型以產生預測結果；以及輸入該預測結果及實際結果至該協調裝置損失函數，並依據該協調裝置損失函數的輸出調整該聚合模型的參數。
一種保護資料摘要的聯邦學習系統，包括：多個客戶裝置以及一協調裝置；其中該些客戶裝置的每一者包括：第一處理器，用於執行摘要生成器，從而依據多個原始資料產生多個編碼特徵；該第一處理器更用於依據該些原始資料、該些編碼特徵、對應該些編碼特徵的多個標籤及出席客戶損失函數更新一通用模型以產生客戶模型；當收到摘要請求時，該第一處理器更用於從該些編碼特徵中選擇至少二者計算特徵加權和、計算該特徵加權和與一雜訊的總和、從該些標籤中選擇至少二者計算標籤加權和；及第一通訊電路，電性連接於該第一處理器，用於將該總和及該標籤加權和作為摘要發送至該協調裝置，發送該客戶模型的更新參數至該協調裝置；其中該協調裝置通訊連接該些客戶裝置中的每一者，且該協調裝置包括：第二通訊電路，用於發送該通用模型至該些客戶裝置的每一者；以及第二處理器，電性連接於該第二通訊電路，該第二處理器用於判斷該些客戶裝置中的缺席客戶及出席客戶，依據該通用模型、該缺席客戶的該摘要及缺席客戶損失函數產生替代模型，依據該出席客戶的該客戶模型的該更新參數及該替代模型的更新參數執行聚合運算以產生聚合模型，及依據協調裝置損失函數訓練該聚合模型以更新該通用模型。
如請求項7的保護資料摘要的聯邦學習系統，其中該第一處理器更依據差分隱私的拉普拉斯機制或高斯機制產生該雜訊。
如請求項8的保護資料摘要的聯邦學習系統，其中該通用模型包括第一特徵擷取器、第二特徵擷取器及分類器，且該第一處理器更用於：輸入該些原始資料至該第一特徵擷取器以產生第一特徵；輸入該些編碼特徵至該第二特徵擷取器以產生第二特徵；將該第一特徵及該第二特徵的連接結果輸入至該分類器以產生預測結果；以及輸入該預測結果及實際結果至該出席客戶損失函數，並依據該出席客戶損失函數的輸出調整該第一特徵擷取器、該第二特徵擷取器及該分類器中至少一者的權重。
如請求項7的保護資料摘要的聯邦學習系統，其中該通用模型包括第一特徵擷取器、第二特徵擷取器及分類器，且該第二處理器更用於：輸入該缺席客戶的該摘要至導引生成器以產生導引；輸入該導引至該第一特徵擷取器以產生第一特徵；輸入該缺席客戶的該摘要至第二特徵擷取器以產生第二特徵；將該第一特徵及該第二特徵的連接結果輸入至該分類器以產生預測結果；以及輸入該預測結果及實際結果至該缺席客戶損失函數，並依據該缺席客戶損失函數的輸出調整該第一特徵擷取器、該第二特徵擷取器及該分類器中至少一者的權重，其中該替代模型為更新權重後的該通用模型。