TWI769753B - 保護資料隱私的圖片分類方法及裝置 - Google Patents
保護資料隱私的圖片分類方法及裝置 Download PDFInfo
- Publication number
- TWI769753B TWI769753B TW110110602A TW110110602A TWI769753B TW I769753 B TWI769753 B TW I769753B TW 110110602 A TW110110602 A TW 110110602A TW 110110602 A TW110110602 A TW 110110602A TW I769753 B TWI769753 B TW I769753B
- Authority
- TW
- Taiwan
- Prior art keywords
- matrix
- predetermined
- transformation
- picture
- privacy
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Image Processing (AREA)
- Record Information Processing For Printing (AREA)
Abstract
本發明實施例提供一種保護資料隱私的圖片分類方法。該方法的執行主體為資料持有方,其中儲存多個隱私圖片和對應的多個類別標籤,該方法包括:首先,針對該多個隱私圖片中任意的第一隱私圖片,確定與該第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;接著,對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;然後,將得到的對應於該多個隱私圖片的多個變換特徵矩陣,以及該多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類。如此,可以同時實現保護隱私圖片的資料隱私和防禦針對圖片分類模型的對抗攻擊。
Description
本發明一個或多個實施例涉及資料計算安全的技術領域,尤其涉及一種保護資料隱私的圖片分類方法及裝置、以及一種保護資料隱私的樣本預測方法及裝置。
隨著機器學習技術的興起,該領域中出現的保護資料隱私的問題和防禦對抗攻擊以保護模型安全的問題,已成為研究熱點。具體地,在互聯網大資料時代,利用大資料建立機器學習模型,已成為各行各業的需求常態,而建模過程中存在隱私資料,如用戶敏感性資料,洩露的風險,因此,如何保護資料的隱私安全成為亟待解決的問題。
另外,現代機器學習模型,如深度神經網路模型,是非常容易受到對抗樣本攻擊的,這些對抗樣本僅包含很輕微的擾動,但會導致機器學習模型以高置信度輸出錯誤的預測結果。例如,在圖像識別場景下,原來被影像處理模型識別為熊貓的圖片,在加入一點細微的甚至人眼無法察覺的改動後,被誤分類為長臂猿。因此,希望可以有效地防禦對抗攻擊。
然而,目前尚未發現有方案,可以同時兼顧上述兩個
問題。因此,迫切需要一種方案,可以同時實現保護資料的隱私安全和防禦對抗攻擊以保護模型安全。
本發明一個或多個實施例描述了一種保護資料隱私的圖片分類方法及裝置,可以同時實現保護隱私圖片的資料隱私和防禦針對圖片分類模型的對抗攻擊。
根據第一態樣,提供一種保護資料隱私的圖片分類方法,所述方法的執行主體為資料持有方,所述資料持有方中儲存多個隱私圖片和對應的多個類別標籤,所述方法包括:針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類。
在一個實施例中,所述預定矩陣區域和預定變換構成預定的矩陣變換方式,在將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方之後,所述方法還包括:將所述矩陣變換方式發送至模型使用方,以使所述模型使用方根據所述矩陣變換方式,確定與所述目標圖片對應的目標變換特徵矩陣,進而將所述目標變換特徵矩陣輸入預先獲取的所述圖片分類
模型中,得到針對所述目標圖片的分類結果。
在一個具體的實施例中,將所述矩陣變換方式發送至模型使用方,包括:利用加密金鑰對所述矩陣變換方式進行加密,得到加密資料;將所述加密資料發送至所述模型使用方,以使所述模型使用方利用解密金鑰對所述加密資料進行解密而得到所述矩陣變換方式。
在一個實施例中,所述預定矩陣區域和預定變換構成預定的矩陣變換方式,所述多個變換特徵矩陣和多個類別標籤構成圖片訓練資料集,所述矩陣變換方式和所述圖片訓練資料集構成訓練用資料包;其中,將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類,包括:將所述訓練用資料包發送至模型訓練方,以使其至少根據所述訓練用資料包,以及從其他資料持有方接收的其他訓練用資料包,訓練出所述圖片分類模型,用於對待分類的目標圖片進行分類。
根據第二態樣,提供一種保護資料隱私的圖片分類方法,所述方法的執行主體為模型使用方,所述方法包括:獲取待分類的目標圖片;確定所述目標圖片對應的多個特徵值,組成原始特徵矩陣;對所述原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到變換特徵矩陣,所述預定矩陣區域和預定變換是預先從資料持有方獲取而得到;將所述變換特徵矩陣輸入預先獲取的圖片分
類模型中,得到針對所述目標圖片的分類結果,所述圖片分類模型由模型訓練方根據所述資料持有方發送的圖片訓練資料集進行訓練而得到。
根據第三態樣,提供一種獲取多個隱私圖片和對應的多個類別標籤;針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;利用得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤,訓練圖片分類模型,用於對目標圖片進行分類。
根據第四態樣,提供一種保護資料隱私的圖片分類方法,所述方法的執行主體為模型訓練方,所述方法包括:接收多個資料持有方各自根據上述第一態樣中提供的方法發送的訓練用資料包,得到多個訓練用資料包。針對其中任意的第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,得到對應於所述多個訓練用資料包的多個老師圖片分類模型;獲取預定數量的公用圖片,針對其中任意的第一公用圖片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣。利用所述第一公用原始矩陣,確定針對所述第一公用圖片的多個分類結果,具體包括:對所述第一公用原始矩陣中位於第一預定矩陣區域的部分公用特徵值,進行第一預定變換,得到第一公用變換矩陣,所述第一預定矩陣區域和第一預
定變換來自所述第一訓練用資料包中的第一矩陣變換方式;將所述第一公用變換矩陣輸入所述第一老師圖片分類模型中,得到針對所述第一公用圖片的第一分類結果。對所述多個分類結果進行統計,得到針對不同分類結果的原始票數分佈。在所述原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈。基於所述添加後票數分佈,確定其中最高票數所對應的分類結果,作為所述第一公用圖片的第一類別標籤。利用所述預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖片分類模型,用於對待分類的目標圖片進行分類。
根據第五態樣,提供一種保護資料隱私的樣本預測方法,所述方法的執行主體為資料持有方,所述資料持有方中儲存針對業務對象的多個隱私樣本和對應的多個樣本標籤,所述方法包括:針對所述多個隱私樣本中任意的第一隱私樣本,確定所述第一隱私樣本對應的多個特徵值,組成第一原始特徵矩陣;對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;將得到的對應於所述多個隱私樣本的多個變換特徵矩陣,以及所述多個樣本標籤發送至模型訓練方,以使其訓練出針對所述業務對象的預測模型,用於對待預測的目標樣本進行預測。
根據第六態樣,提供一種保護資料隱私的圖片分類裝置,所述裝置整合於資料持有方,所述資料持有方中儲存多個隱私圖片和對應的多個類別標籤,所述裝置包括:矩
陣確定單元,配置為針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;矩陣變換單元,配置為對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;訓練資料發送單元,配置為將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類。
在一個實施例中,所述預定矩陣區域和預定變換構成預定的矩陣變換方式,所述多個變換特徵矩陣和多個類別標籤構成圖片訓練資料集,所述矩陣變換方式和所述圖片訓練資料集構成訓練用資料包;其中,所述訓練資料發送單元具體配置為:將所述訓練用資料包發送至模型訓練方,以使其至少根據所述訓練用資料包,以及從其他資料持有方接收的其他訓練用資料包,訓練出所述圖片分類模型,用於對待分類的目標圖片進行分類。
根據第七態樣,提供一種保護資料隱私的圖片分類裝置,所述裝置整合於模型使用方,所述裝置包括:目標圖片獲取單元,配置為獲取待分類的目標圖片;矩陣確定單元,配置為確定所述目標圖片對應的多個特徵值,組成原始特徵矩陣;矩陣變換單元,配置為對所述原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到變換特徵矩陣,所述預定矩陣區域和預定變換是預先從資
料持有方獲取而得到;分類預測單元,配置為將所述變換特徵矩陣輸入預先獲取的圖片分類模型中,得到針對所述目標圖片的分類結果,所述圖片分類模型由模型訓練方根據所述資料持有方發送的圖片訓練資料集進行訓練而得到。
根據第八態樣,提供一種保護資料隱私的圖片分類裝置,包括:隱私資料獲取單元,配置為獲取多個隱私圖片和對應的多個類別標籤;矩陣確定單元,配置為針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;矩陣變換單元,配置為對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;模型訓練單元,配置為利用得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤,訓練圖片分類模型,用於對目標圖片進行分類。
根據第九態樣,提供一種保護資料隱私的圖片分類裝置,所述裝置整合於模型訓練方,所述裝置包括:隱私資料接收單元,配置為接收多個資料持有方各自根據上述第六態樣中提供的裝置發送的訓練用資料包,得到多個訓練用資料包。老師模型訓練單元,配置為針對其中任意的第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,得到對應於所述多個訓練用資料包的多個老師圖片分類模型。矩陣確定單元,配置為獲取預定數量的公用圖片,針對其中任意的第一公用圖
片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣。老師分類單元,配置為利用所述第一公用原始矩陣,確定針對所述第一公用圖片的多個分類結果,具體包括:矩陣變換子單元,配置為對所述第一公用原始矩陣中位於第一預定矩陣區域的部分公用特徵值,進行第一預定變換,得到第一公用變換矩陣,所述第一預定矩陣區域和第一預定變換來自所述第一訓練用資料包中的第一矩陣變換方式;老師分類子單元,配置為將所述第一公用變換矩陣輸入所述第一老師圖片分類模型中,得到針對所述第一公用圖片的第一分類結果。票數統計單元,配置為對所述多個分類結果進行統計,得到針對不同分類結果的原始票數分佈。雜訊添加單元,配置為在所述原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈。標籤確定單元,配置為基於所述添加後票數分佈,確定其中最高票數所對應的分類結果,作為所述第一公用圖片的第一類別標籤。學生模型訓練單元,配置為利用所述預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖片分類模型,用於對待分類的目標圖片進行分類。
根據第十態樣,提供一種保護資料隱私的樣本預測裝置,所述裝置整合於資料持有方,所述資料持有方中儲存針對業務對象的多個隱私樣本和對應的多個樣本標籤,所述裝置包括:矩陣確定單元,配置為針對所述多個隱私樣本中任意的第一隱私樣本,確定所述第一隱私樣本對應的多個特徵值,組成第一原始特徵矩陣;矩陣變換單元,配
置為對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;訓練資料發送單元,配置為將得到的對應於所述多個隱私樣本的多個變換特徵矩陣,以及所述多個樣本標籤發送至模型訓練方,以使其訓練出針對所述業務對象的預測模型,用於對待預測的目標樣本進行預測。
根據第十一態樣,提供一種電腦可讀儲存介質,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一態樣至第五態樣中任一態樣的方法。
根據第十二態樣,提供了一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現第一態樣至第五態樣中任一態樣的方法。
採用本發明實施例披露的上述保護資料隱私的圖片分類方法及裝置、或者樣本預測方法及裝置,可以同時實現保護資料隱私和防禦對抗攻擊。
210~630:步驟
700:裝置
710:矩陣確定單元
720:矩陣變換單元
730:訓練資料發送單元
740:變換方式發送單元
800:裝置
810:目標圖片獲取單元
820:矩陣確定單元
830:矩陣變換單元
840:分類預測單元
900:裝置
910:隱私資料獲取單元
920:矩陣確定單元
930:矩陣變換單元
940:模型訓練單元
1000:裝置
1010:隱私資料接收單元
1020:老師模型訓練單元
1030:矩陣確定單元
1040:老師分類單元
1041:矩陣變換子單元
1042:老師分類子單元
1050:票數統計單元
1060:雜訊添加單元
1070:標籤確定單元
1080:學生模型訓練單元
1100:裝置
1110:矩陣確定單元
1120:矩陣變換單元
1130:訓練資料發送單元
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其它的圖式。
[圖1]示出根據一個實施例的保護資料隱私的預測模
型訓練的實施框架圖;[圖2]示出本發明實施例披露的一種保護資料隱私的圖片分類方法流程圖;[圖3]示出本發明實施例披露的另一種保護資料隱私的圖片分類方法流程圖;[圖4]示出本發明實施例披露的還一種保護資料隱私的圖片分類方法流程圖;[圖5]示出本發明實施例披露的又一種保護資料隱私的圖片分類方法流程圖;[圖6]示出本發明實施例披露的保護資料隱私的樣本預測方法流程圖;[圖7]示出本發明實施例披露的一種保護資料隱私的圖片分類裝置結構圖;[圖8]示出本發明實施例披露的另一種保護資料隱私的圖片分類裝置結構圖;[圖9]示出本發明實施例披露的還一種保護資料隱私的圖片分類裝置結構圖;[圖10]示出本發明實施例披露的又一種保護資料隱私的圖片分類裝置結構圖;[圖11]示出本發明實施例披露的保護資料隱私的樣本預測裝置結構圖。
下面結合圖式,對本發明提供的方案進行描述。
很多情況下,機器學習模型(以下或稱預測模型)的構建,並非單方完成,而是由多方共同合作完成。比如,一方持有可用於模型訓練的訓練資料(以下將該一方稱為資料持有方),另一方具有模型訓練的能力(以下將該另一方稱為模型訓練方),此時,資料持有方和模型訓練方希望共同構建機器學習模型。結合前述可知,在共同構建機器學習模型的過程中,希望同時實現保護訓練資料的隱私安全和防禦對機器學習模型的對抗攻擊。
基於此,發明人提出一種模型訓練框架,應用此框架可以訓練針對任意業務對象(如圖片或用戶等)的預測模型,並且,應用此框架訓練預測模型,可以同時兼顧資料隱私安全和模型安全防禦兩方面的需求。具體地,在一個實施例中,圖1示出根據一個實施例的保護資料隱私的預測模型訓練的實施框架圖。如圖1所示,資料持有方對其中儲存的針對某業務對象(如圖片)的原始訓練資料進行特定變換(如,對各個訓練樣本中某幾列的資料進行重排),然後將得到的變換訓練資料發送給模型訓練方,以使模型訓練方根據該變換訓練資料訓練出相應的預測模型,用於對該某業務對象進行預測,例如,可以將訓練好的預測模型發送給資料持有方,以供其使用。
如此,資料持有方通過對原始訓練資料進行特定變換後,再發送給模型訓練方,相較於資料持有方直接將原始訓練資料交付給模型訓練方,可以降低因模型訓練方造成原始訓練資料洩露的風險,並且,使得不法分子至多能竊
取到變換訓練資料,從而降低原始訓練資料的隱私洩露風險;另一方面,對抗攻擊中使用的對抗樣本,通常依賴機器學習模型的輸入和輸出而構建,而對基於圖1訓練出的預測模型,不法分子不能獲知對原始樣本進行怎樣的特定變換,才能得到該預測模型的真實輸入,因而無法構造出對抗樣本,也就不能實現對抗攻擊,由此實現了對於對抗攻擊的有效防禦。
需要說明,基於圖1示出的框架,可以訓練針對任意場景下的預測模型,用於對該任意場景下的業務對象進行預測。下面先主要以圖片分類場景為例,描述基於圖1示出的框架,對隱私圖片資料進行變換處理,利用變換處理後的資料訓練圖片分類模型,進而利用該圖片分類模型對待分類的目標圖片進行分類的方法流程。
具體地,圖2示出本發明實施例披露的一種保護資料隱私的圖片分類方法流程圖,所述方法的執行主體為資料持有方,其可以通過任何具有計算、處理能力的裝置、設備、平台、設備叢集而實現。
首先需要說明,其中資料持有方中儲存多個隱私圖片和對應的多個類別標籤。需要理解,資料持有方中儲存的任何未對外公開資料,對其而言均為隱私資料,相應地,其中儲存的任何未公開圖片,對其而言均屬於需要保護的隱私圖片。在一個實施例中,其中多個隱私圖片可以為在刷臉業務中採集的多張人臉圖片,各張人臉圖片的類別標籤,可以為標識該圖片中用戶身份的標識資訊,如身份證
號、手機號、或者刷臉業務系統為用戶分配的用戶ID(可以由數位、字母或符號等組成)。在另一個實施例中,其中多個隱私圖片可以為在車輛定損業務中拍攝的多張車輛損傷圖片,各張車輛損傷圖片的類別標籤,可以為對應的損傷類別,如刮擦、變形或碎裂,等等。在又一個實施例中,其中多個隱私圖片可以由資料持有方從其他管道購買而得到,例如,從攝影協會購買多張對野生動物拍攝的圖片,相應的圖片類別標籤可以為圖中動物的名稱。
以上,對資料持有方中儲存的多個隱私圖片和多個類別標籤進行示例性說明。進一步地,如圖2所示,所述方法可以包括以下步驟:步驟S210,針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;步驟S220,對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;步驟S230,將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類。
以上步驟具體如下:首先,在步驟S210,針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣。
在一個實施例中,本步驟中可以包括:將所述第一隱
私圖片中多個像素所對應的多個像素值,確定為所述多個特徵值,進而組成上述第一原始特徵矩陣,由此可以得到多個隱私圖片對應的多個原始特徵矩陣。在一個具體的實施例中,考慮到可以使得確定出的各個原始特徵矩陣具有相同的行列數,以便於後續處理,相應地,可以先將各個隱私圖片處理成統一尺寸,再確定該統一尺寸下的隱私圖片具有的多個像素值,進行得到對應的原始特徵矩陣。在一個例子中,其中處理成統一尺寸採用的方法包括圖片壓縮、圖片拉伸、背景色填充等。在一個例子中,其中統一尺寸可以根據實際需要設定,例如,設定為100dpix100dpi,其中dpi(Dots Per Inch)是指每英寸的像素,進一步地,對於黑白圖片,其只有一個顏色通道,由此可以將各個像素的像素值分別確定為特徵值,組成100行100列矩陣。
在另一個實施例中,本步驟中可以包括:首先,利用所述第一隱私圖片中多個像素所對應的多個像素值,構造第一像素矩陣。進一步地,在一個具體的實施例中,可以對第一像素矩陣進行DCT(Discrete Cosine Transform,離散餘弦變換)處理,並將處理後得到的矩陣確定為第一原始特徵矩陣,通常,第一像素矩陣和第一原始特徵矩陣具有相同的行列數。需要說明,DCT變換主要用於資料或圖像的壓縮,能夠將空域的信號轉換到頻域上,具有良好的去相關性的性能,由此通過DCT變換,可以將第一隱私圖片中空域的各個像素值對應轉換為頻域上的各個特徵值,進而得到對應於多個像素值的多個特徵值,組成上述第一
原始特徵矩陣。並且,DCT變換本身是無損的,但在圖像編碼等領域會給接下來的量化、編碼等創造很好的條件。
此外,在實際的影像處理中,DCT變換的複雜度其實是比較高的,所以通常的做法是,將圖像進行分塊,然後在每一塊中對圖像進行DCT變換,從而提升變換的效率。基於此,在另一個具體的實施例中,在構造出上述第一像素矩陣後,可以接著該第一像素矩陣進行分塊處理,得到對應的多個像素矩陣分塊;再對所述多個像素矩陣分塊分別進行DCT變換處理,得到對應的多個處理矩陣分塊,組成所述第一原始特徵矩陣。需要說明,其中構造第一像素矩陣可以參見前述相關描述。另外,在一個更具體的實施例中,上述分塊處理對應的分塊方式(包括所分成子塊的大小和數量),可以由工作人員預先設定,比如設定將第一像素矩陣分成互相獨立、無交疊的預定數量的子塊。在一個例子中,假定第一像素矩陣為100行100列的矩陣,由此可以將其分成大小為4行4列的25個子塊(或稱子矩陣),或者將其分成大小為5行5列的20個子塊。進一步地,對分塊處理得到的多個像素矩陣分塊,分別進行DCT變換,可以得到變換後的多個處理矩陣分塊,進而組成第一原始特徵矩陣。如此,通過對第一隱私圖片進行DCT變換,可以得到上述第一原始特徵矩陣,具體的DCT變換可以採用現有方式實現,在此不作贅述。
以上,可以確定與任意的第一隱私圖片對應的第一原始特徵矩陣,依次類推,可以確定出多個隱私圖片對應的
多個原始特徵矩陣。
接著,在步驟S220,對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣。
在一個實施例中,上述預定矩陣區域對應若干(即一個或多個)列編號,相應地,本步驟中可以包括:從所述第一原始特徵矩陣中刪除與所述若干列編號對應的若干列特徵值,得到所述第一變換特徵矩陣。在一個具體的實施例中,上述若干列編號的確定包括:基於任意原始特徵矩陣具有的總列數,隨機確定或人工設定不大於所述總列數的若干數值,作為所述若干列編號。
需要理解,原始特徵矩陣的行列數通常是預先設定的,因此,每個原始特徵矩陣具有相同的行列數。在一個更具體的實施例中,其中若干列編號的編號個數,可以由工作人員預先設定,需要理解,考慮到資料持有方在希望通過預定變換可以防止洩露原始資料隱私的同時,還希望利用預定變換後得到的資料,訓練出來的模型具有良好的預測性能,所以在預定變換的方式為刪除資料的情況下,通常會將該編號個數對應的數值個數設置在一個合理的範圍內。在一個例子中,可以設定一個百分比(如5%),然後將矩陣的列數乘以該百分比,得到上述若干列編號的編號個數。根據一個具體的例子,假定任意原始特徵矩陣的列數為200,將其乘以預定百分比,如5%,得到需要刪除的列數為10。進一步地,利用隨機演算法確定出小於
200的10個不同數位,如2,165,7等,作為上述若干列編號,進而從第一原始特徵矩陣中刪除對應的若干列特徵值,得到第一變換特徵矩陣。
在另一個實施例中,上述預定矩陣區域對應若干行編號,相應地,本步驟中可以包括:從所述第一原始特徵矩陣中刪除與所述若干行編號對應的若干行特徵值。在一個具體的實施例中,上述若干行編號的確定包括:基於任意原始特徵矩陣具有的總行數,隨機確定或人工設定不大於所述總行數的若干數值,作為所述若干行編號。此外,對於若干行編號的確定還可以參見前述對若干列編號進行確定的描述,不作贅述。
在又一個實施例中,上述預定矩陣區域對應多個列編號,上述位於預定矩陣區域的部分特徵值包括對應該多個列編號的多列特徵值。相應地,本步驟中可以包括:按照基於上述多個列編號設定的列間位置互換方式,對上述多列特徵值進行位置互換,得到上述第一變換特徵矩陣。
在一個具體的實施例中,上述若干列編號的確定包括:基於任意原始特徵矩陣具有的總列數,隨機確定不大於所述總列數的多個數值,作為所述多個列編號。在一個更具體的實施例中,其中多個列編號的編號個數,可以由工作人員預先設定,需要理解,因為此處預定變換的方式,是交換列資料之間的位置,因此,不會造成特徵值的丟失,所以該編號個數可以設置得偏大,以在保證後續訓練出的模型具有良好預測性能的同時,進一步降低預定變
換後資料被竊取而帶來的洩露原始資料隱私的風險。在一個例子中,可以設定一個百分比(如30%),然後將矩陣的列數乘以該百分比,得到上述若干列編號的編號個數,例如,假定任意原始特徵矩陣的列數為100,將其乘以預定百分比,如30%,得到需要交換位置的列數為30,基於此,可以利用隨機演算法確定出小於100的30個不同數位,如1,8,26等,作為上述多個列編號。進一步地,上述列間位置互換方式可以是人工設定的,也可是隨機產生的。在一個例子中,假定多個列編號中包括1、20、25、40等,則據此設定的列間位置互換方式可以包括:將第1列和第20列的特徵值進行位置互換,將第25列和第40列的特徵值進行位置互換。基於如此設定的列間位置互換方式,可以對第一原始特徵矩陣中對應多個列編號的多列特徵值進行位置互換,得到上述第一變換特徵矩陣。
在還一個實施例中,上述預定矩陣區域對應若干分塊編號,位於該預定矩陣區域中的部分特徵值包括對應若干矩陣分塊中的特徵值。相應地,本步驟中可以包括:將該若干矩陣分塊中的各個特徵值(例如,1),對應更改為其自身的相反數(例如,-1),得到上述第一變換特徵矩陣。
在一個具體的實施例中,上述第一原始矩陣由上述經過DCT變換得到的多個處理矩陣分塊構成,上述若干矩陣分塊為其中對應若干分塊編號的若干處理矩陣分塊。在一個更具體的實施例中,其中若干分塊編號可以根據多個處
理矩陣分塊對應的分塊總數而確定,包括隨機確定或人工設定。由此,可以將若干處理矩陣分塊中的各個特徵值,對應更改為其自身的相反數,得到上述第一變換特徵矩陣。
在另一個具體的實施例中,對於第一原始特徵矩陣,可以按照預定的分塊方式將其劃分為多個矩陣分塊,上述若干分塊編號基於該多個矩陣分塊對應的數量而確定,包括隨機確定或人工設定。由此,可以將多個矩陣分塊中對應若干分塊編號的若干矩陣分塊中特徵值,修改為其自身的相反數,得到上述第一變換特徵矩陣。
在再一個實施例中,上述預定矩陣區域對應對應多個矩陣元素位置(其中矩陣元素位置可以用行編號和列編號進行標識),基於此,本步驟中可以包括:將位於所述多個矩陣元素位置的特徵值修改為統一數值(如0或1),或者,將位於所述多個矩陣元素位置的特徵值對應修改為其自身的相反數,進而得到上述第一變換特徵矩陣。
由上,可以實現對第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到對應的第一變換特徵矩陣。在一個實施例中,其中預定矩陣區域可以對應若干列編號、若干行編號、多個用行列編號標識的元素位置、或若干矩陣分塊編號,其中預定變換可以為刪除、求取相反數、資料位置互換、使用預設數值填充,等等。基於上述預定矩陣區域和預定變換所構成的預定的矩陣變換方式,可以實現對任意的第一原始特徵矩陣的矩陣變換,
進而得到多個原始特徵矩陣對應的多個變換特徵矩陣。需要說明,其中各個原始特徵矩陣採用的矩陣變換方式是相同的。
然後,在步驟S230,將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類。具體地,模型訓練方可以為模型訓練平台,其具有模型訓練所需要的強大算力。在一個實施例中,模型訓練方可以根據由所述多個變換特徵矩陣和多個類別標籤構成的圖片訓練資料集,採用監督學習的方式,直接訓練出圖片分類模型。
另一方面,在一個實施例中,上述圖片分類模型可以基於神經網路實現,如CNN(Convolutional Neural Networks,卷積神經網路)或DNN(Deep NeuralNetworks,深度神經網路)等。
需要說明,對於模型訓練方訓練出的圖片分類模型,可以發送給資料持有方自行使用,也可以由模型訓練方自行使用(此時,模型訓練方同時為模型使用方),還可以由模型訓練方發送給協定的模型使用方進行使用。
具體地,在一個實施例中,在步驟S230之後,所述方法還可以包括:從所述模型訓練方接收所述圖片分類模型,並且,獲取所述目標圖片,並確定所述目標圖片對應的目標變換特徵矩陣;然後,將所述目標變換特徵矩陣輸入所述圖片分類模型,得到針對所述目標圖片的分類結
果。需要說明,其中確定目標圖片對應的目標變換特徵矩陣,與上述確定第一原始圖片對應的第一變換特徵矩陣所採用的矩陣變換方式是一致的。
在一個實施例中,在步驟S230之後,所述方法還可以包括:將所述矩陣變換方式發送至模型使用方,以使所述模型使用方根據所述矩陣變換方式,確定與所述目標圖片對應的目標變換特徵矩陣,進而將所述目標變換特徵矩陣輸入預先獲取的所述圖片分類模型中,得到針對所述目標圖片的分類結果。
在一個具體的實施例中,其中將所述矩陣變換方式發送至模型使用方,包括:首先,利用加密金鑰對所述矩陣變換方式進行加密,得到加密資料;然後,將所述加密資料發送至所述模型使用方,以使所述模型使用方利用解密金鑰對所述加密資料進行解密而得到所述矩陣變換方式。在一個更具體的實施例中,其中加密金鑰和解密金鑰,可以是對稱金鑰,也可以是非對稱金鑰,具體的金鑰產生、傳輸或同步方式,可以採用現有方式實現,不作贅述。如此,通過對資料加密傳輸,可以有效防止資料持有方和模型使用方之間的通信被監聽,而導致的矩陣變換方式被非法竊取。
綜上,在本發明實施例披露的保護資料隱私的圖片分類方法中,資料持有方通過對隱私圖片對應的原始特徵矩陣進行預定的矩陣變換,得到變換特徵矩陣,再將變換特徵矩陣和對應的分類標籤發送給模型訓練方,相較於直接
將隱私圖片和分類標籤交付給模型訓練方,可以降低因模型訓練方造成隱私圖片洩露的風險,並且,使得不法分子至多能竊取到變換特徵矩陣,從而降低隱私圖片的洩露風險。另一方面,不法分子因不能獲知具體的矩陣變換方式,所以無法確定正確的模型輸入,也就無法構造對抗樣本,或者,因不知道模型的真實輸入是經過矩陣變換的,所以無法成功構造出對抗樣本。具體地,無法通過暴力嘗試的方式(如,對正常樣本加入不同的干擾,輸入模型觀察分類結果)構造出對抗樣本;無法通過黑盒攻擊(攻擊者通過觀察模型的輸入和輸出,推斷出圖片分類模型的大體結構)構造相似模型,去產生可以遷移使用的對抗樣本進行對抗攻擊;無法通過白盒攻擊(對應攻擊者已經拿到圖片分類模型的結構和參數的情況),利用梯度反向傳播的方式構造對抗樣本。進一步地,在發生白盒攻擊的情況下,因模型參數會無可避免的留存部分訓練資料的資訊,即使攻擊者根據模型參數檢驗出該部分訓練資料,拿到的也是變換特徵矩陣,而非可用於重構隱私圖片的原始特徵矩陣,因此可以在發生白盒攻擊的情況下,降低隱私圖片的洩露風險。由此,採用上述圖片分類方法,可以同時實現保護隱私圖片的資料隱私和防禦對圖片分類模型的對抗攻擊。
根據另一方面的實施例,本發明實施例還披露另一種圖片分類方法。具體地,圖3示出本發明實施例披露的另一種保護資料隱私的圖片分類方法流程圖,所述方法的執
行主體為模型使用方,其可以通過任何具有計算、處理能力的裝置、設備、平台、設備叢集而實現。如圖3所示,所述方法包括以下步驟:步驟S310,獲取待分類的目標圖片;步驟S320,確定所述目標圖片對應的多個特徵值,組成原始特徵矩陣;步驟S330,對所述原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到變換特徵矩陣,所述預定矩陣區域和預定變換是預先從資料持有方獲取而得到,將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類;步驟S340,將所述變換特徵矩陣輸入預先獲取的圖片分類模型中,得到針對所述目標圖片的分類結果,所述圖片分類模型由模型訓練方根據所述資料持有方發送的圖片訓練資料集進行訓練而得到。
針對以上步驟,首先需要理解,模型訓練方從資料持有方獲取的預定矩陣區域和預定變換,與資料持有方對原始特徵矩陣進行矩陣變換時,所使用的預定矩陣區域和預定變換,是一致的。
在一個實施例中,在步驟S330之前,所述方法還可以包括:從資料持有放接收預定的矩陣變換方式,其中包括上述預定矩陣區域和預定變換。在另一個實施例中,可以從資料持有方接收加密資料,其中加密資料由資料持有放利用加密金鑰對矩陣變換方式進行解密而得到,進一步
地,可以利用解密金鑰對該加密資料進行解密,進而得到該矩陣變換方式。
在一個實施例中,在步驟S340之前,所述方法還可以包括:從模型訓練方或資料持有方接收上述圖片分類模型。
需要說明,對圖3中步驟S310至步驟S340的描述,還可以參對前述實施例中的相關描述。
綜上,在本發明實施例披露的保護資料隱私的圖片分類方法中,模型使用方可以利用從資料持有方接收的矩陣變換方式,以及利用模型訓練方訓練出的圖片分類模型,實現對目標圖片的分類。並且,攻擊者因不能獲知具體的矩陣變換方式,所以無法確定正確的模型輸入,也就無法通過構造對抗樣本,對模型訓練方使用的圖片分類模型進行對抗攻擊。具體地,無法通過暴力嘗試的方式構造出對抗樣本;無法通過黑盒攻擊構造相似模型,去產生可以遷移使用的對抗樣本進行對抗攻擊;無法通過白盒攻擊,利用梯度反向傳播的方式構造對抗樣本。進一步地,在發生白盒攻擊的情況下,因模型參數會無可避免的留存部分訓練資料的資訊,即使攻擊者根據模型參數檢驗出該部分訓練資料,拿到的也是變換特徵矩陣,而非可用於重構隱私圖片的原始特徵矩陣,因此可以在發生白盒攻擊的情況下,降低隱私圖片的洩露風險。由此,採用上述圖片分類方法,可以同時實現保護隱私圖片的資料隱私和防禦對圖片分類模型的對抗攻擊。
由前述內容可知,圖片分類模型可以由資料持有方和模型訓練方,兩方共同合作完成訓練。考慮到對於既儲存有訓練資料又具有模型訓練能力的平台,其可以自主完成對圖片分類模型的訓練,本發明實施例還披露一種圖片分類方法。
具體地,圖4示出本發明實施例披露的還一種保護資料隱私的圖片分類方法流程圖,所述方法的執行主體可以為任何具有計算、處理能力的裝置、設備、平台、設備叢集。如圖4所示,所述方法包括以下步驟:步驟S410,獲取多個隱私圖片和對應的多個類別標籤;步驟S420,針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣;步驟S430,對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;步驟S440,利用得到的對應於該多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤,訓練圖片分類模型,用於對目標圖片進行分類。
對上述步驟S410至步驟S440的描述,可以參見前述實施例中的相關描述,在此不作贅述。
在本發明實施例披露的保護資料隱私的圖片分類方法中,通過對隱私圖片對應的原始特徵矩陣進行預定的矩陣變換,得到變換特徵矩陣,再將根據變換特徵矩陣和對應的類別標籤訓練圖片分類模型,可以有效抵禦對抗攻擊。具體地,攻擊者因不能獲知具體的矩陣變換方式,所以無
法確定正確的模型輸入,也就無法通過構造對抗樣本,對模型訓練方使用的圖片分類模型進行對抗攻擊。更具體地,無法通過暴力嘗試的方式構造出對抗樣本;無法通過黑盒攻擊構造相似模型,去產生可以遷移使用的對抗樣本進行對抗攻擊;無法通過白盒攻擊,利用梯度反向傳播的方式構造對抗樣本。進一步地,在發生白盒攻擊的情況下,因模型參數會無可避免的留存部分訓練資料的資訊,即使攻擊者根據模型參數檢驗出該部分訓練資料,拿到的也是變換特徵矩陣,而非可用於重構隱私圖片的原始特徵矩陣,因此可以在發生白盒攻擊的情況下,降低隱私圖片的洩露風險。由此,採用上述圖片分類方法,可以同時實現保護隱私圖片的資料隱私和防禦對圖片分類模型的對抗攻擊。
由前述內容可知,圖片分類模型可以由資料持有方和模型訓練方,兩方共同合作完成訓練,具體地,資料持有方對隱私圖片對應的原始特徵矩陣進行矩陣變換,得到變換特徵矩陣,而模型訓練方根據資料持有方發送的該變換特徵矩陣和對應的類別標籤,直接訓練出圖片分類模型。基於此,在一種實施方式中,上述圖片分類方法還可以拓展至PATE(Private Aggregation of Teacher Ensembles,教師模型整體的私有聚合)的框架中。
具體地,圖5示出本發明實施例披露的又一種保護資料隱私的圖片分類方法流程圖,所述方法的執行主體為模型訓練方,其可以通過任何具有計算、處理能力的裝置、
設備、平台、設備叢集而實現。如圖5所示,所述方法包括以下步驟:步驟S510,接收多個資料持有方各自發送的訓練用資料包,得到多個訓練用資料包。步驟S520,針對其中任意的第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,得到對應於所述多個訓練用資料包的多個老師圖片分類模型。步驟S530,獲取預定數量的公用圖片,針對其中任意的第一公用圖片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣。步驟S540,利用所述第一公用原始矩陣,確定針對所述第一公用圖片的多個分類結果,具體包括:首先,對所述第一公用原始矩陣中位於第一預定矩陣區域的部分公用特徵值,進行第一預定變換,得到第一公用變換矩陣,所述第一預定矩陣區域和第一預定變換來自所述第一訓練用資料包中的第一矩陣變換方式;接著,將所述第一公用變換矩陣輸入所述第一老師圖片分類模型中,得到針對所述第一公用圖片的第一分類結果。步驟S550,對所述多個分類結果進行統計,得到針對不同分類結果的原始票數分佈。步驟S560,在所述原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈。步驟S570,基於所述添加後票數分佈,確定其中最高票數所對應的分類結果,作為所述第一公用圖片的第一類別標籤。步驟S580,利用所述預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖片分類模型,用於對待分類的目標圖片進行分
類。
以上步驟具體如下:首先,在步驟S510,接收多個資料持有方各自發送的訓練用資料包,得到多個訓練用資料包。需要說明,對訓練用資料包的描述,可以參見前述實施例中的相關描述。此外,每個訓練用資料包括中包括的矩陣變換方式,因為是由各個資料持有方自主設定的,所以通常是互不相同的。另外,每個資料持有方中各自儲存的隱私圖片集之間通常是沒有交集的,互相獨立的,因此,對應發送的每個訓練用資料包中的多個變換特徵矩陣,也是沒有交集的。
具體地,對於其中任意的第一資料持有方,其可以將自身確定的第一訓練用資料包發送至上述模型訓練方,由此模型訓練方可以至少根據第一訓練用資料包,以及從其他資料持有方接收的其他訓練用資料包,實現對老師圖片分類模型和學生圖片分類模型的訓練。
在一個實施例中,第一資料持有方可以利用其持有的加密金鑰對第一訓練用資料包進行加密,再將得到的第一加密資料包發送給模型訓練方,相應地,模型訓練方可以根據對應的解密金鑰對第一加密資料包進行解密,得到第一訓練用資料包。在另一個實施例中,第一資料持有方可以利用加密金鑰對其中的第一矩陣變換方式進行加密,進而將得到的第一加密資料和第一圖片訓練資料集構成第一訓練用資料包,發送給模型訓練方,相應地,模型訓練方可以根據對應的解密金鑰對第一訓練用資料包中的第一加
密資料進行解密,得到第一矩陣變換方式,以及直接獲取第一圖片訓練資料集。如此,通過對資料加密傳輸,可以有效防止資料持有方和模型訓練方之間的通信被監聽,而導致的矩陣變換方式和/或圖片訓練資料集被非法竊取。
接著,在步驟S520,針對其中任意的第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,得到對應於所述多個訓練用資料包的多個老師圖片分類模型。需要說明,多個老師圖片分類模型可以基於不同的神經網路或演算法實現。比如,其中一個可以基於CNN網路實現,另一個可以基於DNN網路實現。
然後,在步驟S530,獲取預定數量的公用圖片,針對其中任意的第一公用圖片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣。
需要說明,其中公用圖片可以包括從公共資料池中獲取的非隱私圖片,或者,還可以包括從網路中爬取的公用圖片。此外對於預定數量的設定,主要是用於限定對老師圖片分類模型的查詢次數,具體可以由工作人員根據實現差分隱私效果的實際需求進行設定。
再接著,在步驟S540,利用所述第一公用原始矩陣,確定針對所述第一公用圖片的多個分類結果,具體包括:首先,對所述第一公用原始矩陣中位於第一預定矩陣區域的部分公用特徵值,進行第一預定變換,得到第一公用變換矩陣,所述第一預定矩陣區域和第一預定變換來自所述第一訓練用資料包中的第一矩陣變換方式;接著,將所述
第一公用變換矩陣輸入所述第一老師圖片分類模型中,得到針對所述第一公用圖片的第一分類結果。對於此步驟的描述,可以參加前述實施例中的相關描述,不作贅述。
再然後,在步驟S550,對所述多個分類結果進行統計,得到針對不同分類結果的原始票數分佈。並且,步驟S560,在所述原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈。進一步地,步驟S570,基於所述添加後票數分佈,確定其中最高票數所對應的分類結果,作為所述第一公用圖片的第一類別標籤。
對於其中拉普拉斯雜訊的添加,需要說明的是,如果大部分老師圖片分類模型都同意某一個分類結果,那麼就意味著它不依賴於具體的分散資料集,所以隱私成本很小。但是,如果有兩類預測結果有相近的票數,那麼這種不一致,或許會洩露隱私資訊。因此,在統計票數和取最高票之間,添加額外的一個步驟:引入拉普拉斯雜訊,把票數的統計情況打亂,從而保護隱私。
在一個實施例中,步驟S570中可以包括:在所述最高票數大於預定閾值的情況下,將所述最高票數所對應的分類結果,確定為所述第一類別標籤;或,在所述最高票數不大於預定閾值的情況下,捨棄所述第一公用圖片。在一個具體的實施例中,其中預定閾值可以是隨機的,如此可以提供更多的隱私保護。
再接著,在步驟S580,利用所述預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖
片分類模型,用於對待分類的目標圖片進行分類。在一個實施例中,其中圖片分類模型可以基於CNN網路或DNN網路等。對於其中學生圖片分類模型的訓練,在一個實施例中,可以採用監督學習的方式。在另一個實施例中,可以採用半監督學習的方式,如PATE-G,其中G表示GAN(Generative Adversarial Networks),對於PATE-G的介紹,可以參見現有技術,在此不作贅述。
綜上,採用本發明實施例披露的上述圖片分類方法,可以實現在PATE架構下的圖片分類,並且,上述多個老師圖片分類模型的集結(ensemble),可以使得抵禦對抗攻擊的效果更好。
以上,主要對圖片分類場景下的圖片分類方法進行介紹。如前所述,應用圖1示出的框架可以訓練針對任意業務對象的預測模型,相應地,本發明實施例還披露一種針對業務對象的預測方法。
具體地,圖6示出本發明實施例披露的保護資料隱私的樣本預測方法流程圖,所述方法的執行主體為資料持有方,其可以通過任何具有計算、處理能力的裝置、設備、平台、設備叢集而實現。
首先需要說明,其中資料持有方中儲存針對業務對象的多個隱私樣本和對應的多個樣本標籤。在一個實施例中,其中業務對象可以為文本,相應地,可以將針對文本的隱私樣本和樣本標籤分別稱為隱私文本和文本分類標籤。在一個具體的實施例中,隱私文本可以為日記平台中
用戶授權使用的日記文本,相應的文本分類標籤可以為情感類別標籤,如開心、失落、平靜等。在另一個具體的實施例中,隱私文本可以為問卷調查平台中收集的用戶意見文本,相應的文本分類標籤可以為立場類別標籤,如支持、反對、中立等。
在另一個實施例中,其中業務對象可以為音訊,相應地,可以將針對音訊的隱私樣本和樣本標籤分別稱為隱私音訊和音訊分類標籤。在一個具體的實施例中,隱私音訊可以為錄音平台中用戶授權使用的錄音片段,相應的音訊分類標籤可以為情感類別標籤,如開心、失落、平靜等。在另一個具體的實施例中,隱私文本可以為客服平台中儲存的用戶諮詢語音,相應的音訊分類標籤可以為用戶問題類別標籤,例如,與花唄相關的問題,或者與餘額寶相關的問題等。
在又一個實施例中,其中業務對象可以為用戶,相應地,可以將針對用戶的隱私樣本和樣本標籤分別稱為用戶隱私樣本和用戶分類標籤。在一個具體的實施例中,用戶隱私樣本中可以包括用戶的基礎屬性特徵和業務特徵。在一個更具體的實施例中,其中基礎屬性特徵可以包括年齡、身份、居住地等。在一個更具體地實施例中,其中業務特徵可以基於用戶在業務平台進行歷史操作的資料而確定,如登錄頻次、流覽次數、最常流覽頁面、最常使用業務,等等。在一個具體的實施例中,其中用戶分類標籤可以為人群標籤,如潛在客戶或積極客戶等。在一個具體的
實施例中,其中用戶分類標籤可以包括:高風險用戶(如欺詐用戶)、低風險用戶,等等。
在還一個實施例中,其中業務對象可以為基於業務平台發生的業務事件,相應地,可以將針對業務事件的隱私樣本和樣本標籤分別稱為業務事件樣本和事件分類標籤。在一個具體的實施例中,其中業務事件可以為交易事件,相應的交易事件樣本中可以包括歷史交易資料(例如,金額、時間區段、各個交易方的資訊等),交易類別標籤可以包括高風險交易、安全交易等。在另一個具體的實施例中,其中業務事件可以為社交事件,相應的社交事件樣本中可以包括歷史社交資料(例如,社交雙方互相發送消息的頻次、轉帳次數、轉帳金額等),社交類別標籤可以包括正常社交、異常社交(如存在某方社交帳號被盜用的可能性)等。在又一個具體的實施例中,其中業務事件可以為登錄事件,相應的登錄事件樣本中可以包括歷史登錄資料(例如,發生登錄設備的設備標識、地理位置、網路位址等),登錄類別標籤可以包括正常登錄或異常登錄等。
以上對資料持有方中儲存的針對業務對象的多個隱私樣本和多個樣本標籤進行介紹。進一步地,如圖6所示,所述方法包括以下步驟:
步驟S610,針對所述多個隱私樣本中任意的第一隱私樣本,確定所述第一隱私樣本對應的多個特徵值,組成第一原始特徵矩陣;步驟S620,對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第
一變換特徵矩陣;步驟S630,將得到的對應於所述多個隱私樣本的多個變換特徵矩陣,以及所述多個樣本標籤發送至模型訓練方,以使其訓練出針對所述業務對象的預測模型,用於對待預測的目標樣本進行預測。
針對以上步驟,具體地:在一個實施例中,其中隱私樣本為上述隱私文本,相應地,步驟S610中可以包括:先對隱私文本進行分詞處理,得到多個分詞,再對各個分詞進行詞嵌入處理,得到多個詞向量(可以將詞向量中的元素理解為特徵值),組成上述第一原始特徵矩陣。需要說明,其中分詞處理和詞嵌入處理都可以採用現有技術實現,不作贅述。進一步地,步驟S630中針對業務對象的預測模型可以為文本分類模型或文本打分模型。在一個具體的實施例中,該文本分類模型或文本打分模型,可以基於textCNN網路、DNN網路或LSTM(Long Short-Term Memory,長短期記憶網路)實現。
在一個實施例中,其中隱私樣本為上述隱私音訊,相應地,步驟S610中可以包括:先對音訊進行時頻轉換處理,得到對應的頻譜資料,將頻譜資料中包括的多個數值作為多個特徵值,組成上述第一原始特徵矩陣。需要說明,其中時頻轉換處理可以採用現有技術實現,不作贅述。進一步地,步驟S630中針對業務對象的預測模型可以為音訊分類模型。在一個具體的實施例中,該音訊分類模型,可以基於CNN網路或DNN網路實現。
在一個實施例中,其中隱私樣本為上述業務事件樣本,相應地,步驟S610中可以包括:對業務事件樣本中的各個特徵(如用戶年齡、性別等用戶屬性特徵、或業務操作頻次、操作時間區段等業務操作特徵)進行獨熱(one-hot)編碼,得到各個特徵對應的編碼向量(可以將編碼向量中的元素理解為特徵值),組成上述第一原始特徵矩陣。進一步地,步驟S630中針對業務對象的預測模型可以為針對業務事件的分類模型或打分模型。在一個具體的實施例中,該分類模型或打分模型,可以基於CNN網路或DNN網路實現。
需要說明,對步驟S610-步驟S630的描述,還可以參見前述實施例中的相關描述。
綜上,在本發明實施例披露的保護資料隱私的樣本預測方法中,資料持有方通過對隱私樣本對應的原始特徵矩陣進行預定的矩陣變換,得到變換特徵矩陣,再將變換特徵矩陣和對應的樣本標籤發送給模型訓練方,相較於直接將隱私樣本和分類標籤交付給模型訓練方,可以降低因模型訓練方造成隱私樣本洩露的風險,並且,使得不法分子至多能竊取到變換特徵矩陣,從而降低隱私樣本的洩露風險。另一方面,不法分子因不能獲知具體的矩陣變換方式,所以無法確定正確的模型輸入,也就無法構造對抗樣本。具體地,無法通過暴力嘗試的方式構造出對抗樣本;無法通過黑盒攻擊構造相似模型,去產生可以遷移使用的對抗樣本進行對抗攻擊;無法通過白盒攻擊,利用梯度反
向傳播的方式構造對抗樣本。進一步地,在發生白盒攻擊的情況下,因模型參數會無可避免的留存部分訓練資料的資訊,即使攻擊者根據模型參數檢驗出該部分訓練資料,拿到的也是變換特徵矩陣,而非可用於重構隱私樣本的原始特徵矩陣,因此可以在發生白盒攻擊的情況下,降低隱私樣本的洩露風險。由此,採用上述樣本預測方法,可以同時實現保護隱私樣本的資料隱私和防禦對樣本預測模型的對抗攻擊。
上述實施例中披露圖片分類方法、樣本預測方法。相對應地,本發明實施例還披露圖片分類裝置、樣本預測裝置。具體如下:圖7示出本發明實施例披露的一種保護資料隱私的圖片分類裝置結構圖,所述裝置整合於資料持有方,所述資料持有方中儲存多個隱私圖片和對應的多個類別標籤。如圖7所示,所述裝置700包括:矩陣確定單元710,配置為針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣。矩陣變換單元720,配置為對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣。訓練資料發送單元730,配置為將得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤發送至模型訓練方,以使其訓練出圖片分類模型,用於對待分類的目標圖片進行分類。
在一個實施例中,矩陣確定單元710具體配置為:將所述第一隱私圖片中多個像素所對應的多個像素值,確定為所述多個特徵值。
在一個實施例中,所述預定矩陣區域對應若干列編號和/或若干行編號;其中,矩陣變換單元720具體配置為:從所述第一原始特徵矩陣中刪除與所述若干列編號對應的若干列特徵值,和/或,刪除與所述若干行編號對應的若干行特徵值,得到所述第一變換特徵矩陣。
在一個更具體的實施例中,所述預定矩陣區域基於區域確定單元而確定,該區域確定單元具體配置為:基於任意原始特徵矩陣具有的總列數,隨機確定出不大於所述總列數的若干數值,作為所述若干列編號;和/或,基於任意原始特徵矩陣具有的總行數,隨機確定出不大於所述總行數的若干數值,作為所述若干行編號。
在一個實施例中,所述預定矩陣區域對應多個列編號,所述部分特徵值包括對應所述多個列編號的多列特徵值;其中矩陣變換單元720具體配置為:按照基於所述多個列編號設定的列間位置互換方式,對所述多列特徵值進行位置互換,得到所述第一變換特徵矩陣。
在一個實施例中,其中矩陣確定單元710具體配置為:利用所述第一隱私圖片中多個像素所對應的多個像素值,構造第一像素矩陣;對所述第一像素矩陣進行分塊處理,得到對應的多個像素矩陣分塊;對所述多個像素矩陣分塊分別進行離散餘弦變換DCT處理,得到對應的多個處
理矩陣分塊,組成所述第一原始特徵矩陣。
在一個實施例中,所述預定矩陣區域對應若干分塊編號,所述部分特徵值包括與所述若干分塊編號對應的若干處理矩陣分塊中的各個特徵值;其中矩陣變換單元720具體配置為:將所述若干處理矩陣分塊中的各個特徵值,對應更改為其自身的相反數,得到所述第一變換特徵矩陣。
在一個實施例中,所述裝置700還包括:模型接收單元,配置為從所述模型訓練方接收所述圖片分類模型;目標圖片獲取單元,配置為獲取所述目標圖片,並確定所述目標圖片對應的目標變換特徵矩陣;圖片分類單元,配置為將所述目標變換特徵矩陣輸入所述圖片分類模型,得到針對所述目標圖片的分類結果。
在一個實施例中,所述預定矩陣區域和預定變換構成預定的矩陣變換方式,所述裝置700還包括:變換方式發送單元740,配置為將所述矩陣變換方式發送至模型使用方,以使所述模型使用方根據所述矩陣變換方式,確定與所述目標圖片對應的目標變換特徵矩陣,進而將所述目標變換特徵矩陣輸入預先獲取的所述圖片分類模型中,得到針對所述目標圖片的分類結果。
在一個具體的實施例中,其中變換方式發送單元740具體配置為:利用加密金鑰對所述矩陣變換方式進行加密,得到加密資料;將所述加密資料發送至所述模型使用方,以使所述模型使用方利用解密金鑰對所述加密資料進行解密而得到所述矩陣變換方式。
在一個實施例中,所述預定矩陣區域和預定變換構成預定的矩陣變換方式,所述多個變換特徵矩陣和多個類別標籤構成圖片訓練資料集,所述矩陣變換方式和所述圖片訓練資料集構成訓練用資料包;其中訓練資料發送單元730具體配置為:將所述訓練用資料包發送至模型訓練方,以使其至少根據所述訓練用資料包,以及從其他資料持有方接收的其他訓練用資料包,訓練出所述圖片分類模型,用於對待分類的目標圖片進行分類。
圖8示出本發明實施例披露的另一種保護資料隱私的圖片分類裝置結構圖,所述裝置800整合於模型使用方。如圖8所示,所述裝置800包括:目標圖片獲取單元810,配置為獲取待分類的目標圖片。矩陣確定單元820,配置為確定所述目標圖片對應的多個特徵值,組成原始特徵矩陣。矩陣變換單元830,配置為對所述原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到變換特徵矩陣,所述預定矩陣區域和預定變換是預先從資料持有方獲取而得到。分類預測單元840,配置為將所述變換特徵矩陣輸入預先獲取的圖片分類模型中,得到針對所述目標圖片的分類結果,所述圖片分類模型由模型訓練方根據所述資料持有方發送的圖片訓練資料集進行訓練而得到。
圖9示出本發明實施例披露的還一種保護資料隱私的圖片分類裝置結構圖。如圖9所示,所述裝置900包括:隱私資料獲取單元910,配置為獲取多個隱私圖片和
對應的多個類別標籤。矩陣確定單元920,配置為針對所述多個隱私圖片中任意的第一隱私圖片,確定與所述第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣。矩陣變換單元930,配置為對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣。模型訓練單元940,配置為利用得到的對應於所述多個隱私圖片的多個變換特徵矩陣,以及所述多個類別標籤,訓練圖片分類模型,用於對目標圖片進行分類。
圖10示出本發明實施例披露的又一種保護資料隱私的圖片分類裝置結構圖,所述裝置1000整合於模型訓練方,所述裝置1000包括:隱私資料接收單元1010,配置為接收多個資料持有方各自根據請求項19所述的裝置發送的訓練用資料包,得到多個訓練用資料包。老師模型訓練單元1020,配置為針對其中任意的第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,得到對應於所述多個訓練用資料包的多個老師圖片分類模型。矩陣確定單元1030,配置為獲取預定數量的公用圖片,針對其中任意的第一公用圖片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣。老師分類單元1040,配置為利用所述第一公用原始矩陣,確定針對所述第一公用圖片的多個分類結果,具體包括:矩陣變換子單元1041,配置為對所述第一公用原始矩陣中位於第一預定矩陣區域的部分公
用特徵值,進行第一預定變換,得到第一公用變換矩陣,所述第一預定矩陣區域和第一預定變換來自所述第一訓練用資料包中的第一矩陣變換方式;老師分類子單元1042,配置為將所述第一公用變換矩陣輸入所述第一老師圖片分類模型中,得到針對所述第一公用圖片的第一分類結果。票數統計單元1050,配置為對所述多個分類結果進行統計,得到針對不同分類結果的原始票數分佈。雜訊添加單元1060,配置為在所述原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈。標籤確定單元1070,配置為基於所述添加後票數分佈,確定其中最高票數所對應的分類結果,作為所述第一公用圖片的第一類別標籤。學生模型訓練單元1080,配置為利用所述預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖片分類模型,用於對待分類的目標圖片進行分類。
圖11示出本發明實施例披露的保護資料隱私的樣本預測裝置結構圖,所述裝置1100整合於資料持有方,所述資料持有方中儲存針對業務對象的多個隱私樣本和對應的多個樣本標籤,所述裝置1100包括:矩陣確定單元1110,配置為針對所述多個隱私樣本中任意的第一隱私樣本,確定所述第一隱私樣本對應的多個特徵值,組成第一原始特徵矩陣;矩陣變換單元1120,配置為對所述第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣;訓練資料發送單元1130,配置為將得到的對應於所述多個隱私樣
本的多個變換特徵矩陣,以及所述多個樣本標籤發送至模型訓練方,以使其訓練出針對所述業務對象的預測模型,用於對待預測的目標樣本進行預測。
根據又一方面的實施例,還提供一種電腦可讀儲存介質,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2或圖3或圖4或圖5或圖6所描述的方法。
根據再一方面的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現結合圖2或圖3或圖4或圖5或圖6所描述的方法。
本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀介質中或者作為電腦可讀介質上的一個或多個指令或碼進行傳輸。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
Claims (15)
- 一種保護資料隱私的圖片分類方法,該方法的執行主體為模型訓練方,該方法包括: 接收多個資料持有方各自發送的訓練用資料包,得到多個訓練用資料包;其中任意的第一訓練用資料包由第一資料持有方基於其儲存的多個隱私圖片和對應的多個類別標籤,實施以下步驟而確定: 針對該多個隱私圖片中任意的第一隱私圖片,確定與該第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣; 對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣; 其中,對應於該多個隱私圖片的多個變換特徵矩陣以及該多個類別標籤構成第一圖片訓練資料集,該預定矩陣區域和預定變換構成預定的第一矩陣變換方式,該第一圖片訓練資料集和第一矩陣變換方式構成該第一訓練用資料包; 針對該第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,從而得到對應於該多個訓練用資料包的多個老師圖片分類模型; 獲取預定數量的公用圖片,針對其中任意的第一公用圖片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣; 利用該第一公用原始矩陣,確定針對該第一公用圖片的多個分類結果,具體包括: 對該第一公用原始矩陣中位於該預定矩陣區域的部分公用特徵值,進行該預定變換,得到第一公用變換矩陣,該預定矩陣區域和預定變換來自該第一訓練用資料包中的第一矩陣變換方式; 將該第一公用變換矩陣輸入該第一老師圖片分類模型中,得到針對該第一公用圖片的第一分類結果; 對該多個分類結果進行統計,得到針對不同分類結果的原始票數分佈; 在該原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈; 基於該添加後票數分佈,確定其中最高票數所對應的分類結果,作為該第一公用圖片的第一類別標籤; 利用該預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖片分類模型,用於對待分類的目標圖片進行分類。
- 根據請求項1所述的方法,其中,確定與該第一隱私圖片對應的多個特徵值,包括: 將該第一隱私圖片中多個像素所對應的多個像素值,確定為該多個特徵值。
- 根據請求項1或2所述的方法,其中,該預定矩陣區域對應若干列編號和/或若干行編號;其中,對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣,包括: 從該第一原始特徵矩陣中刪除與該若干列編號對應的若干列特徵值,和/或,刪除與該若干行編號對應的若干行特徵值,得到該第一變換特徵矩陣。
- 根據請求項3所述的方法,其中,該預定矩陣區域基於以下步驟預先確定: 基於任意原始特徵矩陣具有的總列數,隨機確定出不大於該總列數的若干數值,作為該若干列編號;和/或, 基於任意原始特徵矩陣具有的總行數,隨機確定出不大於該總行數的若干數值,作為該若干行編號。
- 根據請求項1或2所述的方法,其中,該預定矩陣區域對應多個列編號,該部分特徵值包括對應該多個列編號的多列特徵值; 其中,對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣,包括: 按照基於該多個列編號設定的列間位置互換方式,對該多列特徵值進行位置互換,得到該第一變換特徵矩陣。
- 根據請求項1所述的方法,其中,確定與該第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣,包括: 利用該第一隱私圖片中多個像素所對應的多個像素值,構造第一像素矩陣; 對該第一像素矩陣進行分塊處理,得到對應的多個像素矩陣分塊; 對該多個像素矩陣分塊分別進行離散餘弦變換DCT處理,得到對應的多個處理矩陣分塊,組成該第一原始特徵矩陣。
- 根據請求項6所述的方法,其中,該預定矩陣區域對應若干分塊編號,該部分特徵值包括與該若干分塊編號對應的若干處理矩陣分塊中的各個特徵值;其中,對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣,包括: 將該若干處理矩陣分塊中的各個特徵值,對應更改為其自身的相反數,得到該第一變換特徵矩陣。
- 根據請求項1所述的方法,其中,在將得到的對應於該多個隱私圖片的多個變換特徵矩陣,以及該多個類別標籤發送至模型訓練方之後,該方法還包括: 從該模型訓練方接收該圖片分類模型; 獲取該目標圖片,並確定該目標圖片對應的目標變換特徵矩陣; 將該目標變換特徵矩陣輸入該圖片分類模型,得到針對該目標圖片的分類結果。
- 根據請求項1所述的方法,其中,基於該添加後票數分佈,確定其中最高票數所對應的分類結果,作為該第一公用圖片的第一類別標籤,包括: 在該最高票數大於預定閾值的情況下,將該最高票數所對應的分類結果,確定為該第一類別標籤;或, 在該最高票數不大於預定閾值的情況下,捨棄該第一公用圖片。
- 一種保護資料隱私的樣本預測方法,該方法的執行主體為模型訓練方,該方法包括: 接收多個資料持有方各自發送的訓練用資料包,得到多個訓練用資料包;其中任意的第一訓練用資料包由第一資料持有方基於其中儲存的針對業務對象的多個隱私樣本和對應的多個樣本標籤,實施以下步驟而確定: 針對該多個隱私樣本中任意的第一隱私樣本,確定該第一隱私樣本對應的多個特徵值,組成第一原始特徵矩陣; 對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣; 其中,對應於該多個隱私樣本的多個變換特徵矩陣以及該多個樣本標籤構成第一樣本訓練資料集,該預定矩陣區域和預定變換構成預定的第一矩陣變換方式,該第一樣本訓練資料集和第一矩陣變換方式構成該第一訓練用資料包; 針對該第一訓練用資料包中的第一樣本訓練資料集,利用其訓練出對應的第一老師樣本分類模型,從而得到對應於該多個訓練用資料包的多個老師樣本分類模型; 獲取預定數量的公用樣本,針對其中任意的第一公用樣本,確定與其對應的多個公用特徵值,組成第一公用原始矩陣; 利用該第一公用原始矩陣,確定針對該第一公用樣本的多個分類結果,具體包括: 對該第一公用原始矩陣中位於該預定矩陣區域的部分公用特徵值,進行該預定變換,得到第一公用變換矩陣,該預定矩陣區域和預定變換來自該第一訓練用資料包中的第一矩陣變換方式; 將該第一公用變換矩陣輸入該第一老師樣本分類模型中,得到針對該第一公用樣本的第一分類結果; 對該多個分類結果進行統計,得到針對不同分類結果的原始票數分佈; 在該原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈; 基於該添加後票數分佈,確定其中最高票數所對應的分類結果,作為該第一公用樣本的第一類別標籤; 利用該預定數量的公用樣本,以及對應確定出的預定數量的類別標籤,訓練學生樣本分類模型,用於對待分類的目標樣本進行分類。
- 根據請求項10所述的方法,其中,該業務對象為以下中的任一種:文本、音訊、用戶、交易事件、社交事件、登錄事件。
- 一種保護資料隱私的圖片分類裝置,該裝置整合於模型訓練方,該裝置包括: 隱私資料接收單元,配置為接收多個資料持有方各自發送的訓練用資料包,得到多個訓練用資料包;其中任意的第一訓練用資料包由第一資料持有方基於其中儲存的多個隱私圖片和對應的多個類別標籤,通過以下單元確定: 原始矩陣確定單元,配置為針對該多個隱私圖片中任意的第一隱私圖片,確定與該第一隱私圖片對應的多個特徵值,組成第一原始特徵矩陣; 矩陣變換單元,配置為對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣; 其中,對應於該多個隱私圖片的多個變換特徵矩陣以及該多個類別標籤構成第一圖片訓練資料集,該預定矩陣區域和預定變換構成預定的第一矩陣變換方式,該第一圖片訓練資料集和第一矩陣變換方式構成該第一訓練用資料包; 老師模型訓練單元,配置為針對該第一訓練用資料包中的第一圖片訓練資料集,利用其訓練出對應的第一老師圖片分類模型,從而得到對應於該多個訓練用資料包的多個老師圖片分類模型; 矩陣確定單元,配置為獲取預定數量的公用圖片,針對其中任意的第一公用圖片,確定與其對應的多個公用特徵值,組成第一公用原始矩陣; 老師分類單元,配置為利用該第一公用原始矩陣,確定針對該第一公用圖片的多個分類結果,具體包括: 矩陣變換子單元,配置為對該第一公用原始矩陣中位於第一預定矩陣區域的部分公用特徵值,進行第一預定變換,得到第一公用變換矩陣,該第一預定矩陣區域和第一預定變換來自該第一訓練用資料包中的第一矩陣變換方式; 老師分類子單元,配置為將該第一公用變換矩陣輸入該第一老師圖片分類模型中,得到針對該第一公用圖片的第一分類結果; 票數統計單元,配置為對該多個分類結果進行統計,得到針對不同分類結果的原始票數分佈; 雜訊添加單元,配置為在該原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈; 標籤確定單元,配置為基於該添加後票數分佈,確定其中最高票數所對應的分類結果,作為該第一公用圖片的第一類別標籤; 學生模型訓練單元,配置為利用該預定數量的公用圖片,以及對應確定出的預定數量的類別標籤,訓練學生圖片分類模型,用於對待分類的目標圖片進行分類。
- 一種保護資料隱私的樣本預測裝置,該裝置整合於模型訓練方,該裝置包括: 隱私資料接收單元,配置為接收多個資料持有方各自發送的訓練用資料包,得到多個訓練用資料包;其中任意的第一訓練用資料包由第一資料持有方基於其中儲存的多個隱私樣本和對應的多個類別標籤,通過以下單元確定: 原始矩陣確定單元,配置為針對該多個隱私樣本中任意的第一隱私樣本,確定與該第一隱私樣本對應的多個特徵值,組成第一原始特徵矩陣; 矩陣變換單元,配置為對該第一原始特徵矩陣中位於預定矩陣區域的部分特徵值,進行預定變換,得到第一變換特徵矩陣; 其中,對應於該多個隱私樣本的多個變換特徵矩陣以及該多個類別標籤構成第一樣本訓練資料集,該預定矩陣區域和預定變換構成預定的第一矩陣變換方式,該第一樣本訓練資料集和第一矩陣變換方式構成該第一訓練用資料包; 老師模型訓練單元,配置為針對該第一訓練用資料包中的第一樣本訓練資料集,利用其訓練出對應的第一老師樣本分類模型,從而得到對應於該多個訓練用資料包的多個老師樣本分類模型; 矩陣確定單元,配置為獲取預定數量的公用樣本,針對其中任意的第一公用樣本,確定與其對應的多個公用特徵值,組成第一公用原始矩陣; 老師分類單元,配置為利用該第一公用原始矩陣,確定針對該第一公用樣本的多個分類結果,具體包括: 矩陣變換子單元,配置為對該第一公用原始矩陣中位於第一預定矩陣區域的部分公用特徵值,進行第一預定變換,得到第一公用變換矩陣,該第一預定矩陣區域和第一預定變換來自該第一訓練用資料包中的第一矩陣變換方式; 老師分類子單元,配置為將該第一公用變換矩陣輸入該第一老師樣本分類模型中,得到針對該第一公用樣本的第一分類結果; 票數統計單元,配置為對該多個分類結果進行統計,得到針對不同分類結果的原始票數分佈; 雜訊添加單元,配置為在該原始票數分佈中添加拉普拉斯雜訊,得到對應的添加後票數分佈; 標籤確定單元,配置為基於該添加後票數分佈,確定其中最高票數所對應的分類結果,作為該第一公用樣本的第一類別標籤; 學生模型訓練單元,配置為利用該預定數量的公用樣本,以及對應確定出的預定數量的類別標籤,訓練學生樣本分類模型,用於對待分類的目標樣本進行分類。
- 一種電腦可讀儲存介質,其上儲存有電腦程式,其中,當該電腦程式在電腦中執行時,令電腦執行請求項1-11中任一項所述的方法。
- 一種計算設備,包括記憶體和處理器,其中,該記憶體中儲存有可執行碼,該處理器執行該可執行碼時,實現請求項1-11中任一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010251495.0 | 2020-04-01 | ||
CN202010251495.0A CN111159773B (zh) | 2020-04-01 | 2020-04-01 | 保护数据隐私的图片分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202205118A TW202205118A (zh) | 2022-02-01 |
TWI769753B true TWI769753B (zh) | 2022-07-01 |
Family
ID=70567847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110110602A TWI769753B (zh) | 2020-04-01 | 2021-03-24 | 保護資料隱私的圖片分類方法及裝置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111159773B (zh) |
TW (1) | TWI769753B (zh) |
WO (1) | WO2021197332A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159773B (zh) * | 2020-04-01 | 2020-11-03 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的图片分类方法及装置 |
CN111539008B (zh) * | 2020-05-22 | 2023-04-11 | 蚂蚁金服(杭州)网络技术有限公司 | 保护隐私的图像处理方法及装置 |
CN114091090A (zh) * | 2020-08-05 | 2022-02-25 | 新智数字科技有限公司 | 一种基于隐私保护的数据处理模型获取方法、装置、终端设备及存储介质 |
CN111967033B (zh) * | 2020-08-28 | 2024-04-05 | 深圳康佳电子科技有限公司 | 基于人脸识别的图片加密方法、装置、终端及存储介质 |
US11328402B2 (en) * | 2020-09-29 | 2022-05-10 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method and system of image based anomaly localization for vehicles through generative contextualized adversarial network |
CN113254927B (zh) * | 2021-05-28 | 2022-05-17 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113626854B (zh) * | 2021-07-08 | 2023-10-10 | 武汉大学 | 一种基于本地化差分隐私的图像数据隐私保护方法 |
CN115270192B (zh) * | 2022-09-26 | 2022-12-30 | 广州优刻谷科技有限公司 | 样本标签隐私风险评估方法、系统及存储介质 |
CN117150551B (zh) * | 2023-09-04 | 2024-02-27 | 东方魂数字科技(北京)有限公司 | 基于大数据的用户隐私保护方法和系统 |
CN117078789B (zh) * | 2023-09-22 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及介质 |
CN118410520B (zh) * | 2024-06-26 | 2024-10-11 | 蚂蚁科技集团股份有限公司 | 保护隐私的大语言模型训练和推理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651075A (zh) * | 2011-02-28 | 2012-08-29 | 中兴智能交通系统(北京)有限公司 | 车辆识别模型训练方法、车辆识别方法及装置 |
WO2017070841A1 (zh) * | 2015-10-27 | 2017-05-04 | 华为技术有限公司 | 图像处理方法和装置 |
TWI628601B (zh) * | 2016-05-11 | 2018-07-01 | 國立高雄應用科技大學 | 人臉影像處理方法及其系統 |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395180B2 (en) * | 2015-03-24 | 2019-08-27 | International Business Machines Corporation | Privacy and modeling preserved data sharing |
CN107958211A (zh) * | 2017-11-20 | 2018-04-24 | 济南大学 | 一种基于矩阵转化的掌纹识别方法 |
CN110912713B (zh) * | 2019-12-20 | 2023-06-23 | 支付宝(杭州)信息技术有限公司 | 多方联合进行模型数据处理的方法及装置 |
CN111159773B (zh) * | 2020-04-01 | 2020-11-03 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的图片分类方法及装置 |
-
2020
- 2020-04-01 CN CN202010251495.0A patent/CN111159773B/zh active Active
-
2021
- 2021-03-24 TW TW110110602A patent/TWI769753B/zh active
- 2021-03-30 WO PCT/CN2021/084000 patent/WO2021197332A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651075A (zh) * | 2011-02-28 | 2012-08-29 | 中兴智能交通系统(北京)有限公司 | 车辆识别模型训练方法、车辆识别方法及装置 |
WO2017070841A1 (zh) * | 2015-10-27 | 2017-05-04 | 华为技术有限公司 | 图像处理方法和装置 |
TWI628601B (zh) * | 2016-05-11 | 2018-07-01 | 國立高雄應用科技大學 | 人臉影像處理方法及其系統 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202205118A (zh) | 2022-02-01 |
CN111159773A (zh) | 2020-05-15 |
WO2021197332A1 (zh) | 2021-10-07 |
CN111159773B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI769753B (zh) | 保護資料隱私的圖片分類方法及裝置 | |
Zhao et al. | TPE2: Three-pixel exact thumbnail-preserving image encryption | |
US9600686B2 (en) | Augmented reality based privacy and decryption | |
CN109886417A (zh) | 基于联邦学习的模型参数训练方法、装置、设备及介质 | |
Doss et al. | Memetic optimization with cryptographic encryption for secure medical data transmission in IoT-based distributed systems | |
Shivani et al. | VPVC: verifiable progressive visual cryptography | |
CN110110535A (zh) | 一种基于像素矩阵的低失真隐写方法 | |
CN114640523A (zh) | 一种计算机数据安全加密算法及系统 | |
Wen et al. | Exploring the future application of UAVs: Face image privacy protection scheme based on chaos and DNA cryptography | |
Junior Gabriel et al. | Post-quantum crystography system for secure electronic voting | |
Cheng et al. | SecureAD: A secure video anomaly detection framework on convolutional neural network in edge computing environment | |
CN105743906A (zh) | 一种基于内容关联密钥的图片文件加解密方法及系统 | |
Shankar et al. | Secure image transmission in wireless sensor network (WSN) applications | |
Sharma et al. | Image disguising for protecting data and model confidentiality in outsourced deep learning | |
An et al. | Visually semantic-preserving and people-oriented color image encryption based on cross-plane thumbnail preservation | |
CN112380404B (zh) | 数据过滤方法、装置及系统 | |
CN117951754A (zh) | 一种基于深度学习的电子印章加解密方法、装置及介质 | |
Jagadeesh et al. | A novel image scrambling technique based on information entropy and quad tree decomposition | |
An et al. | A novel color image privacy-preserving method: Combining breadth and depth visual encryption with chaotic system | |
Zhang et al. | A secure image permutation–substitution framework based on chaos and compressive sensing | |
CN113672954B (zh) | 特征提取方法、装置和电子设备 | |
Shankar et al. | An optimal lightweight cryptographic hash function for secure image transmission in wireless sensor networks | |
Blesswin et al. | Original Research Article Secure transmission of grayscale images with triggered error visual sharing | |
Zhang et al. | Visually Semantics-Aware Color Image Encryption Based on Cross-Plane Substitution and Permutation | |
Atee | An improved chaotic radial basis resonance theoretic neural network integrated with genetic algorithm for enhancing security in image transmission |