TW202123052A - 防止隱私資料洩漏的編碼模型訓練方法及裝置 - Google Patents

防止隱私資料洩漏的編碼模型訓練方法及裝置 Download PDF

Info

Publication number
TW202123052A
TW202123052A TW109116405A TW109116405A TW202123052A TW 202123052 A TW202123052 A TW 202123052A TW 109116405 A TW109116405 A TW 109116405A TW 109116405 A TW109116405 A TW 109116405A TW 202123052 A TW202123052 A TW 202123052A
Authority
TW
Taiwan
Prior art keywords
sample
loss
model
training sample
feature vector
Prior art date
Application number
TW109116405A
Other languages
English (en)
Other versions
TWI756687B (zh
Inventor
石磊磊
濤 熊
Original Assignee
大陸商支付寶(杭州)信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商支付寶(杭州)信息技術有限公司 filed Critical 大陸商支付寶(杭州)信息技術有限公司
Publication of TW202123052A publication Critical patent/TW202123052A/zh
Application granted granted Critical
Publication of TWI756687B publication Critical patent/TWI756687B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本說明書實施例提供一種編碼模型訓練方法,該方法包括:首先,獲取多個訓練樣本,其中每個訓練樣本包括表徵對應目標物件身份資訊的隱私資料和物件標識;接著,將多個訓練樣本分別輸入編碼模型中,得到多個特徵向量;接著,將多個特徵向量分別輸入用於確定目標物件身份的分類模型、用於反推隱私資料的解碼模型和用於區分不同目標物件的區分模型,以對應確定分類損失、解碼損失和區分損失;再接著,以最大化分類損失和解碼損失,以及最小化區分損失為目標,對編碼模型調參。此外,還披露一種目標物件身份識別方法,利用訓練好的編碼模型對採集的隱私資料進行編碼,並對得到的特徵向量進行傳輸、儲存和比對使用。如此,可以有效防止隱私資料的洩漏。

Description

防止隱私資料洩漏的編碼模型訓練方法及裝置
本說明書一個或多個實施例涉及將機器學習應用於於資料安全的技術領域,尤其涉及一種防止隱私資料洩漏的編碼模型訓練方法及裝置、一種防止隱私資料洩漏的目標物件身份識別方法。
在許多場景下,都涉及通過採集目標物件(如用戶或設備等)的隱私資料,來對該目標物件進行身份識別或身份核驗。例如,在人臉支付場景下,可以通過採集用戶的人臉資訊,識別該用戶的身份(如支付系統中的用戶ID),以根據該身份搜尋到對應支付帳戶,完成相應訂單的支付。又例如,在用戶行為分析場景下,可以通過採集終端設備在使用過程中產生的感測器資料等,識別該設備的身份(如資料分析系統為該設備分配的設備ID),以建立用戶與設備之間的映射關係。顯然,這些場景下,對身份識別的準確性都提出較高的要求。 然而,在以上身份識別過程中涉及的針對隱私資料的採集、傳輸、儲存和使用環節,均存在隱私資料洩漏的風險。因此,迫切需要一種合理、可靠的方案,可以在保證針對目標物件進行身份識別的準確性的同時,有效降低隱私資料洩漏的風險。
本說明書一個或多個實施例描述了一種防止隱私資料洩漏的編碼模型訓練方法及裝置,以及一種防止隱私資料洩漏的目標物件身份識別方法及裝置,可以在保證針對目標物件進行身份識別的準確性的同時,有效降低隱私資料洩漏的風險。 根據第一態樣,提供一種防止隱私資料洩漏的編碼模型訓練方法,該方法包括:獲取多個訓練樣本組,包括任意的第一樣本組,所述第一樣本組包括第一樣本對和第二樣本對,所述第一樣本對包括第一訓練樣本和第二訓練樣本,其中第一訓練樣本包括表徵第一目標物件身份資訊的第一隱私資料和第一物件標識;所述第二訓練樣本具有所述第一物件標識,所述第二樣本對的兩個樣本具有不同物件標識;將所述第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量,其中包括對應於所述第一訓練樣本的第一特徵向量;將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失;將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失;將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關;以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。 在一個實施例中,所述目標物件包括用戶,所述身份資訊包括以下中的一種或多種:人臉圖像、指紋圖像、虹膜圖像。 在一個實施例中,所述目標物件包括設備,所述身份資訊包括以下中的一種或多種:國際行動設備識別碼IMEI、用戶識別卡SIM的卡號、設備感測器資訊。 在一個實施例中,所述第二樣本對包括所述第一訓練樣本和第三訓練樣本;其中將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,包括:將所述第一訓練樣本、所述第二訓練樣本和所述第三訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。 在一個實施例中,所述第二樣本對包括第三訓練樣本和第四訓練樣本;其中將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,包括:將所述第一訓練樣本、第二訓練樣本、第三訓練樣本和第四訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。 在一個實施例中,在確定第一區分損失之後,所述方法還包括:以最小化所述多個訓練樣本組對應的分類損失為目標,調整所述分類模型中參數;和/或,以最小化所述多個訓練樣本組對應的解碼損失為目標,調整所述解碼模型中的參數;和/或,以最小化所述多個訓練樣本組對應的區分損失為目標,調整所述區分模型中的參數。 在一個實施例中,其中以最大化所述多個訓練樣本對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數,包括:基於預先設定的針對所述分類損失、解碼損失和區分損失的權重參數,對所述分類損失、解碼損失和區分損失進行加權求和,得到綜合損失,所述綜合損失與所述分類損失和解碼損失負相關,且與所述區分損失正相關;基於所述綜合損失,調整所述編碼模型中的模型參數。 根據第二態樣,提供一種防止隱私資料洩漏的目標物件身份識別方法,所述方法的執行主體為伺服器,所述識別方法包括:從終端接收第二特徵向量,所述第二特徵向量由所述終端將採集的第二隱私資料輸入編碼模型而確定;其中所述編碼模型基於上述第一態樣所述的方法而預先訓練得到;將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功;其中所述多個特徵向量通過將所述多個目標物件的多條歷史隱私資料輸入所述編碼模型而得到。 根據第三態樣,提供一種防止隱私資料洩漏的目標物件識別方法,所述方法的執行主體為終端,所述識別方法包括:採集第二隱私資料;將所述第二隱私資料輸入編碼模型,得到第二特徵向量,所述編碼模型基於第一態樣所述的方法而預先訓練得到;將所述第二特徵向量發送至伺服器,以使所述伺服器將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。 根據第四態樣,提供一種防止隱私資料洩漏的編碼模型訓練裝置,包括:樣本獲取單元,配置為獲取多個訓練樣本組,包括任意的第一樣本組,所述第一樣本組包括第一樣本對和第二樣本對,所述第一樣本對包括第一訓練樣本和第二訓練樣本,其中第一訓練樣本包括表徵第一目標物件身份資訊的第一隱私資料和第一物件標識;所述第二訓練樣本具有所述第一物件標識,所述第二樣本對的兩個樣本具有不同物件標識;編碼單元,配置為將所述第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量,其中包括對應於所述第一訓練樣本的第一特徵向量;分類單元,配置為將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失;解碼單元,配置為將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失;區分單元,配置為將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關;編碼模型調參單元,配置為以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。 根據第五態樣,提供一種防止隱私資料洩漏的目標物件身份識別裝置,所述裝置整合於伺服器,所述識別裝置包括:向量接收單元,配置為從終端接收第二特徵向量,所述第二特徵向量由所述終端將採集的第二隱私資料輸入編碼模型而確定;其中所述編碼模型上述第一四態樣中的裝置而預先訓練得到;向量比對單元,配置為將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功;其中所述多個特徵向量通過將所述多個目標物件的多條歷史隱私資料輸入所述編碼模型而得到。 根據第六態樣,提供一種防止隱私資料洩漏的目標物件識別裝置,所述裝置整合於終端,所述識別裝置包括:資料採集單元,配置為採集第二隱私資料;編碼單元,配置為將所述第二隱私資料輸入編碼模型,得到第二特徵向量,所述編碼模型基於第四態樣中的裝置而預先訓練得到;向量發送單元,配置為將所述第二特徵向量發送至伺服器,以使所述伺服器將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。 根據第七態樣,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一態樣或第二態樣或第三態樣的方法。 根據第八態樣,提供了一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現第一態樣或第二態樣或第三態樣的方法。 綜上,在本說明書實施例披露的上述訓練方法及裝置中,以最小化區分損失,以及最大化分類損失和解碼損失為目標,調整所述編碼模型中的模型參數,可以使得編碼向量具有高區分度(以保證後續身份識別的準確度和有效性),同時,可以使得編碼向量一方面不可逆,也就是不法分子難以通過編碼向量反推或還原出原始隱私資料,另一方面對編碼向量進行混淆,也就是不法分子難以通過編碼向量實現分類或者說實現對目標物件身份的確定。 此外,在本說明書實施例披露的上述身份識別方法及裝置中,通過採用由上述訓練方法得到的編碼模型,將隱私資料編碼為特徵向量,並對特徵向量進行傳輸、儲存和比對,可以保證身份識別結果的準確度和有效性。同時,即使特徵向量發生洩漏,因其具有不可逆性和混淆性,不法分子難以基於特徵向量獲得可用資訊,從而實現有效防止隱私資料的洩漏。並且,將特徵向量發送至雲端比對,而不是直接在終端進行比對,可以使得比對範圍不受終端儲存資源的限制。
下面結合附圖,對本說明書提供的方案進行描述。 如前所述,在隱私資料的採集、傳輸、儲存和使用環節,均存在隱私資料洩漏的風險。目前,在一種方案中,可以在採集到目標物件的隱私資料後,對其進行加密,接著傳輸和儲存加密後的資料,以使得傳輸和儲存環節洩漏的資料對不法分子而言不可用。但是,在使用過程中,需要對加密資料進行解密,以對隱私資料還原,故仍存在洩漏風險,並且,在密鑰洩漏或密鑰被破解的情況下,也會導致隱私資料的洩漏。在另一種方案中,可以在採集到的隱私資料中加入噪音(如浮水印),以降低隱私資料的辨識度,之後對加入噪音的隱私資料進行傳輸、儲存和使用。然而,此種降低隱私資料辨識度的方法,很難同時滿足隱私資料的辨識度低和目標物件身份識別的準確性這兩點要求。在又一種方案中,可以在設備端或邊緣端完成隱私資料的採集和計算並傳回決策結果,不對採集的隱私資料進行傳輸和儲存。但是,由於端上的儲存資源和網路資源的限制,端上可比對的樣本庫大小受限且不能即時更新,導致身份識別的成功率和覆蓋率十分有限。 基於以上觀察和分析,發明人提出通過引入對抗學習的思想,設計一種防止隱私資料洩漏的編碼模型訓練方法,以及,基於所述編碼模型實現的一種防止隱私資料洩漏的目標物件身份識別方法。採用所述訓練方法和識別方法,可以在保證針對目標物件進行身份識別的準確性的同時,有效降低隱私資料洩漏的風險。 具體地,圖1顯示根據一個實施例的一種防止隱私資料洩漏的編碼模型訓練方法的實施方塊圖。在一個實施例中,如圖1所示,首先,抽取一批訓練樣本,其中每個訓練樣本包括對應目標物件的隱私資料(X)和物件標識(Y);接著,將這批訓練樣本分別輸入編碼模型中,得到對應的一批特徵向量(Vx);接著,將這批特徵向量分別輸入用於確定目標物件的身份的分類模型、用於反推隱私資料的解碼模型,和用於區分不同目標物件的區分模型中,以分別確定該批訓練樣本對應的分類損失、解碼損失和區分損失;再接著,先固定編碼器中的模型參數,分別以最小化所述分類損失、解碼損失和區分損失為目標,對應調整分類模型、解碼模型和區分模型中的模型參數。進一步地,在一個具體的實施例中,再抽取另一批訓練樣本,重複上述過程得到對應於該另一批訓練樣本的分類損失、解碼損失和區分損失;接著,固定上述調參後的分類模型、解碼模型和區分模型中的模型參數,以最大化該另一批訓練樣本對應的分類損失和解碼損失,以及最小化對應的區分損失為目標,調整編碼模型中的參數。如此循環迭代,可以得到最終訓練好的編碼模型。並且,由該編碼模型得到的特徵向量,針對不同目標物件具有良好的區分度,同時,不法分子很難根據洩漏的特徵向量還原出可用的隱私資料,也無法根據洩漏的特徵向量確定目標物件身份,進而有效防止隱私資料的洩漏。 進一步地,利用最終訓練好的編碼模型,可以實現在識別目標物件身份的過程中,有效防止隱私資料的洩漏。圖2顯示根據一個實施例的一種防止隱私資料洩漏的目標物件識別方法的實施方塊圖。在一個實施例中,如圖2所示,首先,終端採集隱私資料(如用戶的人臉圖像),再利用終端中配置的編碼模型,對隱私資料進行編碼,得到對應的特徵向量;接著,終端將特徵向量發送至雲端伺服器;再接著,伺服器將接收到的特徵向量與其中已儲存的對應於多個目標物件的多個特徵向量進行比對,並將比對結果傳回給終端;再接著,終端根據比對結果確定身份識別的最終結果。如此,在身份識別過程中,傳輸、儲存和使用的均為編碼模型輸出的特徵向量,可以有效防止隱私資料的洩漏。 下面,結合具體的實施例,描述上述保護方法的實施步驟。 具體地,圖3顯示根據一個實施例的一種防止隱私資料洩漏的編碼模型訓練方法流程圖,所述方法的執行主體可以為任何具有計算、處理能力的裝置、設備、平臺、設備叢集。如圖3所示,所述方法包括以下步驟: 步驟S310,獲取多個訓練樣本組,包括任意的第一樣本組,所述第一樣本組包括第一樣本對和第二樣本對,所述第一樣本對包括第一訓練樣本和第二訓練樣本,其中第一訓練樣本包括表徵第一目標物件身份資訊的第一隱私資料和第一物件標識;所述第二訓練樣本具有所述第一物件標識,所述第二樣本對的兩個樣本具有不同物件標識。步驟S320,將所述第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量,其中包括對應於所述第一訓練樣本的第一特徵向量。步驟S330,將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失。步驟S340,將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失。步驟S350,將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關。步驟S360,以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。 首先需要說明的是,上述第一樣本組、第一樣本對、第一目標物件、第一物件標識和第一特徵向量等中的“第一”,以及第二樣本對、第二訓練樣本等中的“第二”僅用於區分同類事物,不具有其他限定作用。 以上步驟具體如下: 首先,在步驟S310,獲取多個訓練樣本組。 在一個實施例中,多個訓練樣本組所涉及的目標物件可以包括用戶,相應地,在一個具體的實施例中,目標物件的身份資訊可以包括用戶的生物特徵資訊,如人臉圖像、指紋圖像和虹膜圖像等等。在另一個的具體的實施例中,目標物件的身份資訊還可以包括用戶的手機號、身份證號等。 在另一個實施例中,多個訓練樣本組所涉及的目標物件可以包括動物,如馬、貓、狗、豬等,相應地,目標物件的身份資訊可以包括動物的生物特徵資訊。在一個具體的實施例中,其中動物的生物特徵資訊可以包括動物的面部頭像、動物的全身圖像、動物的爪印等等。在又一個實施例中,多個訓練樣本組所涉及的目標物件可以包括設備,相應地,目標物件的身份資訊可以包括設備中裝置的標識資訊和設備感測器資訊。在一個具體的實施例中,其中裝置的標識資訊可以包括IMEI(International Mobile Equipment Identity,國際行動設備識別碼)和SIM (Subscriber Identity Modula,用戶識別卡)的卡號。在一個具體的實施例中,其中設備感測器資訊可以包括設備感測器的基礎電路資料(如感測器電流、電壓等)和設備感測器所採集的使用狀態資料(如設備加速度、攝影鏡頭雜音等)。 在一個實施例中,上述目標物件的物件標識可以為系統(如所述訓練方法的執行主體或業務需求方)為每個目標物件分配的唯一標識。在一個具體的實施例中,其中物件標識可以由數字、字母或符號中的一種或幾種組成。例如,兩個不同目標物件的物件標識可以分別為0011和1100。 在一個實施例中,對於上述多個訓練樣本組中的每個訓練樣本組,可以包括三個訓練樣本、或四個訓練樣本、或其他數量的訓練樣本,關鍵在於,每個訓練樣本組中同時存在具有相同物件標識的樣本對和不同物件標識的樣本對即可。進一步地,對於多個訓練樣本組中任意的第一樣本組,其中包括第一樣本對和第二樣本對,在一個具體的實施例中,其中第一樣本對和第二樣本對包括具有相同物件標識的第一訓練樣本和第二訓練樣本,第二樣本對中包括具有不同物件標識的第一訓練樣本和第三訓練樣本。在另一個具體的實施例中,其中第一樣本對和第二樣本對包括具有相同物件標識的第一訓練樣本和第二訓練樣本,第二樣本對中包括具有不同物件標識的第三訓練樣本和第四訓練樣本。 另一方面,在一個實施例中,可以先獲取一批訓練樣本,再將這批訓練樣本劃分為上述多個訓練樣本組。在一個具體的實施例中,可以從這批訓練樣本中任意選取某個樣本作為錨點(Anchor)樣本,再從其他樣本中選取與該某個樣本具有相同物件標識的樣本作為正樣本(Positive),並且選取與該某個樣本具有不同物件標識的樣本作為負樣本(Negative),如此該某個樣本與其對應的正樣本和負樣本可以共同組成一個訓練樣本組。需要理解,其中某個樣本和其對應的正樣本可作為上述具有相同物件標識的第一樣本對,且該某個樣本和其對應的負樣本可作為上述具有不同物件標識的第二樣本對。由此,多次執行上述選取錨點和對應正負樣本的過程,可以基於該批訓練樣本,獲得上述多個訓練樣本組。 在另一個具體的實施例中,可以從這批訓練樣本中任意選取具有相同物件標識的兩個樣本作為一個樣本對,並且從其他訓練樣本中選取具有不同物件的兩個樣本作為另一個樣本,如此該一個樣本對和該另一個樣本對就可以組成一個訓練樣本組。由此,多次執行選取兩個樣本對的過程,可以基於該批訓練樣本,獲得上述多個訓練樣本組。 以上,可以獲取多個訓練樣本組,並且,對於其中包括的任意的第一樣本組,執行步驟S320,將該第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量。需要理解,對多個訓練樣本組中每個訓練樣本組均執行步驟S320,可以得到對應於多個訓練樣本組中全量訓練樣本的全量特徵向量。 在一個實施例中,上述編碼模型可以採用神經網路實現。在一個具體的實施例中,其中神經網路可以包括CNN (Convolutional Neural Networks,卷積神經網路)或DNN ((Deep Neural Networks,深度神經網路)。 需要理解,對於第一樣本組中包括的任意的第一訓練樣本,將該第一訓練樣本中的隱私資料輸入編碼模型中,可以得到對應的第一特徵向量。基於此,可以分別執行步驟S330、步驟S340和步驟S350。 具體地,一態樣,在步驟S330中,將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失。 在一個實施例中,其中分類模型可以採用神經網路、梯度決策樹、貝葉斯分類、支援向量機等演算法實現。在一個具體的實施例中,其中分類模型可以為多分類模型。在另一個實施例中,其中分類模型可以為多個二分類模型。在一個實施例中,可以採用交叉熵損失函數、鉸鏈損失函數、指數損失函數等,確定第一分類損失。 如此,可以確定第一訓練樣本對應的第一分類損失,也就意味著可以確定出第一樣本組中,再至多個訓練樣本組中每個樣本對應的分類損失。相應地,對該每個樣本對應的分類損失進行加和或者取期望值等運算,可以得到多個訓練樣本組對應的分類損失。在一個例子中,具體可以採用以下公式(1)中的交叉熵損失函數,確定多個訓練樣本組對應的分類損失。
Figure 02_image001
其中
Figure 02_image003
表示分類模型輸出的預測值;
Figure 02_image005
表示對應的標籤值,基於對應訓練樣本的物件標識而確定,具體可參見相關現有技術,在此不贅述。 以上通過步驟S330,可以確定出多個訓練樣本組對應的分類損失。 另一態樣,在步驟S340中,將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失。 在一個實施例中,其中解碼模型可以採用神經網路、梯度決策樹、貝葉斯分類、支援向量機等演算法實現。在一個實施例中,可以採用MSE(Mean Square Error,均方誤差)、MAE(Mean Absolute Error,平均絕對誤差)等損失函數,確定第一解碼損失。 如此,可以確定第一訓練樣本對應的第一解碼損失,也就意味著可以確定出第一樣本組中,再至多個訓練樣本組中每個樣本對應的解碼損失。相應地,對該每個樣本對應的解碼損失進行加和或者取期望值等運算,可以得到多個訓練樣本組對應的解碼損失。在一個例子中,具體可以採用以下公式(2)中的MAE損失函數,確定多個訓練樣本組對應的解碼損失。
Figure 02_image007
其中
Figure 02_image009
表示解碼模型輸出的反推資料,
Figure 02_image011
表示對應的原始的隱私資料。 以上通過步驟S340,可以確定出多個訓練樣本組對應的解碼損失。 又一態樣,在步驟S350中,將步驟S320中確定出的第一樣本組對應的多個特徵向量輸入用於區分不同目標物件的區分模型中,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關。 在一個實施例中,上述區分模型可以採用三元組網路(Triplet Network)實現。具體地,其中第二樣本對包括所述第一訓練樣本和第三訓練樣本。相應地,本步驟可以包括:將上述第一訓練樣本、第二訓練樣本和第三訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。在一個具體的實施例中,其中預設順序可以為針對錨點樣本、負樣本和正樣本這三種樣本設定的任意排列順序。在一個例子中,預設順序可以為先後為:負樣本、錨點樣本和正樣本。在一個具體的實施例中,圖4顯示根據一個實施例的三元組網路的網路結構示意圖,該三元組網路包括3個相同的前饋網路(這3個網路共享參數),圖中用3個Net進行表示,並且,X、X+ 和X- 分別表示前述錨點樣本、正樣本和負樣本,樣本距離1表示錨點樣本和負樣本之間的距離,樣本距離2表示錨點樣本和正樣本之間的距離。進一步地,上述第一區分損失可以利用三元組網路對應的損失函數確定。 在另一個實施例中,上述區分模型可以採用四元組網路實現。具體地,其中第二樣本對包括第三訓練樣本和第四訓練樣本。相應地,本步驟可以包括:將所述第一訓練樣本、第二訓練樣本、第三訓練樣本和第四訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。在一個具體的實施例中,其中預設順序可以為具有相同物件標識的樣本對中的兩個樣本(這兩個樣本的順序可以不限定)在前,具有不同物件標識的樣本對中的兩個樣本(這兩個樣本的順序可以不限定)在後。進一步地,上述第一區分損失可以利用四元組網路對應的損失函數確定。 如此,可以確定第一樣本組對應的第一區分損失,也就意味著可以確定出多個訓練樣本組中每個樣本組對應的區分損失。相應地,對該每個樣本組對應的區分損失進行加和或者取期望值等運算,可以得到多個訓練樣本組對應的區分損失。在一個例子中,具體可以採用以下公式(3)中的三元組損失函數,確定多個訓練樣本組對應的區分損失。
Figure 02_image013
其中
Figure 02_image015
Figure 02_image017
Figure 02_image019
分別表示錨點樣本、正樣本和負樣本對應的特徵向量,
Figure 02_image021
表示由區分模型輸出的錨點樣本和正樣本之間的距離,
Figure 02_image023
表示由區分模型輸出的錨點樣本和負樣本之間的距離,
Figure 02_image025
為超參,例如可以設定為1。 以上通過步驟S350,可以確定出多個訓練樣本組對應的區分損失。 由上,在步驟S330、步驟S340和步驟S350,可以分別確定多個訓練樣本組對應的分類損失、解碼損失和區分損失。基於此,在步驟S360,以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。 在一個實施例中,可以先基於多個訓練樣本組對應的分類損失、解碼損失和區分損失,確定綜合損失;再基於該綜合損失,調整所述編碼模型中的模型參數,其中該綜合損失與分類損失和解碼損失負相關,且與區分損失正相關。在一個具體的實施例中,可以採用以下公式(4)確定綜合損失:
Figure 02_image027
其中LRecognition 、Lclassification 和LReconstruction 分別表示多個訓練樣本組對應的區分損失、分類損失和解碼損失。 在另一個具體的實施例中,還可以為分類損失、解碼損失和區分損失分配不同的權重參數,進而確定綜合損失,具體如下式(5)所示:
Figure 02_image029
其中α1 、α2 和α3 為權重參數,且為超參。在一個例子中,α1 、α2 和α3 的取值可以分別為0.5、0.25和0.25。 需要理解,可以將分類模型和編碼模型看作是在模擬攻擊者模型,如此,以最小化所述多個訓練樣本組對應的區分損失,以及最大化所述多個訓練樣本組對應的分類損失和解碼損失為目標,調整所述編碼模型中的模型參數,可以使得編碼向量具有高區分度(以保證後續身份識別的準確度和有效性),同時,有效抵禦攻擊者的攻擊,使得編碼向量一方面不可逆,也就是不法分子難以通過編碼向量反推或還原出原始隱私資料,另一方面對編碼向量進行混淆,也就是不法分子難以通過編碼向量實現分類或者說實現對目標物件身份的確定。 此外需要說明的是,在一個實施例中,在步驟S360之後,所述訓練方法還可以包括:以最小化所述多個訓練樣本組對應的分類損失為目標,調整所述分類模型中參數;和/或,以最小化所述多個訓練樣本組對應的解碼損失為目標,調整所述解碼模型中的參數;和/或,以最小化所述多個訓練樣本組對應的區分損失為目標,調整所述區分模型中的參數。如此,通過引入對抗學習的方式,可以進一步提高編碼模型的性能。 下面,結合一個具體的例子,對上述訓練方法進行進一步說明。在一個例子中,得到最終訓練好的編碼模型需要進行多輪迭代訓練,在其中一輪訓練中,又可以包括對分類模型、解碼模型和區分模型這三個模型的多次迭代訓練和對編碼模型的一次訓練。更具體地,在第一輪訓練中,可以先固定編碼模型,依次抽取幾個批次訓練樣本,以最佳化分類模型、解碼模型和區分模型中的參數,接著,基於此輪中參數最佳化後的分類模型、解碼模型和區分模型,再次後去一批訓練樣本,以最佳化編碼模型中的參數。如此,經過多輪迭代訓練,可以得到最終收斂的編碼模型,用於後續針對目標物件的身份識別。 以上,對編碼模型的訓練方法進行介紹。接下來,再對基於該訓練好的編碼模型而實施的針對目標物件的身份識別方法進行介紹。 具體地,圖5顯示根據一個實施例的一種防止隱私資料洩漏的目標物件識別方法互動圖,其中的互動端包括終端和伺服器。需要說明的是,在一個實施例中,其中終端可以包括智慧型手機、平板電腦、可穿戴設備、掃描設備等等。在一個實施例中,其中伺服器可以為雲端伺服器,並且該伺服器可以調用雲端資料庫中儲存的資料記錄。 如圖5所示,所述方法包括以下步驟: 步驟S510,終端採集第二隱私資料。 在一個實施例中,身份識別的目標物件為用戶,相應地,可以回應於用戶發出的採集指令,採集第二隱私資料。在一個具體的實施例中,可以回應於用戶發出的刷臉支付指令,採集人臉資料和手機號。在另一個實施例中,身份識別的目標物件為設備,相應地,可以基於用戶授權,定期從終端採集終端的身份資訊,如IMEA、SIM卡號和感測器資訊等。 以上可以採集第二隱私資料。接著,在步驟S520,終端將所述第二隱私資料輸入上述訓練方法中得到的編碼模型,得到第二特徵向量。並且,步驟S530,終端將第二特徵向量發送至伺服器。 需要說明的是,終端中配置有基於上述訓練方法得到的編碼模型,基於此,終端可以利用該編碼模型對採集到的第二隱私資料進行編碼,得到對應的第二特徵向量。如此,通過對第二特徵向量進行傳輸、儲存和使用,可以有效防止隱私資料的洩漏。可選地,在終端產生第二特徵向量後,可以對其中採集的第二隱私資料進行刪除,以防止隱私資料的洩漏。 接著,在步驟S540,伺服器將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。 在一個實施例中,其中所述多個特徵向量通過將所述多個目標物件的多條歷史隱私資料輸入所述編碼模型而得到。 在一個實施例中,其中將第二特徵向量與多個特徵向量進行比對,得到比對結果,可以包括:先分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值;接著,在一個具體的實施例中,在該最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功,作為所述比對結果;在另一個具體的實施例中,在該最大值不大於預設臨界值的情況下,判定身份識別失敗,作為所述比對結果。在一個例子中,其中預設臨界值可以根據實際經驗和不同的業務需求進行設定,如在支付場景下設定為0.99,而在解除門禁場景下設定為0.90,在建立用戶與設備映射關係的場景下設定為0.80。 需要說明的是,在一個實施例中,在支付場景下,在上述判定身份識別成功後,可以根據該最大值所對應的多個特徵向量中的某特徵向量,以及預先儲存的多個特徵向量與多個用戶資訊(包括支付帳戶等)之間的映射關係,獲取該某特徵向量對應的支付帳戶,並完成針對當前訂單的扣款操作。 此外,在一個實施例中,在步驟S540之後,所述識別方法還可以包括步驟S550,將比對結果發送至終端。在一個具體的實施例中,可以將包括上述身份識別成功或身份識別失敗的比對結果發送至終端。在另一個具體的實施例中,還可以將上述最大值發送至終端,此時,上述伺服器可以在確定上述最大值後,將最大值作為比對結果發送至終端,而無需對最大值進行判斷操作,而是由終端在接收到最大值後,判斷該最大值是否大於預設臨界值,進而確定身份識別是否成功。 以上,採用本說明書實施例披露的目標物件身份識別方法,通過採用由上述訓練方法得到的編碼模型,將隱私資料編碼為特徵向量,並對特徵向量進行傳輸、儲存和比對,可以保證身份識別結果的準確度和有效性。同時,即使特徵向量發生洩漏,因其具有不可逆性和混淆性,不法分子難以基於特徵向量獲得可用資訊,從而實現有效防止隱私資料的洩漏。此外,將特徵向量發送至雲端比對,而不是直接在終端進行比對,可以使得比對範圍不受終端儲存資源的限制。 與上述訓練方法和識別方法相對應的,本說明書實施例還披露一種訓練裝置和識別裝置,具體如下: 圖6顯示根據一個實施例的一種防止隱私資料洩漏的編碼模型訓練裝置結構圖。如圖6所示,所述訓練裝置600可以包括: 樣本獲取單元610,配置為獲取多個訓練樣本組,包括任意的第一樣本組,所述第一樣本組包括第一樣本對和第二樣本對,所述第一樣本對包括第一訓練樣本和第二訓練樣本,其中第一訓練樣本包括表徵第一目標物件身份資訊的第一隱私資料和第一物件標識;所述第二訓練樣本具有所述第一物件標識,所述第二樣本對的兩個樣本具有不同物件標識。編碼單元620,配置為將所述第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量,其中包括對應於所述第一訓練樣本的第一特徵向量。分類單元630,配置為將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失。解碼單元640,配置為將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失。區分單元650,配置為將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關。編碼模型調參單元660,配置為以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。 在一個實施例中,所述目標物件包括用戶,所述身份資訊包括以下中的一種或多種:人臉圖像、指紋圖像、虹膜圖像。 在一個實施例中,所述目標物件包括設備,所述身份資訊包括以下中的一種或多種:國際行動設備識別碼IMEI、用戶識別卡SIM的卡號、設備感測器資訊。 在一個實施例中,所述第二樣本對包括所述第一訓練樣本和第三訓練樣本;其中區分單元650具體配置為:將所述第一訓練樣本、所述第二訓練樣本和所述第三訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。 在一個實施例中,所述第二樣本對包括第三訓練樣本和第四訓練樣本;其中區分單元650具體配置為:將所述第一訓練樣本、第二訓練樣本、第三訓練樣本和第四訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。 在一個實施例中,所述裝置600還包括:分類模型調參單元670,配置為以最小化所述多個訓練樣本組對應的分類損失為目標,調整所述分類模型中參數;和/或,解碼模型調參單元680,配置為以最小化所述多個訓練樣本組對應的解碼損失為目標,調整所述解碼模型中的參數;和/或,區分模型調參單元690,配置為以最小化所述多個訓練樣本組對應的區分損失為目標,調整所述區分模型中的參數。 在一個實施例中,所述編碼模型調參單元660具體配置為:基於預先設定的針對所述分類損失、解碼損失和區分損失的權重參數,對所述分類損失、解碼損失和區分損失進行加權求和,得到綜合損失,所述綜合損失與所述分類損失和解碼損失負相關,且與所述區分損失正相關;基於所述綜合損失,調整所述編碼模型中的模型參數。 圖7顯示根據一個實施例的一種防止隱私資料洩漏的身份識別裝置結構圖,所述裝置整合於伺服器。如圖7所示,所述識別裝置700包括: 向量接收單元710,配置為從終端接收第二特徵向量,所述第二特徵向量由所述終端將採集的第二隱私資料輸入編碼模型而確定;其中所述編碼模型基於圖6顯示的裝置而預先訓練得到。向量比對單元720,配置為將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功;其中所述多個特徵向量通過將所述多個目標物件的多條歷史隱私資料輸入所述編碼模型而得到。 在一個實施例中,所述識別裝置700還包括:結果發送單元730,配置為將所述比對結果發送至所述終端。 在一個實施例中,所述向量比對單元720具體配置為:分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值;在所述最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功,作為所述比對結果。 在一個實施例中,所述向量比對單元720具體配置為:分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值,作為所述比對結果;其中結果發送單元730具體配置為:將所述最大值發送至所述終端,以使所述終端根據所述最大值和預設臨界值,判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。 圖8顯示根據另一個實施例的一種防止隱私資料洩漏的身份識別裝置結構圖,所述裝置整合於終端。如圖8所示,所述識別裝置800包括: 資料採集單元810,配置為採集第二隱私資料;編碼單元820,配置為將所述第二隱私資料輸入編碼模型,得到第二特徵向量,所述編碼模型基於圖6顯示的裝置而預先訓練得到;向量發送單元830,配置為將所述第二特徵向量發送至伺服器,以使所述伺服器將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。 在一個實施例中,所述比對結果包括所述第二特徵向量與所述多個特徵向量中各個特徵向量之間相似度的最大值,所述裝置800還包括:結果接收單元840,配置為從所述伺服器接收所述最大值;判定單元850,配置為在所述最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功。 根據又一態樣的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖3或圖5所描述的方法。 根據再一態樣的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現結合圖3或圖5所述的方法。 本領域技術人員應該可以意識到,在上述一個或多個範例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或碼進行傳輸。 以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
310~360:步驟 S510~S550:步驟 600:訓練裝置 610:樣本獲取單元 620:編碼單元 630:分類單元 640:解碼單元 650:區分單元 660:編碼模型調參單元 670:分類模型調參單元 680:解碼模型調參單元 690:區分模型調參單元 700:識別裝置 710:向量接收單元 720:向量比對單元 730:結果發送單元 800:識別裝置 810:資料採集單元 820:編碼單元 830:向量發送單元 840:結果接收單元 850:判定單元
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。 [圖1] 顯示根據一個實施例的一種防止隱私資料洩漏的編碼模型訓練方法的實施方塊圖; [圖2] 顯示根據一個實施例的一種防止隱私資料洩漏的目標物件識別方法的實施方塊圖; [圖3] 顯示根據一個實施例的一種防止隱私資料洩漏的編碼模型訓練方法流程圖; [圖4] 顯示根據一個實施例的三元組網路的網路結構示意圖; [圖5] 顯示根據一個實施例的一種防止隱私資料洩漏的目標物件識別方法互動圖; [圖6] 顯示根據一個實施例的一種防止隱私資料洩漏的編碼模型訓練裝置結構圖; [圖7] 顯示根據一個實施例的一種防止隱私資料洩漏的身份識別裝置結構圖; [圖8] 顯示根據另一個實施例的一種防止隱私資料洩漏的身份識別裝置結構圖。

Claims (28)

  1. 一種防止隱私資料洩漏的編碼模型訓練方法,包括: 獲取多個訓練樣本組,包括任意的第一樣本組,所述第一樣本組包括第一樣本對和第二樣本對,所述第一樣本對包括第一訓練樣本和第二訓練樣本,其中第一訓練樣本包括表徵第一目標物件身份資訊的第一隱私資料和第一物件標識;所述第二訓練樣本具有所述第一物件標識,所述第二樣本對的兩個樣本具有不同物件標識; 將所述第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量,其中包括對應於所述第一訓練樣本的第一特徵向量; 將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失; 將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失; 將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關; 以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。
  2. 根據請求項1所述的方法,其中,所述目標物件包括用戶,所述身份資訊包括以下中的一種或多種:人臉圖像、指紋圖像、虹膜圖像。
  3. 根據請求項1所述的方法,其中,所述目標物件包括設備,所述身份資訊包括以下中的一種或多種:國際行動設備識別碼IMEI、用戶識別卡SIM的卡號、設備感測器資訊。
  4. 根據請求項1所述的方法,其中,所述第二樣本對包括所述第一訓練樣本和第三訓練樣本;其中將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,包括: 將所述第一訓練樣本、所述第二訓練樣本和所述第三訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。
  5. 根據請求項1所述的方法,其中,所述第二樣本對包括第三訓練樣本和第四訓練樣本;其中將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,包括: 將所述第一訓練樣本、第二訓練樣本、第三訓練樣本和第四訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。
  6. 根據請求項1所述的方法,其中,在確定第一區分損失之後,所述方法還包括: 以最小化所述多個訓練樣本組對應的分類損失為目標,調整所述分類模型中參數;和/或, 以最小化所述多個訓練樣本組對應的解碼損失為目標,調整所述解碼模型中的參數;和/或, 以最小化所述多個訓練樣本組對應的區分損失為目標,調整所述區分模型中的參數。
  7. 根據請求項1所述的方法,其中,以最大化所述多個訓練樣本對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數,包括: 基於預先設定的針對所述分類損失、解碼損失和區分損失的權重參數,對所述分類損失、解碼損失和區分損失進行加權求和,得到綜合損失,所述綜合損失與所述分類損失和解碼損失負相關,且與所述區分損失正相關; 基於所述綜合損失,調整所述編碼模型中的模型參數。
  8. 一種防止隱私資料洩漏的目標物件身份識別方法,所述方法的執行主體為伺服器,所述識別方法包括: 從終端接收第二特徵向量,所述第二特徵向量由所述終端將採集的第二隱私資料輸入編碼模型而確定;其中所述編碼模型基於請求項1所述的方法而預先訓練得到; 將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功;其中所述多個特徵向量通過將所述多個目標物件的多條歷史隱私資料輸入所述編碼模型而得到。
  9. 根據請求項8所述的識別方法,其中,在將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果之後,所述識別方法還包括: 將所述比對結果發送至所述終端。
  10. 根據請求項8或9所述的識別方法,其中,將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,包括: 分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值; 在所述最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功,作為所述比對結果。
  11. 根據請求項9所述的方法,其中,將所述第二特徵向量與所述伺服器中預先儲存的多個目標物件的多個特徵向量進行比對,得到比對結果,包括: 分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值,作為所述比對結果; 其中將所述比對結果發送至所述終端,包括: 將所述最大值發送至所述終端,以使所述終端根據所述最大值和預設臨界值,判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。
  12. 一種防止隱私資料洩漏的目標物件識別方法,所述方法的執行主體為終端,所述識別方法包括: 採集第二隱私資料; 將所述第二隱私資料輸入編碼模型,得到第二特徵向量,所述編碼模型基於請求項1所述的方法而預先訓練得到; 將所述第二特徵向量發送至伺服器,以使所述伺服器將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。
  13. 根據請求項12所述的方法,其中,所述比對結果包括所述第二特徵向量與所述多個特徵向量中各個特徵向量之間相似度的最大值,在將所述第二特徵向量發送至伺服器之後,所述方法還包括: 從所述伺服器接收所述最大值; 在所述最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功。
  14. 一種防止隱私資料洩漏的編碼模型訓練裝置,包括: 樣本獲取單元,配置為獲取多個訓練樣本組,包括任意的第一樣本組,所述第一樣本組包括第一樣本對和第二樣本對,所述第一樣本對包括第一訓練樣本和第二訓練樣本,其中第一訓練樣本包括表徵第一目標物件身份資訊的第一隱私資料和第一物件標識;所述第二訓練樣本具有所述第一物件標識,所述第二樣本對的兩個樣本具有不同物件標識; 編碼單元,配置為將所述第一樣本組中各訓練樣本對應的隱私資料分別輸入編碼模型,得到對應的多個特徵向量,其中包括對應於所述第一訓練樣本的第一特徵向量; 分類單元,配置為將所述第一特徵向量輸入用於確定目標物件身份的分類模型,得到第一分類結果,基於所述第一分類結果和所述第一物件標識,確定第一分類損失; 解碼單元,配置為將所述第一特徵向量輸入用於反推隱私資料的解碼模型,得到第一反推資料,基於所述第一反推資料和所述第一隱私資料,確定第一解碼損失; 區分單元,配置為將所述第一樣本組中各訓練樣本對應的特徵向量輸入用於區分不同目標物件的區分模型,得到所述第一樣本對中樣本之間的第一樣本距離,以及第二樣本對中樣本之間的第二樣本距離,並且,確定第一區分損失,所述第一區分損失與所述第一樣本距離正相關,且與所述第二樣本距離負相關; 編碼模型調參單元,配置為以最大化所述多個訓練樣本組對應的分類損失和解碼損失,以及最小化所述多個訓練樣本對應的區分損失為目標,調整所述編碼模型中的模型參數。
  15. 根據請求項14所述的裝置,其中,所述目標物件包括用戶,所述身份資訊包括以下中的一種或多種:人臉圖像、指紋圖像、虹膜圖像。
  16. 根據請求項14所述的裝置,其中,所述目標物件包括設備,所述身份資訊包括以下中的一種或多種:國際行動設備識別碼IMEI、用戶識別卡SIM的卡號、設備感測器資訊。
  17. 根據請求項14所述的裝置,其中,所述第二樣本對包括所述第一訓練樣本和第三訓練樣本;其中區分模型具體配置為: 將所述第一訓練樣本、所述第二訓練樣本和所述第三訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。
  18. 根據請求項14所述的裝置,其中,所述第二樣本對包括第三訓練樣本和第四訓練樣本;其中區分模型具體配置為: 將所述第一訓練樣本、第二訓練樣本、第三訓練樣本和第四訓練樣本各自對應的特徵向量按照預設順序拼接後,輸入所述區分模型,得到所述第一樣本距離以及所述第二樣本距離。
  19. 根據請求項14所述的裝置,其中,所述裝置還包括: 分類模型調參單元,配置為以最小化所述多個訓練樣本組對應的分類損失為目標,調整所述分類模型中參數;和/或, 解碼模型調參單元,配置為以最小化所述多個訓練樣本組對應的解碼損失為目標,調整所述解碼模型中的參數;和/或, 區分模型調參單元,配置為以最小化所述多個訓練樣本組對應的區分損失為目標,調整所述區分模型中的參數。
  20. 根據請求項14所述的裝置,其中,所述編碼模型調參單元具體配置為: 基於預先設定的針對所述分類損失、解碼損失和區分損失的權重參數,對所述分類損失、解碼損失和區分損失進行加權求和,得到綜合損失,所述綜合損失與所述分類損失和解碼損失負相關,且與所述區分損失正相關; 基於所述綜合損失,調整所述編碼模型中的模型參數。
  21. 一種防止隱私資料洩漏的目標物件身份識別裝置,所述裝置整合於伺服器,所述識別裝置包括: 向量接收單元,配置為從終端接收第二特徵向量,所述第二特徵向量由所述終端將採集的第二隱私資料輸入編碼模型而確定;其中所述編碼模型基於請求項14所述的裝置而預先訓練得到; 向量比對單元,配置為將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功;其中所述多個特徵向量通過將所述多個目標物件的多條歷史隱私資料輸入所述編碼模型而得到。
  22. 根據請求項21所述的識別裝置,其中,所述識別裝置還包括: 結果發送單元,配置為將所述比對結果發送至所述終端。
  23. 根據請求項21或22所述的識別裝置,其中,所述向量比對單元具體配置為: 分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值; 在所述最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功,作為所述比對結果。
  24. 根據請求項22所述的裝置,其中,所述向量比對單元具體配置為: 分別計算所述第二特徵向量與所述多個特徵向量中各個特徵向量之間的相似度,並確定其中的最大值,作為所述比對結果; 其中結果發送單元具體配置為: 將所述最大值發送至所述終端,以使所述終端根據所述最大值和預設臨界值,判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。
  25. 一種防止隱私資料洩漏的目標物件識別裝置,所述裝置整合於終端,所述識別裝置包括: 資料採集單元,配置為採集第二隱私資料; 編碼單元,配置為將所述第二隱私資料輸入編碼模型,得到第二特徵向量,所述編碼模型基於請求項14所述的裝置而預先訓練得到; 向量發送單元,配置為將所述第二特徵向量發送至伺服器,以使所述伺服器將所述第二特徵向量與所述伺服器中預先儲存的對應於多個目標物件的多個特徵向量進行比對,得到比對結果,用於判別針對所述第二隱私資料所對應目標物件的身份識別是否成功。
  26. 根據請求項25所述的裝置,其中,所述比對結果包括所述第二特徵向量與所述多個特徵向量中各個特徵向量之間相似度的最大值,所述裝置還包括: 結果接收單元,配置為從所述伺服器接收所述最大值; 判定單元,配置為在所述最大值大於預設臨界值的情況下,判定針對所述第二隱私資料所對應目標物件的身份識別成功。
  27. 一種電腦可讀儲存媒體,其上儲存有電腦程式,其中,當所述電腦程式在電腦中執行時,令電腦執行請求項1至13中任一項的所述的方法。
  28. 一種計算設備,包括記憶體和處理器,其中,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現請求項1至13中任一項所述的方法。
TW109116405A 2019-12-09 2020-05-18 防止隱私資料洩漏的編碼模型訓練方法及裝置 TWI756687B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911252327.7A CN111046422B (zh) 2019-12-09 2019-12-09 防止隐私数据泄漏的编码模型训练方法及装置
CN201911252327.7 2019-12-09

Publications (2)

Publication Number Publication Date
TW202123052A true TW202123052A (zh) 2021-06-16
TWI756687B TWI756687B (zh) 2022-03-01

Family

ID=70235290

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109116405A TWI756687B (zh) 2019-12-09 2020-05-18 防止隱私資料洩漏的編碼模型訓練方法及裝置

Country Status (3)

Country Link
CN (2) CN111046422B (zh)
TW (1) TWI756687B (zh)
WO (1) WO2021114931A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046422B (zh) * 2019-12-09 2021-03-12 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置
CN113642731A (zh) * 2020-05-06 2021-11-12 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN111651792B (zh) * 2020-07-17 2023-04-18 支付宝(杭州)信息技术有限公司 多方协同学习中的风险检测、模型增强方法及装置
CN111783126B (zh) * 2020-07-21 2022-04-29 支付宝(杭州)信息技术有限公司 一种隐私数据识别方法、装置、设备和可读介质
CN111782550B (zh) * 2020-07-31 2022-04-12 支付宝(杭州)信息技术有限公司 基于用户隐私保护训练指标预测模型的方法及装置
CN112417414A (zh) * 2020-12-04 2021-02-26 支付宝(杭州)信息技术有限公司 一种基于属性脱敏的隐私保护方法、装置以及设备
CN112508101A (zh) * 2020-12-07 2021-03-16 杭州海康威视数字技术股份有限公司 一种神经网络模型的调整系统、方法及设备
CN112926559B (zh) * 2021-05-12 2021-07-30 支付宝(杭州)信息技术有限公司 人脸图像处理方法及装置
CN113342810A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 记录链接数据匹配方法及装置
CN114818973A (zh) * 2021-07-15 2022-07-29 支付宝(杭州)信息技术有限公司 一种基于隐私保护的图模型训练方法、装置及设备
CN113904834B (zh) * 2021-09-30 2022-09-09 北京华清信安科技有限公司 基于机器学习的xss攻击检测方法
CN114241264B (zh) * 2021-12-17 2022-10-28 深圳尚米网络技术有限公司 用户判别模型训练方法、用户判别方法及相关装置
CN116049840B (zh) * 2022-07-25 2023-10-20 荣耀终端有限公司 一种数据保护方法、装置、相关设备及系统
CN115238827B (zh) * 2022-09-16 2022-11-25 支付宝(杭州)信息技术有限公司 保护隐私的样本检测系统训练方法及装置
CN115906032B (zh) * 2023-02-20 2023-05-16 之江实验室 一种识别模型的修正方法、装置和存储介质
CN116361859B (zh) * 2023-06-02 2023-08-25 之江实验室 基于深度隐私编码器的跨机构患者记录链接方法及系统
CN117078789B (zh) * 2023-09-22 2024-01-02 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及介质
CN117273941B (zh) * 2023-11-16 2024-01-30 环球数科集团有限公司 一种用于跨域支付反洗钱风控模型训练系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120213419A1 (en) * 2011-02-22 2012-08-23 Postech Academy-Industry Foundation Pattern recognition method and apparatus using local binary pattern codes, and recording medium thereof
US8638820B2 (en) * 2011-02-22 2014-01-28 Cisco Technology, Inc. In-voicemail-session call transfers
CN105450411B (zh) * 2014-08-14 2019-01-08 阿里巴巴集团控股有限公司 利用卡片特征进行身份验证的方法、装置及系统
CN105426857B (zh) * 2015-11-25 2019-04-12 小米科技有限责任公司 人脸识别模型训练方法和装置
US10460153B2 (en) * 2016-11-15 2019-10-29 Futurewei Technologies, Inc. Automatic identity detection
US10552738B2 (en) * 2016-12-15 2020-02-04 Google Llc Adaptive channel coding using machine-learned models
CN107944238A (zh) * 2017-11-15 2018-04-20 中移在线服务有限公司 身份认证方法、服务器和系统
CN108334889B (zh) * 2017-11-30 2020-04-03 腾讯科技(深圳)有限公司 摘要描述生成方法和装置、摘要描述模型训练方法和装置
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning
CN108737623A (zh) * 2018-05-31 2018-11-02 南京航空航天大学 基于智能手机携带位置及携带模式的用户身份识别方法
CN108875818B (zh) * 2018-06-06 2020-08-18 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109283217A (zh) * 2018-10-12 2019-01-29 广州特种承压设备检测研究院 一种石墨烯材料热导率的测量方法和装置
CN109583217B (zh) * 2018-11-21 2022-06-07 深圳市易讯天空网络技术有限公司 一种互联网电商平台用户隐私数据加密及解密方法
CN109711546B (zh) * 2018-12-21 2021-04-06 深圳市商汤科技有限公司 神经网络训练方法及装置、电子设备和存储介质
CN109670303B (zh) * 2018-12-26 2021-05-25 网智天元科技集团股份有限公司 基于条件变分自编码的密码攻击评估方法
CN110009013B (zh) * 2019-03-21 2021-04-27 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN109902767B (zh) * 2019-04-11 2021-03-23 网易(杭州)网络有限公司 模型训练方法、图像处理方法及装置、设备和介质
CN110245132B (zh) * 2019-06-12 2023-10-31 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机可读存储介质和计算机设备
CN111046422B (zh) * 2019-12-09 2021-03-12 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置

Also Published As

Publication number Publication date
WO2021114931A1 (zh) 2021-06-17
CN113159288B (zh) 2022-06-28
CN111046422B (zh) 2021-03-12
CN113159288A (zh) 2021-07-23
CN111046422A (zh) 2020-04-21
TWI756687B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
WO2021114931A1 (zh) 防止隐私数据泄漏的编码模型训练方法及装置
TWI752418B (zh) 伺服器、客戶端、用戶核身方法及系統
US10769261B2 (en) User image verification
JP6973876B2 (ja) 顔認識方法、顔認識装置及び顔認識方法を実行するコンピュータプログラム
WO2020248780A1 (zh) 活体检测方法、装置、电子设备及可读存储介质
CN112580826B (zh) 业务模型训练方法、装置及系统
CN109816200B (zh) 任务推送方法、装置、计算机设备和存储介质
JP2021520015A (ja) 画像処理方法、装置、端末機器、サーバおよびシステム
CN110874638B (zh) 面向行为分析的元知识联邦方法、装置、电子设备及系统
CN112633424A (zh) 图像处理方法、装置、图像处理设备及存储介质
CN113033824B (zh) 模型超参数确定方法、模型训练方法及系统
CN111091102B (zh) 一种视频分析装置、服务器、系统及保护身份隐私的方法
CN115578765A (zh) 目标识别方法、装置、系统及计算机可读存储介质
CN113011893B (zh) 数据处理方法、装置、计算机设备及存储介质
CN112288088B (zh) 业务模型训练方法、装置及系统
CN112597379B (zh) 数据识别方法、装置和存储介质及电子装置
CN114360002A (zh) 基于联邦学习的人脸识别模型训练方法及装置
CN114004974A (zh) 对弱光环境下拍摄的图像的优化方法及装置
CN115146788A (zh) 分布式机器学习模型的训练方法、装置、电设备存储介质
CN112291188B (zh) 注册验证方法及系统、注册验证服务器、云服务器
CN114550224A (zh) 基于深度学习的指纹图像识别比对方法、装置和电子设备
CN111368866A (zh) 图片分类方法、装置及系统
CN112001285A (zh) 一种美颜图像的处理方法、装置、终端和介质
CN110956098A (zh) 图像处理方法及相关设备
WO2022152153A1 (zh) 图像处理、密钥生成、训练方法及装置、计算机可读介质