TW202040397A

TW202040397A - 安全的特徵工程方法和裝置

Info

Publication number: TW202040397A
Application number: TW108133229A
Authority: TW
Inventors: 林文珍
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2019-03-04
Filing date: 2019-09-16
Publication date: 2020-11-01
Also published as: TWI719635B; CN110032878A; CN110032878B; WO2020177475A1

Abstract

本公開提供了一種安全的特徵工程方法和裝置。第一設備可向第二設備傳送第一資料集，第一資料集包含多個資料對象的標籤資訊的密文。第二設備可對包含該多個資料對象的特徵資料的第二資料集進行特徵工程處理以生成第二資料集的子集。第二設備可根據第二資料集的子集來生成第一資料集之中相應資料對象的標籤資訊的密文子集，將密文子集的密文發送給第一設備。第一設備可解密該密文子集並生成統計資訊，將該統計資訊發送給第二設備。第二設備可使用該統計資訊來計算特徵工程指標。本公開還提供了相應的特徵工程裝置。

Description

安全的特徵工程方法和裝置

本公開涉及特徵工程，尤其涉及一種安全的特徵工程方法和裝置。

建模過程需要對樣本資料先進行基本的特徵工程處理，然後用經過特徵工程處理的資料集進行模型訓練。特徵工程是指從原始資料轉換為特徵向量的過程。特徵工程是機器學習中最重要的起始步驟，會直接影響機器學習的效果，並通常需要大量的時間。典型的特徵工程包括資料清理、特徵離散化、特徵提取、特徵選擇等過程。在大資料場景下，資料通常是分布式儲存的，而特徵工程處理需要把各方的建模樣本資料融合在一起。例如，在進行資料分箱時，需要特徵資料和標籤資訊配合才能完成。而在聯合建模場景中，一般存在其中一方擁有特徵資料，另一方擁有標籤資訊而沒有或有少量不齊全的特徵資料的情況，這就需要建模合作方的樣本資料共同協作來完成特徵工程處理，例如分箱及分箱指標統計。因此，在進行聯合建模的場景中，資料合作雙方需要把建模的樣本資料融合在一起，才能進行特徵工程處理。但這樣做，資料合作雙方的樣本資料需要對外輸出，存在隱私資料洩漏問題。現有技術中解決上述問題的一種方案是將資料集中到其中一方進行資料融合，並進一步做特徵工程處理。這種方案的缺點是不安全，完全暴露了隱私資料明文，洩漏了資料隱私，而且還存在資料被惡意傳播或售賣等風險。現有技術中解決上述問題的另一種方案是尋找一個安全可信的第三方，在安全環境中導入各方資料，在一個安全沙箱環境的公有雲/第三方等環境中進行資料融合，集中進行特徵工程處理。這種方案的缺點是資料明文仍然需要對外輸出，不能完全杜絕隱私資料的洩漏問題，也不能解決本身的資料信任問題。此外，完全可信的第三方難求，資料/模型導入到可信第三方的傳輸過程中也有資料傳輸安全隱患。不僅如此，在可信第三方存在操作權限問題，對資料出入的安全檢查粒度難把控，特徵工程處理結果也可能被洩漏。因此，本領域需要一種安全的特徵工程方法和裝置。

本公開提供了安全的特徵工程方法和裝置，使得合作方均不必洩漏自己的隱私資料明文，但最終能完成特徵工程處理。例如，第一設備可向第二設備傳送第一資料集，第一資料集包含多個資料對象的標籤資訊的密文。第二設備可對包含該多個資料對象的特徵資料的第二資料集進行特徵工程處理以生成第二資料集的子集。第二設備可根據第二資料集的子集來生成第一資料集之中相應資料對象的標籤資訊的密文子集，將密文子集的密文發送給第一設備。第一設備可解密該密文子集並生成統計資訊，將該統計資訊發送給第二設備。第二設備可使用該統計資訊來計算特徵工程指標。根據本公開的一個實施例，提供了一種特徵工程方法，其包括：接收第一資料集，第一資料集包含多個資料對象的標籤資訊的密文；對第二資料集進行特徵工程處理以生成第二資料集的子集，第二資料集包含所述多個資料對象的特徵資料；根據所述第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集；將所述密文子集的密文發送給第一設備；從第一設備接收在解密所述密文子集的密文後生成的統計資訊；以及使用所述統計資訊來計算對第二資料集進行的特徵工程處理的特徵工程指標。在一方面，該方法還包括：根據所述特徵工程指標來生成特徵工程結果；以及將所述特徵工程結果發送給第一設備。在一方面，所述特徵工程處理包括對第二資料集進行特徵選擇以生成第二資料集的特徵資料子集，其中計算特徵工程指標包括利用所述特徵資料子集與所述統計資訊來計算特徵選擇指標。在一方面，所述特徵工程處理包括對第二資料集進行分箱以生成多個分箱段，並且所述密文子集包括與所述多個分箱段相對應的多個密文子集，其中每個密文子集包括第一資料集之中的落在相應分箱段中的資料對象的標籤資訊密文，其中計算特徵工程指標包括利用所述第二資料集的分箱段與所述統計資訊來計算分箱指標。在一方面，第一資料集的標籤資訊的密文是使用同態加密對所述標籤資訊進行加密來生成的，所述標籤資訊為二元值，並且將所述密文子集的密文發送給第一設備包括：對所述密文子集中的密文進行同態加法以得到密文總和並將所述密文總和發送給第一設備。在一方面，第一資料集和第二資料集之中的資料對象分別具有相關聯的識別符，所述方法還包括在生成所述第二資料集的子集之前對第一資料集和第二資料集進行識別符匹配，以使得第一資料集的標籤資訊與第二資料集的特徵資料對應於相同的多個資料對象。在一方面，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。在一方面，對第二資料集進行特徵工程處理是在接收第一資料集之前、之時、或之後發生的。在一方面，所述特徵工程指標包括以下至少一者：所述第二資料集的子集的正樣本率、所述第二資料集的子集的負樣本率、所述第二資料集的子集與所述密文子集中的標籤資訊的相關度、所述第二資料集的子集的資訊價值、所述第二資料集的子集的證據權重。根據本公開的另一個實施例，提供了一種特徵工程方法，其包括：提供第一資料集，第一資料集包含多個資料對象的標籤資訊的密文；接收第一資料集的密文子集的密文，所述密文子集是根據對第二資料集進行的特徵工程處理來生成的，第二資料集包含所述多個資料對象的特徵資料，其中對第二資料集進行的特徵工程處理生成第二資料集的子集，其中所述密文子集包含第一資料集之中的與所述第二資料集的子集相同的資料對象的標籤資訊密文；解密所述密文子集的密文並生成所述密文子集的統計資訊；以及提供所述統計資訊以用於計算對第二資料集的特徵工程處理的特徵工程指標。在一方面，所述方法還包括：接收根據所述特徵工程指標生成的第一特徵工程結果。在一方面，所述方法還包括：使用所述第一資料集的標籤資訊和第三資料集的特徵資料來執行所述特徵工程處理以生成第二特徵工程結果；以及組合第一特徵工程結果和第二特徵工程結果以獲得組合的特徵工程結果。在一方面，所述特徵工程處理包括對第二資料集進行特徵選擇以生成第二資料集的特徵資料子集，其中計算特徵工程指標包括利用所述特徵資料子集與所述統計資訊來計算特徵選擇指標。在一方面，所述特徵工程處理包括對第二資料集進行分箱以生成多個分箱段，並且所述密文子集包括與所述多個分箱段相對應的多個密文子集，其中每個密文子集包括第一資料集之中的落在相應分箱段中的資料對象的標籤資訊密文，所述計算特徵工程指標包括利用所述第二資料集的分箱段與所述統計資訊來計算分箱指標。在一方面，第一資料集的標籤資訊的密文是使用同態加密對所述標籤資訊進行加密來生成的，所述標籤資訊為二元值，所述密文子集的密文包括將所述密文子集中的密文進行同態加法得到的密文總和。在一方面，第一資料集和第二資料集之中的資料對象分別具有相關聯的識別符，所述方法還包括在生成所述第二資料集的子集之前對第一資料集和第二資料集進行識別符匹配，以使得第一資料集的標籤資訊與第二資料集的特徵資料對應於相同的多個資料對象。在一方面，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。在一方面，所述特徵工程指標包括以下至少一者：所述第二資料集的子集的正樣本率、所述第二資料集的子集的負樣本率、所述第二資料集的子集與所述密文子集中的標籤資訊的相關度、所述第二資料集的子集的資訊價值、所述第二資料集的子集的證據權重。根據本公開的另一個實施例，提供了一種特徵工程裝置，其包括：傳輸模組，其接收第一資料集，第一資料集包含多個資料對象的標籤資訊的密文；特徵工程處理模組，其對第二資料集進行特徵工程處理以生成第二資料集的子集，第二資料集包含所述多個資料對象的特徵資料；以及密文子集生成模組，其根據所述第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集；其中所述傳輸模組將所述密文子集的密文發送給第一設備並從第一設備接收在解密所述密文子集的密文後生成的統計資訊；並且所述特徵工程處理模組使用所述統計資訊來計算對第二資料集進行的特徵工程處理的特徵工程指標。在一方面，所述特徵工程處理模組根據所述特徵工程指標來生成特徵工程結果；以及所述傳輸模組將所述特徵工程結果發送給第一設備。在一方面，所述特徵工程處理包括特徵選擇或分箱。在一方面，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。根據本公開的另一個實施例，提供了一種特徵工程裝置，其包括：傳輸模組，其向第二設備提供第一資料集，第一資料集包含多個資料對象的標籤資訊的密文，所述傳輸模組還從第二設備接收第一資料集的密文子集的密文，所述密文子集是根據對第二資料集進行的特徵工程處理來生成的，第二資料集包含所述多個資料對象的特徵資料，其中對第二資料集進行的特徵工程處理生成第二資料集的子集，其中所述密文子集包含第一資料集之中的與所述第二資料集的子集相同的資料對象的標籤資訊密文；加解密模組，其解密所述密文子集的密文；以及處理模組，其生成所述密文子集的統計資訊，其中所述傳輸模組向第二設備提供所述統計資訊以供第二設備用於計算對第二資料集的特徵工程處理的特徵工程指標。在一方面，其中所述傳輸模組從第二設備接收根據所述特徵工程指標生成的第一特徵工程結果，並且所述特徵工程裝置還包括：特徵工程處理模組，其使用所述第一資料集的標籤資訊和第三資料集的特徵資料來執行所述特徵工程處理以生成第二特徵工程結果，以及組合第一特徵工程結果和第二特徵工程結果以獲得組合的特徵工程結果。在一方面，所述特徵工程處理包括特徵選擇或分箱。在一方面，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。根據本公開的另一個實施例，提供了一種特徵工程系統，其包括：處理器；用於儲存處理器可執行指令的儲存器，其中所述處理器被配置成執行所述處理器可執行指令以實現如上所述的方法。根據本公開，合作方均不必洩漏自己的隱私資料明文，但最終能完成特徵工程處理，從而提高了特徵工程處理的安全性。

下面結合具體實施例和圖式對本公開作進一步說明，但不應以此限制本公開的保護範圍。本公開提供了安全的特徵工程方法和裝置。在聯合建模場景中，一般存在其中一方擁有特徵資料，另一方擁有標籤資訊而沒有或有少量不齊全的特徵資料的情況，這就需要建模合作方的樣本資料共同協作來完成特徵工程處理。根據本公開的一個實施例，第一設備可向第二設備傳送第一資料集，第一資料集包含多個資料對象的標籤資訊的密文。第二設備可對包含該多個資料對象的特徵資料的第二資料集進行特徵工程處理以生成第二資料集的子集。第二設備可根據第二資料集的子集來生成第一資料集之中相應資料對象的標籤資訊的密文子集，將密文子集的密文發送給第一設備。第一設備可解密該密文子集並生成統計資訊，將該統計資訊發送給第二設備。第二設備可使用該統計資訊來計算特徵工程指標。本公開的分布式特徵工程和指標計算使得合作方均不必洩漏自己的隱私資料明文，但最終能完成特徵工程處理，實現了安全的特徵工程方法和裝置。圖1為根據本公開一個實施例的特徵工程方法的流程圖。該方法可以是在例如第二設備處執行的。步驟102：第二設備接收第一資料集，第一資料集包含多個資料對象的標籤資訊的密文。例如，第一設備可請求第二設備進行特徵工程處理，並且第一設備可將第一資料集發送給第二設備，其中所發送的第一資料集包含多個資料對象的標籤資訊的密文。在另一示例中，第二設備需要進行特徵工程處理並且可請求第一設備提供包含標籤資訊的第一資料集。在任一種情形中，第二設備可具有包含特徵資料的第二資料集，並且可將第一資料集和第二資料集相結合地進行特徵工程處理，例如特徵選擇、特徵提取、特徵離散化(如分箱)等。特徵資料可以表示對象的特性或行為等資訊，例如用戶的年齡、身高、消費記錄等。標籤資訊可以識別對象的類別，例如用戶是否為學生、用戶是否為失信者等等。作為示例而非限定，標籤資訊可以為二元值，例如用1、0分別表示正樣本和負樣本，或者用0、-1分別表示正樣本和負樣本，或以其他方式區分正樣本和負樣本。在一些情形中，雖然第二設備可將第一資料集的標籤資訊和第二資料集的特徵資料相結合地進行特徵工程處理，但擁有第一資料集的第一設備可能不希望將第一資料集的標籤資訊的具體值洩露給第二設備。由此，根據一個實施例，第一設備發送給第二設備的第一資料集包含多個資料對象的標籤資訊的密文，而不是這些標籤資訊的明文資訊。第一設備可以利用密鑰對第一資料集之中的各個資料對象的標籤資訊逐個進行加密以生成標籤資訊的密文，或者第一設備可以接收包含由第三方加密後的標籤資訊密文的第一資料集。較佳地，第一設備能夠解密第一資料集的密文，而第二設備不能解密第一資料集的密文。因此，即使第一設備將第一資料集的標籤資訊密文發送給第二設備，第二設備也不知曉每個資料對象的具體標籤資訊值。第一設備可以直接將包含密文的第一資料集發送給第二設備，也可以經由中間設備將第一資料集轉發給第二設備。例如，第一設備可以將第一資料集上傳到雲端(比如阿里oss或者開源sftp等)供第二設備下載，也可以透過網路進行大文件的點對點傳輸提供給第二設備。第二設備可以從中間設備(例如，雲端)接收第一資料集，或者接收來自匿名方的第一資料集，或者以其他方式獲得包含密文的第一資料集。步驟104：第二設備對第二資料集進行特徵工程處理以生成第二資料集的子集。如上所述，第二資料集可包含多個資料對象的特徵資料。第二設備可以對第二資料集之中所包含的多個資料對象的特徵資料進行資料清理、資料篩選、特徵離散化、特徵提取、特徵選擇等特徵工程處理，以生成第二資料集的子集，該子集可包括第二資料集之中的一些資料對象的特徵資料。對第二資料集的特徵工程處理可以在步驟102之前或之後執行。例如，擁有第二資料集的第二設備可以在任何時間自主地對第二資料集進行特徵工程處理，也可以在從第一設備接收到特徵工程處理請求(及/或第一資料集)之後對第二資料集進行特徵工程處理。步驟106：第二設備根據第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集。如上所述，第一資料集(例如，包含標籤資訊)可與第二資料集(例如，包含特徵資料)聯合地用於特徵工程處理。然而，第二設備所接收到的第一資料集之中的標籤資訊是經加密的(即，為密文形式)，並且第二設備可能無法對第一資料集的密文進行解密，由此不知曉第一資料集的標籤資訊的具體值。以特徵資料和經加密的標籤資訊為例，第二設備由於不知曉標籤資訊的具體值，因此不能直接用第二資料集的特徵資料和第一資料集之中的經加密的標籤資訊來聯合地進行特徵工程處理。根據本公開的一個實施例，第一資料集的標籤資訊與第二資料集的特徵資料可對應於相同的多個資料對象。作為示例而非限定，第一設備擁有的標籤資訊和第二設備擁有的特徵資料可各自具有識別符(id)，第一設備和第二設備可進行識別符匹配以分別在第一設備處生成第一資料集並在第二設備處生成第二資料集，使得第一資料集的標籤資訊與第二資料集的特徵資料對應於相同的多個資料對象。此後，第一設備可在步驟102將第一資料集發送給第二資料集，第一資料集可包括該多個資料對象的標籤資訊的密文和相關聯的識別符。第二設備可以根據第二資料集的子集中所包含的資料對象按照識別符來生成第一資料集之中相應資料對象的標籤資訊的密文子集。作為進一步示例，如果在第一設備處生成的第一資料集和在第二設備處生成的第二資料集針對相同的多個資料對象，則還可以例如根據識別符按相同順序來排列雙方的資料，例如使得第一資料集和第二資料集的每條資料彼此對應，其中每條資料可對應於不同的對象。如果第一資料集和第二資料集的資料對象按相同的方式排序，則第一設備發送給第二設備的第一資料集可以不必包含識別符。第二設備可以按照兩個資料集之間的對應關係，根據第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集。在另一實施例中，如果第二設備在接收第一資料集之前沒有與第一設備進行識別符匹配，即，第一資料集可能包含與第二資料集不同的資料對象，則第二設備可在接收第一資料集之後對第一資料集和第二資料集進行識別符匹配，由此剔除一方獨有的資料對象，以使得第一資料集的標籤資訊和第二資料集的特徵資料對應於相同的多個資料對象。此後，第二設備可在步驟106根據第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集。以特徵選擇作為示例，對第二資料集的特徵工程處理可包括選擇第二資料集的特徵資料子集，並且第二設備可生成與該特徵資料子集中所包含的資料對象相對應的第一資料集之中的標籤資訊的密文子集。作為另一示例，對第二資料集的特徵工程處理可包括對特徵資料進行分箱以生成多個分箱段，由此第二設備可以生成第一資料集的與該多個分箱段相對應的多個密文子集，其中每個密文子集包括第一資料集之中的落在相應分箱段中的資料對象的標籤資訊密文。即，第二設備可以根據對第二資料集的特徵資料的分箱來確定第一資料集之中相應的資料對象分別落在哪個分箱段中，並按分箱段來生成第一資料集之中的標籤資訊的密文子集。在步驟106中，第二設備可以生成第一資料集之中的標籤資訊的密文子集，並且可以知曉該密文子集中的標籤資訊的總數。然而如上所述，第一資料集的標籤資訊是加密的，第二設備不知曉這些標籤資訊的值，由此無法完成特徵工程處理的指標計算。例如，以分箱為例，第二設備不知道該密文子集中哪些標籤資訊為正樣本，哪些標籤資訊為負樣本，由此不知曉每個分箱段中的標籤資訊的正樣本數和負樣本數，無法計算分箱指標，如IV(Information Value，資訊價值)、Woe(Weight of Evidence，證據權重)等。步驟108：第二設備將該密文子集的密文發送給第一設備，並從第一設備接收在解密該密文子集的密文後生成的統計資訊。第二設備發送給第一設備的該密文子集的密文可以是該密文子集中的各個標籤資訊的密文集合，或者對這些標籤資訊的密文進行某種操作或運算(例如，組合、級聯、代數運算等)之後得到的密文。第一設備可以是第一資料集的擁有方並且能夠對標籤資訊的密文進行解密。由此，第一設備可以對該密文子集的密文進行解密並生成統計資訊(例如，該密文子集的正樣本數及/或負樣本數)，並且可以將該統計資訊發送給第二設備。應理解，第一設備發送的統計資訊不同於第一資料集的標籤資訊密文的解密值，由此不會洩露第一資料集的標籤資訊值。以分箱為例，第二設備可以將與多個分箱段相對應的多個密文子集發送給第一設備，每個密文子集的密文可包括第一資料集之中的落在相應分箱段中的標籤資訊密文的集合。第一設備可以解密出每個分箱段對應的標籤資訊密文，並獲得每個分箱段對應的標籤資訊的統計資訊(例如，每個分箱段對應的標籤資訊的正樣本數及/或負樣本數)作為上述統計資訊發送給第二設備。對於其他特徵工程處理(例如，特徵選擇等)，第一設備可類似地解密每個密文子集的密文並生成特徵工程處理所需的統計資訊發送給第二設備。在一個示例中，第一資料集的標籤資訊的密文可以是使用同態加密(Homomorphic Encryption)對標籤資訊進行加密來生成的。同態加密允許對經同態加密後的密文進行特定的代數運算得到仍然是加密的運算結果，將其解密所得到的運算結果與對明文進行同樣的運算得到的運算結果一樣。換言之，這項技術令人們可以在經加密的資料中進行諸如檢索、比較等操作，得出正確的結果，而在整個處理過程中無需對資料進行解密。如果標籤資訊為二元值並使用同態加密來加密，則第二設備可以對密文子集中的密文進行同態加法以得到密文總和，並將該密文總和發送給第一設備。第一設備解密該密文總和得到的值等同於第一設備解密該密文子集中的每個標籤資訊密文並求和得到的值。由此，第一設備可以解密該密文總和，並且解密結果可指示正樣本數及/或負樣本數。步驟110：第二設備使用該統計資訊來計算對第二資料集的特徵工程處理的特徵工程指標。特徵工程指標可用於評價特徵工程處理產生的結果。特徵工程指標可根據具體的特徵工程處理進行選擇，例如第二資料集的子集的正樣本率、第二資料集的子集的負樣本率、第二資料集的子集與密文子集中的標籤資訊的相關度、第二資料集的子集的資訊價值、第二資料集的子集的證據權重等。由此，第二設備可以根據第二資料集的子集和對應的統計資訊來獲得該子集的特徵工程指標。以分箱為例，該統計資訊可以是每個分箱段的關於標籤資訊的統計值，第二設備可以利用從第一設備接收的統計值並結合第二設備在對特徵資料進行分箱時獲得的分箱段資訊一起進行分箱指標計算。如果特徵工程指標達到要求(例如，閾值)，則第二設備可以生成特徵工程處理結果並完成該特徵工程處理。所生成的特徵工程處理結果(例如，特徵資料子集)可用於各種目的，例如模型訓練、目標預測等。在可選的實施例中，第二設備可以將特徵工程結果發送給第一設備。在進一步的實施例中，如果特徵工程指標不理想(例如，未達到閾值)，第二設備可重複步驟104-110，直到獲得符合要求的特徵工程指標或者直到達成終止特徵工程處理的條件。根據上述方法，合作方均不必洩漏自己的隱私資料明文，但最終能完成特徵工程處理。以下結合圖2-4進一步詳細描述本公開的應用場景。圖2為根據本公開一個實施例的特徵工程方法的示意圖。作為示例而非限定，以第一設備擁有標籤資訊Y(第一資料集)，第二設備擁有特徵資料X(第二資料集)的特徵選擇場景為例進行說明。為簡化描述，假設標籤資訊Y(第一資料集)和特徵資料X(第二資料集)對應於相同的多個資料對象(例如，透過進行識別符匹配)。特徵選擇的目標是尋找最優特徵子集。特徵選擇能剔除不相關(irrelevant)或冗餘(redundant)的特徵，從而達到減少特徵個數、降低資料集維度、提高模型精確度、減少運行時間的目的。另一方面，特徵選擇可用於選取出真正相關的特徵簡化模型，協助理解資料產生的過程。在步驟202，第一設備可加密第一資料集之中的Y樣本並生成經加密的Y’樣本。在步驟204，第一設備可將經加密的Y’樣本發送給第二設備。作為示例而非限定，第一設備可在發送之前進一步壓縮經加密的Y’樣本，並將壓縮後的加密Y’樣本發送給第二設備。若Y’樣本資料量大，可考慮將密文文件上傳到雙方可存取的安全雲端(例如oss等)。在一個實施例中，第一設備可對第一資料集之中的Y樣本進行逐個加密以生成Y樣本的密文Y’。第一設備可以利用密鑰以任何合適的加密演算法對第一資料集之中的Y樣本逐個進行加密，並將Y’樣本(例如，不壓縮或壓縮後)發送給第二設備。作為示例而非限定，可以採用同態加密(Homomorphic Encryption)來對第一資料集之中的Y樣本進行逐個全量同態加密。在步驟206，第二設備可接收經加密的Y’樣本。例如，第二設備可從第一設備或其他中間方(例如，oss等雲端)獲取經加密的Y’樣本。如果Y’樣本是經壓縮的，則第二設備可解壓Y’樣本。在步驟208，第二設備可選擇本地擁有的X樣本(例如，特徵資料)的子集。應理解，第二設備可以按各種準則或組合來選擇X樣本子集。此外，第二設備可以選擇一個或多個X樣本子集並依次或並行地評價這一個或多個X樣本子集。雖然圖2中示出了步驟208在步驟206之後執行，但是應理解，步驟208可以在步驟202-206中的任一個步驟之前或之後執行，也可以與步驟202-206中的任一個步驟併發地執行。在步驟210，第二設備可根據所選擇的X樣本子集來讀取相對應的Y’樣本子集。類似於以上所述，X樣本的id和Y樣本的id可以相匹配，以使得X樣本和Y樣本具有對應關係。由此，第二設備可根據所選擇的X樣本子集來讀取相對應id的Y’樣本子集。如上所述，由於Y’樣本是加密的，因此第二設備不知曉Y’樣本的值，從而該Y’樣本子集可包括經加密的Y’樣本(包含密文)。在步驟212，第二設備可以將Y’樣本子集的密文發送給第一設備進行解密。在一個示例中，在步驟212發送的Y’樣本子集的密文可包括Y’樣本子集所包含的各個Y’樣本的集合。在步驟214，第一設備解密Y’樣本子集的密文。例如，第一設備可解密該子集中包含的每個Y’樣本以獲得經解密的Y樣本。在步驟216，第一設備在解密Y’樣本子集的密文之後可以生成關於特徵選擇的統計資訊。例如，第一設備可解密出各個Y’樣本的值，並由此獲得用於評價特徵選擇子集的統計資訊(例如正樣本數、負樣本數等)。在另一個示例中，如果Y樣本為二元值並使用同態加密來生成Y’樣本，則第二設備可以對Y’樣本子集的各個Y’樣本進行同態加法以得到密文總和，並在步驟212將該密文總和發送給第一設備，而不必將該Y’樣本子集完整地發送給第一設備。第一設備可在步驟214解密該密文總和並直接生成統計資訊。例如，如果用1、0分別表示正樣本和負樣本，則Y’樣本子集的同態密文總和即為所有1的密文總和，該密文總和被解密後即為所有正樣本的數量。反之，如果用1、0分別表示負樣本和正樣本，則解密Y’樣本子集的同態密文總和可以得到負樣本數量。在步驟218，第一設備可將Y’樣本子集的統計資訊發送給第二設備。應理解，第一設備發送Y’樣本子集的統計資訊不會洩露樣本Y的值。在步驟220，第二設備可根據該統計資訊來計算特徵選擇指標，如X樣本子集的正樣本率、X樣本子集的負樣本率、X樣本子集與預測目標(例如，Y樣本為正或負)的相關度、X樣本子集的資訊價值、X樣本子集的證據權重等。作為示例而非限定，第二設備可從步驟220返回到步驟208以選擇下一組的一個或多個X樣本子集進行評價。在步驟222，在獲得了符合要求的(例如，最優的)特徵子集的情況下，第二設備可以生成特徵選擇結果並完成特徵選擇。在可選步驟224，第二設備可將特徵選擇結果發送給第一設備。相應地，在可選步驟226，第一設備可從第二設備接收特徵選擇結果。圖3為根據本公開另一個實施例的特徵工程方法的示意圖。作為示例而非限定，以第一設備(例如，需求方)擁有標籤資訊Y(第一資料集)，第二設備(例如，資料方)擁有特徵資料X(第二資料集)的分箱場景為例進行說明。為簡化描述，假設標籤資訊Y(第一資料集)和特徵資料X(第二資料集)對應於相同的多個資料對象。分箱是一種常用的資料預處理方法，其按照屬性值劃分的子區間，如果一個屬性值處於某個子區間範圍內，就稱把該把待處理的資料(某列屬性值)按照一定的規則放進一些箱子中，考察每一個箱子中的資料，採用某種方法分別對各個箱子中的資料進行處理。分箱可包括等深分箱法、等寬分箱法、最小熵法和用戶自定義區間法等。圖3中的步驟302-306與圖2中的步驟202-206相似並且不再贅述。在步驟308，第二設備可對本地擁有的X樣本(例如，特徵資料)進行分箱。雖然圖3中示出了步驟308在步驟306之後執行，但是應理解，步驟308的分箱可以在步驟302-306中的任一個步驟之前或之後執行，也可以與步驟302-306中的任一個步驟併發地執行。例如，步驟308處對X樣本的分箱可以是預先(例如，在步驟302之前)執行的。在其他實施例中，對X樣本的分箱可以在步驟306之後(或者，在接收到來自第一設備的分箱請求之後)執行。在步驟310，第二設備以X樣本的分箱段為單位讀取相應的Y’樣本子集。根據本公開的一個實施例中，可在步驟308之前的任何時間對X樣本的id和Y樣本的id進行匹配，以使得X樣本和Y樣本具有對應關係。作為示例而非限定，第一設備發送給第二設備的加密Y’樣本具有相關聯的識別符(id)，第二設備本地的X樣本具有相關聯的識別符，其中X樣本和Y樣本的識別符是匹配的(例如，對應於相同的一組對象)。由此，第二設備可以根據X樣本的分箱來確定相應的id分別落在哪個分箱段中，並按分箱段來讀取各id對應的Y’樣本。在一個實施例中，第一設備發送給第二設備的加密Y’樣本的識別符可以被加密(例如，進行雜湊散列)或不被加密。在另一實施例中，如果第一設備和第二設備先進行了匹配，以使得X樣本和Y’樣本按特定方式排序(例如使得每項資料一一對應)，則第一設備發送給第二設備的加密Y’樣本可以不必包括id資訊，第二設備可以直接根據X樣本的分箱來讀取相對應的Y’樣本。在步驟312，第二設備可以將各個分箱段對應的Y’樣本子集的密文發送給第一設備。在一個實施例中，可在步驟312發送多個Y’樣本子集的密文，其中每個Y’樣本子集的密文可包括相應分箱段對應的Y’樣本的集合。在另一個實施例中，如果Y’樣本是採用同態加密來加密的，則在步驟312發送的每個Y’樣本子集的密文可包括將該分箱段對應的Y’樣本進行同態加法得到的密文總和。在步驟314，第一設備解密每個分箱段對應的Y’樣本子集的密文。第一設備可以是曾對Y進行加密的設備並且能夠解密Y’，或者即使加密不是由第一設備執行的，但第一設備具有密鑰權限並由此能夠解密Y’。例如，第一設備可解密Y’樣本子集中包含的每個Y’樣本，或者在該子集包含同態密文總和的情況下解密該同態密文總和。如果Y’樣本是二元值且採用同態加密來加密，則解密該密文總和可以直接得出正樣本數或負樣本數。在步驟316，第一設備在解密每個分箱段對應的Y’樣本子集的密文之後可以生成關於每個分箱段的統計資訊。例如，第一設備可解密出每個分箱段的各個Y’樣本的值，並由此獲得每個分箱段的正樣本數、負樣本數、及/或總樣本數等參數。在另一個實施例中，在步驟312處發送的Y’樣本子集的密文包含同態密文總和的情況下解密同態密文總和提供了各個分箱段的正樣本數或負樣本數。例如，如果用1、0分別表示正樣本和負樣本，則同態密文總和即為所有正樣本的數量。在步驟318，第一設備可將各個分箱段的統計資訊(例如Y樣本統計資訊，如正樣本數、負樣本數、及/或總樣本數等)發送給第二設備。應理解，第一設備發送各個分箱段的統計資訊不會洩露樣本Y的值。在步驟320，第二設備可根據該統計資訊來計算分箱指標。例如，第二設備可以利用從第一設備接收的關於每個分箱段的統計值並結合第二設備在對特徵資料X進行分箱時獲得的其他資訊一起進行分箱指標計算，如各X樣本分箱段的正樣本率、各X樣本分箱段的負樣本率、各X樣本分箱段與預測目標(例如，Y樣本為正或負)的相關度、各X樣本分箱段的IV(Information Value，資訊價值)、各X樣本分箱段的Woe(Weight of Evidence，證據權重)等。在步驟322，在分箱指標有效(例如，達到閾值)的情況下，第二設備可以生成分箱結果並完成分箱。在分箱指標不理想的情況下，第二設備可重複步驟308-320以重新執行分箱並進行分箱指標計算。在可選步驟324，第二設備可將分箱結果發送給第一設備。相應地，在可選步驟326，第一設備可以從第二設備接收分箱結果。圖4為根據本公開另一個實施例的特徵工程方法的示意圖。在一個實施例中，一方(例如，第一設備)可以具有特徵資料X2和標籤資訊Y，另一方(例如，第二設備)具有特徵資料X1。特徵資料X1和特徵資料X2可以彼此相同、部分相同、或者彼此不同。為簡化描述，假設標籤資訊Y(第一資料集)、特徵資料X1(第二資料集)、和特徵資料X2(第三資料集)對應於相同的多個資料對象。第一設備可以如圖3所述地將經加密的標籤資訊Y’發送給第二設備以結合特徵資料X1進行分箱，還可以在本地針對特徵資料X2和標籤資訊Y進行本地分箱。在步驟402-422中，第一設備和第二設備可以如參考圖3中的步驟302-322所述地根據特徵資料X1和標籤資訊Y’進行分箱並生成第一分箱結果。在步驟424，第二設備可以將第一分箱結果發送給第一設備。在步驟426，第一設備可在本地針對特徵資料X2和未加密的標籤資訊Y進行分箱以獲得第二分箱結果。應注意，第一設備在步驟426進行的本地分箱可以在步驟402-424中的任一個步驟之前或之後執行，或與其中任一個步驟並行地執行。在步驟428，第一設備可以組合第一分箱結果和第二分箱結果，以得到組合的分箱結果。上文以特徵工程處理中的特徵選擇和分箱為例介紹了分布式特徵工程和指標計算，使得合作方均不必洩漏自己的隱私資料明文，但最終能完成特徵工程處理。本領域技術人員可以將本公開的分布式特徵工程方法和裝置廣泛地應用於需要把各方的建模樣本資料融合在一起進行處理而不想洩露樣本資料明文資訊的場合，比如資料清理、特徵離散化、特徵提取、特徵選擇等。圖5示出了根據本公開一個實施例的特徵工程裝置的方塊圖。例如，第一設備510可執行以上所描述的關於第一設備的操作，第二設備520可執行以上所描述的關於第二設備的操作。如圖5所示，第一設備510可包括加解密模組512、傳輸模組514、處理模組516。加解密模組512可對第一資料集的標籤資訊進行加密以生成密文。傳輸模組514可將包含標籤資訊密文的第一資料集傳送給第二設備520或其他設備或雲端。第二設備520可包括傳輸模組522、特徵工程處理模組524和密文子集生成模組526。傳輸模組522可接收包含標籤資訊密文的第一資料集。此外，第二設備520可具有第二資料集(例如，儲存在儲存器中)，第二資料集包含多個資料對象的特徵資料。特徵工程處理模組524可對第二資料集進行特徵工程處理以生成第二資料集的子集。第一資料集的標籤資訊與第二資料集的特徵資料可對應於相同的多個資料對象。密文子集生成模組526可根據第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集。傳輸模組522可進一步將該密文子集的密文發送給第一設備。在第一設備510中，傳輸模組514可接收該密文子集的密文並將其傳遞給加解密模組512，加解密模組512可解密所述密文子集的密文。處理模組516可根據該密文子集的密文被解密後的資料生成用於特徵工程處理的統計資訊，例如正樣本數、負樣本數、總樣本數等。傳輸模組514可將所述統計資訊提供給第二設備520。在第二設備520中，傳輸模組522接收所述統計資訊並將其提供給特徵工程處理模組524。特徵工程處理模組524可使用所述統計資訊來計算對第二資料集進行的特徵工程處理的特徵工程指標並完成所述特徵工程處理。可選地，在完成特徵工程處理後，傳輸模組522還可以將特徵工程處理結果發送給第一設備510。在進一步的實施例中，第一設備510可任選地包括特徵工程處理模組518，其可使用第一資料集的未加密的標籤資訊和第三資料集(例如，包含特徵資料X2)來執行特徵工程處理以生成第二特徵工程結果。第一資料集的標籤資訊與第三資料集的特徵資料可對應於相同的多個資料對象。第一設備510還可以組合由第二設備520生成的上述特徵工程結果和第二特徵工程結果以獲得組合的特徵工程結果。在一個實施例中，處理模組516和特徵工程處理模組518可以一起實現或分開實現。根據本公開，聯合建模的資料合作各方(例如，第一設備510和第二設備520)不對外輸出隱私資料明文，但最終得到特徵工程處理結果，防止了私有資料洩漏，解決了資料合作過程中的隱私資料洩漏和資料信任問題。以上描述的特徵工程方法和裝置的各個步驟和模組可以用硬體、軟體、或其組合來實現。如果在硬體中實現，結合本公開描述的各種說明性步驟、模組、以及電路可用通用處理器、數位信號處理器(DSP)、專用積體電路(ASIC)、現場可程式化閘陣列(FPGA)、或其他可程式化邏輯組件、硬體組件、或其任何組合來實現或執行。通用處理器可以是處理器、微處理器、控制器、微控制器、或狀態機等。如果在軟體中實現，則結合本公開描述的各種說明性步驟、模組可以作為一條或多條指令或代碼儲存在電腦可讀媒體上或進行傳送。實現本公開的各種操作的軟體模組可駐留在儲存媒體中，如RAM、快閃記憶體、ROM、EPROM、EEPROM、暫存器、硬碟、可移除碟、CD-ROM、雲儲存等。儲存媒體可耦接到處理器以使得該處理器能從/向該儲存媒體讀寫資訊，並執行相應的程式模組以實現本公開的各個步驟。而且，基於軟體的實施例可以透過適當的通訊手段被上載、下載或遠端地存取。這種適當的通訊手段包括例如網際網路、全球資訊網、內聯網、軟體應用、電纜(包括光纖電纜)、磁通訊、電磁通訊(包括RF、微波和紅外通訊)、電子通訊或者其他這樣的通訊手段。還應注意，這些實施例可能是作為被描繪為流程圖、流圖、結構圖、或方塊圖的過程來描述的。儘管流程圖可能會把諸操作描述為順序過程，但是這些操作中有許多操作能夠並行或併發地執行。另外，這些操作的次序可被重新安排。所公開的方法、裝置和系統不應以任何方式被限制。相反，本公開涵蓋各種所公開的實施例(單獨和彼此的各種組合和子組合)的所有新穎和非顯而易見的特徵和方面。所公開的方法、裝置和系統不限於任何具體方面或特徵或它們的組合，所公開的任何實施例也不要求存在任一個或多個具體優點或者解決特定或所有技術問題。上面結合圖式對本公開的實施例進行了描述，但是本公開並不局限於上述的具體實施方式，上述的具體實施方式僅僅是示意性的，而不是限制性的，本領域的普通技術人員在本公開的啟示下，在不脫離本公開宗旨和請求項所保護的範圍情況下，還可做出很多更改，這些均落在本公開的保護範圍之內。

102:步驟 104:步驟 106:步驟 108:步驟 110:步驟 202:步驟 204:步驟 206:步驟 208:步驟 210:步驟 212:步驟 214:步驟 216:步驟 218:步驟 220:步驟 222:步驟 224:步驟 226:步驟 302:步驟 304:步驟 306:步驟 308:步驟 310:步驟 312:步驟 314:步驟 316:步驟 318:步驟 320:步驟 322:步驟 324:步驟 326:步驟 402:步驟 404:步驟 406:步驟 408:步驟 410:步驟 412:步驟 414:步驟 416:步驟 418:步驟 420:步驟 422:步驟 424:步驟 426:步驟 428:步驟 510:第一設備 512:加解密模組 514:傳輸模組 516:處理模組 518:特徵工程處理模組 520:第二設備 522:傳輸模組 524:特徵工程處理模組 526:密文子集生成模組

[圖1]為根據本公開一個實施例的特徵工程方法的流程圖； [圖2]為根據本公開一個實施例的特徵工程方法的示意圖； [圖3]為根據本公開另一個實施例的特徵工程方法的示意圖； [圖4]為根據本公開另一個實施例的特徵工程方法的示意圖；以及 [圖5]為根據本公開一個實施例的特徵工程裝置的方塊圖。

Claims

一種特徵工程方法，其特徵在於，包括：接收第一資料集，第一資料集包含多個資料對象的標籤資訊的密文；對第二資料集進行特徵工程處理以生成第二資料集的子集，第二資料集包含所述多個資料對象的特徵資料；根據所述第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集；將所述密文子集的密文發送給第一設備；從第一設備接收在解密所述密文子集的密文後生成的統計資訊；以及使用所述統計資訊來計算對第二資料集進行的特徵工程處理的特徵工程指標。
如請求項1所述的特徵工程方法，其中，還包括：根據所述特徵工程指標來生成特徵工程結果；以及將所述特徵工程結果發送給第一設備。
如請求項1所述的特徵工程方法，其中，所述特徵工程處理包括對第二資料集進行特徵選擇以生成第二資料集的特徵資料子集，其中計算特徵工程指標包括利用所述特徵資料子集與所述統計資訊來計算特徵選擇指標。
如請求項1所述的特徵工程方法，其中，所述特徵工程處理包括對第二資料集進行分箱以生成多個分箱段，並且所述密文子集包括與所述多個分箱段相對應的多個密文子集，其中每個密文子集包括第一資料集之中的落在相應分箱段中的資料對象的標籤資訊密文，其中計算特徵工程指標包括利用所述第二資料集的分箱段與所述統計資訊來計算分箱指標。
如請求項1所述的特徵工程方法，其中，第一資料集的標籤資訊的密文是使用同態加密對所述標籤資訊進行加密來生成的，所述標籤資訊為二元值，並且將所述密文子集的密文發送給第一設備包括：對所述密文子集中的密文進行同態加法以得到密文總和並將所述密文總和發送給第一設備。
如請求項1所述的特徵工程方法，其中，第一資料集和第二資料集之中的資料對象分別具有相關聯的識別符，所述方法還包括在生成所述第二資料集的子集之前對第一資料集和第二資料集進行識別符匹配，以使得第一資料集的標籤資訊與第二資料集的特徵資料對應於相同的多個資料對象。
如請求項1所述的特徵工程方法，其中，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。
如請求項1所述的特徵工程方法，其中，對第二資料集進行特徵工程處理是在接收第一資料集之前、之時、或之後發生的。
如請求項1所述的特徵工程方法，其中，所述特徵工程指標包括以下至少一者：所述第二資料集的子集的正樣本率、所述第二資料集的子集的負樣本率、所述第二資料集的子集與所述密文子集中的標籤資訊的相關度、所述第二資料集的子集的資訊價值、所述第二資料集的子集的證據權重。
一種特徵工程方法，其特徵在於，包括：提供第一資料集，第一資料集包含多個資料對象的標籤資訊的密文；接收第一資料集的密文子集的密文，所述密文子集是根據對第二資料集進行的特徵工程處理來生成的，第二資料集包含所述多個資料對象的特徵資料，其中對第二資料集進行的特徵工程處理生成第二資料集的子集，其中所述密文子集包含第一資料集之中的與所述第二資料集的子集相同的資料對象的標籤資訊密文；解密所述密文子集的密文並生成所述密文子集的統計資訊；以及提供所述統計資訊以用於計算對第二資料集的特徵工程處理的特徵工程指標。
如請求項10所述的特徵工程方法，其中，所述方法還包括：接收根據所述特徵工程指標生成的第一特徵工程結果。
如請求項11所述的特徵工程方法，其中，所述方法還包括：使用所述第一資料集的標籤資訊和第三資料集的特徵資料來執行所述特徵工程處理以生成第二特徵工程結果；以及組合第一特徵工程結果和第二特徵工程結果以獲得組合的特徵工程結果。
如請求項10所述的特徵工程方法，其中，所述特徵工程處理包括對第二資料集進行特徵選擇以生成第二資料集的特徵資料子集，其中計算特徵工程指標包括利用所述特徵資料子集與所述統計資訊來計算特徵選擇指標。
如請求項10所述的特徵工程方法，其中，所述特徵工程處理包括對第二資料集進行分箱以生成多個分箱段，並且所述密文子集包括與所述多個分箱段相對應的多個密文子集，其中每個密文子集包括第一資料集之中的落在相應分箱段中的資料對象的標籤資訊密文，所述計算特徵工程指標包括利用所述第二資料集的分箱段與所述統計資訊來計算分箱指標。
如請求項10所述的特徵工程方法，其中，第一資料集的標籤資訊的密文是使用同態加密對所述標籤資訊進行加密來生成的，所述標籤資訊為二元值，所述密文子集的密文包括將所述密文子集中的密文進行同態加法得到的密文總和。
如請求項10所述的特徵工程方法，其中，第一資料集和第二資料集之中的資料對象分別具有相關聯的識別符，所述方法還包括在生成所述第二資料集的子集之前對第一資料集和第二資料集進行識別符匹配，以使得第一資料集的標籤資訊與第二資料集的特徵資料對應於相同的多個資料對象。
如請求項10所述的特徵工程方法，其中，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。
如請求項10所述的特徵工程方法，其中，所述特徵工程指標包括以下至少一者：所述第二資料集的子集的正樣本率、所述第二資料集的子集的負樣本率、所述第二資料集的子集與所述密文子集中的標籤資訊的相關度、所述第二資料集的子集的資訊價值、所述第二資料集的子集的證據權重。
一種特徵工程裝置，其特徵在於，包括：傳輸模組，其接收第一資料集，第一資料集包含多個資料對象的標籤資訊的密文；特徵工程處理模組，其對第二資料集進行特徵工程處理以生成第二資料集的子集，第二資料集包含所述多個資料對象的特徵資料；以及密文子集生成模組，其根據所述第二資料集的子集中所包含的資料對象來生成第一資料集之中相應資料對象的標籤資訊的密文子集；其中所述傳輸模組將所述密文子集的密文發送給第一設備並從第一設備接收在解密所述密文子集的密文後生成的統計資訊；並且所述特徵工程處理模組使用所述統計資訊來計算對第二資料集進行的特徵工程處理的特徵工程指標。
如請求項19所述的特徵工程裝置，其中，所述特徵工程處理模組根據所述特徵工程指標來生成特徵工程結果；以及所述傳輸模組將所述特徵工程結果發送給第一設備。
如請求項19所述的特徵工程裝置，其中，所述特徵工程處理包括特徵選擇或分箱。
如請求項19所述的特徵工程裝置，其中，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。
一種特徵工程裝置，其特徵在於，包括：傳輸模組，其向第二設備提供第一資料集，第一資料集包含多個資料對象的標籤資訊的密文，所述傳輸模組還從第二設備接收第一資料集的密文子集的密文，所述密文子集是根據對第二資料集進行的特徵工程處理來生成的，第二資料集包含所述多個資料對象的特徵資料，其中對第二資料集進行的特徵工程處理生成第二資料集的子集，其中所述密文子集包含第一資料集之中的與所述第二資料集的子集相同的資料對象的標籤資訊密文；加解密模組，其解密所述密文子集的密文；以及處理模組，其生成所述密文子集的統計資訊，其中所述傳輸模組向第二設備提供所述統計資訊以供第二設備用於計算對第二資料集的特徵工程處理的特徵工程指標。
如請求項23所述的特徵工程裝置，其中，其中所述傳輸模組從第二設備接收根據所述特徵工程指標生成的第一特徵工程結果，並且所述特徵工程裝置還包括：特徵工程處理模組，其使用所述第一資料集的標籤資訊和第三資料集的特徵資料來執行所述特徵工程處理以生成第二特徵工程結果，以及組合第一特徵工程結果和第二特徵工程結果以獲得組合的特徵工程結果。
如請求項23所述的特徵工程裝置，其中，所述特徵工程處理包括特徵選擇或分箱。
如請求項23所述的特徵工程裝置，其中，所述統計資訊包括所述密文子集的正樣本數、及/或負樣本數。
一種特徵工程系統，其特徵在於，包括：處理器；用於儲存處理器可執行指令的儲存器，其中所述處理器被配置成執行所述處理器可執行指令以實現如請求項1至18中任一項所述的方法。