TWI729698B

TWI729698B - 資料處理方法、裝置和電子設備

Info

Publication number: TWI729698B
Application number: TW109104549A
Authority: TW
Inventors: 李漓春; 張晉升; 王華忠
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2019-07-01
Filing date: 2020-02-13
Publication date: 2021-06-01
Also published as: TW202103154A; CN110427969B; WO2021000572A1; CN110427969A

Abstract

本說明書實施例提供一種資料處理方法、裝置和電子設備。所述方法包括：根據所述業務資料，確定分裂條件集合中分裂條件的取值，得到取值集合；利用亂數對取值集合中的取值進行加密，得到取值密文集合；以取值密文集合為輸入與模型方協作執行安全資料選擇演算法；以亂數為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。

Description

資料處理方法、裝置和電子設備

本說明書實施例係相關於電腦技術領域，特別係相關於一種資料處理方法、裝置和電子設備。

在業務實際中，通常一方擁有需要保密的模型(以下稱為模型方)，另一方擁有需要保密的業務資料(以下稱為資料方)。如何在所述模型方不洩漏所述模型、且所述資料方不洩漏所述業務資料的條件下，使得模型方及/或模型方獲得基於所述模型對所述業務資料進行預測後的預測結果，是當前亟需解決的技術問題。

本說明書實施例的目的是提供一種資料處理方法、裝置和電子設備，以便於在模型方不洩漏自身的模型、且資料方不洩漏自身的業務資料的條件下，或者，在模型方不洩漏自身的模型和業務資料、且資料方不洩漏自身的業務資料的條件下，模型方及/或資料方獲得基於所述模型對業務資料進行預測後的預測結果。為實現上述目的，本說明書中一個或多個實施例提供的技術方案如下。根據本說明書一個或多個實施例的第一態樣，提供了一種資料處理方法，應用於模型方，包括：從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，所述決策森林包括至少一個決策樹，所述決策樹包括至少一個分裂節點和至少兩個葉子節點，所述分裂節點對應有真實分裂條件，所述葉子節點對應有葉子值；為所述目標分裂節點生成虛假分裂條件；向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件。根據本說明書一個或多個實施例的第二態樣，提供了一種資料處理裝置，設置於模型方，包括：選取單元，用於從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，所述決策森林包括至少一個決策樹，所述決策樹包括至少一個分裂節點和至少兩個葉子節點，所述分裂節點對應有真實分裂條件，所述葉子節點對應有葉子值；生成單元，用於為所述目標分裂節點生成虛假分裂條件；發送單元，用於向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件。根據本說明書一個或多個實施例的第三態樣，提供了一種電子設備，包括：記憶體，用於儲存電腦指令；處理器，用於執行所述電腦指令以實現如第一態樣所述的方法步驟。根據本說明書一個或多個實施例的第四態樣，提供了一種資料處理方法，應用於資料方，所述資料方持有業務資料和目標分裂節點對應的分裂條件集合，所述目標分裂節點為決策森林中與所述業務資料相關聯的分裂節點，所述方法包括：根據所述業務資料，確定分裂條件集合中分裂條件的取值，得到取值集合；利用亂數對取值集合中的取值進行加密，得到取值密文集合；以取值密文集合為輸入與模型方協作執行安全資料選擇演算法；以亂數為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。根據本說明書一個或多個實施例的第五態樣，提供了一種資料處理裝置，設置於資料方，所述資料方持有業務資料和目標分裂節點對應的分裂條件集合，所述目標分裂節點為決策森林中與所述業務資料相關聯的分裂節點，所述裝置包括：確定單元，用於根據所述業務資料，確定所述分裂條件集合中分裂條件的取值，得到取值集合；加密單元，用於利用亂數對取值集合中的取值進行加密，得到取值密文集合；第一計算單元，用於以取值密文集合為輸入與模型方協作執行安全資料選擇演算法；第二計算單元，用於以亂數為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。根據本說明書一個或多個實施例的第六態樣，提供了一種電子設備，包括：記憶體，用於儲存電腦指令；處理器，用於執行所述電腦指令以實現如第四態樣所述的方法步驟。根據本說明書一個或多個實施例的第七態樣，提供了一種資料處理方法，應用於模型方，所述模型方持有決策森林，所述決策森林包括目標分裂節點，所述目標分裂節點與資料方持有的業務資料相關聯、且對應有分裂條件集合，所述分裂條件集合包括真實分裂條件和虛假分裂條件，所述方法包括：將分裂條件集合中真實分裂條件所在的階級作為資料選擇值，以資料選擇值為輸入與模型方協作執行安全資料選擇演算法，得到真實分裂條件的取值密文；以取值密文為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。根據本說明書一個或多個實施例的第八態樣，提供了一種資料處理裝置，設置於模型方，所述模型方持有決策森林，所述決策森林包括目標分裂節點，所述目標分裂節點與資料方持有的業務資料相關聯、且對應有分裂條件集合，所述分裂條件集合包括真實分裂條件和虛假分裂條件，所述裝置包括：第一計算單元，用於將分裂條件集合中真實分裂條件所在的階級作為資料選擇值，以資料選擇值為輸入與模型方協作執行安全資料選擇演算法，得到真實分裂條件的取值密文；第二計算單元，用於以取值密文為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。根據本說明書一個或多個實施例的第九態樣，提供了一種電子設備，包括：記憶體，用於儲存電腦指令；處理器，用於執行所述電腦指令以實現如第七態樣所述的方法步驟。由以上本說明書實施例提供的技術方案可見，本實施例的資料處理方法，透過為與資料方持有的業務資料相關聯的分裂節點添加虛假分裂條件以進行混淆，可以實現在模型方不洩漏自身持有的決策森林、且資料方不洩漏自身持有的業務資料的條件下，或者，在模型方不洩漏自身持有的決策森林和業務資料，且資料方不洩漏自身持有的業務資料的條件下，由資料方及/或資料方獲得決策森林的預測結果。

下面將結合本說明書實施例中的圖式，對本說明書實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本說明書一部分實施例，而不是全部的實施例。基於本說明書中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本說明書保護的範圍。多方安全計算(Secure Muti-Party Computation，MPC)是一種保護資料隱私安全的演算法。多個參與方可以在不洩漏自身資料的前提下，使用多方安全計算技術進行協作計算，得到計算結果。利用多方安全計算技術可以實現任意類型的數學運算，諸如四則運算(例如加法運算、減法運算、乘法運算、除法運算)、邏輯運算(例如與運算、或運算、異或運算)等。在實際應用中，多方安全計算可以有多種實現方式。例如，採用多方安全計算，參與方P ₁ ,…,P _n 可以協作計算函數f(x ₁ ,…,x _n )=(y ₁ ,…,y _n )=y 。其中，n ≥2；x ₁ ,...,x _n 分別為參與方P ₁ ,…,P _n 擁有的資料；y 為計算結果；y ₁ ,…,y _n 分別為參與方P ₁ ,…,P _n 在計算後所擁有的計算結果y 的份額；y ₁ +y ₂ +…+y _n =y 。另舉一例，採用多方安全計算，參與方P ₁ ,…,P _n 可以協作計算函數f(x ₁ ,…,x _n )=y 。參與方P ₁ ,…,P _n 中的一個或多個在計算後可以擁有計算結果y 。安全資料選擇演算法是一種可以保護隱私的資料選擇演算法，具體可以包括不經意傳輸(Oblivious Transfer，OT)和私有資訊檢索(Private Information Retrieval，PIR)等演算法。不經意傳輸，又稱為茫然傳輸，是一種可以保護隱私的雙方通信協定，能夠使通信雙方以一種選擇模糊化的方式傳遞資料。發送方可以具有多個資料。經由不經意傳輸接收方能夠獲得所述多個資料中的一個或多個資料。在此過程中，發送方不知曉接收方接收的是哪些資料；而接收方不能夠獲得其所接收資料之外的其它任何資料。私有資訊檢索，是一種保護隱私的安全檢索協定。服務方可以具有多個資料。需求方可以從服務方的多個資料中檢索一個或多個資料。服務方不知曉需求方檢索的是哪些資料。需求方也不知曉除了其所檢索資料以外的其它任何資料。決策樹：一種有監督的機器學習模型。所述決策樹可以包括二叉樹等。所述決策樹可以包括多個節點。每個節點可以對應有位置資訊，所述位置資訊用於表示節點在決策樹中的位置，例如可以為節點的編號等。所述多個節點能夠形成多個預測路徑。所述預測路徑的起始節點為所述決策樹的根節點，終止節點為所述決策樹的葉子節點。所述決策樹可以包括回歸決策樹和分類決策樹等。所述回歸決策樹的預測結果可以為一個具體的數值。所述分類決策樹的預測結果可以為一個具體的類別。值得說明的是，為了便於分析計算，通常可以採用向量來表示類別。例如，向量[1 0 0]可以表示類別A，向量[0 1 0]可以表示類別B，向量[0 0 1]可以表示類別C。當然，此處的向量僅為示例，在實際應用中還可以採用其它的數學方式來表示類別。分裂節點：當決策樹中的一個節點能夠向下分裂時，可以將該節點稱為分裂節點。所述分裂節點可以包括根節點、以及除葉子節點和根節點以外的其它節點。所述分裂節點對應有分裂條件和資料類型，所述分裂條件可以用於選擇預測路徑，所述資料類型用於表示分裂條件針對的是哪些類型的資料。葉子節點：當決策樹中的一個節點不能夠向下分裂時，可以將該節點稱為葉子節點。所述葉子節點對應有葉子值。不同葉子節點對應的葉子值可以相同或不同。每個葉子值可以表示一種預測結果。所述葉子值可以為數值或向量等。例如，回歸決策樹的葉子節點對應的葉子值可以為數值，分類決策樹的葉子節點對應的葉子值可以為向量。為了更好地對以上術語進行理解，以下介紹一個場景示例。請參閱圖1。在本場景示例中，決策樹Tree1可以包括節點1、2、3、4和5。節點1、2、3、4和5的位置資訊分別為1、2、3、4和5。其中，節點1為根節點，節點1、2和3為分裂節點，節點3、4和5為葉子節點。節點1、2和4可以形成一個預測路徑，節點1、2和5可以形成另一個預測路徑，節點1和3可以形成另一個預測路徑。分裂節點1、2和3對應的分裂條件和資料類型可以如下表1所示。

葉子節點3、4和5對應的葉子值可以如下表2所示。

在決策樹Tree1中，分裂條件“年齡大於20歲”、“年收入大於5萬”可以用於選擇預測路徑。當滿足分裂條件時，可以選擇左邊的預測路徑；當不滿足分裂條件時，可以選擇右邊的預測路徑。具體地，針對節點1，當滿足分裂條件“年齡大於20歲”時，可以選擇左邊的預測路徑，進而跳轉到節點2；當不滿足分裂條件“年齡大於20歲”時，可以選擇右邊的預測路徑，進而跳轉到節點3。針對節點2，當滿足分裂條件“年收入大於5萬”時，可以選擇左邊的預測路徑，進而跳轉到節點4；當不滿足分裂條件“年收入大於5萬”時，可以選擇右邊的預測路徑，進而跳轉到節點5。一個或多個決策樹可以構成決策森林。所述決策森林可以包括回歸決策森林和分類決策森林。所述回歸決策森林可以包括一個或多個回歸決策樹。當回歸決策森林包括一個回歸決策樹時，可以將該回歸決策樹的預測結果作為該回歸決策森林的預測結果。當回歸決策森林包括多個回歸決策樹時，可以對所述多個回歸決策樹的預測結果進行求和處理，可以將求和結果作為該回歸決策森林的預測結果。所述分類決策森林可以包括一個或多個分類決策樹。當分類決策森林包括一個分類決策樹時，可以將該分類決策樹的預測結果作為該分類決策森林的預測結果。當分類決策森林包括多個分類決策樹時，可以對所述多個分類決策樹的預測結果進行統計，可以將統計結果作為該分類決策森林的預測結果。值得說明的是，在一些場景下，分類決策樹的預測結果可以表示為向量，所述向量可以用於表示類別。如此，可以對分類決策森林中多個分類決策樹預測出的向量進行求和處理，可以將求和結果作為分類決策森林的預測結果。例如，某一分類決策森林可以包括分類決策樹Tree2、Tree3、Tree4。分類決策樹Tree2的預測結果可以表示為向量[1 0 0]，向量[1 0 0]表示類別A。分類決策樹Tree3的預測結果可以表示為向量[0 1 0]，向量[0 1 0]表示類別B。分類決策樹Tree4的預測結果可以表示為向量[1 0 0]，向量[0 0 1]表示類別C。那麼，可以對向量[1 0 0]、[0 1 0]和[1 0 0]進行求和處理，得到向量[2 1 0]作為分類決策森林的預測結果。向量[2 1 0]表示在分類決策森林中預測結果為類別A的次數為2次、預測結果為類別B的次數為1次，預測結果為類別C的次數為0次。本說明書提供資料處理系統的一個實施例。所述資料處理系統可以包括模型方和資料方。模型方和資料方可以分別為伺服器、手機、平板電腦、或個人電腦等設備；或者，也可以分別為由多台設備組成的系統，例如由多個伺服器組成的伺服器集群。模型方可以持有需要保密的決策森林，資料方可以持有需要保密的業務資料。在實際應用中，一些情況下，資料方持有全體業務資料。另一些情況下，模型方持有全體業務資料中的一部分業務資料，資料方持有全體業務資料中的另一部分業務資料。例如，模型方持有交易業務資料，資料方持有借貸業務資料。模型方和資料方可以進行協作計算，以便模型方及/或資料方獲得基於決策森林對全體業務資料進行預測後的預測結果。請參閱圖2。基於前面的資料處理系統實施例，本說明書提供資料處理方法的一個實施例。該實施例應用於預處理階段。該實施例以模型方為執行主體，可以包括以下步驟。步驟S10：從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，所述決策森林包括至少一個決策樹，所述決策樹包括至少一個分裂節點和至少兩個葉子節點，所述分裂節點對應有真實分裂條件，所述葉子節點對應有葉子值。在一些實施例中，決策森林中的每個分裂節點可以對應有分裂條件。為了與後續的虛假分裂條件進行區分，可以將這裡的分裂條件作為真實分裂條件。在一些實施例中，分裂節點與資料方持有的業務資料相關聯可以理解為：分裂節點對應的資料類型與資料方持有業務資料的資料類型相同。模型方可以預先獲得資料方持有業務資料的資料類型。如此模型方可以從決策森林中選取對應的資料類型與資料方持有的業務資料的資料類型相同的分裂節點作為目標分裂節點。在一些實施例中，所述目標分裂節點的數量可以為一個或多個。具體地，在一些實施方式中，資料方持有全體業務資料，模型方不持有任何業務資料。決策森林中的所有分裂節點均與資料方持有的業務資料相關聯。這樣決策森林中的所有分裂節點均為目標分裂節點。在另一些實施方式中，資料方持有全體業務資料中的一部分資料，模型方持有全體業務資料中的另一部分資料。決策森林中的部分分裂節點與資料方持有的業務資料相關聯，另一部分分裂節點與模型方持有的業務資料相關聯。這樣決策森林中的部分分裂節點為目標分裂節點。步驟S12：為所述目標分裂節點生成虛假分裂條件。在一些實施例中，模型方可以為每個目標分裂節點生成至少一個虛假分裂條件。所述虛假分裂條件可以是隨機生成的，或者，還可以是按照預設規則生成的。步驟S14：向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件。在一些實施例中，經過步驟S12，每個目標分裂節點可以對應有虛假分裂條件和真實分裂條件，可以將虛假分裂條件和真實分裂條件形成的集合作為該目標分裂節點對應的分裂條件集合。所述模型方可以向資料方發送每個目標分裂節點對應的分裂條件集合。資料方可以接收目標分裂節點對應的分裂條件集合。分裂條件集合中的分裂條件可以具有一定的順序，真實分裂條件所在的階級是隨機的。透過虛假分裂條件進行混淆，使得資料方不知曉分裂條件集合中的哪個分裂條件為真實分裂條件，從而實現了對決策森林的隱私保護。在一些實施例中，模型方可以保留決策森林中葉子節點對應的葉子值。在一些實施方式中，決策森林中的所有分裂節點均與資料方持有的業務資料相關聯。即，決策森林中的所有分裂節點均為目標分裂節點。在另一些實施方式中，決策森林中的一部分分裂節點與資料方持有的業務資料相關聯，另一部分分裂節點與模型方持有的業務資料相關聯。即，決策森林中包括目標分裂節點和除目標分裂節點以外的其它分裂節點。分裂節點與模型方持有的業務資料相關聯可以理解為：分裂節點對應的資料類型與模型方持有業務資料的資料類型相同。如此模型方可以保留所述其它分裂節點對應的真實分裂條件。在一些實施例中，模型方還可以向資料方發送決策森林中分裂節點的位置資訊和葉子節點的位置資訊。資料方可以接收決策森林中分裂節點的位置資訊和葉子節點的位置資訊；可以基於決策森林中分裂節點的位置資訊和葉子節點的位置資訊，重構決策森林中決策樹的拓撲結構。決策樹的拓撲結構可以包括決策樹中分裂節點和葉子節點的連接關係。本實施例的資料處理方法，模型方可以從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，可以為所述目標分裂節點生成虛假分裂條件，可以向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件。這樣一態樣，透過虛假分裂條件進行混淆，實現了對決策森林的隱私保護。另一態樣，便於利用決策森林對全體業務資料進行預測。請參閱圖3。基於前面的資料處理系統實施例，本說明書提供資料處理方法的另一個實施例。該實施例應用於預測階段，可以包括以下步驟。步驟S20：資料方根據持有的業務資料，確定目標分裂節點所對應分裂條件集合中分裂條件的取值，得到取值集合；所述目標分裂節點為決策森林中與資料方持有的業務資料相關聯的分裂節點。在一些實施例中，資料方可以獲得決策森林中目標分裂節點對應的分裂條件集合。所述目標分裂節點為決策森林中與資料方持有的業務資料相關聯的分裂節點，所述分裂條件集合可以包括虛假分裂條件和真實分裂條件。資料方可以根據持有的業務資料，確定目標分裂節點所對應分裂條件集合中分裂條件的取值，得到取值集合。所述取值集合可以包括至少兩個取值，所述至少兩個取值可以包括真實分裂條件的取值和至少一個虛假分裂條件的取值。分裂條件的取值可以用於表徵業務資料是否滿足分裂條件，若是，分裂條件的取值可以為第一數值，若否，分裂條件的取值可以為第二數值。例如，所述第一數值可以為1，所述第二數值可以為0。在實際應用中，針對決策森林中的每個目標分裂節點，資料方可以根據自身持有的業務資料，分別確定該目標分裂節點所對應分裂條件集合中每個分裂條件的取值，可以將確定的取值作為該目標分裂節點所對應取值集合中的取值。步驟S22：資料方利用亂數對取值集合中的取值進行加密，得到取值密文集合。在一些實施例中，所述取值密文集合包括至少兩個取值密文，所述至少兩個取值密文可以包括真實分裂條件的取值密文和至少一個虛假分裂條件的取值密文。在一些實施例中，資料方可以為每個目標分裂節點生成亂數。針對決策森林中的每個目標分裂節點，資料方可以利用該目標分裂節點的亂數，對該目標分裂節點所對應取值集合中的每個取值分別進行加密，可以將加密結果作為該目標分裂節點所對應取值密文集合中的取值密文。至於採用哪種方式對進行加密，本實施例並不做具體限定。例如，可以透過對亂數和分裂節點的取值進行異或運算來加密。步驟S24：針對決策森林中的目標分裂節點，模型方以該目標分裂節點對應的資料選擇值為輸入，資料方以該目標分裂節點對應的取值密文集合為輸入，二者協作執行安全資料選擇演算法。模型方從資料方輸入的取值密文集合中選擇真實分裂條件的取值密文。在一些實施例中，資料選擇值作為模型方在執行安全資料選擇演算法過程中的輸入，可以用於從資料方在執行安全資料選擇演算法過程中輸入的取值密文集合中選擇取值密文。模型方具體可以將目標分裂節點所對應分裂條件集合中真實分裂條件所在的階級，作為該目標分裂節點對應的資料選擇值。例如，某一分裂條件集合包括Condition1、Condition2、Condition3、Condition4等4個分裂條件。其中，Condition1、Condition2和Condition4為虛假分裂條件，Condition3為真實分裂條件。該分裂條件集合中分裂條件的順序為Condition1、Condition2、Condition3和Condition4。那麼，真實分裂條件Condition3所在的階級為3。在一些實施例中，針對決策森林中的目標分裂節點，模型方可以以該目標分裂節點對應的資料選擇值為輸入，資料方可以以該目標分裂節點對應的取值密文集合為輸入，二者協作執行安全資料選擇演算法。模型方可以從取值密文集合中選擇真實分裂條件的取值密文。根據安全資料選擇演算法的特性，資料方並不知曉模型方具體選擇了哪個取值密文，模型方也不能夠知曉除了所選擇取值密文以外的其它取值密文。所述安全資料選擇演算法可以包括不經意傳輸演算法和私有資訊檢索演算法等。步驟S26：模型方以真實分裂條件的取值密文為輸入，資料方以亂數為輸入，二者協作執行多方安全計算演算法。模型方及/或資料方獲得決策森林的預測結果。在一些實施例中，經過步驟S24，模型方獲得了每個目標分裂節點所對應真實分裂條件的取值密文。針對決策森林中的每個決策樹，模型方可以以該決策樹中各個目標分裂節點所對應真實分裂條件的取值密文、以及葉子節點對應的葉子值為輸入，資料方可以以該決策樹中各個目標分裂節點對應的亂數為輸入，二者協作執行多方安全計算演算法。模型方及/或資料方可以獲得該決策樹的預測結果。模型方及/或資料方可以根據決策森林中決策樹的預測結果，確定決策森林的預測結果。至於具體的確定方式可以參見前面的敘述，在此不再贅述。在一些實施方式中，決策森林中的所有分裂節點均與資料方持有的業務資料相關聯。即，決策森林中的所有分裂節點均為目標分裂節點。在另一些實施方式中，決策森林中的一部分分裂節點與資料方持有的業務資料相關聯，另一部分分裂節點與模型方持有的業務資料相關聯。即，決策森林中包括目標分裂節點和除目標分裂節點以外的其它分裂節點。如此模型方可以根據自身持有的業務資料，確定所述其它分裂節點對應的真實分裂條件的取值。針對決策森林中的每個決策樹，模型方可以以該決策樹中各個目標分裂節點所對應真實分裂條件的取值密文、各個其它分裂節點所對應真實分裂條件的取值、以及葉子節點對應的葉子值為輸入，資料方可以以該決策樹中各個目標分裂節點對應的亂數為輸入，二者協作執行多方安全計算演算法。模型方及/或資料方可以獲得該決策樹的預測結果。在一些實施例中，依據採用的多方安全計算演算法類型的不同，模型方及/或資料方獲得決策樹的預測結果的方式可以不同。例如，透過執行多方安全計算，模型方和資料方可以分別獲得決策樹的預測結果的一份份額。為了便於區分，可以將模型方獲得的份額作為第一份額，可以將資料方獲得的份額作為第二份額。模型方可以向資料方發送第一份額。資料方可以接收第一份額；可以將第一份額和第二份額相加，得到決策樹的預測結果。或者，資料方可以向模型方發送第二份額。模型方可以接收第二份額；可以將第一份額和第二份額相加，得到決策樹的預測結果。或者，模型方可以向資料方發送第一份額，資料方可以接收第一份額；並且資料方可以向模型方發送第二份額，模型方可以接收第二份額。透過將第一份額和第二份額相加，模型方和資料方均可以獲得決策樹的預測結果。另舉一例，透過執行多方安全計算，模型方及/或資料方可以直接得到決策樹的預測結果。以下介紹一個應用場景示例。需要說明的是，該應用場景示例的目的僅在於更好地說明本說明書的實施例，並不構成對本實施例的不當限定。請參閱圖4。在本場景示例中，決策樹Tree2可以包括節點C1、C2、C3、C4、C5、O6、O7、O8、O9、O10和O11。其中，節點C1、C2、C3、C4和C5為分裂節點，節點O7、O8、O9、O10和O11為葉子節點。在決策樹Tree2中，分裂節點左側的分支為取值為0的分支，具體表示不滿足分裂條件的分支；分裂節點右側的分支為取值為1的分支，具體表示滿足分裂條件的分支。在本場景示例中，模型方持有決策樹Tree2。資料方持有全體業務資料。決策樹Tree2中的分裂節點C1、C2、C3、C4和C5均與資料方持有的業務資料相關聯。決策樹Tree2的預測結果可以表示為如下公式。

上式(1)中，

表示決策樹Tree2的預測結果；

表示葉子節點O6的葉子值。依次類推，

表示葉子節點O11的葉子值；

表示分裂節點C1所對應真實分裂條件的取值密文。依次類推，

表示分裂節點C5所對應真實分裂條件的取值密文。模型方可以以

為輸入，資料方可以以分裂節點C1、C2、C3、C4和C5的亂數為輸入，二者協作執行多方安全計算演算法。在執行多方安全計算演算法後，模型方可以獲得

的一份份額

，資料方可以獲得

的另一份份額

。模型方可以向資料方發送

。資料方可以接收

；可以將

和

相加，得到

。本實施例的資料處理方法，透過為與資料方持有的業務資料相關聯的分裂節點添加虛假分裂條件以進行混淆，可以實現在模型方不洩漏自身持有的決策森林、且資料方不洩漏自身持有的業務資料的條件下，或者，在模型方不洩漏自身持有的決策森林和業務資料，且資料方不洩漏自身持有的業務資料的條件下，由資料方及/或資料方獲得決策森林的預測結果。請參閱圖5。基於同樣的發明構思，本說明書提供資料處理方法的另一個實施例。該實施例以資料方為執行主體，可以包括以下步驟。步驟S30：根據持有的業務資料，確定分裂條件集合中分裂條件的取值，得到取值集合。步驟S32：利用亂數對取值集合中的取值進行加密，得到取值密文集合。步驟S34：以取值密文集合為輸入與模型方協作執行安全資料選擇演算法。步驟S36：以亂數為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。步驟S30、步驟S32、步驟S34和步驟S36的具體過程可以參見圖2對應的實施例，在此不再贅述。本實施例的資料處理方法，透過為與資料方持有的業務資料相關聯的分裂節點添加虛假分裂條件以進行混淆，可以實現在模型方不洩漏自身持有的決策森林、且資料方不洩漏自身持有的業務資料的條件下，或者，在模型方不洩漏自身持有的決策森林和業務資料，且資料方不洩漏自身持有的業務資料的條件下，由資料方及/或資料方獲得決策森林的預測結果。請參閱圖6。基於同樣的發明構思，本說明書提供資料處理方法的另一個實施例。該實施例以模型方為執行主體，可以包括以下步驟。步驟S40：將分裂條件集合中真實分裂條件所在的階級作為資料選擇值，以資料選擇值為輸入與模型方協作執行安全資料選擇演算法，得到真實分裂條件的取值密文。步驟S42：以取值密文為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。步驟S40和步驟S42的具體過程可以參見圖2對應的實施例，在此不再贅述。本實施例的資料處理方法，透過為與資料方持有的業務資料相關聯的分裂節點添加虛假分裂條件以進行混淆，可以實現在模型方不洩漏自身持有的決策森林、且資料方不洩漏自身持有的業務資料的條件下，或者，在模型方不洩漏自身持有的決策森林和業務資料，且資料方不洩漏自身持有的業務資料的條件下，由資料方及/或資料方獲得決策森林的預測結果。請參閱圖7。本說明書還提供一種資料處理裝置的實施例。該實施例可以設置於模型方。所述裝置可以包括以下單元。選取單元50，用於從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，所述決策森林包括至少一個決策樹，所述決策樹包括至少一個分裂節點和至少兩個葉子節點，所述分裂節點對應有真實分裂條件，所述葉子節點對應有葉子值；生成單元52，用於為所述目標分裂節點生成虛假分裂條件；發送單元54，用於向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件。請參閱圖8。本說明書還提供一種資料處理裝置的實施例。該實施例可以設置於資料方，所述資料方持有業務資料和目標分裂節點對應的分裂條件集合，所述目標分裂節點為決策森林中與所述業務資料相關聯的分裂節點。所述裝置可以包括以下單元。確定單元60，用於根據所述業務資料，確定所述分裂條件集合中分裂條件的取值，得到取值集合；加密單元62，用於利用亂數對取值集合中的取值進行加密，得到取值密文集合；第一計算單元64，用於以取值密文集合為輸入與模型方協作執行安全資料選擇演算法；第二計算單元66，用於以亂數為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。請參閱圖9。本說明書還提供一種資料處理裝置的實施例。該實施例可以設置於模型方，所述模型方持有決策森林，所述決策森林包括目標分裂節點，所述目標分裂節點與資料方持有的業務資料相關聯、且對應有分裂條件集合，所述分裂條件集合包括真實分裂條件和虛假分裂條件。所述裝置可以包括以下單元。第一計算單元70，用於將分裂條件集合中真實分裂條件所在的階級作為資料選擇值，以資料選擇值為輸入與模型方協作執行安全資料選擇演算法，得到真實分裂條件的取值密文；第二計算單元72，用於以取值密文為輸入與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。下面介紹本說明書電子設備的一個實施例。圖10是該實施例中一種電子設備的硬體結構示意圖。如圖10所示，所述電子設備可以包括一個或多個(圖中僅示出一個)處理器、記憶體和傳輸模組。當然，本領域普通技術人員可以理解，圖10所示的硬體結構僅為示意，其並不對上述電子設備的硬體結構造成限定。在實際中所述電子設備還可以包括比圖10所示更多或者更少的元件單元；或者，具有與圖10所示不同的配置。所述記憶體可以包括高速隨機記憶體；或者，還可以包括非揮發性記憶體，例如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非揮發性固態記憶體。當然，所述記憶體還可以包括遠端設置的網路記憶體。所述遠端設置的網路記憶體可以透過諸如網際網路、企業內部網、區域網路、移動通信網等網路連接至所述電子設備。所述記憶體可以用於儲存應用軟體的程式指令或模組，例如本說明書圖2所對應實施例的程式指令或模組、本說明書圖5所對應實施例的程式指令或模組、圖6所對應實施例的程式指令或模組。所述處理器可以按任何適當的方式實現。例如，所述處理器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式等等。所述處理器可以讀取並執行所述記憶體中的程式指令或模組。所述傳輸模組可以用於經由網路進行資料傳輸，例如經由諸如網際網路、企業內部網、區域網路、移動通信網等網路進行資料傳輸。需要說明的是，本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同或相似的部分互相參見即可，每個實施例重點說明的都是與其它實施例的不同之處。尤其，對於裝置實施例和電子設備實施例而言，由於其基本相似於資料處理方法實施例，所以描述的比較簡單，相關之處參見資料處理方法實施例的部分說明即可。另外，可以理解的是，本領域技術人員在閱讀本說明書檔之後，可以無需創造性勞動想到將本說明書列舉的部分或全部實施例進行任意組合，這些組合也在本說明書揭露和保護的範圍內。在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式設計邏輯裝置(Programmable Logic Device, PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由使用者對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“整合”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始碼也得用特定的程式設計語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL 也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog2。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲主機、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。透過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本說明書可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本說明書的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本說明書各個實施例或者實施例的某些部分所述的方法。本說明書可用於眾多通用或專用的電腦系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或可攜式設備、平板型設備、多處理器系統、基於微處理器的系統、機上盒、可程式設計的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式運算環境等等。本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本說明書，在這些分散式運算環境中，由透過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。雖然透過實施例描繪了本說明書，本領域普通技術人員知道，本說明書有許多變形和變化而不脫離本說明書的精神，希望所附的申請專利範圍包括這些變形和變化而不脫離本說明書的精神。

S10:步驟 S12:步驟 S14:步驟 S20:步驟 S22:步驟 S24:步驟 S26:步驟 S30:步驟 S32:步驟 S34:步驟 S36:步驟 S40:步驟 S42:步驟 50:選取單元 52:生成單元 54:發送單元 60:確定單元 62:加密單元 64:第一計算單元 66:第二計算單元 70:第一計算單元 72:第二計算單元

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本說明書中記載的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些圖式獲得其他的圖式。 [圖1]為本說明書實施例一種決策樹的結構示意圖； [圖2]為本說明書實施例一種資料處理方法的流程圖； [圖3]為本說明書實施例一種資料處理方法的流程圖； [圖4]為本說明書實施例一種決策樹的結構示意圖； [圖5]為本說明書實施例一種資料處理方法的流程圖； [圖6]為本說明書實施例一種資料處理方法的流程圖； [圖7]為本說明書實施例一種資料處理裝置的功能結構示意圖； [圖8]為本說明書實施例一種資料處理裝置的功能結構示意圖； [圖9]為本說明書實施例一種資料處理裝置的功能結構示意圖； [圖10]為本說明書實施例一種電子設備的功能結構示意圖。

Claims

一種資料處理方法，應用於模型方，包括：從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，所述決策森林包括至少一個決策樹，所述決策樹包括至少一個分裂節點和至少兩個葉子節點，所述分裂節點對應有真實分裂條件，所述葉子節點對應有葉子值；為所述目標分裂節點生成虛假分裂條件；向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件，以便資料方能夠以取值密文集合為輸入，模型方能夠以分裂條件集合中真實分裂條件所在的階級為輸入，協作執行安全資料選擇演算法，使得模型方從所述取值密文集合中選擇得到真實分裂條件的取值密文，資料方能夠以亂數為輸入，模型方能夠以選擇得到的取值密文為輸入，協作執行多方安全計算演算法，使得模型方及/或資料方獲得決策森林的預測結果，其中，所述取值密文集合由所述亂數對取值集合中的取值進行加密得到，所述取值集合包括分裂條件集合中各個分裂條件的取值，分裂條件集合中各個分裂條件的取值根據所述業務資料確定得到。
如請求項1所述的方法，在決策森林中分裂節點對應有資料類型，所述目標分裂節點對應的資料類型與所述業務資料的資料類型相同。
如請求項1所述的方法，資料方持有全體業務資料；或者，模型方持有全體業務資料中的一部分業務資料，資料方持有全體業務資料中的另一部分業務資料。
如請求項1所述的方法，所述決策森林還包括其它分裂節點，所述其它分裂節點與所述模型方持有的業務資料相關聯；所述方法還包括：保留其它分裂節點對應的真實分裂條件以及葉子節點對應的葉子值。
一種資料處理裝置，設置於模型方，包括：選取單元，用於從決策森林中選取與資料方持有的業務資料相關聯的分裂節點作為目標分裂節點，所述決策森林包括至少一個決策樹，所述決策樹包括至少一個分裂節點和至少兩個葉子節點，所述分裂節點對應有真實分裂條件，所述葉子節點對應有葉子值；生成單元，用於為所述目標分裂節點生成虛假分裂條件；發送單元，用於向資料方發送所述目標分裂節點對應的分裂條件集合，所述分裂條件集合包括虛假分裂條件和真實分裂條件，以便資料方能夠以取值密文集合為輸入，模型方能夠以分裂條件集合中真實分裂條件所在的階級為輸入，協作執行安全資料選擇演算法，使得模型方從所述取值密文集合中選擇得到真實分裂條件的取值密文，資料方能夠以亂數為輸入，模型方能夠以選擇得到的取值密文為輸入，協作執行多方安全計算演算法，使得模型方及/或資料方獲得決策森林的預測結果，其中，所述取值密文集合由所述亂數對取值集合中的取值進行加密得到，所述取值集合包括分裂條件集合中各個分裂條件的取值，分裂條件集合中各個分裂條件的取值根據所述業務資料確定得到。
一種電子設備，包括：記憶體，用於儲存電腦指令；處理器，用於執行所述電腦指令以實現如請求項1-4中任一項所述的方法步驟。
一種資料處理方法，應用於資料方，所述資料方持有業務資料和目標分裂節點對應的分裂條件集合，所述目標分裂節點為決策森林中與所述業務資料相關聯的分裂節點，所述分裂條件集合包括虛假分裂條件和真實分裂條件，所述方法包括：根據所述業務資料，確定分裂條件集合中各個分裂條件的取值，得到取值集合；利用亂數對取值集合中的取值進行加密，得到取值密文集合；以取值密文集合為輸入與模型方協作執行安全資料選擇演算法，以便模型方從資料方輸入的取值密文集合中選擇得到真實分裂條件的取值密文；與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果，所述多方安全計算演算法的輸入包括資料方輸入的所述亂數、及模型方輸入的取值密文。
如請求項7所述的方法，所述資料方持有全體業務資料；或者，所述模型方持有全體業務資料中的一部分業務資料，所述資料方持有全體業務資料中的另一部分業務資料；所述安全資料選擇演算法選自不經意傳輸演算法和私有資訊檢索演算法。
如請求項7所述的方法，所述目標分裂節點的數量為至少一個；所述利用亂數對取值集合中的取值進行加密，得到取值密文集合，包括：為每個目標分裂節點生成亂數；利用目標分裂節點的亂數，對該目標分裂節點所對應取值集合中的每個取值分別進行加密，得到取值密文集合。
如請求項7所述的方法，所述利用亂數對取值集合中的取值進行加密，得到取值密文集合，包括：將亂數與取值集合中的每個取值分別進行異或運算，將運算結果作為取值密文集合中的取值密文。
一種資料處理裝置，設置於資料方，所述資料方持有業務資料和目標分裂節點對應的分裂條件集合，所述目標分裂節點為決策森林中與所述業務資料相關聯的分裂節點，所述分裂條件集合包括虛假分裂條件和真實分裂條件，所述裝置包括：確定單元，用於根據所述業務資料，確定所述分裂條件集合中各個分裂條件的取值，得到取值集合；加密單元，用於利用亂數對取值集合中的取值進行加密，得到取值密文集合；第一計算單元，用於以取值密文集合為輸入與模型方協作執行安全資料選擇演算法，以便模型方從資料方輸入的取值密文集合中選擇得到真實分裂條件的取值密文；第二計算單元，用於與模型方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果，所述多方安全計算演算法的輸入包括資料方輸入的所述亂數、及模型方輸入的取值密文。
一種電子設備，包括：記憶體，用於儲存電腦指令；處理器，用於執行所述電腦指令以實現如請求項7-10中任一項所述的方法步驟。
一種資料處理方法，應用於模型方，所述模型方持有決策森林，所述決策森林包括目標分裂節點，所述目標分裂節點與資料方持有的業務資料相關聯、且對應有分裂條件集合，所述分裂條件集合包括真實分裂條件和虛假分裂條件，所述方法包括：將分裂條件集合中真實分裂條件所在的階級作為資料選擇值，以資料選擇值為輸入與資料方協作執行安全資料選擇演算法，從資料方輸入的取值密文集合中選擇得到真實分裂條件的取值密文，所述取值密文集合由資料方在獲得所述分裂條件集合以後，對所述分裂條件集合中各個分裂條件的取值進行加密得到，所述分裂條件集合中各個分裂條件的取值由資料方根據所述業務資料確定得到；以真實分裂條件的取值密文為輸入與資料方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。
如請求項13所述的方法，所述決策森林還包括其它分裂節點，所述其它分裂節點與所述模型方持有的業務資料相關聯、且對應有真實分裂條件；所述方法還包括：根據模型方持有的業務資料，確定所述其它分裂節點對應的真實分裂條件的取值；所述以真實分裂條件的取值密文為輸入與資料方協作執行多方安全計算演算法，包括：以目標分裂節點對應的真實分裂條件的取值密文和其它分裂節點對應的真實分裂條件的取值為輸入，與資料方協作執行多方安全計算演算法。
一種資料處理裝置，設置於模型方，所述模型方持有決策森林，所述決策森林包括目標分裂節點，所述目標分裂節點與資料方持有的業務資料相關聯、且對應有分裂條件集合，所述分裂條件集合包括真實分裂條件和虛假分裂條件，所述裝置包括：第一計算單元，用於將分裂條件集合中真實分裂條件所在的階級作為資料選擇值，以資料選擇值為輸入與資料方協作執行安全資料選擇演算法，從資料方輸入的取值密文集合中選擇得到真實分裂條件的取值密文，所述取值密文集合由資料方在獲得所述分裂條件集合以後，對所述分裂條件集合中各個分裂條件的取值進行加密得到，所述分裂條件集合中各個分裂條件的取值由資料方根據所述業務資料確定得到；第二計算單元，用於以真實分裂條件的取值密文為輸入與資料方協作執行多方安全計算演算法，以便模型方及/或資料方獲得決策森林的預測結果。
一種電子設備，包括：記憶體，用於儲存電腦指令；處理器，用於執行所述電腦指令以實現如請求項13-14中任一項所述的方法步驟。