TWI730622B - 資料處理方法、裝置和電子設備 - Google Patents

資料處理方法、裝置和電子設備 Download PDF

Info

Publication number
TWI730622B
TWI730622B TW109104354A TW109104354A TWI730622B TW I730622 B TWI730622 B TW I730622B TW 109104354 A TW109104354 A TW 109104354A TW 109104354 A TW109104354 A TW 109104354A TW I730622 B TWI730622 B TW I730622B
Authority
TW
Taiwan
Prior art keywords
leaf
decision
decision tree
node
location identifier
Prior art date
Application number
TW109104354A
Other languages
English (en)
Other versions
TW202103150A (zh
Inventor
李漓春
張晉升
王華忠
Original Assignee
開曼群島商創新先進技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 開曼群島商創新先進技術有限公司 filed Critical 開曼群島商創新先進技術有限公司
Publication of TW202103150A publication Critical patent/TW202103150A/zh
Application granted granted Critical
Publication of TWI730622B publication Critical patent/TWI730622B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/50Oblivious transfer

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本說明書實施例提供一種資料處理方法、裝置和電子設備。所述方法包括:基於決策森林中決策樹的參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配;以目標位置標識為輸入,與第一設備進行模糊傳輸;從第一設備輸入的決策森林中決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文。

Description

資料處理方法、裝置和電子設備
本說明書實施例涉及電腦技術領域,特別涉及一種資料處理方法、裝置和電子設備。
在業務現實中,通常一方擁有需要保密的模型(以下稱為模型方),另一方擁有需要保密的業務資料(以下稱為資料方)。如何在所述模型方不洩漏所述模型、且所述資料方不洩漏所述業務資料的條件下,使得模型方和/或模型方獲得基於所述模型對所述業務資料進行預測後的預測結果,是當前極需解決的技術問題。
本說明書實施例的目的是提供一種資料處理方法、裝置和電子設備,以便於在第一設備不洩漏原始決策森林、且第二設備不洩漏業務資料的條件下,第一設備和/或第二設備獲得基於所述原始決策森林對所述業務資料進行預測後的預測結果。 為實現上述目的,本說明書中一個或多個實施例提供的技術方案如下。 根據本說明書一個或多個實施例的第一方面,提供了一種資料處理方法,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述方法包括:向第二設備發送決策樹的參數資訊;所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。 根據本說明書一個或多個實施例的第二方面,提供了一種資料處理方法,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述裝置包括:發送單元,用於向第二設備發送決策樹的參數資訊,所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。 根據本說明書一個或多個實施例的第三方面,提供了一種電子設備,包括:記憶體,用於儲存電腦指令;處理器,用於執行所述電腦指令以實現如第一方面所述的方法步驟。 根據本說明書一個或多個實施例的第四方面,提供了一種資料處理方法,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述方法包括:為決策樹產生對應的隨機數;利用隨機數對決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文;以決策樹的各個葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸。
根據本說明書一個或多個實施例的第五方面,提供了一種資料處理裝置,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述裝置包括:產生單元,用於為決策樹產生對應的隨機數;加密單元,用於利用隨機數對決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文;傳輸單元,用於以決策樹的各個葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸。
根據本說明書一個或多個實施例的第六方面,提供了一種電子設備,包括:記憶體,用於儲存電腦指令;處理器,用於執行所述電腦指令以實現如第四方面所述的方法步驟。
根據本說明書一個或多個實施例的第七方面,提供了一種資料處理方法,應用於第二設備,所述第二設備提供有決策森林中決策樹的參數資訊;所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值;所述方法包括:基於決策樹的參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配;以所述目標位置標識為輸入,與第一設備進行模糊傳輸;從第一設備輸入的決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文;葉子節點對應的葉子值密文由隨機數對葉子節點對應的葉子值進行加密得到。
根據本說明書一個或多個實施例的第八方面,提供了 一種資料處理裝置,應用於第二設備,所述第二設備提供有決策森林中決策樹的參數資訊;所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值;所述裝置包括:確定單元,用於基於決策樹的參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配;傳輸單元,用於以所述目標位置標識為輸入,與第一設備進行模糊傳輸;從第一設備輸入的決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文;葉子節點對應的葉子值密文由隨機數對葉子節點對應的葉子值進行加密得到。
根據本說明書一個或多個實施例的第九方面,提供了一種電子設備,包括:記憶體,用於儲存電腦指令;處理器,用於執行所述電腦指令以實現如第七方面所述的方法步驟。
由以上本說明書實施例提供的技術方案可見,本說明書實施例中,透過模糊傳輸,可以在所述第一設備不洩漏決策森林、且第二設備不洩漏業務資料的條件下,第一設備和/或第二設備獲得決策森林的預測結果,或者,獲得比較結果。所述比較結果用於表示預測結果與預設臨限值之間的大小關係。
下面將結合本說明書實施例中的圖式,對本說明書實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本說明書一部分實施例,而不是全部的實施例。基於本說明書中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本說明書保護的範圍。此外,應當理解,儘管在本說明書可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本說明書範圍的情况下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。 為了便於本領域技術人員理解本說明書實施例的技術方案,下面先對本說明書實施例的技術術語進行說明。 決策樹:一種有監督的機器學習模型。所述決策樹可以為二元樹等。所述決策樹包括了多個節點。每個節點可以對應有位置標識,所述位置標識可以用於標識該節點在決策樹中的位置,具體例如可以為該節點的編號等。所述多個節點能夠形成多個預測路徑。所述預測路徑的起始節點為所述決策樹的根節點,終止節點為所述決策樹的葉子節點。 所述決策樹具體可以包括回歸決策樹和分類決策樹。所述回歸決策樹的預測結果可以為一個具體的數值。所述分類決策樹的預測結果可以為一個具體的類別。值得說明的是,為了便於計算,通常可以採用向量來表示類別。例如,向量
Figure 02_image001
可以表示類別A,向量
Figure 02_image003
可以表示類別B,向量
Figure 02_image005
可以表示類別C。當然,此處的向量僅為示例,在實際應用中還可以採用其它的數學方式來表示類別。 分裂節點:當決策樹中的一個節點能夠向下分裂時,可以將該節點稱為分裂節點。所述分裂節點具體可以包括根節點、以及除去葉子節點和根節點以外的其它節點(以下稱為普通節點)。所述分裂節點對應有分裂條件,所述分裂條件可以用於選擇預測路徑。 葉子節點:當決策樹中的一個節點不能夠向下分裂時,可以將該節點稱為葉子節點。所述葉子節點對應有葉子值。決策樹的不同葉子節點所對應的葉子值可以相同或不同。每個葉子值可以表示一種預測結果。所述葉子值可以為數值或向量等。例如,回歸決策樹的葉子節點所對應的葉子值可以為數值,分類決策樹的葉子節點所對應的葉子值可以為向量。 滿二元樹:當一個二元樹除最後一層外,每一層上的所有節點都分裂為了兩個子結點時,可以將該二元樹稱為滿二元樹。 為了便於對以上術語進行理解,以下介紹一個場景示例。請參閱圖1。在本場景示例中,決策樹Tree1可以包括節點1、2、3、4、5等5個節點。其中,節點1、節點2、節點3、節點4和節點5的位置標識可以分別為1、2、3、4和5。節點1為根節點;節點1和2分別為普通節點;節點3、4和5分別為葉子節點。節點1、節點2和節點4可以形成一個預測路徑,節點1、節點2和節點5可以形成另一個預測路徑,節點1和節點3可以形成另一個預測路徑。 節點1、節點2和節點3對應的分裂條件如下表1所示。 表1
節點 分裂條件
節點1 年齡大於20歲
節點2 年收入大於5萬
節點3、節點4和節點5對應的葉子值如下表2所示。 表2
節點 葉子值
節點3 200
節點4 700
節點5 500
分裂條件“年齡大於20歲”、“年收入大於5萬”可以用於選擇預測路徑。當滿足分裂條件時,可以選擇左邊的預測路徑;當不滿足分裂條件時,可以選擇右邊的預測路徑。具體地,針對節點1,當滿足分裂條件“年齡大於20歲”時,可以選擇左邊的預測路徑,進而跳轉到節點2;當不滿足分裂條件“年齡大於20歲”時,可以選擇右邊的預測路徑,進而跳轉到節點3。針對節點2,當滿足分裂條件“年收入大於5萬”時,可以選擇左邊的預測路徑,進而跳轉到節點4;當不滿足分裂條件“年收入大於5萬”時,可以選擇右邊的預測路徑,進而跳轉到節點5。 一個或多個決策樹可以構成決策森林。用於實現將多個決策樹整合為決策森林的演算法可以包括隨機森林(Random Forest)、極值梯度提升(Extreme Gradient Boosting,XGBoost)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)等演算法。所述決策森林為一種有監督的機器學習模型,具體可以包括回歸決策森林和分類決策森林。所述回歸決策森林可以包括一個或多個回歸決策樹。當回歸決策森林包括一個回歸決策樹時,可以將該回歸決策樹的預測結果作為該回歸決策森林的預測結果。當回歸決策森林包括多個回歸決策樹時,可以對所述多個回歸決策樹的預測結果進行求和處理,可以將求和結果作為該回歸決策森林的預測結果。所述分類決策森林可以包括一個或多個分類決策樹。當分類決策森林包括一個分類決策樹時,可以將該分類決策樹的預測結果作為該分類決策森林的預測結果。當分類決策森林包括多個分類決策樹時,可以對所述多個分類決策樹的預測結果進行統計,可以將統計結果作為該分類決策森林的預測結果。值得說明的是,在一些場景下,分類決策樹的預測結果可以為向量,所述向量可以用於表示類別。如此,可以對分類決策森林中多個分類決策樹預測出的向量進行求和處理,可以將求和結果作為該分類決策森林的預測結果。例如,某一分類決策森林可以包括分類決策樹Tree2、Tree3、Tree4。分類決策樹Tree2的預測結果可以為向量
Figure 02_image001
,向量
Figure 02_image001
表示類別A。分類決策樹Tree3的預測結果可以為向量
Figure 02_image003
,向量
Figure 02_image003
表示類別B。分類決策樹Tree4的預測結果可以為向量
Figure 02_image001
,向量
Figure 02_image005
表示類別C。那麽,可以對對向量
Figure 02_image001
Figure 02_image003
Figure 02_image001
進行求和處理,得到向量
Figure 02_image010
作為該分類決策森林的預測結果。向量
Figure 02_image010
表示在分類決策森林中預測結果為類別A的次數為2次、預測結果為類別B的次數為1次,預測結果為類別C的次數為0次。 本說明書實施例提供一種資料處理系統。所述資料處理系統可以包括第一設備和第二設備。所述第一設備可以為伺服器、手機、平板電腦、或個人電腦等設備;或者,也可以為由多台設備組成的系統,例如由多個伺服器組成的伺服器叢集。所述第一設備擁有需要保密的決策森林。所述第二設備可以為伺服器、手機、平板電腦、或個人電腦等設備;或者,也可以為由多台設備組成的系統,例如由多個伺服器組成的伺服器叢集。所述第二設備擁有需要保密的業務資料,所述業務資料例如可以為交易資料、或借貸資料等等。 所述第一設備和所述第二設備可以進行協作計算,以便於所述第一設備和/或所述第二設備能夠獲得基於所述決策森林對所述業務資料進行預測後的預測結果。在此過程中,所述第一設備不能夠洩漏自身擁有的決策森林,所述第二設備不能夠洩漏自身擁有的業務資料。在一個場景示例中,所述第一設備隸屬於金融機構。所述第二設備隸屬於資料機構,諸如大數據公司、政府機構等。 基於所述資料處理系統,本說明書提供資料處理方法的一個實施例。在實際應用中該實施例可以應用於預處理階段。請參閱圖2。該實施例以第一設備為執行主體,可以包括以下步驟。 步驟S10:向第二設備發送決策森林中決策樹的參數資訊。 在一些實施例中,所述決策森林可以包括至少一個決策樹。所述第一設備可以向所述第二設備發送所述決策森林中各個決策樹的參數資訊。所述第二設備可以接收所述決策森林中各個決策樹的參數資訊。其中,所述參數資訊可以包括分裂節點對應的位置標識、分裂節點對應的分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。這樣所述第二設備能夠獲得所述決策森林中決策樹的分裂節點所對應的分裂條件,而無法獲得所述決策森林中決策樹的葉子節點所對應葉子值,從而實現了對決策森林的隱私保護。 在一些實施例中,決策森林中的一個或多個決策樹為非滿二元樹。如此,在步驟S10之前,所述第一設備還可以在非滿二元樹的決策樹中添加虛假的節點,以使得該決策樹形成滿二元樹。這樣可以提高決策森林的隱私保護的力度。例如,請參閱圖3。圖1所示的決策樹Tree1為非滿二元樹。所述第一設備可以在圖1所示的決策樹Tree1中添加虛假的節點6和虛假的節點7。節點6對應的分裂條件可以隨機產生,或者,還可以按照特定策略產生。節點7對應的葉子值可以與節點3相同。 在一些實施例中,在步驟S10之前,所述第一設備還可以在決策森林中添加一個或多個虛假的決策樹。這樣可以提高決策森林的隱私保護的力度。虛假的決策樹的層數可以與決策森林中真實的決策樹相同,也可以不同。虛假的決策樹的分裂節點所對應的分裂條件可以隨機產生,或者,還可以按照特定策略產生。虛假的決策樹的葉子節點所對應的葉子值可以為特定數值,例如可以為0等。 進一步地,在添加了虛假的決策樹之後,所述第一設備還可以對決策森林中的決策樹進行亂序處理。這樣可以避免在後續過程中第二設備猜測哪些決策樹為真實決策樹,哪些決策樹為虛假的決策樹。 本說明書實施例的資料處理方法,第一設備可以向第二設備發送決策森林中決策樹的參數資訊。所述參數資訊可以包括分裂節點對應的位置標識、分裂節點對應的分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。這樣一方面,實現了對決策森林的隱私保護。另一方面,便於第二設備基於決策森林對業務資料進行預測。 基於所述資料處理系統,本說明書提供資料處理方法的另一個實施例。在實際應用中該實施例可以應用於預測階段。請參閱圖4。該實施例可以包括以下步驟。 步驟S20:第一設備為決策森林中的決策樹產生對應的隨機數。 在一些實施例中,所述決策森林可以包括一個決策樹。如此,所述第一設備可以為該決策樹產生一個對應的隨機數。 在另一些實施例中,所述決策森林可以包括多個決策樹。如此,所述第一設備可以為所述多個決策樹產生多個隨機數。所述多個隨機數的和可以為特定數值。所述特定數值可以為一個完全的隨機數。具體地,所述第一設備可以為所述多個決策樹中的每個決策樹產生一個對應的隨機數,從而使得所述特定數值為一個完全的隨機數。或者,所述特定數值也可以為固定數值0。例如,所述決策森林包括k個決策樹。所述第一設備可以為k-1個決策樹產生k-1個隨機數
Figure 02_image012
;可以計算
Figure 02_image014
作為第k個決策樹對應的隨機數。又或者,所述特定數值還可以為一個預先產生的雜訊資料(為了便於描述,以下稱為第一雜訊資料)。例如,所述決策森林包括k個決策樹。所述第一設備可以為k-1個決策樹產生k-1個隨機數
Figure 02_image012
;可以計算
Figure 02_image017
作為第k個決策樹對應的隨機數,這裏s表示所述第一雜訊資料。 步驟S22:第一設備利用隨機數對決策森林中決策樹的葉子節點所對應的葉子值進行加密,得到葉子值密文。 在一些實施例中,針對所述決策森林中的每個決策樹,所述第一設備可以利用該決策樹對應的隨機數,對該決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文。在實際應用中,所述第一設備可以將該決策樹對應的隨機數分別與該決策樹的各個葉子節點所對應的葉子值相加。例如,所述決策森林包括k個決策樹,k個決策樹對應的隨機數分別為
Figure 02_image019
,其中
Figure 02_image021
表示第i個決策樹對應的隨機數。第i個決策樹可以包括N個葉子節點,N個葉子節點對應的葉子值分別為
Figure 02_image023
,其中
Figure 02_image025
表示第i個決策樹的第j個葉子節點所對應的葉子值。那麽,所述第一設備可以將隨機數
Figure 02_image021
分別與N個葉子節點對應的葉子值
Figure 02_image023
相加,得到葉子值密文
Figure 02_image029
。 步驟S24:第二設備基於決策樹的參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配。 在一些實施例中,經過預處理階段(具體過程請參見圖2對應的實施例),所述第二設備可以獲得決策森林中各個決策樹的參數資訊。根據所述參數資訊,所述第二設備可以重構決策樹的骨架。由於所述參數資訊中包括分裂節點對應的分裂條件、但不包括葉子節點對應的葉子值,因而重構的決策樹骨架中包括分裂節點對應的分裂條件、但不包括葉子節點對應的葉子值。如此,所述第二設備可以基於決策森林中每個決策樹的骨架,獲取與業務資料相匹配的一條預測路徑;可以將該預測路徑中的葉子節點,作為該決策樹中與所述業務資料相匹配的目標葉子節點;可以將所述目標葉子節點對應的位置標識作為目標位置標識。
步驟S26:第一設備以決策森林中決策樹的各個葉子節點所對應的葉子值密文為輸入,第二設備以該決策樹的目標位置標識為輸入,進行模糊傳輸;第二設備從第一設備輸入的葉子值密文中選擇目標葉子值密文。
請參閱圖5。在一些實施例中,模糊傳輸(Oblivious Transfer,OT),又稱為茫然傳輸,是一種可以保護隱私的雙方通信協議,能夠使通信雙方以一種選擇模糊化的方式傳遞資料。發送方可以具有多個資料。經由模糊傳輸接收方能夠獲得所述多個資料中的一個或多個資料。在此過程中,發送方不知曉接收方接收的是哪些資料;而接收方不能夠獲得其所接收資料之外的其它任何資料。具體在本實施例中,所述第一設備可以以決策森林中每個決策樹的各個葉子節點所對應的葉子值密文為輸入,第二設備可以以該決策樹的目標位置標識為輸入,進行模糊傳輸。透過模糊傳輸可以實現:第二設備從第一設備輸入的葉子值密文中選擇目標葉子值密文,所述目標葉子值密文即為所述目標葉子節點對應的葉子值密文。其中,該決策樹的各個葉子節點所對應的葉子值密文可以視作第一設備在模糊傳輸過程中輸入的秘密資訊,該決策樹的目標位置標識可以視作第二設備在模糊傳輸過程中輸入的選擇資訊,這樣便可以實現第二設備選擇目標葉子值密文。根據模糊傳輸的特性,所述第一設備並不知曉所述第二設備具體選擇哪個葉子值密文作為目標葉子值密文,所述第二設備也不能夠 知曉除了所選擇的目標葉子值密文以外的其它葉子值密文。值得說明的是,這裏可以採用現有的任意模糊傳輸協議來實現,具體傳輸協議不再做具體的介紹。
在一些實施例中,由所述第二設備獲得決策森林的預測結果。
在本實施例的一個實施方式中,所述決策森林可以包括一個決策樹,這樣所述第二設備可以獲得一個目標葉子值密文。如此,所述第二設備可以將所述目標葉子值密文作為決策森林的預測結果。
在本實施例的另一個實施方式中,所述決策森林可以包括多個決策樹,這樣所述第二設備可以獲得多個目標葉子值密文。如此,所述第二設備可以對所述多個目標葉子值密文進行求和處理,得到第一求和結果;可以將所述第一求和結果作為決策森林的預測結果。例如,所述決策森林包括k個決策樹,k個決策樹對應的隨機數分別為r 1r 2、…、r i 、…、r k ,其中r i 表示第i個決策樹對應的隨機數。k個決策樹對應的隨機數之和r 1+r 2+…+r i +…+r k =0。所述第二設備選擇的k個目標葉子值密文分別為
Figure 109104354-A0305-02-0018-8
Figure 109104354-A0305-02-0018-9
、…、
Figure 109104354-A0305-02-0018-10
、…、
Figure 109104354-A0305-02-0018-11
,其中
Figure 109104354-A0305-02-0018-6
表示第二設備從第i個決策樹選擇的目標葉子值密文,目標葉子值密文
Figure 109104354-A0305-02-0018-7
即為第i個決策樹中位置標識為p i 的葉子節點所對應的葉子值密文。那麽,所述第二設備可以計算
Figure 109104354-A0305-02-0018-1
,從而得到決策森 林的預測結果u。另舉一例,所述決策森林包括k個決策樹,k個決策樹對應的隨機數分別為
Figure 02_image019
,其中
Figure 02_image021
表示第i個決策樹對應的隨機數。k個決策樹對應的隨機數之和
Figure 02_image043
,s表示所述第一雜訊資料。所述第二設備選擇的k個目標葉子值密文分別為
Figure 02_image034
,其中
Figure 02_image036
表示第二設備從第i個決策樹選擇的目標葉子值密文,目標葉子值密文
Figure 02_image036
即為第i個決策樹中位置標識為
Figure 02_image038
的葉子節點所對應的葉子值密文。那麽,所述第二設備可以計算
Figure 02_image048
,從而得到混入了第一雜訊資料s後的預測結果u+s。 在另一些實施例中,由所述第一設備獲得決策森林的預測結果。 在本實施例的一個實施方式中,所述決策森林可以包括一個決策樹,這樣所述第二設備可以獲得一個目標葉子值密文。如此,所述第二設備可以向所述第一設備發送所述目標葉子值密文。所述第一設備可以接收所述目標葉子值密文;可以利用決策樹對應的隨機數,對所述目標葉子值密文進行解密,得到葉子值作為決策森林的預測結果。所述第一設備具體可以計算目標葉子值密文與隨機數之間的差值,從而得到葉子值。或者,所述第二設備還可以對所述目標葉子值密文與雜訊資料(為了便於描述,以下稱為第二雜訊資料)進行求和處理,得到第一求和結果;可以向第一設備發送所述第一求和結果。所述第一設備可以接收所述第一求和結果;可以利用決策樹對應的隨機數,對所述第一求和結果進行解密,得到混入了第二雜訊資料後的葉子值;即,得到混入了第二雜訊資料後的預測結果。所述第二雜訊資料的大小可以根據實際需要靈活設定,通常小於所述業務資料。所述第一設備具體可以計算第一求和結果與隨機數之間的差值,從而得到混入了第二雜訊資料後的葉子值。 在本實施例的另一個實施方式中,所述決策森林可以包括多個決策樹,這樣所述第二設備可以獲得多個目標葉子值密文。如此,所述第二設備可以對所述多個目標葉子值密文進行求和處理,得到第二求和結果;可以向所述第一設備發送所述第二求和結果。所述第一設備可以接收所述第二求和結果;可以利用決策森林中各個決策樹所對應的隨機數之和,對所述第二求和結果進行解密,得到決策森林的預測結果。所述第一設備具體可以計算所述第二求和結果與隨機數之和的差值,從而得到決策森林的預測結果。例如,所述決策森林包括k個決策樹,k個決策樹對應的隨機數分別為
Figure 02_image019
,其中
Figure 02_image021
表示第i個決策樹對應的隨機數。k個決策樹對應的隨機數之和
Figure 02_image052
,r為一個完全的隨機數。所述第二設備選擇的k個目標葉子值密文分別為
Figure 02_image034
,其中
Figure 02_image036
表示第二設備從第i個決策樹選擇的目標葉子值密文,目標葉子值密文
Figure 02_image036
即為第i個決策樹中位置標識為
Figure 02_image038
的葉子節點所對應的葉子值密文。那麽,所述第二設備可以計算第二求和結果
Figure 02_image056
;可以向所述第一設備發送所述第二求和結果
Figure 02_image058
。所述第一設備可以接收所述第二求和結果
Figure 02_image058
;可以計算所述第二求和結果
Figure 02_image058
與決策森林中各個決策樹所對應的隨機數之和r的差值,得到決策森林的預測結果u。或者,所述第二設備還可以對所述第二求和結果與所述第二雜訊資料進行求和處理,得到第三求和結果;可以向所述第一設備發送所述第三求和結果。所述第一設備可以接收所述第三求和結果;可以利用決策森林中各個決策樹所對應的隨機數之和,對所述第三求和結果進行解密,得到混入了第二雜訊資料後的預測結果。所述第一設備具體可以計算所述第三求和結果與隨機數之和的差值,從而得到混入了第二雜訊資料後的預測結果。 在另一些實施例中,由第一設備和/或第二設備獲得比較結果。所述比較結果用於表示決策森林的預測結果與預設臨限值之間的大小。所述預設臨限值的大小可以根據實際需要靈活設定。在實際應用中,所述預設臨限值可以為一個臨界值。在預測結果大於所述預設臨限值時,可以執行一種預置操作;在預測結果小於所述預設臨限值時,可以執行另一種預置操作。例如,所述預設臨限值可以為風險評估業務中的一個臨界值。決策森林的預測結果可以為用戶的信用分值。當某一用戶的信用分值大於所述預設臨限值時,則表示該用戶的風險水平較高,可以拒絕執行對該用戶進行貸款的操作;當某一用戶的信用分值小於所述臨限值時,則表示該用戶的風險水平較低,可以執行對該用戶進行貸款的操作。 在本實施例的一個實施方式中,所述決策森林可以包括一個決策樹,這樣所述第二設備可以獲得一個目標葉子值密文。如此,所述第一設備可以對決策樹對應的隨機數與所述預設臨限值進行求和處理,得到第四求和結果。所述第一設備可以以所述第四求和結果為輸入,所述第二設備可以以所述目標葉子值密文為輸入,共同執行多方安全比較演算法。透過執行多方安全比較演算法可以實現:在所述第一設備不洩漏所述第四求和結果、且所述第二設備不洩漏所述目標葉子值密文的條件下,所述第一設備和/或所述第二設備獲得第一比較結果。所述第一比較結果表示所述第四求和結果與所述目標葉子值密文之間的大小關係。鑒於所述目標葉子值密文是透過將決策樹所對應的隨機數與葉子節點所對應的葉子值相加得到的,這樣所述第一比較結果還能夠表示所述目標葉子節點對應的明文資料(即,葉子值)與所述預設臨限值之間的大小關係,這裏所述目標葉子節點對應的明文資料即為決策森林的預測結果。值得說明的是,這裏可以採用現有的任意多方安全比較演算法來實現,具體比較過程不再做具體的介紹。 在本實施例的另一個實施方式中,所述決策森林可以包括多個決策樹,這樣所述第二設備可以獲得多個目標葉子值密文。如此,所述第二設備可以對所述多個目標葉子值密文進行求和處理,得到第二求和結果。所述第一設備將計算決策森林中各個決策樹對應的隨機數之和;可以對隨機數之和與所述預設臨限值進行求和處理,得到第四求和結果。所述第一設備可以以所述第四求和結果為輸入,所述第二設備可以以所述第二求和結果為輸入,共同執行多方安全比較演算法。透過執行多方安全比較演算法可以實現:在所述第一設備不洩漏所述第四求和結果、且所述第二設備不洩漏所述第二求和結果的條件下,所述第一設備和/或所述第二設備獲得第二比較結果。所述第二比較結果表示所述第四求和結果與所述第二求和結果之間的大小關係。鑒於目標葉子值密文是透過將決策樹所對應的隨機數與葉子節點所對應的葉子值相加得到的,且所述第二求和結果是透過將所述多個目標葉子值密文相加得到的,這樣所述第二比較結果還能夠表示所述多個目標葉子節點所對應的葉子值之和與所述預設臨限值之間的大小關係,這裏所述多個目標葉子節點所對應的葉子值之和即為決策森林的預測結果。
本說明書實施例的資料處理方法,第一設備可以為決策森林中的決策樹產生對應的隨機數;可以利用隨機數對決策森林中決策樹的葉子節點所對應的葉子值進行加密,得到葉子值密文。第二設備可以基於決策樹的參數資訊確定目標位置標識。第一設備可以以決策森林中決策樹的各個葉子節點所對應的葉子值密文為輸入,第二設備可以以該決策樹的目標位置標識為輸入,進行模糊傳輸;第二 設備可以從第一設備輸入的葉子值密文中選擇目標葉子值密文。這樣基於模糊傳輸,可以在所述第一設備不洩漏決策森林、且所述第二設備不洩漏業務資料的條件下,第一設備和/或第二設備獲得決策森林的預測結果,或者,獲得比較結果。所述比較結果用於表示預測結果與預設臨限值之間的大小關係。
本說明書還提供資料處理方法的另一個實施例。在實際應用中該實施例可以應用於預測階段。請參閱圖6。該實施例以第一設備為執行主體。所述第一設備可以提供有決策森林,所述決策森林可以包括至少一個決策樹。該實施例可以包括以下步驟。
步驟S30:為決策樹產生對應的隨機數。
在一些實施例中,所述決策森林可以包括一個決策樹。如此,所述第一設備可以為該決策樹產生一個對應的隨機數。
在另一些實施例中,所述決策森林可以包括多個決策樹。如此,所述第一設備可以為所述多個決策樹產生多個隨機數。所述多個隨機數的和可以為特定數值。所述特定數值可以為一個完全的隨機數;或者,也可以為固定數值0;或者,還可以為一個預先產生的雜訊資料。
步驟S32:利用隨機數對決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文。
在一些實施例中,針對所述決策森林中的每個決策樹,所述第一設備可以利用該決策樹對應的隨機數,對該 決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文。在實際應用中,所述第一設備可以將該決策樹對應的隨機數分別與該決策樹的各個葉子節點所對應的葉子值相加。
步驟S34:以決策樹的各個葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸。
在一些實施例中,第二設備可以獲得目標位置標識。關於第二設備獲得目標位置標識的過程可以參見前面的實施例。如此,所述第一設備可以以決策森林中每個決策樹的各個葉子節點所對應的葉子值密文為輸入,第二設備可以以該決策樹的目標位置標識為輸入,進行模糊傳輸。透過模糊傳輸可以實現:第二設備從第一設備輸入的葉子值密文中選擇目標葉子值密文,所述目標葉子值密文即為所述目標葉子節點對應的葉子值密文。其中,該決策樹的各個葉子節點所對應的葉子值密文可以視作第一設備在模糊傳輸過程中輸入的秘密資訊,該決策樹的目標位置標識可以視作第二設備在模糊傳輸過程中輸入的選擇資訊,這樣便可以實現第二設備選擇目標葉子值密文。根據模糊傳輸的特性,所述第一設備並不知曉所述第二設備具體選擇哪個葉子值密文作為目標葉子值密文,所述第二設備也不能夠知曉除了所選擇的目標葉子值密文以外的其它葉子值密文。
本說明書實施例的資料處理方法,第一設備可以為決策樹產生對應的隨機數;可以利用隨機數對決策樹的各個 葉子節點所對應的葉子值進行加密,得到葉子值密文;可以以決策樹的葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸。這樣透過模糊傳輸,第一設備可以在不洩漏自身擁有的決策森林的前提下,向第二設備傳輸目標葉子值密文,以實現基於決策森林對業務資料進行預測。
本說明書還提供資料處理方法的另一個實施例。在實際應用中該實施例可以應用於預測階段。請參閱圖7。該實施例以第二設備為執行主體。所述第二設備可以提供有決策森林中決策樹的參數資訊。所述參數資訊可以包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。該實施例可以包括以下步驟。
步驟S40:基於決策樹的參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配。
在一些實施例中,經過預處理階段(具體過程請參見圖2對應的實施例),所述第二設備可以獲得決策森林中各個決策樹的參數資訊。根據所述參數資訊,所述第二設備可以重構決策樹的骨架。由於所述參數資訊中包括分裂節點對應的分裂條件、但不包括葉子節點對應的葉子值,因而重構的決策樹骨架中包括分裂節點對應的分裂條件、但不包括葉子節點對應的葉子值。如此,所述第二設備可以基於決策森林中每個決策樹的骨架,獲取與業務資料相匹 配的一條預測路徑;可以將該預測路徑中的葉子節點,作為該決策樹中與所述業務資料相匹配的目標葉子節點;可以將所述目標葉子節點對應的位置標識作為目標位置標識。
步驟S42:以所述目標位置標識為輸入,與第一設備進行模糊傳輸;從第一設備輸入的決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文。
在一些實施例中,所述第一設備可以以決策森林中每個決策樹的各個葉子節點所對應的葉子值密文為輸入,第二設備可以以該決策樹的目標位置標識為輸入,進行模糊傳輸。透過模糊傳輸可以實現:第二設備從第一設備輸入的葉子值密文中選擇目標葉子值密文,所述目標葉子值密文即為所述目標葉子節點對應的葉子值密文。其中,該決策樹的各個葉子節點所對應的葉子值密文可以視作第一設備在模糊傳輸過程中輸入的秘密資訊,該決策樹的目標位置標識可以視作第二設備在模糊傳輸過程中輸入的選擇資訊,這樣便可以實現第二設備選擇目標葉子值密文。根據模糊傳輸的特性,所述第一設備並不知曉所述第二設備具體選擇哪個葉子值密文作為目標葉子值密文,所述第二設備也不能夠知曉除了所選擇的目標葉子值密文以外的其它葉子值密文。
在一些實施例中,由所述第二設備獲得決策森林的預測結果。
在本實施例的一個實施方式中,所述決策森林可以包 括一個決策樹,這樣所述第二設備可以獲得一個目標葉子值密文。如此,所述第二設備可以直接將所述目標葉子值密文作為決策森林的預測結果。
在本實施例的另一個實施方式中,所述決策森林可以包括多個決策樹,這樣所述第二設備可以獲得多個目標葉子值密文。如此,所述第二設備可以對所述多個目標葉子值密文進行求和處理,得到第一求和結果;可以將所述第一求和結果作為決策森林的預測結果。
在另一些實施例中,由所述第一設備獲得決策森林的預測結果。
在本實施例的一個實施方式中,所述決策森林可以包括一個決策樹,這樣所述第二設備可以獲得一個目標葉子值密文。如此,所述第二設備可以向所述第一設備發送所述目標葉子值密文。所述第一設備可以接收所述目標葉子值密文;可以利用決策樹對應的隨機數,對所述目標葉子值密文進行解密,得到葉子值作為決策森林的預測結果。或者,所述第二設備還可以對所述目標葉子值密文與雜訊資料進行求和處理,得到第一求和結果;可以向第一設備發送所述第一求和結果。所述第一設備可以接收所述第一求和結果;可以利用決策樹對應的隨機數,對所述第一求和結果進行解密,得到混入了雜訊資料後的葉子值;即,得到混入了雜訊資料後的預測結果。
在本實施例的另一個實施方式中,所述決策森林可以包括多個決策樹,這樣所述第二設備可以獲得多個目標葉子值密文。如此,所述第二設備可以對所述多個目標葉子值密文進行求和處理,得到第二求和結果;可以向所述第一設備發送所述第二求和結果。所述第一設備可以接收所述第二求和結果;可以利用決策森林中各個決策樹所對應的隨機數之和,對所述第二求和結果進行解密,得到決策森林的預測結果。或者,所述第二設備還可以對所述第二求和結果與所述雜訊資料進行求和處理,得到第三求和結果;可以向所述第一設備發送所述第三求和結果。所述第一設備可以接收所述第三求和結果;可以利用決策森林中各個決策樹所對應的隨機數之和,對所述第三求和結果進行解密,得到混入了雜訊資料後的預測結果。 在另一些實施例中,由第一設備和/或第二設備可以獲得比較結果。所述比較結果用於表示決策森林的預測結果與預設臨限值之間的大小。所述預設臨限值的大小可以根據實際需要靈活設定。在實際應用中,所述預設臨限值可以為一個臨界值。 在本實施例的一個實施方式中,所述決策森林可以包括一個決策樹,這樣所述第二設備可以獲得一個目標葉子值密文。如此,所述第一設備可以對決策樹對應的隨機數與所述預設臨限值進行求和處理,得到第四求和結果。所述第一設備可以以所述第四求和結果為輸入,所述第二設備可以以所述目標葉子值密文為輸入,共同執行多方安全比較演算法。透過執行多方安全比較演算法可以實現:在所述第一設備不洩漏所述第四求和結果、且所述第二設備不洩漏所述目標葉子值密文的條件下,所述第一設備和/或所述第二設備獲得第一比較結果。所述第一比較結果用於表示所述第四求和結果與所述目標葉子值密文之間的大小關係;還能夠表示所述目標葉子節點對應的明文資料(即,葉子值)與所述預設臨限值之間的大小關係,這裏所述目標葉子節點對應的明文資料即為決策森林的預測結果。 在本實施例的另一個實施方式中,所述決策森林可以包括多個決策樹,這樣所述第二設備可以獲得多個目標葉子值密文。如此,所述第二設備可以對所述多個目標葉子值密文進行求和處理,得到第二求和結果。所述第一設備將計算決策森林中各個決策樹對應的隨機數之和;可以對計算的隨機數之和與所述預設臨限值進行求和處理,得到第四求和結果。所述第一設備可以以所述第四求和結果為輸入,所述第二設備可以以所述第二求和結果為輸入,共同執行多方安全比較演算法。透過執行多方安全比較演算法可以實現:在所述第一設備不洩漏所述第四求和結果、且所述第二設備不洩漏所述第二求和結果的條件下,所述第一設備和/或所述第二設備獲得第二比較結果。所述第二比較結果用於表示所述第四求和結果與所述第二求和結果之間的大小關係;還能夠表示多個目標葉子節點所對應的葉子值之和與所述預設臨限值之間的大小關係,這裏多個目標葉子節點所對應的葉子值之和即為決策森林的預測結果。 本說明書實施例的資料處理方法,第二設備可以基於決策樹的參數資訊確定目標位置標識;可以以所述目標位置標識為輸入,與第一設備進行模糊傳輸,從第一設備輸入的決策樹的葉子節點所對應的葉子值密文中選擇目標葉子值密文。這樣基於模糊傳輸,可以在所述第一設備不洩漏決策森林、且第二設備不洩漏業務資料的條件下,第一設備和/或第二設備獲得決策森林的預測結果,或者,獲得比較結果。所述比較結果用於表示預測結果與預設臨限值之間的大小關係。 請參閱圖8。本說明書還提供一種資料處理裝置的實施例。該實施例可以應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹。所述裝置具體包括以下單元。 發送單元50,用於向第二設備發送決策樹的參數資訊,所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。 請參閱圖9。本說明書還提供一種資料處理裝置的實施例。該實施例可以應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹。所述裝置具體包括以下單元。 產生單元60,用於為所述決策樹產生對應的隨機數。 加密單元62,用於利用隨機數對決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文。 傳輸單元64,用於以決策樹的各個葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸。 請參閱圖10。本說明書還提供一種資料處理裝置的實施例。該實施例可以應用於第二設備,所述第二設備提供有決策森林中決策樹的參數資訊;所述參數資訊包括分裂節點所對應的位置標識和分裂條件、以及葉子節點所對應的位置標識,但不包括葉子節點所對應的葉子值。所述裝置具體包括以下單元。 確定單元70,用於基於決策樹的參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配。 傳輸單元72,用於以所述目標位置標識為輸入,與第一設備進行模糊傳輸;從第一設備輸入的決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文。 下面介紹本說明書電子設備的一個實施例。圖11是該實施例中一種電子設備的硬體結構示意圖。如圖11所示,所述電子設備可以包括一個或多個(圖中僅示出一個)處理器、記憶體和傳輸模組。當然,本領域普通技術人員可以理解,圖11所示的硬體結構僅為示意,其並不對上述電子設備的硬體結構造成限定。在實際中所述電子設備還可以包括比圖11所示更多或者更少的組件單元;或者,具有與圖11所示不同的配置。 所述記憶體可以包括高速隨機記憶體;或者,還可以包括非揮發性記憶體,例如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非揮發性固態記憶體。當然,所述記憶體還可以包括遠端設置的網路記憶體。所述遠端設置的網路記憶體可以透過諸如網際網路、企業內部網路、區域網路、行動通信網路等網路連接至所述電子設備。所述記憶體可以用於儲存應用軟體的程式指令或模組,例如本說明書圖2所對應實施例的程式指令或模組、圖5所對應實施例的程式指令或模組、圖6所對應實施例的程式指令或模組。 所述處理器可以按任何適當的方式實現。例如,所述處理器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可程式化邏輯控制器和嵌入微控制器的形式等等。所述處理器可以讀取並執行所述記憶體中的程式指令或模組。 所述傳輸模組可以用於經由網路進行資料傳輸,例如經由諸如網際網路、企業內部網路、區域網路、行動通信網路等網路進行資料傳輸。 需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同或相似的部分互相參見即可,每個實施例重點說明的都是與其它實施例的不同之處。尤其,對於裝置實施例和電子設備實施例而言,由於其基本相似於資料處理方法實施例,所以描述的比較簡單,相關之處參見資料處理方法實施例的部分說明即可。 另外,可以理解的是,本領域技術人員在閱讀本說明書文件之後,可以無需創造性勞動想到將本說明書列舉的部分或全部實施例進行任意組合,這些組合也在本說明書公開和保護的範圍內。 在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程程式化到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可程式化邏輯元件(Programmable Logic Device, PLD)(例如現場可程式化閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對器件程式化來確定。由設計人員自行程式化來把一個數位系統“整合”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片2。而且,如今,取代手工地製作積體電路晶片,這種程式化也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始碼也得用特定的程式化語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL (Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL (Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog2。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式化並程式化到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。 透過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本說明書可借助軟體加必需的通用硬體平台的方式來實現。基於這樣的理解,本說明書的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本說明書各個實施例或者實施例的某些部分所述的方法。 本說明書可用於眾多通用或專用的電腦系統環境或配置中。例如:個人電腦、伺服器電腦、手持設備或可攜式設備、平板型設備、多處理器系統、基於微處理器的系統、機上盒、可程式化的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式計算環境等等。 本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構等等。也可以在分散式計算環境中實踐本說明書,在這些分散式計算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。 雖然透過實施例描繪了本說明書,本領域普通技術人員知道,本說明書有許多變形和變化而不脫離本說明書的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本說明書的精神。
S10:步驟 S20,S22,S24,S26:步驟 S30,S32,S34:步驟 S40,S42:步驟 50:發送單元 60:產生單元 62:加密單元 64:傳輸單元 70:確定單元 72:傳輸單元
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。 [圖1]為本說明書實施例一種決策樹的結構示意圖; [圖2]為本說明書實施例一種資料處理方法的流程圖; [圖3]為本說明書實施例一種滿二元樹的結構示意圖; [圖4]為本說明書實施例一種資料處理方法的流程圖; [圖5]為本說明書實施例一種模糊傳輸方法的流程圖; [圖6]為本說明書實施例一種資料處理方法的示意圖; [圖7]為本說明書實施例一種資料處理方法的流程圖; [圖8]為本說明書實施例一種資料處理裝置的功能結構示意圖; [圖9]為本說明書實施例一種資料處理裝置的功能結構示意圖; [圖10]為本說明書實施例一種資料處理裝置的功能結構示意圖; [圖11]為本說明書實施例一種電子設備的功能結構示意圖。

Claims (16)

  1. 一種資料處理方法,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述方法包括:向第二設備發送所述決策樹的參數資訊;所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值;以便所述第一設備以所述決策森林中所述決策樹的各個葉子節點所對應的葉子值密文為輸入,所述第二設備以該決策樹的目標位置標識為輸入,進行模糊傳輸,所述第二設備從所述第一設備輸入的葉子值密文中選擇目標葉子值密文;其中,所述葉子節點所對應的葉子值密文透過對葉子節點所對應的葉子值進行加密得到,所述目標位置標識基於所述決策樹的所述參數資訊確定得到,所述目標位置標識對應的葉子節點與所述第二設備持有的業務資料相匹配。
  2. 如請求項1所述的方法,所述決策森林中的至少一個決策樹為非滿二元樹;相應地,所述方法還包括:在非滿二元樹的決策樹中添加虛假的節點,以使得該決策樹形成滿二元樹。
  3. 如請求項1所述的方法,所述方法還包括:在所述決策森林中添加虛假的決策樹。
  4. 一種資料處理裝置,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述裝置包括:發送單元,用於向第二設備發送決策樹的參數資訊,所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值;以便所述第一設備以所述決策森林中決策樹的各個葉子節點所對應的葉子值密文為輸入,所述第二設備以該決策樹的目標位置標識為輸入,進行模糊傳輸,所述第二設備從所述第一設備輸入的葉子值密文中選擇目標葉子值密文;其中,所述葉子節點所對應的葉子值密文透過對葉子節點所對應的葉子值進行加密得到,所述目標位置標識基於所述決策樹的所述參數資訊確定得到,所述目標位置標識對應的葉子節點與所述第二設備持有的業務資料相匹配。
  5. 一種電子設備,包括:記憶體,用於儲存電腦指令;處理器,用於執行所述電腦指令以實現如請求項1至3中任一項所述的方法步驟。
  6. 一種資料處理方法,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述方法包括:為所述決策樹產生對應的隨機數;利用隨機數對所述決策樹的各個葉子節點所對應的葉 子值進行加密,得到葉子值密文;以所述決策樹的各個葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸;以便所述第二設備根據所述決策樹的目標位置標識,從所述第一設備輸入的葉子值密文中選擇目標葉子值密文;其中,所述目標位置標識基於所述決策樹的參數資訊確定得到,所述目標位置標識對應的葉子節點與所述第二設備持有的業務資料相匹配;所述參數資訊來自所述第一設備,包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。
  7. 如請求項6所述的方法,所述利用隨機數對決策樹的各個葉子節點所對應的葉子值進行加密,包括:將隨機數與所述決策樹的各個葉子節點所對應的葉子值相加。
  8. 如請求項6所述的方法,所述決策森林包括多個決策樹;所述多個決策樹對應的隨機數之和為特定值。
  9. 一種資料處理裝置,應用於第一設備,所述第一設備提供有決策森林,所述決策森林包括至少一個決策樹;所述裝置包括:產生單元,用於為所述決策樹產生對應的隨機數;加密單元,用於利用隨機數對所述決策樹的各個葉子節點所對應的葉子值進行加密,得到葉子值密文; 傳輸單元,用於以所述決策樹的各個葉子節點所對應的葉子值密文為輸入,與第二設備進行模糊傳輸;以便所述第二設備根據所述決策樹的目標位置標識,從所述第一設備輸入的葉子值密文中選擇目標葉子值密文;其中,所述目標位置標識基於所述決策樹的參數資訊確定得到,所述目標位置標識對應的葉子節點與所述第二設備持有的業務資料相匹配;所述參數資訊來自所述第一設備,包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值。
  10. 一種電子設備,包括:記憶體,用於儲存電腦指令;處理器,用於執行所述電腦指令以實現如請求項6至8中任一項所述的方法步驟。
  11. 一種資料處理方法,應用於第二設備,所述第二設備提供有決策森林中決策樹的參數資訊;所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值;所述方法包括:基於所述決策樹的所述參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配;以所述目標位置標識為輸入,與第一設備進行模糊傳輸;從所述第一設備輸入的所述決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文;葉子節點對應的葉子值密文由隨機數對葉子節點對應的葉子值進行加密 得到。
  12. 如請求項11所述的方法,所述決策森林包括一個決策樹,所述第二設備選擇的目標葉子值密文的數量為一個;所述方法還包括:向所述第一設備發送所述目標葉子值密文;或者,對所述目標葉子值密文與雜訊資料進行求和處理,得到第一求和結果;向所述第一設備發送所述第一求和結果;或者,以所述目標葉子值密文為輸入,與所述第一設備共同執行多方安全比較演算法;以比較所述目標葉子值密文對應的明文資料與預設臨限值的大小。
  13. 如請求項11所述的方法,所述決策森林包括多個決策樹,所述第二設備選擇的目標葉子值密文的數量為多個;所述方法還包括:對多個目標葉子值密文進行求和處理,得到第二求和結果。
  14. 如請求項13所述的方法,所述方法還包括:向所述第一設備發送所述第二求和結果;或者,對所述第二求和結果與雜訊資料進行求和處理,得到第三求和結果;向所述第一設備發送所述第三求和結果;或者,以所述第二求和結果為輸入,與所述第一設備共同執行多方安全比較演算法;以比較所述第二求和結果對應的 明文資料與預設臨限值的大小。
  15. 一種資料處理裝置,應用於第二設備,所述第二設備提供有決策森林中決策樹的參數資訊;所述參數資訊包括分裂節點對應的位置標識和分裂條件、以及葉子節點對應的位置標識,但不包括葉子節點對應的葉子值;所述裝置包括:確定單元,用於基於所述決策樹的所述參數資訊確定目標位置標識,所述目標位置標識對應的葉子節點與業務資料相匹配;傳輸單元,用於以所述目標位置標識為輸入,與第一設備進行模糊傳輸;從所述第一設備輸入的所述決策樹的各個葉子節點所對應的葉子值密文中選擇目標葉子值密文;葉子節點對應的葉子值密文由隨機數對葉子節點對應的葉子值進行加密得到。
  16. 一種電子設備,包括:記憶體,用於儲存電腦指令;處理器,用於執行所述電腦指令以實現如請求項11至14中任一項所述的方法步驟。
TW109104354A 2019-07-01 2020-02-12 資料處理方法、裝置和電子設備 TWI730622B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910583566.4 2019-07-01
CN201910583566.4A CN110414567B (zh) 2019-07-01 2019-07-01 数据处理方法、装置和电子设备

Publications (2)

Publication Number Publication Date
TW202103150A TW202103150A (zh) 2021-01-16
TWI730622B true TWI730622B (zh) 2021-06-11

Family

ID=68358597

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109104354A TWI730622B (zh) 2019-07-01 2020-02-12 資料處理方法、裝置和電子設備

Country Status (3)

Country Link
CN (1) CN110414567B (zh)
TW (1) TWI730622B (zh)
WO (1) WO2021000571A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414567B (zh) * 2019-07-01 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法、装置和电子设备
CN111125727B (zh) * 2019-12-03 2021-05-14 支付宝(杭州)信息技术有限公司 混淆电路生成方法、预测结果确定方法、装置和电子设备
CN111045688A (zh) * 2019-12-06 2020-04-21 支付宝(杭州)信息技术有限公司 一种模型安全部署和预测的方法和系统
CN111061456B (zh) * 2019-12-10 2022-02-11 重庆锐云科技有限公司 一种基于分布式架构的伪随机数智能产生方法
CN111144576A (zh) * 2019-12-13 2020-05-12 支付宝(杭州)信息技术有限公司 模型训练方法、装置和电子设备
CN111046408A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 判断结果处理方法、查询方法、装置、电子设备和系统
CN110944011B (zh) * 2019-12-16 2021-12-07 支付宝(杭州)信息技术有限公司 一种基于树模型的联合预测方法和系统
CN113495607A (zh) * 2020-03-18 2021-10-12 台达电子企业管理(上海)有限公司 高压发生器的故障诊断方法和系统
CN111460515B (zh) * 2020-06-19 2020-11-20 支付宝(杭州)信息技术有限公司 数据匹配方法、装置和电子设备
CN112631551B (zh) * 2020-12-29 2023-05-30 平安科技(深圳)有限公司 随机数生成方法、装置、电子设备及存储介质
CN115333245B (zh) * 2022-10-11 2022-12-23 浙江省江山江汇电气有限公司 一种开关设备控制方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101171586A (zh) * 2005-02-18 2008-04-30 岛津研究所(欧洲)有限公司 质谱母离子选择
TWI327293B (zh) * 2007-02-16 2010-07-11 Hsiuping Inst Technology
TWI349867B (en) * 2008-05-20 2011-10-01 Univ Nat Cheng Kung Server and system and method for automatic virtual metrology
US20180300484A1 (en) * 2013-03-18 2018-10-18 The Trustees Of Columbia University In The City Of New York Detection of anomalous program execution using hardware-based micro architectural data

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664787B (zh) * 2012-04-01 2014-10-08 华为技术有限公司 决策树的生成方法和装置
US9787647B2 (en) * 2014-12-02 2017-10-10 Microsoft Technology Licensing, Llc Secure computer evaluation of decision trees
US10726153B2 (en) * 2015-11-02 2020-07-28 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
CN106611184A (zh) * 2016-06-01 2017-05-03 四川用联信息技术有限公司 基于资源约束代价敏感决策树构建方法
CN108075879B (zh) * 2016-11-10 2021-03-09 中国移动通信集团安徽有限公司 一种数据加密和解密的方法、装置及系统
US10360390B2 (en) * 2016-12-14 2019-07-23 Sap Se Oblivious order-preserving encryption
CN107124276B (zh) * 2017-04-07 2020-07-28 西安电子科技大学 一种安全的数据外包机器学习数据分析方法
CN109726581B (zh) * 2017-10-31 2020-04-14 阿里巴巴集团控股有限公司 一种数据统计方法和装置
CN108491766B (zh) * 2018-03-05 2021-10-26 中山大学 一种端到端的基于深度决策森林的人群计数方法
US10198399B1 (en) * 2018-03-06 2019-02-05 KenSci Inc. Cryptographically secure machine learning
CN108764267B (zh) * 2018-04-02 2021-08-10 上海大学 一种基于对抗式决策树集成的拒绝服务攻击检测方法
CN108830096B (zh) * 2018-06-21 2021-02-26 广州华多网络科技有限公司 数据处理方法、装置、电子设备及存储介质
CN109284626A (zh) * 2018-09-07 2019-01-29 中南大学 面向差分隐私保护的随机森林算法
CN109359476B (zh) * 2018-10-26 2020-12-25 山东师范大学 一种隐藏输入的两方模式匹配方法及装置
CN109670306A (zh) * 2018-11-27 2019-04-23 国网山东省电力公司济宁供电公司 基于人工智能的电力恶意代码检测方法、服务器及系统
CN110414567B (zh) * 2019-07-01 2020-08-04 阿里巴巴集团控股有限公司 数据处理方法、装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101171586A (zh) * 2005-02-18 2008-04-30 岛津研究所(欧洲)有限公司 质谱母离子选择
TWI327293B (zh) * 2007-02-16 2010-07-11 Hsiuping Inst Technology
TWI349867B (en) * 2008-05-20 2011-10-01 Univ Nat Cheng Kung Server and system and method for automatic virtual metrology
US20180300484A1 (en) * 2013-03-18 2018-10-18 The Trustees Of Columbia University In The City Of New York Detection of anomalous program execution using hardware-based micro architectural data

Also Published As

Publication number Publication date
CN110414567A (zh) 2019-11-05
CN110414567B (zh) 2020-08-04
TW202103150A (zh) 2021-01-16
WO2021000571A1 (zh) 2021-01-07

Similar Documents

Publication Publication Date Title
TWI730622B (zh) 資料處理方法、裝置和電子設備
TWI745861B (zh) 資料處理方法、裝置和電子設備
TWI729698B (zh) 資料處理方法、裝置和電子設備
CN111125727B (zh) 混淆电路生成方法、预测结果确定方法、装置和电子设备
US8700906B2 (en) Secure computing in multi-tenant data centers
TWI728639B (zh) 資料處理方法、裝置和電子設備
WO2021027258A1 (zh) 模型参数确定方法、装置和电子设备
US20200175426A1 (en) Data-based prediction results using decision forests
WO2021114585A1 (zh) 模型训练方法、装置和电子设备
CN110580409B (zh) 模型参数确定方法、装置和电子设备
WO2020258840A1 (zh) 基于区块链的交易处理方法、装置和电子设备
WO2021000575A1 (zh) 数据交互方法、装置和电子设备
WO2021017424A1 (zh) 数据预处理方法、密文数据获取方法、装置和电子设备
US11222011B2 (en) Blockchain-based transaction processing
US10790961B2 (en) Ciphertext preprocessing and acquisition
US20200293911A1 (en) Performing data processing based on decision tree
US11194824B2 (en) Providing oblivious data transfer between computing devices
US20200364582A1 (en) Performing data processing based on decision tree
TWI729697B (zh) 資料處理方法、裝置和電子設備
CN111046408A (zh) 判断结果处理方法、查询方法、装置、电子设备和系统
Mattsson Controlling Privacy and the Use of Data Assets-Volume 1: Who Owns the New Oil?