TW202123050A - 基於聯邦學習的孤立森林模型構建和預測方法和裝置 - Google Patents

基於聯邦學習的孤立森林模型構建和預測方法和裝置 Download PDF

Info

Publication number
TW202123050A
TW202123050A TW109115727A TW109115727A TW202123050A TW 202123050 A TW202123050 A TW 202123050A TW 109115727 A TW109115727 A TW 109115727A TW 109115727 A TW109115727 A TW 109115727A TW 202123050 A TW202123050 A TW 202123050A
Authority
TW
Taiwan
Prior art keywords
node
party
data
feature
identifier
Prior art date
Application number
TW109115727A
Other languages
English (en)
Other versions
TWI780433B (zh
Inventor
宋博文
葉捷明
陳帥
顧曦
Original Assignee
大陸商支付寶(杭州)信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商支付寶(杭州)信息技術有限公司 filed Critical 大陸商支付寶(杭州)信息技術有限公司
Publication of TW202123050A publication Critical patent/TW202123050A/zh
Application granted granted Critical
Publication of TWI780433B publication Critical patent/TWI780433B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Devices For Executing Special Programs (AREA)
  • Image Analysis (AREA)

Abstract

本說明書實施例提供了一種基於聯邦學習構建孤立森林模型的方法和裝置,所述方法包括:獲取與第一節點對應的多個樣本標識,多個樣本標識與多個樣本分別對應,每個樣本包括m個特徵的特徵值;從m個特徵標識中隨機選擇一個特徵標識;在所述選擇的特徵標識為第一特徵標識的情況中,基於本地儲存第一特徵標識與第一資料方的對應關係,將第一節點的標識、多個樣本標識和第一特徵標識發送給第一資料方;記錄第一節點與第一資料方的對應關係;從第一資料方接收與第一節點的兩個子節點分別對應的資訊,從而在保護各資料方私有資料的同時構建孤立森林模型以用於進行業務處理。

Description

基於聯邦學習的孤立森林模型構建和預測方法和裝置
本說明書實施例涉及機器學習技術領域,更具體地,涉及基於聯邦學習構建孤立森林模型的方法和裝置、以及基於聯邦學習通過孤立森林模型預測物件異常性的方法和裝置。
目前,越來越多的作為資料擁有方的網際網路企業開始關注資料隱私和資料安全問題。孤立森林模型是一種預測異常物件的無監督學習模型,該模型例如可用於對用戶行為進行分析來識別異常行為,從而保護用戶資金的安全,例如盜用風險防控、詐欺風險防控等等。然而在上述場景下的資料模組化往往是在資料融合(即資料中心化儲存/可見)的條件下進行的,這樣往往要求不同來源的資料需要完全暴露給對方才能完成模組化分析工作,這在隱私資料的層面是有很大風險的。因此,需要一種更有效的保護私有資料的孤立森林模型構建和使用方案。
本說明書實施例意於提供一種更有效的保護私有資料的孤立森林模型構建和使用方案,以解決現有技術中的不足。 為實現上述目的,本說明書一個態樣提供一種基於聯邦學習構建孤立森林模型的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述方法由計算方的設備相對於所述模型中的第一樹中的第一節點執行,所述至少兩個資料方包括第一資料方,所述計算方設備中預先儲存了m個特徵標識與各個資料方的對應關係,所述m個特徵標識分別為m個特徵各自的預定標識,所述方法包括: 獲取與第一節點對應的多個樣本標識,所述多個樣本標識與多個樣本分別對應,每個樣本包括所述m個特徵的特徵值; 從所述m個特徵標識中隨機選擇一個特徵標識; 在所述選擇的特徵標識為第一特徵標識的情況中,基於本地儲存第一特徵標識與第一資料方的對應關係,將所述第一節點的標識、所述多個樣本標識和所述第一特徵標識發送給所述第一資料方; 記錄所述第一節點與所述第一資料方的對應關係; 從所述第一資料方接收與所述第一節點的兩個子節點分別對應的資訊,從而構建孤立森林模型以用於進行業務處理。 在一個實施例中,所述第一節點為根節點,其中,獲取與第一節點對應的多個樣本標識包括,獲取N個樣本標識,從所述N個樣本標識中隨機獲取n個樣本標識,其中N>n。 在一個實施例中,所述兩個子節點中包括第二節點,與所述第二節點對應的資訊包括,所述第二節點為葉子節點,所述方法還包括,記錄所述第二節點標識與所述第一資料方的對應關係。 在一個實施例中,所述兩個子節點中包括第三節點,與所述第三節點對應的資訊包括,分到所述第三節點的u個樣本標識,其中,所述u個樣本標識為所述多個樣本標識中的一部分。 在一個實施例中,所述至少一個資料方為至少一個網路平臺,所述多個樣本與網路平臺中的多個物件分別對應。 在一個實施例中,所述物件為以下任一項:消費者、交易、商家、商品。 本說明書另一態樣提供一種基於聯邦學習構建孤立森林模型的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述模型的第一樹中包括第一節點,所述方法由所述至少兩個資料方中的第一資料方的設備執行,所述第一資料方的設備中擁有各個樣本的第一特徵的特徵值,並且儲存有第一特徵與預先確定的第一特徵標識的對應關係,所述方法包括: 從所述計算方的設備接收第一節點的標識、多個樣本標識和第一特徵標識,其中,所述多個樣本標識與多個樣本分別對應; 基於本地儲存第一特徵標識與第一特徵的對應關係,從所述多個樣本各自的第一特徵的特徵值中隨機選擇一個特徵值作為第一節點的分裂值; 記錄所述第一節點與所述第一特徵和所述分裂值的對應關係; 基於所述分裂值對所述多個樣本進行分組,以構建所述第一節點的兩個子節點; 分別確定所述兩個子節點是否為葉子節點; 基於所述分組和確定的結果,將與兩個子節點分別對應的資訊發送給所述計算方的設備,從而構建孤立森林模型以用於進行業務處理。 在一個實施例中,所述兩個子節點中包括第二節點,其中,與第二節點對應的資訊包括,所述第二節點為葉子節點,所述方法還包括,計算並儲存所述第二節點的節點深度。 本說明書另一態樣提供一種基於聯邦學習通過孤立森林模型預測物件異常性的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述計算方的設備中儲存有所述模型中第一樹的樹結構、所述第一樹中各個節點對應的資料方,所述方法由所述計算方的設備執行,包括: 獲取第一物件的物件標識; 將所述物件標識發送給各個資料方; 從各個資料方設備接收該資料方在其對應的至少一個非葉子節點分別進行的對所述第一物件的至少一次劃分結果; 基於第一樹的樹結構、以及來自所述至少兩個資料方設備的在各個非葉子節點對所述第一物件的劃分結果,確定所述第一物件落入的第一葉子節點; 基於所述第一樹中的葉子節點各自對應的資料方,將所述第一葉子節點的標識發送給與所述第一葉子節點對應的第一資料方; 從所述第一資料方接收所述第一葉子節點的節點深度; 基於所述節點深度預測第一物件的異常性,以用於進行業務處理。 在一個實施例中,所述方法還包括,基於對所述第一物件的預測結果,獲取訓練樣本,以用於訓練監督學習模型。 在一個實施例中,所述方法還包括,基於所述訓練好的監督學習模型的參數,最佳化所述孤立森林模型的樣本特徵。 本說明書另一態樣提供一種基於聯邦學習通過孤立森林模型預測物件異常性的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述至少兩個資料方中的第一資料方的設備中記錄有:其對應的所述第一樹中第一節點的第一特徵和分裂值,並且所述第一資料方的設備中儲存有各個物件的第一特徵的特徵值,所述方法由所述第一資料方的設備執行,包括: 從所述計算方的設備接收第一物件的物件標識; 基於本地儲存的第一節點的第一特徵,從本地獲取所述第一物件的第一特徵的特徵值; 基於本地儲存的所述第一物件的第一特徵的特徵值和所述第一節點的分裂值,在第一節點對所述第一物件進行劃分; 將所述劃分的結果發送給所述計算方的設備,從而用於預測所述第一物件的異常性以用於進行業務處理。 在一個實施例中,所述第一資料方的設備中記錄有所述第一樹中第二節點的節點深度,所述方法還包括,從所述計算方的設備接收所述第一物件所落入的第二節點的標識,將所述第二節點的節點深度發送給所述計算方的設備。 本說明書另一態樣提供一種基於聯邦學習構建孤立森林模型的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述裝置相對於所述模型中的第一樹中的第一節點配置於計算方的設備中,所述至少兩個資料方包括第一資料方,所述計算方設備中預先儲存了m個特徵標識與各個資料方的對應關係,所述m個特徵標識分別為m個特徵各自的預定標識,所述裝置包括: 獲取單元,配置為,獲取與第一節點對應的多個樣本標識,所述多個樣本標識與多個樣本分別對應,每個樣本包括所述m個特徵的特徵值; 選擇單元,配置為,從所述m個特徵標識中隨機選擇一個特徵標識; 發送單元,配置為,在所述選擇的特徵標識為第一特徵標識的情況中,基於本地儲存第一特徵標識與第一資料方的對應關係,將所述第一節點的標識、所述多個樣本標識和所述第一特徵標識發送給所述第一資料方; 第一記錄單元,配置為,記錄所述第一節點與所述第一資料方的對應關係; 接收單元,配置為,從所述第一資料方接收與所述第一節點的兩個子節點分別對應的資訊,從而構建孤立森林模型以用於進行業務處理。 在一個實施例中,所述第一節點為根節點,其中,所述獲取單元還配置為,獲取N個樣本標識,從所述N個樣本標識中隨機獲取n個樣本標識,其中N>n。 在一個實施例中,所述兩個子節點中包括第二節點,與所述第二節點對應的資訊包括,所述第二節點為葉子節點,所述裝置還包括,第二記錄單元,配置為,記錄所述第二節點標識與所述第一資料方的對應關係。 本說明書另一態樣提供一種基於聯邦學習構建孤立森林模型的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述模型的第一樹中包括第一節點,所述裝置配置在所述至少兩個資料方中的第一資料方的設備中,所述第一資料方的設備中擁有各個樣本的第一特徵的特徵值,並且儲存有第一特徵與預先確定的第一特徵標識的對應關係,所述裝置包括: 接收單元,配置為,從所述計算方的設備接收第一節點的標識、多個樣本標識和第一特徵標識,其中,所述多個樣本標識與多個樣本分別對應; 選擇單元,配置為,基於本地儲存第一特徵標識與第一特徵的對應關係,從所述多個樣本各自的第一特徵的特徵值中隨機選擇一個特徵值作為第一節點的分裂值; 記錄單元,配置為,記錄所述第一節點與所述第一特徵和所述分裂值的對應關係; 分組單元,配置為,基於所述分裂值對所述多個樣本進行分組,以構建所述第一節點的兩個子節點; 確定單元,配置為,分別確定所述兩個子節點是否為葉子節點; 發送單元,配置為,基於所述分組和確定的結果,將與兩個子節點分別對應的資訊發送給所述計算方的設備,從而構建孤立森林模型以用於進行業務處理。 在一個實施例中,所述兩個子節點中包括第二節點,其中,與第二節點對應的資訊包括,所述第二節點為葉子節點,所述裝置還包括,計算單元,配置為,計算並儲存所述第二節點的節點深度。 本說明書另一態樣提供一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述計算方的設備中儲存有所述模型中第一樹的樹結構、所述第一樹中各個節點對應的資料方,所述裝置配置於所述計算方的設備中,包括: 第一獲取單元,配置為,獲取第一物件的物件標識; 第一發送單元,配置為,將所述物件標識發送給各個資料方; 第一接收單元,配置為,從各個資料方設備接收該資料方在其對應的至少一個非葉子節點分別進行的對所述第一物件的至少一次劃分結果; 第一確定單元,配置為,基於第一樹的樹結構、以及來自所述至少兩個資料方設備的在各個非葉子節點對所述第一物件的劃分結果,確定所述第一物件落入的第一葉子節點; 第二發送單元,配置為,基於所述第一樹中的葉子節點各自對應的資料方,將所述第一葉子節點的標識發送給與所述第一葉子節點對應的第一資料方; 第二接收單元,配置為,從所述第一資料方接收所述第一葉子節點的節點深度; 預測單元,配置為,基於所述節點深度預測第一物件的異常性,以用於進行業務處理。 在一個實施例中,所述裝置還包括,第二獲取單元,配置為,基於對所述第一物件的預測結果,獲取訓練樣本,以用於訓練監督學習模型。 在一個實施例中,所述裝置還包括,第二確定單元,配置為,基於所述訓練好的監督學習模型的參數,確定所述孤立森林模型的樣本包括的特徵。 本說明書另一態樣提供一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述至少兩個資料方中的第一資料方的設備中記錄有:其對應的所述第一樹中第一節點的第一特徵和分裂值,並且所述第一資料方的設備中儲存有各個物件的第一特徵的特徵值,所述裝置配置於所述第一資料方的設備中,包括: 第一接收單元,配置為,從所述計算方的設備接收第一物件的物件標識; 獲取單元,配置為,基於本地儲存的第一節點的第一特徵,從本地獲取所述第一物件的第一特徵的特徵值; 劃分單元,配置為,基於本地儲存的所述第一物件的第一特徵的特徵值和所述第一節點的分裂值,在第一節點對所述第一物件進行劃分; 第一發送單元,配置為,將所述劃分的結果發送給所述計算方的設備,從而用於預測所述第一物件的異常性以用於進行業務處理。 在一個實施例中,所述第一資料方的設備中記錄有所述第一樹中第二節點的節點深度,所述裝置還包括,第二接收單元,配置為,從所述計算方的設備接收所述第一物件所落入的第二節點的標識,以及第二發送單元,配置為,將所述第二節點的節點深度發送給所述計算方的設備。 本說明書另一態樣提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行上述任一項方法。 本說明書另一態樣提供一種計算設備,包括記憶體和處理器,其中,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現上述任一項方法。 通過根據本說明書實施例的基於聯邦學習構建孤立森林模型並使用該模型進行異常性預測的方案,可使用多個資料方的資料共同構建孤立森林模型,並使用多個資料方的資料和該模型的資料共同對物件異常性進行預測,同時保護各個資料方的資料不洩露給其它方,在擴充了用於構建孤立森林模型的資料量、增加模型的預測準確率的同時,保護了各個資料方的資料安全。
下面將結合附圖描述本說明書實施例。 圖1顯示根據本說明書實施例的構建和使用孤立森林模型的場景示意圖。如圖1所示,該場景中包括至少兩個資料方(圖中僅示意顯示A方和C方)和計算方(B方),下文中將以兩個資料方為例進行描述。A方和C方例如為購物平臺和支付平臺,該孤立森林模型例如可用於預測與該兩個平臺共同關聯的各個交易的異常性。其中,A方例如具有各個交易的商品特徵、用戶購買行為特徵等,C方例如具有各個交易的支付特徵、用戶支付行為特徵等,即A方和C方的資料共同構成了交易的特徵資料。從而,A方和C方可基於其各自的資料與B方一起構建孤立森林模型,其中,構建該模型的樣本包括一個交易的各個特徵的特徵值。其中,計算方B方可以為具有相應計算設備的一方,以用於進行模型構建、預測過程的計算,計算方B方也可以為A方和C方中的任一方。 在模型構建過程中,首先B方獲取與A方和C方都關聯的N個交易編號,以該N個交易編號對應的N個交易的特徵資料作為該模型的訓練樣本集,該特徵資料例如可以表示為矩陣X,其中矩陣X包括N行m列,每行與一個交易相對應,每列與交易的一個特徵相對應,即,每個交易具有m個特徵。假設A方具有該N個交易的特徵資料中的一部分XA ,C方具有該N個交易的特徵資料中的另一部分XC ,從而X=(XA XC )。從N個交易編號中隨機獲取n個交易編號,以將該n個交易編號對應的n個交易的特徵資料作為模型中的一棵樹的訓練樣本集。 在訓練開始之前,A、B、C三方可共同協商出各個特徵的特徵標識,同時使得B方不會知道A方、C方的特徵,A方和C方彼此也不知道對方擁有的特徵。例如,A方、C方分別設定本方具有的各個特徵對應的特徵標識,並將各個特徵標識發送給B方,其中A方和C方可通過協商以確定兩方的特徵標識之間沒有重複。從而B方記錄有m個特徵標識及其各自對應的資料方。在B方設備中,針對模型的根節點(節點1),從m個特徵標識中隨機選擇一個特徵標識(f1)。假設B方設備中記錄了f1與A方相對應,從而,B方記錄節點1與A方對應,並將例如“節點1,f1,n個交易編號”發送給A方。A方在接收到該資訊之後,基於本地的記錄,確定f1為特徵q1(例如商品價格)的標識,從而從本地的與n個交易編號對應的n個交易各自的特徵q1的值中隨機選擇一個值作為節點1的分裂值p1,並基於q1和p1對該n個交易進行分裂,以獲取分別落入該節點1的兩個子節點2和節點3的交易編號集合Sl 和Sr 。在基於預定規則判斷節點2和節點3都不是葉子節點之後,A方將Sl 和Sr 發送給B方,從而使得B方分別相對於節點2和節點3重複上述針對節點1的過程,從而構建出如圖中所示的孤立樹。在例如後續確定節點3與A方對應,並且A方判斷節點3的子節點7為葉子節點時,A方通知B方節點7為葉子節點,同時計算並儲存節點7的節點深度。B方在接收到節點7為葉子節點之後,構建樹中的葉子節點7,並記錄節點7與A方對應。通過同樣的方法構建多個孤立樹,從而構建孤立森林。在構建完成之後,B方記錄有各個樹的樹結構,以及樹中的各個節點對應的資料方,A方記錄有該模型的部分參數
Figure 02_image001
,其中包括:A方對應的各個非葉子節點的分裂特徵、分裂值、及A方對應的各個葉子節點的節點深度。類似地,C方記錄有該模型的部分參數
Figure 02_image003
。 圖2示意顯示了通過上述構建過程使得B方獲取的所構建的模型中的一棵樹(例如樹1)的結構圖,該結構圖中示意顯示了11個節點及各個節點之間的連接關係,其中,各個節點內部標出的數字為該節點的節點標識,各個節點外部標出的字母(如A或C)為資料方的標識,以表示該節點對應的資料方。 在構建完成上述孤立森林模型之後,可使用該模型對待預測物件進行異常性預測。例如,需要對交易1預測其異常性,則B方將交易1的編號發送給A方和C方。A方和C方基於其各自的部分模型參數和交易1的部分特徵的特徵值,在其對應的節點中對交易1進行劃分,並將劃分結果都發送給B方。B方結合A方和C方的劃分結果,從而確定交易1落入的葉子節點,並從該葉子節點對應的一方(例如A方)接收該葉子節點的節點深度。從而,B方交易1落入基於模型中各個樹中的葉子節點的節點深度,可計算交易1的平均節點深度,並基於該平均深度確定交易1的異常性。 可以理解,上文中參考圖1的描述僅僅是示意性的,而不是限定性的,例如,所述至少兩個資料方可包括更多的資料方,所述樣本不限於為交易樣本,等等,下文中將詳細描述上述模型構建過程和模型預測過程。 圖3示意顯示根據本說明書實施例的基於聯邦學習構建圖2中節點1的方法時序圖。如上文所述,所述聯邦學習的參與方例如包括上述A、B、C三方,該時序圖中顯示了在構建過程中作為資料方的A方與作為計算方的B方之間互動時序圖。可以理解,參與聯邦學習的其它資料方與B方之間的互動也是類似的。下面將結合圖2和圖3描述相對於節點1的構建過程。其中,圖3顯示和下面步驟中所述的A方和B方都表示A方設備和B方設備。 如上文參考圖1中所述,B方預先儲存了m個特徵標識與各個資料方的對應關係,例如,m個特徵中包括特徵q1(特徵q1例如為“商品價格”),該特徵的特徵資料由A方擁有,從而A方可預先確定該特徵q1對應的特徵標識為f1,在本地記錄q1與f1的對應關係,並將f1發送給B方,從而B方可記錄f1與A方相對應。通過這種方式,B方並不能知道A方具有什麼特徵。 在開始構建之後,參考圖3,首先,在步驟302,B方獲取與節點1對應的n個樣本標識。節點1為樹1的根節點,如上文所述,與該節點1對應的樣本標識為從N個樣本標識中隨機選取的n個樣本標識。如上文所述,所述N個樣本標識例如為與A方、C方都關聯的交易編號,在此不再詳述。通過從N個樣本標識中進行多次隨機選取,從而可確定多組樣本標識集合,每個集合中包括n個樣本標識,從而可使用每個集合對應的n個樣本訓練模型中的一顆樹,從而可訓練整個孤立森林。通過以這樣的方式確定多個樣本集以分別訓練森林中的各棵樹,可以以減少的資料訓練每棵樹,同時保證整個模型的預測準確率。 在步驟304,B方從m個特徵標識隨機選取一個特徵標識,例如,該隨機選取的特徵標識為f1。 在步驟306,B方基於本地儲存的對應關係,確定f1與A方對應。如上文所述,B方預先儲存了m個特徵標識與各個資料方的對應關係,其中包括f1與A方相對應。如上文所述,該對應關係通過由A方、B方、C方預先共同協商確定,並由B方獲取,在此不再詳述。 在步驟308,B方將節點1標識(即“節點1”)、n個樣本標識和“f1”發送給A方。 在步驟310,B方在本地記錄節點1與A方的對應關係。該記錄可通過多種方式進行,例如,可如圖2中所示,在圖中的樹1的節點1處標記“A”,從而指示節點1與A方對應,或者,可以以表格的形式將“節點1”與“A”關聯地記錄,從而,確定節點1與A方相對應。 在步驟312,A方在接收到B方發送的“節點1”、n個樣本標識和“f1”之後,基於本地儲存的對應關係確定f1對應於特徵q1,從而以q1作為節點1的分裂特徵。 在步驟314,A方從n個樣本標識對應的n個樣本的q1的特徵值中隨機選擇一個特徵值作為節點1的分裂值,例如,該選擇的值為p1。 在步驟316,A方在通過上述步驟確定節點1的分裂特徵q1和分裂值p1之後,記錄節點1的分裂特徵q1和分裂值p1。 在步驟318,A方基於分裂值p1將n個樣本分到節點1的兩個子節點中,即圖2中的節點2和節點3。例如,可設定,如果樣本的q1值<p1,則將該樣本分到左邊的子節點,即節點2,如果樣本的q1值≥p1,則將該樣本分到右邊的子節點,即節點3。 在步驟320,A方確定節點2和節點3是否為葉子節點。可基於預定規則確定節點2和節點3是否為子節點。例如,如果節點的節點深度達到預定深度(例如最大深度),則該節點為葉子節點,如果節點中只有一個樣本、或者節點中的多個樣本具有相同的特徵資料從而無法區分,則該節點為葉子節點。 在步驟322,A方在確定節點2和節點3都不是葉子節點之後,將節點2和節點3中各自包括的樣本標識發送給B方。從而B方具有用於構建節點2的u個節點標識和節點3的v個節點標識,從而可以分別針對節點2和節點3執行上述針對節點1執行的過程,以用於繼續構建節點2和節點3,進而構建出整棵樹。 圖4示意顯示根據本說明書實施例的基於聯邦學習構建圖2中節點2的方法時序圖。該時序圖顯示了在構建過程中作為資料方的C方與B方之間的互動時序圖。下面將結合圖2和圖4描述相對於節點2的構建過程。其中,與上文類似地,圖4中和下面描述中的C方表示C方設備。 其中,所述m個特徵中例如還包括特徵q2(特徵q2例如為“支付金額”),該特徵的特徵資料由C方擁有,從而C方可預先確定q2對應的特徵標識為f2,在本地記錄q2與f2的對應關係,並將f2發送給B方,從而B方記錄有f2與C方的對應關係。 在開始構建之後,參考圖4,在步驟402,B方獲取與節點2對應的u個樣本標識,即B方從A方接收分到節點2的u個樣本標識。在步驟404,B方從m個特徵標識隨機選擇一個特徵標識,例如f2。在步驟406,B方基於本地儲存的對應關係,確定f2與C方相對應。在步驟408,B方將“節點2”、u個樣本標識和“f2”發送給C方。在步驟410,B方記錄節點2與C方相對應。在步驟412,C方在接收到從B方發送的“節點2”、u個樣本標識和“f2”之後,基於本地儲存的對應關係,確定以f2對應的特徵q2作為節點2的分裂特徵。在步驟414,C方從u個樣本的q2的特徵值中隨機選擇一個特徵值,例如p2,作為節點2的分裂值。在步驟416,C方記錄節點的分裂特徵q2和分裂值p2。在步驟418,C方基於p2將u個樣本分到節點4和節點5中。在步驟420,C方確定節點4和節點5是否為葉子節點。其中步驟404~步驟420可參考上文對步驟304~步驟320的描述,在此不再贅述。 在步驟422,C方基於步驟420的確定,例如確定節點4不是葉子節點,節點5是葉子節點,從而C方將分到節點4的g個樣本標識發送給B方,同時通知B方“節點5為葉子節點”。 在步驟424,B方在接收到“節點5為葉子節點”之後,B方可將節點5標記為葉子節點,從而不再對節點5進行樣本分裂,同時B方在本地記錄節點5與C方相對應。 在步驟426,C方在確定節點5是葉子節點之後,計算並儲存節點5的節點深度。在一個實施例中,可通過如下的公式(1)計算節點5的節點深度: H=e+c(n)                 (1) 其中,c(n)如公式(2)所示:
Figure 02_image005
,         (2) 其中,e為節點5與根節點(節點1)之間的邊數(即,2),n為該樹的訓練樣本數,H(n)為調和級數,其可以由ln(n)+0,5772156649(歐拉常數)來估計。在孤立森林模型中,葉子節點的節點深度越小,分到該葉子節點中的樣本是異常樣本的可能性越大。 在如上所述構建了節點2之後,可通過同樣地方式構建樹1中的幾個非葉子節點,節點3、節點4、和節點6,從而構建出如圖2所示的樹1的結構。例如,通過上述隨機確定的方式,可確定節點1、節點3和節點4與A方相對應,節點2和節點6與C方相對應,從而可相應地確定,葉子節點7、8、9與A方對應,葉子節點5、10、11與C方相對應,如圖2中所示。而在A方和C方分別記錄了其對應的節點、該節點的分裂特徵和分裂值。也就是說,A方、B方和C方分別擁有該孤立森林模型的部分資料。從而,在通過該模型進行物件預測時,需要三方協同進行。 圖5示意顯示根據本說明書實施例的基於聯邦學習通過孤立森林模型預測物件異常性的方法時序圖。 如圖5所述,首先在步驟502,B方獲取待預測物件的物件標識x,與上述樣本標識類似地,該物件標識例如為交易編號,該待預測物件為待預測的一個交易,同樣地,該交易x的交易特徵資料由A方和B方的資料共同構成。B方可主動發起對交易x異常性的預測,或者B方作為伺服器接收來自客戶端的預測交易x異常性的請求,從而開始執行該方法。 在步驟504,B方將物件標識x分別發送給A方和C方,圖中雖然顯示B方在相同的時間對A方和C方進行發送,本實施例對此並不限定。 在步驟506,A方和C方分別在其對應的至少一個節點處對物件x進行劃分。由上文所述,例如A方與節點1、節點3和節點4對應,其具有節點1的特徵q1和分裂值p1,節點3的特徵q3和分裂值p3,和節點4的特徵q4和分裂值p4,並且A方具有物件的特徵q1的值v1、特徵q3的值v2、和特徵q4的值v4。從而,A方可在節點1可基於v1和p1對物件x進行劃分,例如v1<p1,從而,將物件x分到節點1的左邊的子節點中,類似地,A方基於v3和q3將物件x劃分到節點3左邊的子節點中,基於v4和q4將物件x劃分到節點4右邊的子節點中。類似地,C方與節點2和節點6對應,其在節點2將物件x劃分到左邊的子節點中,在節點6將物件x劃分到右邊的子節點中。 在步驟508,A方和C方將其在各個節點對物件x的劃分結果發送給B方。可以理解,圖中雖然顯示A方和C方在相同的時間執行該步驟,本實施例對此並不限定。 在步驟510,B方基於接收的劃分結果確定物件x落入的葉子節點,即節點9。圖6顯示了B方結合A方和C方的劃分結果確定物件x落入葉子節點的示意圖。如圖6中所示,B方合併A方和C方在各個節點對物件x的劃分,從而可從節點1開始找到物件x的劃分路徑,即,節點1→節點2→節點4→節點9,從而可確定物件x最終落入葉子節點9中。 在步驟512,B方基於本地的對應關係,確定節點9與A方相對應,從而將“節點9”發送給A方。 在步驟514,A方將節點9的節點深度發送給B方。 在步驟516,B方基於節點9的節點深度,預測物件x的異常性。在一個實施例中,可通過節點9的平均節點深度來預測物件x的異常性。B方在根據同樣的方法獲取物件x在各棵樹中的節點深度之後,可計算物件x的平均節點深度E(h(x)),該平均節點深度越大,說明物件x分到的葉子節點距離根節點越遠,從而物件x的異常性越小,反之,該平均節點深度越小,則物件x的異常性越大。 在一個實施例中,可通過公式(3)所示的異常分數來預測物件x的異常性:
Figure 02_image007
(3) 其中,c(n)如上述公式(2)所示。可驗證,s的值在0到1之間,s越小,表示該物件的異常性越小,s越大,表示該物件的異常性越大。 在獲取物件的異常性之後,可進行多種業務處理。例如,該物件為交易,在確定該交易為異常交易之後,可進行對該交易的人工核查,以防止發生詐欺事件。或者,可將該交易的資料及標籤值作為訓練樣本,用於訓練多方監督學習模型,如防詐欺的多方監督學習模型等。 圖7示意顯示了根據本說明書實施例的多方無監督學習模型與多方監督學習模型之間的相互最佳化過程。如圖7中所示,結合人工(例如專家)標註的樣本和通過根據本說明書的孤立森林標註的樣本,可半自動地獲取訓練樣本集,從而訓練多方監督學習模型;結合人工確定的特徵、和基於多方監督學習模型參數確定的特徵,可半自動地確定用於訓練孤立森林模型的樣本特徵,從而最佳化孤立森林模型的訓練。具體是,確定用於訓練孤立森林模型的樣本的多個特徵之後,可將該多個特徵分別對應的多個特徵標識發送給B方,從而使得B方在再次進行對該多方孤立森林模型的訓練時,基於所述多個特徵標識執行圖3或圖4所示方法。同時,可通過訓練的多方監督學習模型對物件異常性進行自動預測,例如基於待預測物件的異常性進行風險識別等。 圖8顯示本說明書實施例的一種基於聯邦學習構建孤立森林模型的裝置800,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述裝置相對於所述模型中的第一樹中的第一節點配置於計算方的設備中,所述至少兩個資料方包括第一資料方,所述計算方設備中預先儲存了m個特徵標識與各個資料方的對應關係,所述m個特徵標識分別為m個特徵各自的預定標識,所述裝置包括: 獲取單元81,配置為,獲取與第一節點對應的多個樣本標識,所述多個樣本標識與多個樣本分別對應,每個樣本包括所述m個特徵的特徵值; 選擇單元82,配置為,從所述m個特徵標識中隨機選擇一個特徵標識; 發送單元83,配置為,在所述選擇的特徵標識為第一特徵標識的情況中,基於本地儲存第一特徵標識與第一資料方的對應關係,將所述第一節點的標識、所述多個樣本標識和所述第一特徵標識發送給所述第一資料方; 第一記錄單元84,配置為,記錄所述第一節點與所述第一資料方的對應關係; 接收單元85,配置為,從所述第一資料方接收與所述第一節點的兩個子節點分別對應的資訊,從而構建孤立森林模型以用於進行業務處理。 在一個實施例中,所述第一節點為根節點,其中,所述獲取單元81還配置為,獲取N個樣本標識,從所述N個樣本標識中隨機獲取n個樣本標識,其中N>n。 在一個實施例中,所述兩個子節點中包括第二節點,與所述第二節點對應的資訊包括,所述第二節點為葉子節點,所述裝置還包括,第二記錄單元86,配置為,記錄所述第二節點標識與所述第一資料方的對應關係。 圖9顯示根據本說明書實施例的一種基於聯邦學習構建孤立森林模型的裝置900,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述模型的第一樹中包括第一節點,所述裝置配置在所述至少兩個資料方中的第一資料方的設備中,所述第一資料方的設備中擁有各個樣本的第一特徵的特徵值,並且儲存有第一特徵與預先確定的第一特徵標識的對應關係,所述裝置包括: 接收單元91,配置為,從所述計算方的設備接收第一節點的標識、多個樣本標識和第一特徵標識,其中,所述多個樣本標識與多個樣本分別對應; 選擇單元92,配置為,基於本地儲存第一特徵標識與第一特徵的對應關係,從所述多個樣本各自的第一特徵的特徵值中隨機選擇一個特徵值作為第一節點的分裂值; 記錄單元93,配置為,記錄所述第一節點與所述第一特徵和所述分裂值的對應關係; 分組單元94,配置為,基於所述分裂值對所述多個樣本進行分組,以構建所述第一節點的兩個子節點; 確定單元95,配置為,分別確定所述兩個子節點是否為葉子節點; 發送單元96,配置為,基於所述分組和確定的結果,將與兩個子節點分別對應的資訊發送給所述計算方的設備,從而構建孤立森林模型以用於進行業務處理。 在一個實施例中,所述兩個子節點中包括第二節點,其中,與第二節點對應的資訊包括,所述第二節點為葉子節點,所述裝置還包括,計算單元97,配置為,計算並儲存所述第二節點的節點深度。 圖10顯示根據本說明書實施例的一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置1000,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述計算方的設備中儲存有所述模型中第一樹的樹結構、所述第一樹中各個節點對應的資料方,所述裝置配置於所述計算方的設備中,包括: 第一獲取單元101,配置為,獲取第一物件的物件標識; 第一發送單元102,配置為,將所述物件標識發送給各個資料方; 第一接收單元103,配置為,從各個資料方設備接收該資料方在其對應的至少一個非葉子節點分別進行的對所述第一物件的至少一次劃分結果; 第一確定單元104,配置為,基於第一樹的樹結構、以及來自所述至少兩個資料方設備的在各個非葉子節點對所述第一物件的劃分結果,確定所述第一物件落入的第一葉子節點; 第二發送單元105,配置為,基於所述第一樹中的葉子節點各自對應的資料方,將所述第一葉子節點的標識發送給與所述第一葉子節點對應的第一資料方; 第二接收單元106,配置為,從所述第一資料方接收所述第一葉子節點的節點深度; 預測單元107,配置為,基於所述節點深度預測第一物件的異常性,以用於進行業務處理。 在一個實施例中,所述裝置還包括,第二獲取單元108,配置為,基於對所述第一物件的預測結果,獲取訓練樣本,以用於訓練監督學習模型。 在一個實施例中,所述裝置還包括,第二確定單元109,配置為,基於所述訓練好的監督學習模型的參數,確定所述孤立森林模型的樣本包括的特徵。 圖11顯示根據本說明書實施例的一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置1100,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述至少兩個資料方中的第一資料方的設備中記錄有:其對應的所述第一樹中第一節點的第一特徵和分裂值,並且所述第一資料方的設備中儲存有各個物件的第一特徵的特徵值,所述裝置配置於所述第一資料方的設備中,包括: 第一接收單元111,配置為,從所述計算方的設備接收第一物件的物件標識; 獲取單元112,配置為,基於本地儲存的第一節點的第一特徵,從本地獲取所述第一物件的第一特徵的特徵值; 劃分單元113,配置為,基於本地儲存的所述第一物件的第一特徵的特徵值和所述第一節點的分裂值,在第一節點對所述第一物件進行劃分; 第一發送單元114,配置為,將所述劃分的結果發送給所述計算方的設備,從而用於預測所述第一物件的異常性以用於進行業務處理。 在一個實施例中,所述第一資料方的設備中記錄有所述第一樹中第二節點的節點深度,所述裝置還包括,第二接收單元115,配置為,從所述計算方的設備接收所述第一物件所落入的第二節點的標識,以及第二發送單元116,配置為,將所述第二節點的節點深度發送給所述計算方的設備。 本說明書另一態樣提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行上述任一項方法。 本說明書另一態樣提供一種計算設備,包括記憶體和處理器,其中,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現上述任一項方法。 通過根據本說明書實施例的基於聯邦學習構建孤立森林模型並使用該模型進行異常性預測的方案,可使用多個資料方的資料共同構建孤立森林模型,並使用多個資料方的資料和該模型的資料共同對物件異常性進行預測,同時保護各個資料方的資料不洩露給其它方,在擴充了用於構建孤立森林模型的資料量、增加模型的預測準確率的同時,保護了各個資料方的資料安全。 需要理解,本文中的“第一”,“第二”等描述,僅僅為了描述的簡單而對相似概念進行區分,並不具有其他限定作用。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求顯示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。 本領域普通技術人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各範例的單元及演算法步驟,能夠以電子硬體、電腦軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各範例的組成及步驟。這些功能究竟以硬體還是軟體方式來執軌道,取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。 結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執軌道的軟體模組,或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可程式化ROM、電可抹除可程式化ROM、暫存器、硬碟、可移動磁碟、CD-ROM、或技術領域內所眾所皆知的任意其它形式的儲存媒體中。 以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
302-322:步驟 402-426:步驟 502-516:步驟 800:裝置 81:獲取單元 82:選擇單元 83:發送單元 84:第一記錄單元 85:接收單元 86:第二記錄單元 900:裝置 91:接收單元 92:選擇單元 93:記錄單元 94:分組單元 95:確定單元 96:發送單元 97:計算單元 1000:裝置 101:第一獲取單元 102:第一發送單元 103:第一接收單元 104:第一確定單元 105:第二發送單元 106:第二接收單元 107:預測單元 108:第二獲取單元 109:第二確定單元 1100:裝置 111:第一接收單元 112:獲取單元 113:劃分單元 114:第一發送單元 115:第二接收單元 116:第二發送單元
通過結合附圖描述本說明書實施例,可以使得本說明書實施例更加清楚: [圖1]顯示根據本說明書實施例的構建和使用孤立森林模型的場景示意圖; [圖2]示意顯示了通過上述構建過程使得B方獲取的所構建的模型中的樹1的結構圖; [圖3]示意顯示根據本說明書實施例的基於聯邦學習構建圖2中節點1的方法時序圖; [圖4]示意顯示根據本說明書實施例的基於聯邦學習構建圖2中節點2的方法時序圖; [圖5]示意顯示根據本說明書實施例的基於聯邦學習通過孤立森林模型預測物件異常性的方法時序圖; [圖6]顯示了B方結合A方和C方的劃分結果確定物件x落入葉子節點的示意圖 [圖7]示意顯示了根據本說明書實施例的多方無監督學習模型與監督學習模型之間的相互最佳化過程; [圖8]顯示本說明書實施例的一種基於聯邦學習構建孤立森林模型的裝置800; [圖9]顯示根據本說明書實施例的一種基於聯邦學習構建孤立森林模型的裝置900; [圖10]顯示根據本說明書實施例的一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置1000; [圖11]顯示根據本說明書實施例的一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置1100。

Claims (28)

  1. 一種基於聯邦學習構建孤立森林模型的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述方法由計算方的設備相對於所述模型中的第一樹中的第一節點執行,所述至少兩個資料方包括第一資料方,所述計算方設備中預先儲存了m個特徵標識與各個資料方的對應關係,所述m個特徵標識分別為m個特徵各自的預定標識,所述方法包括: 獲取與第一節點對應的多個樣本標識,所述多個樣本標識與多個樣本分別對應,每個樣本包括所述m個特徵的特徵值; 從所述m個特徵標識中隨機選擇一個特徵標識; 在所述選擇的特徵標識為第一特徵標識的情況中,基於本地儲存第一特徵標識與第一資料方的對應關係,將所述第一節點的標識、所述多個樣本標識和所述第一特徵標識發送給所述第一資料方; 記錄所述第一節點與所述第一資料方的對應關係; 從所述第一資料方接收與所述第一節點的兩個子節點分別對應的資訊,從而在保護各資料方私有資料的同時構建孤立森林模型以用於進行業務處理。
  2. 根據請求項1所述的方法,所述第一節點為根節點,其中,獲取與第一節點對應的多個樣本標識包括,獲取N個樣本標識,從所述N個樣本標識中隨機獲取n個樣本標識,其中N>n。
  3. 根據請求項1所述的方法,其中,所述兩個子節點中包括第二節點,與所述第二節點對應的資訊包括,所述第二節點為葉子節點,所述方法還包括,記錄所述第二節點標識與所述第一資料方的對應關係。
  4. 根據請求項3所述的方法,其中,所述兩個子節點中包括第三節點,與所述第三節點對應的資訊包括,分到所述第三節點的u個樣本標識,其中,所述u個樣本標識為所述多個樣本標識中的一部分。
  5. 根據請求項1所述的方法,其中,所述至少一個資料方為至少一個網路平臺,所述多個樣本與網路平臺中的多個物件分別對應。
  6. 根據請求項5所述的方法,其中,所述物件為以下任一項:消費者、交易、商家、商品。
  7. 一種基於聯邦學習構建孤立森林模型的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述模型的第一樹中包括第一節點,所述方法由所述至少兩個資料方中的第一資料方的設備執行,所述第一資料方的設備中擁有各個樣本的第一特徵的特徵值,並且儲存有第一特徵與預先確定的第一特徵標識的對應關係,所述方法包括: 從所述計算方的設備接收第一節點的標識、多個樣本標識和第一特徵標識,其中,所述多個樣本標識與多個樣本分別對應; 基於本地儲存第一特徵標識與第一特徵的對應關係,從所述多個樣本各自的第一特徵的特徵值中隨機選擇一個特徵值作為第一節點的分裂值; 記錄所述第一節點與所述第一特徵和所述分裂值的對應關係; 基於所述分裂值對所述多個樣本進行分組,以構建所述第一節點的兩個子節點; 分別確定所述兩個子節點是否為葉子節點; 基於所述分組和確定的結果,將與兩個子節點分別對應的資訊發送給所述計算方的設備,從而在保護各資料方私有資料的同時構建孤立森林模型以用於進行業務處理。
  8. 根據請求項7所述的方法,其中,所述兩個子節點中包括第二節點,其中,與第二節點對應的資訊包括,所述第二節點為葉子節點,所述方法還包括,計算並儲存所述第二節點的節點深度。
  9. 一種基於聯邦學習通過孤立森林模型預測物件異常性的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述計算方的設備中儲存有所述模型中第一樹的樹結構、所述第一樹中各個節點對應的資料方,所述方法由所述計算方的設備執行,包括: 獲取第一物件的物件標識; 將所述物件標識發送給各個資料方; 從各個資料方設備接收該資料方在其對應的至少一個非葉子節點分別進行的對所述第一物件的至少一次劃分結果; 基於第一樹的樹結構、以及來自所述至少兩個資料方設備的在各個非葉子節點對所述第一物件的劃分結果,確定所述第一物件落入的第一葉子節點; 基於所述第一樹中的葉子節點各自對應的資料方,將所述第一葉子節點的標識發送給與所述第一葉子節點對應的第一資料方; 從所述第一資料方接收所述第一葉子節點的節點深度; 基於所述節點深度預測第一物件的異常性,以用於進行業務處理。
  10. 根據請求項9所述的方法,還包括,基於對所述第一物件的預測結果,獲取訓練樣本,以用於訓練監督學習模型。
  11. 根據請求項10所述的方法,還包括,基於所述訓練好的監督學習模型的參數,最佳化所述孤立森林模型的樣本特徵。
  12. 一種基於聯邦學習通過孤立森林模型預測物件異常性的方法,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述至少兩個資料方中的第一資料方的設備中記錄有:其對應的所述第一樹中第一節點的第一特徵和分裂值,並且所述第一資料方的設備中儲存有各個物件的第一特徵的特徵值,所述方法由所述第一資料方的設備執行,包括: 從所述計算方的設備接收第一物件的物件標識; 基於本地儲存的第一節點的第一特徵,從本地獲取所述第一物件的第一特徵的特徵值; 基於本地儲存的所述第一物件的第一特徵的特徵值和所述第一節點的分裂值,在第一節點對所述第一物件進行劃分; 將所述劃分的結果發送給所述計算方的設備,從而用於預測所述第一物件的異常性以用於進行業務處理。
  13. 根據請求項12所述的方法,其中,所述第一資料方的設備中記錄有所述第一樹中第二節點的節點深度,所述方法還包括,從所述計算方的設備接收所述第一物件所落入的第二節點的標識,將所述第二節點的節點深度發送給所述計算方的設備。
  14. 一種基於聯邦學習構建孤立森林模型的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述裝置相對於所述模型中的第一樹中的第一節點配置於計算方的設備中,所述至少兩個資料方包括第一資料方,所述計算方設備中預先儲存了m個特徵標識與各個資料方的對應關係,所述m個特徵標識分別為m個特徵各自的預定標識,所述裝置包括: 獲取單元,配置為,獲取與第一節點對應的多個樣本標識,所述多個樣本標識與多個樣本分別對應,每個樣本包括所述m個特徵的特徵值; 選擇單元,配置為,從所述m個特徵標識中隨機選擇一個特徵標識; 發送單元,配置為,在所述選擇的特徵標識為第一特徵標識的情況中,基於本地儲存第一特徵標識與第一資料方的對應關係,將所述第一節點的標識、所述多個樣本標識和所述第一特徵標識發送給所述第一資料方; 第一記錄單元,配置為,記錄所述第一節點與所述第一資料方的對應關係; 接收單元,配置為,從所述第一資料方接收與所述第一節點的兩個子節點分別對應的資訊,從而構建孤立森林模型以用於進行業務處理。
  15. 根據請求項14所述的裝置,所述第一節點為根節點,其中,所述獲取單元還配置為,獲取N個樣本標識,從所述N個樣本標識中隨機獲取n個樣本標識,其中N>n。
  16. 根據請求項14所述的裝置,其中,所述兩個子節點中包括第二節點,與所述第二節點對應的資訊包括,所述第二節點為葉子節點,所述裝置還包括,第二記錄單元,配置為,記錄所述第二節點標識與所述第一資料方的對應關係。
  17. 根據請求項16所述的裝置,其中,所述兩個子節點中包括第三節點,與所述第三節點對應的資訊包括,分到所述第三節點的u個樣本標識,其中,所述u個樣本標識為所述多個樣本標識中的一部分。
  18. 根據請求項14所述的裝置,其中,所述至少一個資料方為至少一個網路平臺,所述多個樣本與網路平臺中的多個物件分別對應。
  19. 根據請求項18所述的裝置,其中,所述物件為以下任一項:消費者、交易、商家、商品。
  20. 一種基於聯邦學習構建孤立森林模型的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述模型的第一樹中包括第一節點,所述裝置配置在所述至少兩個資料方中的第一資料方的設備中,所述第一資料方的設備中擁有各個樣本的第一特徵的特徵值,並且儲存有第一特徵與預先確定的第一特徵標識的對應關係,所述裝置包括: 接收單元,配置為,從所述計算方的設備接收第一節點的標識、多個樣本標識和第一特徵標識,其中,所述多個樣本標識與多個樣本分別對應; 選擇單元,配置為,基於本地儲存第一特徵標識與第一特徵的對應關係,從所述多個樣本各自的第一特徵的特徵值中隨機選擇一個特徵值作為第一節點的分裂值; 記錄單元,配置為,記錄所述第一節點與所述第一特徵和所述分裂值的對應關係; 分組單元,配置為,基於所述分裂值對所述多個樣本進行分組,以構建所述第一節點的兩個子節點; 確定單元,配置為,分別確定所述兩個子節點是否為葉子節點; 發送單元,配置為,基於所述分組和確定的結果,將與兩個子節點分別對應的資訊發送給所述計算方的設備,從而構建孤立森林模型以用於進行業務處理。
  21. 根據請求項20所述的裝置,其中,所述兩個子節點中包括第二節點,其中,與第二節點對應的資訊包括,所述第二節點為葉子節點,所述裝置還包括,計算單元,配置為,計算並儲存所述第二節點的節點深度。
  22. 一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述計算方的設備中儲存有所述模型中第一樹的樹結構、所述第一樹中各個節點對應的資料方,所述裝置配置於所述計算方的設備中,包括: 第一獲取單元,配置為,獲取第一物件的物件標識; 第一發送單元,配置為,將所述物件標識發送給各個資料方; 第一接收單元,配置為,從各個資料方設備接收該資料方在其對應的至少一個非葉子節點分別進行的對所述第一物件的至少一次劃分結果; 第一確定單元,配置為,基於第一樹的樹結構、以及來自所述至少兩個資料方設備的在各個非葉子節點對所述第一物件的劃分結果,確定所述第一物件落入的第一葉子節點; 第二發送單元,配置為,基於所述第一樹中的葉子節點各自對應的資料方,將所述第一葉子節點的標識發送給與所述第一葉子節點對應的第一資料方; 第二接收單元,配置為,從所述第一資料方接收所述第一葉子節點的節點深度; 預測單元,配置為,基於所述節點深度預測第一物件的異常性,以用於進行業務處理。
  23. 根據請求項22所述的裝置,還包括,第二獲取單元,配置為,基於對所述第一物件的預測結果,獲取訓練樣本,以用於訓練監督學習模型。
  24. 根據請求項23所述的裝置,還包括,第二確定單元,配置為,基於所述訓練好的監督學習模型的參數,確定所述孤立森林模型的樣本包括的特徵。
  25. 一種基於聯邦學習通過孤立森林模型預測物件異常性的裝置,所述聯邦學習的參與方包括計算方和至少兩個資料方,所述至少兩個資料方中的第一資料方的設備中記錄有:其對應的所述第一樹中第一節點的第一特徵和分裂值,並且所述第一資料方的設備中儲存有各個物件的第一特徵的特徵值,所述裝置配置於所述第一資料方的設備中,包括: 第一接收單元,配置為,從所述計算方的設備接收第一物件的物件標識; 獲取單元,配置為,基於本地儲存的第一節點的第一特徵,從本地獲取所述第一物件的第一特徵的特徵值; 劃分單元,配置為,基於本地儲存的所述第一物件的第一特徵的特徵值和所述第一節點的分裂值,在第一節點對所述第一物件進行劃分; 第一發送單元,配置為,將所述劃分的結果發送給所述計算方的設備,從而用於預測所述第一物件的異常性以用於進行業務處理。
  26. 根據請求項25所述的裝置,其中,所述第一資料方的設備中記錄有所述第一樹中第二節點的節點深度,所述裝置還包括,第二接收單元,配置為,從所述計算方的設備接收所述第一物件所落入的第二節點的標識,以及第二發送單元,配置為,將所述第二節點的節點深度發送給所述計算方的設備。
  27. 一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行如請求項1至13中任一項的所述的方法。
  28. 一種計算設備,包括記憶體和處理器,其中,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現如請求項1至13中任一項所述的方法。
TW109115727A 2019-12-12 2020-05-12 基於聯邦學習的孤立森林模型構建和預測方法和裝置 TWI780433B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911288850.5A CN110991552B (zh) 2019-12-12 2019-12-12 基于联邦学习的孤立森林模型构建和预测方法和装置
CN201911288850.5 2019-12-12

Publications (2)

Publication Number Publication Date
TW202123050A true TW202123050A (zh) 2021-06-16
TWI780433B TWI780433B (zh) 2022-10-11

Family

ID=70093746

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109115727A TWI780433B (zh) 2019-12-12 2020-05-12 基於聯邦學習的孤立森林模型構建和預測方法和裝置

Country Status (3)

Country Link
CN (2) CN113065610B (zh)
TW (1) TWI780433B (zh)
WO (1) WO2021114821A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI807961B (zh) * 2022-08-11 2023-07-01 財團法人亞洲大學 基於分布式集群的多層聯邦學習系統與方法
TWI812293B (zh) * 2022-06-20 2023-08-11 英業達股份有限公司 使用資料摘要的聯邦學習系統及其方法
TWI829558B (zh) * 2023-03-17 2024-01-11 英業達股份有限公司 保護資料摘要的聯邦學習系統及其方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065610B (zh) * 2019-12-12 2022-05-17 支付宝(杭州)信息技术有限公司 基于联邦学习的孤立森林模型构建和预测方法和装置
CN111695675B (zh) * 2020-05-14 2024-05-07 平安科技(深圳)有限公司 联邦学习模型训练方法及相关设备
CN112231768B (zh) * 2020-10-27 2021-06-18 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN112529102B (zh) * 2020-12-24 2024-03-12 深圳前海微众银行股份有限公司 特征拓展方法、设备、介质及计算机程序产品
CN113807544B (zh) * 2020-12-31 2023-09-26 京东科技控股股份有限公司 一种联邦学习模型的训练方法、装置及电子设备
CN112862057B (zh) * 2021-04-07 2023-11-03 京东科技控股股份有限公司 一种建模方法、装置、电子设备和可读介质
CN113420072B (zh) * 2021-06-24 2024-04-05 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN113537361B (zh) * 2021-07-20 2024-04-02 同盾科技有限公司 联邦学习系统中的跨样本特征选择方法及联邦学习系统
CN113554182B (zh) * 2021-07-27 2023-09-19 西安电子科技大学 一种横向联邦学习系统中拜占庭节点的检测方法及系统
CN113408668A (zh) * 2021-07-30 2021-09-17 深圳前海微众银行股份有限公司 基于联邦学习系统的决策树构建方法、装置及电子设备
CN113723477B (zh) * 2021-08-16 2024-04-30 同盾科技有限公司 一种基于孤立森林的跨特征联邦异常数据检测方法
CN113506163B (zh) * 2021-09-07 2021-11-23 百融云创科技股份有限公司 一种基于纵向联邦的孤立森林训练和预测方法及系统
CN114611616B (zh) * 2022-03-16 2023-02-07 吕少岚 一种基于集成孤立森林的无人机智能故障检测方法及系统
CN114785810B (zh) * 2022-03-31 2023-05-16 海南师范大学 一种适用于联邦学习的树状广播数据同步方法
CN114996749B (zh) * 2022-08-05 2022-11-25 蓝象智联(杭州)科技有限公司 一种用于联邦学习的特征过滤方法
CN115907029B (zh) * 2022-11-08 2023-07-21 北京交通大学 面向联邦学习投毒攻击的防御方法及系统
CN115766282B (zh) * 2022-12-12 2024-05-24 张家港金典软件有限公司 一种用于企业信息安全监督的数据处理方法及系统
CN117077067B (zh) * 2023-10-18 2023-12-22 北京亚康万玮信息技术股份有限公司 一种基于智能匹配的信息系统自动部署规划方法
CN117874653B (zh) * 2024-03-11 2024-05-31 武汉佳华创新电气有限公司 一种基于多源数据的电力系统安全监测方法及系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346981B2 (en) * 2016-11-04 2019-07-09 Eric Kenneth Anderson System and method for non-invasive tissue characterization and classification
JP6782679B2 (ja) * 2016-12-06 2020-11-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置、情報処理方法及びプログラム
CN112182578A (zh) * 2017-10-24 2021-01-05 创新先进技术有限公司 一种模型训练方法、检测url的方法及装置
US10893466B2 (en) * 2017-10-27 2021-01-12 LGS Innovations LLC Rogue base station router detection with statistical algorithms
US11494667B2 (en) * 2018-01-18 2022-11-08 Google Llc Systems and methods for improved adversarial training of machine-learned models
JP6879239B2 (ja) * 2018-03-14 2021-06-02 オムロン株式会社 異常検知システム、サポート装置およびモデル生成方法
US10685159B2 (en) * 2018-06-27 2020-06-16 Intel Corporation Analog functional safety with anomaly detection
CN109299728B (zh) * 2018-08-10 2023-06-27 深圳前海微众银行股份有限公司 基于构建梯度树模型的样本联合预测方法、系统及介质
CN109002861B (zh) * 2018-08-10 2021-11-09 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109684311A (zh) * 2018-12-06 2019-04-26 中科恒运股份有限公司 异常数据检测方法及装置
CN109859029A (zh) * 2019-01-04 2019-06-07 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备以及存储介质
US10430727B1 (en) * 2019-04-03 2019-10-01 NFL Enterprises LLC Systems and methods for privacy-preserving generation of models for estimating consumer behavior
CN110084377B (zh) * 2019-04-30 2023-09-29 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110191110B (zh) * 2019-05-20 2020-05-19 山西大学 基于网络表示学习的社交网络异常账户检测方法及系统
CN110414555B (zh) * 2019-06-20 2023-10-03 创新先进技术有限公司 检测异常样本的方法及装置
CN110309587B (zh) * 2019-06-28 2024-01-16 京东城市(北京)数字科技有限公司 决策模型构建方法、决策方法与决策模型
CN110363305B (zh) * 2019-07-17 2023-09-26 深圳前海微众银行股份有限公司 联邦学习方法、系统、终端设备及存储介质
CN110517154A (zh) * 2019-07-23 2019-11-29 平安科技(深圳)有限公司 数据模型训练方法、系统及计算机设备
CN113065610B (zh) * 2019-12-12 2022-05-17 支付宝(杭州)信息技术有限公司 基于联邦学习的孤立森林模型构建和预测方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI812293B (zh) * 2022-06-20 2023-08-11 英業達股份有限公司 使用資料摘要的聯邦學習系統及其方法
TWI807961B (zh) * 2022-08-11 2023-07-01 財團法人亞洲大學 基於分布式集群的多層聯邦學習系統與方法
TWI829558B (zh) * 2023-03-17 2024-01-11 英業達股份有限公司 保護資料摘要的聯邦學習系統及其方法

Also Published As

Publication number Publication date
CN113065610A (zh) 2021-07-02
CN113065610B (zh) 2022-05-17
TWI780433B (zh) 2022-10-11
CN110991552A (zh) 2020-04-10
WO2021114821A1 (zh) 2021-06-17
CN110991552B (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
WO2021114821A1 (zh) 基于联邦学习的孤立森林模型构建和预测方法和装置
CN106779975B (zh) 基于区块链的信誉信息的防篡改方法
US8533843B2 (en) Device, method, and program product for determining an overall business service vulnerability score
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN104866484A (zh) 一种数据处理方法和装置
CN109255056A (zh) 区块链的数据引用处理方法、装置、设备及存储介质
JP7257172B2 (ja) 通信プログラム、通信装置、および、通信方法
CN111160783A (zh) 数字资产价值的评价方法、系统及电子设备
CN107346315A (zh) 对象数据关联索引系统及该系统的构建与应用方法
Iren et al. Cost of quality in crowdsourcing
Marchant et al. Bringing technological transparency to tenebrous markets: the case for using blockchain to validate carbon credit trading markets
CN112200684B (zh) 一种检测医保欺诈的方法、系统及存储介质
Lee et al. Preserving liberty and fairness in combinatorial double auction games based on blockchain
CN110570189B (zh) 账户风险防控方法和系统
CN104657899A (zh) 用于处理有自我意识的代币的方法和系统
CN115660814A (zh) 风险预测方法、装置、计算机可读存储介质及电子设备
JP4607943B2 (ja) セキュリティレベル評価装置およびセキュリティレベル評価プログラム
CN113592529A (zh) 债券产品的潜在客户推荐方法和装置
CN111368337A (zh) 保护隐私的样本生成模型构建、仿真样本生成方法及装置
Utami et al. The resilience assessment of supply networks: A case study from the Indonesian Fertilizer Industry
CN113392164A (zh) 构建纵向联邦树的方法、主服务器、业务平台和系统
US20240007290A1 (en) Systems and method for determining qualities of non-fungible tokens
CN116383884B (zh) 一种基于人工智能的数据安全防护方法及系统
Mitchell et al. A Proposed Permissioned Blockchain Consensus Algorithm: Consensus Algorithm Genetically Enhanced (CAGE)
Alabi Decentralization as a Tool for Securing Ecommerce and Business Processes

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent