TWI712917B

TWI712917B - 檢測資料模型安全性的方法及裝置

Info

Publication number: TWI712917B
Application number: TW108115680A
Authority: TW
Inventors: 王華忠; 李漓春; 殷山
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2018-07-17
Filing date: 2019-05-07
Publication date: 2020-12-11
Also published as: TW202006590A; CN110728290B; WO2020015480A1; CN110728290A

Abstract

本說明書實施例提供一種檢測資料模型的安全性以及降低其安全風險的方法和裝置，其中資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算。在上述中，首先獲取資料模型中包含的多個模型參數，然後確定多個模型參數的差異統計資訊，包括與參數取值大小差異相關的統計量，和/或與參數位數差異相關的統計量。接著，根據差異統計資訊，確定資料模型的安全性評估資訊。進一步地，還可以對資料模型的輸出結果進行限制處理，以降低其輸出結果的資訊量，進一步降低安全性風險。

Description

檢測資料模型安全性的方法及裝置

本說明書一個或多個實施例關於資料安全領域，尤其關於檢測資料模型的安全性的方法和裝置。

巨量資料時代，存在非常多的資料孤島。每個自然人的資料分散存於不同的企業中，企業與企業之間由於競爭關係和用戶隱私保護的考慮，並不是完全的互相信任。企業之間進行資料合作的重要原則是原始資料不出邊界，把計算移到資料端完成。多方安全計算平臺就是為了解決不同企業資料合作過程中資料隱私保護問題而開發設計。資料合作的一種常用的方案是:在資料合作過程中，資料需求方把自己訓練好的的機器學習資料模型部署到資料提供方。模型預測時，系統即時獲取資料提供方的原始資料，然後經過模型計算，得到模型結果，返回給資料需求方。如果部署的是安全的模型，那麼資料需求方是不能通過模型的輸出反推模型的全部或者部分輸入結果的，資料提供方不會洩露原始資料。然而，如果資料需求方對模型進行特殊構造，那麼有可能根據模型結果獲得部分原始資料。此時對資料提供方而言，該模型就是一個不安全的模型。模型的安全部署是提高平臺安全性、增強資料合作雙方的互相信任的重要環節。因此，需要一種方案，能夠有效地對資料模型的安全性進行檢測，並盡可能降低安全性風險。

本說明書一個或多個實施例描述了一種方法和裝置，在資料模型部署之前，基於資料模型中模型參數的差異統計資訊，檢測該資料模型的安全性；進一步地，還可以對資料模型的輸出結果進行限制和調整，從而降低資料模型的安全風險。根據第一態樣，提供了一種檢測資料模型的安全性的方法，所述資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；所述方法包括：獲取所述資料模型中包含的多個模型參數；確定所述多個模型參數的差異統計資訊，所述差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；根據所述差異統計資訊，確定所述資料模型的安全性評估資訊。在一種實施方式中，上述方法由資料需求方執行。在這樣的情況下，根據一個實施例，資料需求方將差異統計資訊確定為安全性評估資訊，並將安全性評估資訊提供給所述資料提供方。根據另一實施例，資料需求方根據差異統計資訊，和預定的差異閾值，確定安全性評估資訊；並將安全性評估資訊提供給所述資料提供方。在另一種實施方式中，上述方法由資料提供方執行。在這樣的情況下，資料提供方從資料需求方接收所述多個模型參數。根據一個實施例，資料提供方根據所述差異統計資訊，和預定的差異閾值，確定安全性評估資訊。進一步地，還可以根據所述安全性評估資訊確定是否接受所述資料模型的部署。根據一種可能的實施方式，通過以下方式確定安全性評估資訊：根據針對某個差異統計量預設的多個差異閾值，將該某個差異統計量劃分為不同範圍，將所述不同範圍對應於不同的安全等級作為所述安全性評估資訊。根據另一種可能的實施方式，差異統計資訊包括多個統計量，在這樣的情況下，通過以下方式確定安全性評估資訊：針對所述多個統計量中的各個統計量與對應差異閾值的比較，確定與各個統計量相關的安全分數；基於所述與各個統計量相關的安全分數，以及針對各個統計量預設的權重，確定總的安全分數作為安全性評估資訊。在一個實施例中，上述第一統計量包括以下中的至少一項：最大參數與最小參數的比值，最大參數與最小參數的差值相對於最大參數的比例，最大參數與最小參數的差值相對於最小參數的比例，最大參數與參數均值的比例。在另一實施例中，上述第一統計量包括以下中的至少一項：參數的方差；所述多個模型參數的兩兩組合中，參數取值比例高於預設比例閾值的組合數目，參數取值之差高於預設差值閾值的組合數目。在一個實施例中，第二統計量包括以下中的至少一項：各參數小數位數的最大值與最小值的差，各參數的小數部分中連續有效零的個數，各參數的小數部分中連續有效零個數的最大值。在一個實施例中，資料模型包括，邏輯回歸模型，決策樹模型，梯度提升決策樹GBDT模型，評分卡模型。根據第二態樣，提供一種降低資料模型的安全風險的方法，所述資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；所述方法包括：確定所述資料模型的輸出結果的結果類型，所述結果類型至少包括連續數值和離散分類機率；在所述結果類型為連續數值的情況下，採用預定位元位數表示所述連續數值；在所述結果類型為離散分類機率的情況下，將所述離散分類機率轉換為分類決策結果。在一個實施例中，所述預定位元位數基於約定的輸出結果的範圍而預先設定。根據一個實施例，所述連續數值為小數，採用預定位元位數表示所述連續數值包括，對於所述連續數值保留預定位數的小數，該預定位數基於所述資料模型的模型參數的位數設置而預先設定。在一個實施例中，通過以下方式將離散分類機率轉換為分類決策結果：獲取分類決策的分類邊界，通過所述離散分類機率與所述分類邊界的比較，將所述離散分類機率轉換為分類決策結果。根據第三態樣，提供一種檢測資料模型的安全性的裝置，所述資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；所述裝置包括：獲取單元，配置為獲取所述資料模型中包含的多個模型參數；統計確定單元，配置為確定所述多個模型參數的差異統計資訊，所述差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元，配置為根據所述差異統計資訊，確定所述資料模型的安全性評估資訊。根據第四態樣，提供一種降低資料模型的安全風險的裝置，所述資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；所述裝置包括：類型確定單元，配置為確定所述資料模型的輸出結果的結果類型，所述結果類型至少包括連續數值和離散分類機率；連續數值處理單元，配置為在所述結果類型為連續數值的情況下，採用預定位元位數表示所述連續數值；離散結果處理單元，配置為在所述結果類型為離散分類機率的情況下，將所述離散分類機率轉換為分類決策結果。根據第五態樣，提供了一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行第一態樣和第二態樣的方法。根據第六態樣，提供了一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現第一態樣和第二態樣的方法。通過本說明書實施例提供的方法和裝置，在資料模型部署之前，基於資料模型中模型參數的差異統計資訊，確定資料模型的安全性評估資訊，從而檢測該資料模型的安全性。進一步地，在模型預測階段，還可以對資料模型的輸出結果進行限制和調整，降低輸出結果的資訊量，從而降低資料模型的安全風險。

下面結合圖式，對本說明書提供的方案進行描述。圖1為本說明書披露的一個實施例的實施場景示意圖。在該實施場景中，資料需求方與資料提供方進行資料合作，完成資料的處理和分析。具體地，資料提供方具有有待分析的來源資料，但是可能沒有適用的資料分析工具。資料需求方根據資料分析的需要，構建和訓練資料模型，然後把訓練好的資料模型部署到資料提供方。在這個意義上，資料需求方又可以稱為模型提供方。模型提供方將資料模型部署到資料提供方後，資料模型可以在資料提供方的平臺中運行，獲取資料提供方的來源資料，對來源資料進行分析、處理、運算，然後將運算結果返回給資料需求方，即模型提供方。例如，在一個例子中，資料提供方為銀行或金融機構，他們擁有大量的使用者資訊作為來源資料，這些使用者資訊例如包括使用者年齡、收入、地址等使用者私密資訊。銀行或金融機構希望基於這些使用者資訊，對使用者的信用風險進行評估，但是出於對用戶的隱私保護，並不能直接把這些資料提供給其他機構。於是，可以選擇與資料需求方進行資料合作。資料需求方(即模型提供方)例如是電子金融平臺，例如支付寶，螞蟻財富平臺等。這些平臺出於業務需要，希望能夠獲取使用者的信用風險資料。因此，作為資料需求方的電子金融平臺可以訓練好一些信用評估模型，部署到銀行或金融機構，對使用者資訊進行處理和分析，從而獲得的用戶信用風險評估結果。為了進一步保證資料的安全，在本說明書提供的一個或多個實施例中，在常規模型訓練、模型部署之外，還對資料模型本身的安全性進行檢測和評估，並採取一定方式降低資料模型的安全風險。在一個實施例中，在對資料模型進行部署之前，首先檢測資料模型的安全性。安全性的檢測可以基於資料模型中模型參數的差異統計來進行。資料提供方可以根據安全性檢測的結果，來決定是否接受該資料模型的部署，或者要求模型提供方對模型參數進行修改。另一方面，還可以對資料模型的輸出結果進行限制調整，減少輸出結果的資訊量，進一步降低根據輸出結果竊取資料提供方的來源資料的風險。下面描述以上構思的具體實現方式。圖2示出根據一個實施例的檢測資料模型的安全性的方法。如前所述，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算。如圖2所示，該檢測方法包括：步驟21，獲取資料模型中包含的多個模型參數；步驟23，確定所述多個模型參數的差異統計資訊，所述差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；步驟25，根據差異統計資訊，確定資料模型的安全性評估資訊。圖2所示的方法可以由資料提供方執行，或者由資料需求方執行，或者由資料提供方與資料需求方協同執行。圖3A到圖3C分別示出在不同實施例中以上的檢測方法的執行方式。在圖3A所示例的實施例中，資料模型安全性的檢測主要由資料提供方執行。在該實施例中，模型提供方/資料需求方將訓練好的模型中的模型參數發送給資料提供方。換而言之，資料提供方在執行步驟21時，接收模型提供方所提供的模型參數。然後，在步驟23，確定模型參數的差異統計資訊；在步驟25，分析差異統計資訊，得出模型安全性評估資訊。進一步地，資料提供方可以根據安全性評估資訊決定是否接受該資料模型的部署，並向模型提供方返回是否接受部署的消息。在圖3B所示例的實施例中，資料模型安全性的檢測主要由資料需求方即模型提供方執行。在該實施例中，模型提供方/資料需求方在步驟21，獲取已訓練的資料模型的模型參數。然後，在步驟23，確定模型參數的差異統計資訊；在步驟25，分析差異統計資訊，得出模型安全性評估資訊。進一步地，模型提供方可以將模型安全性評估資訊發送給資料提供方，使得資料提供方根據該安全性評估資訊決定是否接受該資料模型的部署，並向模型提供方返回是否接受部署的消息。在圖3C所示例的實施例中，資料模型安全性的檢測由模型提供方和資料提供方協同執行。在該實施例中，模型提供方在步驟21，獲取已訓練的資料模型的模型參數。然後，在步驟23，確定模型參數的差異統計資訊。然後，模型提供方將差異統計資訊發送給資料提供方，由資料提供方對差異統計資訊進行進一步分析，判斷模型的安全性。在該實施例中，也可以認為，模型提供方在步驟25，將差異統計資訊確定為初步的安全性評估資訊，然後將該初步的安全性評估資訊發送給資料提供方。資料提供方進而對初步的安全性評估資訊進行進一步分析處理，得出完善的安全性評估資訊。從而，資料提供方可以基於完善的安全性評估資訊，決定是否接受該資料模型的部署，並向模型提供方返回是否接受部署的消息。下面描述以上各個步驟的具體執行過程。首先，在步驟21，獲取資料模型中包含的多個模型參數。可以理解，這裡的資料模型是模型提供方構建、訓練好的資料模型，包括邏輯回歸模型、決策樹模型，評分卡模型，梯度提升決策樹GBDT模型等。模型參數可以是模型計算過程中使用到的各個參數，例如權重係數等。對於較為複雜的神經網路模型，可以選取同一隱藏層對應的模型參數進行分析。接著，在步驟23，確定所述多個模型參數的差異統計資訊。差異統計資訊可以包括，與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量。下面描述差異統計資訊，例如第一統計量和第二統計量，對模型安全性的影響。如前所述，在安全的資料模型中，模型提供方不能通過模型的輸出結果反向推出模型的全部或部分輸入，因而不會洩露來源資料。然而，通過對模型參數進行特殊設置，例如將參數的取值大小，或者參數位數進行異常的差異化設置，卻有可能從輸出結果反推出部分輸入資料。下面結合一個簡單的例子說明這個過程。在一個例子中，資料模型為邏輯回歸模型，更簡單地，採用的是如下線性回歸函數： Y=f(A,X)=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5 (式1) 其中，a1到a5為輸入資料，x1到x5為模型參數。目前許多邏輯回歸模型在處理連續變數的來源資料時，為了提高後續計算效率，會首先對變數進行分箱，然後進行獨熱(one-hot)編碼轉換，這樣處理的結果是，與模型參數直接運算的變數取值都是0或1。也就是說，以上a1到a5是與來源資料對應的經處理的輸入資料，取值為0或1。並且，來源資料處理的過程也是由資料模型進行，因此模型提供方可以知曉這些輸入變數的含義。例如，在一個例子中，輸入變數資料a1是對連續變數“使用者年齡”進行分箱、編碼的結果，表示年齡是否大於30歲，當取0時，表示小於30歲，取1時表示大於30歲。類似地，輸入變數資料a2和a3可以是對連續變數“使用者收入”進行分箱、編碼的結果，其中a2表示收入是否超過1萬元，a3表示收入是否超過3萬元，等等。因此，當a2和a3均取0，表示用戶收入不足1萬元；當a2取1，a3取0，表示用戶收入在1萬元到3萬元之間；當a2和a3均取1，表示用戶收入高於3萬元。對於以上的公式1，通過對模型參數x1到x5進行異常的差異化設置，有可能從輸出結果反推出部分輸入資料。一方面，差異化設置可以體現為，參數取值大小的差異化。在一個例子中，如果將某個參數的取值設置為遠遠大於其他參數，那麼這樣的差異化設置有可能為反推來源資料提供線索。例如，在一個具體例子中，x1,x2,...x5的取值分別是0.9，0.12，0.153，0.03，0.09，其中x1的取值被設置為遠遠大於其他參數。那麼x1是一個非常敏感的欄位。在公式(1)中輸入資料a1到a5均取值為0或1的情況下，通過最後結果的大小，至少可以判斷與x1對應的輸入參數a1的取值。如果結果Y大於0.9，說明a1取值是1，否則是0，(因為即使a2到a5全部取1，x2到x5的和也遠遠不足0.9)。由此，通過輸出結果，反推出輸入變數a1的取值，進而獲取到原始使用者資訊，例如a1所表示的用戶是否大於30歲。針對這樣的情況，可以獲取以下統計量中的一項或多項作為第一統計量：多個模型參數中，最大參數與最小參數的比值、最大參數與最小參數的差值相對於最大參數的比例、最大參數與最小參數的差值相對於最小參數的比例、最大參數與參數均值的比例等。這些統計量都可以反映，是否存在取值異常的參數，特別是取值遠大於其他參數的異常參數，從而為模型的安全性評估提供參考依據。在一個例子中，進一步地，如果將多個參數的取值設置為互相之間差距過大，那麼這樣的差異化設置也可以用於反推來源資料。例如，在一個具體例子中，x1,x2,...x5的取值分別是0.9，0.12，0.303，0.03，0.034。可以看到，這個例子中，5個參數中，x1的取值接近1，x2和x3為同一量級，但是有3倍的差距，而x4和x5則比x1到x3小一個量級。通過這樣差距較大的參數設置，有可能通過結果反推輸入變數的值。例如，可以推出如下結果：如果：0.4＜Y＜0.9，那麼：a1=0, a2=1, a3=1；如果：0.9＜Y＜1.0, 那麼：a1=1，a2=0，a3=0；如果：1.0＜Y＜1.3，那麼：a1=1，a2=1，a3=0；如果：Y＞1.3，那麼：a1=1，a2=1，a3=1。由此，可以通過輸出結果Y的範圍，反推出輸入變數a1，a2和a3的取值，進而獲取到原始使用者資訊，例如通過a1取值推斷用戶是否大於30歲，根據a2和a3的取值推斷用戶收入的範圍。針對這樣的情況，可以獲取以下統計量中的一項或多項作為第一統計量：參數的方差；多個模型參數的兩兩組合中，參數取值比例高於預設比例閾值的組合數目，參數取值之差高於預設差值閾值的組合數目，等等。例如，對於以上的x1到x5，可以形成10種兩兩參數組合，如果預設比例閾值為10，那麼參數取值比例高於預設比例閾值(10)的組合數目為3，即x1x4，x1x5，x3x4這3個組合。此外還可以計算參數取值之差過大的組合數目等統計量。這些統計量旨在反映，多個參數的取值互相之間是否存在差距過大的情況，從而為模型的安全性評估提供參考依據。另一方面，參數的差異化設置還可以體現為，參數位數的差異化。在一個例子中，如果將某些參數的小數有效位數進行特殊設置，例如位數遠超其他參數，或者位數差異較大，那麼小數位數的設置也可以起到特殊標記的作用，有可能為反推來源資料提供線索。例如，在一個具體例子中，x1,x2,...x5的取值分別是0.310000, 0.101000, 0.800100, 0.300010, 0.500001。可以看到，這5個參數的小數有效位數(即不含末尾的0)分別為2位，3位，4位，5位和6位。如此，通過結果的小數有效位數，可以反推出至少部分輸入變數的值。例如，如果結果Y的小數有效位數為5位，那麼至少可以推斷，x4參與了運算，a4取值為1。更進一步地，在以上例子中，實際上各個參數通過中間的零和末尾的1進行了特殊的標記。各個參數的小數點後第一位為取值位，從小數點後兩位開始實際上作用為標記位，分別將小數點後第2位，第3位，第4位元到第6位元標記為1，其他位數填充0。如此，可以從輸出結果Y的小數點後兩位開始的部分推斷輸入變數的取值，這部分中哪一位是1，對應的輸入變數取值即為1。例如，如果輸出結果Y的小數部分為.801001，那麼可以推斷，x2和x5參與了運算，相應地，a2和a5取值為1，其他變數取值為0。針對這樣的情況，可以獲取以下統計量中的一項或多項作為第二統計量：各參數小數位數的最大值與最小值的差，各參數的小數部分中連續有效零的個數，各參數的小數部分中連續有效零個數的最大值，等等。這些統計量都可以反映，是否存在小數位數異常的參數，例如小數位數的最大值與最小值的差可以反映小數位數長度的異常，小數部分中連續有效零的個數(也就是中間包含的連續0的個數)可以反映該小數是否可能用作標記位元，等等。因此，統計與參數位數差異相關的第二統計量也可以作為模型的安全性評估的依據。儘管在以上的例子中，是以輸入變數經過分箱、編碼後取值為0或1的離散值的例子進行說明，但是這樣的構思也同樣適用於輸入變數為連續變數的情況。例如，仍然以以上的公式(1)為例，假定輸入變數a1表示使用者收入，是取值範圍在0到100000之間的連續變數，一般地，a1的取值在2000到50000之間。假定這個變數是模型提供方最為關注的變數，那麼可以將對應的模型參數x1設置為遠遠大於其他參數，例如x1=0.99，x2到x5都是0.01左右的大小。那麼最終得到的結果Y，實際上約等於a1的大小，至少可以反映a1的大致範圍。如此，仍然可以通過模型參數的取值大小差異設置，獲知部分來源資料的值或範圍。因此，對於這樣的情況，同樣可以採用以上的差異統計資訊來衡量模型安全性風險。此外，儘管以上列出了若干種具體的統計量，但是本領域技術人員在閱讀本說明的情況下，有可能將其擴展到更多的統計量(例如將方差擴展到均方根，將參數小數位數的最大值與最小值的差擴展到小數位數的最大值與最小值的差與最大值的比例，等等)，只要這些統計量是與模型參數的取值大小差異和/或位數差異有關，都可以從一定程度一定角度反映模型安全性風險。在如上所述獲取了模型參數的差異統計資訊的基礎上，接著在步驟25，根據差異統計資訊，確定資料模型的安全性評估資訊。在一個實施例中，差異統計資訊可以直接作為簡單的安全性評估資訊。例如，在一個具體例子中，差異統計資訊包括第一統計量中的最大參數與最小參數的比值，該比值就可以作為安全性評估資訊。比值越大，安全性越低，比值越小，安全性越高。在另一實施例中，根據差異統計資訊，和預定的差異閾值，確定安全性評估資訊。在一個例子中，可以針對不同的差異統計量，設置不同的差異閾值，例如針對取值大小比例的統計量，設置比例閾值；針對位數差值的統計量，設置差值閾值等。針對同一差異統計量，可以設置多個差異閾值，從而將差異統計量劃分為不同範圍，這些不同範圍對應於不同的安全等級。例如，對於統計量S1：參數最大值與最小值的比值，可以設置第一閾值10和第二閾值100，當S1低於第一閾值10時，安全等級為高安全性；S1大於第一閾值10小於第二閾值100時，安全等級為中等安全性；S1大於第二閾值100時，安全等級為低安全性。在差異統計資訊包括多個統計量的情況下，還可以為每個統計量賦予一定的權重；在確定安全評估資訊時，可以首先針對各個統計量與對應差異閾值的比較，確定與該統計量相關的安全分數，然後基於各個統計量的權重，確定總的安全分數作為安全性評估資訊。例如，在一個具體例子中，差異統計資訊至少包括S1，S2和S3，其中統計量S1為參數最大值與最小值的比值，與S1相關的安全分數Q1的計算例如為，比值低於第一閾值10，安全分數為10；大於第一閾值10小於第二閾值100，安全分數為5；大於第二閾值100，安全分數為1。統計量S2為參數取值比例高於預設比例閾值的組合數目，可以基於S2確定對應的安全分數Q2(具體過程可以根據需要設定，不再詳細舉例)。統計量S3為各參數小數位數的最大值與最小值的差，可以基於S3確定對應的安全分數Q3。假定分別為這三個統計量賦予的權重為0.5,0.3,0.2，那麼可以得到與模型參數對應的總安全分數為：Q=0.5Q1+0.3Q2+0.2Q3。這樣的總安全分數可以確定為安全性評估資訊。如此，通過多種方式，基於差異統計資訊，確定出安全性評估資訊。這樣的安全評估資訊可以用於資料提供方來評估資料模型的安全性，進而決定是否要接受該資料模型的部署，或者是否要求模型提供方修改模型。如此，在模型部署之前，通過對模型安全性的檢測，對資料模型的安全性進行評估，提高資料合作中模型計算的安全性。另一方面，還提供一種降低資料模型的安全風險的方法。圖4示出根據一個實施例的降低資料模型安全風險的方法的流程圖，其中的資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算。如圖4所示，所述方法包括：步驟41，確定資料模型的輸出結果的結果類型，所述結果類型至少包括連續數值和離散分類機率；步驟43，在結果類型為連續數值的情況下，採用預定位元位數表示所述連續數值；步驟45，在結果類型為離散分類機率的情況下，將所述離散分類機率轉換為分類決策結果。在一個實施例中，圖4的方法可以由資料提供方執行。也就是，在資料提供方接受資料模型的部署之後，資料提供方為了進一步降低安全風險，可以添加一個計算元件來執行圖4的方法。通過該方法，截獲資料模型的輸出結果，對該輸出結果進行限制和調整，然後將經過限制和調整的輸出結果返回給模型提供方。在一個實施例中，圖4的方法可以由模型提供方執行。也就是，模型提供方可以應資料提供方的要求，為了進一步降低安全風險，在原資料模型的基礎上添加一個計算元件來執行圖4的方法。該計算元件可以附加到原資料模型之上，作為優化的資料模型的一部分，與原資料模型一起部署到資料提供方。通過該方法，模型提供方只獲取到經過限制和調整的輸出結果，從而降低資料提供方的安全風險。下面描述圖4流程中各個步驟的執行方式。首先，在步驟41，確定資料模型的輸出結果的結果類型。一般地，對於多數資料模型來說，結果類型可以包括，連續數值結果，和離散結果。連續數值結果例如是，利用邏輯回歸模型或評分卡模型基於使用者行為資料對使用者的信用值進行的打分，例如公式1中的輸出結果Y可以是連續數值結果。離散結果包括例如分類決策結果，例如對於輸入圖片，採用決策樹模型將其分類為一類圖片，即包含目標物件的圖片，或者二類圖片，即不包含目標物件的圖片。離散結果還可以包括離散分類機率，例如將某個圖片分類為一類圖片的機率，和分類為二類圖片的機率。對於不同的結果類型，下面進行不同的處理方式。在一個實施例中，在步驟43，在結果類型為連續數值的情況下，採用預定位元位數表示所述連續數值，其目的為，用儘量少的位元位數來表示輸出結果的數值，從而避免通過冗餘位元位提供附加標記而竊取來源資料資訊。在一個例子中，該預定位元位數可以基於約定的輸出結果的範圍來預先設定。例如，模型提供方可以與資料提供方約定，模型的輸出結果為0-100之間的打分。那麼，在步驟43，可以採用6個位元來表示該輸出結果，因為6個位元位足以表示最大值128的輸出值。而如果採用常規的浮點數定義(64位元位)，則會存在一些冗餘位，這些冗餘位有可能被利用來進行特殊標記，造成安全風險。在一個例子中，輸出結果為小數，在這樣的情況下，採用預定位元位數表示輸出結果包括，只保留預定位數的小數。該預定位數可以基於模型參數的位數設置而預先設定。例如，在前述的一個例子中，x1,x2,...x5的取值分別是0.310000, 0.101000, 0.800100, 0.300010, 0.500001，從小數點後兩位開始實際上作用為標記位。此時，可以將輸出結果設定為，只保留2位小數，從而在保留真實取值位的情況下，避免標記位對來源資料的標記作用。在一個實施例中，在將輸出結果的小數進行截斷之後，將小數的結果整數化，從而仍然採用預定位元位數表示輸出結果。另一方面，在步驟45，在結果類型為離散分類機率的情況下，將所述離散分類機率轉換為分類決策結果。為此，在一個實施例中，獲取分類決策的分類邊界。分類邊界可以預先由模型設定，也可以在該步驟指定。通過分類機率與分類邊界的比較，可以將離散分類機率轉換為分類決策結果。例如，在一個例子中，離散分類機率包括，屬於一類圖片的機率為65%，屬於二類圖片的機率為35%，分類邊界為50%，那麼可以將離散分類機率直接轉換為分類決策結果：一類圖片。通過這樣的方式，儘量地減少返回到模型提供方的輸出結果的資訊量，增加反推來源資料的難度，從而降低資料模型的安全性風險。根據另一方面的實施例，還提供一種檢測資料模型的安全性的裝置。圖5示出根據一個實施例的模型安全性檢測裝置的示意性框圖，該裝置用於檢測資料模型的安全性，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算。如圖5所示，檢測裝置500包括：獲取單元51，配置為獲取所述資料模型中包含的多個模型參數；統計確定單元53，配置為確定所述多個模型參數的差異統計資訊，所述差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元55，配置為根據所述差異統計資訊，確定所述資料模型的安全性評估資訊。在第一實施例中，裝置500設置在資料需求方。在這樣的情況下，在一個例子中，所述安全確定單元55可以配置為：將所述差異統計資訊確定為所述安全性評估資訊。進一步地，裝置500還可以包括提供單元(未示出)，配置為將所述安全性評估資訊提供給所述資料提供方。在另一例子中，所述安全確定單元55還可以配置為：根據所述差異統計資訊，和預定的差異閾值，確定安全性評估資訊。提供單元配置為將這樣的安全性評估資訊提供給所述資料提供方。在第二實施例中，裝置500設置在資料提供方。在這樣的情況下，獲取單元51配置為，從資料需求方接收所述多個模型參數。在一個例子中，安全確定單元55配置為：根據所述差異統計資訊，和預定的差異閾值，確定安全性評估資訊。進一步地，裝置500還包括部署確定單元(未示出)，配置為根據所述安全性評估資訊確定是否接受所述資料模型的部署。根據一種實施方式，不管裝置500設置在哪一方，安全確定單元55都可以配置為：根據針對某個差異統計量預設的多個差異閾值，將該某個差異統計量劃分為不同範圍，將所述不同範圍對應於不同的安全等級作為所述安全性評估資訊。根據一種實施方式，差異統計資訊包括多個統計量，此時安全確定單元55可以配置為：針對所述多個統計量中的各個統計量與對應差異閾值的比較，確定與各個統計量相關的安全分數；基於所述與各個統計量相關的安全分數，以及針對各個統計量預設的權重，確定總的安全分數作為安全性評估資訊。在一個實施例中，第一統計量包括以下中的至少一項：最大參數與最小參數的比值，最大參數與最小參數的差值相對於最大參數的比例，最大參數與最小參數的差值相對於最小參數的比例，最大參數與參數均值的比例。在另一實施例中，第一統計量包括以下中的至少一項：參數的方差；所述多個模型參數的兩兩組合中，參數取值比例高於預設比例閾值的組合數目，參數取值之差高於預設差值閾值的組合數目。在一個實施例中，第二統計量包括以下中的至少一項：各參數小數位數的最大值與最小值的差，各參數的小數部分中連續有效零的個數，各參數的小數部分中連續有效零個數的最大值。根據一種實施方式，所述資料模型包括，邏輯回歸模型，決策樹模型，梯度提升決策樹GBDT模型，評分卡模型。根據又一方面的實施例，還提供一種降低資料模型的安全風險的裝置。圖6示出根據一個實施例的降低安全風險的裝置，該裝置用於降低資料模型的安全風險，所述資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算。如圖6所示，用於降低安全風險的裝置600包括：類型確定單元61，配置為確定所述資料模型的輸出結果的結果類型，所述結果類型至少包括連續數值和離散分類機率；連續數值處理單元63，配置為在所述結果類型為連續數值的情況下，採用預定位元位數表示所述連續數值；離散結果處理單元65，配置為在所述結果類型為離散分類機率的情況下，將所述離散分類機率轉換為分類決策結果。在一個實施例中，上述預定位元位數基於約定的輸出結果的範圍而預先設定。根據一個實施例，在輸出的連續數值為小數的情況下，連續數值處理單元63配置為，對於所述連續數值保留預定位數的小數，該預定位數基於所述資料模型的模型參數的位數設置而預先設定。根據一個實施例，離散結果處理單元65配置為，獲取分類決策的分類邊界，通過所述離散分類機率與所述分類邊界的比較，將所述離散分類機率轉換為分類決策結果。如此，通過以上實施例，在模型部署之前，基於差異統計資訊，確定出安全性評估資訊。這樣的安全評估資訊可以用於資料提供方來評估資料模型的安全性，進而決定是否要接受該資料模型的部署，或者是否要求模型提供方修改模型。如此，在模型部署之前，通過對模型安全性的檢測，對資料模型的安全性進行評估，提高資料合作中模型計算的安全性。進一步地，在模型運行預測時，通過對輸出結果進行限制和調整，儘量地減少返回到模型提供方的輸出結果的資訊量，增加反推來源資料的難度，從而降低資料模型的安全性風險。根據另一方面的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行結合圖2和圖4所描述的方法。根據再一方面的實施例，還提供一種計算設備，包括記憶體和處理器，所述記憶體中儲存有可執行代碼，所述處理器執行所述可執行代碼時，實現結合圖2和圖4所述的方法。本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

51‧‧‧獲取單元 53‧‧‧統計確定單元 55‧‧‧安全確定單元 500‧‧‧檢測裝置 61‧‧‧類型確定單元 63‧‧‧連續數值處理單元 65‧‧‧離散結果處理單元 600‧‧‧裝置

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。圖1示出本說明書披露的一個實施例的實施場景示意圖；圖2示出根據一個實施例的檢測資料模型的安全性的方法；圖3A示出在一個實施例中檢測方法的執行方式；圖3B示出在另一實施例中檢測方法的執行方式；圖3C示出在又一實施例中檢測方法的執行方式；圖4示出根據一個實施例的降低資料模型安全風險的方法的流程圖；圖5示出根據一個實施例的模型安全性檢測裝置的示意性框圖；圖6示出根據一個實施例的降低安全風險的裝置的示意性框圖。

Claims

一種檢測資料模型的安全性的方法，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該方法包括：獲取該資料模型中包含的多個模型參數；確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該方法由該資料需求方執行，所述確定該資料模型的安全性評估資訊包括：根據該差異統計資訊，和預定的差異閾值，確定安全性評估資訊；該方法還包括，將該安全性評估資訊提供給該資料提供方。
一種檢測資料模型的安全性的方法，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該方法包括：獲取該資料模型中包含的多個模型參數；確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該方法由該資料提供方執行；所述獲取該資料模型中包含的多個模型參數包括，從該資料需求方接收所述多個模型參數。
根據請求項2所述的方法，其中所述確定該資料模型的安全性評估資訊包括：根據該差異統計資訊，和預定的差異閾值，確定安全性評估資訊。
根據請求項2所述的方法，還包括，根據該安全性評估資訊確定是否接受該資料模型的部署。
根據請求項3所述的方法，其中根據該差異統計資訊，和預定的差異閾值，確定安全性評估資訊包括：根據針對該差異統計資訊中某個差異統計量預設的多個差異閾值，將該某個差異統計量劃分為不同範圍，將所述不同範圍對應於不同的安全等級作為該安全性評估資訊。
根據請求項3所述的方法，其中該差異統計資訊包括多個統計量，所述根據該差異統計資訊，和預定的差異閾值，確定安全性評估資訊包括：針對所述多個統計量中的各個統計量與對應差異閾值的比較，確定與各個統計量相關的安全分數；基於所述與各個統計量相關的安全分數，以及針對各個統計量預設的權重，確定總的安全分數作為安全性評估資訊。
一種檢測資料模型的安全性的方法，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該方法包括：獲取該資料模型中包含的多個模型參數；確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該第一統計量包括以下中的至少一項：最大參數與最小參數的比值，最大參數與最小參數的差值相對於最大參數的比例，最大參數與最小參數的差值相對於最小參數的比例，最大參數與參數均值的比例。
一種檢測資料模型的安全性的方法，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該方法包括：獲取該資料模型中包含的多個模型參數；確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該第一統計量包括以下中的至少一項：參數的方差；所述多個模型參數的兩兩組合中，參數取值比例高於預設比例閾值的組合數目，參數取值之差高於預設差值閾值的組合數目。
一種檢測資料模型的安全性的方法，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該方法包括：獲取該資料模型中包含的多個模型參數；確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該第二統計量包括以下中的至少一項：各參數小數位數的最大值與最小值的差，各參數的小數部分中連續有效零的個數，各參數的小數部分中連續有效零個數的最大值。
根據請求項1、2、7、8或9所述的方法，其中，該方法由該資料需求方執行，所述確定該資料模型的安全性評估資訊包括：將該差異統計資訊確定為該安全性評估資訊；該方法還包括，將該安全性評估資訊提供給該資料提供方。
根據請求項1、2、7、8或9所述的方法，其中該資料模型包括，邏輯回歸模型，決策樹模型，梯度提升決策樹GBDT模型，評分卡模型。
一種降低資料模型的安全風險的方法，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該方法包括：確定該資料模型的輸出結果的結果類型，該結果類型至少包括連續數值和離散分類機率；在該結果類型為連續數值的情況下，採用預定位元位數表示該連續數值；在該結果類型為離散分類機率的情況下，將該離散分類機率轉換為分類決策結果。
根據請求項12的方法，其中該預定位元位數基於約定的輸出結果的範圍而預先設定。
根據請求項12的方法，其中該連續數值為小數，採用預定位元位數表示該連續數值包括，對於該連續數值保留預定位數的小數，該預定位數基於該資料模型的模型參數的位數設置而預先設定。
根據請求項12的方法，其中將該離散分類機率轉換為分類決策結果包括，獲取分類決策的分類邊界，通過該離散分類機率與該分類邊界的比較，將該離散分類機率轉換為分類決策結果。
一種檢測資料模型的安全性的裝置，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該裝置包括：獲取單元，配置為獲取該資料模型中包含的多個模型參數；統計確定單元，配置為確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元，配置為根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該裝置設置在該資料需求方，該安全確定單元配置為：根據該差異統計資訊，和預定的差異閾值，確定安全性評估資訊；該方法裝置還包括提供單元，配置為將該安全性評估資訊提供給該資料提供方。
一種檢測資料模型的安全性的裝置，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該裝置包括：獲取單元，配置為獲取該資料模型中包含的多個模型參數；統計確定單元，配置為確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元，配置為根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該裝置設置在該資料提供方；該獲取單元配置為，從該資料需求方接收所述多個模型參數。
根據請求項17所述的裝置，其中該安全確定單元配置為：根據該差異統計資訊，和預定的差異閾值，確定安全性評估資訊。
根據請求項17所述的裝置，還包括部署確定單元，配置為根據該安全性評估資訊確定是否接受該資料模型的部署。
根據請求項18所述的裝置，其中該安全確定單元配置為：根據針對某個差異統計量預設的多個差異閾值，將該某個差異統計量劃分為不同範圍，將所述不同範圍對應於不同的安全等級作為該安全性評估資訊。
根據請求項18所述的裝置，其中該差異統計資訊包括多個統計量，該安全確定單元配置為：針對所述多個統計量中的各個統計量與對應差異閾值的比較，確定與各個統計量相關的安全分數；基於所述與各個統計量相關的安全分數，以及針對各個統計量預設的權重，確定總的安全分數作為安全性評估資訊。
一種檢測資料模型的安全性的裝置，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該裝置包括：獲取單元，配置為獲取該資料模型中包含的多個模型參數；統計確定單元，配置為確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元，配置為根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該第一統計量包括以下中的至少一項：最大參數與最小參數的比值，最大參數與最小參數的差值相對於最大參數的比例，最大參數與最小參數的差值相對於最小參數的比例，最大參數與參數均值的比例。
一種檢測資料模型的安全性的裝置，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該裝置包括：獲取單元，配置為獲取該資料模型中包含的多個模型參數；統計確定單元，配置為確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元，配置為根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該第一統計量包括以下中的至少一項：參數的方差；所述多個模型參數的兩兩組合中，參數取值比例高於預設比例閾值的組合數目，參數取值之差高於預設差值閾值的組合數目。
一種檢測資料模型的安全性的裝置，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該裝置包括：獲取單元，配置為獲取該資料模型中包含的多個模型參數；統計確定單元，配置為確定所述多個模型參數的差異統計資訊，該差異統計資訊包括與參數取值大小差異相關的第一統計量，和/或與參數位數差異相關的第二統計量；安全確定單元，配置為根據該差異統計資訊，確定該資料模型的安全性評估資訊，其中該第二統計量包括以下中的至少一項：各參數小數位數的最大值與最小值的差，各參數的小數部分中連續有效零的個數，各參數的小數部分中連續有效零個數的最大值。
根據請求項16、17、22、23或24所述的裝置，其中，該裝置設置在該資料需求方，該安全確定單元配置為：將該差異統計資訊確定為該安全性評估資訊；該裝置還包括提供單元，配置為將該安全性評估資訊提供給該資料提供方。
根據請求項16、17、22、23或24所述的裝置，其中該資料模型包括，邏輯回歸模型，決策樹模型，梯度提升決策樹GBDT模型，評分卡模型。
一種降低資料模型的安全風險的裝置，該資料模型由資料需求方提供以部署到資料提供方，用於對資料提供方的來源資料進行模型運算；該裝置包括：類型確定單元，配置為確定該資料模型的輸出結果的結果類型，該結果類型至少包括連續數值和離散分類機率；連續數值處理單元，配置為在該結果類型為連續數值的情況下，採用預定位元位數表示該連續數值；離散結果處理單元，配置為在該結果類型為離散分類機率的情況下，將該離散分類機率轉換為分類決策結果。
根據請求項27的裝置，其中該預定位元位數基於約定的輸出結果的範圍而預先設定。
根據請求項27的裝置，其中該連續數值為小數，該連續數值處理單元配置為，對於該連續數值保留預定位數的小數，該預定位數基於該資料模型的模型參數的位數設置而預先設定。
根據請求項27的裝置，其中該離散結果處理單元配置為，獲取分類決策的分類邊界，通過該離散分類機率與該分類邊界的比較，將該離散分類機率轉換為分類決策結果。
一種電腦可讀儲存媒體，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行請求項1至15中任一項的所述的方法。
一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現請求項1至15中任一項所述的方法。