TW202032484A

TW202032484A - 模型合併方法和裝置

Info

Publication number: TW202032484A
Application number: TW108135660A
Authority: TW
Inventors: 朱標; 崔志偉; 章鵬; 陳詩奕
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-12-14
Filing date: 2019-10-02
Publication date: 2020-09-01
Also published as: TWI718690B; CN109903165B; WO2020119299A1; CN109903165A

Abstract

本發明提供了一種模型合併方法和裝置，其中，該方法包括：根據第i個模型對所述第i個模型的測試樣本進行預測，得到第一預測結果；根據第j個模型對所述第i個模型的測試樣本進行預測，得到第二預測結果；其中，

，

用於表徵所述第i個模型包括的變量的集合，

Description

模型合併方法和裝置

本發明涉及電腦技術領域，特別涉及一種模型合併方法和裝置。

在風險識別過程中，一般在業務的多個階段設置模型，以識別對應階段是否存在風險。以車險理賠業務為例進行說明，階段包括：報案、勘查和核賠。每個階段對應一個模型，例如，報案階段對應報案模型，報案模型用於識別報案階段是否存在風險。但是，在實際應用場景中，業務可能存在多個階段，如果在每個節點都設置對應的模型，則風險識別的成本較高。因此，如何降低風險識別的成本，同時保證各個階段模型的性能，是當前亟待解决的問題。

鑒於此，本發明實施例提供了一種模型合併方法和裝置，能够降低風險識別的成本。第一方面，本發明實施例提供了一種模型合併方法，包括：根據第i個模型對所述第i個模型的測試樣本進行預測，得到第一預測結果；根據第j個模型對所述第i個模型的測試樣本進行預測，得到第二預測結果；其中，

，

用於表徵所述第i個模型包括的變量的集合，

用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量；根據所述第一預測結果和所述第二預測結果，將所述第i個模型與所述第j個模型合併。較佳地，所述根據所述第一預測結果和所述第二預測結果，將所述第i個模型與所述第j個模型合併，包括：根據所述第一預測結果，確定所述第i個模型對所述第i個模型的測試樣本的預測準確率；根據所述第二預測結果，確定所述第j個模型對所述第i個模型的測試樣本的預測準確率；當所述第i個模型對所述第i個模型的測試樣本的預測準確率和所述第j個模型對所述第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將所述第i個模型與所述第j個模型合併。較佳地，所述第一預測結果，包括：所述第i個模型對所述第i個模型的測試樣本的風險評分；所述根據所述第一預測結果，確定所述第i個模型對所述第i個模型的測試樣本的預測準確率，包括：根據所述第i個模型對所述第i個模型的測試樣本的風險評分，確定所述第i個模型的測試樣本是否存在風險；根據存在風險的所述第i個模型的測試樣本，確定所述第i個模型對所述第i個模型的測試樣本的預測準確率。較佳地，所述當所述第i個模型對所述第i個模型的測試樣本的預測準確率和所述第j個模型對所述第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將所述第i個模型與所述第j個模型合併，包括：當j取不同的值、且所述不同的值均使得所述第i個模型對所述第i個模型的測試樣本的預測準確率和所述第j個模型對所述第i個模型的測試樣本的預測準確率滿足所述合併條件時，將所述第i個模型與第a個模型合併；其中，a用於表徵所述不同的值中的最大值。較佳地，所述將所述第i個模型與所述第j個模型合併，包括：確定所述第j個模型為所述第i個模型與所述第j個模型合併的結果。第二方面，本發明實施例提供了一種模型合併裝置，包括：第一預測單元，用於根據第i個模型對所述第i個模型的測試樣本進行預測，得到第一預測結果；第二預測單元，用於根據第j個模型對所述第i個模型的測試樣本進行預測，得到第二預測結果；其中，

，

用於表徵所述第i個模型包括的變量的集合，

用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量；合併單元，用於根據所述第一預測結果和所述第二預測結果，將所述第i個模型與所述第j個模型合併。較佳地，所述合併單元，用於根據所述第一預測結果，確定所述第i個模型對所述第i個模型的測試樣本的預測準確率；根據所述第二預測結果，確定所述第j個模型對所述第i個模型的測試樣本的預測準確率；當所述第i個模型對所述第i個模型的測試樣本的預測準確率和所述第j個模型對所述第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將所述第i個模型與所述第j個模型合併。較佳地，所述第一預測結果，包括：所述第i個模型對所述第i個模型的測試樣本的風險評分；所述合併單元，用於根據所述第i個模型對所述第i個模型的測試樣本的風險評分，確定所述第i個模型的測試樣本是否存在風險；根據存在風險的所述第i個模型的測試樣本，確定所述第i個模型對所述第i個模型的測試樣本的預測準確率。較佳地，所述合併單元，用於當j取不同的值、且所述不同的值均使得所述第i個模型對所述第i個模型的測試樣本的預測準確率和所述第j個模型對所述第i個模型的測試樣本的預測準確率滿足所述合併條件時，將所述第i個模型與第a個模型合併；其中，a用於表徵所述不同的值中的最大值。較佳地，所述合併單元，用於確定所述第j個模型為所述第i個模型與所述第j個模型合併的結果。本發明實施例採用的上述至少一個技術方案能够達到以下有益效果：該方法根據模型對測試樣本的預測結果，合併不同的模型，能够减少模型的數量，降低風險識別的成本。同時，相比於透過缺失值填充的方式直接複用模型，該方法能够保證各個階段的模型性能，提高風險識別的準確率。

為使本發明實施例的目的、技術方案和優點更加清楚，下面將結合本發明實施例中的圖式，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本發明一部分實施例，而不是全部的實施例，基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例，都屬本發明保護的範圍。在傳統的車險反欺詐領域，一般在每個階段(風險點)設置一個模型。無論是從資料角度還是模型角度，這種做法簡單、直接，無需關注不同階段之間在業務、資料方面的關聯。但是，隨著模型數量的增加，其研發、部署、客戶接入的成本快速提高。另一種常見的做法是保留變量最全的階段模型，例如，車險反欺詐場景中的核賠階段模型，其餘階段模型透過缺失值填充的方式複用核賠階段模型。這種做法直接把模型數量壓縮到了極致，研發、部署、客戶接入成本做到了最低，但是，其沒辦法保證各個階段的模型性能。鑒於此，本發明實施例提供了一種模型合併方法，如圖1所示，該方法可以包括以下步驟：步驟101：根據第i個模型對第i個模型的測試樣本進行預測，得到第一預測結果。其中，i為變量，其取值範圍為(0，n)，其中，n為模型數量，即階段數量。例如，第1個模型對第1個模型的測試樣本進行預測，第2個模型對第2個模型的測試樣本進行預測。模型可以是預先設置的，也可以是根據相應階段的訓練樣本訓練得到的。例如，第i個模型由與其對應的訓練樣本訓練得到。步驟102：根據第j個模型對第i個模型的測試樣本進行預測，得到第二預測結果；其中，

，

用於表徵第i個模型包括的變量的集合，

用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量。與i類似，j也為變量，其取值範圍為(i，n]。對於i的每一個值，j的值可能存在多個。例如，n=4，當i=1時，j的值可以為2、3和4中任意一個或多個。當i=2時，j的值可以為3和4中任意一個或多個。在實際應用場景中，每個模型對應相應的業務階段，不同的業務階段存在時間上的先後順序。不同的業務階段按照時間順序，對應的模型分別為第1個模型、第2個模型、第3個模型……第n個模型。在車險理賠的業務場景中，模型包括報案模型、勘查模型和核賠模型，分別用於識別報案、勘查、核賠三個階段存在的風險。這三個階段存在時間上的先後順序，首先被保人在事故後進行報案(報案階段)，保險公司在接到報案後會派出勘查員進行事故現場勘查(勘查階段)，然後在調查結束後，保險公司會對案件進行核賠(核賠階段)，核賠一旦完成，賠款就會打到被保人的指定帳戶中。從報案階段到勘查階段，最後到核賠階段，保險公司獲取到的案件資訊會越來越豐富，所以每個階段的資訊是後一個階段資訊的子集。對應到模型中，前一階段模型包含的變量的集合

和後一階段模型包含的變量的集合

是包含的關係，即

，各個階段的變量關係如圖2所示。步驟103：根據第一預測結果和第二預測結果，將第i個模型與第j個模型合併。在本說明實施例中，由於i和j可以取不同的值，因此，第一預測結果的數量和第二預測結果的數量可能為多個，但模型的合併方法是一致的。例如，n=3，存在與i=1對應的第一預測結果、與i=2對應的第一預測結果和與i=3對應的第一預測結果。當i=1時，存在與j=2對應的第二預測結果和與j=3對應的第二預測結果。在實際應用場景中，可以根據第一預測結果和第二預測結果，確定第i個模型的性能與第j個模型的性能是否相近，如果相近，則將第i個模型與第j個模型合併。基於此，上述報案模型、勘查模型和核賠模型可以根據表1進行合併。表1

核賠模型和勘查模型性能是否相近	核賠模型和報案模型性能是否相近	勘查模型和報案模型性能是否相近	合併結果
是	是	-	只保留核賠模型
是	否	-	保留核賠模型、報案模型
否	是	-	保留核賠模型、勘查模型
否	否	是	保留核賠模型、勘查模型
否	否	否	保留全部三個模型

第i個模型的性能與第j個模型的性能是否相近，可以用第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率的差值衡量。在此情况下，步驟103具體包括： A1：根據第一預測結果，確定第i個模型對第i個模型的測試樣本的預測準確率。第一預測結果，包括：第i個模型對第i個模型的測試樣本的風險評分。 A1具體包括： A11：根據第i個模型對第i個模型的測試樣本的風險評分，確定第i個模型的測試樣本是否存在風險。在實際應用場景中，可以將第i個模型對第i個模型的測試樣本的風險評分與預設的風險範圍進行匹配，以確定第i個模型的測試樣本是否存在風險。 A12：根據存在風險的第i個模型的測試樣本，確定第i個模型對第i個模型的測試樣本的預測準確率。在本發明實施例中，第i個模型對第i個模型的測試樣本的預測準確率=預測為存在風險的第i個模型的測試樣本中真實存在風險的第i個模型的測試樣本的數量/預測(確定)為存在風險的第i個模型的測試樣本的數量。其中，真實存在風險指的是已確認存在風險，例如，具有風險標簽的樣本為真實存在風險的樣本。 A2：根據第二預測結果，確定第j個模型對第i個模型的測試樣本的預測準確率。第二預測結果與第一預測結果類似。第二預測結果，包括：第j個模型對第i個模型的測試樣本的風險評分；確定第j個模型對第i個模型的測試樣本的預測準確率的方法與上述A1中的過程類似，此處不再贅述。 A3：當第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將第i個模型與第j個模型合併。合併條件可以為第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率的差值小於預設的合併閾值。例如，合併閾值為5%，即兩種預測準確率的差值小於5%時，才能够將第i個模型與第j個模型合併。 A3具體包括：當j取不同的值、且不同的值均使得第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率滿足合併條件時，將第i個模型與第a個模型合併；其中，a用於表徵不同的值中的最大值。沿用上例，預設的合併閾值為5%。第1個模型對第1個模型的測試樣本的預測準確率和第2個模型對第1個模型的測試樣本的預測準確率的差值為2%，同時，第1個模型對第1個模型的測試樣本的預測準確率和第3個模型對第1個模型的測試樣本的預測準確率的差值為3%，則將第1個模型與第3個模型合併。該方法根據模型對測試樣本的預測結果，合併不同的模型，能够减少模型的數量，降低風險識別的成本。同時，相比於透過缺失值填充的方式直接複用模型，該方法能够保證各個階段的模型性能，提高風險識別的準確率。在本發明的一個實施例中，將第i個模型與第j個模型合併，包括：確定第j個模型為第i個模型與第j個模型合併的結果。例如，第1個模型與第2個模型合併指的是保留第2個模型，合併前如果存在第1個模型與第2個模型，則合併後僅存在第2個模型，僅使用第2個模型進行風險識別。需要說明的是，當j存在多個值時，可以每個值均執行步驟102，也可以僅對其中部分值執行步驟102。例如，i=1，n=5，j的值可以為2、3、4、5，可以確定j=2、j=3、j=4和j=5時的第二預測結果，也可以僅確定j=5時的第二預測結果。換言之，該方法可以根據實際場景的需求確定保留的模型的數量。如圖3所示，本發明實施例以車險理賠場景為例，對模型合併方法進行詳細的說明，該方法包括：步驟301：根據第i個模型對第i個模型的測試樣本進行預測，得到第一預測結果；第一預測結果，包括：第i個模型對第i個模型的測試樣本的風險評分。步驟302：根據第j個模型對第i個模型的測試樣本進行預測，得到第二預測結果；其中，

，

用於表徵第i個模型包括的變量的集合，

用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量。在本發明實施例中，n=3，第1個模型為報案模型，第2個模型為勘查模型，第3個模型為核賠模型，其包括的變量的關係請參考圖2。在本發明實施例中，該方法可以概括為以下幾種情况：情况1：確定是否可以將勘查模型和核賠模型進行合併。此時，i=2，j=3。根據勘查模型對勘查模型的測試樣本進行預測，得到第一預測結果；根據核賠模型對勘查模型的測試樣本進行預測，得到第二預測結果。情况2：確定是否可以將報案模型和勘查模型，或報案模型和核賠模型進行合併。此時，i=1，j=2或j=3。根據報案模型對報案模型的測試樣本進行預測，得到第一預測結果；根據勘查模型對報案模型的測試樣本進行預測，得到第二預測結果(與勘查模型對應)；根據核賠模型對報案模型的測試樣本進行預測，得到第二預測結果(與核賠模型對應)。需要說明的是，核賠模型變量最全，預測性能一般來說也是最好的，優先保留。步驟303：根據第i個模型對第i個模型的測試樣本的風險評分，確定第i個模型的測試樣本是否存在風險。步驟304：根據存在風險的第i個模型的測試樣本，確定第i個模型對第i個模型的測試樣本的預測準確率。步驟305：根據第二預測結果，確定第j個模型對第i個模型的測試樣本的預測準確率。步驟306：當第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率滿足預設的合併條件時，確定第j個模型為第i個模型與第j個模型合併的結果。在實際應用場景中，可以將透過該方法得到的模型用於識別車險理賠不同的階段存在的風險，及時發現欺詐行為，保障資金安全。如圖4所示，本發明實施例提供了一種模型合併裝置，包括：第一預測單元401，用於根據第i個模型對第i個模型的測試樣本進行預測，得到第一預測結果；第二預測單元402，用於根據第j個模型對第i個模型的測試樣本進行預測，得到第二預測結果；其中，

，

用於表徵第i個模型包括的變量的集合，

用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量；合併單元403，用於根據第一預測結果和第二預測結果，將第i個模型與第j個模型合併。在本發明的一個實施例中，合併單元403，用於根據第一預測結果，確定第i個模型對第i個模型的測試樣本的預測準確率；根據第二預測結果，確定第j個模型對第i個模型的測試樣本的預測準確率；當第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將第i個模型與第j個模型合併。在本發明的一個實施例中，第一預測結果，包括：第i個模型對第i個模型的測試樣本的風險評分；合併單元403，用於根據第i個模型對第i個模型的測試樣本的風險評分，確定第i個模型的測試樣本是否存在風險；根據存在風險的第i個模型的測試樣本，確定第i個模型對第i個模型的測試樣本的預測準確率。在本發明的一個實施例中，合併單元403，用於當j取不同的值、且不同的值均使得第i個模型對第i個模型的測試樣本的預測準確率和第j個模型對第i個模型的測試樣本的預測準確率滿足合併條件時，將第i個模型與第a個模型合併；其中，a用於表徵不同的值中的最大值。在本發明的一個實施例中，合併單元403，用於確定第j個模型為第i個模型與第j個模型合併的結果。在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極管、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可編程邏輯裝置(Programmable Logic Device, PLD)(例如現場可編程閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由用戶對裝置編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始程式碼也得用特定的編程語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可編程邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以透過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、行動電話、相機電話、智能電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。本領域內的技術人員應明白，本發明的實施例可提供為方法、系統、或電腦程式產品。因此，本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和／或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和／或方塊圖中的每一流程和／或方塊、以及流程圖和／或方塊圖中的流程和／或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器，使得透過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和／或方塊圖一個方塊或多個方塊中指定的功能的裝置。這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和／或方塊圖一個方塊或多個方塊中指定的功能。這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上，使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和／或方塊圖一個方塊或多個方塊中指定的功能的步驟。在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內部記憶體。內部記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性內部記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。內部記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變內部記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體(transitory media)，如調變的資料信號和載波。還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情况下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的例程、程式、物件、組件、資料結構等等。也可以在分散式計算環境中實踐本發明，在這些分散式計算環境中，由透過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。以上所述僅為本發明的實施例而已，並不用於限制本發明。對於本領域技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本發明的申請專利範圍的範圍之內。

401:第一預測單元 402:第二預測單元 403:合併單元

為了更清楚地說明本發明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其他的圖式。 [圖1]是本發明一個實施例提供的一種模型合併方法的流程圖； [圖2]是本發明一個實施例提供的一種模型變量的關係的示意圖； [圖3]是本發明另一個實施例提供的一種模型合併方法的流程圖； [圖4]是本發明一個實施例提供的一種模型合併裝置的結構示意圖。

Claims

一種模型合併方法，包括：根據第i個模型對該第i個模型的測試樣本進行預測，得到第一預測結果；根據第j個模型對該第i個模型的測試樣本進行預測，得到第二預測結果；其中，
，
用於表徵該第i個模型包括的變量的集合，
用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量；根據該第一預測結果和該第二預測結果，將該第i個模型與該第j個模型合併。
如請求項1所述的模型合併方法，該根據該第一預測結果和該第二預測結果，將該第i個模型與該第j個模型合併，包括：根據該第一預測結果，確定該第i個模型對該第i個模型的測試樣本的預測準確率；根據該第二預測結果，確定該第j個模型對該第i個模型的測試樣本的預測準確率；當該第i個模型對該第i個模型的測試樣本的預測準確率和該第j個模型對該第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將該第i個模型與該第j個模型合併。
如請求項2所述的模型合併方法，該第一預測結果，包括：該第i個模型對該第i個模型的測試樣本的風險評分；該根據該第一預測結果，確定該第i個模型對該第i個模型的測試樣本的預測準確率，包括：根據該第i個模型對該第i個模型的測試樣本的風險評分，確定該第i個模型的測試樣本是否存在風險；根據存在風險的該第i個模型的測試樣本，確定該第i個模型對該第i個模型的測試樣本的預測準確率。
如請求項2所述的模型合併方法，該當該第i個模型對該第i個模型的測試樣本的預測準確率和該第j個模型對該第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將該第i個模型與該第j個模型合併，包括：當j取不同的值、且該不同的值均使得該第i個模型對該第i個模型的測試樣本的預測準確率和該第j個模型對該第i個模型的測試樣本的預測準確率滿足該合併條件時，將該第i個模型與第a個模型合併；其中，a用於表徵該不同的值中的最大值。
如請求項1至4中任一項所述的模型合併方法，該將該第i個模型與該第j個模型合併，包括：確定該第j個模型為該第i個模型與該第j個模型合併的結果。
一種模型合併裝置，包括：第一預測單元，用於根據第i個模型對該第i個模型的測試樣本進行預測，得到第一預測結果；第二預測單元，用於根據第j個模型對該第i個模型的測試樣本進行預測，得到第二預測結果；其中，
，
用於表徵該第i個模型包括的變量的集合，
用於表徵第i+1個模型包括的變量的集合，i＜j≤n，n為模型數量；合併單元，用於根據該第一預測結果和該第二預測結果，將該第i個模型與該第j個模型合併。
如請求項6所述的模型合併裝置，該合併單元，用於根據該第一預測結果，確定該第i個模型對該第i個模型的測試樣本的預測準確率；根據該第二預測結果，確定該第j個模型對該第i個模型的測試樣本的預測準確率；當該第i個模型對該第i個模型的測試樣本的預測準確率和該第j個模型對該第i個模型的測試樣本的預測準確率滿足預設的合併條件時，將該第i個模型與該第j個模型合併。
如請求項7所述的模型合併裝置，該第一預測結果，包括：該第i個模型對該第i個模型的測試樣本的風險評分；該合併單元，用於根據該第i個模型對該第i個模型的測試樣本的風險評分，確定該第i個模型的測試樣本是否存在風險；根據存在風險的該第i個模型的測試樣本，確定該第i個模型對該第i個模型的測試樣本的預測準確率。
如請求項7所述的模型合併裝置，該合併單元，用於當j取不同的值、且該不同的值均使得該第i個模型對該第i個模型的測試樣本的預測準確率和該第j個模型對該第i個模型的測試樣本的預測準確率滿足該合併條件時，將該第i個模型與第a個模型合併；其中，a用於表徵該不同的值中的最大值。
如請求項6至9中任一項所述的模型合併裝置，該合併單元，用於確定該第j個模型為該第i個模型與該第j個模型合併的結果。