TWI696124B

TWI696124B - 模型整合方法及裝置

Info

Publication number: TWI696124B
Application number: TW107135756A
Authority: TW
Inventors: 高利翠; 陳露佳; 聞飆趙
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-12-15
Filing date: 2018-10-11
Publication date: 2020-06-11
Also published as: TW201928708A; CN108053120A; WO2019114422A1; CN108053120B

Abstract

公開了一種模型整合方法及裝置。一種模型整合方法包括：確定待整合的至少2個獨立模型，每個獨立模型具有1個輸出值；從歷史事件記錄中獲取事件資料集；根據所獲得的事件資料集，產生整合模型訓練樣本；利用有監督學習演算法對樣本進行訓練得到整合模型。

Description

模型整合方法及裝置

本說明書實施例涉及資料處理技術領域，尤其涉及一種模型整合方法及裝置。

智慧化或自動化處理的本質，是由電腦根據給定的輸入資訊，經計算後得到對應輸出資訊的過程，模型則是用於描述上述輸入-輸出關係的一種資訊。簡單的模型可以是根據人工規則建立，在資料時代，基於巨量資料及機器學習技術進行資料建模則成為主流，目前在多種應用領域中，都已經廣泛使用巨量資料建模來實現各種智慧化處理功能，但是隨著模型數量的增加，也相應產生了難於管理及資源消耗過多等問題。以風控系統為例，目前以模型驅動的風控策略已被廣泛應用，特別是針對一些綜合的業務平臺，可以基於不同場景不同維度的巨量資料構建出多種模型，從而實現全面的風險控制。然而，在風險預測覆蓋不斷完善的同時，模型的數量也隨之增長，久而久之會導致整體風控體系越來越龐大，不僅令管理維護成本變得不可控，而且由於不同的模型之間經常存在冗餘，實際上也造成了系統處理資源的不必要消耗。

針對上述技術問題，本說明書實施例提供一種模型整合方法及裝置，技術方案如下：根據本說明書實施例的第一方面，提供一種模型整合方法，該方法包括：確定待整合的至少2個獨立模型，每個獨立模型具有1個輸出值；從歷史事件記錄中獲取事件資料集，每條事件資料中包括：每個獨立模型針對該事件的預測輸出值、該事件的綜合標籤值；根據所獲得的事件資料集，產生整合模型訓練樣本；利用有監督學習演算法對樣本進行訓練得到整合模型，所述整合模型具有1個整合輸出值、且以多個獨立模型的輸出值作為輸入值。根據本說明書實施例的第二方面，提供一種模型整合裝置，該裝置包括：獨立模型確定模組，用於確定待整合的至少2個獨立模型，每個獨立模型具有1個輸出值；事件資料集獲取模組，用於從歷史事件記錄中獲取事件資料集，每條事件資料中包括：每個獨立模型針對該事件的預測輸出值、該事件的綜合標籤值；訓練樣本產生模組，用於根據所獲得的事件資料集，產生整合模型訓練樣本；訓練模組，用於利用有監督學習演算法對樣本進行訓練得到整合模型，所述整合模型具有1個整合輸出值、且以多個獨立模型的輸出值作為輸入值。應用本說明書實施例所提供的技術方案，一方面，可以將多個獨立的模型分值整合為一個綜合分值，使得輸出模型策略更加便於管理，也解決了模型過多所帶來的冗餘問題，提升系統處理資源的使用效率；另一方面，對於整合得到的模型，可以基於性能監控預警，自動觸發整合模型的反覆運算優化，從而保證綜合分值的穩定有效輸出。應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本說明書實施例。此外，本說明書實施例中的任一實施例並不需要達到上述的全部效果。

為了使本領域技術人員更好地理解本說明書實施例中的技術方案，下面將結合本說明書實施例中的圖式，對本說明書實施例中的技術方案進行詳細地描述，顯然，所描述的實施例僅僅是本說明書的一部分實施例，而不是全部的實施例。基於本說明書中的實施例，本領域普通技術人員所獲得的所有其他實施例，都應當屬於保護的範圍。以金融領域的風控場景為例，模型驅動的風控系統需要考慮多種風險類型，針對不同的風險類型，需要構建不同的風控模型，例如反欺詐模型、反盜用模型、反作弊模型等。而在每種風險類型下又會針對不同場景不同維度設計多種專項模型。以反欺詐模型為例，可以進一步細分為離線欺詐者模型、離線欺詐卡模型、線上FP(轉帳到帳戶)模型、線上FZ(轉帳到卡)模型、兼職被騙模型等等。為了防止風險漏過，模型策略大部分採用多個模型並用(即每個模型分值閾值加一定規則並行)的方式，例如以下兩條策略並行使用：策略1為：模型A分值大於0.5且交易金額大於10元；策略2為：模型B分值大於0.6且排除雙方關係強且交易金額大於100元；長期來看，每新增一個模型，就需要部署新的模型策略，一定時間累積後會造成模型策略冗餘且成本增加不可控，針對上述問題，本說明書提出：將不同模型的輸出分值進行標準處理後，整合輸出一個綜合分值。從而使得輸出模型策略更加便於管理，解決模型過多所帶來的冗餘問題，提升系統處理資源的使用效率；另一方面，對於整合得到的模型，可以基於性能監控預警，自動觸發整合模型的反覆運算優化，從而保證綜合分值的穩定有效輸出。圖1所示為整合模型與獨立模型的關係示意圖：將多個獨立模型的輸出進行整合，得到1個整合模型，其中每個獨立模型具有1個輸出值，多個獨立模型的輸出值經整合模型後統一輸出1個整合輸出值。下面將分別從“整合模型構建”以及“整合模型優化”兩方面，對本說明書所提供的模型整合方案進行說明。圖2所示，為本說明書提供的一種整合模型構建方法的流程圖，該方法可以包括以下步驟： S101，確定待整合的至少2個獨立模型。首先確定需要參與整合的多個獨立模型，例如離線欺詐者模型、離線欺詐卡模型、線上FP(轉帳到帳戶)模型、線上FZ(轉帳到卡)模型等等。其中每個獨立模型都具有1個專項風險的預測輸出分值、若干個輸入特徵，且不同獨立模型之間可能會複用相同的輸入特徵。為了保證整合模型的性能，這裡可以選擇性能較好的獨立模型，這裡的“性能較好”的標準可以是預測覆蓋率較高、準確率較高、打擾率較低等等，最好可以具有一定的額外輸出增益。例如在一種具體實施方式中，可以選擇以下獨立模型參與整合：端模型(指部署在手機用戶端的風險識別模型)、低風險識別模型、線上風險識別模型、離線風險識別模型。當然，本說明書並不需要對選擇獨立模型的具體方案進行限定，另外，這裡的獨立模型也可以是基於規則建立的模型，並不局限於狹義的“利用機器學習建立的模型”。 S102，從歷史事件記錄中獲取事件資料集；針對S101中所確定的參與整合的獨立模型，從歷史事件記錄中獲取事件資料。這裡可以選擇某個時間視窗內(例如過去一周，過去一個月等)的發生過的事件記錄作為資料來源，對於任意事件j，需要獲取的資料包括： a) 每個獨立模型對於事件j的預測輸出值； b) 事件j的綜合風險標籤值；如表1所示：

表1 其中“風險標籤”是指某事件是否實際構成案件的判定結果，需要說明的是，該結果與各模型的預測結果並不一定完全一致，該標籤值可以根據人工標注確定，也可以根據使用者是否報案確定，本說明書對標籤值的具體來源不需要進行限定。 S103，根據所獲得的事件資料集，產生整合模型訓練樣本；理想情況下，可以直接利用S102所獲得的事件資料集作為訓練樣本，即對於任意事件j，直接以各獨立模型A的分值作為整合模型的輸入特徵值、以綜合風險標籤值作為整合模型的標籤值。而實際應用中，可能需要對所獲得的事件資料集做進一步處理，以供後續訓練使用。根據模型訓練的需求，這裡的處理方式可以包括各獨立模型的輸出值進行標準化(standardization)、歸一化(normalization)等常規處理方式，從而將各獨立模型的輸出值映射至一定的數值區間。為了令整合模型的特徵值表達更加精細，還可以將獨立模型的值域劃分為若干個子區間，對於同一模型，當模型輸出值處於不同子區間時，將被映射為不同的數值，具體處理如下： S103a，子區間劃分：假設參與整合的獨立模型數量為M，則對於任一獨立模型i，可以將i的輸出值的值域劃分為L_i 個子區間(L_i ≥2，i=1,2,3…M)。其中，根據不同模型輸出值的實際含義或特性，可以對不同模型採用相同或不同的值域子區間劃分方式(例如子區間的劃分規則、子區間數量等等)。在本說明書提供的一種具體實施方式中，可以針對S102所獲得的事件資料集，根據獨立模型i對各事件的輸出值的分佈情況，將各獨立模型的輸出值的值域劃分為多個子區間。例如，假設風險預測輸出分值在[0,1]區間，分值越高代表事件風險越高。在風控場景，綜合考慮高準確率、高覆蓋率、低打擾率的性能指標需求，在選取風險判決臨界值時，一般對越高的分段越敏感，相應地對高分段的劃分細微性也應該更為精細，而對於低分段分值，則可以採取相對較為粗糙的劃分細微性。基於上述需求，可以採用劃分策略舉例如下：首先對所有資料的獨立模型得分進行排序，然後根據排序結果做以下劃分：將排序在前0.01%的分值對應的區間段，劃分為10個子區間；將排序在前0.01%~1%的分值對應的區間段，劃分為100個子區間；將排序在前1%~5%的分值對應的區間段，劃分為20個子區間；將排序在前5%~100%的分值對應的區間段，劃分為1個子區間；即將值域區間[0,1]共計劃分為131個子區間。下面以一個簡化的例子對上述劃分方式進行說明，以表1所示資料為例，假設3個模型的輸出分值都在[0,1]區間，子區間的劃分數量均為3，劃分原則是：分別將得分排序在前0~15%、15%~50%、50%~100%的分值所對應的區段劃分為1個子區間。假設透過統計所有資料(圖1中僅示出3條)在各個模型輸出值的分佈占比，可以得到以下值域子區間劃分結果：

表2 可以看出，由於採用的是實際資料的分佈占比作為值域子區間的劃分依據，因此即便不同獨立模型的子區間劃分數量相同、子區間對應的輸出值分佈占比相同，其子區間對應的端點也不一定相同。可以理解的是，上述劃分方式以及實例僅用於示意性說明，不應理解為對本說明書方案的限定。另外在實際應用中，不同獨立模型所選用的值域子區間劃分方式也可以是不同的，本領域技術人員可以根據實際需求進行選擇。 S103b，數值映射：在已劃分子區間的基礎上，針對於獨立模型i的任意輸出值，可以根據該輸出值所處的子區間，確定該輸出值對應的映射結果。其中，對於獨立模型i的任意輸出值，可以對應一個或多個映射值，舉例說明如下：對於獨立模型i的任意輸出值，可以根據該輸出值所處的子區間，將該輸出值轉換為One-Hot編碼值。 One-Hot即獨熱編碼，也稱一位元有效編碼，其方法是使用N位元狀態暫存器來對N個狀態進行編碼，每個暫存器位元之間相互獨立，並且在任意時刻，其中只有一位有效。在本說明書中，由於獨立模型輸出值必然屬於L_i 個子區間中的任意一個，因此用長度為L_i 的One-Hot編碼值表示獨立模型的輸出值：將輸出值所處的區間對應編碼為1，其他(L_i -1)個區間對應編碼為0。結合前述的區間劃分方案，可以將原本的一個特徵值進一步稀疏化，從而在一定程度上起到擴充特徵的作用，以便為後續訓練分類模型提供更多的資訊。以表1所示的資料集合以及表2所示的子區間劃分結果為例，其One-Hot編碼結果如表3所示：

表3 可見，對於任一條資料樣本j，原本M個獨立模型的M個輸出值，將值域統一劃分為L個子區間、並且經One-Hot編碼處理後，變成了共M*L個數值。根據表3示例，M*L=9，這9個數值可以在後續的訓練過程中作為條資料樣本j的9個特徵值使用。對於獨立模型i的任意輸出值，還可以根據該輸出值所處的子區間，將輸出值所處的子區間的WOE分值確定為該輸出值的映射結果。 WOE(Weight of Evidence，證據權重)，也是一種將數值做離散化處理的方式，WOE值表達的是變數取某個值時對事件結果(例如風險事件)的一種影響。在本說明書方案中，對於任意數值子區間k，該子區間的對應的WOE值定義為：

上述公式中，“黑樣本”表示綜合風險標籤為1(有風險)的資料樣本，“白樣本”表示綜合風險標籤為0(無風險)的資料樣本。如表4所示，假設對某個獨立模型i，值域子區間劃分數量為3，總樣本數量是1000，其中白樣本數量為900、黑樣本數量為100，根據黑/白樣本在每個子區間的分佈情況，計算每個子區間的WOE分值如表4所示：

表4 可見，WOE的數值是也是基於各個子區間的樣本分佈占比情況統計得到的，每個子區間的WOE值反映的是每個分段的白/黑樣本比例與總體白/黑樣本比例的差異。根據本說明書方案，首先針對各個獨立模型的值域子區間劃分情況，分別計算出各個獨立模型各子區間對應的WOE分值，進而對於獨立模型i的任意輸出值，該輸出值所處子區間的對應WOE分值即為該輸出值的映射值。可見，對於任一條資料j，原本M個模型的M個輸出值，經WOE編碼處理後仍然是M個數值，這M個數值可以在後續的訓練過程中作為資料樣本j的M個特徵值使用。可以理解的是，上述數值映射方式以及實例僅用於示意性說明，不應理解為對本說明書方案的限定。另外在實際應用中，不同獨立模型所選用的數值映射方式也可以是不同的，本領域技術人員可以根據實際需求進行選擇。 S104，利用有監督學習演算法對樣本進行訓練得到整合模型。根據S103得到的訓練樣本，利用有監督學習演算法進行訓練得到整合模型。整合模型具有1個整合輸出值，且以多個獨立模型的輸出值作為輸入值。在訓練過程中，每條資料樣本訓練標籤值即為該條資料樣本的綜合風險標籤，而每條資料樣本的訓練特徵值則根據S103的處理方式確定，例如可以是多個獨立模型輸出值本身，也可以是多個獨立模型輸出值經處理後的結果。整合模型的形式可以根據實際訓練需求選擇，例如線性迴歸模型(linear regression model)、邏輯斯諦迴歸模型(logistic regression model)等等。本說明書對模型的選擇及具體的訓練演算法均不需要進行限定。由於預測模型是基於一定的歷史資料樣本訓練得到，而隨著時間的推移，可能會有多種因素導致模型的適用性下降，因此需要適時對模型進行優化調整。對於整合模型而言也同樣存在優化調整的需求，基於整合模型的特性，本說明書進一步提供整合模型的優化方法。圖3所示，為本說明書提供的一種整合模型優化方法的流程圖，該方法可以包括以下步驟： S201，確定初始的整合模型；本說明書中以“初始整合模型”指代優化處理前的整合模型，根據前面實施例的描述，該整合模型是由至少2個獨立模型整合得到，具有1個整合輸出值、且以至少2個獨立模型的輸出值作為輸入值。在本說明書中,“初始整合模型”用於指代模型的某個待優化狀態，既可以是訓練後完全未經優化的模型，也可以是上一次優化後的結果。另外，該“初始整合模型”可以利用前述的整合模型訓練方法得到，也可以從其他途徑得到，本說明書對初始整合模型的獲得方式並不進行限定。 S202，獲得當前的整合模型針對預設的測試事件集輸出的預測結果，並對預測結果進行統計得到至少1個指標值；用於評價風控預測模型的性能指標，一般包括預測覆蓋率、預測命中率、用戶打擾率等，這些指標同樣適用於整合模型，而這些指標是否表現足夠好，則是決定是否要對整合模型進行優化的重要依據。在本步驟中，利用當前的整合模型，對某個已知結果(即具有風險標注結果)的目標事件集進行預測，將預測結果與風險標籤進行對比，並且統計準確率、打擾率等指標，以便在後續步驟中根據這些指標確定是否開始進行優化。實際應用中，該測試事件集可以取自某個時間視窗(例如最近一周、最近一個月等等)，從而實現整合模型性能的按需優化。另外，根據圖3可知，一次完整的優化過程，可能需要反覆運算若干個輪次才能夠優化到位，因此這些指標值同樣可以作為一次完整優化中“是否開啟下一輪次的優化”的判斷依據。實際應用中，對於不同的反覆運算輪次而言，每次使用的測試事件集可以是完全相同的，也可以有一定的差別。例如將測試事件集劃分為多個子集，每次反覆運算針對其中一個子集進行預測輸出；或者每次從測試事件集中隨機抽取一部分用於本次反覆運算的預測輸出。 S203，判斷是否滿足預設的反覆運算停止條件，如果是則進行執行S205，否則執行S204；根據前面的描述可知，“指標是否表現足夠好”是決定是否要對整合模型進行優化的重要依據，因此這裡的反覆運算停止條件應至少包括：當前整合模型的指標滿足預設的性能需求。例如“用戶打擾率在1%以下”、“預測覆蓋率在90%以上”等等。當存在多個指標值時，可以對各個指標值分別設置判斷標準，也可以根據一定的策略綜合判斷，本說明書對具體的判斷標準不需要進行限定。可以理解的是，“當前整合模型”在第1輪反覆運算中指代的是“初始的整合模型”，在第2輪及以後的反覆運算輪次中則指代是上一輪優化後得到的整合模型。實際應用中，對於初始的整合模型，可以週期性(例如每週一次、每月一次等)獲得整合模型預測結果，進而根據統計得到的指標值確定是否需要開始優化。也可以持續對整合模型預測結果進行監測，發現性能指標不滿足需求後進行告警提示，並且觸發優化流程。此外，根據實際需求，這裡的反覆運算停止條件還可以是其他形式，例如：可以在達到某個預設的反覆運算次數後控制反覆運算停止；可以在連續多次採用同樣的優化策略、但卻沒有明顯性能提升的情況下，控制反覆運算停止；可以在執行完所有可用的優化策略後控制反覆運算停止；當然，以上反覆運算停止條件僅用於示意性說明，不應理解為對本說明書方案的限定。 S204，對整合模型進行優化處理；根據整合模型的特性，本說明書提供多種整合模型優化策略，根據策略優化物件的不同，整體上可分為兩大類：對多個獨立模型的整合方式進行調整、或者對獨立模型進行單獨調整，其中每一大類策略還可以進一步包含多種實現方式，並且在反覆運算優化的過程中，不同輪次的優化策略安排還可以產生更為豐富的策略形式。本步驟的具體實現方式將在後面的實施例中詳細說明。 S205，若當前的整合模型指標值滿足性能需求，則將當前的整合模型確定為可用整合模型。對於初始整合模型、或者任意輪次優化後得到的整合模型，如果能夠滿足性能需求，則可以作為最終的優化結果投入使用。如果在停止反覆運算處理後，當前的模型仍未滿足性能需求，則可用轉入人工介入其他處理流程，具體處理方式與本說明書方案無關，這裡不再詳細說明。以上介紹了模型優化處理的整體流程，下面將對S204所涉及的優化策略做進一步展開說明：根據前面的說明，從“優化物件”的維度劃分，可以將優化策略分為兩類： a) 對多個獨立模型的整合方式進行調整； b) 對獨立模型進行單獨調整。此外，如果從“優化手段”維度劃分，也可以將優化策略分為兩類： a) 不改變模型的輸入特徵、僅對特徵參數進行調整(refit)； b) 增加或減少模型的輸入特徵，重新訓練得到新的模型(retrain)。根據上述兩個維度的劃分，排列組合後可的優化策略如表5所示：

表5 表5所示的4種優化策略具體解釋如下：整合模型refit：不改變參與整合的獨立模型，對獨立模型在整合模型中的整合權重進行調整，這裡的“整合權重”即整合模型的各個特徵值(也就是各個獨立模型的輸出)的參數；整合模型retrain：增加或減少用於提供整合模型輸入值的獨立模型，重新訓練得到新的整合模型；獨立模型refit：不改變獨立模型的輸入特徵，對獨立模型的各個特徵參數進行調整；獨立模型retrain：增加或減少獨立模型的輸入特徵，重新訓練得到新的獨立模型。當然，以上僅列出了4中典型的優化策略，不應理解為對本說明書方案的限定，例如，對於基於人工規則建立的獨立模型，可以直接透過修改或替換規則的方式實現調整。無論是refit還是retrain，本質上都需要透過訓練完成，由於模型性能不達標的原因很可能是過去可用的模型已經無法滿足最新的情況，因此可以選用最近一段時間(例如最近一周、最近一個月等等)發生的事件作為優化訓練事件集，進而根據優化訓練事件集進行有監督訓練以實現refit或retrain。實際應用中，“測試事件集”和“優化訓練事件集”可以從同一事件集中獲取，例如將最近一段時間發生過的事件劃分為兩部分，其中一部分用於統計指標值、另一部分用於對整合模型進行優化處理。在一次完整的模型優化過程中，可以選用表5所示出的一種或多種優化策略，如果從訓練成本方面考慮，應優先對整合模型進行調整、然後再對獨立模型進行調整；並且優先對模型進行refit、然後再對模型進行retrain。實際應用中，客觀情況可能並不允許隨意增減模型或特徵的數量，因此retrain的策略使用頻率也相對較小。例如，假設整合模型是由3個獨立模型整合得到，模型運算式如下： y_整 =h(-0.1+0.7y₁ +0.2y₂ +0.5y₃ ) 其中y₁ ，y₂ ，y₃ 分別表示3個獨立模型的輸出，0.7、0.2、0.5為整合權重。如果發生性能告警，則在第一個反覆運算輪次中，優先利用優化訓練事件集對整合進行refit，假設調整後的整合權重如下： y_整 _refit =h(-0.2+0.8y₁ +0.1y₂ +0.4y₃ ) 在本例中，不考慮“對整合模型進行retrain”這一策略，因此如果refit後的整合模型仍然不滿足性能需求，則需要進行整合因數拆解，以便分別對各個獨立模型進行優化。對於多個獨立模型的優化處理，可以分別獨立進行，也可以按照一定的順序逐個執行。例如，可以各個獨立模型在整合模型中的整合權重，優先對整合權重較高的獨立模型進行調整。以上述的y_整 _refit 運算式為例，根據整合權重可知，獨立模型1對整合輸出值的貢獻最大，其次是獨立模型3、最後是獨立模型2，因此獨立模型的調整優先順序為1→3→2。對每個獨立模型的優化策略優先採用refit、然後是retrain。對於同一獨立模型，由於可能包含多種增減參數方案，因此可能包含多個輪次的retrain，另外根據實際情況，對於某些獨立模型也可以不進行retrain。每個輪次優化完成後，均可以利用測試事件集獲得性能指標值，如果滿足性能需求則停止，否則繼續開啟下一輪優化。如果對所有獨立模型均進行優化後仍不滿足性能需求，可以轉為人工方式做進一步診斷。圖3示出了一種基於迴圈流程的整合模型優化方案，其特點是按需優化，即每次優化之後即對優化效果進行檢測，如果滿足需求則不再繼續進行優化。可以理解的是，在某些情況下也可以不使用反覆運算方式實現整合模型的優化，例如圖4所示的順序優化流程，與圖3所示迴圈流程的區別在於，在S303可以一次性執行全部的優化策略，例如僅使用一種優化策略、或按照固定規則執行多種優化策略。順序流程中其他部分的實現均可參見迴圈流程中相應部分的說明，這裡不再重複說明。以上分別從“模型構建”以及“模型優化”兩方面對模型整合方案進行說明，應用模型構建方案，可以將多個獨立的模型分值整合為一個綜合分值，使得輸出模型策略更加便於管理，也解決了模型過多所帶來的冗餘問題，提升系統處理資源的使用效率；應用模型優化方案，對於整合得到的模型，可以基於性能監控預警，自動觸發整合模型的反覆運算優化，從而保證綜合分值的穩定有效輸出。可見，本說明書提供的“模型構建”以及“模型優化”方案，既可以共同構成一個整體，也可以分別構成獨立的方案以解決不同的技術問題。可以理解的是，除風控場景之外，本說明書方案在其他的應用場景依然能夠有效適用，例如：在文本語義識別場景中，存在多個模型利用不同的文本特徵維度來識別語義；在圖像內容識別場景中，存在多個模型就不同的圖像特徵判斷該圖像是否為某一事物；在嚴格身份認證場景中，存在面部特徵模型、指紋特徵模型等多個模型共同判斷使用者身份；……。事實上，對於針對同一目的、使用不同特徵構建多種模型的應用場景，都可以應用本說明書方案進行模型整合及優化，因此本說明書實施例中的使用的場景舉例不應理解為對本說明書方案的限定。相應於上述方法實施例，本說明書實施例還提供一種模型整合系統，參見圖5所示，該系統可以包括兩部分：用於構建整合模型的裝置以及用於優化整合模型的裝置，可以理解的是，上述兩種裝置也可以分別獨立運行以解決不同的技術問題。以下分別進行說明：參見圖6所示，用於構建整合模型的裝置可以包括：獨立模型確定模組110，用於確定待整合的至少2個獨立模型，每個獨立模型具有1個輸出值；事件資料集獲取模組120，用於從歷史事件記錄中獲取事件資料集，每條事件資料中可以包括：每個獨立模型針對該事件的預測輸出值、該事件的綜合標籤值；訓練樣本產生模組130，用於根據所獲得的事件資料集，產生整合模型訓練樣本；訓練模組140，用於利用有監督學習演算法對樣本進行訓練得到整合模型，整合模型具有1個整合輸出值、且以多個獨立模型的輸出值作為輸入值。在本說明書提供的一種具體實施方式中，訓練樣本產生模組可以具體用於：根據預設的映射規則，對各獨立模型的輸出值進行映射處理，將映射結果確定為用於訓練整合模型的訓練特徵值。在本說明書提供的一種具體實施方式中，訓練樣本產生模組，可以利用以下方式對各獨立模型的輸出值進行映射處理：將獨立模型i的輸出值的值域劃分為L_i 個子區間；其中L_i ≥2，i=1,2,3…M，M為參與整合的獨立模型數量；對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，確定該輸出值對應的映射結果。在本說明書提供的一種具體實施方式中，訓練樣本產生模組可以利用以下方式將獨立模型i的輸出值的值域劃分為L_i 個子區間：針對所獲得的事件資料集，根據獨立模型i對各事件的輸出值的分佈情況，將獨立模型i的輸出值的值域劃分為L_i 個子區間。在本說明書提供的一種具體實施方式中，不同獨立模型i所對應的子區間劃分數量L_i 相同，且不同獨立模型間的相應子區間對應的輸出值分佈占比相同。在本說明書提供的一種具體實施方式中，訓練樣本產生模組可以利用以下方式確定輸出值的映射結果：對於獨立模型i的任意輸出值，將輸出值所處的子區間的WOE分值確定為該輸出值的映射結果；獨立模型i的每個輸出值對應1個訓練特徵值。或者對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，將該輸出值轉換為長度為L_i 的One-Hot編碼值；獨立模型i的每個輸出值對應L_i 個訓練特徵值。上述整合模型構建裝置，還可以進一步配置優化處理模組，用於在確定當前的整合模型的指標值不滿足性能需求的情況下，根據預設的優化訓練事件集對整合模型進行優化處理。例如對多個獨立模型的整合方式進行調整、或者對獨立模型進行單獨調整。具體的優化策略使用可以參見本說明書中的其他實施例，這裡不再重複說明。參見圖7所示，用於優化整合模型的裝置可以包括：初始整合模型確定模組210，用於確定初始的整合模型，整合模型具有1個整合輸出值、且以至少2個獨立模型的輸出值作為輸入值；優化處理模組220，利用以下子模組配合進行反覆運算處理，直到滿足預設的反覆運算停止條件，反覆運算停止條件至少可以包括：當前的整合模型指標滿足預設的性能需求；性能評價子模組，用於獲得當前的整合模型針對預設的測試事件集輸出的預測結果，並對預測結果進行統計得到整合模型的至少1個指標值，指標值用於評價整合模型的性能；優化處理子模組，用於根據預設的優化訓練事件集對整合模型進行優化處理，其中優化處理可以包括：對多個獨立模型的整合方式進行調整、或者對獨立模型進行單獨調整；輸出模組230，用於在停止反覆運算後，若當前的整合模型指標值滿足性能需求，則將當前的整合模型確定為可用整合模型。在本說明書提供的一種具體實施方式中，優化處理子模組可以具體用於：在反覆運算處理過程中，優先對多個獨立模型的整合方式進行調整，如果無法滿足性能需求，則在後續的反覆運算輪次中對獨立模型進行單獨調整。在本說明書提供的一種具體實施方式中，優化處理子模組可以具體用於利用以下方式對多個獨立模型的整合方式進行調整：不改變參與整合的獨立模型，對獨立模型在整合模型中的整合權重進行調整；或者增加或減少用於提供整合模型輸入值的獨立模型，重新訓練得到新的整合模型。在本說明書提供的一種具體實施方式中，優化處理子模組可以具體用於利用以下方式對獨立模型進行單獨調整：在反覆運算處理過程中，根據各個獨立模型在整合模型中的整合權重，優先對整合權重較高的獨立模型進行調整，如果無法滿足性能需求，則在後續的反覆運算輪次中對整合權重較低的獨立模型進行調整。在本說明書提供的一種具體實施方式中，優化處理子模組可以具體用於利用以下方式對獨立模型進行單獨調整：不改變獨立模型的輸入特徵，對獨立模型的參數進行調整；或者增加或減少獨立模型的輸入特徵，重新訓練得到新的獨立模型。在本說明書提供的一種具體實施方式中，用於統計指標值的測試事件集、以及用於對整合模型進行優化處理的優化訓練事件集，為取自同一事件集的測試集和驗證集。在圖7所示的用於優化整合模型的裝置獨立工作的情況下，初始整合模型確定模組可以用於實現整合模型的構建：從歷史事件記錄中獲取事件資料集，每條事件資料中可以包括：每個獨立模型針對該事件的預測輸出值、該事件的綜合標籤值；以所獲得的事件資料集作為樣本，利用有監督學習演算法對樣本進行訓練得到整合模型。另外，相應於方法實施例中的順序優化流程，優化處理模組220還可以採用非迴圈的方式執行優化，例如僅使用一種優化策略、或按照固定規則執行多種優化策略等等，具體實現可參見前面實施例，這裡不再重複說明。本說明書實施例還提供一種電腦設備，其至少包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，其中，處理器執行所述程式時實現前述的模型整合方法，具體可以是在一台設備中同時實現前述的整合模型構建方法及整合模型優化方法，也可以是在不同設備中分別實現前述的整合模型構建方法及整合模型優化方法。圖8示出了本說明書實施例所提供的一種更為具體的計算設備硬體結構示意圖，該設備可以包括：處理器1010、記憶體1020、輸入/輸出介面1030、通信介面1040和匯流排1050。其中處理器1010、記憶體1020、輸入/輸出介面1030和通信介面1040透過匯流排1050實現彼此之間在設備內部的通信連接。處理器1010可以採用通用的CPU(Central Processing Unit，中央處理器)、微處理器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、或者一個或多個積體電路等方式實現，用於執行相關程式，以實現本說明書實施例所提供的技術方案。記憶體1020可以採用ROM(Read Only Memory，唯讀記憶體)、RAM(Random Access Memory，隨機存取記憶體)、靜態存放裝置，動態儲存裝置設備等形式實現。記憶體1020可以儲存作業系統和其他應用程式，在透過軟體或者韌體來實現本說明書實施例所提供的技術方案時，相關的程式碼保存在記憶體1020中，並由處理器1010來調用執行。輸入/輸出介面1030用於連接輸入/輸出模組，以實現資訊輸入及輸出。輸入輸出/模組可以作為元件配置在設備中(圖中未示出)，也可以外接於設備以提供相應功能。其中輸入裝置可以包括鍵盤、滑鼠、觸控式螢幕、麥克風、各類感測器等，輸出設備可以包括顯示器、揚聲器、振動器、指示燈等。通信介面1040用於連接通信模組(圖中未示出)，以實現本設備與其他設備的通信互動。其中通信模組可以透過有線方式(例如USB、網線等)實現通信，也可以透過無線方式(例如移動網路、WIFI、藍牙等)實現通信。匯流排1050包括一通路，在設備的各個元件(例如處理器1010、記憶體1020、輸入/輸出介面1030和通信介面1040)之間傳輸資訊。需要說明的是，儘管上述設備僅示出了處理器1010、記憶體1020、輸入/輸出介面1030、通信介面1040以及匯流排1050，但是在具體實施過程中，該設備還可以包括實現正常運行所必需的其他元件。此外，本領域的技術人員可以理解的是，上述設備中也可以僅包含實現本說明書實施例方案所必需的組件，而不必包含圖中所示的全部元件。本說明書實施例還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，該程式被處理器執行時實現前述的模型整合方法，具體可以是在一台設備中同時實現前述的整合模型構建方法及整合模型優化方法，也可以是在不同設備中分別實現前述的整合模型構建方法及整合模型優化方法。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體(transitory media)，如調變的資料信號和載波。透過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本說明書實施例可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本說明書實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本說明書實施例各個實施例或者實施例的某些部分所述的方法。上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦，電腦的具體形式可以是個人電腦、膝上型電腦、蜂窩電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於裝置實施例而言，由於其基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的模組可以是或者也可以不是實體上分開的，在實施本說明書實施例方案時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。也可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。以上所述僅是本說明書實施例的具體實施方式，應當指出，對於本技術領域的普通技術人員來說，在不脫離本說明書實施例原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視為本說明書實施例的保護範圍。

10‧‧‧獨立模型確定模組 120‧‧‧事件資料集獲取模組 130‧‧‧訓練樣本產生模組 140‧‧‧訓練模組 210‧‧‧初始整合模型確定模組 220‧‧‧優化處理模組 230‧‧‧輸出模組 1010‧‧‧處理器 1020‧‧‧記憶體 1030‧‧‧輸入/輸出介面 1040‧‧‧通信介面 1050‧‧‧匯流排

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本說明書實施例中記載的一些實施例，對於本領域普通技術人員來講，還可以根據這些圖式獲得其他的圖式。圖1是本說明書實施例的整合模型與獨立模型的關係示意圖；圖2是本說明書實施例的整合模型構建方法的流程圖；圖3是本說明書實施例的整合模型優化方法的第一種流程圖；圖4是本說明書實施例的整合模型優化方法的第二種流程圖；圖5是本說明書實施例的模型整合系統的結構示意圖；圖6是本說明書實施例的用於構建整合模型的裝置的結構示意圖；圖7是本說明書實施例的用於優化整合模型的裝置的結構示意圖；圖8是用於配置本說明書實施例裝置的一種設備的結構示意圖。

Claims

一種模型整合方法，該方法包括：確定待整合的至少2個獨立模型，每個獨立模型具有1個輸出值；從歷史事件記錄中獲取事件資料集，每條事件資料中包括：每個獨立模型針對該事件的預測輸出值、該事件的綜合風險標籤值，其中該綜合風險標籤值是指某事件是否實際構成案件的判定結果；根據所獲得的事件資料集，產生整合模型訓練樣本；利用有監督學習演算法對樣本進行訓練得到整合模型，該整合模型具有1個整合輸出值、且以多個獨立模型的輸出值作為輸入值。
根據申請專利範圍第1項所述的方法，該根據所獲得的事件資料集，產生整合模型訓練樣本，包括：根據預設的映射規則，對各獨立模型的輸出值進行映射處理，將映射結果確定為用於訓練整合模型的訓練特徵值。
根據申請專利範圍第2項所述的方法，該對各獨立模型的輸出值進行映射處理，包括：將獨立模型i的輸出值的值域劃分為L_i個子區間；其中L_i
2，i=1,2,3...M，M為參與整合的獨立模型數量；對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，確定該輸出值對應的映射結果。
根據申請專利範圍第3項所述的方法，該將獨立模型i的輸出值的值域劃分為L_i個子區間，包括：針對所獲得的事件資料集，根據獨立模型i對各事件的輸出值的分佈情況，將獨立模型i的輸出值的值域劃分為L_i個子區間。
根據申請專利範圍第4項所述的方法，不同獨立模型i所對應的子區間劃分數量L_i相同，且不同獨立模型間的相應子區間對應的輸出值分佈占比相同。
根據申請專利範圍第3項所述的方法，該對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，確定該輸出值對應的映射結果，包括：對於獨立模型i的任意輸出值，將輸出值所處的子區間的WOE(證據權重)分值確定為該輸出值的映射結果；獨立模型i的每個輸出值對應1個訓練特徵值。
根據申請專利範圍第3項所述的方法，該對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，確定該輸出值對應的映射結果，包括：對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，將該輸出值轉換為長度為L_i的獨熱(One-Hot)編碼值；獨立模型i的每個輸出值對應L_i個訓練特徵值。
根據申請專利範圍第1項所述的方法，該方法還包括：在確定當前的整合模型的指標值不滿足性能需求的情況下，根據預設的優化訓練事件集對整合模型進行優化處理，該優化處理包括：對多個獨立模型的整合方式進行調整、或者對獨立模型進行單獨調整；其中，該指標值是基於當前的整合模型針對預設的測試事件集輸出的預測結果統計得到。
一種模型整合裝置，該裝置包括：獨立模型確定模組，用於確定待整合的至少2個獨立模型，每個獨立模型具有1個輸出值；事件資料集獲取模組，用於從歷史事件記錄中獲取事件資料集，每條事件資料中包括：每個獨立模型針對該事件的預測輸出值、該事件的綜合風險標籤值，其中該綜合風險標籤值是指某事件是否實際構成案件的判定結果；訓練樣本產生模組，用於根據所獲得的事件資料集，產生整合模型訓練樣本；訓練模組，用於利用有監督學習演算法對樣本進行訓練得到整合模型，該整合模型具有1個整合輸出值、且以多個獨立模型的輸出值作為輸入值。
根據申請專利範圍第9項所述的裝置，該訓練樣本產生模組，具體用於：根據預設的映射規則，對各獨立模型的輸出值進行映射處理，將映射結果確定為用於訓練整合模型的訓練特徵值。
根據申請專利範圍第10項所述的裝置，該訓練樣本產生模組，具體用於：將獨立模型i的輸出值的值域劃分為L_i個子區間；其中L_i
2，i=1,2,3...M，M為參與整合的獨立模型數量；對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，確定該輸出值對應的映射結果。
根據申請專利範圍第11項所述的裝置，該訓練樣本產生模組，具體用於：針對所獲得的事件資料集，根據獨立模型i對各事件的輸出值的分佈情況，將獨立模型i的輸出值的值域劃分為L_i個子區間。
根據申請專利範圍第12項所述的裝置，不同獨立模型i所對應的子區間劃分數量L_i相同，且不同獨立模型間的相應子區間對應的輸出值分佈占比相同。
根據申請專利範圍第11項所述的裝置，該訓練樣本產生模組，具體用於：對於獨立模型i的任意輸出值，將輸出值所處的子區間的WOE分值確定為該輸出值的映射結果；獨立模型i的每個輸出值對應1個訓練特徵值。
根據申請專利範圍第11項所述的裝置，該訓練樣本產生模組，具體用於：對於獨立模型i的任意輸出值，根據該輸出值所處的子區間，將該輸出值轉換為長度為L_i的One-Hot編碼值；獨立模型i的每個輸出值對應L_i個訓練特徵值。
根據申請專利範圍第9項所述的裝置，該裝置還包括：優化處理模組，用於在確定當前的整合模型的指標值不滿足性能需求的情況下，根據預設的優化訓練事件集對整合模型進行優化處理，該優化處理包括：對多個獨立模型的整合方式進行調整、或者對獨立模型進行單獨調整；該指標值是基於當前的整合模型針對預設的測試事件集輸出的預測結果統計得到。
一種電腦設備，包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，其中，該處理器執行該程式時實現如申請專利範圍第1至8項中任一項所述的方法。