TWI677830B

TWI677830B - 模型中關鍵變量的探測方法及裝置

Info

Publication number: TWI677830B
Application number: TW106119854A
Authority: TW
Inventors: 席炎
Original assignee: 香港商阿里巴巴集團服務有限公司; Alibaba Group Services Limited
Priority date: 2016-08-26
Filing date: 2017-06-14
Publication date: 2019-11-21
Also published as: PH12019500406A1; SG11201901614SA; WO2018036402A1; CN107784411A; TW201807623A; US20190220924A1

Abstract

本發明提供一種模型中關鍵變量的探測方法及裝置，其中的方法包括：將目標樣本輸入模型得到第一結果；所述目標樣本包含若干變量；將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果影響度最高的關鍵變量。本發明可以降低在探測對模型的輸出結果影響度最高的變量時的複雜度。

Description

模型中關鍵變量的探測方法及裝置

本申請關於電腦應用領域，尤其關於一種模型中關鍵變量的探測方法及裝置。

在相關技術中，通常可以在某一業務場景下採集大量來自用戶的業務資料作為建模樣本，然後透過統計模型或者機器學習的方法對建模樣本進行訓練，來構建業務模型。當業務模型構建完成後，可以將業務資料登錄該業務模型，並根據該業務模型的輸出結果，在該業務場景下進行相應的業務預測。

然而，在實際應用中，在將業務資料作為業務樣本輸入業務模型得到結果後，由於輸入的業務資料通常可能包含若干業務變量，而模型通常無法確定該業務樣本中的哪一個業務變量對最終輸出的業務結果影響度最高，因此無法滿足實際的業務需求。

本申請提出一種模型中關鍵變量的探測方法，該方法包括：將目標樣本輸入模型得到第一結果；所述目標樣本包含若干變量；將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果影響度最高的關鍵變量。

本發明還提出一種信用提升指引方法，該方法包括：將目標樣本輸入信用評價模型得到第一信用評分；所述目標樣本包含若干變量；將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；將變量的取值依次被替換後的目標樣本分別輸入所述信用評價模型得到第二信用評分集合；基於所述第二信用評分集合中的每一個第二信用評分與所述第一信用評分之間的差值，確定對所述第一信用評分影響度最高的關鍵變量；將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶。

本發明還提出一種評價模型中關鍵變量的探測裝置，該裝置包括：第一輸入模組，用於將目標樣本輸入模型得到第一結果；所述目標樣本包含若干變量；第一替換模組，用於將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；第二輸入模組，用於將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；第一確定模組，用於基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果影響度最高的關鍵變量。

本發明還提出一種信用提升指引裝置，該裝置包括：第三輸入模組，用於將目標樣本輸入信用評價模型得到第一信用評分；所述目標樣本包含若干變量；第二替換模組，用於將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；第四輸入模組，用於將變量的取值依次被替換後的目標樣本分別輸入所述信用評價模型得到第二信用評分集合；第二確定模組，用於基於所述第二信用評分集合中的每一個第二信用評分與所述第一信用評分之間的差值，確定對所述第一信用評分影響度最高的關鍵變量；輸出模組，用於將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶。

本發明中，透過將目標樣本輸入模型得到第一結果；將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值，並將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；然後基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果最高的關鍵變量，實現了透過比較變量的取值被依次替換後，目標樣本在模型中得到的第二結果，與該目標樣本實際的得到的第一結果之間的差異，就可以確定出對第一結果影響度最高的關鍵變量，而不需要深入理解模型的演算法；當本發明的技術方案應用於信用評價模型中時，可以實現透過比較變量的取值被依次替換後，目標樣本在信用評價模型中得到的信用評分，與該目標樣本實際的得到的信用評分之間的差異，就可以確定出對用戶的信用評分影響度最高的關鍵變量，而不需要深入理解模型的演算法，從而可以降低在探測對信用評分影響度最高的變量時的複雜度；同時，透過將該關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶，可以使用戶能夠直觀的瞭解到提升自身信用的途徑，從而可以提升用戶體驗。

40‧‧‧模型中關鍵變量的探測裝置

60‧‧‧信用提升指引裝置

101、102、103、104‧‧‧方法步驟

201、202、203、204、205‧‧‧方法步驟

401‧‧‧第一輸入模組

402‧‧‧第一替換模組

403‧‧‧第二輸入模組

404‧‧‧第一確定模組

601‧‧‧第三輸入模組

602‧‧‧第二替換模組

603‧‧‧第四輸入模組

604‧‧‧第二確定模組

605‧‧‧輸出模組

圖1是本發明一實施例提供的一種模型中關鍵變量的探測方法的流程圖；圖2是本發明一實施例提供的一種信用提升指引方法的流程圖；圖3是本發明一實施例提供的一種信用評價模型中輸出信用提升指引的處理流程圖；圖4是本發明一實施例提供的一種模型中關鍵變量的探測裝置的邏輯框圖；圖5是本發明一實施例提供的承載所述一種模型中關鍵變量的探測裝置的服務端的硬體結構圖；圖6是本發明一實施例提供的一種信用評分提升指引裝置的邏輯框圖；圖7是本發明一實施例提供的承載所述信用評分提升指引裝置的服務端的硬體結構圖。

業務風險模型，是一種用於對業務風險進行評估的評價模型。在相關技術中，通常可以在某一業務場景下採集大量業務資料作為建模樣本，並基於建模樣本中是否包含預先定義的業務風險事件對建模樣本進行分類，然後透過統計模型或者機器學習的方法對建模樣本進行訓練，來構建業務風險模型。

當業務風險模型構建完成後，可以將採集到的業務資料作為目標樣本輸入該業務風險模型進行風險評估，來預測在未來一段時間內發生這種業務風險事件的概率，然後將該概率轉換為對應的業務風險評分，來反映業務的風險等級。

在實際應用中，在透過將採集到的業務資料作為目標樣本，輸入構建完成的評價模型，得到對應的業務風險評分後，通常希望能夠探測出該目標樣本所包含的若干變量中，對最終輸出的風險評分影響度最高的關鍵變量。

例如，在信貸業務的應用場景中，當上述業務風險模型為信用風險評價模型時，征信公司將用戶的業務資料作為目標樣本，輸入模型中進行信用評估輸出該用戶的信用評分後，用戶通常會有著比較強烈的提升信用評分的訴求；因此，征信公司需要瞭解該用戶的業務資料中，哪一個變量對最終的信用評分影響度最高，到底是哪一個變量拉低了該用戶信用評分，從而可以基於該用戶的信用短板，有針對性的向該用戶輸出信用提升指引。

在相關技術中，在探測目標樣本中對風險評分影響度最高的關鍵變量時，通常可以透過特定的探測演算法來進行實現；例如，在信貸業務的應用場景中，可以透過深入到評價模型的建模演算法內部，來設計特定的信用提升指引演算法，透過該信用提升指引演算法，來探測用戶的目標樣本中，對最終得到的信用評分影響度最高的關鍵變量，然後將與該關鍵變量對應的業務行為作為信用提升指引向用戶輸出。

可見，在以上技術方案中，上述探測演算法的設計，通常需要深入瞭解評價模型的建模演算法。對於傳統的諸如邏輯回歸演算法，決策樹演算法等建模演算法而言，由於基於這些演算法構建的模型具有結構簡潔，以及高度的可解釋性的特性，因此在深入這些演算法來設計上述探測演算法，通常不會造成困難。

然而，隨著大資料採擷技術的發展以及電腦計算性能的提升，越來越多的複雜演算法被應用在了評價模型中，例如GBDT(Gradient Boosting Decision Tree，反覆運算的決策樹演算法)，深度神經網路等演算法，由於基於這些複雜演算法產生的模型不易解讀，由此引申出的問題是，在設計上述探測演算法時，通常難以深入到模型的演算法內部，從而在上述探測演算法的設計上會存在困難。

有鑑於此，本發明透過將目標樣本輸入模型得到第一結果；將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值，並將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；然後基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果最高的關鍵變量，實現了透過比較變量的取值被依次替換後，目標樣本在模型中得到的第二結果，與該目標樣本實際的得到的第一結果之間的差異，就可以確定出對第一結果影響度最高的關鍵變量，而不需要深入理解模型的演算法；當本發明的技術方案應用於信用評價模型中時，可以實現透過比較變量的取值被依次替換後，目標樣本在信用評價模型中得到的信用評分，與該目標樣本實際的得到的信用評分之間的差異，就可以確定出對用戶的信用評分影響度最高的關鍵變量，而不需要深入理解模型的演算法，從而可以降低在探測對信用評分影響度最高的變量時的複雜度；同時，透過將該關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶，可以使用戶能夠直觀的瞭解到提升自身信用的途徑，從而可以提升用戶體驗。

下面透過具體實施例並結合具體的應用場景對本發明進行描述。

請參考圖1，圖1是本發明一實施例提供的一種模型中關鍵變量的探測方法，應用於服務端，所述方法執行以下步驟：步驟101，將目標樣本輸入模型得到第一結果；所述目標樣本包含若干變量；步驟102，將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；步驟103，將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；步驟104，基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果影響度最高的關鍵變量。

上述服務端，可以包括用於訓練以及使用業務模型的伺服器、伺服器集群或者基於伺服器集群構建的雲平台。

上述模型，可以包括基於預設的建模演算法，對採集到的大量的建模樣本進行訓練後，構建出的用於進行業務預測的數學模型。例如，在實際應用中，上述業務模型可以是評價模型，透過該模型可以對用戶未來一段時間的業務風險進行評分，並輸出評分結果。

其中，在基於採集到的大量的建模樣本進行訓練來構建模型的具體過程，在本發明中不再進行詳述，本領域技術人員可以參考相關技術中的記載；例如，在實際應用中，上述服務端在訓練上述模型時，可以採用諸如評分卡、回歸分析或者神經網路等建模方法，利用諸如SAS(Statistical Analysis System，統計分析系統)以及SPSS(Statistical Product and Service Solutions，統計產品與服務解決方案)等較為成熟的資料採擷工具，透過對採集到的大量建模樣本進行訓練，來構建上述業務模型。

在本例中，當上述業務模型訓練完成後，上述服務端可以採集目標用戶的目標樣本。其中，在作為上述目標樣本以及建模樣本的業務資料中，均可以包括若干業務變量，而在這些業務變量中，還可以包含若干行為變量。例如，當上述業務模型為評價模型時，上述目標樣本以及建模樣本中包含的變量，可以是對業務造成影響的變量，而在這些變量中還可以包括與用戶的業務行為對應的業務變量。

需要說明的是，上述目標樣本以及建模樣本中所包含的行為變量的數量，可以基於實際的需求進行自訂。例如，在實際應用中，為了探測對業務模型的輸出結果影響度最高的用戶行為，可以將上述目標樣本中的變量，全部定義為行為變量。

當上述服務端採集到目標用戶的目標樣本後，可以將該目標樣本輸入訓練完成的評價模型中進行業務預測，得到與該目標樣本對應的第一結果。

當將上述目標樣本輸入模型進行業務預測，得到第一結果後，為了探測上述目標樣本中，對該第一結果影響度最高的變量，上述服務端可以將上述業務樣本中所包含的變量的取值，依次替換為與該變量對應的探測閾值，然後將變量的取值依次被替換後的該目標樣本分別輸入上述業務模型中進行業務預測。

上述探測閾值，可以是一個能夠表示採集到的目標樣本中所包含的變量的取值，在目標用戶人群中的整體水準的閾值。其中，該目標樣本包含的所有變量，可以分別對應一個用於對該變量的取值進行替換的探測閾值。

上述目標用戶人群，可以定義為實施與上述目標樣本對應的業務的所有人群，也可以定義為與上述目標樣本對應的目標用戶，所屬的某一個特定的業務人群，在本例中不進行特別限定。

在示出的一種實施方式中，上述探測閾值，可以定義為其對應的業務變量的取值，在目標用戶人群中的平均數、中位數或者眾數中的任一。其中，平均數、中位數以及眾數，均為基礎的統計學概念。平均數，是指所有取值樣本相加後除以取值樣本的數量得到的平均值。中位數，是指將所有取值樣本高低排序後找出正中間的一個，或者正中間的兩個的平均值。眾數，是指所有取值樣本中出現次數最多的取值樣本的取值。

透過這種方式，只需要對上述目標樣本中的變量，在目標用戶人群中對應的取值作為取值樣本，進行簡單的統計分析計算，就可以為上述目標樣本中的變量分別設定探測閾值。

其中，當將眾數作為上述探測閾值時，由於眾數可能為多個，因此在這種情況下，可以將該多個眾數的平均值，或者其中的任意一個作為上述探測閾值。

在本例中，在將上述目標樣本中的變量的取值依次替換與該變量對應的探測閾值時，通常情況下，可以將目標樣本中的變量逐個替換為與該變量對應的探測閾值即可。

然而，在實際應用中，上述目標樣本中可能會包含多個對應於同一行為的行為變量；在這種情況下，如果上述目標樣本中，包含多個行為變量，並且該多個行為變量對應於同一行為，則可以將該多個行為變量的取值同時替換為與該多個行為變量分別對應的探測閾值。

在本例中，當將上述目標樣本中的變量的取值，依次替換與該變量對應的探測閾值後，還可以將變量的取值依次被替換後的得到的多個目標樣本，分別輸入上述業務模型中進行業務預測，得到一個第二結果集合。

另外，在本例中，在將變量的取值依次被替換後得到的多個目標樣本，分別輸入上述業務模型中進行業務預測後，上述服務端還可以保存取值被替換的變量，與該變量的取值被替換後的上述目標樣本，在輸入上述業務模型中得到的業務信用評分之間的對應關係。

透過這種方式，後續服務端可以基於上述第二結果集合中的任一第二結果，透過查詢該對應關係，來定位到對應的取值被替換的業務變量。

在本例中，上述服務端在探測針對上述第一結果影響度最高的關鍵變量時，可以將已經得出的上述第一結果與上述第二結果集合中的各第二結果進行數值比較，計算上述第一結果與上述第二結果中各第二結果之間的差值，然後基於計算得到的該差值，來確定對上述第一結果影響度最高的關鍵變量。

在示出的一種實施方式中，上述服務端可以分別計算上述第二結果集合中的每個第二結果減去上述第一結果之間的差。在確定對上述第一結果影響最高的變量時，可以將第二結果集合中與第一結果之間的差最大的第二結果，確定為關鍵結果。在確定出關鍵結果後，上述服務端可以將該關鍵結果作為查詢索引，在預先保存上述對應關係，來確定與該關鍵結果對應的取值被替換的變量。此時確定出的與該關鍵結果存在對應關係的變量，即為最終探測到的對第一結果影響度最高的關鍵變量。

可見，透過這種方式，透過比較變量的取值被依次替換後目標樣本在模型中得到的結果，與該目標樣本不進行變量取值替換時實際得到的結果之間的差異，就可以快速簡易的確定出對第一結果影響度最高的關鍵業務變量，而不需要深入理解模型的演算法，從而可以降低在確定對第一結果影響度最高的變量時的複雜度。

需要說明的是，在實際應用中，上述業務模型可以是信用評價模型。以下以上述業務模型為信用評價模型為例進行說明。

請參考圖2，圖2是本發明一實施例提供的一種信用提升指引方法，應用於服務端，所述方法執行以下步驟：

步驟201，將目標樣本輸入信用評價模型得到第一信用評分；所述目標樣本包含若干變量；上述服務端，可以包括用於訓練以及使用信用評價模型的伺服器、伺服器集群或者基於伺服器集群構建的雲平台。

上述信用評價模型，可以包括基於預設的建模演算法，對採集到的大量的建模樣本進行訓練後，構建出的用於進行信用評估的數學模型。例如，在實際應用中，上述信用評價模型可以是信用風險評估模型，透過該模型可以對用戶的信用風險進行評分，並輸出評分結果。

上述信用評分，為上述信用評價模型針對採集到的目標樣本進行信用評估後得到的信用評分，該信用評分用於衡量用戶在未來一段時間內的信用風險。

例如，在信貸業務的場景中，該信用評價模型可以針對從特定的信貸業務場景中採集到的業務資料進行信用風險評估，得到相應的信用評分，此時該信用評分用於衡量一個用戶在未來一段時間內發生信用違約的概率。

其中，在基於採集到的大量的建模樣本進行訓練來構建信用評價模型的具體過程，在本發明中不再進行詳述，本領域技術人員可以參考相關技術中的記載；例如，在實際應用中，上述服務端在訓練上述信用評價模型時，可以採用諸如評分卡、回歸分析或者神經網路等建模方法，利用諸如SAS(Statistical Analysis System，統計分析系統)以及SPSS(Statistical Product and Service Solutions，統計產品與服務解決方案)等較為成熟的資料採擷工具，透過對採集到的大量建模樣本進行訓練，來構建上述信用評價模型。

在本例中，當上述信用評價模型訓練完成後，上述服務端可以採集目標用戶的目標樣本。該目標用戶，即為需要進行信用風險評估的用戶。上述建模樣本以及上述目標樣本，均可以包括從具體的業務場景下採集到的業務資料。作為建模樣本的業務資料可以用於模型的訓練，而作為目標樣本的業務資料則可以用於對目標用戶的信用風險進行評估。

其中，在作為上述目標樣本以及建模樣本的業務資料中，均可以包括若干可能對用戶的信用風險造成影響的變量，而在這些變量中，還可以包含若干行為變量。

例如，在信貸業務場景中上述目標樣本以及建模樣本中包含的變量，可以是對信用風險造成影響的變量；比如，可以包括用戶的收入消費資料、歷史信貸資料、違約資料、用戶的就業狀況等等對信用風險造成影響的變量。而在這些變量中，收入消費資料、歷史信貸數以及違約資料，分別與用戶的消費行為、信貸行為以及違約行為相對應，因此收入消費資料、歷史信貸資料以及違約資料可以稱之為目標樣本中的行為變量。

需要說明的是，上述目標樣本以及建模樣本中所包含的行為變量的數量，可以基於實際的需求進行自訂。例如，在實際應用中，為了探測對信用評分影響度最高的用戶行為，可以將上述目標樣本中的變量，全部定義為行為變量。

當上述服務端採集到目標用戶的目標樣本後，可以將該目標樣本輸入訓練完成的信用評價模型中進行風險評估，得到與該目標樣本對應的第一信用評分。

步驟202，將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；

步驟203，將變量的取值依次被替換後的目標樣本分別輸入所述信用評價模型得到第二信用評分集合；當將上述目標樣本輸入模型進行信用風險評估，得到第一信用評分後，為了探測上述目標樣本中，對該第一信用評分影響度最高的變量，上述服務端可以將上述業務樣本中所包含的變量的取值，依次替換為與該變量對應的探測閾值，然後將變量的取值依次被替換後的該目標樣本分別輸入上述信用評價模型中進行信用風險評估。

在示出的一種實施方式中，上述探測閾值，可以定義為其對應的業務變量的取值，在目標用戶人群中的平均數、中位數或者眾數中的任一。

在相關技術中，在衡量某一個變量的取值在某一目標用戶人群中的整體水準時，通常可以採集該目標用戶人群中所有用戶，對應於該變量的取值作為取值樣本，然後計算採集到的所有取值樣本的平均數、中位數或者眾數，並使用平均數、中位數或者眾數中的任一來表示該變量的取值在某一個目標用戶人群中的整體水準。

例如，在信貸業務的應用場景中，上述目標樣本可以包括諸如收入消費資料、歷史信貸資料、違約資料、用戶的就業狀況等業務變量。假設需要確定收入消費資料這一業務變量在目標用戶人群中的整體水準的話，此時可以採集該目標用戶人群中所有用戶的收入消費資料作為取值樣本，然後計算採集到的所有用戶的收入消費資料對應的具體消費數額的平均數、中位數或者眾數，並使用平均數、中位數或者眾數中的任一，作為該目標用戶人群中的整體水準。

其中，平均數、中位數以及眾數，均為基礎的統計學概念。

平均數，是指所有取值樣本相加後除以取值樣本的數量得到的平均值。

中位數，是指將所有取值樣本高低排序後找出正中間的一個，或者正中間的兩個的平均值。

眾數，是指所有取值樣本中出現次數最多的取值樣本的取值。

因此，在實際應用中，可以將上述目標樣本中的變量的取值，在上述目標用戶人群中的平均數、中位數或者眾數中的任一，直接設定為上述探測閾值。透過這種方式，只需要對上述目標樣本中的變量，在目標用戶人群中對應的取值作為取值樣本，進行簡單的統計分析計算，就可以為上述目標樣本中的變量分別設定探測閾值。

在示出的另一種實施方式中，上述探測閾值還可以定義為，透過特定的統計分析演算法針對上述目標樣本中的變量，在上述目標用戶人群中的取值樣本進行統計分析後，得到的能夠表示上述目標樣本中的變量的取值在上述目標用戶人群中的整體水準的閾值。

由於上述目標樣本中的業務變量的取值，在目標用戶人群中的平均數、中位數或者眾數，通常並不能精確的反映該業務變量的取值在目標用戶人群中的整體水準。

因此，在實際應用中，除了可以將上述目標樣本中的變量的取值，在目標用戶人群中的平均數、中位數或者眾數中的任一，定義為上述探測閾值以外，在衡量某一個變量的取值在某一目標用戶人群中的整體水準時，也可以將該目標用戶人群中所有用戶，對應於該變量的取值作為取值樣本，然後透過特定的統計分析演算法進行統計分析，得出一個能夠表示上述目標樣本中的變量的取值在上述目標用戶人群中的整體水準的閾值，然後將該得到的該閾值定義為上述探測閾值。

其中，在針對上述取值樣本進行統計分析時，所採用的統計分析演算法，可以與構建上述評價模型採用的演算法相同，也可以不同、例如，在實際應用中，也可以採用諸如回歸分析等演算法，利用諸如SAS或SPSS等較為成熟的資料採擷工具，針對上述取值樣本進行統計分析，得到所有取值樣本的取值分佈規律，然後基於該取值分佈規律確定出一個能夠表示該取值變量的取值，在該目標用戶人群中的整體水準的閾值，其具體的統計分析過程在本例中不再進行詳述，本領域技術人員在付諸實施時可以參考相關技術中的記載。

當然，除了以上示出的針對上述探測閾值的定義方法以外，在實際應用中，也可以透過其它的數學量化方法，來為上述目標樣本中的業務變量分別定義探測閾值。

需要強調的是，無論採用何種數學量化方法，最終為上述目標樣本中的業務變量分別定義的探測閾值，旨在表示該業務變量的取值，在上述目標用戶人群中的整體水準，在本例中不再進行一一列舉。

例如，假設該目標樣本包含三個變量V1、V2和V3，V1、V2和V3對應的探測閾值分別為V1-t、V2-t和V3-t。那麼，首先可以使用V1-t替換變量V1的取值，得到一個由變量V1-t、V2和V3構成的目標樣本。其次，再使用V2-t替換變量V2的取值，得到一個由變量V1、V2-t和V3構成的目標樣本。最後，再使用V3-t替換變量V3的取值，得到一個由變量V1、V2和V3-t構成的目標樣本。

然而，在實際應用中，上述目標樣本中可能會包含多個對應於同一行為的行為變量。

例如，，在信貸業務的應用場景中，假設上述目標樣本同時包括“違約金額”、“違約次數”、“收入消費資料”等變量，對於變量“收入消費資料”而言，它與用戶的消費行為唯一對應；而對於變量“違約金額”和“違約次數”而言，均與用戶的違約行為對應。在這種情況下，變量“違約金額”和“違約次數”即為該目標樣本中，對應於同一行為的行為變量。

在本例中，如果上述目標樣本中，包含對應於同一行為的多個行為變量，可以將該多個行為變量的取值，同時替換為與該多個行為變量分別對應的探測閾值。

例如，假設該目標樣本包含三個變量V1、V2和V3，V1、V2和V3對應的探測閾值分別為V1-t、V2-t和V3-t。其中，V2和V3對應同一種行為。那麼，首先可以使用V1-t替換變量V1的取值，得到一個由變量V1-t、V2和V3構成的目標樣本。其次，再同時使用V2-t和V3-t分別替換變量V2和V3的取值，得到一個由變量V1、V2-t和V3-t構成的目標樣本。

在本例中，當將上述目標樣本中的變量的取值，依次替換與該變量對應的探測閾值後，還可以將變量的取值依次被替換後的得到的多個目標樣本，分別輸入上述信用評價模型中進行信用風險評估，得到一個第二信用評分集合。

例如，假設該目標樣本包含三個變量V1、V2和V3，V1、V2和V3對應的探測閾值分別為V1-t、V2-t和V3-t。將變量V1、V2和V3的取值依次替換為V1-t、V2-t和V3-t後，會得到一個由變量V1-t、V2和V3構成的目標樣本、一個由變量V1、V2-t和V3構成的目標樣本，以及一個由變量V1、V2和V3-t構成的目標樣本。在這種情況下，可以將以上三個目標樣本分別輸入信用評價模型進行信用風險評估，得到一個信用評分集合，此時該評分集合包含3個信用評分。

另外，在本例中，在將變量的取值依次被替換後得到的多個目標樣本，分別輸入上述信用評價模型中進行信用風險評估後，上述服務端還可以保存取值被替換的變量，與該變量的取值被替換後的上述目標樣本，在輸入上述評價模型中得到的信用評分之間的對應關係。

透過這種方式，後續服務端可以基於上述第二信用評分集合中的任一信用評分，透過查詢該對應關係，來定位到對應的取值被替換的業務變量。

步驟204，基於所述第二信用評分集合中的每一個第二信用評分與所述第一信用評分之間的差值，確定對所述第一信用評分影響度最高的關鍵變量。

在本例中，上述服務端在探測針對上述第一信用評分影響度最高的關鍵變量時，可以將已經得出的上述第一信用評分與上述第二信用評分集合中各信用評分進行數值比較，計算上述第一信用評分與上述第二信用評分集合中各信用評分之間的差值，然後基於計算得到的該差值，來確定對上述第一信用評分影響度最高的關鍵變量。

在示出的一種實施方式中，上述服務端可以分別計算上述第二信用評分集合中的每個信用評分減去上述第一信用評分之間的差；其中，計算得到的差可能大於0，也可能小於0。

如果計算得到的差大於0，表明該目標樣本中某一個變量的取值被替換為對應的探測閾值後，輸入模型中得到的信用評分，大於該目標樣本未進行取值替換時在模型中得到的信用評分。在這種情況下，信用評分的提高，則可能是由於取值被替換的該變量導致的。

如果計算得到的差小於0，表明該目標樣本中某一個變量的取值被替換為對應的探測閾值後，輸入模型中得到的信用評分，小於該目標樣本未進行取值替換時在模型中得到的信用評分。在這種情況下，則可能是由於取值被替換的該業務變量，拉低了信用評分。

由於信用評分，通常與風險等級成反比，即信用評分越高，相應的風險越低。

因此，在這種情況下，在確定對上述第一信用評分影響最高的變量時，可以將第二信用評分集合中與第一信用評分之間的差最大的信用評分，確定為關鍵信用評分。

在確定出關鍵信用評分後，上述服務端可以將該信用評分作為查詢索引，在預先保存上述對應關係，來確定與該信用評分對應的取值被替換的變量。此時確定出的與該關鍵信用評分存在對應關係的變量，即為最終探測到的對第一信用評分影響度最高的關鍵變量。

例如，當某一變量被替換後的目標樣本，在輸入模型後得到的信用評分，與上述第一信用評分的差最大的話，表明該變量的取值，替換為該變量在目標用戶人群中的整體水準後，相較於其它被替換的變量，最終得到的信用評分顯著增大，風險顯著降低。

在這種情況下，該變量不被替換時，用戶的風險相對較高，實際上是由於該變量拉低了上述第一信用評分，表明與該目標樣本對應的目標用戶在該變量上的表現，低於目標用戶人群的整體水準。從而，在這種情境中，將該變量確定為關鍵業務變量則是合理的。

步驟205，將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶。

當確定了對上述第一信用評分影響度最高的關鍵變量後，此時可以進一步將該關鍵變量對應的物理含義，作為信用提升指引輸出給上述目標樣本對應的目標用戶。

在示出的一種實施方式中，與上述關鍵變量對應的物理含義，可以是與該關鍵變量對應的用戶行為。上述服務端在透過以上示出的方式，確定出上述關鍵變量後，可以進一步判斷該關鍵變量是否為行為變量，如果該關鍵變量是行為變量的話，上述服務端還可以將與該關鍵變量對應的行為，作為行為指引向與上述目標樣本對應的目標用戶輸出。

在這種情況下，該目標用戶可以透過輸出的該行為指引，瞭解到自身可能是由於何種行為，提升了自身的風險，拉低了信用評分。後續目標用戶可以透過改善該行為來降低自己的風險，提升信用評分。

例如，在信貸業務的場景中，假設上述關鍵變量為上述目標樣本中的違約次數變量，該關鍵變量對應的業務行為為違約行為，此時系統可以向用戶輸出一個“避免違約次數過多來提升信用評分”的信用提升指引，此時一個信用評分較低的用戶在查看到系統輸出的該信用提升指引後，在未來可以有針對性的注意自己的履約行為，盡可能按時還款，減少違約記錄，來提升自己的信用評分。

可見，透過這種方式，透過比較變量的取值被依次替換後目標樣本在評價模型中得到的信用評分，與該目標樣本實際的得到的信用評分之間的差異，就可以快速簡易的確定出影響信用評分的關鍵業務變量，而不需要深入理解模型的演算法，從而可以降低在確定對信用評分影響度最高的變量時的複雜度。

同時，透過向用戶輸出信用提升指引，使得用戶可以直觀的瞭解到自身信用的“短板”，從而可以透過改善自身的信用短板，來提升自身的信用等級。

在本例中，如果上述第二信用評分集合中的每個信用評分與上述第一信用評分之間的差均小於0時，由於信用評分與風險等級成反比，在這種情況下，表明與該目標樣本對應的目標用戶，在該目標樣本中包含的每一個變量上的表現，均優於目標用戶人群的整體水準(即將取值替換為整體水準後，風險反而增大了)。

因此，在這種情境中，可以不輸出上述信用提升指引，而是向上述目標用戶輸出一條預設的提示消息；該提示消息用於提示該目標用戶的信用風險可控；例如，當上述信用評分為信用風險評估模型得到的信用評分時，上述提示消息可以是一條“您的信用記錄良好”的提示消息。

當然，在實際應用中，如果評價模型定義的信用評分，與風險等級成正比，即信用評分越高，相應的風險也越高的話，在確定對上述第一信用評分的影響度最高的關鍵變量的實施過程，與以上示出的實施過程相反。

在這種情況下，在確定對上述第一信用評分影響最高的業務變量時，可以計算第一信用評分減去第二信用評分集合中各信用評分的差，並將第一信用評分與第二信用評分集合中各信用評分之間的差最大的信用評分，確定為關鍵信用評分，然後透過查找上述對應關係，來確定對第一信用評分影響度最高的關鍵變量。

以下結合具體的實例對以上實施例中的技術方案進行詳細描述。

請參見圖3，圖3為本例示出的一種信用評價模型中輸出信用提升指引的處理流程圖。

如圖3所示，上述信用風險評估模型包含V1、V2和V3三個業務變量的模型，其中V1、V2和V3均為行為變量，與V1、V2和V3對應的探測閾值分別為V1-t、V2-t和V3-t。

V1-t、V2-t和V3-t分別為V1、V2和V3在目標用戶人群中的平均值(圖3示出用mean函數求解V1、V2和V3在目標用戶人群中的平均值得到V1-t、V2-t和V3-t)。

在初始狀態，上述服務端在採集到目標用戶的目標樣本後，可以將該目標樣本輸入上述模型中進行信用評估得到信用評分，記為Score1。

在確定對Score1影響度最高的關鍵業務變量，可以將V1、V2和V3的取值依次替換為對應的探測閾值。

首先，可以使用V1-t替換業務變量V1的取值，得到一個由業務變量V1-t、V2和V3構成的目標樣本。

其次，再使用V2-t替換業務變量V2的取值，得到一個由業務變量V1、V2-t和V3構成的目標樣本。

最後，再使用V3-t替換業務變量V3的取值，得到一個由業務變量V1、V2和V3-t構成的目標樣本。替換完成後，可以將得到的以上三個分別由V1-t、V2和V3構成的目標樣本、由V1、V2-t和V3構成的目標樣本，以及由V1、V2和V3-t構成的目標樣本分別輸入上述模型中進行信用風險評估得到信用評分。其中，在本例中，信用評分越高，目標用戶的信用等級越高，違約概率越低。

假設：

由V1-t、V2和V3構成的目標樣本在模型中得到的信用評分記為Score_V1。上述服務端可以保存V1與Score_V1的對應關係。

由V1、V2-t和V3構成的目標樣本在模型中得到的信用評分記為Score_V2。上述服務端可以保存V2與Score_V2的對應關係。

由V1、V2和V3-t構成的目標樣本在模型中得到的信用評分記為Score_V3。上述服務端可以保存V3與Score_V3的對應關係。

上述服務端在輸出信用提升指引時，可以分別計算Score_V1、Score_V2、Score_V3減去Score1的差。

將Score_V1和Score1的差記為delta_Score_V1。

將Score_V2和Score1的差記為delta_Score_V2。

將Score_V3和Score1的差記為delta_Score_V3。

然後將與Score1差最大的信用評分確定為關鍵評分，並查詢上述對應關係，將與該關鍵評分對應的業務變量確定為關鍵變量。此時，該關鍵變量對應的業務行為，即為需要輸出的信用提升指引。

假設確定出Score_V1與Score1的差delta_Score_V1最大，那麼上述服務端可以查詢上述對應關係，將與Score_V1對應的業務變量V1確定為對信用評分Score1影響程度最高的關鍵變量，並輸出與業務變量V1對應的業務行為作為關鍵業務行為向用戶輸出。

例如，如果業務變量V1對應的業務行為為違約行為，系統可以向用戶輸出一個“避免違約次數過多來提升信用評分”的信用提升指引，此時上述目標用戶在查看到系統輸出的該信用提升指引後，在未來可以有針對性的注意自己的履約行為，盡可能按時還款，減少違約記錄，來提升自己的信用評分Score1。

當然，如果Score_V1、Score_V2和Score_V3與Score1的差均小於0，表明該目標用戶，在V1、V2和V3對應的業務行為上的表現，均優於目標用戶人群的整體水準，在這種情境中，可以不輸出上述行為指引；或者，系統可以向用戶輸出的一個用於提示目標用戶目前的信用記錄良好的提示消息。

透過以上各實施例可知，透過將目標樣本輸入模型得到第一結果；將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值，並將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；然後基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果最高的關鍵變量，實現了透過比較變量的取值被依次替換後，目標樣本在模型中得到的第二結果，與該目標樣本實際的得到的第一結果之間的差異，就可以確定出對第一結果影響度最高的關鍵變量，而不需要深入理解模型的演算法；當本發明的技術方案應用於信用評價模型中時，可以實現透過比較變量的取值被依次替換後，目標樣本在信用評價模型中得到的信用評分，與該目標樣本實際的得到的信用評分之間的差異，就可以確定出對用戶的信用評分影響度最高的關鍵變量，而不需要深入理解模型的演算法，從而可以降低在探測對信用評分影響度最高的變量時的複雜度；同時，透過將該關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶，可以使用戶能夠直觀的瞭解到提升自身信用的途徑，從而可以提升用戶體驗。

與上述方法實施例相對應，本發明還提供了裝置的實施例。

請參見圖4，本發明提出一種模型中關鍵變量的探測裝置40，應用於服務端；其中，請參見圖5，作為承載所述模型中關鍵變量的探測裝置40的服務端所關於的硬體架構中，通常包括CPU、記憶體、非易失性記憶體、網路介面以及內部匯流排等；以軟體實現為例，所述評價模型中關鍵變量的探測裝置40通常可以理解為載入在記憶體中的電腦程式，透過CPU運行之後形成的軟硬體相結合的邏輯裝置，所述裝置40包括：第一輸入模組401，用於將目標樣本輸入模型得到第一結果；所述目標樣本包含若干變量；第一替換模組402，用於將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；第二輸入模組403，用於將變量的取值依次被替換後的目標樣本分別輸入所述模型得到第二結果集合；第一確定模組404，用於基於所述第二結果集合中的每一個第二結果與所述第一結果之間的差值，確定對所述第一結果影響度最高的關鍵變量。

在本例中，所述探測閾值表示其對應變量在目標人群中取值的整體水準；其中，所述探測閾值是其對應變量在目標人群中取值的平均數、中位數或者眾數。

在本例中，所述替換模組402具體用於：分別計算所述第二結果集合中的每個第二結果減去所述第一結果的差；將與最大的差對應的第二結果所對應的取值被替換後的變量確定為對所述第一結果影響度最高的關鍵變量。

請參見圖6，本發明提出一種信用提升指引裝置60，應用於服務端；其中，請參見圖7，作為承載所述信用提升指引60的服務端所關於的硬體架構中，通常包括CPU、記憶體、非易失性記憶體、網路介面以及內部匯流排等；以軟體實現為例，所述評價模型中關鍵變量的探測裝置60通常可以理解為載入在記憶體中的電腦程式，透過CPU運行之後形成的軟硬體相結合的邏輯裝置，所述裝置60包括：第三輸入模組601，用於將目標樣本輸入信用評價模型得到第一信用評分；所述目標樣本包含若干變量；第二替換模組602，用於將所述目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；第四輸入模組603，用於將變量的取值依次被替換後的目標樣本分別輸入所述信用評價模型得到第二信用評分集合；第二確定模組604，用於基於所述第二信用評分集合中的每一個第二信用評分與所述第一信用評分之間的差值，確定對所述第一信用評分影響度最高的關鍵變量；輸出模組605，用於將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給所述目標樣本對應的用戶。

在本例中，所述第二替換模組602進一步用於：如果所述目標樣本中包含對應於同一行為變量的多個行為子變量時，將該多個行為子變量的取值均替換為與該多個行為子變量分別對應的探測閾值。

在本例中，所述第二確定模組604具體用於：分別計算所述第二信用評分集合中的每個第二信用評分減去所述第一信用評分的差；將與最大的差對應的第二信用評分所對應的取值被替換後的變量確定為對所述第一信用評分影響度最高的關鍵變量。

在本例中，所述輸出模組605具體用於：判斷所述關鍵變量是否為行為變量；如果所述關鍵變量是行為變量，將與該關鍵變量對應的行為，作為行為指引向與所述目標樣本對應的目標用戶輸出。

在本例中，所述輸出模組605進一步用於：當所述第二信用評分集合中的每個第二信用評分減去所述第一信用評分得到的差均小於0時，輸出預設的提示消息；所述提示消息提示與所述目標樣本對應的目標用戶信用風險可控。

本領域技術人員在考慮說明書及實踐這裡揭示的發明後，將容易想到本發明的其它實施方案。本發明旨在涵蓋本發明的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本發明的一般性原理並包括本發明未揭示的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本發明的真正範圍和精神由下面的發明專利範圍指出。

應當理解的是，本發明並不侷限於上面已經描述並在附圖中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本發明的範圍僅由所附的發明專利範圍來限制。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明保護的範圍之內。

Claims

一種模型中關鍵變量的探測方法，其特徵在於，該方法包括：將目標樣本輸入模型得到第一結果；該目標樣本包含若干變量；將該目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；將變量的取值依次被替換後的目標樣本分別輸入該模型得到第二結果集合；及基於該第二結果集合中的每一個第二結果與該第一結果之間的差值，確定對該第一結果影響度最高的關鍵變量，其中，該探測閾值表示其對應變量在目標人群中取值的整體水準，且其中，該探測閾值是其對應變量在目標人群中取值的平均數、中位數或者眾數。
根據申請專利範圍第1項所述的方法，其中，該基於該第二結果集合中的每一個第二結果與該第一結果之間的差值，確定對該第一結果影響度最高的關鍵變量，包括：分別計算該第二結果集合中的每個第二結果減去該第一結果的差；及將與最大的差對應的第二結果所對應的取值被替換後的變量確定為對該第一結果影響度最高的關鍵變量。
一種信用提升指引方法，其特徵在於，該方法包括：將目標樣本輸入信用評價模型得到第一信用評分；該目標樣本包含若干變量；將該目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；將變量的取值依次被替換後的目標樣本分別輸入該信用評價模型得到第二信用評分集合；基於該第二信用評分集合中的每一個第二信用評分與該第一信用評分之間的差值，確定對該第一信用評分影響度最高的關鍵變量；及將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給該目標樣本對應的用戶，其中，該探測閾值表示其對應變量在目標人群中取值的整體水準，且其中，該探測閾值是其對應變量在目標人群中取值的平均數、中位數或者眾數。
根據申請專利範圍第3項所述的方法，其中，如果該目標樣本中包含多個行為變量，並且該多個行為變量對應於同一行為，則將該多個行為變量的取值均替換為與該多個行為變量分別對應的探測閾值。
根據申請專利範圍第3項所述的方法，其中，該基於該第二信用評分集合中的每一個第二信用評分與該第一信用評分之間的差值，確定對該第一信用評分影響度最高的關鍵變量，包括：分別計算該第二信用評分集合中的每個第二信用評分減去該第一信用評分的差；及將與最大的差對應的第二信用評分所對應的取值被替換後的變量確定為對該第一信用評分影響度最高的關鍵變量。
根據申請專利範圍第3項所述的方法，其中，該將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給該目標樣本對應的用戶包括：判斷該關鍵變量是否為行為變量；及如果該關鍵變量是行為變量，將與該關鍵變量對應的行為，作為行為指引向與該目標樣本對應的目標用戶輸出。
根據申請專利範圍第6項所述的方法，其中，當該第二信用評分集合中的每個第二信用評分減去該第一信用評分得到的差均小於0時，輸出預設的提示消息；該提示消息提示與該目標樣本對應的目標用戶信用風險可控。
一種模型中關鍵變量的探測裝置，其特徵在於，該裝置包括：第一輸入模組，用於將目標樣本輸入模型得到第一結果；該目標樣本包含若干變量；第一替換模組，用於將該目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；第二輸入模組，用於將變量的取值依次被替換後的目標樣本分別輸入該模型得到第二結果集合；及第一確定模組，用於基於該第二結果集合中的每一個第二結果與該第一結果之間的差值，確定對該第一結果影響度最高的關鍵變量，其中，該探測閾值表示其對應變量在目標人群中取值的整體水準，且其中，該探測閾值是其對應變量在目標人群中取值的平均數、中位數或者眾數。
根據申請專利範圍第8項所述的裝置，其中，該第一替換模組具體用於：分別計算該第二結果集合中的每個第二結果減去該第一結果的差；及將與最大的差對應的第二結果所對應的取值被替換後的變量確定為對該第一結果影響度最高的關鍵變量。
一種信用提升指引裝置，其特徵在於，該裝置包括：第三輸入模組，用於將目標樣本輸入信用評價模型得到第一信用評分；該目標樣本包含若干變量；第二替換模組，用於將該目標樣本中的變量的取值依次替換為與該變量對應的探測閾值；第四輸入模組，用於將變量的取值依次被替換後的目標樣本分別輸入該信用評價模型得到第二信用評分集合；第二確定模組，用於基於該第二信用評分集合中的每一個第二信用評分與該第一信用評分之間的差值，確定對該第一信用評分影響度最高的關鍵變量；及輸出模組，用於將該影響度最高的關鍵變量對應的物理含義作為信用提升指引輸出給該目標樣本對應的用戶，其中，該探測閾值表示其對應變量在目標人群中取值的整體水準，且其中，該探測閾值是其對應變量在目標人群中取值的平均數、中位數或者眾數。
根據申請專利範圍第10項所述的裝置，其中，該第二替換模組進一步用於：如果該目標樣本中包含對應於同一行為變量的多個行為子變量時，將該多個行為子變量的取值均替換為與該多個行為子變量分別對應的探測閾值。
根據申請專利範圍第10項所述的裝置，其中，該第二確定模組具體用於：分別計算該第二信用評分集合中的每個第二信用評分減去該第一信用評分的差；及將與最大的差對應的第二信用評分所對應的取值被替換後的變量確定為對該第一信用評分影響度最高的關鍵變量。
根據申請專利範圍第10項所述的裝置，其中，該輸出模組具體用於：判斷該關鍵變量是否為行為變量；如果該關鍵變量是行為變量，將與該關鍵變量對應的行為，作為行為指引向與該目標樣本對應的目標用戶輸出。
根據申請專利範圍第13項所述的裝置，其中，該輸出模組進一步用於：當該第二信用評分集合中的每個第二信用評分減去該第一信用評分得到的差均小於0時，輸出預設的提示消息；該提示消息提示與該目標樣本對應的目標用戶信用風險可控。