TWI689871B

TWI689871B - 梯度提升決策樹（ｇｂｄｔ）模型的特徵解釋方法和裝置

Info

Publication number: TWI689871B
Application number: TW108105821A
Authority: TW
Inventors: 方文靜; 周俊; 高利翠
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-05-21
Filing date: 2019-02-21
Publication date: 2020-04-01
Also published as: SG11202006205SA; EP3719704A4; EP3719704A1; CN108681750A; TW202004559A; US20200293924A1; US11205129B2; WO2019223384A1

Abstract

本說明書實施例公開了一種取得對使用者的預測標籤值的特徵解釋的方法和裝置，所述方法在透過GBDT模型預測使用者的標籤值之後執行，包括：在排序靠前的預定數目的各個決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值；判定與各個所述葉子節點分別對應的各個預測路徑；取得每個預測路徑上各個父節點的分裂特徵和分值；對於每個預測路徑上的每個子節點，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量；取得全部所述子節點各自對應的特徵的集合，作為與使用者的預測標籤值相關的多個特徵；以及透過將對應於相同特徵的至少一個子節點的特徵局部增量相加，取得與至少一個子節點對應的特徵與所述預測標籤值的相關性。

Description

梯度提升決策樹（ＧＢＤＴ）模型的特徵解釋方法和裝置

本說明書實施例涉及資料處理技術領域，更具體地，涉及一種對使用者的預測標籤值進行特徵解釋的方法和裝置。

在網際網路技術快速發展的背景下，對網際網路中的資料採擷工作變得越來越重要。通常，在資料採擷中，透過機器學習基於標定資料進行建模，從而可使用訓練好的模型用於處理待預測的資料。在多種機器學習演算法中，GBDT(Gradient boosting deision tree，梯度提升決策樹)演算法由於其優異的學習性能，得到越來越廣泛的應用。GBDT演算法是一種用於回歸、分類、排序等任務的機器學習技術，其透過結合多個弱學習器(通常為決策樹)而獲得強預測模型。其中，所述GBDT模型透過多次疊代，並且在每次疊代中使得損失函數在梯度方向上減少，從而獲得多個決策樹。隨著GBDT演算法的廣泛應用，產生了日益增多的對GBDT模型的解釋的需求。除了目前通常使用的作為全域解釋的特徵重要性參數之外，針對單個使用者的局部特徵貢獻的解釋主要包括以下兩種方法：透過重新建模提取GBDT模型中的優選方案以進行解釋；以及，透過調節特徵值大小以測試該特徵對預測性能損失的影響。因此，需要一種更有效的GBDT模型解釋方案，以滿足現有技術中的需求。

本說明書實施例旨在提供一種更有效的GBDT模型解釋方案，以解決現有技術中的不足。為實現上述目的，本說明書一個方面提供一種取得對使用者的預測標籤值的特徵解釋的方法，所述方法在透過GBDT模型預測使用者的標籤值之後執行，所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性，所述GBDT模型中包括多個順序排列的決策樹，所述方法包括：在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值；判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑；取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定；對於每個所述預測路徑上的每個子節點，透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵；取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵；以及透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。在一個實施例中，在所述取得對使用者的預測標籤值的特徵解釋的方法中，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括，所述父節點的分值為其兩個子節點的分值的平均值。在一個實施例中，在所述取得對使用者的預測標籤值的特徵解釋的方法中，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括，所述父節點的分值為其兩個子節點的分值的加權平均值，所述子節點的分值的權重基於在所述GBDT模型的訓練過程中分配至其的樣本數而判定。在一個實施例中，在所述取得對使用者的預測標籤值的特徵解釋的方法中，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量包括，取得所述每個子節點的自身分值與其父節點的分值的差，作為所述特徵局部增量。在一個實施例中，在所述取得對使用者的預測標籤值的特徵解釋的方法中，所述GBDT模型為分類模型或回歸模型。在一個實施例中，在所述取得對使用者的預測標籤值的特徵解釋的方法中，所述排序靠前的預定數目的所述決策樹為所述GBDT模型中包括的多個順序排列的決策樹。本說明書另一方面提供一種取得對使用者的預測標籤值的特徵解釋的裝置，所述裝置在透過GBDT模型預測使用者的標籤值之後實施，所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性，所述GBDT模型中包括多個順序排列的決策樹，所述裝置包括：第一取得單元，組態為，在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值；第一判定單元，組態為，判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑；第二取得單元，組態為，取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定；第二判定單元，組態為，對於每個所述預測路徑上的每個子節點，透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵；特徵取得單元，組態為，取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵；以及相關性取得單元，組態為，透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。透過根據本說明書實施例的GBDT模型解釋方案，只需取得GBDT模型中的已有參數和預測結果，即可取得對GBDT模型的使用者級的準確的模型解釋，並且，計算成本較低。另外，本說明書實施例的方案可適用於各種GBDT模型，適用性強，可操作性強。

下面將結合附圖描述本說明書實施例。首先說明本說明書實施例的應用場景。根據本說明書實施例的模型解釋方法是在透過GBDT模型預測使用者的標籤值之後執行。所述GBDT模型是透過下述訓練過程訓練獲得的。首先取得訓練集

，其中N為訓練樣本的個數，即，使用者數。其中，

為第i個使用者的特徵向量，其例如為S維向量，即x=(x₁ ,x₂ ,…,x_S )，

為第i個使用者的標定標籤值。例如，所述GBDT模型是預測信用卡欺詐的模型，則

可以為使用者的刷卡記錄資料、交易記錄資料等，

可以為使用者的欺詐風險值。然後，透過第一個決策樹對所述N個使用者進行分割，在決策樹的每個父節點設定分裂特徵和特徵臨限值，透過在父節點處將使用者的對應特徵與特徵臨限值比較而將使用者分割到相應的子節點中，透過這樣的過程，最後將N個使用者分割到各個葉子節點中，其中，各個葉子節點的分值為該葉子節點中各個使用者的標定值(即

)的均值。在取得第一個決策樹之後，透過將每個使用者的標定標籤值與該使用者在第一個決策樹中的葉子節點的分值相減，取得每個使用者的殘差

，以

為新的訓練集，其與D1對應於相同的使用者集合。以與上述相同的方法，可取得第二個決策樹，在第二個決策樹中，將N個使用者分割到各個葉子節點中，並且每個葉子節點的分值為各個使用者的殘差值的均值。類似地，可順序取得多個決策樹，每個決策樹都基於前一個決策樹的殘差獲得。從而可獲得包括多個決策樹的GBDT模型。在預測使用者的標籤值時，對上述GBDT模型輸入使用者的特徵向量，GBDT模型中的每個決策樹依據其中父節點的分裂特徵和分裂臨限值將該使用者分配到相應的葉子節點，從而，透過將使用者所在的各個葉子節點的分值相加，從而獲得該使用者的預測標籤值。在上述預測過程之後，根據本說明書實施例的模型解釋方法基於GBDT模型中的現有參數和預測結果，取得對使用者的預測標籤值的特徵解釋。即，在每個所述決策樹中，取得使用者所在的葉子節點，取得包含所述葉子節點的預測路徑，計算預測路徑上的子節點的與預測標籤值相關的特徵及該特徵的局部增量，以及，將全部決策樹中包括的相同特徵的局部增量累加起來作為該特徵與預測標籤值的相關性，也即該特徵對預測標籤值的特徵貢獻。從而透過所述特徵及其特徵貢獻，對使用者的預測標籤值進行特徵解釋。上述GBDT模型為回歸模型，即，其預測的標籤為連續型資料，例如欺詐風險值、年齡等。然而，所述GBDT模型不限於回歸模型，其還可以為分類模型、推薦模型等，並且，這些模型都可以使用根據本說明書實施例的GBDT模型解釋方法。圖1示出根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的方法，所述方法在透過GBDT模型預測使用者的標籤值之後執行，所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性，所述GBDT模型中包括多個順序排列的決策樹。所述方法包括：在步驟S11，在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值；在步驟S12，判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑；在步驟S13，取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定；在步驟S14，對於每個所述預測路徑上的每個子節點，透過其自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵；在步驟S15，取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵；以及，在步驟S16，透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。首先，在步驟S11，在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值。如前文所述，在所述GBDT模型中包括的多個順序排列的決策樹中，每個決策樹基於其前一個決策樹的標籤值殘差獲得，即，所述順序排列的各個決策樹的葉子節點的分值會越來越小。相應地，透過所述順序排列的各個決策樹判定的與使用者預測標籤值相關的使用者特徵的局部增量也會在數量級上變得越來越小。可以預測，從排序比較靠後的決策樹取得的特徵的局部增量對於該特徵的與預測標籤值的相關性(即，該特徵的全部局部增量之和)的影響會越來越小，甚至可近似為零。因此，可選取排序靠前的預定數目的決策樹來實施根據本說明書實施例的方法。可透過預定條件判定所述預定數目，例如，根據葉子節點的數量級，判定所述預定數目，或者，根據預定的決策樹百分比，判定所述預定數目等。在一個實施例中，可以對所述GBDT模型包括的全部決策樹實施根據本說明書實施例的方法，從而獲得精確的模型解釋。圖2示例示出了根據本說明書實施例的GBDT模型中包括的決策樹。如圖2所示，圖中的標為0的節點為該決策樹的根節點，圖中標為3、7、8、13、14、10、11、和12的節點為該決策樹的葉子節點，其中，每個葉子節點下方標出的數值(例如，節點3下方的0.136)為該葉子節點的分值，該分值是GBDT模型在訓練中基於分入該葉子節點中的多個樣本的標定標籤值而判定的。如圖2中的矩形虛線框中所示，從節點6中分出兩個節點11和12，因此，節點6是節點11和節點12的父節點，節點11和節點12都是節點6的子節點。如圖2中所示，圖中部分父節點通向子節點的箭頭上都標明了特徵及取值範圍，例如，節點0通向節點1的箭頭上標出“f5≤-0.5”，節點0通向節點2的箭頭上標出“f5＞-0.5”，這裡的f5表示特徵5，其為節點0的分裂特徵，-0.5就是節點0的分裂臨限值。圖3示例示出了基於圖2所示的決策樹實施根據本說明書實施例的方法的示意圖。如圖3所示，在透過包括圖3所示的決策樹的GBDT模型預測使用者的標籤值的情況中，假設在該決策樹中將使用者分到節點14中。從而，可從該決策樹判定包括使用者的節點14以及該節點14的分值。同時，在該GBDT模型包括的其它決策樹中，可類似地判定使用者所在的葉子節點及其分值。從而，可取得預定數目的葉子節點及其對應分值，即，從所述預定數目的決策樹的每個決策樹中都取得一個葉子節點。在步驟S12，判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑。繼續參考圖3，在圖3所示的決策樹中，在判定使用者所在的葉子節點14之後，可判定預測路徑為圖中從節點0至節點14的預測路徑，圖中以粗線箭頭連接的節點連接路徑示出。同時，在所述預定數目的決策樹的其它決策樹中，可類似地取得預測路徑，從而取得預定數目的預測路徑。在步驟S13，取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定。參考圖3，在節點0到節點14的預測路徑中，除了節點14之外的每個節點都有子節點，即在該路徑中，包括的父節點有節點0、節點2、節點5和節點9。如前文參考圖2所述，父節點的分裂特徵可從決策樹中直接取得，例如，參考圖2，可得，節點0的分裂特徵為特徵5，節點2的分裂特徵為特徵2，節點5的分裂特徵為特徵4，以及節點9的分裂特徵為特徵4。在一個實施例中，基於如下公式(1)判定父節點的分值：

(1) 其中，S_p 為父節點的分值，S_c1 和S_c2 分別為該父節點的兩個子節點的分值。即，父節點的分值為其兩個子節點的分值的平均值。例如，如圖3中所示，可從節點13和節點14的分值判定節點9的分值為

，類似地，基於節點9和節點10的分值，可判定節點5的分值為0.0625。基於節點5和節點6的分值，可判定節點2的分值為0.0698。基於節點1和節點2的分值，可判定節點0的分值為0.0899。可以理解，圖3所示的預測路徑上的每個父節點的分值都可以基於圖中的各個葉子節點的分值判定，例如，可從節點13、14和10判定節點5的分值，可從節點13、14、10、11和12判定節點2的分值。在一個實施例中，基於以下公式(2)判定父節點的分值：

(2) 其中，N_c1 和N_c2 為在模型訓練中分別落入子節點c1和c2的樣本數。即，父節點的分值為其兩個子節點的分值的加權平均值，所述兩個子節點的權重為模型訓練過程中落入其中的樣本數。在對根據本說明書實施例的實際應用或實驗測試中可判定，透過使用公式(2)判定父節點的分值，相比於公式(1)，可取得更準確的模型解釋。另外，在本說明書實施例中，對於父節點的計算不限於上述公式(1)和(2)，例如，可調節公式(1)和(2)中的參數，以使得模型解釋更加準確，另外，還可透過幾何平均值、均方根平均值等，基於葉子節點的分值，取得各個父節點的分值。在步驟S14，對於每個所述預測路徑上的每個子節點，透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵。參考圖3，在從節點0到節點14的預測路徑中，除了根節點0之外，其它節點都是其上一個節點的子節點，即，該路徑中的子節點包括：節點2、節點5、節點9和節點14。由於透過預測路徑中的父節點的特徵分裂，才取得預測路徑中的子節點，從而父節點的分裂特徵即為子節點的與預測標籤值相關的特徵，為方便描述，將其表示為與子節點對應的特徵，或者子節點處的貢獻特徵。例如，如圖3所示，與節點2對應的特徵為特徵5，與節點5對應的特徵為特徵2，與節點9對應的特徵為特徵4，以及，與節點14對應的特徵為特徵4。在一個實施例中，透過以下公式(3)取得各個子節點處的特徵局部增量：

(3) 其中，

表示子節點c處的特徵f的局部增量，

表示子節點的分值，

表示所述子節點的父節點的分值。該公式可從實際應用或實驗測試中得到驗證。透過公式(3)，基於在步驟S13中獲得的各個父節點的分值，可容易地計算得出：節點2處的特徵5(f5)的局部增量為-0.0201(即0.0698-0.0899)，節點5處的特徵2(f2)的局部增量為-0.0073，節點9處的特徵4(f4)的局部增量為 -0.0015，以及節點14處的特徵4(f4)的局部增量為0.001。在本說明書實施例中，對所述局部增量的計算不限於上述公式(3)，還可以透過其它計算方法計算所述局部增量。例如，可對公式(3)中的父節點的分值或子節點的分值乘以修正參數，以使模型解釋更加準確。在步驟S15，取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵。例如，參考圖3，在圖3所示的決策樹中，可從所述預測路徑上取得與使用者的預測標籤值相關的特徵，即，特徵5、特徵2和特徵4。同樣地，可從所述預測數目的決策樹中的其它決策樹中，類似地取得與使用者的預測標籤值相關的特徵。將這些特徵集合到一起，從而可取得與使用者的預測標籤值相關的多個特徵的集合。在步驟S16，透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。例如，參考圖3所示，在如圖所示的決策樹中，預測路徑上的節點9和14都對應於特徵4，從而可將節點9與節點14處的局部增量相加，例如，在其它決策樹中沒有取得與特徵4對應的預測路徑子節點的情況中，可獲得特徵4與預測標籤值的相關性(或者特徵貢獻值)為-0.0015+0.0010=0.0025。在其它決策樹中也包括與特徵4對應的預測路徑子節點的情況中，可將全部與特徵4對應的子節點的局部增量相加，從而取得特徵4的相關性或貢獻值。所述相關性的值越大，表示特徵與預測標籤值的相關性越大，當所述相關性的值為負值時，表示該特徵與預測標籤值的相關性非常小。例如，在透過GBDT模型預測使用者的信用卡欺詐值的實例中，所述相關性的值越大，表示該特徵與信用卡欺詐值的相關性越大，即，該特徵的風險性越大。透過取得與使用者的預測標籤值相關的多個特徵及所述多個特徵與所述預測標籤值的相關性，從而可以對使用者預測標籤值的進行特徵解釋，從而明確預測的判定因素，並可以透過所述特徵解釋，取得與使用者相關的更多資訊。例如，在透過GBDT模型預測使用者的信用卡欺詐度的實例中，透過取得使用者的與預測標籤值相關的多個特徵及特徵的相關性大小，可以將特徵的影響面及該特徵的相關性的大小，作為使用者信用卡欺詐度預測值的參考資訊，以使得對使用者的判斷更加準確。圖4示出了根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的裝置400。所述裝置400在透過GBDT模型預測使用者的標籤值之後實施，所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性，所述GBDT模型中包括多個順序排列的決策樹。所述裝置400包括：第一取得單元41，組態為，在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值；第一判定單元42，組態為，判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑；第二取得單元43，組態為，取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定；第二判定單元44，組態為，對於每個所述預測路徑上的每個子節點，透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵；特徵取得單元45，組態為，取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵；以及相關性取得單元46，組態為，透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。透過根據本說明書實施例的GBDT模型解釋方案，只需取得GBDT模型中的已有參數和預測結果，即可取得對GBDT模型的使用者級的準確的模型解釋，並且，計算成本較低。另外，本說明書實施例的方案可適用於各種GBDT模型，適用性強，可操作性強。本領域普通技術人員應該還可以進一步意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、電腦軟體或者二者的結合來實現，為了清楚地說明硬體和軟體的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執軌道，取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執軌道的軟體模組，或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可程式設計ROM、電可擦除可程式設計ROM、暫存器、硬碟、抽取式磁碟、CD-ROM、或技術領域內所公知的任意其它形式的儲存媒體中。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

S11、S12、S13、S14、S15、S16‧‧‧步驟 400‧‧‧裝置 41‧‧‧第一取得單元 42‧‧‧第一判定單元 43‧‧‧第二取得單元 44‧‧‧第二判定單元 45‧‧‧特徵取得單元 46‧‧‧相關性取得單元

透過結合附圖描述本說明書實施例，可以使得本說明書實施例更加清楚：圖1示出根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的方法；圖2示例示出了根據本說明書實施例的GBDT模型中包括的決策樹；圖3示例示出了基於圖2所示的決策樹實施根據本說明書實施例的方法的示意圖；以及圖4示出了根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的裝置400。

Claims

一種取得對使用者的預測標籤值的特徵解釋的方法，所述方法在透過梯度提升決策樹(GBDT)模型預測使用者的標籤值之後執行，所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性，所述GBDT模型中包括多個順序排列的決策樹，所述方法包括：在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值；判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑；取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定；對於每個所述預測路徑上的每個子節點，透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵；取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵；以及透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。
如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法，其中，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括，所述父節點的分值為其兩個子節點的分值的平均值。
如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法，其中，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括，所述父節點的分值為其兩個子節點的分值的加權平均值，所述子節點的分值的權重基於在所述GBDT模型的訓練過程中分配至其的樣本數而判定。
如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法，其中，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量包括，取得所述每個子節點的自身分值與其父節點的分值的差，作為所述特徵局部增量。
如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法，其中，所述GBDT模型為分類模型或回歸模型。
如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法，其中，所述排序靠前的預定數目的所述決策樹為所述GBDT模型中包括的多個順序排列的決策樹。
一種取得對使用者的預測標籤值的特徵解釋的裝置，所述裝置在透過GBDT模型預測使用者的標籤值之後實施，所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性，所述GBDT模型中包括多個順序排列的決策樹，所述裝置包括：第一取得單元，組態為，在排序靠前的預定數目的各個所述決策樹中，分別取得包括所述使用者的葉子節點和所述葉子節點的分值，其中，所述葉子節點的分值為透過所述GBDT模型預定的分值；第一判定單元，組態為，判定與各個所述葉子節點分別對應的各個預測路徑，所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑；第二取得單元，組態為，取得每個所述預測路徑上各個父節點的分裂特徵和分值，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定；第二判定單元，組態為，對於每個所述預測路徑上的每個子節點，透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量，其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵；特徵取得單元，組態為，取得全部所述子節點各自對應的特徵的集合，作為與所述使用者的預測標籤值相關的多個特徵；以及相關性取得單元，組態為，透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加，取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。
如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置，其中，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括，所述父節點的分值為其兩個子節點的分值的平均值。
如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置，其中，所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括，所述父節點的分值為其兩個子節點的分值的加權平均值，所述子節點的分值的權重基於在所述GBDT模型的訓練過程中分配至其的樣本數而判定。
如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置，其中，判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量包括，取得所述每個子節點的自身分值與其父節點的分值的差，作為所述特徵局部增量。
如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置，其中，所述GBDT模型為分類模型或回歸模型。
如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置，其中，所述排序靠前的預定數目的所述決策樹為所述GBDT模型中包括的多個順序排列的決策樹。