TWI689871B - 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置 - Google Patents

梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置 Download PDF

Info

Publication number
TWI689871B
TWI689871B TW108105821A TW108105821A TWI689871B TW I689871 B TWI689871 B TW I689871B TW 108105821 A TW108105821 A TW 108105821A TW 108105821 A TW108105821 A TW 108105821A TW I689871 B TWI689871 B TW I689871B
Authority
TW
Taiwan
Prior art keywords
node
feature
user
score
child
Prior art date
Application number
TW108105821A
Other languages
English (en)
Other versions
TW202004559A (zh
Inventor
方文靜
周俊
高利翠
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW202004559A publication Critical patent/TW202004559A/zh
Application granted granted Critical
Publication of TWI689871B publication Critical patent/TWI689871B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本說明書實施例公開了一種取得對使用者的預測標籤值的特徵解釋的方法和裝置,所述方法在透過GBDT模型預測使用者的標籤值之後執行,包括:在排序靠前的預定數目的各個決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值;判定與各個所述葉子節點分別對應的各個預測路徑;取得每個預測路徑上各個父節點的分裂特徵和分值;對於每個預測路徑上的每個子節點,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量;取得全部所述子節點各自對應的特徵的集合,作為與使用者的預測標籤值相關的多個特徵;以及透過將對應於相同特徵的至少一個子節點的特徵局部增量相加,取得與至少一個子節點對應的特徵與所述預測標籤值的相關性。

Description

梯度提升決策樹(GBDT)模型的特徵解釋方法和裝置
本說明書實施例涉及資料處理技術領域,更具體地,涉及一種對使用者的預測標籤值進行特徵解釋的方法和裝置。
在網際網路技術快速發展的背景下,對網際網路中的資料採擷工作變得越來越重要。通常,在資料採擷中,透過機器學習基於標定資料進行建模,從而可使用訓練好的模型用於處理待預測的資料。在多種機器學習演算法中,GBDT(Gradient boosting deision tree,梯度提升決策樹)演算法由於其優異的學習性能,得到越來越廣泛的應用。GBDT演算法是一種用於回歸、分類、排序等任務的機器學習技術,其透過結合多個弱學習器(通常為決策樹)而獲得強預測模型。其中,所述GBDT模型透過多次疊代,並且在每次疊代中使得損失函數在梯度方向上減少,從而獲得多個決策樹。隨著GBDT演算法的廣泛應用,產生了日益增多的對GBDT模型的解釋的需求。除了目前通常使用的作為全域解釋的特徵重要性參數之外,針對單個使用者的局部特徵貢獻的解釋主要包括以下兩種方法:透過重新建模提取GBDT模型中的優選方案以進行解釋;以及,透過調節特徵值大小以測試該特徵對預測性能損失的影響。因此,需要一種更有效的GBDT模型解釋方案,以滿足現有技術中的需求。
本說明書實施例旨在提供一種更有效的GBDT模型解釋方案,以解決現有技術中的不足。 為實現上述目的,本說明書一個方面提供一種取得對使用者的預測標籤值的特徵解釋的方法,所述方法在透過GBDT模型預測使用者的標籤值之後執行,所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性,所述GBDT模型中包括多個順序排列的決策樹,所述方法包括: 在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值; 判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑; 取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定; 對於每個所述預測路徑上的每個子節點,透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵; 取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵;以及 透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。 在一個實施例中,在所述取得對使用者的預測標籤值的特徵解釋的方法中,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括,所述父節點的分值為其兩個子節點的分值的平均值。 在一個實施例中,在所述取得對使用者的預測標籤值的特徵解釋的方法中,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括,所述父節點的分值為其兩個子節點的分值的加權平均值,所述子節點的分值的權重基於在所述GBDT模型的訓練過程中分配至其的樣本數而判定。 在一個實施例中,在所述取得對使用者的預測標籤值的特徵解釋的方法中,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量包括,取得所述每個子節點的自身分值與其父節點的分值的差,作為所述特徵局部增量。 在一個實施例中,在所述取得對使用者的預測標籤值的特徵解釋的方法中,所述GBDT模型為分類模型或回歸模型。 在一個實施例中,在所述取得對使用者的預測標籤值的特徵解釋的方法中,所述排序靠前的預定數目的所述決策樹為所述GBDT模型中包括的多個順序排列的決策樹。 本說明書另一方面提供一種取得對使用者的預測標籤值的特徵解釋的裝置,所述裝置在透過GBDT模型預測使用者的標籤值之後實施,所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性,所述GBDT模型中包括多個順序排列的決策樹,所述裝置包括: 第一取得單元,組態為,在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值; 第一判定單元,組態為,判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑; 第二取得單元,組態為,取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定; 第二判定單元,組態為,對於每個所述預測路徑上的每個子節點,透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵; 特徵取得單元,組態為,取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵;以及 相關性取得單元,組態為,透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。 透過根據本說明書實施例的GBDT模型解釋方案,只需取得GBDT模型中的已有參數和預測結果,即可取得對GBDT模型的使用者級的準確的模型解釋,並且,計算成本較低。另外,本說明書實施例的方案可適用於各種GBDT模型,適用性強,可操作性強。
下面將結合附圖描述本說明書實施例。 首先說明本說明書實施例的應用場景。根據本說明書實施例的模型解釋方法是在透過GBDT模型預測使用者的標籤值之後執行。所述GBDT模型是透過下述訓練過程訓練獲得的。首先取得訓練集
Figure 02_image001
,其中N為訓練樣本的個數,即,使用者數。其中,
Figure 02_image003
為第i個使用者的特徵向量,其例如為S維向量,即x=(x1 ,x2 ,…,xS ),
Figure 02_image005
為第i個使用者的標定標籤值。例如,所述GBDT模型是預測信用卡欺詐的模型,則
Figure 02_image003
可以為使用者的刷卡記錄資料、交易記錄資料等,
Figure 02_image007
可以為使用者的欺詐風險值。然後,透過第一個決策樹對所述N個使用者進行分割,在決策樹的每個父節點設定分裂特徵和特徵臨限值,透過在父節點處將使用者的對應特徵與特徵臨限值比較而將使用者分割到相應的子節點中,透過這樣的過程,最後將N個使用者分割到各個葉子節點中,其中,各個葉子節點的分值為該葉子節點中各個使用者的標定值(即
Figure 02_image007
)的均值。 在取得第一個決策樹之後,透過將每個使用者的標定標籤值與該使用者在第一個決策樹中的葉子節點的分值相減,取得每個使用者的殘差
Figure 02_image009
,以
Figure 02_image011
為新的訓練集,其與D1對應於相同的使用者集合。以與上述相同的方法,可取得第二個決策樹,在第二個決策樹中,將N個使用者分割到各個葉子節點中,並且每個葉子節點的分值為各個使用者的殘差值的均值。類似地,可順序取得多個決策樹,每個決策樹都基於前一個決策樹的殘差獲得。從而可獲得包括多個決策樹的GBDT模型。 在預測使用者的標籤值時,對上述GBDT模型輸入使用者的特徵向量,GBDT模型中的每個決策樹依據其中父節點的分裂特徵和分裂臨限值將該使用者分配到相應的葉子節點,從而,透過將使用者所在的各個葉子節點的分值相加,從而獲得該使用者的預測標籤值。 在上述預測過程之後,根據本說明書實施例的模型解釋方法基於GBDT模型中的現有參數和預測結果,取得對使用者的預測標籤值的特徵解釋。即,在每個所述決策樹中,取得使用者所在的葉子節點,取得包含所述葉子節點的預測路徑,計算預測路徑上的子節點的與預測標籤值相關的特徵及該特徵的局部增量,以及,將全部決策樹中包括的相同特徵的局部增量累加起來作為該特徵與預測標籤值的相關性,也即該特徵對預測標籤值的特徵貢獻。從而透過所述特徵及其特徵貢獻,對使用者的預測標籤值進行特徵解釋。上述GBDT模型為回歸模型,即,其預測的標籤為連續型資料,例如欺詐風險值、年齡等。然而,所述GBDT模型不限於回歸模型,其還可以為分類模型、推薦模型等,並且,這些模型都可以使用根據本說明書實施例的GBDT模型解釋方法。 圖1示出根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的方法,所述方法在透過GBDT模型預測使用者的標籤值之後執行,所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性,所述GBDT模型中包括多個順序排列的決策樹。所述方法包括:在步驟S11,在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值;在步驟S12,判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑;在步驟S13,取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定;在步驟S14,對於每個所述預測路徑上的每個子節點,透過其自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵;在步驟S15,取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵;以及,在步驟S16,透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。 首先,在步驟S11,在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值。 如前文所述,在所述GBDT模型中包括的多個順序排列的決策樹中,每個決策樹基於其前一個決策樹的標籤值殘差獲得,即,所述順序排列的各個決策樹的葉子節點的分值會越來越小。相應地,透過所述順序排列的各個決策樹判定的與使用者預測標籤值相關的使用者特徵的局部增量也會在數量級上變得越來越小。可以預測,從排序比較靠後的決策樹取得的特徵的局部增量對於該特徵的與預測標籤值的相關性(即,該特徵的全部局部增量之和)的影響會越來越小,甚至可近似為零。因此,可選取排序靠前的預定數目的決策樹來實施根據本說明書實施例的方法。可透過預定條件判定所述預定數目,例如,根據葉子節點的數量級,判定所述預定數目,或者,根據預定的決策樹百分比,判定所述預定數目等。在一個實施例中,可以對所述GBDT模型包括的全部決策樹實施根據本說明書實施例的方法,從而獲得精確的模型解釋。 圖2示例示出了根據本說明書實施例的GBDT模型中包括的決策樹。如圖2所示,圖中的標為0的節點為該決策樹的根節點,圖中標為3、7、8、13、14、10、11、和12的節點為該決策樹的葉子節點,其中,每個葉子節點下方標出的數值(例如,節點3下方的0.136)為該葉子節點的分值,該分值是GBDT模型在訓練中基於分入該葉子節點中的多個樣本的標定標籤值而判定的。如圖2中的矩形虛線框中所示,從節點6中分出兩個節點11和12,因此,節點6是節點11和節點12的父節點,節點11和節點12都是節點6的子節點。如圖2中所示,圖中部分父節點通向子節點的箭頭上都標明了特徵及取值範圍,例如,節點0通向節點1的箭頭上標出“f5≤-0.5”,節點0通向節點2的箭頭上標出“f5>-0.5”,這裡的f5表示特徵5,其為節點0的分裂特徵,-0.5就是節點0的分裂臨限值。 圖3示例示出了基於圖2所示的決策樹實施根據本說明書實施例的方法的示意圖。如圖3所示,在透過包括圖3所示的決策樹的GBDT模型預測使用者的標籤值的情況中,假設在該決策樹中將使用者分到節點14中。從而,可從該決策樹判定包括使用者的節點14以及該節點14的分值。同時,在該GBDT模型包括的其它決策樹中,可類似地判定使用者所在的葉子節點及其分值。從而,可取得預定數目的葉子節點及其對應分值,即,從所述預定數目的決策樹的每個決策樹中都取得一個葉子節點。 在步驟S12,判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑。繼續參考圖3,在圖3所示的決策樹中,在判定使用者所在的葉子節點14之後,可判定預測路徑為圖中從節點0至節點14的預測路徑,圖中以粗線箭頭連接的節點連接路徑示出。同時,在所述預定數目的決策樹的其它決策樹中,可類似地取得預測路徑,從而取得預定數目的預測路徑。 在步驟S13,取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定。參考圖3,在節點0到節點14的預測路徑中,除了節點14之外的每個節點都有子節點,即在該路徑中,包括的父節點有節點0、節點2、節點5和節點9。如前文參考圖2所述,父節點的分裂特徵可從決策樹中直接取得,例如,參考圖2,可得,節點0的分裂特徵為特徵5,節點2的分裂特徵為特徵2,節點5的分裂特徵為特徵4,以及節點9的分裂特徵為特徵4。在一個實施例中,基於如下公式(1)判定父節點的分值:
Figure 02_image013
(1) 其中,Sp 為父節點的分值,Sc1 和Sc2 分別為該父節點的兩個子節點的分值。即,父節點的分值為其兩個子節點的分值的平均值。例如,如圖3中所示,可從節點13和節點14的分值判定節點9的分值為
Figure 02_image015
,類似地,基於節點9和節點10的分值,可判定節點5的分值為0.0625。基於節點5和節點6的分值,可判定節點2的分值為0.0698。基於節點1和節點2的分值,可判定節點0的分值為0.0899。可以理解,圖3所示的預測路徑上的每個父節點的分值都可以基於圖中的各個葉子節點的分值判定,例如,可從節點13、14和10判定節點5的分值,可從節點13、14、10、11和12判定節點2的分值。 在一個實施例中,基於以下公式(2)判定父節點的分值:
Figure 02_image017
(2) 其中,Nc1 和Nc2 為在模型訓練中分別落入子節點c1和c2的樣本數。即,父節點的分值為其兩個子節點的分值的加權平均值,所述兩個子節點的權重為模型訓練過程中落入其中的樣本數。在對根據本說明書實施例的實際應用或實驗測試中可判定,透過使用公式(2)判定父節點的分值,相比於公式(1),可取得更準確的模型解釋。另外,在本說明書實施例中,對於父節點的計算不限於上述公式(1)和(2),例如,可調節公式(1)和(2)中的參數,以使得模型解釋更加準確,另外,還可透過幾何平均值、均方根平均值等,基於葉子節點的分值,取得各個父節點的分值。 在步驟S14,對於每個所述預測路徑上的每個子節點,透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵。 參考圖3,在從節點0到節點14的預測路徑中,除了根節點0之外,其它節點都是其上一個節點的子節點,即,該路徑中的子節點包括:節點2、節點5、節點9和節點14。由於透過預測路徑中的父節點的特徵分裂,才取得預測路徑中的子節點,從而父節點的分裂特徵即為子節點的與預測標籤值相關的特徵,為方便描述,將其表示為與子節點對應的特徵,或者子節點處的貢獻特徵。例如,如圖3所示,與節點2對應的特徵為特徵5,與節點5對應的特徵為特徵2,與節點9對應的特徵為特徵4,以及,與節點14對應的特徵為特徵4。 在一個實施例中,透過以下公式(3)取得各個子節點處的特徵局部增量:
Figure 02_image019
(3) 其中,
Figure 02_image021
表示子節點c處的特徵f的局部增量,
Figure 02_image023
表示子節點的分值,
Figure 02_image025
表示所述子節點的父節點的分值。該公式可從實際應用或實驗測試中得到驗證。 透過公式(3),基於在步驟S13中獲得的各個父節點的分值,可容易地計算得出:節點2處的特徵5(f5)的局部增量為-0.0201(即0.0698-0.0899),節點5處的特徵2(f2)的局部增量為-0.0073,節點9處的特徵4(f4)的局部增量為 -0.0015,以及節點14處的特徵4(f4)的局部增量為0.001。 在本說明書實施例中,對所述局部增量的計算不限於上述公式(3),還可以透過其它計算方法計算所述局部增量。例如,可對公式(3)中的父節點的分值或子節點的分值乘以修正參數,以使模型解釋更加準確。 在步驟S15,取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵。例如,參考圖3,在圖3所示的決策樹中,可從所述預測路徑上取得與使用者的預測標籤值相關的特徵,即,特徵5、特徵2和特徵4。同樣地,可從所述預測數目的決策樹中的其它決策樹中,類似地取得與使用者的預測標籤值相關的特徵。將這些特徵集合到一起,從而可取得與使用者的預測標籤值相關的多個特徵的集合。 在步驟S16,透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。例如,參考圖3所示,在如圖所示的決策樹中,預測路徑上的節點9和14都對應於特徵4,從而可將節點9與節點14處的局部增量相加,例如,在其它決策樹中沒有取得與特徵4對應的預測路徑子節點的情況中,可獲得特徵4與預測標籤值的相關性(或者特徵貢獻值)為-0.0015+0.0010=0.0025。在其它決策樹中也包括與特徵4對應的預測路徑子節點的情況中,可將全部與特徵4對應的子節點的局部增量相加,從而取得特徵4的相關性或貢獻值。所述相關性的值越大,表示特徵與預測標籤值的相關性越大,當所述相關性的值為負值時,表示該特徵與預測標籤值的相關性非常小。例如,在透過GBDT模型預測使用者的信用卡欺詐值的實例中,所述相關性的值越大,表示該特徵與信用卡欺詐值的相關性越大,即,該特徵的風險性越大。 透過取得與使用者的預測標籤值相關的多個特徵及所述多個特徵與所述預測標籤值的相關性,從而可以對使用者預測標籤值的進行特徵解釋,從而明確預測的判定因素,並可以透過所述特徵解釋,取得與使用者相關的更多資訊。例如,在透過GBDT模型預測使用者的信用卡欺詐度的實例中,透過取得使用者的與預測標籤值相關的多個特徵及特徵的相關性大小,可以將特徵的影響面及該特徵的相關性的大小,作為使用者信用卡欺詐度預測值的參考資訊,以使得對使用者的判斷更加準確。 圖4示出了根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的裝置400。所述裝置400在透過GBDT模型預測使用者的標籤值之後實施,所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性,所述GBDT模型中包括多個順序排列的決策樹。所述裝置400包括: 第一取得單元41,組態為,在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值; 第一判定單元42,組態為,判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑; 第二取得單元43,組態為,取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定; 第二判定單元44,組態為,對於每個所述預測路徑上的每個子節點,透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵; 特徵取得單元45,組態為,取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵;以及 相關性取得單元46,組態為,透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。 透過根據本說明書實施例的GBDT模型解釋方案,只需取得GBDT模型中的已有參數和預測結果,即可取得對GBDT模型的使用者級的準確的模型解釋,並且,計算成本較低。另外,本說明書實施例的方案可適用於各種GBDT模型,適用性強,可操作性強。 本領域普通技術人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及演算法步驟,能夠以電子硬體、電腦軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執軌道,取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本申請的範圍。 結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執軌道的軟體模組,或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可程式設計ROM、電可擦除可程式設計ROM、暫存器、硬碟、抽取式磁碟、CD-ROM、或技術領域內所公知的任意其它形式的儲存媒體中。 以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
S11、S12、S13、S14、S15、S16‧‧‧步驟 400‧‧‧裝置 41‧‧‧第一取得單元 42‧‧‧第一判定單元 43‧‧‧第二取得單元 44‧‧‧第二判定單元 45‧‧‧特徵取得單元 46‧‧‧相關性取得單元
透過結合附圖描述本說明書實施例,可以使得本說明書實施例更加清楚: 圖1示出根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的方法; 圖2示例示出了根據本說明書實施例的GBDT模型中包括的決策樹; 圖3示例示出了基於圖2所示的決策樹實施根據本說明書實施例的方法的示意圖;以及 圖4示出了根據本說明書實施例的一種取得對使用者的預測標籤值的特徵解釋的裝置400。

Claims (12)

  1. 一種取得對使用者的預測標籤值的特徵解釋的方法,所述方法在透過梯度提升決策樹(GBDT)模型預測使用者的標籤值之後執行,所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性,所述GBDT模型中包括多個順序排列的決策樹,所述方法包括: 在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值; 判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑; 取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定; 對於每個所述預測路徑上的每個子節點,透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵; 取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵;以及 透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。
  2. 如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法,其中,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括,所述父節點的分值為其兩個子節點的分值的平均值。
  3. 如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法,其中,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括,所述父節點的分值為其兩個子節點的分值的加權平均值,所述子節點的分值的權重基於在所述GBDT模型的訓練過程中分配至其的樣本數而判定。
  4. 如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法,其中,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量包括,取得所述每個子節點的自身分值與其父節點的分值的差,作為所述特徵局部增量。
  5. 如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法,其中,所述GBDT模型為分類模型或回歸模型。
  6. 如申請專利範圍第1項所述的取得對使用者的預測標籤值的特徵解釋的方法,其中,所述排序靠前的預定數目的所述決策樹為所述GBDT模型中包括的多個順序排列的決策樹。
  7. 一種取得對使用者的預測標籤值的特徵解釋的裝置,所述裝置在透過GBDT模型預測使用者的標籤值之後實施,所述特徵解釋包括與所述使用者的預測標籤值相關的使用者的多個特徵、以及每個所述特徵與所述預測標籤值的相關性,所述GBDT模型中包括多個順序排列的決策樹,所述裝置包括: 第一取得單元,組態為,在排序靠前的預定數目的各個所述決策樹中,分別取得包括所述使用者的葉子節點和所述葉子節點的分值,其中,所述葉子節點的分值為透過所述GBDT模型預定的分值; 第一判定單元,組態為,判定與各個所述葉子節點分別對應的各個預測路徑,所述預測路徑為從所述葉子節點至其所在決策樹的根節點之間的節點連接路徑; 第二取得單元,組態為,取得每個所述預測路徑上各個父節點的分裂特徵和分值,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定; 第二判定單元,組態為,對於每個所述預測路徑上的每個子節點,透過所述每個子節點的自身的分值、其父節點的分值和其父節點的分裂特徵,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量,其中所述每個子節點對應的特徵為與所述使用者的預測標籤值相關的特徵; 特徵取得單元,組態為,取得全部所述子節點各自對應的特徵的集合,作為與所述使用者的預測標籤值相關的多個特徵;以及 相關性取得單元,組態為,透過將對應於相同特徵的至少一個所述子節點的特徵局部增量相加,取得與所述至少一個子節點對應的特徵與所述預測標籤值的相關性。
  8. 如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置,其中,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括,所述父節點的分值為其兩個子節點的分值的平均值。
  9. 如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置,其中,所述各個父節點的分值基於其所在決策樹的各個葉子節點的預定分值而判定包括,所述父節點的分值為其兩個子節點的分值的加權平均值,所述子節點的分值的權重基於在所述GBDT模型的訓練過程中分配至其的樣本數而判定。
  10. 如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置,其中,判定所述每個子節點對應的特徵、及每個子節點處的特徵局部增量包括,取得所述每個子節點的自身分值與其父節點的分值的差,作為所述特徵局部增量。
  11. 如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置,其中,所述GBDT模型為分類模型或回歸模型。
  12. 如申請專利範圍第7項所述的取得對使用者的預測標籤值的特徵解釋的裝置,其中,所述排序靠前的預定數目的所述決策樹為所述GBDT模型中包括的多個順序排列的決策樹。
TW108105821A 2018-05-21 2019-02-21 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置 TWI689871B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810488062.X 2018-05-21
CN201810488062.XA CN108681750A (zh) 2018-05-21 2018-05-21 Gbdt模型的特征解释方法和装置

Publications (2)

Publication Number Publication Date
TW202004559A TW202004559A (zh) 2020-01-16
TWI689871B true TWI689871B (zh) 2020-04-01

Family

ID=63806940

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108105821A TWI689871B (zh) 2018-05-21 2019-02-21 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置

Country Status (6)

Country Link
US (1) US11205129B2 (zh)
EP (1) EP3719704A4 (zh)
CN (1) CN108681750A (zh)
SG (1) SG11202006205SA (zh)
TW (1) TWI689871B (zh)
WO (1) WO2019223384A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681750A (zh) 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
CN109492783B (zh) * 2018-11-14 2023-09-15 中国电力科学研究院有限公司 一种基于gbdt的电力计量设备故障风险预测方法
CN109489212B (zh) * 2018-11-21 2020-05-05 珠海格力电器股份有限公司 一种空调智能睡眠控制方法、调整系统及设备
CN110008349B (zh) * 2019-02-01 2020-11-10 创新先进技术有限公司 计算机执行的事件风险评估的方法及装置
CN110084318B (zh) * 2019-05-07 2020-10-02 哈尔滨理工大学 一种结合卷积神经网络和梯度提升树的图像识别方法
CN110457912B (zh) * 2019-07-01 2020-08-14 阿里巴巴集团控股有限公司 数据处理方法、装置和电子设备
CN110990829B (zh) * 2019-11-21 2021-09-28 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111340121B (zh) * 2020-02-28 2022-04-12 支付宝(杭州)信息技术有限公司 目标特征的确定方法及装置
CN111383028B (zh) * 2020-03-16 2022-11-22 支付宝(杭州)信息技术有限公司 预测模型训练方法及装置、预测方法及装置
CN111401570B (zh) * 2020-04-10 2022-04-12 支付宝(杭州)信息技术有限公司 针对隐私树模型的解释方法和装置
CN112330054B (zh) * 2020-11-23 2024-03-19 大连海事大学 基于决策树的动态旅行商问题求解方法、系统及存储介质
CN112818228B (zh) * 2021-01-29 2023-08-04 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN114841233B (zh) * 2022-03-22 2024-05-31 阿里巴巴(中国)有限公司 路径解释方法、装置和计算机程序产品
CN114417822A (zh) * 2022-03-29 2022-04-29 北京百度网讯科技有限公司 用于生成模型解释信息的方法、装置、设备、介质和产品
CN115048386A (zh) * 2022-06-28 2022-09-13 支付宝(杭州)信息技术有限公司 一种业务执行方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257924A1 (en) * 2013-03-08 2014-09-11 Corelogic Solutions, Llc Automated rental amount modeling and prediction
US9501716B2 (en) * 2014-12-11 2016-11-22 Intel Corporation Labeling component parts of objects and detecting component properties in imaging data
CN107153977A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 网上交易平台中交易实体信用评估方法、装置及系统
CN108038539A (zh) * 2017-10-26 2018-05-15 中山大学 一种集成长短记忆循环神经网络与梯度提升决策树的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9449282B2 (en) * 2010-07-01 2016-09-20 Match.Com, L.L.C. System for determining and optimizing for relevance in match-making systems
US10366451B2 (en) * 2016-01-27 2019-07-30 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN107025154B (zh) * 2016-01-29 2020-12-01 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
CN106204063A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种付费用户挖掘方法及装置
CN106611191A (zh) * 2016-07-11 2017-05-03 四川用联信息技术有限公司 基于不确定连续属性的决策树分类器构建方法
CN106250403A (zh) * 2016-07-19 2016-12-21 北京奇艺世纪科技有限公司 用户流失预测方法及装置
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257924A1 (en) * 2013-03-08 2014-09-11 Corelogic Solutions, Llc Automated rental amount modeling and prediction
US9501716B2 (en) * 2014-12-11 2016-11-22 Intel Corporation Labeling component parts of objects and detecting component properties in imaging data
CN107153977A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 网上交易平台中交易实体信用评估方法、装置及系统
CN108038539A (zh) * 2017-10-26 2018-05-15 中山大学 一种集成长短记忆循环神经网络与梯度提升决策树的方法

Also Published As

Publication number Publication date
EP3719704A1 (en) 2020-10-07
US11205129B2 (en) 2021-12-21
EP3719704A4 (en) 2021-03-17
WO2019223384A1 (zh) 2019-11-28
CN108681750A (zh) 2018-10-19
TW202004559A (zh) 2020-01-16
US20200293924A1 (en) 2020-09-17
SG11202006205SA (en) 2020-07-29

Similar Documents

Publication Publication Date Title
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
TW201909112A (zh) 圖像特徵獲取
WO2020082734A1 (zh) 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
WO2019196210A1 (zh) 数据分析方法、计算机可读存储介质、终端设备及装置
WO2020192442A1 (zh) 利用少数标注图像生成分类器的方法
KR20210032140A (ko) 뉴럴 네트워크에 대한 프루닝을 수행하는 방법 및 장치
WO2022179384A1 (zh) 一种社交群体的划分方法、划分系统及相关装置
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN110019163A (zh) 对象特征的预测、推荐的方法、系统、设备和存储介质
WO2020170593A1 (ja) 情報処理装置及び情報処理方法
CN110135681A (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN109840413A (zh) 一种钓鱼网站检测方法及装置
CN110321437A (zh) 一种语料数据处理方法、装置、电子设备及介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN113177579A (zh) 一种基于注意力机制的特征融合方法
CN116263785A (zh) 跨领域文本分类模型的训练方法、分类方法和装置
CN113592008B (zh) 小样本图像分类的系统、方法、设备及存储介质
CN114329022A (zh) 一种色情分类模型的训练、图像检测方法及相关装置
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN108229572B (zh) 一种参数寻优方法及计算设备
US20140324524A1 (en) Evolving a capped customer linkage model using genetic models
US20140324523A1 (en) Missing String Compensation In Capped Customer Linkage Model
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN112464101A (zh) 电子书的排序推荐方法、电子设备及存储介质