TW202324224A

TW202324224A - 利用維度減少提升分類及回歸樹表現

Info

Publication number: TW202324224A
Application number: TW111132814A
Authority: TW
Inventors: 進勇藩; 舒黃; 帕凡庫瑪謬拉利; 明林阮
Original assignee: 美商萬國商業機器公司
Priority date: 2021-12-14
Filing date: 2022-08-31
Publication date: 2023-06-16
Also published as: US20230186107A1; CN116263813A; JP2023088289A

Abstract

本發明可提供一種用於建構與訓練用於機器學習之一決策樹之系統及方法。可接收一訓練集。可藉由建構一根節點來初始化該決策樹，且可用該訓練集來訓練一根解算器。一處理器可藉由反覆地分裂該決策樹之節點來使該決策樹生長，其中在該決策樹之一節點處，對在該節點處所接收的該訓練集之資料的特徵執行維度減少，且基於一路由函數將具有經減少維度之該資料分裂，以路由至該決策樹之另一節點。該維度減少及該分裂可基於解算一非線性最佳化問題而在該節點處一起執行。

Description

利用維度減少提升分類及回歸樹表現

本申請案大體上係關於電腦及電腦應用，且更特定言之，係關於機器學習、建立與訓練具有維度減少之分類及回歸樹。

決策樹為一種風行類別之機器學習模型，該等決策樹因其在各種應用中之計算吸引性及其強表現而眾所周知。其藉由學習經由遞回地分裂資料而產生之資料的階層式叢集來起作用。儘管風行，但諸如分類及回歸樹(CART)之最基本方法依賴窮盡準則或啟發法產生分裂，且因此為了更低計算成本而潛在地犧牲分裂之最佳性。

給出本發明之概述以幫助理解用於例如利用維度減少技術提升分類及回歸樹表現的端對端系統的電腦系統及方法，且無限制本揭示案或本發明的意圖。應理解，本發明之各種態樣及特徵在一些情況下可有利地單獨使用，或在其他情況下與本發明之其他態樣及特徵結合使用。因此，可對電腦系統及/或其操作方法進行變化及修改以達成不同效果。

在一個態樣中，在機器學習中建構決策樹的電腦實施方法可包括接收一訓練集。該方法亦可包括藉由建構一根節點且用該訓練集訓練一根解算器來初始化該決策樹。該方法亦可包括藉由反覆地分裂該決策樹之節點來使該決策樹生長，其中在該決策樹之一節點處，對在該節點處所接收的該訓練集之資料的特徵執行維度減少，且基於最佳化一路由函數將具有經減少維度之該資料分裂，以路由至該決策樹之另一節點，其中該維度減少及該分裂在該節點處一起執行，其中該決策樹包括路由節點及葉節點。該方法亦可包括藉由一最佳化演算法，對該等路由節點處之路由函數、該等葉節點處之解算器及該決策樹的每一節點處之維度減少同時執行訓練。

在一態樣中，一種系統可包括一處理器及與該處理器耦接之一記憶體裝置。該處理器可經組態以接收一訓練集。該處理器亦可經組態以藉由建構一根節點且用該訓練集訓練一根解算器來初始化該決策樹。該處理器亦可經組態以藉由反覆地分裂該決策樹之節點來使該決策樹生長，其中在該決策樹之一節點處，對在該節點處所接收的該訓練集之資料的特徵執行維度減少，且基於最佳化一路由函數將具有經減少維度之該資料分裂，以路由至該決策樹之另一節點，其中該維度減少及該分裂在該節點處一起執行，其中該決策樹包括路由節點及葉節點。該處理器亦可經組態以藉由一最佳化演算法，對該等路由節點處之路由函數、該等葉節點處之解算器及該決策樹的每一節點處之維度減少同時執行訓練。

亦可提供一種儲存指令之一程式的電腦可讀儲存媒體，該等指令可由一機器執行以執行本文中所描述之一或多種方法。

下文參考隨附圖式詳細地描述其他特徵以及各種實施例之結構及操作。在該等圖式中，類似元件符號指示相同或功能上類似之元件。

可提供端對端樹學習框架。在一實施例中，該框架可使用非線性程式化技術且可在資料設定中工作，諸如其中可存在可包括大量特徵及樣本的高維度多模態表格式資料的資料設定。舉例而言，該框架可為非線性程式決策樹框架。在一態樣中，框架統一維度減少與訓練程序，例如整合決策樹之訓練或學習程序中的維度減少。在一態樣中，維度減少改良基於樹之監督式學習模型的樣本表現。框架亦可實施正則項以改良其表現。框架可適用於例如具有不平衡資料集及非線性準確度度量的分類與回歸任務。框架亦可提供具有分佈式訓練的可調式方法。在一實施例中，框架可使用資料之階層式叢集方法。在一實施例中，分支規則可基於機率模型，且框架可察覺下游學習模型。該等模型可藉由可調式變異數減小隨機梯度演算法來訓練。在一實施例中，框架可在特徵資料之環內維度減少及/或具有非線性正則項的類主成份分析(PCA)結構中使用。

決策樹為在回歸及分類中使用的學習模型。在一或多個實施例中，可呈現系統及/或方法，該系統及/或方法可建構將維度減少併入樹構造中的端對端學習方案。舉例而言，將維度減少應用或整合至決策樹學習可允許系統及/或方法在計算上縮放最佳分類及回歸樹框架。此外，識別適當維度減少可提升決策樹學習之表現。

本文所揭示之決策樹可在一或多個電腦處理器上或由一或多個電腦處理器(例如，包括一或多個硬體處理器，或與一或多個硬體處理器耦接)實施、建構與訓練。舉例而言，一或多個硬體處理器可包括可經組態以執行本發明中所描述之各別任務的組件，諸如可程式化邏輯裝置、微控制器、記憶體裝置及/或其他硬體組件。耦接之記憶體裝置可經組態以選擇性地儲存可由一或多個硬體處理器執行之指令。

處理器可為中央處理單元(CPU)、圖形處理單元(GPU)、場可程式化閘陣列(FPGA)、特殊應用積體電路(ASIC)、另一合適處理組件或裝置，或其一或多個組合。處理器可與記憶體裝置耦接。記憶體裝置可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)或另一記憶體裝置，且可儲存用於實施與本文中所描述之方法及/或系統相關聯之各種功能性的資料及/或處理器指令。處理器可執行儲存於記憶體中或自另一電腦裝置或媒體接收之電腦指令。

圖1展示一實施例中的決策樹學習。藉助於實例，資料可表示為：

，其中

為回歸，且

為分類，其中

表示標記(或待預測標記)，且

表示特徵。決策樹可包括根節點(例如，節點A)、分支節點(例如，節點B)，及葉節點(例如，節點1、2、3)。取決於特徵的值，資料可經由分支節點分裂成不同葉節點。取決於資料擬合在何處，可將資料點發送至左節點或右節點。舉例而言，在分裂中，決策樹中之資料經由具有以下形式之分裂而路由：對於節點 n，若

，則資料點

向左路由；且對於一些分支規則函數

，若

，則資料點

向右路由。例如，可自資料產生各分裂以擬合該資料。在一實施例中，可對路由至決策樹中之分支節點或根節點的資料執行諸如主成份分析(PCA)的維度減少。用擬合在節點處(例如，在各分裂處)之模型應用維度減少來尋找經減少數目的特徵可提升決策樹之學習表現。舉例而言，可對發送至節點之資料叢集執行維度減少。在一態樣中，對發送至節點之資料的特定叢集執行維度減少可適應存在多模態類型資料的資料設定。舉例而言，對個別叢集執行維度減少可識別資料之多模態性質，其中節點處的一個叢集可具有與其模型擬合中之另一節點處的另一叢集不同的特徵集。

圖2為說明一實施例中之維度減少及決策樹訓練或學習的另一圖式。一實施例中之端對端方法將維度減少(例如，PCA)與學習最佳決策樹組合成統一模型。舉例而言，可在每一節點(例如，葉節點及中間節點)處同時執行維度減少與學習預測模型之最佳化(例如，最小化例如機器學習模型中之訓練損失)，或例如藉由執行202處所展示之最佳化

來一次執行，使得滿足一組約束。此處，

為第 k葉節點處之預測模型。該組約束取決於所解算之問題的類型而為可組態的。在一實施例中，可引入正則項以改良樹學習框架之表現。

在一實施例中，非線性程式決策樹框架可針對可存在多個特徵及樣本之高維度多模態表格式資料特定化，可統一維度減少及訓練程序，可適用於具有不平衡資料集及非線性準確度度量的分類與回歸任務，且可形成具有分佈式訓練的可調式方法。

圖3為說明一實施例中之一般決策樹框架的另一圖式。在一態樣中，決策樹可具有三個組件：路由器：

節點，將資料向左路由或向右路由；變換器：

節點，將資料變換成低維度空間中的新表示；解算器：

節點，給定路由至個各別葉節點之資料，傳回預測。路由器(例如，302、304)自一個節點至另一節點發送或分裂資料(例如，306)。變換器(例如，308、310、312、314、316)可將維度減少應用於資料。解算器(例如，320、322、324)包括擬合至發送至解算器之不同資料叢集的模型。在一實施例中，各解算器可為決策樹之葉節點處的不同模型。

在一實施例中，變換器可使用諸如PCA之技術。舉例而言，基於PCA之維度減少框架可強調學習中維度減少的影響。在一實施例中，可使用正則化改良分裂及路由。可使用不同正則化技術。舉例而言，在一實施例中，單一路由正則項可促進將各觀察結果路由至單一節點。單一路由正則項可改良葉節點解算器中之學習且輸出近似確定性決策樹。單一路由正則項(例如，

)具有凹懲罰，且促進

接近0或1。

在另一實施例中，多樣化正則項(例如，

)可促進資料均勻地路由在葉節點中，例如，各葉節點接收等量之觀察結果。多樣化正則項可具有凸懲罰。多樣化正則項可人工誘發所觀察資料之階層式叢集，允許模型更佳地擬合訓練資料同時仍一般化，且可在同時學習的同時允許叢集化。在另一實施例中，正交性正則項(

)可促進維度減少(例如，變換器)更近似於PCA。舉例而言，正交性正則項可具有凸懲罰，且可藉由強制執行𝐶之資料行之間的正交性而保留PCA結構。

在一實施例中，決策樹學習框架將類PCA投影整合至路由函數以察覺下游預測模型。一般學習設定可包括具有 p個特徵之 N個觀察結果的資料：

，例如，對於分類，C個類別，或對於回歸，

。

在一實施例中，框架整合機率性決策樹，其中路由器基於下部維度空間中之經變換資料來分裂資料。舉例而言，為將投影結構併入至決策樹之學習方案中，框架可包括機率性決策樹或軟決策樹。在一實施例中，此等樹按一定機率將

向左或向右路由。判定機率之函數可為可微分的。特定言之，舉例而言，節點𝑛有以下機率向左路由：

。

如圖3中所展示，在一實施例中，學習決策樹之組件可包括路由器節點302、304及解算器節點320、322、324。在一實施例中，路由器節點有機率 p將各觀察結果

路由至左側子節點，且有機率1−𝑝路由至右側子節點。在一實施例中，路由器可在路由之前將線性維度減少層應用於特徵。在一實施例中，樹之葉節點處的解算器節點傳回預測目標

。解算器節點可為一般學習模型，如線性回歸、核回歸，及/或其他，形式上，藉由

參數化，對於分類為

，且對於回歸為

。

在一實施例中，變換器308、310、312、314、316呈現在節點之間的弧上以用於維度減少。非葉節點(例如，分支節點)中呈現的路由器302、304分裂資料。葉節點中呈現之解算器320、322、324產生輸出的估計值。框架可為基於維度減少之專用模型，該框架可針對高維度資料集工作。給定𝑁個標記樣本

為訓練資料，框架對於分類設定學習

，且對於回歸設定學習

，其中

、

用於回歸設定，且

用於分類設定。

在一實施例中，用於第 n節點之路由函數可界定為

，其指示資料點𝐱路由至左側子節點的機率。路由函數可藉由

參數化。在一實施例中，路由函數可選擇為

其中

、

及

為S型函數。此處， p表示特徵空間的維度，例如，如在

中的樣本𝐱的特徵數目； m表示新下部維度特徵空間的維度。在一實施例中，本文所揭示的方法將

中的𝐱投影至下部維度空間中，例如，投影至

中。因此， m為可調諧參數。吾人可

將視為𝐱至下部維度設定(例如，

中)的投影，且將

視為𝐱的下部投影的分裂參數。舉例而言，矩陣

用於維度減少。

在一實施例中，對於分類，第

葉節點之解算器函數可界定為用於傳回

的估計值的

。在一實施例中，對於回歸，解算器函數可界定為

，其傳回

的估計值。解算器函數可藉由

參數化。對於分類，框架可將解算器設定為多項式羅吉特機率模型(multinomial logit model)或一常數。對於回歸，解算器可為諸如

的線性函數，其中

。在一實施例中，對於解算器之維度減少可為函數

。舉例而言，對於線性回歸解算器，

。

為了執行推斷且產生𝐱的估計值

或

，使用該模型，框架可界定

及

，其為將𝐱分別向左或向右路由以到達葉節點

的節點集。可觀察到：

，且

。

在一實施例中，對於分類問題，框架可利用負對數似然(NLL)作為目標函數以針對訓練決策樹而最小化：

。

在一實施例中，框架亦可添加正則項至目標函數中。藉助於實例，對於

的類PCA投影，可使矩陣

的資料行正交。強制執行此約束的一種方式為引入正則項

，其中

為

單位矩陣。在一實施例中，為了緩和過度擬合且促進多樣性，框架可添加正則項以減少路由至一個節點的資料點的數目。為了界定正則項，框架可界定

其為將資料點𝐱路由至葉節點

的機率。正則項因此為

。此為懲罰項，因為當將資料點僅路由至一個葉節點時，其變得更大。訓練的完整最佳化問題變為

。 (1) 解算此最佳化問題的程序成為訓練決策樹。在解算最佳化問題(1)之後，可獲得路由器

的模型參數

及解算器

的模型參數

。

對於回歸問題，框架可最小化平方損失：

。應用相同正則項，訓練的完整最佳化問題變為以下：

(2)

(3)

(4)。在解算最佳化問題(1)之後，可獲得路由器

的模型參數

及解算器

的模型參數

。

建構決策樹的實施例可使用窮盡方法，該窮盡方法以寬度第一搜尋方式反覆地分裂葉節點，直至新分裂不改良預測誤差為止。在另一實施例中，可用預定拓樸建構決策樹。在一實施例中，樹構造可包括初始化、生長階段及微調階段。在初始化階段，框架可將訓練資料劃分成訓練集及驗證集。框架可藉由建構根節點0且用訓練集訓練解算器

(例如，稱為根解算器)而初始化樹。一旦

經訓練，框架便固定根解算器，直至微調階段為止。

在生長階段，在使用預定拓樸之一實施例中，框架反覆地分裂葉節點，直至該框架獲得樹之預定拓樸為止。預定拓樸固定樹結構，例如，固定樹的深度。舉例而言，對於各層，框架可指派一個解算器為原始根節點解算器；為了分裂，框架可用訓練資料之隨機子集訓練兩個新解算器，且擬合路由器以最佳化分裂；框架可最佳化路由函數。針對新添加之路由器及解算器局部地進行訓練程序，同時固定樹之其他部分的模型參數。例如，對於葉節點

之分裂，框架可用訓練資料之隨機子集擬合右側子節點的解算器，且將左側子節點的解算器設定為

。框架可接著藉由保持

與

中之所有其他參數固定來局部地最佳化路由函數

。舉例而言，路由函數可為

，其中

且

。在一態樣中，路由函數界定於根節點或中間節點處。解算器為葉節點處之預測模型。其組合於統一最佳化問題(例如，問題(1)或問題(4))中以用於訓練決策樹。在一態樣中，維度減少可出現在路由器與解算器兩者中。

在一實施例中，在微調階段，框架可使用隨機梯度下降(SGD)全域地擬合每一解算器(例如，在葉節點處)及路由參數；框架可使用基本分類器演算法針對各葉節點再擬合分類器。例如，一旦進行生長階段，則框架可藉由對於分類設定解算問題或等式(1)且對於回歸設定解算問題或等式(4)來全域地最佳化樹。框架可使用諸如Adam演算法的隨機梯度下降型方法來解算各別問題。

在一實施例中，可例如在微調階段結束時執行額外精化。舉例而言，可將葉節點再擬合於經路由資料上以最小化訓練誤差。為了使用經路由資料再擬合資料，吾人可最小化加權版本的線性回歸。特定言之，例如，對於各葉節點

，框架可最小化

。

在另一實施例中，框架可應用一或多個預處理及/或無監督學習，其可改良學習方法之表現。舉例而言，可藉由濾除低變異數特徵、標準化特徵且應用PCA來達成良好表現。舉例而言，應用此類預處理可減低訓練誤差。

所執行實驗指示本文所揭示之框架之方法在改良訓練準確度及測試準確度方面優於不包括特徵減少的習知決策樹訓練技術。舉例而言，在實驗中使用4020個樣本之訓練資料及具有200個特徵的4020個樣本之測試資料。各試驗中之特徵的數目以特徵減少因數減少。觀察到，表現隨著特徵數目減少而增加。

圖4為說明一實施例中之建構與學習決策樹之方法的流程圖。該方法可在一或多個例如包括一或多個硬體處理器的電腦處理器上實施或執行。決策樹學習一系列問題，其中各問題涉及特徵及分裂點。在402處，可接收訓練集。在404處，可藉由建構根節點且用訓練集訓練根解算器來初始化決策樹。在406處，可藉由反覆地分裂決策樹之節點而使決策樹生長。舉例而言，在決策樹之節點處，可對在節點處接收之訓練集的資料的特徵執行維度減少，且可基於最佳化路由函數將具有經減少維度之資料分裂，以路由至決策樹的另一節點。舉例而言，維度減少及分裂在節點處一起執行。在408處，可最佳化決策樹，例如，微調決策樹。決策樹可包括路由節點及葉節點，且該方法可包括藉由最佳化演算法，對路由節點處之路由函數、葉節點處之解算器及決策樹的每一節點處之維度減少同時執行訓練。

在一實施例中，亦可接收決策樹之預定拓樸，在該預訂拓樸中，可反覆地分裂節點，直至獲得預定拓樸為止。在一實施例中，決策樹之節點可至少包括路由節點及葉節點，其中可經由在路由節點與葉節點中之各者處的最佳化來執行維度減少。在一實施例中，決策樹之葉節點可包括傳回預測目標值的解算器。在一實施例中，決策樹之葉節點可包括傳回預測目標值的回歸模型。在一實施例中，可使用諸如正交性正則項、多樣化正則項及/或單一路由正則項之正則項來最佳化決策樹。在一實施例中，可訓練決策樹以解算回歸問題。在一實施例中，可訓練決策樹以解算分類問題。在一實施例中，訓練集可包括不平衡資料集(例如，未必均勻地劃分之目標值)，且模型表現度量可包括非線性準確度度量。舉例而言，非線性度量可包括F1得分、馬修斯相關係數(Matthews correlation coefficient)及Fowlkes-Mallows指數。

在一態樣中，將PCA與決策樹整合至統一框架中，且例如針對端對端訓練使用此處所揭示之正則項中之一或多者來幫助改良預測準確度。針對解算問題(1)及(4)使用分佈式演算法(諸如隨機梯度下降)可減少訓練時間。在一態樣中，統一框架可用於分類與回歸問題兩者中。

圖5為展示一實施例中之可在機器學習中建構與訓練決策樹之系統的組件的圖式。諸如中央處理單元(CPU)、圖形處理單元(GPU)及/或場可程式化閘陣列(FPGA)、特殊應用積體電路(ASIC)及/或另一處理器之一或多個硬體處理器502可與記憶體裝置504耦接，且基於訓練集產生且訓練決策樹模型且基於未見資料做出預測或回答問題。記憶體裝置504可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)或另一記憶體裝置，且可儲存用於實施與本文中所描述之方法及/或系統相關聯之各種功能性的資料及/或處理器指令。一或多個處理器502可執行儲存於記憶體504中或自另一電腦裝置或媒體接收之電腦指令。舉例而言，記憶體裝置504可儲存用於使一或多個硬體處理器502起作用的指令及/或資料，且可包括作業系統及指令及/或資料之其他程式。一或多個硬體處理器502可接收包括訓練集之輸入。舉例而言，至少一個硬體處理器502可在機器學習中產生決策樹模型。在一個態樣中，此類訓練資料可儲存於儲存裝置506中，或經由網路介面508自遠端裝置接收，且可臨時載入至記憶體裝置504中以用於構建或產生決策樹模型。經學習之決策樹模型可儲存於記憶體裝置504上，例如以用於藉由一或多個硬體處理器502執行。一或多個硬體處理器502可與諸如網路介面508之介面裝置耦接以用於例如經由網路與遠端系統通信，且與輸入/輸出介面510耦接以用於與輸入及/或輸出裝置(諸如鍵盤、滑鼠、顯示器及/或其他裝置)通信。

圖6說明一實施例中之可實施一系統的實例電腦或處理系統的示意圖。該電腦系統僅為合適處理系統的一個實例，且並不意欲暗示關於本文中所描述之方法之實施例的使用範圍或功能性的任何限制。所示處理系統可與眾多其他通用或專用計算系統環境或組態一起操作。可適合與圖6中所展示之處理系統一起使用之熟知計算系統、環境及/或組態之實例可包括但不限於：個人電腦系統、伺服器電腦系統、精簡型用戶端、複雜型用戶端、手持型或膝上型電腦裝置、多處理器系統、基於微處理器之系統、機上盒、可程式化消費型電子裝置、網路PC、小型電腦系統、大型電腦系統及包括以上系統或裝置中之任一者的分散式雲端計算環境，等等。

可在正由電腦系統執行之電腦系統可執行指令(諸如，程式模組)之一般內容背景中描述電腦系統。通常，程式模組可包括執行特定任務或實施特定抽象資料類型之常式、程式、物件、組件、邏輯、資料結構等。可在分散式雲端計算環境中實踐該電腦系統，其中由經由通信網路而鏈接之遠端處理裝置執行任務。在分散式雲端計算環境中，程式模組可位於包括記憶體儲存裝置的本端及遠端電腦系統儲存媒體兩者中。

電腦系統之組件可包括但不限於一或多個處理器或處理單元12、系統記憶體16及匯流排14，該匯流排將包括系統記憶體16之各種系統組件耦接至處理器12。處理器12可包括執行本文所描述之方法的模組30。模組30可經程式化至處理器12之積體電路中，或自記憶體16、儲存裝置18或網路24或其組合載入。

匯流排14可表示任何幾種類型之匯流排結構中之一或多者，包括記憶體匯流排或記憶體控制器、周邊匯流排、加速圖形埠及處理器或使用多種匯流排架構中之任一者之區域匯流排。作為實例而非限制，此類架構包括工業標準架構(ISA)匯流排、微通道架構(MCA)匯流排、增強型ISA (EISA)匯流排、視訊電子標準協會(VESA)區域匯流排及周邊組件互連(PCI)匯流排。

電腦系統可包括多種電腦系統可讀媒體。此類媒體可為可由電腦系統存取之任何可用媒體，且其可包括揮發性及非揮發性媒體、抽取式及非抽取式媒體兩者。

系統記憶體16可包括呈揮發性記憶體之形式的電腦系統可讀媒體，諸如隨機存取記憶體(RAM)及/或快取記憶體或其他。電腦系統可進一步包括其他抽取式/非抽取式、揮發性/非揮發性電腦系統儲存媒體。僅作為實例，可提供儲存系統18以用於自非抽取式、非揮發性磁性媒體(例如，「硬碟機」)讀取及寫入至非抽取式、非揮發性磁性媒體。儘管未展示，但可提供用於自抽取式、非揮發性磁碟(例如，「軟碟」)讀取與寫入至抽取式、非揮發性磁碟之磁碟機，及用於自抽取式、非揮發性光碟(諸如，CD-ROM、DVD-ROM或其他光學媒體)讀取與寫入至抽取式、非揮發性光碟之光碟機。在此等情況下，各者可藉由一或多個資料媒體介面連接至匯流排14。

電腦系統亦可與以下各者通信：一或多個外部裝置26，諸如鍵盤、指標裝置、顯示器28等；使使用者能夠與電腦系統互動之一或多個裝置；及/或使電腦系統能夠與一或多個其他計算裝置通信之任何裝置(例如，網路卡、數據機等)。此類通信可經由輸入/輸出(I/O)介面20發生。

再另外，電腦系統可經由網路適配器22與諸如區域網路(LAN)、通用廣域網路(WAN)及/或公用網路(例如，網際網路)之一或多個網路24通信。如所描繪，網路配接器22經由匯流排14與電腦系統之其他組件通信。應理解，儘管未展示，但可結合電腦系統使用其他硬體及/或軟體組件。實例包括但不限於：微碼、裝置驅動器、冗餘處理單元、外部磁碟機陣列、RAID系統、磁帶驅動器及資料歸檔儲存系統等。

事先應理解，儘管本發明可包括關於雲端計算之描述，但本文中所敍述之教示之實施不限於雲端計算環境。實情為，本發明之實施例能夠結合現在已知或稍後開發之任何其他類型之計算環境來實施。雲端計算為用於實現對可組態計算資源(例如，網路、網路頻寬、伺服器、處理、記憶體、儲存器、應用程式、虛擬機及服務)之共用集區的便利、隨選網路存取的服務遞送模型，該等可組態計算資源可經快速佈建且藉由最少管理努力或與服務提供者之互動而釋放。此雲端模型可包括至少五個特性、至少三個服務模型及至少四個部署模型。

特性如下：

隨選自助服務：雲端消費者可視需要自動地單向佈建計算能力(諸如，伺服器時間及網路儲存器)，而無需與服務提供者之人為互動。

寬頻網路存取：可經由網路獲得能力及經由標準機制存取能力，該等標準機制藉由異質精簡型或複雜型用戶端平台(例如，行動電話、膝上型電腦及PDA)促進使用。

資源集用：提供者之計算資源經集用以使用多租戶模型為多個消費者服務，其中根據需要動態指派及重新指派不同實體及虛擬資源。存在位置獨立性之意義，此係因為消費者通常不具有對所提供之資源之確切位置的控制或瞭解，但可能能夠按較高抽象層級(例如，國家、州或資料中心)指定位置。

快速彈性：可快速地且彈性地(在一些狀況下，自動地)佈建能力以迅速地向外縮放，且可快速地釋放能力以迅速地向內縮放。在消費者看來，可用於佈建之能力常常呈現為無限制的且可在任何時間以任何量來購買。

所量測服務：雲端系統藉由在適於服務類型(例如，儲存、處理、頻寬及作用中使用者賬戶)之某一抽象層級下充分利用計量能力而自動控制及最佳化資源使用。可監測、控制與報告資源使用狀況，由此向所利用服務之提供者及消費者兩者提供透明度。

服務模型如下：

軟體即服務(SaaS)：提供給消費者之能力係使用在雲端基礎結構上執行之提供者之應用。可經由諸如網頁瀏覽器(例如，基於網頁之電子郵件)之精簡型用戶端介面自各種用戶端裝置獲取應用。消費者並不管理或控制包括網路、伺服器、作業系統、儲存器或甚至個別應用能力之基礎雲端基礎結構，其中可能的異常為有限的使用者特定應用組態設定。

平台即服務(PaaS)：提供給消費者之能力係將使用由提供者所支援之程式設計語言及工具建立的消費者建立或獲取之應用部署至雲端基礎結構上。消費者並不管理或控制包括網路、伺服器、作業系統或儲存器之基礎雲端基礎結構，但控制所部署之應用及可能的代管環境組態之應用。

基礎結構即服務(IaaS)：提供給消費者之能力係佈建處理、儲存器、網路及其他基礎計算資源，其中消費者能夠部署及執行可包括作業系統及應用程式之任意軟體。消費者並不管理或控制基礎雲端基礎結構，但具有對作業系統、儲存器、所部署應用之控制，及可能的對選擇網路連接組件(例如，主機防火牆)之有限控制。

部署模型如下：

私用雲端：僅針對組織操作雲端基礎結構。私用雲端可由組織或第三方來管理且可存在於內部部署或外部部署。

社群雲端：該雲端基礎結構由多個組織共用且支援具有共用關注點(例如，任務、安全性要求、方針及順應性考量)之特定社群。社群雲端可由組織或第三方來管理且可存在內部部署或外部部署。

公用雲端：使雲端基礎結構可用於公眾或大型工業集團且為出售雲端服務之組織所擁有。

混合雲端：雲端基礎結構為兩個或兩個以上雲端(私用、社群或公用)之組合物，該等雲端保持獨特實體但藉由實現資料及應用攜帶性(例如，用於在雲端之間實現負載平衡之雲端爆裂)之標準化或專屬技術系結在一起。

藉由集中於無狀態性、低耦合、模組化及語義互操作性對雲端計算環境進行服務定向。雲端計算之關鍵為包括互連節點之網路的基礎結構。

現參考圖7，描繪說明性雲端計算環境50。如所展示，雲端計算環境50包括一或多個雲端計算節點10，雲端消費者所使用之諸如個人數位助理(PDA)或蜂巢式電話54A、桌上型電腦54B、膝上型電腦54C及/或汽車電腦系統54N的本端計算裝置可與該一或多個雲端計算節點通信。節點10可彼此通信。可在一或多個網路(諸如，如上文所描述之私用、社群、公用或混合雲端或其組合)中將該等節點實體地或虛擬地分組(未展示)。此情形允許雲端計算環境50提供基礎結構、平台及/或軟體作為服務，針對該等服務，雲端消費者不需要在本端計算裝置上維護資源。應理解，圖7中所展示之計算裝置54A至54N之類型意欲僅為說明性的，且計算節點10及雲端計算環境50可經由任何類型之網路及/或網路可定址連接(例如，使用網頁瀏覽器)與任何類型之電腦化裝置通信。

現參考圖8，展示藉由雲端計算環境50 (圖7)所提供之功能抽象層之集合。事先應理解，圖8中所示之組件、層及功能意欲僅為說明性的且本發明之實施例不限於此。如所描繪，提供以下層及對應功能：

硬體與軟體層60包括硬體及軟體組件。硬體組件之實例包括：大型電腦61；基於RISC (精簡指令集電腦)架構之伺服器62；伺服器63；刀鋒伺服器64；儲存裝置65；以及網路及網路連接組件66。在一些實施例中，軟體組件包括網路應用伺服器軟體67及資料庫軟體68。

虛擬化層70提供抽象層，可自該抽象層提供虛擬實體之以下實例：虛擬伺服器71；虛擬儲存器72；包括虛擬私用網路之虛擬網路73；虛擬應用及作業系統74；及虛擬用戶端75。

在一個實例中，管理層80可提供下文所描述之功能。資源佈建81提供計算資源及用以執行雲端計算環境內之任務之其他資源的動態採購。當在雲端計算環境內利用資源時，計量及定價82提供成本追蹤，及對此等資源之消耗之帳務處理及發票開立。在一個實例中，此等資源可包括應用軟體授權。安全性為雲端消費者及任務提供身分驗證，以及對資料及其他資源之保護。使用者入口網站83為消費者及系統管理者提供對雲端計算環境之存取。服務等級管理84提供雲端計算資源分配及管理使得滿足所需服務等級。服務等級協定(SLA)規劃及實現85提供雲端計算資源之預先配置及採購，針對雲端計算資源之未來要求係根據SLA來預期。

工作負載層90提供功能性之實例，可針對該功能利用雲端計算環境。可自此層提供之工作負載及功能的實例包括：地圖繪製及導航91；軟體開發及生命週期管理92；虛擬教室教育遞送93；資料分析處理94；異動處理95；及決策樹處理96。

本發明可為在任何可能之技術細節整合層級處的系統、方法及/或電腦程式產品。電腦程式產品可包括(多個)電腦可讀儲存媒體，其上具有電腦可讀程式指令以使得處理器執行本發明之態樣。

電腦可讀儲存媒體可為有形裝置，其可保持及儲存指令以供指令執行裝置使用。電腦可讀儲存媒體可為例如但不限於電子儲存裝置、磁性儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置或前述各者之任何合適組合。電腦可讀儲存媒體之更特定實例之非詳盡清單包括以下各者：攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可程式化唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、攜帶型緊密光碟唯讀記憶體(CD-ROM)、數位化通用光碟(DVD)、記憶棒、軟性磁碟、機械編碼裝置(諸如打孔卡片或其上記錄有指令之凹槽中之凸起結構)及前述各者之任何合適組合。如本文中所使用，不將電腦可讀儲存媒體本身理解為暫時信號，諸如無線電波或其他自由傳播之電磁波、經由波導或其他傳輸媒體傳播之電磁波(例如，經由光纖電纜傳遞之光脈衝)，或經由導線傳輸之電信號。

本文中所描述之電腦可讀程式指令可自電腦可讀儲存媒體下載至各別計算/處理裝置或經由網路(例如，網際網路、區域網路、廣域網路及/或無線網路)下載至外部電腦或外部儲存裝置。網路可包含銅傳輸纜線、光傳輸光纖、無線傳輸、路由器、防火牆、交換器、閘道器電腦及/或邊緣伺服器。各計算/處理裝置中之網路配接卡或網路介面自網路接收電腦可讀程式指令且轉遞電腦可讀程式指令以用於儲存於各別計算/處理裝置內之電腦可讀儲存媒體中。

用於進行本發明之操作的電腦可讀程式指令可為以一或多種程序設計語言之任何組合撰寫之組譯器指令、指令集架構(ISA)指令、機器指令、機器相關指令、微碼、韌體指令、狀態設定資料、用於積體電路之組態資料，或原始程式碼或目標碼，該一或多種程式設計語言包括諸如Smalltalk、C++等等之物件導向式程式設計語言，及程序程式設計語言，諸如「C」程式設計語言或類似程式設計語言。電腦可讀程式指令可完全在使用者電腦上執行、部分地在使用者電腦上執行、作為獨立套裝軟體執行、部分地在使用者電腦上執行且部分地在遠端電腦上執行或完全地在遠端電腦或伺服器上執行。在後一種情境中，遠端電腦可經由任何類型之網路(包括區域網路(LAN)或廣域網路(WAN))連接至使用者電腦，或可連接至外部電腦(例如，經由使用網際網路服務提供者之網際網路)。在一些實施例中，電子電路系統(包括例如可程式化邏輯電路系統、場可程式化閘陣列(FPGA)或可程式化邏輯陣列(PLA))可藉由利用電腦可讀程式指令之狀態資訊來個人化電子電路系統而執行電腦可讀程式指令，以便執行本發明之態樣。

本文參考根據本發明之實施例之方法、設備(系統)及電腦程式產品之流程圖說明及/或方塊圖描述本發明之態樣。應理解，可藉由電腦可讀程式指令實施流程圖說明及/或方塊圖中之各區塊以及流程圖說明及/或方塊圖中之區塊之組合。

可將此等電腦可讀程式指令提供至電腦或其他可程式資料處理設備之處理器以製造一機器，以使得經由該電腦或其他可程式化資料處理設備之處理器執行之指令建立用於實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之手段。亦可將此等電腦可讀程式指令儲存於電腦可讀儲存媒體中，該等指令可指導電腦、可程式化資料處理設備及/或其他裝置以特定方式起作用，使得其中儲存有指令之電腦可讀儲存媒體包含製品，該製品包括實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之態樣的指令。

電腦可讀程式指令亦可載入至電腦、其他可程式化資料處理設備或其他裝置上，以使一系列操作步驟在該電腦、其他可程式化設備或其他裝置上執行以製造電腦實施之程序，使得在該電腦、其他可程式化設備或其他裝置上執行之指令實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作。

諸圖中之流程圖及方塊圖說明根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施之架構、功能性及操作。就此而言，流程圖或方塊圖中之每一區塊可表示指令之模組、區段或部分，其包含用於實施經指定邏輯功能之一或多個可執行指令。在一些替代實施中，區塊中所指出的功能可不按圖式中所指出的次序發生。舉例而言，取決於所涉及之功能性，連續展示之兩個區塊事實上可實現為一個步驟，同時、實質上同時、以部分或完全在時間上重疊之方式執行，或該等區塊有時可以反向次序執行。亦將注意，可藉由執行指定功能或動作或執行專用硬體及電腦指令之組合的基於專用硬體之系統實施方塊圖及/或流程圖說明之各區塊，及方塊圖及/或流程圖說明中之區塊之組合。

本文中所使用之術語僅為了描述特定實施例，且並不意欲限制本發明。如本文中所使用，除非上下文另有清楚地指示，否則單數形式「一(a、an)」以及「該」意欲亦包括複數形式。如本文中所使用，除非上下文另外明確或清楚地指示，否則術語「或」為包括性操作符，且可意謂「及/或」。應進一步理解，當在本文中使用時，術語「包含(comprise、comprises、comprising)」、「包括(include、includes、including)」及/或「具有」可指定所陳述之特徵、整體、步驟、操作、元件及/或組件之存在，但並不排除一或多個其他特徵、整體、步驟、操作、元件、組件及/或其群組之存在或添加。如本文所使用，片語「在一實施例中」未必指相同實施例，但其可能指相同實施例。如本文所使用，片語「在一個實施例中」未必指相同實施例，但其可能指相同實施例。如本文所使用，片語「在另一實施例中」未必指不同實施例，但其可能指不同實施例。另外，實施例及/或實施例之組件可彼此自由組合，除非其相互排斥。

以下申請專利範圍中之所有構件或步驟加功能元件(若存在)之對應結構、材料、動作及等效物意欲包括用於結合如特定主張之其他所主張元件來執行功能的任何結構、材料或動作。已出於說明及描述目的呈現本發明之描述，但該描述並不意欲為詳盡的或將本發明限於所揭示之形式。在不背離本發明之範圍及精神的情況下，一般技術者將容易瞭解許多修改及變化。選擇並描述實施例以便最佳地解釋本發明之原理及實務應用，且使其他一般技術者能夠關於具有適合於所預期之特定用途的各種修改之各種實施例來理解本發明。

1:葉節點 2:葉節點 3:葉節點 10:計算節點 12:處理器/處理單元 14:匯流排 16:系統記憶體 18:儲存裝置 20:輸入/輸出(I/O)介面 22:網路適配器 24:網路 26:外部裝置 28:顯示器 30:模組 50:雲端計算環境 54A:個人數位助理(PDA)或蜂巢式電話 54B:桌上型電腦 54C:膝上型電腦 54N:汽車電腦系統 60:硬體與軟體層 61:大型電腦 62:基於RISC (精簡指令集電腦)架構之伺服器 63:伺服器 64:刀鋒伺服器 65:儲存裝置 66:網路及網路連接組件 67:網路應用伺服器軟體 68:資料庫軟體 70:虛擬化層 71:虛擬伺服器 72:虛擬儲存器 73:虛擬網路 74:虛擬應用及作業系統 75:虛擬用戶端 80:管理層 81:資源佈建 82:計量及定價 83:使用者入口網站 84:服務等級管理 85:服務等級協定(SLA)規劃及實現 90:工作負載層 91:地圖繪製及導航 92:軟體開發及生命週期管理 93:虛擬教室教育遞送 94:資料分析處理 95:異動處理 96:決策樹處理 302:路由器 304:路由器 306:資料 308:變換器 310:變換器 312:變換器 314:變換器 316:變換器 320:解算器 322:解算器 324:解算器 402:步驟 404:步驟 406:步驟 408:步驟 502:硬體處理器 504:記憶體裝置 506:儲存裝置 508:網路介面 510:輸入/輸出介面 A:根節點 B:分支節點 r0:節點 r1:節點 s1:節點 s2:節點 s3:節點 t0:節點 t1:節點 t2:節點 t3:節點 t4:節點

圖1展示一實施例中之決策樹學習。

圖2為說明一實施例中之維度減少及決策樹訓練或學習的另一圖式。

圖3為說明一實施例中之一般決策樹框架的另一圖式。

圖4為說明一實施例中之建構與學習決策樹之方法的流程圖。

圖5為展示一實施例中之可在機器學習中建構與訓練決策樹之系統的組件的圖式。

圖6說明根據一個實施例之可實施一系統的實例電腦或處理系統的示意圖。

圖7說明一實施例中之雲端計算環境。

圖8說明本發明之一實施例之由雲端計算環境提供的功能抽象層的集合。

402:步驟

404:步驟

406:步驟

408:步驟

Claims

一種在機器學習中建構一決策樹之電腦實施方法，其包含：接收一訓練集；藉由建構一根節點且用該訓練集訓練一根解算器來初始化該決策樹；藉由反覆地分裂該決策樹之節點來使該決策樹生長，其中在該決策樹之一節點處，對在該節點處所接收的該訓練集之資料的特徵執行維度減少，且基於一路由函數將具有經減少維度之該資料分裂，以路由至該決策樹之另一節點，其中該維度減少及該分裂在該節點處一起執行，其中該決策樹包括路由節點及葉節點；及藉由一最佳化演算法，針對該等路由節點處之路由函數、該等葉節點處之解算器及該決策樹的每一節點處之維度減少同時執行訓練。
如請求項1之電腦實施方法，其進一步包括：接收用於該決策樹之一預定拓樸；且其中反覆地分裂該等節點，直至獲得該預定拓樸為止。
如請求項1之電腦實施方法，其中該決策樹之該等葉節點包括傳回一預測目標值之該等解算器。
如請求項1之電腦實施方法，其中該決策樹之該等葉節點包括傳回一預測目標值的一回歸模型。
如請求項1之電腦實施方法，其進一步包括使用一正則項最佳化該決策樹。
如請求項5之電腦實施方法，其中該正則項包括一正交性正則項。
如請求項5之電腦實施方法，其中該正則項包括一多樣化正則項。
如請求項1之電腦實施方法，其中該正則項包括一單一路由正則項。
如請求項1之電腦實施方法，其中訓練該決策樹以解算一回歸問題。
如請求項1之電腦實施方法，其中訓練該決策樹以解算一分類問題。
如請求項1之電腦實施方法，其中該決策樹之該等節點至少包括路由節點及葉節點，其中經由在該等路由節點與葉節點中之各者處的最佳化來執行該維度減少。
如請求項1之電腦實施方法，其中該訓練集包括不平衡資料集，且一模型準確度表現量測包括非線性度量。
一種電腦程式產品，其包含一電腦可讀儲存媒體，該電腦可讀儲存媒體具有由其體現之程式指令，該等程式指令可由一裝置讀取以使得該裝置：接收一訓練集；藉由建構一根節點且用該訓練集訓練一根解算器來初始化該決策樹；藉由反覆地分裂該決策樹之節點來使該決策樹生長，其中在該決策樹之一節點處，對在該節點處所接收的該訓練集之資料的特徵執行維度減少，且基於最佳化一路由函數將具有經減少維度之該資料分裂，以路由至該決策樹之另一節點，其中該維度減少及該分裂在該節點處一起執行，其中該決策樹包括路由節點及葉節點；以及藉由一最佳化演算法，針對該等路由節點處之該路由函數、該等葉節點處之解算器及該決策樹的每一節點處之維度減少同時執行訓練。
如請求項13之電腦程式產品，其中反覆地分裂該等節點，直至獲得一預定拓樸為止。
如請求項13之電腦程式產品，其中該決策樹之該等葉節點包括傳回一預測目標值的該等解算器。
如請求項13之電腦程式產品，其中該決策樹之該等葉節點包括傳回一預測目標值的一回歸模型。
如請求項13之電腦程式產品，其中進一步使得該裝置使用一正則項來最佳化該決策樹。
如請求項17之電腦程式產品，其中該正則項包括一正交性正則項、一多樣化正則項與一單一路由正則項中之至少一者。
一種系統，其包含：一處理器；及與該處理器耦接之一記憶體裝置，該處理器經組態以至少：接收一訓練集；藉由建構一根節點且用該訓練集訓練一根解算器來初始化該決策樹；藉由反覆地分裂該決策樹之節點來使該決策樹生長，其中在該決策樹之一節點處，對在該節點處所接收的該訓練集之資料的特徵執行維度減少，且基於最佳化一路由函數將具有經減少維度之該資料分裂，以路由至該決策樹之另一節點，其中該維度減少及該分裂在該節點處一起執行，其中該決策樹包括路由節點及葉節點；以及藉由一最佳化演算法，針對該等路由節點處之路由函數、該等葉節點處之解算器及該決策樹的每一節點處之維度減少同時執行訓練。
如請求項19之系統，其中該決策樹之該等葉節點包括傳回一預測目標值的一回歸模型。