TW201737058A

TW201737058A - 一種基於隨機森林的模型訓練方法和裝置

Info

Publication number: TW201737058A
Application number: TW106105770A
Authority: TW
Inventors: xiao-yan Jiang; Shao-Meng Wang; Xu Yang
Original assignee: Alibaba Group Services Ltd
Priority date: 2016-03-31
Filing date: 2017-02-21
Publication date: 2017-10-16
Also published as: US20190034834A1; US11276013B2; CN107292186A; WO2017167097A1; CN107292186B

Abstract

本發明實施提供了一種基於隨機森林的模型訓練方法和裝置，該方法包括：將工作節點劃分成一個或多個分組；由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。本發明實施例不需要掃描一次完整的樣本資料，大大降低資料的讀取量，減少了耗費的時間，進而減少模型的迭代更新時間，提高訓練效率。

Description

一種基於隨機森林的模型訓練方法和裝置

本發明涉及電腦處理的技術領域，特別是涉及一種基於隨機森林的模型訓練方法和一種基本隨機森林的模型訓練裝置。

隨著網際網路的快速發展，人們生活的方方面面都與網際網路產生聯繫，在人們使用網際網路的相關功能時，產生了海量的資料。

目前，經常使用隨機森林(Random forest)算法進行模型訓練，對這些海量的資料進行挖掘，從而進行分類，推薦等操作。

隨機森林是一個樹型分類器{h(x，k)，k=1，...}的集合，元分類器h(x，k)一般是用CART(Classification and Regression Tree，分類回歸樹)算法構建的沒有剪枝的決策樹，其中，x是輸入向量，k是獨立同分佈的隨機向量，決定了單顆樹的生長過程，速記森林的輸出通常採用多數投票法得到。

由於樣本資料的規模達到幾億甚至幾十億，單機版的隨機森林已經不能處理海量規模的，通常使用並行版的隨機森林。

假設樣本資料的全集為D，要訓練100棵決策樹，並行實現方案一般如下：

1，樣本隨機採樣；

同時啟動100個工作節點worker，每個worker從D中隨機採樣出一個樣本資料的子集S，S的大小一般遠遠小於D，單台電腦可處理。

2，單個worker基於S，應用CART算法訓練決策樹。

在訓練決策樹時，對於非連續特徵，一般是計算該特徵的基尼係數Gini，基於最佳基尼係數Gini進行分裂。

在這種方案中，由於每個工人都是從樣本資料的全集中採樣子集，因此，需要掃面一次樣本資料的全集，資料讀取量大，耗用較多的時間進行讀取，使得模型的迭代更新時間較長，訓練效率較低。

在計算基尼係數中，通常需要使用窮舉法，即假設有n個特徵，且CART樹是二分類的，則所有分支的組合有(2n-1-1)種，需要計算-1)次基尼係數Gini，複雜度為O(2n-1-1)，計算的複雜度為指數級別，在訓練決策樹時耗費大量的時間，同樣使得使得模型的迭代更新時間較長，訓練效率較低。

鑑於上述問題，提出了本發明實施例以提供一種克服上述問題或者至少部分地解決上述問題的一種基於隨機森林的模型訓練方法和相應的一種基本隨機森林的模型訓練裝置。

為了解決上述問題，本發明實施例公開了一種基於隨機森林的模型訓練方法，包括：將工作節點劃分成一個或多個分組；由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。

較佳地，每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點；所述由每個分組中的工作節點從預置的樣本資料中進行隨機採樣的，獲得目標樣本資料步驟包括：在每個分組中，由每個第一工作節點從預置的樣本資料中讀取部分樣本資料；由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中，以分派至第二工作節點的樣本資料作為目標樣本資料。

較佳地，所述由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象的步驟包括：在每個分組中，由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。

較佳地，所述由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象的步驟包括：當所述目標樣本資料的屬性資訊的值為枚舉值時，計算所述屬性資訊的值的權重；按照所述權重對所述屬性資訊的值進行排序；採用排序後的屬性資訊的值計算按照所述基尼係數針對決策樹對象的樹節點進行分裂處理。

較佳地，所述計算所述屬性資訊的值的權重的步驟包括：當所述屬性資訊的分類列為二分類時，計算所述分類列的頻率；對所述頻率進行歸一化，獲得權重。

較佳地，所述計算所述屬性資訊的值的權重的步驟包括：當所述屬性資訊的分類列表為多分類時，計算所述分類列的權重概率矩陣，其中，所述權重概率矩陣的橫坐標為所述屬性資訊的值為所述分類列的值；對所述權重概率矩陣進行主成分分析，獲得最大特徵值對應的特徵向量；將所述權重概率矩陣乘以所述特徵向量，獲得權重。

較佳地，所述採用排序後的屬性資訊的值計算基本係數的步驟包括：按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集；依次採用所述兩個屬性子集計算基尼係數。

本發明實施例還公開一種基本隨機森林的模型訓練裝置，包括：分組劃分模組，用於將工作節點劃分成一個或多個分組；隨機採樣模組，用於由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；決策樹訓練模組，用於由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。

較佳地，每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點；所述隨機採樣模組包括：部分資料讀取子模組，用於在每個分組中，由每個第一工作節點從預置的樣本資料中讀取部分樣本資料；資料隨機分發子模組，用於由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中，以分派至第二工作節點的樣本資料作為目標樣本資料。

較佳地，所述決策樹訓練模組包括：節點訓練子模組，用於在每個分組中，由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。

較佳地，所述決策樹訓練模組包括：權重計算子模組，用於在所述目標樣本資料的屬性資訊的值為枚舉值時，計算所述屬性資訊的值的權重；排序子模組，用於按照所述權重對所有屬性資訊的值進行排序；基尼係數計算子模組，用於採用排序後的屬性資訊的值計算基尼係數；分裂子模組，用於按照所述基本係數針對決策樹對象的樹節點進行分裂處理。

較佳地，所述權重計算子模組包括：頻率計算單元，用於在所述屬性資訊的分類列為二分類時，計算所述分類列的頻率；歸一化單元，用於對所述頻率進行歸一化，獲得權重。

較佳地，所述權重計算子模組包括：權重概率矩陣計算單元，用於在所述屬性資訊的分類列中為多分類時，計算所述分類列的權重概率矩陣，其中，所述權重概率矩陣的橫坐標為所述屬性資訊的值，縱坐標為所述分類列的值；主成分分析單元，用於對所述權重概率矩陣進行主成分分析，獲得最大特徵值對應的特徵向量；權重獲得單元，用於將所述權重概率矩陣乘以所述特徵向量，獲得權重。

較佳地，所述基本係數計算子模組包括：子集劃分單元，用於按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集；子集計算單元，用於依次採用所述兩個屬性子集計算基尼係數。

本發明實施例包括以下優點：本發明實施例將工作節點劃分成一個或多個分組，由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料，進而訓練決策樹對象，因此，每個分組中的工作節點只是讀取部分的樣本資料，而不需要掃描一次完整的樣本資料，大大降低資料的讀取量，減少了耗費的時間，進而減少模型的迭代更新時間，提高訓練效率。

本發明實施對對此枚舉值的屬性，通過重要性排序的方式計算分裂點，無需進行窮舉，大大減少了分裂點的計算量，假設屬性有n個值，通過重要性排序的方式計算(2n-1-1)，降低到O(n)，減少了訓練時間的耗費，進而減少模型的迭代更新時間，提高訓練效率。

101、102、103‧‧‧步驟

S11、S12、S13、S14‧‧‧子步驟

401‧‧‧分組劃分模組

402‧‧‧隨機採樣模組

403‧‧‧決策樹訓練模組

圖1是本發明的一種基於隨機森林的模型訓練方法實施的的步驟流程圖；圖2是本發明實施的一種分組示例圖；圖3是本發明實施的一種在Hadoop的分組中進行模式訓練的流程示例圖；圖4是本發明的一種基於隨機森林的模型訓練裝置實施例的結構方塊圖。

為使本發明的上述目的，特徵和優點能夠更加明顯易懂，下面結合附圖和具體實施方式對本發明作進一步詳細的說明。

參照圖1，示出了本發明的一種基於隨機森林的模型訓練方法實施例的步驟流程圖，具體可以包括如下步驟：步驟101，將工作節點劃分成一個或多個分組；在本發明實施中，工作節點可以為訓練模型的計算節點，可以部署在單台電腦中，也可以應用在電腦集群中，如分佈式系統，本發明實施例對此不加限制。

對於單台電腦而言，工作節點(worker)可以是CPU(Central Processing Unit，中央處理器)的內核(Core)，對於電腦集群，工作節點可以為單台電腦。

在本發明實施中，可以按照樣本資料量，決策樹的數量等因素，如圖2所示，將工作節點劃分為一個或多個分組(虛線方塊部分)，每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點。

其中，每個分組負責處理一份完整的樣本資料，組內第一工作節點隨機分解樣本資料至第二工作節點，第二工作節點採用分發的樣本資料訓練決策樹。

一般而言，考慮了系統的承受能力和運算速度，分組的數目與決策樹對象的數量成正比，例如，分組的數目=決策樹的數量/100。

單個分組內，第一工作節點的數量與樣本資料的資料量成正比，一個第二工作節點訓練一棵決策樹。

為使本領域技術人員更好地理解本發明實施例，在本發明實施例中，將Hadoop作為電腦集群的一種實施例進行說明。

Hadoop主要包括兩部分，一個分佈式文件系統(Hadoop Distributed File System，HDFS)，另一個是分佈式計算框架，即MapReduce。

HDFS是一個高度容錯性的系統，能提供高吞吐量的資料訪問，適合那些有著超大資料集(大資料集)的應用程序。

MapReduce是一套從海源源資料提取分析元素最後返回結果集的編程模型，其基本原理可以是大資料分析分析，最後再提取出來的資料匯總分析。

在Hadoop中，用於執行MapReduce的機器角色有兩個：一個是JobTracker，另一個是TaskTracker.JobTracker可以用於調度工作，TaskTracker可以用於執行工作。

進一步而言，在Hadoop中TaskTracker可以指定所分佈式系統的處理節點，該處理節點可以包括一個或多個映射(Map)節點和一個或多個化簡(Reduce)節點。

在分佈式計算中，MapReduce負責處理了並行編程中分佈式儲存，工作調度，負載均衡，容錯均衡，容錯處理以及網絡通信等複雜問題，把處理過程高度抽象為兩個函數：映射函數)和規約函數(reduce function)，映射函數可以把任務分解成多個任務，減少函數可以把分解後的多任務處理的結果匯總起來。

在Hadoop中，每個MapReduce的任務可以被初始化為一個Job，每個Job也可以分為兩種階段：map phase和reduce階段。這兩個階段分別用兩個函數表示，即map函數和reduce函數中。

map函數可以接收一個<key，value>形式的輸入(Input)，然後同樣產生一個<key，value>形式的中間輸出(Output)，Hadoop函數可以接收一個如<(Input)，然後對這個值集合進行處理，每個減少函數產生0或1個輸出(Output)，減少函數的輸出也是<key，value>形式的。

對於分組而言，第一工作節點可以為地圖節點，第二工作節點可以為Raduce節點。

步驟102，由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；在具體實現中，在每個分組中，讀取預置的樣本資料，即樣本本資料的全集，可由每個第一工作節點從預置的樣本資料中讀取部分樣本資料子集。

由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中，以分派至第二工作節點的樣本資料作為目標樣本資料。

對於每條樣本資料，第一工作節點均讀取一次，但是否會分發到第二工作節點中是不確定的，即隨機分發(採樣)。

例如，如圖2所示，某一條樣本資料由第一工作節點A1讀取，針對第二工作節點B1，B2，B3，B4，B5，分別產生一隨機值，如果該隨機值大於0.5，則分發到該第二工作節點中，反之，則不分發到該第二工作節點，對於該條樣樣資料，分發隨機了5。

同樣，對於第一工作節點A2，A3讀取的樣本資料，也可以隨機分派到第二工作節點B1，B2，B3，B4，B5。

如圖3所示，在Hadoop中，一個分組的Map節點和Raduce節點處理一份完整的樣本資料，每個Map節點讀取部分樣本資料，隨機分發至Raduce節點中。

即在地圖節點中，可以定義地圖函數為隨機分發，以將地圖節點的樣本資料分發到縮減節點中。

映射節點從輸入的樣本資料中抽取出鍵值對，每一個鍵值對都作為參數傳遞給映射函數，映射函數產生的中間鍵值對被緩存在內存中。

MapReduce框架處理後，最後分發到Reduce節點中的reduce函數。

步驟103，由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。

每條樣本資料，通常包括一個樣本對象，一個或多個屬性資訊，一個分類標籤。

對於隨機採樣之後的目標樣本資料為一個資料集合，一般為二維數組的形式，即包括一組樣本對象，一組或多組屬性資訊，一組分類列。

一個目標樣本資料的示例如下表所示：

其中，屬性資訊包括體溫，表面覆蓋，胎生，產蛋，能飛，水生，有腿，冬眠。

決策樹(對象)是一種由節點和有向邊構成的樹狀結構，訓練時，在每一個非葉子節點針對某一屬性進行分類。

在具體實現中，在每個分組中，由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。

如圖3所示，在Hadoop中，若地圖節點讀取的部分樣本資料隨機分發至Raduce節點中，則Raduce節點可以採用該分立的樣本資料(即目標樣本資料)訓練決策樹。

在訓練決策樹時，在每一個非葉子節點對對某一屬性進行分裂，迭代這一過程，直到每個葉子節點上的樣本均處理單一類別或者每個屬性都被選擇過為止。葉子節點代表分類的結果，從根節點到葉子節點的完整路徑代表一種決策過程，決策樹的訓練本質是節點如何進行分裂。

訓練得到的決策樹一般是二叉樹，少數情況下也存在非二叉樹的情況，具體的訓練過程如下：(1)，構造決策樹的根節點，為全體目標訓練樣本資料的集合T；(2)，通過計算資訊增益或基本係數選擇出T中區分度最高的屬性，分割形成左子節點和右子節點；(3)，在剩餘的屬性空間中，針對每一個子節點的樣本資料，重複步驟2的過程，若滿足以下條件之一則標記為葉子節點，此節點分裂結束：a，該節點上所有樣本資料都屬於同一個分類；b，沒有剩餘的屬性可用以分裂；c，當前資料集的樣本資料個數小於某個給定的值；d，決策樹的深度大於設定的值。

本發明實施例將工作節點劃分成一個或多個分組，由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料，進而訓練決策樹對象，因此，每個分組中的工作節點只是讀取部分的樣本資料，而不需要掃描一次完整的樣本資料，大大降低資料的讀取量，減少了耗費的時間，進而減少模型的迭代更新時間，提高訓練效率。

在本發明的一個實施例中，步驟103可以包括如下子步驟：子步驟S11，當所述目標樣本資料的屬性資訊的值為枚舉值時，計算所述屬性資訊的值的權重；在實現應用中，屬性資訊的值一般分為連續值和枚舉值，枚舉值又稱離散值，即不連續的值。

例如，表1中體溫的值為冷血，恆溫，屬於枚舉值。

在本發明實施中，針對枚舉值的屬性資訊，利用其重要性(權重)排序來計算最佳分裂點，來提提加速比。

在一個示例中，當屬性資訊的分類為二分類(即具有兩個分類)時，計算該屬性資訊的值對於分類列的頻率，對頻率進行歸一化，獲得權重。

在另一個示例中，當屬性資訊的分類列為多分類(即具有三個或三個以上的分類)時，計算屬性資訊的值針對分類列的權重概率矩陣，其中，權重概率矩陣的橫坐標為屬性資訊的值，縱坐標為分類列的值。

對所述權重概率矩陣進行主成分分析(Principal Component Analysis，PCA)，獲得最大特徵值對應的特徵向量，將權重概率矩陣乘以特徵向量，獲得權重。

子步驟S12，按照所述權重對所述屬性資訊的值進行排序；在具體實現中，可以按照權重對屬性資訊的值進行順序排序，也可以倒序排序，本發明實施對對此不加限制。

子步驟S13，採用排序後的屬性資訊的值計算基尼係數；基尼係數Gini，可以用於決策樹的節點的分裂標準，樣本總體內含的類別越雜亂，Gini指數就越大。

在實際應用中，可以按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集。

假設按權重排序得到的有序屬性資訊的值序列為f=(a1，a2，a3......an)，那麼，可以劃分為左子樹(屬性子集)為a1~ai，右子樹子集)為ai+1~an，其中，i=1,2，...，n-1。

依次採用兩個屬性子集計算基尼係數。

假設有k個分類，樣本資料屬於第i類的概率為pi，則基尼指數Gini定義為：

如果資料集合D的劃分成D1和D2兩部分，則在該條件下，集合D的基尼增益定義為：

子步驟S14，按照所述基本係數針對決策樹對象的樹節點進行分裂處理。

基尼指數Gini表示資料集合的不確定性，基尼指數Gini的值越大，樣本屬於某個分類的不確定性也就越大。因此，最好的選擇特徵劃分就是使得資料集合的基尼指數Gini最小的劃分。

需要說明的是，對於方法實施，為了簡單描述，故將其表示為一系列的動作組合，但是本領域技術人員應該知悉，本發明實施例並受受描述的動作順序的限制，因為依據本發明實施，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於較佳實施例，所涉及的動作並不一定是本發明實施例

參照圖4，示出了本發明的一種基於隨機森林的模型訓練裝置實施例的結構方塊圖，具體可以包括如下模組：分組劃分模組401，用於將工作節點劃分成一個或多個分組；隨機採樣模組402，用於由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；決策樹訓練模組403，用於由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。

在本發明的一個實施例中，每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點；所述隨機採樣模組401可以包括如下子模組：部分資料讀取子模組，用於在每個分組中，由每個第一工作節點從預置的樣本資料中讀取部分樣本資料；資料隨機分發子模組，用於由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中，以分派至第二工作節點的樣本資料作為目標樣本資料。

在本發明的一個實施例中，所述決策樹訓練模組403可以包括如下子模組：節點訓練子模組，用於在每個分組中，由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。

在本發明的一個實施例中，所述決策樹訓練模組403可以包括如下子模組：權重計算子模組，用於在所述目標樣本資料的屬性資訊的值為枚舉值時，計算所述屬性資訊的值的權重；排序子模組，用於按照所述權重對所有屬性資訊的值進行排序；基尼係數計算子模組，用於採用排序後的屬性資訊的值計算基尼係數；分裂子模組，用於按照所述基本係數針對決策樹對象的樹節點進行分裂處理。

在本發明的一個實施例中，所述權重計算子模組可以包括如下單元：頻率計算單元，用於在所述屬性資訊的分類列為二分類時，計算所述分類列的頻率；歸一化單元，用於對所述頻率進行歸一化，獲得權重。

在本發明的一個實施例中，所述權重計算子模組可以包括如下單元：權重概率矩陣計算單元，用於在所述屬性資訊的分類列中為多分類時，計算所述分類列的權重概率矩陣，其中，所述權重概率矩陣的橫坐標為所述屬性資訊的值，縱坐標為所述分類列的值；主成分分析單元，用於對所述權重概率矩陣進行主成分分析，獲得最大特徵值對應的特徵向量；權重獲得單元，用於將所述權重概率矩陣乘以所述特徵向量，獲得權重。

在本發明的一個實施例中，所述基本係數計算子模組可以包括如下單元：子集劃分單元，用於按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集；子集計算單元，用於依次採用所述兩個屬性子集計算基尼係數。

對於裝置實施例而言，由其與方法實施例基本相似，所描述的比較簡單，相關之處參照方法實施例的部分說明即可。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此，本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

在一個典型的配置中，所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀介質中的非永久性記憶體，隨機存取記憶體(RAM)和/或非揮發性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質，可用於儲存可以被計算設備訪問的資訊。按照本文中的界定，電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media)，如調製的資料訊號和載波。

本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器，使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上，使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

儘管已描述了本發明實施例的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，例如第一和第二等種類的關係術語僅僅用於將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”，“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程，方法，物品或者終端設備不僅包括那些要素，而且還包括沒有明確的列出的其他要素，或者是還包括為這種過程，方法，物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並排除在包括所述要素的過程，方法，物品或者終端設備中，還存在另一個相同要素。

以上對對申請所提供的一種基於隨機森林的模型方法和一種基於隨機森林的模型裝置，進行詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的一般技術人員，依據本發明的思想，在具體實施方式及應用範圍上均均有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

Claims

一種基於隨機森林的模型訓練方法，其包括：將工作節點劃分成一個或多個分組；由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象。
根據申請專利範圍第1項所述的方法，其中，每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點；所述由每個分組中的工作節點從預置的樣本資料中進行隨機採樣的，獲得目標樣本資料步驟包括：在每個分組中，由每個第一工作節點從預置的樣本資料中讀取部分樣本資料；由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中，以分派至第二工作節點的樣本資料作為目標樣本資料。
根據申請專利範圍第2項所述的方法，其中，所述由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象的步驟包括：在每個分組中，由每個第二工作節點採用該目標樣本資料訓練一個決策樹對象。
根據申請專利範圍第1或2或3項所述的方法，其中，所述由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象的步驟包括：當該目標樣本資料的屬性資訊的值為枚舉值時，計算該屬性資訊的值的權重；按照該權重對該屬性資訊的值進行排序；採用排序後的屬性資訊的值計算按照該基尼係數針對決策樹對象的樹節點進行分裂處理。
根據申請專利範圍第4項所述的方法，其中，所述計算該屬性資訊的值的權重的步驟包括：當該屬性資訊的分類列為二分類時，計算該分類列的頻率；對該頻率進行歸一化，獲得權重。
根據申請專利範圍第4項所述的方法，其中，所述計算該屬性資訊的值的權重的步驟包括：當該屬性資訊的分類列表為多分類時，計算該分類列的權重概率矩陣，其中，該權重概率矩陣的橫坐標為該屬性資訊的值為該分類列的值；對該權重概率矩陣進行主成分分析，獲得最大特徵值對應的特徵向量；將該權重概率矩陣乘以該特徵向量，獲得權重。
根據申請專利範圍第4項所述的方法，其中，所述採用排序後的屬性資訊的值計算包括：按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集；依次採用該兩個屬性子集計算基尼係數。
一種基於隨機森林的模型訓練裝置，其包括：分組劃分模組，用於將工作節點劃分成一個或多個分組；隨機採樣模組，用於由每個分組中的工作節點從預置的樣本資料中進行隨機採樣，獲得目標樣本資料；決策樹訓練模組，用於由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象。
根據申請專利範圍第8項所述的裝置，其特徵在在，每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點；該隨機採樣模組包括：部分資料讀取子模組，用於在每個分組中，由每個第一工作節點從預置的樣本資料中讀取部分樣本資料；資料隨機分發子模組，用於由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中，以分派至第二工作節點的樣本資料作為目標樣本資料。
根據申請專利範圍第9項所述的裝置，其特徵在在，該決策樹訓練模組包括：節點訓練子模組，用於在每個分組中，由每個第二工作節點採用該目標樣本資料訓練一個決策樹對象。
根據申請專利範圍第8或9或10項所述的裝置，其特徵在在，該決策樹訓練模組包括：權重計算子模組，用於在該目標樣本資料的屬性資訊的值為枚舉值時，計算該屬性資訊的值的權重；排序子模組，用於按照該權重對所有屬性資訊的值進行排序；基尼係數計算子模組，用於採用排序後的屬性資訊的值計算基尼係數；分裂子模組，用於按照該基本係數針對決策樹對象的樹節點進行分裂處理。
根據申請專利範圍第11項所述的裝置，其中，該權重計算子模組包括：頻率計算單元，用於在該屬性資訊的分類列為二分類時，計算該分類列的頻率；歸一化單元，用於對該頻率進行歸一化，獲得權重。
根據申請專利範圍第11項所述的裝置，其中，該權重計算子模組包括：權重概率矩陣計算單元，用於在該屬性資訊的分類列中為多分類時，計算該分類列的權重概率矩陣，其中，該權重概率矩陣的橫坐標為該屬性資訊的值，縱坐標為該分類列的值；主成分分析單元，用於對該權重概率矩陣進行主成分分析，獲得最大特徵值對應的特徵向量；權重獲得單元，用於將該權重概率矩陣乘以該特徵向量，獲得權重。
根據申請專利範圍第11項所述的裝置，其中，該基本係數計算子模組包括：子集劃分單元，用於按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集；子集計算單元，用於依次採用該兩個屬性子集計算基尼係數。