TW201737058A - 一種基於隨機森林的模型訓練方法和裝置 - Google Patents

一種基於隨機森林的模型訓練方法和裝置 Download PDF

Info

Publication number
TW201737058A
TW201737058A TW106105770A TW106105770A TW201737058A TW 201737058 A TW201737058 A TW 201737058A TW 106105770 A TW106105770 A TW 106105770A TW 106105770 A TW106105770 A TW 106105770A TW 201737058 A TW201737058 A TW 201737058A
Authority
TW
Taiwan
Prior art keywords
sample data
weight
value
attribute information
node
Prior art date
Application number
TW106105770A
Other languages
English (en)
Inventor
xiao-yan Jiang
Shao-Meng Wang
Xu Yang
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201737058A publication Critical patent/TW201737058A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明實施提供了一種基於隨機森林的模型訓練方法和裝置,該方法包括:將工作節點劃分成一個或多個分組;由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。本發明實施例不需要掃描一次完整的樣本資料,大大降低資料的讀取量,減少了耗費的時間,進而減少模型的迭代更新時間,提高訓練效率。

Description

一種基於隨機森林的模型訓練方法和裝置
本發明涉及電腦處理的技術領域,特別是涉及一種基於隨機森林的模型訓練方法和一種基本隨機森林的模型訓練裝置。
隨著網際網路的快速發展,人們生活的方方面面都與網際網路產生聯繫,在人們使用網際網路的相關功能時,產生了海量的資料。
目前,經常使用隨機森林(Random forest)算法進行模型訓練,對這些海量的資料進行挖掘,從而進行分類,推薦等操作。
隨機森林是一個樹型分類器{h(x,k),k=1,...}的集合,元分類器h(x,k)一般是用CART(Classification and Regression Tree,分類回歸樹)算法構建的沒有剪枝的決策樹,其中,x是輸入向量,k是獨立同分佈的隨機向量,決定了單顆樹的生長過程,速記森林的輸出通常採用多數投票法得到。
由於樣本資料的規模達到幾億甚至幾十億,單機版的 隨機森林已經不能處理海量規模的,通常使用並行版的隨機森林。
假設樣本資料的全集為D,要訓練100棵決策樹,並行實現方案一般如下:
1,樣本隨機採樣;
同時啟動100個工作節點worker,每個worker從D中隨機採樣出一個樣本資料的子集S,S的大小一般遠遠小於D,單台電腦可處理。
2,單個worker基於S,應用CART算法訓練決策樹。
在訓練決策樹時,對於非連續特徵,一般是計算該特徵的基尼係數Gini,基於最佳基尼係數Gini進行分裂。
在這種方案中,由於每個工人都是從樣本資料的全集中採樣子集,因此,需要掃面一次樣本資料的全集,資料讀取量大,耗用較多的時間進行讀取,使得模型的迭代更新時間較長,訓練效率較低。
在計算基尼係數中,通常需要使用窮舉法,即假設有n個特徵,且CART樹是二分類的,則所有分支的組合有(2n-1-1)種,需要計算-1)次基尼係數Gini,複雜度為O(2n-1-1),計算的複雜度為指數級別,在訓練決策樹時耗費大量的時間,同樣使得使得模型的迭代更新時間較長,訓練效率較低。
鑑於上述問題,提出了本發明實施例以提供一種克服 上述問題或者至少部分地解決上述問題的一種基於隨機森林的模型訓練方法和相應的一種基本隨機森林的模型訓練裝置。
為了解決上述問題,本發明實施例公開了一種基於隨機森林的模型訓練方法,包括:將工作節點劃分成一個或多個分組;由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。
較佳地,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;所述由每個分組中的工作節點從預置的樣本資料中進行隨機採樣的,獲得目標樣本資料步驟包括:在每個分組中,由每個第一工作節點從預置的樣本資料中讀取部分樣本資料;由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中,以分派至第二工作節點的樣本資料作為目標樣本資料。
較佳地,所述由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象的步驟包括:在每個分組中,由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。
較佳地,所述由每個分組中的工作節點採用所述目標 樣本資料訓練一個或多個決策樹對象的步驟包括:當所述目標樣本資料的屬性資訊的值為枚舉值時,計算所述屬性資訊的值的權重;按照所述權重對所述屬性資訊的值進行排序;採用排序後的屬性資訊的值計算按照所述基尼係數針對決策樹對象的樹節點進行分裂處理。
較佳地,所述計算所述屬性資訊的值的權重的步驟包括:當所述屬性資訊的分類列為二分類時,計算所述分類列的頻率;對所述頻率進行歸一化,獲得權重。
較佳地,所述計算所述屬性資訊的值的權重的步驟包括:當所述屬性資訊的分類列表為多分類時,計算所述分類列的權重概率矩陣,其中,所述權重概率矩陣的橫坐標為所述屬性資訊的值為所述分類列的值;對所述權重概率矩陣進行主成分分析,獲得最大特徵值對應的特徵向量;將所述權重概率矩陣乘以所述特徵向量,獲得權重。
較佳地,所述採用排序後的屬性資訊的值計算基本係數的步驟包括:按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集; 依次採用所述兩個屬性子集計算基尼係數。
本發明實施例還公開一種基本隨機森林的模型訓練裝置,包括:分組劃分模組,用於將工作節點劃分成一個或多個分組;隨機採樣模組,用於由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;決策樹訓練模組,用於由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。
較佳地,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;所述隨機採樣模組包括:部分資料讀取子模組,用於在每個分組中,由每個第一工作節點從預置的樣本資料中讀取部分樣本資料;資料隨機分發子模組,用於由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中,以分派至第二工作節點的樣本資料作為目標樣本資料。
較佳地,所述決策樹訓練模組包括:節點訓練子模組,用於在每個分組中,由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。
較佳地,所述決策樹訓練模組包括:權重計算子模組,用於在所述目標樣本資料的屬性資訊的值為枚舉值時,計算所述屬性資訊的值的權重;排序子模組,用於按照所述權重對所有屬性資訊的值 進行排序;基尼係數計算子模組,用於採用排序後的屬性資訊的值計算基尼係數;分裂子模組,用於按照所述基本係數針對決策樹對象的樹節點進行分裂處理。
較佳地,所述權重計算子模組包括:頻率計算單元,用於在所述屬性資訊的分類列為二分類時,計算所述分類列的頻率;歸一化單元,用於對所述頻率進行歸一化,獲得權重。
較佳地,所述權重計算子模組包括:權重概率矩陣計算單元,用於在所述屬性資訊的分類列中為多分類時,計算所述分類列的權重概率矩陣,其中,所述權重概率矩陣的橫坐標為所述屬性資訊的值,縱坐標為所述分類列的值;主成分分析單元,用於對所述權重概率矩陣進行主成分分析,獲得最大特徵值對應的特徵向量;權重獲得單元,用於將所述權重概率矩陣乘以所述特徵向量,獲得權重。
較佳地,所述基本係數計算子模組包括:子集劃分單元,用於按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集;子集計算單元,用於依次採用所述兩個屬性子集計算基尼係數。
本發明實施例包括以下優點:本發明實施例將工作節點劃分成一個或多個分組,由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料,進而訓練決策樹對象,因此,每個分組中的工作節點只是讀取部分的樣本資料,而不需要掃描一次完整的樣本資料,大大降低資料的讀取量,減少了耗費的時間,進而減少模型的迭代更新時間,提高訓練效率。
本發明實施對對此枚舉值的屬性,通過重要性排序的方式計算分裂點,無需進行窮舉,大大減少了分裂點的計算量,假設屬性有n個值,通過重要性排序的方式計算(2n-1-1),降低到O(n),減少了訓練時間的耗費,進而減少模型的迭代更新時間,提高訓練效率。
101、102、103‧‧‧步驟
S11、S12、S13、S14‧‧‧子步驟
401‧‧‧分組劃分模組
402‧‧‧隨機採樣模組
403‧‧‧決策樹訓練模組
圖1是本發明的一種基於隨機森林的模型訓練方法實施的的步驟流程圖;圖2是本發明實施的一種分組示例圖;圖3是本發明實施的一種在Hadoop的分組中進行模式訓練的流程示例圖;圖4是本發明的一種基於隨機森林的模型訓練裝置實施例的結構方塊圖。
為使本發明的上述目的,特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
參照圖1,示出了本發明的一種基於隨機森林的模型訓練方法實施例的步驟流程圖,具體可以包括如下步驟:步驟101,將工作節點劃分成一個或多個分組;在本發明實施中,工作節點可以為訓練模型的計算節點,可以部署在單台電腦中,也可以應用在電腦集群中,如分佈式系統,本發明實施例對此不加限制。
對於單台電腦而言,工作節點(worker)可以是CPU(Central Processing Unit,中央處理器)的內核(Core),對於電腦集群,工作節點可以為單台電腦。
在本發明實施中,可以按照樣本資料量,決策樹的數量等因素,如圖2所示,將工作節點劃分為一個或多個分組(虛線方塊部分),每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點。
其中,每個分組負責處理一份完整的樣本資料,組內第一工作節點隨機分解樣本資料至第二工作節點,第二工作節點採用分發的樣本資料訓練決策樹。
一般而言,考慮了系統的承受能力和運算速度,分組的數目與決策樹對象的數量成正比,例如,分組的數目=決策樹的數量/100。
單個分組內,第一工作節點的數量與樣本資料的資料 量成正比,一個第二工作節點訓練一棵決策樹。
為使本領域技術人員更好地理解本發明實施例,在本發明實施例中,將Hadoop作為電腦集群的一種實施例進行說明。
Hadoop主要包括兩部分,一個分佈式文件系統(Hadoop Distributed File System,HDFS),另一個是分佈式計算框架,即MapReduce。
HDFS是一個高度容錯性的系統,能提供高吞吐量的資料訪問,適合那些有著超大資料集(大資料集)的應用程序。
MapReduce是一套從海源源資料提取分析元素最後返回結果集的編程模型,其基本原理可以是大資料分析分析,最後再提取出來的資料匯總分析。
在Hadoop中,用於執行MapReduce的機器角色有兩個:一個是JobTracker,另一個是TaskTracker.JobTracker可以用於調度工作,TaskTracker可以用於執行工作。
進一步而言,在Hadoop中TaskTracker可以指定所分佈式系統的處理節點,該處理節點可以包括一個或多個映射(Map)節點和一個或多個化簡(Reduce)節點。
在分佈式計算中,MapReduce負責處理了並行編程中分佈式儲存,工作調度,負載均衡,容錯均衡,容錯處理以及網絡通信等複雜問題,把處理過程高度抽象為兩個函數:映射函數)和規約函數(reduce function),映射函數可以把任務分解成多個任務,減少函數可以把分解後的 多任務處理的結果匯總起來。
在Hadoop中,每個MapReduce的任務可以被初始化為一個Job,每個Job也可以分為兩種階段:map phase和reduce階段。這兩個階段分別用兩個函數表示,即map函數和reduce函數中。
map函數可以接收一個<key,value>形式的輸入(Input),然後同樣產生一個<key,value>形式的中間輸出(Output),Hadoop函數可以接收一個如<(Input),然後對這個值集合進行處理,每個減少函數產生0或1個輸出(Output),減少函數的輸出也是<key,value>形式的。
對於分組而言,第一工作節點可以為地圖節點,第二工作節點可以為Raduce節點。
步驟102,由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;在具體實現中,在每個分組中,讀取預置的樣本資料,即樣本本資料的全集,可由每個第一工作節點從預置的樣本資料中讀取部分樣本資料子集。
由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中,以分派至第二工作節點的樣本資料作為目標樣本資料。
對於每條樣本資料,第一工作節點均讀取一次,但是否會分發到第二工作節點中是不確定的,即隨機分發(採樣)。
例如,如圖2所示,某一條樣本資料由第一工作節點A1讀取,針對第二工作節點B1,B2,B3,B4,B5,分別產生一隨機值,如果該隨機值大於0.5,則分發到該第二工作節點中,反之,則不分發到該第二工作節點,對於該條樣樣資料,分發隨機了5。
同樣,對於第一工作節點A2,A3讀取的樣本資料,也可以隨機分派到第二工作節點B1,B2,B3,B4,B5。
如圖3所示,在Hadoop中,一個分組的Map節點和Raduce節點處理一份完整的樣本資料,每個Map節點讀取部分樣本資料,隨機分發至Raduce節點中。
即在地圖節點中,可以定義地圖函數為隨機分發,以將地圖節點的樣本資料分發到縮減節點中。
映射節點從輸入的樣本資料中抽取出鍵值對,每一個鍵值對都作為參數傳遞給映射函數,映射函數產生的中間鍵值對被緩存在內存中。
MapReduce框架處理後,最後分發到Reduce節點中的reduce函數。
步驟103,由每個分組中的工作節點採用所述目標樣本資料訓練一個或多個決策樹對象。
每條樣本資料,通常包括一個樣本對象,一個或多個屬性資訊,一個分類標籤。
對於隨機採樣之後的目標樣本資料為一個資料集合,一般為二維數組的形式,即包括一組樣本對象,一組或多組屬性資訊,一組分類列。
一個目標樣本資料的示例如下表所示:
其中,屬性資訊包括體溫,表面覆蓋,胎生,產蛋,能飛,水生,有腿,冬眠。
決策樹(對象)是一種由節點和有向邊構成的樹狀結構,訓練時,在每一個非葉子節點針對某一屬性進行分類。
在具體實現中,在每個分組中,由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。
如圖3所示,在Hadoop中,若地圖節點讀取的部分樣本資料隨機分發至Raduce節點中,則Raduce節點可以 採用該分立的樣本資料(即目標樣本資料)訓練決策樹。
在訓練決策樹時,在每一個非葉子節點對對某一屬性進行分裂,迭代這一過程,直到每個葉子節點上的樣本均處理單一類別或者每個屬性都被選擇過為止。葉子節點代表分類的結果,從根節點到葉子節點的完整路徑代表一種決策過程,決策樹的訓練本質是節點如何進行分裂。
訓練得到的決策樹一般是二叉樹,少數情況下也存在非二叉樹的情況,具體的訓練過程如下:(1),構造決策樹的根節點,為全體目標訓練樣本資料的集合T;(2),通過計算資訊增益或基本係數選擇出T中區分度最高的屬性,分割形成左子節點和右子節點;(3),在剩餘的屬性空間中,針對每一個子節點的樣本資料,重複步驟2的過程,若滿足以下條件之一則標記為葉子節點,此節點分裂結束:a,該節點上所有樣本資料都屬於同一個分類;b,沒有剩餘的屬性可用以分裂;c,當前資料集的樣本資料個數小於某個給定的值;d,決策樹的深度大於設定的值。
本發明實施例將工作節點劃分成一個或多個分組,由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料,進而訓練決策樹對象,因此,每個分組中的工作節點只是讀取部分的樣本資料,而不需要掃描一次完整的樣本資料,大大降低資料的讀取量,減少 了耗費的時間,進而減少模型的迭代更新時間,提高訓練效率。
在本發明的一個實施例中,步驟103可以包括如下子步驟:子步驟S11,當所述目標樣本資料的屬性資訊的值為枚舉值時,計算所述屬性資訊的值的權重;在實現應用中,屬性資訊的值一般分為連續值和枚舉值,枚舉值又稱離散值,即不連續的值。
例如,表1中體溫的值為冷血,恆溫,屬於枚舉值。
在本發明實施中,針對枚舉值的屬性資訊,利用其重要性(權重)排序來計算最佳分裂點,來提提加速比。
在一個示例中,當屬性資訊的分類為二分類(即具有兩個分類)時,計算該屬性資訊的值對於分類列的頻率,對頻率進行歸一化,獲得權重。
在另一個示例中,當屬性資訊的分類列為多分類(即具有三個或三個以上的分類)時,計算屬性資訊的值針對分類列的權重概率矩陣,其中,權重概率矩陣的橫坐標為屬性資訊的值,縱坐標為分類列的值。
對所述權重概率矩陣進行主成分分析(Principal Component Analysis,PCA),獲得最大特徵值對應的特徵向量,將權重概率矩陣乘以特徵向量,獲得權重。
子步驟S12,按照所述權重對所述屬性資訊的值進行排序;在具體實現中,可以按照權重對屬性資訊的值進行順 序排序,也可以倒序排序,本發明實施對對此不加限制。
子步驟S13,採用排序後的屬性資訊的值計算基尼係數;基尼係數Gini,可以用於決策樹的節點的分裂標準,樣本總體內含的類別越雜亂,Gini指數就越大。
在實際應用中,可以按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集。
假設按權重排序得到的有序屬性資訊的值序列為f=(a1,a2,a3......an),那麼,可以劃分為左子樹(屬性子集)為a1~ai,右子樹子集)為ai+1~an,其中,i=1,2,...,n-1。
依次採用兩個屬性子集計算基尼係數。
假設有k個分類,樣本資料屬於第i類的概率為pi,則基尼指數Gini定義為:
如果資料集合D的劃分成D1和D2兩部分,則在該條件下,集合D的基尼增益定義為:
子步驟S14,按照所述基本係數針對決策樹對象的樹 節點進行分裂處理。
基尼指數Gini表示資料集合的不確定性,基尼指數Gini的值越大,樣本屬於某個分類的不確定性也就越大。因此,最好的選擇特徵劃分就是使得資料集合的基尼指數Gini最小的劃分。
本發明實施對對此枚舉值的屬性,通過重要性排序的方式計算分裂點,無需進行窮舉,大大減少了分裂點的計算量,假設屬性有n個值,通過重要性排序的方式計算(2n-1-1),降低到O(n),減少了訓練時間的耗費,進而減少模型的迭代更新時間,提高訓練效率。
需要說明的是,對於方法實施,為了簡單描述,故將其表示為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並受受描述的動作順序的限制,因為依據本發明實施,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例
參照圖4,示出了本發明的一種基於隨機森林的模型訓練裝置實施例的結構方塊圖,具體可以包括如下模組:分組劃分模組401,用於將工作節點劃分成一個或多個分組;隨機採樣模組402,用於由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;決策樹訓練模組403,用於由每個分組中的工作節點 採用所述目標樣本資料訓練一個或多個決策樹對象。
在本發明的一個實施例中,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;所述隨機採樣模組401可以包括如下子模組:部分資料讀取子模組,用於在每個分組中,由每個第一工作節點從預置的樣本資料中讀取部分樣本資料;資料隨機分發子模組,用於由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中,以分派至第二工作節點的樣本資料作為目標樣本資料。
在本發明的一個實施例中,所述決策樹訓練模組403可以包括如下子模組:節點訓練子模組,用於在每個分組中,由每個第二工作節點採用所述目標樣本資料訓練一個決策樹對象。
在本發明的一個實施例中,所述決策樹訓練模組403可以包括如下子模組:權重計算子模組,用於在所述目標樣本資料的屬性資訊的值為枚舉值時,計算所述屬性資訊的值的權重;排序子模組,用於按照所述權重對所有屬性資訊的值進行排序;基尼係數計算子模組,用於採用排序後的屬性資訊的值計算基尼係數;分裂子模組,用於按照所述基本係數針對決策樹對象的樹節點進行分裂處理。
在本發明的一個實施例中,所述權重計算子模組可以包括如下單元:頻率計算單元,用於在所述屬性資訊的分類列為二分類時,計算所述分類列的頻率;歸一化單元,用於對所述頻率進行歸一化,獲得權重。
在本發明的一個實施例中,所述權重計算子模組可以包括如下單元:權重概率矩陣計算單元,用於在所述屬性資訊的分類列中為多分類時,計算所述分類列的權重概率矩陣,其中,所述權重概率矩陣的橫坐標為所述屬性資訊的值,縱坐標為所述分類列的值;主成分分析單元,用於對所述權重概率矩陣進行主成分分析,獲得最大特徵值對應的特徵向量;權重獲得單元,用於將所述權重概率矩陣乘以所述特徵向量,獲得權重。
在本發明的一個實施例中,所述基本係數計算子模組可以包括如下單元:子集劃分單元,用於按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集;子集計算單元,用於依次採用所述兩個屬性子集計算基尼係數。
對於裝置實施例而言,由其與方法實施例基本相似,所描述的比較簡單,相關之處參照方法實施例的部分說明 即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀 光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media),如調製的資料訊號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而 在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,例如第一和第二等種類的關係術語僅僅用於將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”,“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程,方法,物品或者終端設備不僅包括那些要素,而且還包括沒有明確的列出的其他要素,或者是還包括為這種過程,方法,物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並排除在包括所述要素的過程,方法,物品或者終端設備中,還存在另一個相同要素。
以上對對申請所提供的一種基於隨機森林的模型方法和一種基於隨機森林的模型裝置,進行詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施的說明只是用於幫助理解本發明的方法及其核 心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均均有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (14)

  1. 一種基於隨機森林的模型訓練方法,其包括:將工作節點劃分成一個或多個分組;由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象。
  2. 根據申請專利範圍第1項所述的方法,其中,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;所述由每個分組中的工作節點從預置的樣本資料中進行隨機採樣的,獲得目標樣本資料步驟包括:在每個分組中,由每個第一工作節點從預置的樣本資料中讀取部分樣本資料;由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中,以分派至第二工作節點的樣本資料作為目標樣本資料。
  3. 根據申請專利範圍第2項所述的方法,其中,所述由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象的步驟包括:在每個分組中,由每個第二工作節點採用該目標樣本資料訓練一個決策樹對象。
  4. 根據申請專利範圍第1或2或3項所述的方法,其中,所述由每個分組中的工作節點採用該目標樣本資料 訓練一個或多個決策樹對象的步驟包括:當該目標樣本資料的屬性資訊的值為枚舉值時,計算該屬性資訊的值的權重;按照該權重對該屬性資訊的值進行排序;採用排序後的屬性資訊的值計算按照該基尼係數針對決策樹對象的樹節點進行分裂處理。
  5. 根據申請專利範圍第4項所述的方法,其中,所述計算該屬性資訊的值的權重的步驟包括:當該屬性資訊的分類列為二分類時,計算該分類列的頻率;對該頻率進行歸一化,獲得權重。
  6. 根據申請專利範圍第4項所述的方法,其中,所述計算該屬性資訊的值的權重的步驟包括:當該屬性資訊的分類列表為多分類時,計算該分類列的權重概率矩陣,其中,該權重概率矩陣的橫坐標為該屬性資訊的值為該分類列的值;對該權重概率矩陣進行主成分分析,獲得最大特徵值對應的特徵向量;將該權重概率矩陣乘以該特徵向量,獲得權重。
  7. 根據申請專利範圍第4項所述的方法,其中,所述採用排序後的屬性資訊的值計算包括:按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集; 依次採用該兩個屬性子集計算基尼係數。
  8. 一種基於隨機森林的模型訓練裝置,其包括:分組劃分模組,用於將工作節點劃分成一個或多個分組;隨機採樣模組,用於由每個分組中的工作節點從預置的樣本資料中進行隨機採樣,獲得目標樣本資料;決策樹訓練模組,用於由每個分組中的工作節點採用該目標樣本資料訓練一個或多個決策樹對象。
  9. 根據申請專利範圍第8項所述的裝置,其特徵在在,每個分組中的工作節點包括一個或多個第一工作節點以及一個或多個第二工作節點;該隨機採樣模組包括:部分資料讀取子模組,用於在每個分組中,由每個第一工作節點從預置的樣本資料中讀取部分樣本資料;資料隨機分發子模組,用於由每個第一工作節點將讀取的部分樣本資料隨機分派至每個第二工作節點中,以分派至第二工作節點的樣本資料作為目標樣本資料。
  10. 根據申請專利範圍第9項所述的裝置,其特徵在在,該決策樹訓練模組包括:節點訓練子模組,用於在每個分組中,由每個第二工作節點採用該目標樣本資料訓練一個決策樹對象。
  11. 根據申請專利範圍第8或9或10項所述的裝置,其特徵在在,該決策樹訓練模組包括:權重計算子模組,用於在該目標樣本資料的屬性資訊 的值為枚舉值時,計算該屬性資訊的值的權重;排序子模組,用於按照該權重對所有屬性資訊的值進行排序;基尼係數計算子模組,用於採用排序後的屬性資訊的值計算基尼係數;分裂子模組,用於按照該基本係數針對決策樹對象的樹節點進行分裂處理。
  12. 根據申請專利範圍第11項所述的裝置,其中,該權重計算子模組包括:頻率計算單元,用於在該屬性資訊的分類列為二分類時,計算該分類列的頻率;歸一化單元,用於對該頻率進行歸一化,獲得權重。
  13. 根據申請專利範圍第11項所述的裝置,其中,該權重計算子模組包括:權重概率矩陣計算單元,用於在該屬性資訊的分類列中為多分類時,計算該分類列的權重概率矩陣,其中,該權重概率矩陣的橫坐標為該屬性資訊的值,縱坐標為該分類列的值;主成分分析單元,用於對該權重概率矩陣進行主成分分析,獲得最大特徵值對應的特徵向量;權重獲得單元,用於將該權重概率矩陣乘以該特徵向量,獲得權重。
  14. 根據申請專利範圍第11項所述的裝置,其中,該基本係數計算子模組包括: 子集劃分單元,用於按照排序的順序依次將排序後的屬性資訊的值劃分為兩個屬性子集;子集計算單元,用於依次採用該兩個屬性子集計算基尼係數。
TW106105770A 2016-03-31 2017-02-21 一種基於隨機森林的模型訓練方法和裝置 TW201737058A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610201626.8A CN107292186B (zh) 2016-03-31 2016-03-31 一种基于随机森林的模型训练方法和装置

Publications (1)

Publication Number Publication Date
TW201737058A true TW201737058A (zh) 2017-10-16

Family

ID=59962562

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106105770A TW201737058A (zh) 2016-03-31 2017-02-21 一種基於隨機森林的模型訓練方法和裝置

Country Status (4)

Country Link
US (1) US11276013B2 (zh)
CN (1) CN107292186B (zh)
TW (1) TW201737058A (zh)
WO (1) WO2017167097A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI706326B (zh) * 2017-10-18 2020-10-01 香港商阿里巴巴集團服務有限公司 資訊處理方法、裝置及設備
TWI721331B (zh) * 2018-11-06 2021-03-11 中華電信股份有限公司 分類裝置及分類方法
TWI729697B (zh) * 2019-07-01 2021-06-01 開曼群島商創新先進技術有限公司 資料處理方法、裝置和電子設備

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993391B (zh) * 2017-12-31 2021-03-26 中国移动通信集团山西有限公司 网络运维任务工单的派发方法、装置、设备及介质
CN108304354B (zh) * 2018-01-25 2021-08-24 腾讯科技(深圳)有限公司 一种预测模型训练方法及装置、存储介质、电子设备
CN110232393B (zh) * 2018-03-05 2022-11-04 腾讯科技(深圳)有限公司 数据的处理方法、装置、存储介质和电子装置
CN110827131B (zh) * 2018-07-23 2022-06-28 中国软件与技术服务股份有限公司 一种分布式自动特征组合的纳税人信用评估方法
CN109145959A (zh) * 2018-07-27 2019-01-04 东软集团股份有限公司 一种特征选择方法、装置及设备
CN109242012A (zh) * 2018-08-27 2019-01-18 平安科技(深圳)有限公司 分组归纳方法及装置、电子装置及计算机可读存储介质
CN109214671B (zh) * 2018-08-27 2022-03-01 平安科技(深圳)有限公司 人员分组方法、装置、电子装置及计算机可读存储介质
CN110889308A (zh) * 2018-09-07 2020-03-17 中国石油化工股份有限公司 一种基于机器学习的地震震相初至识别方法及识别系统
CN109257354B (zh) * 2018-09-25 2021-11-12 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法及装置、电子设备
CN109284382B (zh) * 2018-09-30 2021-05-28 武汉斗鱼网络科技有限公司 一种文本分类方法及计算装置
US11625640B2 (en) * 2018-10-05 2023-04-11 Cisco Technology, Inc. Distributed random forest training with a predictor trained to balance tasks
CN109587000B (zh) * 2018-11-14 2020-09-15 上海交通大学 基于群智网络测量数据的高延迟异常检测方法及系统
KR102242993B1 (ko) * 2018-12-04 2021-04-21 주식회사 엘지생활건강 자외선 차단지수 산출 장치, 자외선 차단지수 산출 방법
CN109697049A (zh) * 2018-12-28 2019-04-30 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN109857862B (zh) * 2019-01-04 2024-04-19 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN109783967B (zh) * 2019-01-25 2020-02-21 深圳大学 基于随机森林模型的滑坡预测方法、装置及存储介质
US11532132B2 (en) * 2019-03-08 2022-12-20 Mubayiwa Cornelious MUSARA Adaptive interactive medical training program with virtual patients
CN110084377B (zh) * 2019-04-30 2023-09-29 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110321945A (zh) * 2019-06-21 2019-10-11 深圳前海微众银行股份有限公司 扩充样本方法、终端、装置及可读存储介质
CN110298709B (zh) * 2019-07-09 2023-08-01 广州品唯软件有限公司 一种超大规模数据的预估方法和装置
CN112437469B (zh) * 2019-08-26 2024-04-05 中国电信股份有限公司 服务质量保障方法、装置和计算机可读存储介质
CN110837911B (zh) * 2019-09-06 2021-02-05 沈阳农业大学 一种大尺度地表节肢动物空间分布模拟方法
CN110633667B (zh) * 2019-09-11 2021-11-26 沈阳航空航天大学 一种基于多任务随机森林的动作预测方法
CN110691073A (zh) * 2019-09-19 2020-01-14 中国电子科技网络信息安全有限公司 一种基于随机森林的工控网络暴力破解流量检测方法
CN110705683B (zh) * 2019-10-12 2021-06-29 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111061968B (zh) * 2019-11-15 2023-05-30 北京三快在线科技有限公司 排序方法、装置、电子设备及可读存储介质
CN110837875B (zh) * 2019-11-18 2022-07-05 国家基础地理信息中心 地表覆盖数据质量异常判断方法及装置
CN111126434B (zh) * 2019-11-19 2023-07-11 山东省科学院激光研究所 基于随机森林的微震初至波到时自动拾取方法及系统
US11704601B2 (en) * 2019-12-16 2023-07-18 Intel Corporation Poisson distribution based approach for bootstrap aggregation in a random forest
CN111159369B (zh) * 2019-12-18 2023-12-05 平安健康互联网股份有限公司 多轮智能问诊方法、装置及计算机可读存储介质
CN111309817B (zh) * 2020-01-16 2023-11-03 秒针信息技术有限公司 行为识别方法、装置及电子设备
CN111259975B (zh) * 2020-01-21 2022-07-22 支付宝(杭州)信息技术有限公司 分类器的生成方法及装置、文本的分类方法及装置
CN111814846B (zh) * 2020-06-19 2023-08-01 浙江大华技术股份有限公司 属性识别模型的训练方法、识别方法及相关设备
CN111813581B (zh) * 2020-07-24 2022-07-05 成都信息工程大学 一种基于完全二叉树的容错机制的配置方法
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置
CN112183623A (zh) * 2020-09-28 2021-01-05 湘潭大学 基于风电运维人员紧张程度的运维操作方法
CN113254494B (zh) * 2020-12-04 2023-12-08 南理工泰兴智能制造研究院有限公司 一种新能源研发分类记录方法
CN113067522B (zh) * 2021-03-29 2023-08-01 杭州吉易物联科技有限公司 基于rf-ga-svm算法的升降机输出电压控制方法
CN113516178A (zh) * 2021-06-22 2021-10-19 常州微亿智造科技有限公司 工业零部件的缺陷检测方法、缺陷检测装置
CN113379301A (zh) * 2021-06-29 2021-09-10 未鲲(上海)科技服务有限公司 通过决策树模型对用户进行分类的方法、装置和设备
CN113553514B (zh) * 2021-09-22 2022-08-19 腾讯科技(深圳)有限公司 基于人工智能的对象推荐方法、装置及电子设备
CN114399000A (zh) * 2022-01-20 2022-04-26 中国平安人寿保险股份有限公司 树模型的对象可解释性特征提取方法、装置、设备及介质
CN115001763B (zh) * 2022-05-20 2024-03-19 北京天融信网络安全技术有限公司 钓鱼网站攻击检测方法、装置、电子设备及存储介质
CN114666590A (zh) * 2022-05-25 2022-06-24 宁波康达凯能医疗科技有限公司 一种基于负载均衡的全视场视频编码方法与系统
CN115374763B (zh) * 2022-10-24 2022-12-23 北京睿企信息科技有限公司 一种获取用户优先级的系统
CN116186628B (zh) * 2023-04-23 2023-07-07 广州钛动科技股份有限公司 App应用自动打标方法和系统
CN117370899B (zh) * 2023-12-08 2024-02-20 中国地质大学(武汉) 一种基于主成分-决策树模型的控矿因素权重确定方法
CN117540830B (zh) * 2024-01-05 2024-04-12 中国地质科学院探矿工艺研究所 基于断层分布指数的泥石流易发性预测方法、装置及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001090921A2 (en) * 2000-05-25 2001-11-29 Kanisa, Inc. System and method for automatically classifying text
US6996575B2 (en) * 2002-05-31 2006-02-07 Sas Institute Inc. Computer-implemented system and method for text-based document processing
JP4791737B2 (ja) * 2005-02-25 2011-10-12 大日本住友製薬株式会社 機能性核酸配列解析方法
US8578041B2 (en) * 2005-06-03 2013-11-05 Adobe Systems Incorporated Variable sampling rates for website visitation analysis
US8935249B2 (en) * 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8194933B2 (en) * 2007-12-12 2012-06-05 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
CN103473231A (zh) * 2012-06-06 2013-12-25 深圳先进技术研究院 分类器构建方法和系统
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
US9331943B2 (en) 2013-09-10 2016-05-03 Robin Systems, Inc. Asynchronous scheduling informed by job characteristics and anticipatory provisioning of data for real-time, parallel processing
US10635644B2 (en) * 2013-11-11 2020-04-28 Amazon Technologies, Inc. Partition-based data stream processing framework
US10318882B2 (en) * 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
US20160132787A1 (en) * 2014-11-11 2016-05-12 Massachusetts Institute Of Technology Distributed, multi-model, self-learning platform for machine learning
CN104750800A (zh) * 2014-11-13 2015-07-01 安徽四创电子股份有限公司 一种基于出行时间特征的机动车聚类方法
CN104392250A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于MapReduce的图像分类方法
CN104679911B (zh) * 2015-03-25 2018-03-27 武汉理工大学 一种基于离散弱相关的云平台决策森林分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105303262A (zh) * 2015-11-12 2016-02-03 河海大学 一种基于核主成分分析和随机森林的短期负荷预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI706326B (zh) * 2017-10-18 2020-10-01 香港商阿里巴巴集團服務有限公司 資訊處理方法、裝置及設備
TWI721331B (zh) * 2018-11-06 2021-03-11 中華電信股份有限公司 分類裝置及分類方法
TWI729697B (zh) * 2019-07-01 2021-06-01 開曼群島商創新先進技術有限公司 資料處理方法、裝置和電子設備

Also Published As

Publication number Publication date
US20190034834A1 (en) 2019-01-31
CN107292186A (zh) 2017-10-24
CN107292186B (zh) 2021-01-12
WO2017167097A1 (zh) 2017-10-05
US11276013B2 (en) 2022-03-15

Similar Documents

Publication Publication Date Title
TW201737058A (zh) 一種基於隨機森林的模型訓練方法和裝置
Probst et al. Tunability: Importance of hyperparameters of machine learning algorithms
Maher et al. Smartml: A meta learning-based framework for automated selection and hyperparameter tuning for machine learning algorithms
Vannieuwenhoven et al. A new truncation strategy for the higher-order singular value decomposition
Rajawat et al. Fusion deep learning based on back propagation neural network for personalization
Ting et al. Mass estimation
WO2019017983A1 (en) METHOD AND SYSTEM FOR AUTOMATED CONSTRUCTION, VALIDATION AND SELECTION OF BEST WORKING MODELS
Ediger et al. Graphct: Multithreaded algorithms for massive graph analysis
CN107480685B (zh) 一种基于GraphX的分布式幂迭代聚类方法和装置
Liu et al. Generalising random forest parameter optimisation to include stability and cost
Batson et al. Molecular cross-validation for single-cell RNA-seq
Amin et al. Performance analysis of data mining algorithms
Mukherjee et al. Naive bayes and decision tree classifier for streaming data using hbase
Kharche et al. Comparison of different datasets using various classification techniques with weka
Oliveira et al. Unsupervised dimensionality reduction for very large datasets: Are we going to the right direction?
Łukasik et al. Efficient astronomical data condensation using approximate nearest neighbors
Madaan et al. An improved approach for web document clustering
Carino-Escobar et al. Feature-ranked self-growing forest: a tree ensemble based on structure diversity for classification and regression
Koli et al. Parallel decision tree with map reduce model for big data analytics
Swe et al. Weather prediction model using random forest algorithm and apache spark
Maithri et al. Parallel agglomerative hierarchical clustering algorithm implementation with hadoop MapReduce
Fraideinberze et al. Effective and Unsupervised Fractal-based Feature Selection for Very Large Datasets: removing linear and non-linear attribute correlations
CN109242027A (zh) 一种可交互的大数据并行k-means聚类方法
Rastogi et al. Unsupervised Classification of Mixed Data Type of Attributes Using Genetic Algorithm (Numeric, Categorical, Ordinal, Binary, Ratio-Scaled)
Bhatnagar et al. DASC: data aware algorithm for scalable clustering