TWI714078B

TWI714078B - 基於深度學習之大數據分析平台排程系統及方法

Info

Publication number: TWI714078B
Application number: TW108115752A
Authority: TW
Inventors: 張保榮; 廖柏豪
Original assignee: 國立高雄大學
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2020-12-21
Also published as: TW202042247A

Abstract

本發明有關於一種基於深度學習之大數據分析平台排程系統及方法，其排程方法之步驟包含有輸入複數筆資料集，根據時間複雜度預測每一筆資料集之分析時間；依照優先等級將每一筆資料集分類為高優先級或低優先級，而優先分析分類為高優先級的複數筆資料集；將複數筆資料集依照分析時間由短至長排序，並依序輸入至一平台選擇模組；以及平台選擇模組根據剩餘的記憶體選擇對應的分析平台，使複數筆資料集進行分析；藉此，本發明整合不同的分析平台對大數據進行分析，並透過優化過的排程減少大數據分析的平均等待時間。

Description

基於深度學習之大數據分析平台排程系統及方法

本發明係有關於一種基於深度學習之大數據分析平台排程系統及方法，尤其為一種整合不同分析平台的系統，並分析大數據資料的特性去排序出適當的分析順序，係提供一個更穩定、更可靠的分析系統，以減少分析作業的平均等待時間。

按，大數據又可被稱為巨量資料，其代表的就是大量、結構或非結構化的資料。由於大數據資料來源複雜且數量龐大，因此大數據資料通常需要透過特殊的硬體與軟體技術，才能有效地進行處理，以獲得想要的分析結果。在目前電子、網路、資訊蓬勃發展的時代，大數據更廣泛地被應用，舉凡交通、金融、政治、社群網路、醫療等領域中皆可利用大數據分析的技術，透過蒐集各個方面的資訊並進行分析，即能得知交通雍塞程度、世界金融趨勢、使用者或消費者行為等結果，如此，根據該等分析結果便能進一步安排或改善應對的策略。

在大數據分析的技術領域中，大數據資料通常會一項一項的進行分析，而往往在運算資源在有限，且運算資源未有效利用的情況下，使大數據資料的分析速度下降，並增加分析的時間。中國發明專利公開號CN 106354553 A「一種大數據系統中基於資源估算的任務調度方法及裝置」即提供一種在運算資源有限的情況下進行任務調度分配的技術，其主要係對當前的系統空閒資源進行估算，並確定欲進行分析之大數據資料任務所需消耗的資源，以優先處理合適的大數據資料。

又，中國發明專利公開號CN 108415818 A「一種考慮繁忙程度的大數據平台多服務接口執行時間預測方法」提供了一種對分析平台之執行時間進行預測的技術，其主要係針對分析平台目前的分析作業進行所需時間的預測，以得知分析平台的繁忙程度；如此，藉由前案專利可知，在大數據分析技術中，運算資源的分析利用與分析平台的作業時間預測皆對於大數據分析的速度有所幫助。

爰此，如何提供一種能依照大數據資料的特性而排序出適合之分析順序的技術，以減少分析作業的耗費時間與有效利用有限的運算資源，其即發明人所思及之方向。

今，發明人即是鑑於上述現有之大數據分析方法於實際實施使用時仍具有多處缺失，於是乃一本孜孜不倦之精神，並藉由其豐富專業知識及多年之實務經驗所輔佐，而加以改善，並據此研創出本發明。

本發明主要目的為提供一種基於深度學習之大數據分析平台排程系統及方法，其著重於大數據分析的作業排程方法，係基於深度學習對大數據之資料集的分析所需時間作預測，並且根據各個資料集的特性去安排分析的順序，並整合多個分析平台，以適當的分析平台進行分析，以達到縮減整體作業之平均等待時間的目的。

為了達到上述實施目的，本發明一種基於深度學習之大數據分析平台排程方法，其步驟包含有步驟一：輸入複數筆資料集，根據時間複雜度預測每一筆資料集之分析時間；步驟二：根據優先等級將每一筆資料集分類為高優先級或低優先級，而優先分析分類為高優先級的複數筆資料集；以及步驟三：將複數筆資料集依照分析時間由短至長排序，並依序輸入至一平台選擇模組；步驟四：平台選擇模組根據剩餘的記憶體選擇對應的分析平台，使複數筆資料集進行分析。

於本發明之一實施例中，複數筆資料集為大數據資料，而複數筆資料集係可例如預先進行一前處理程序。

於本發明之一實施例中，根據複數筆資料集之程序複雜度運算出時間複雜度，以預測出每一筆資料集所需的分析時間。

於本發明之一實施例中，當平台選擇模組之記憶體的剩餘量低於或等於3G時，即選用Rhadoop平台對複數筆資料集進行分析。

於本發明之一實施例中，當平台選擇模組之記憶體的剩餘量高於3G時，即選用SparkR平台對複數筆資料集進行分析。

本發明之另一目的係提供一種基於深度學習之大數據分析平台排程系統，其包含有一排程模組，係接收複數筆資料集；一分析時間預測模組，係電性連接排程模組，其具有一訓練單元與一電性連接訓練單元之時間複雜度運算單元；以及一平台選擇模組，係電性連接排程模組，其具有至少一記憶體、複數個分析平台與一電性連接至少一記憶體及複數個分析平台之選擇單元。

於本發明另一實施例中，排程模組係根據複數筆資料集之優先等級、預測之分析時間以及記憶體剩餘量進行排程。

於本發明另一實施例中，分析時間預測模組之時間複雜度運算單元係根據複數筆資料集之程序複雜度運算出時間複雜度，每一筆資料集之分析時間。

於本發明另一實施例中，平台選擇模組之複數個分析平台可例如有Rhadoop平台與SparkR平台；該平台選擇模組之記憶體剩餘量低於或等於3G時即選用Rhadoop平台，而當記憶體剩餘量高於3G時即選用SparkR平台。

於本發明另一實施例中，複數筆資料集係可例如預先進行一前處理程序。

1:排程模組

2:分析時間預測模組

21:訓練單元

22:時間複雜度運算單元

3:平台選擇模組

31:記憶體

32:分析平台

33:選擇單元

第一圖：本發明其較佳實施例之排程方法流程圖。

第二圖：本發明其較佳實施例之排程系統方塊圖。

本發明之目的及其結構功能上的優點，將依據以下圖面所示之結構，配合具體實施例予以說明，俾使審查委員能對本發明有更深入且具體之瞭解。

請參閱第一圖，本發明一種基於深度學習之大數據分析平台排程方法，其步驟包含有步驟一：輸入大數據資料之複數筆資料集，根據時間複雜度預測每一筆資料集之分析時間，其中，時間複雜度係由複數筆資料集之程序複雜度運算出來，而複數筆資料集可例如預先進行一前處理程序，以處理掉不必要的資料；步驟二：根據優先等級將每一筆資料集分類為高優先級或低優先級，而優先分析分類為高優先級的複數筆資料集；以及步驟三：將複數筆資料集依照分析時間由短至長排序，並依序輸入至一平台選擇模組；步驟四：平台選擇模組根據剩餘的記憶體選擇對應的分析平台，使複數筆資料集進行分析，當平台選擇模組之記憶體的剩餘量低於或等於3G時，即選用Rhadoop平台對複數筆資料集進行分析，當平台選擇模組之記憶體的剩餘量高於3G時，即選用SparkR平台對複數筆資料集進行分析。

請參閱第二圖，本發明一種基於深度學習之大數據分析平台排程系統，其包含有一排程模組(1)，係接收複數筆資料集，其會根據複數筆資料集之優先等級、預測之分析時間以及記憶體(31)剩餘量進行排程，而資料集可例如預先進行一前處理程序，處理掉不必要的資料；一分析時間預測模組(2)，係電性連接排程模組(1)，其具有一訓練單元(21)與一電性連接訓練單元(21)之時間複雜度運算單元(22)，而時間複雜度運算單元(22)係根據複數筆資料集之程序複雜度以運算出時間複雜度，並預測出每一筆資料集所需之分析時間；以及一平台選擇模組(3)，係電性連接排程模組(1)，其具有至少一記憶體(31)、複數個分析平台(32)與一電性連接至少一記憶體(31)及複數個分析平台(32)之選擇單元(33)，而分析平台(32)可例如有Rhadoop平台與SparkR平台，當平台選擇模組(3)之記憶體(31)剩餘量低於或等於3G時即選用Rhadoop平台，而當記憶體(31)剩餘量高於3G時即選用SparkR平台。

此外，藉由下述具體實施例，可進一步證明本發明可實際應用之範圍，但不意欲以任何形式限制本發明之範圍。

請繼續參閱第一圖與第二圖，本發明基於深度學習之大數據分析平台排程系統及方法係依大數據資料之特性對其進行排程，本系統可建置在一個或多個伺服器內；大數據資料通常由複數筆資料集所組成，首先，複數筆資料集可預先經過一前處理程序，前處理程序僅擷取其複數筆資料集中所需要的資料，而其他使用不到的資料集則不會被使用，藉此增加大數據資料的分析效率，擷取的複數筆資料集會被輸入至排程模組(1)，排程模組(1)所電性連接之分析時間預測模組(2)負責先預測出每一筆資料及所需的分析時間。

分析時間預測模組(2)係以深度學習之技術資料集進行分析時間的預測，其需要先透過訓練單元(21)進行訓練，分析時間預測模組(2)使用一個全連結前饋神經網路(fully connected feedforward neural network)，架構為一個輸入層、複數個隱藏層與一個輸出層，訓練單元(21)主要是透過資料集的多項特徵與標籤作訓練，反覆訓練後，訓練單元(21)所產出之模型即可在時間複雜度運算單元(22)中進行資料集的分析時間預測；而預測大數據資料所花費的時間需要考慮到時間複雜度，因此時間複雜度運算單元(22)亦會從要執行分析的資料集內，判斷其程序複雜度，即是考量資料集內的資訊、迴圈與函式等內容，最後計算出其時間複雜度，且依照所分析的結果可以大致將時間複雜度分級，如此，時間複雜度運算單元(22)就能預測每一筆資料集所需之分析時間。

接續地，排程模組(1)得知每一筆資料集所需的分析時間，且每一筆資料集中皆會有優先等級的區別，排程模組(1)即係將優先等級分類為高優先級的多筆資料集取出，再將該等資料集依照時間複雜度運算單元(22)預測出的分析時間進行排序，如此，高優先級且分析時間最短的資料集就會被排在第一順位，直到屬於高優先級且分析時間最長的資料集分析完畢後，才會再執行低優先級的資料集分析；排程模組(1)排序完畢之後，會形成一個分析作業的隊伍，即將所有的資料集依序輸入至平台選擇模組(3)內。

本實施例中，一個伺服器擁有20G的記憶體(31)，而平台選擇模組(3)具有Rhadoop、SparkR兩個分析平台(32)，因此，記憶體(31)係以3G作為一個分界點，平台選擇模組(3)接收到排程模組(1)所傳輸的資料集後即可開始分析；當平台選擇模組(3)之記憶體(31)的剩餘量低於或等於3G時，選擇單元(33)即選用Rhadoop分析平台(32)對資料集進行分析，若選用SparkR分析平台(32)則會因記憶體(31)不足而無法執行，而當平台選擇模組(3)之記憶體(31)的剩餘量高於3G時，選擇單元(33)即選用SparkR分析平台(32)對資料集進行分析，此時相較於Rhadoop分析平台(32)會有較佳的執行效率；再者，當平台選擇模組(3)之記憶體(31)的剩餘量高於10G時，可使SparkR分析平台(32)採用記憶體(31)內運算 (in-memory computing)以達到更好的執行效率。

由上述之實施說明可知，本發明與現有技術相較之下，本發明具有以下優點：

1.本發明基於深度學習之大數據分析平台排程系統及方法係先預測出大數據之資料集的分析時間，其透過深度學習技術提升預測的精確度。

2.本發明基於深度學習之大數據分析平台排程系統及方法根據資料集之之優先等級、預測之分析時間以及記憶體剩餘量進行排程，將資料集排出適合的分析順序，並分配給適當的分析平台進行分析作業，以節省分析作業的平均等待時間，增加大數據分析的效率。

綜上所述，本發明之基於深度學習之大數據分析平台排程系統及方法，的確能藉由上述所揭露之實施例，達到所預期之使用功效，且本發明亦未曾公開於申請前，誠已完全符合專利法之規定與要求。爰依法提出發明專利之申請，懇請惠予審查，並賜准專利，則實感德便。

惟，上述所揭之圖示及說明，僅為本發明之較佳實施例，非為限定本發明之保護範圍；大凡熟悉該項技藝之人士，其所依本發明之特徵範疇，所作之其它等效變化或修飾，皆應視為不脫離本發明之設計範疇。