TWI714078B - 基於深度學習之大數據分析平台排程系統及方法 - Google Patents

基於深度學習之大數據分析平台排程系統及方法 Download PDF

Info

Publication number
TWI714078B
TWI714078B TW108115752A TW108115752A TWI714078B TW I714078 B TWI714078 B TW I714078B TW 108115752 A TW108115752 A TW 108115752A TW 108115752 A TW108115752 A TW 108115752A TW I714078 B TWI714078 B TW I714078B
Authority
TW
Taiwan
Prior art keywords
analysis
platform
scheduling
data
big data
Prior art date
Application number
TW108115752A
Other languages
English (en)
Other versions
TW202042247A (zh
Inventor
張保榮
廖柏豪
Original Assignee
國立高雄大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立高雄大學 filed Critical 國立高雄大學
Priority to TW108115752A priority Critical patent/TWI714078B/zh
Publication of TW202042247A publication Critical patent/TW202042247A/zh
Application granted granted Critical
Publication of TWI714078B publication Critical patent/TWI714078B/zh

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明有關於一種基於深度學習之大數據分析平台排程系統及方法,其排程方法之步驟包含有輸入複數筆資料集,根據時間複雜度預測每一筆資料集之分析時間;依照優先等級將每一筆資料集分類為高優先級或低優先級,而優先分析分類為高優先級的複數筆資料集;將複數筆資料集依照分析時間由短至長排序,並依序輸入至一平台選擇模組;以及平台選擇模組根據剩餘的記憶體選擇對應的分析平台,使複數筆資料集進行分析;藉此,本發明整合不同的分析平台對大數據進行分析,並透過優化過的排程減少大數據分析的平均等待時間。

Description

基於深度學習之大數據分析平台排程系統及方法
本發明係有關於一種基於深度學習之大數據分析平台排程系統及方法,尤其為一種整合不同分析平台的系統,並分析大數據資料的特性去排序出適當的分析順序,係提供一個更穩定、更可靠的分析系統,以減少分析作業的平均等待時間。
按,大數據又可被稱為巨量資料,其代表的就是大量、結構或非結構化的資料。由於大數據資料來源複雜且數量龐大,因此大數據資料通常需要透過特殊的硬體與軟體技術,才能有效地進行處理,以獲得想要的分析結果。在目前電子、網路、資訊蓬勃發展的時代,大數據更廣泛地被應用,舉凡交通、金融、政治、社群網路、醫療等領域中皆可利用大數據分析的技術,透過蒐集各個方面的資訊並進行分析,即能得知交通雍塞程度、世界金融趨勢、使用者或消費者行為等結果,如此,根據該等分析結果便能進一步安排或改善應對的策略。
在大數據分析的技術領域中,大數據資料通常會一項一項的進行分析,而往往在運算資源在有限,且運算資源未有效利用的情況下,使大數據資料的分析速度下降,並增加分析的時間。中國發明專利公開號CN 106354553 A「一種大數據系統中基於資源估算的任務調度方法及裝置」即提供一種在運算資源有限的情況下進行 任務調度分配的技術,其主要係對當前的系統空閒資源進行估算,並確定欲進行分析之大數據資料任務所需消耗的資源,以優先處理合適的大數據資料。
又,中國發明專利公開號CN 108415818 A「一種考慮繁忙程度的大數據平台多服務接口執行時間預測方法」提供了一種對分析平台之執行時間進行預測的技術,其主要係針對分析平台目前的分析作業進行所需時間的預測,以得知分析平台的繁忙程度;如此,藉由前案專利可知,在大數據分析技術中,運算資源的分析利用與分析平台的作業時間預測皆對於大數據分析的速度有所幫助。
爰此,如何提供一種能依照大數據資料的特性而排序出適合之分析順序的技術,以減少分析作業的耗費時間與有效利用有限的運算資源,其即發明人所思及之方向。
今,發明人即是鑑於上述現有之大數據分析方法於實際實施使用時仍具有多處缺失,於是乃一本孜孜不倦之精神,並藉由其豐富專業知識及多年之實務經驗所輔佐,而加以改善,並據此研創出本發明。
本發明主要目的為提供一種基於深度學習之大數據分析平台排程系統及方法,其著重於大數據分析的作業排程方法,係基於深度學習對大數據之資料集的分析所需時間作預測,並且根據各個資料集的特性去安排分析的順序,並整合多個分析平台,以適當的分析平台進行分析,以達到縮減整體作業之平均等待時間的目的。
為了達到上述實施目的,本發明一種基於深度學習之大數據分析平台排程方法,其步驟包含有步驟一:輸入複數筆資料集,根據時間複雜度預測每一筆資料集之分析時間;步驟二:根據優先等級將每一筆資料集分類為高優先級或低優先級,而優先分析分類為 高優先級的複數筆資料集;以及步驟三:將複數筆資料集依照分析時間由短至長排序,並依序輸入至一平台選擇模組;步驟四:平台選擇模組根據剩餘的記憶體選擇對應的分析平台,使複數筆資料集進行分析。
於本發明之一實施例中,複數筆資料集為大數據資料,而複數筆資料集係可例如預先進行一前處理程序。
於本發明之一實施例中,根據複數筆資料集之程序複雜度運算出時間複雜度,以預測出每一筆資料集所需的分析時間。
於本發明之一實施例中,當平台選擇模組之記憶體的剩餘量低於或等於3G時,即選用Rhadoop平台對複數筆資料集進行分析。
於本發明之一實施例中,當平台選擇模組之記憶體的剩餘量高於3G時,即選用SparkR平台對複數筆資料集進行分析。
本發明之另一目的係提供一種基於深度學習之大數據分析平台排程系統,其包含有一排程模組,係接收複數筆資料集;一分析時間預測模組,係電性連接排程模組,其具有一訓練單元與一電性連接訓練單元之時間複雜度運算單元;以及一平台選擇模組,係電性連接排程模組,其具有至少一記憶體、複數個分析平台與一電性連接至少一記憶體及複數個分析平台之選擇單元。
於本發明另一實施例中,排程模組係根據複數筆資料集之優先等級、預測之分析時間以及記憶體剩餘量進行排程。
於本發明另一實施例中,分析時間預測模組之時間複雜度運算單元係根據複數筆資料集之程序複雜度運算出時間複雜度,每一筆資料集之分析時間。
於本發明另一實施例中,平台選擇模組之複數個分析平台可例如有Rhadoop平台與SparkR平台;該平台選擇模組之記憶體剩餘量低於或等於3G時即選用Rhadoop平台,而當記憶體剩餘量高 於3G時即選用SparkR平台。
於本發明另一實施例中,複數筆資料集係可例如預先進行一前處理程序。
1:排程模組
2:分析時間預測模組
21:訓練單元
22:時間複雜度運算單元
3:平台選擇模組
31:記憶體
32:分析平台
33:選擇單元
第一圖:本發明其較佳實施例之排程方法流程圖。
第二圖:本發明其較佳實施例之排程系統方塊圖。
本發明之目的及其結構功能上的優點,將依據以下圖面所示之結構,配合具體實施例予以說明,俾使審查委員能對本發明有更深入且具體之瞭解。
請參閱第一圖,本發明一種基於深度學習之大數據分析平台排程方法,其步驟包含有步驟一:輸入大數據資料之複數筆資料集,根據時間複雜度預測每一筆資料集之分析時間,其中,時間複雜度係由複數筆資料集之程序複雜度運算出來,而複數筆資料集可例如預先進行一前處理程序,以處理掉不必要的資料;步驟二:根據優先等級將每一筆資料集分類為高優先級或低優先級,而優先分析分類為高優先級的複數筆資料集;以及步驟三:將複數筆資料集依照分析時間由短至長排序,並依序輸入至一平台選擇模組;步驟四:平台選擇模組根據剩餘的記憶體選擇對應的分析平台,使複數筆資料集進行分析,當平台選擇模組之記憶體的剩餘量低於或等於3G時,即選用Rhadoop平台對複數筆資料集進行分析,當平台選擇模組之記憶體的剩餘量高於3G時,即選用SparkR平台對複數筆資料集進行分析。
請參閱第二圖,本發明一種基於深度學習之大數據分析平台排程系統,其包含有一排程模組(1),係接收複數筆資料集,其會根據複數筆資料集之優先等級、預測之分析時間以及記憶體(31)剩 餘量進行排程,而資料集可例如預先進行一前處理程序,處理掉不必要的資料;一分析時間預測模組(2),係電性連接排程模組(1),其具有一訓練單元(21)與一電性連接訓練單元(21)之時間複雜度運算單元(22),而時間複雜度運算單元(22)係根據複數筆資料集之程序複雜度以運算出時間複雜度,並預測出每一筆資料集所需之分析時間;以及一平台選擇模組(3),係電性連接排程模組(1),其具有至少一記憶體(31)、複數個分析平台(32)與一電性連接至少一記憶體(31)及複數個分析平台(32)之選擇單元(33),而分析平台(32)可例如有Rhadoop平台與SparkR平台,當平台選擇模組(3)之記憶體(31)剩餘量低於或等於3G時即選用Rhadoop平台,而當記憶體(31)剩餘量高於3G時即選用SparkR平台。
此外,藉由下述具體實施例,可進一步證明本發明可實際應用之範圍,但不意欲以任何形式限制本發明之範圍。
請繼續參閱第一圖與第二圖,本發明基於深度學習之大數據分析平台排程系統及方法係依大數據資料之特性對其進行排程,本系統可建置在一個或多個伺服器內;大數據資料通常由複數筆資料集所組成,首先,複數筆資料集可預先經過一前處理程序,前處理程序僅擷取其複數筆資料集中所需要的資料,而其他使用不到的資料集則不會被使用,藉此增加大數據資料的分析效率,擷取的複數筆資料集會被輸入至排程模組(1),排程模組(1)所電性連接之分析時間預測模組(2)負責先預測出每一筆資料及所需的分析時間。
分析時間預測模組(2)係以深度學習之技術資料集進行分析時間的預測,其需要先透過訓練單元(21)進行訓練,分析時間預測模組(2)使用一個全連結前饋神經網路(fully connected feedforward neural network),架構為一個輸入層、複數個隱藏層與一個輸出層,訓練單元(21)主要是透過資料集的多項特徵與標籤作訓練,反覆訓 練後,訓練單元(21)所產出之模型即可在時間複雜度運算單元(22)中進行資料集的分析時間預測;而預測大數據資料所花費的時間需要考慮到時間複雜度,因此時間複雜度運算單元(22)亦會從要執行分析的資料集內,判斷其程序複雜度,即是考量資料集內的資訊、迴圈與函式等內容,最後計算出其時間複雜度,且依照所分析的結果可以大致將時間複雜度分級,如此,時間複雜度運算單元(22)就能預測每一筆資料集所需之分析時間。
接續地,排程模組(1)得知每一筆資料集所需的分析時間,且每一筆資料集中皆會有優先等級的區別,排程模組(1)即係將優先等級分類為高優先級的多筆資料集取出,再將該等資料集依照時間複雜度運算單元(22)預測出的分析時間進行排序,如此,高優先級且分析時間最短的資料集就會被排在第一順位,直到屬於高優先級且分析時間最長的資料集分析完畢後,才會再執行低優先級的資料集分析;排程模組(1)排序完畢之後,會形成一個分析作業的隊伍,即將所有的資料集依序輸入至平台選擇模組(3)內。
本實施例中,一個伺服器擁有20G的記憶體(31),而平台選擇模組(3)具有Rhadoop、SparkR兩個分析平台(32),因此,記憶體(31)係以3G作為一個分界點,平台選擇模組(3)接收到排程模組(1)所傳輸的資料集後即可開始分析;當平台選擇模組(3)之記憶體(31)的剩餘量低於或等於3G時,選擇單元(33)即選用Rhadoop分析平台(32)對資料集進行分析,若選用SparkR分析平台(32)則會因記憶體(31)不足而無法執行,而當平台選擇模組(3)之記憶體(31)的剩餘量高於3G時,選擇單元(33)即選用SparkR分析平台(32)對資料集進行分析,此時相較於Rhadoop分析平台(32)會有較佳的執行效率;再者,當平台選擇模組(3)之記憶體(31)的剩餘量高於10G時,可使SparkR分析平台(32)採用記憶體(31)內運算 (in-memory computing)以達到更好的執行效率。
由上述之實施說明可知,本發明與現有技術相較之下,本發明具有以下優點:
1.本發明基於深度學習之大數據分析平台排程系統及方法係先預測出大數據之資料集的分析時間,其透過深度學習技術提升預測的精確度。
2.本發明基於深度學習之大數據分析平台排程系統及方法根據資料集之之優先等級、預測之分析時間以及記憶體剩餘量進行排程,將資料集排出適合的分析順序,並分配給適當的分析平台進行分析作業,以節省分析作業的平均等待時間,增加大數據分析的效率。
綜上所述,本發明之基於深度學習之大數據分析平台排程系統及方法,的確能藉由上述所揭露之實施例,達到所預期之使用功效,且本發明亦未曾公開於申請前,誠已完全符合專利法之規定與要求。爰依法提出發明專利之申請,懇請惠予審查,並賜准專利,則實感德便。
惟,上述所揭之圖示及說明,僅為本發明之較佳實施例,非為限定本發明之保護範圍;大凡熟悉該項技藝之人士,其所依本發明之特徵範疇,所作之其它等效變化或修飾,皆應視為不脫離本發明之設計範疇。
1:排程模組
2:分析時間預測模組
21:訓練單元
22:時間複雜度運算單元
3:平台選擇模組
31:記憶體
32:分析平台
33:選擇單元

Claims (8)

  1. 一種基於深度學習之大數據分析平台排程方法,其步驟包含有:步驟一:於一排程模組中輸入複數筆資料集,將該複數筆資料集係預先進行一前處理程序,再以一分析時間預測模組根據每一該複數筆資料集的時間複雜度預測每一該複數筆資料集之分析時間,其中每一該複數筆資料集的時間複雜度係根據其程序複雜度運算後獲得,且其中該分析時間預測模組為一全連結前饋神經網路系統;步驟二:根據優先等級將每一該複數筆資料集分類為高優先級或低優先級,而優先分析分類為高優先級的該複數筆資料集;步驟三:使用該排程模組根據每一該複數筆資料的優先等級以及分析時間,將該複數筆資料集依照該優先等級由高至低以及該分析時間由短至長排序,並依序輸入至一平台選擇模組;以及步驟四:該平台選擇模組根據剩餘的記憶體選擇對應的分析平台,使該複數筆資料集進行分析。
  2. 如申請專利範圍第1項所述基於深度學習之大數據分析平台排程方法,其中該複數筆資料集為大數據資料。
  3. 如申請專利範圍第1項所述基於深度學習之大數據分析平台排程方法,其中當該平台選擇模組之記憶體的剩餘量低於或等於3G時,即選用Rhadoop平台對該複數筆資料集進行分析。
  4. 如申請專利範圍第1項所述基於深度學習之大數據分析平台排程方法,其中當該平台選擇模組之記憶體的剩餘量高於3G時,即選用SparkR平台對該複數筆資料集進行分析。
  5. 一種基於深度學習之大數據分析平台排程系統,其包含有:一排程模組,係接收經前處理程序之複數筆資料集;一分析時間預測模組,係為一全連結前饋神經網路系統且電性連接該排程模組,其具有一訓練單元與一電性連接該訓練單元之時間複雜度運算單元以係根據該經前處理程序之複數筆資料集之程序複雜度運算出時間複雜度,並預測出每一該複數筆資料集之分析時間;以及一平台選擇模組,係電性連接該排程模組,其具有至少一記憶體、複數個分析平台與一電性連接該至少一記憶體及該複數個分析平台之選擇單元。
  6. 如申請專利範圍第5項所述基於深度學習之大數據分析平台排程系統,其中該排程模組係根據該複數筆資料集之優先等級、預測之分析時間以及記憶體剩餘量進行排程。
  7. 如申請專利範圍第5項所述基於深度學習之大數據分析平台排程系統。
  8. 如申請專利範圍第5項所述基於深度學習之大數據分析平台排程系統,其中該平台選擇模組之複數個分析平台具有Rhadoop平台與SparkR平台;該平台選擇模組之記憶體剩餘量低於或等於3G時即選用Rhadoop平台,該平台選擇模組之記憶體剩餘量高於3G時即選用SparkR平台。
TW108115752A 2019-05-07 2019-05-07 基於深度學習之大數據分析平台排程系統及方法 TWI714078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108115752A TWI714078B (zh) 2019-05-07 2019-05-07 基於深度學習之大數據分析平台排程系統及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108115752A TWI714078B (zh) 2019-05-07 2019-05-07 基於深度學習之大數據分析平台排程系統及方法

Publications (2)

Publication Number Publication Date
TW202042247A TW202042247A (zh) 2020-11-16
TWI714078B true TWI714078B (zh) 2020-12-21

Family

ID=74201295

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108115752A TWI714078B (zh) 2019-05-07 2019-05-07 基於深度學習之大數據分析平台排程系統及方法

Country Status (1)

Country Link
TW (1) TWI714078B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201430832A (zh) * 2013-01-29 2014-08-01 Tencent Tech Shenzhen Co Ltd 自動語音識別方法和系統
CN104657221A (zh) * 2015-03-12 2015-05-27 广东石油化工学院 一种云计算中基于任务分类的多队列错峰调度模型及方法
CN106445701A (zh) * 2016-09-21 2017-02-22 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106547627A (zh) * 2016-11-24 2017-03-29 郑州云海信息技术有限公司 一种Spark MLlib数据处理加速的方法及系统
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
US20180046894A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Method for optimizing an artificial neural network (ann)
CN108880663A (zh) * 2018-07-20 2018-11-23 大连大学 基于改进遗传算法的天地一体化网络资源分配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201430832A (zh) * 2013-01-29 2014-08-01 Tencent Tech Shenzhen Co Ltd 自動語音識別方法和系統
CN104657221A (zh) * 2015-03-12 2015-05-27 广东石油化工学院 一种云计算中基于任务分类的多队列错峰调度模型及方法
US20180046894A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Method for optimizing an artificial neural network (ann)
CN106445701A (zh) * 2016-09-21 2017-02-22 腾讯科技(深圳)有限公司 数据处理方法和装置
CN106547627A (zh) * 2016-11-24 2017-03-29 郑州云海信息技术有限公司 一种Spark MLlib数据处理加速的方法及系统
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
CN108880663A (zh) * 2018-07-20 2018-11-23 大连大学 基于改进遗传算法的天地一体化网络资源分配方法

Also Published As

Publication number Publication date
TW202042247A (zh) 2020-11-16

Similar Documents

Publication Publication Date Title
CN110737529B (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
CN111309479B (zh) 一种任务并行处理的实现方法、装置、设备和介质
CN104951425B (zh) 一种基于深度学习的云服务性能自适应动作类型选择方法
CN104298550B (zh) 一种面向Hadoop的动态调度方法
CN113467944B (zh) 面向复杂软件系统的资源部署装置及方法
Tong et al. DDQN-TS: A novel bi-objective intelligent scheduling algorithm in the cloud environment
CN113157421B (zh) 一种基于用户作业流程的分布式集群资源调度方法
CN112540849A (zh) 一种分布式计算作业的参数配置优化方法及系统
Tang et al. Nanily: A qos-aware scheduling for dnn inference workload in clouds
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
Shukla et al. FAT-ETO: Fuzzy-AHP-TOPSIS-Based efficient task offloading algorithm for scientific workflows in heterogeneous fog–cloud environment
Li et al. Study of manufacturing cloud service matching algorithm based on OWL-S
CN110084507A (zh) 云计算环境下分级感知的科学工作流调度优化方法
TWI714078B (zh) 基於深度學習之大數據分析平台排程系統及方法
CN111144701B (zh) 一种分布式环境下etl作业调度资源分类评估的方法
CN117555683A (zh) 基于深度强化学习的云集群资源调度方法
CN114650321A (zh) 用于边缘计算的任务调度方法及边缘计算终端
CN109271295B (zh) 一种云集群环境下的异常作业预测方法
CN115827944B (zh) 基于互联网平台系统优化的大数据分析方法及服务器
CN111930485A (zh) 一种基于性能表现的作业调度方法
Tuli et al. Optimizing the performance of fog computing environments using ai and co-simulation
Li et al. The extreme counts: modeling the performance uncertainty of cloud resources with extreme value theory
CN112598112B (zh) 一种基于图神经网络的资源调度方法
Setayesh et al. An efficient online prediction of host workloads using pruned GRU neural nets
CN113504966A (zh) Gpu集群调度策略模拟方法及gpu集群模拟器