TWI676109B - 巨量資料及時處理與排班之方法 - Google Patents

巨量資料及時處理與排班之方法 Download PDF

Info

Publication number
TWI676109B
TWI676109B TW107127974A TW107127974A TWI676109B TW I676109 B TWI676109 B TW I676109B TW 107127974 A TW107127974 A TW 107127974A TW 107127974 A TW107127974 A TW 107127974A TW I676109 B TWI676109 B TW I676109B
Authority
TW
Taiwan
Prior art keywords
data
huge
data sources
processing
scheduling
Prior art date
Application number
TW107127974A
Other languages
English (en)
Other versions
TW202009733A (zh
Inventor
王文彥
Wen Yen Wang
Original Assignee
崑山科技大學
Kun Shan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 崑山科技大學, Kun Shan University filed Critical 崑山科技大學
Priority to TW107127974A priority Critical patent/TWI676109B/zh
Application granted granted Critical
Publication of TWI676109B publication Critical patent/TWI676109B/zh
Publication of TW202009733A publication Critical patent/TW202009733A/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明有關於一種巨量資料及時處理與排班之方法,其係由一處理模組對複數個巨量資料源之資料成長速度進行計算,判斷複數個巨量資料源是否達到資料成長門檻值;將符合資料成長門檻值之該複數個巨量資料源依照預估處理時間進行排班,並排入記憶體使用率低的複數個記憶體,再開始分析;藉此,本發明之複數個巨量資料源經過篩選後,僅將符合標準的巨量資料源進行處理與分析,而非將重複的巨量資料源進行處理與分析,以提升巨量資料源之處理效率。

Description

巨量資料及時處理與排班之方法
本發明係有關於一種巨量資料及時處理與排班之方法,尤其係指一種能將不必要進行處理的巨量資料源排除的方法,其係透過資料成長速度去進行判斷,判斷出距離前次該巨量資料源處理完之時間點後,是否有新增新的資料量。
按,巨量資料又被稱為大數據,巨量資料代表的就是大量、複雜和非結構化的資料,單一巨量資料之資料集的大小從數太位元組(TB)至數十兆億位元組(PB)不等,巨量資料在資料的數量上日益增加,而且日益複雜。但巨量資料的分析已經是未來科技發展的趨勢,巨量資料對不同的產業都有不同的意義,舉凡大科學、RFID、感測裝置網路、天文學、大氣學、交通運輸、基因組學、生物學或大社會資料分析,皆能應用到巨量資料的處理分析,亦由於資料龐大的特性,對於巨量資料的資料倉儲系統,必須要能夠處理巨量資料的多樣性與複雜性,亦需要具備巨大的容量與及時處理等特性,以便消費者與分析師可以及時檢視巨量資料。
然而,雖然前端與行動裝置提供可檢視巨量資料的分析結果;但是,目前巨量資料處理方式大部分係使用定時批次方式,讓系統依時間設定去處理分析巨量資料,此種方式無法將及時的狀況反應給使用者知道,因此,分析後的巨量資料往往失去了時效性,且亦具有較耗費系統資源與時間之缺點;而傳統方法中有部分想法是使用即時性的方式,雖可即時反應,但仍需耗費不少系統資源,且分析時並未考量排班與處理方式的關係。中華民國專利公告號TW I522827「用於非關聯式資料庫之巨量資料即時儲存與即時讀取方法」即提供一種能夠即時儲存與讀取巨量資料的方法,係依據即時運算處理效能需求可提供分散式多工存取資料機制,即時讀取程式模組視當下的資料接收介面使用數量,讓多個用戶端程式同時讀取,各自讀取不重覆的資料片段,以增加資料讀取的即時性。
然而,現在巨量資料的處理分析,並未先將巨量資料進行篩選,而是將所有的資料都進行分析,此不僅導致系統極大的效能負擔,亦使處理分析的時間增加;爰此,如何提供一種及時處理巨量資料的方法,並考量排班與處理的相關性,以達到降低系統處理分析之負荷量的目的,此即本發明人所思及之方向。
今,發明人即是鑑於上述現有之巨量資料及時處理與排班之方法於實際實施使用時仍具有多處缺失,於是乃一本孜孜不倦之精神,並藉由其豐富專業知識及多年之實務經驗所輔佐,而加以改善,並據此研創出本發明。
本發明主要目的為提供一種巨量資料及時處理與排班之方法,其係透過資料成長速度去進行判斷巨量資料源是否需要進行處理分析,若巨量資料源為與先前重複的舊資料,即屬於不必要處理的巨量資料源,並及時分析其他新的巨量資料源,以及對應分析之相關性;藉此,降低處理模組分析的負荷量,以提高巨量資料源處理的效能。
為了達到上述實施目的,本發明一種巨量資料及時處理與排班之方法,其方法包含有一處理模組計算複數個巨量資料源之資料成長速度是否達到資料成長門檻值;達到資料成長門檻值之複數個巨量資料源會被匯入處理模組;將符合資料成長門檻值之複數個巨量資料源依照預估處理時間由小到大進行排班;處理模組將複數個巨量資料源排入記憶體使用率低的複數個記憶體,並進行分析;移除分析過後之複數個巨量資料源所佔的複數個記憶體,或保留分析過後之複數個巨量資料源所佔的複數個記憶體,以提供給其他未分析的複數個巨量資料源使用。
於本發明之一實施例中,每一個巨量資料源皆具有至少一對應的分析結果。
於本發明之一實施例中,複數個巨量資料源與至少一分析結果之關係分為一對一、一對多與多對一,共三種資料結構。
於本發明之一實施例中,資料成長速度係以每一個巨量資料源之一新資料量除以一總資料量,總資料量為新資料量與一舊資料量之總和。
於本發明之一實施例中,符合資料成長門檻值之複數個巨量資料源係覆蓋原先處理模組內的舊巨量資料源。
於本發明之一實施例中,複數個巨量資料源之預估處理時間為載入其中一個巨量資料源至複數個記憶體所需的時間加上處理模組處理其中一個巨量資料源所需的時間。
於本發明之一實施例中,若其中一個巨量資料源所佔用的記憶體空間大於每一個記憶體之可用空間,則將該巨量資料源分割,使處理模組分批進行分析。
於本發明之一實施例中,其中一個巨量資料源進行分割時,係分割成2的n次方。
本發明之目的及其結構功能上的優點,將依據以下圖面所示之結構,配合具體實施例予以說明,俾使審查委員能對本發明有更深入且具體之瞭解。
請參閱第一圖,本發明一種巨量資料及時處理與排班之方法,其方法包含有一處理模組計算複數個巨量資料源之資料成長速度是否達到資料成長門檻值,資料成長速度係以每一個巨量資料源之一新資料量除以一總資料量,總資料量為該巨量資料源之新資料量與一舊資料量之總和;達到資料成長門檻值之複數個巨量資料源會被匯入處理模組,且代表每一個達到資料成長門檻值的巨量資料源都具有至少一對應的分析結果,共可分為一對一、一對多與多對一三種資料結構;
符合資料成長門檻值之複數個巨量資料源,可能是全部的資巨量資料源或是部份的巨量資料源,其會覆蓋原先於處理模組內的舊巨量資料源,並依照預估處理時間由小到大進行排班,其中預估處理時間為載入其中一個巨量資料源至複數個記憶體所需的時間加上處理模組處理其中一個巨量資料源所需的時間;處理模組將複數個巨量資料源排入記憶體使用率低的複數個記憶體,並進行分析,若其中一個巨量資料源所佔用的記憶體空間大於每一個記憶體之可用空間,則將該巨量資料源以2的n次方來分割,使處理模組分批進行分析;移除分析過後之複數個巨量資料源所佔的複數個記憶體,或保留分析過後之複數個巨量資料源所佔的複數個記憶體,以提供給其他未分析的複數個巨量資料源使用。
藉此,本發明巨量資料及時處理與排班之方法係讓篩選過後的多個巨量資料源匯入處理模組內進行處理分析,排除掉此次不需要分析的巨量資料源,且根據巨量資料源需要的處理效能進行排班,使本發明不僅能降低處理模組的負荷,亦可讓巨量資料源及時且依序地被處理分析,讓使用者看到的資料係為反應出當時狀況的內容。
此外,藉由下述具體實施例,可進一步證明本發明可實際應用之範圍,但不意欲以任何形式限制本發明之範圍。
請繼續參閱第一圖,本發明一種巨量資料及時處理與排班之方法,主要係從複數個巨量資料源中篩選出可處理分析的巨量資料源,於實施例中,可例如有五個巨量資料源,分別為S1、S2、S3、S4、S5,而巨量資料源於處理模組處理分析後,會對應產生有至少一個分析結果,其形式基本上分為一個巨量資料源對一個分析結果、一個巨量資料源對多個分析結果以及多個巨量資料源對一個分析結果三種資料結構;以本實施例而言,取S5巨量資料源可對應分析出一個分析結果T4,取S1、S2兩個巨量資料源可對應分析出一個分析結果T1,取S3、S4兩個巨量資料源可對應分析出一個分析結果T3,而取S2之巨量資料源可再對應分析出兩個分析結果T1、T2,如第二圖所示;此種巨量資料源與分析結果具有關聯性的,可被稱為「有關係」的項目,以前述四條有關係的項目而言,分別會再對應有4個門檻C1、C2、C3、C4,此即為資料成長門檻值。此有關係的項目為一種組織、安排、儲存資料於電腦記憶體的一種結構。
因此,處理模組就是計算S1、S2、S3、S4、S5之資料成長速度i是否有達到對應的資料成長門檻值C1、C2、C3、C4,而各資料成長門檻值皆不同,係為使用者根據過去巨量資料源成長與經驗累經驗所設定的值;例如S5巨量資料源之資料成長速度i是否有達到對應的資料成長門檻值C4,而此資料成長速度i即是以S5巨量資料源之新資料量除以總資料量,總資料量係為新資料量與舊資料量之總和,其中新資料量定義為前次S5巨量資料源處理分析完之時間點後,所增加的資料量;若巨量資料源之資料成長速度大於或等於資料成長門檻值,代表此巨量資料源可被採用,若巨量資料源之資料成長速度小於資料成長門檻值,則代表此巨量資料源不需要被處理分析;其中,處理模組於計算巨量資料源是否達到資料成長門檻值時,僅需要極短的時間即可運算出結果,對於處理模組之效能負擔係相當小,而若未進行此步驟去篩選出不需要處理分析的巨量資料源,將所有的巨量資料源皆進行分析,則會耗費處理模組龐大的效能與資源。
接續地,匯入有達到資料成長門檻值的巨量資料源至處理模組內,且是只要跟該條巨量資料源有關係之分析項目的所有資料源都會被匯入,例如巨量資料源S2達到資料成長門檻值,會將巨量資料源S1、S2同時匯入處理模組內、巨量資料源S3達到資料成長門檻值,會將巨量資料源S3、S4同時匯入處理模組內,匯入之後的巨量資料源會覆蓋掉舊巨量資料源,並在等待佇列上等候處理分析。
此時,處理模組會計算各個巨量資料源的預估處理時間,預估處理時間=(載入一個巨量資料源至記憶體所需的時間+處理模組處理該巨量資料源所需的時間),所有的巨量資料源之預估處理時間皆被計算出後,係將預估處理時間較少的巨量資料源排在前面,而預估處理時間較長的巨量資料源排在前面則排在後面;於排班時,還需要一併考慮到記憶體的使用率,巨量資料源在處理時通常會使用到複數個記憶體,為了增加處理分析的效率,係會將巨量資料源優先排在記憶體使用率低的記憶體,此記憶體使用率=(一記憶體已被占用的空間+巨量資料源所需要的記憶體空間)/該記憶體的總空間,計算出記憶體使用率通常會小於1,因此就可以優先將預估處理時間較少的巨量資料源先排給該記憶體內進行處理分析,其中,每一筆被排班的巨量資料源,皆會對應其有關係項目之資料結構。
然而,若有一個巨量資料源之分析的項目,對每個記憶體所計算出的記憶體使用率皆大於1,即代表該巨量資料源所需的記憶體空間大於每個記憶體當下的可用空間,因此,可將該巨量資料源依2的n次方進行分割;若n為1,該巨量資料源即分為前半項與後半項,讓記憶體分批儲存,而處理模組會先處理分析該巨量資料源的前半項,再處理分析該巨量資料源的後半項;若n為2,該巨量資料源即分為4個項目,記憶體就將其分成4批儲存,處理模組同樣會依序分批處理。
再者,當某些巨量資料源已經結束處理分析時,可將其於所佔的記憶體中移除,或是保留巨量資料源所佔的記憶體,以提供給其他未分析的巨量資料源使用,以節省其他巨量資料源重複從處理模組之硬碟下載到記憶體的時間。
由上述之實施說明可知,本發明與現有技術相較之下,本發明具有以下優點:
1. 本發明巨量資料及時處理與排班之方法可依照巨量資料源之資料成長速度來判斷巨量資料源是否有新增資料,將不必要進行分析的巨量資料源排除,以降低處理模組的負荷量,提升巨量資料源處理分析的效率。
2. 本發明巨量資料及時處理與排班之方法係依照巨量資料源的預估處理時間,將其由小到大進行排班,並排入記憶體使用率低的記憶體,以增加巨量資料源分析的速度,讓分析後的結果可以即時反應出當時的狀況。
3. 本發明巨量資料及時處理與排班之方法係使用「有關係」的項目之資料結構想法,藉此想法連貫巨量資料源處理與等待排班,將整個巨量資料處理系統進行整合,節省因前後不同資料結構的使用,而使處理模組產生額外的效能需求,避免記憶體增加空間上的負擔。
綜上所述,本發明之巨量資料即時處理與排班方法,的確能藉由上述所揭露之實施例,達到所預期之使用功效,且本發明亦未曾公開於申請前,誠已完全符合專利法之規定與要求。爰依法提出發明專利之申請,懇請惠予審查,並賜准專利,則實感德便。
惟,上述所揭之圖示及說明,僅為本發明之較佳實施例,非為限定本發明之保護範圍;大凡熟悉該項技藝之人士,其所依本發明之特徵範疇,所作之其它等效變化或修飾,皆應視為不脫離本發明之設計範疇。
第一圖:本發明其較佳實施例之流程圖。
第二圖:本發明其較佳實施例之資料結構示意圖。

Claims (7)

  1. 一種巨量資料及時處理與排班之方法,其方法包含有一處理模組計算複數個巨量資料源之資料成長速度是否達到資料成長門檻值,該資料成長速度係以每一該複數個巨量資料源之一新資料量除以一總資料量,而該總資料量為該新資料量與一舊資料量之總和;達到資料成長門檻值之該複數個巨量資料源會被匯入該處理模組;將符合資料成長門檻值之該複數個巨量資料源依照預估處理時間由小到大進行排班;該處理模組將該複數個巨量資料源排入記憶體使用率低的複數個記憶體,並進行分析;移除分析過後之該複數個巨量資料源所佔的該複數個記憶體,或保留分析過後之該複數個巨量資料源所佔的該複數個記憶體,以提供給其他未分析的該複數個巨量資料源使用。
  2. 如申請專利範圍第1項所述巨量資料及時處理與排班之方法,其中每一該複數個巨量資料源皆具有至少一對應的分析結果。
  3. 如申請專利範圍第2項所述巨量資料及時處理與排班之方法,其中該複數個巨量資料源與該至少一分析結果之關係分為一對一、一對多與多對一,共三種資料結構。
  4. 如申請專利範圍第1項所述巨量資料及時處理與排班之方法,其中符合資料成長門檻值之該複數個巨量資料源係覆蓋原先該處理模組內的舊巨量資料源。
  5. 如申請專利範圍第1項所述巨量資料及時處理與排班之方法,其中該複數個巨量資料源之預估處理時間為載入其中一該複數個巨量資料源至複數個記憶體所需的時間,加上該處理模組處理其中一該複數個巨量資料源所需的時間。
  6. 如申請專利範圍第1項所述巨量資料及時處理與排班之方法,其中若其中一該複數個巨量資料源所佔用的記憶體空間大於每一該複數個記憶體之可用空間,則將其中一該複數個巨量資料源分割,使該處理模組分批進行分析。
  7. 如申請專利範圍第6項所述巨量資料及時處理與排班之方法,其中其中一該複數個巨量資料源進行分割時,係分割成2的n次方。
TW107127974A 2018-08-10 2018-08-10 巨量資料及時處理與排班之方法 TWI676109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107127974A TWI676109B (zh) 2018-08-10 2018-08-10 巨量資料及時處理與排班之方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107127974A TWI676109B (zh) 2018-08-10 2018-08-10 巨量資料及時處理與排班之方法

Publications (2)

Publication Number Publication Date
TWI676109B true TWI676109B (zh) 2019-11-01
TW202009733A TW202009733A (zh) 2020-03-01

Family

ID=69189024

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107127974A TWI676109B (zh) 2018-08-10 2018-08-10 巨量資料及時處理與排班之方法

Country Status (1)

Country Link
TW (1) TWI676109B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867219A (zh) * 2012-09-27 2013-01-09 乐华建科技(北京)有限公司 一种业务自动排程系统和方法
TW201541347A (zh) * 2014-04-21 2015-11-01 Nat Univ Tsing Hua 多核心處理器系統及其排程方法
TW201619817A (zh) * 2014-11-21 2016-06-01 財團法人資訊工業策進會 時間序列資料處理方法及其系統

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867219A (zh) * 2012-09-27 2013-01-09 乐华建科技(北京)有限公司 一种业务自动排程系统和方法
TW201541347A (zh) * 2014-04-21 2015-11-01 Nat Univ Tsing Hua 多核心處理器系統及其排程方法
TW201619817A (zh) * 2014-11-21 2016-06-01 財團法人資訊工業策進會 時間序列資料處理方法及其系統

Also Published As

Publication number Publication date
TW202009733A (zh) 2020-03-01

Similar Documents

Publication Publication Date Title
CN111124679B (zh) 一种面向多源异构海量数据限时自动处理方法
US8738837B2 (en) Control of page access in memory
US8595732B2 (en) Reducing the response time of flexible highly data parallel task by assigning task sets using dynamic combined longest processing time scheme
Liu Computing infrastructure for big data processing
CN103336672B (zh) 数据读取方法、装置及计算设备
CN103440288A (zh) 一种大数据存储方法及装置
CN110413776B (zh) 一种基于cpu-gpu协同并行的文本主题模型lda高性能计算方法
CN104778077B (zh) 基于随机和连续磁盘访问的高速核外图处理方法及系统
CN106909554B (zh) 一种数据库文本表数据的加载方法及装置
CN110287038A (zh) 提升Spark Streaming框架的数据处理效率的方法及系统
CN103324765A (zh) 一种基于列存储的多核并行数据查询优化方法
CN103440246A (zh) 用于MapReduce的中间结果数据排序方法及系统
Senthilkumar et al. A survey on job scheduling in big data
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
Mestre et al. Adaptive sorted neighborhood blocking for entity matching with mapreduce
US20160034528A1 (en) Co-processor-based array-oriented database processing
Jeong et al. REACT: Scalable and high-performance regular expression pattern matching accelerator for in-storage processing
CN112200310B (zh) 智能处理器、数据处理方法及存储介质
TWI676109B (zh) 巨量資料及時處理與排班之方法
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN110990340B (zh) 一种大数据多层次存储架构
US11714992B1 (en) Neural network processing based on subgraph recognition
Lou et al. Research on data query optimization based on SparkSQL and MongoDB
Ande et al. tachyon: Efficient Shared Memory Parallel Computation of Extremum Graphs
CN106897450A (zh) 一种基于HDFS海量数据快速导入HBase的方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees