TWI550418B - Real - time processing method and device and application system of huge amount of streaming data - Google Patents

Real - time processing method and device and application system of huge amount of streaming data Download PDF

Info

Publication number
TWI550418B
TWI550418B TW103142344A TW103142344A TWI550418B TW I550418 B TWI550418 B TW I550418B TW 103142344 A TW103142344 A TW 103142344A TW 103142344 A TW103142344 A TW 103142344A TW I550418 B TWI550418 B TW I550418B
Authority
TW
Taiwan
Prior art keywords
data
database
converted
streaming
streaming data
Prior art date
Application number
TW103142344A
Other languages
English (en)
Other versions
TW201621711A (zh
Inventor
Yao Tsung Wang
Yu Lin Yeh
Jui Hsing Hsu
Wei Jhih Chen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to TW103142344A priority Critical patent/TWI550418B/zh
Priority to CN201510411832.7A priority patent/CN105677691A/zh
Priority to JP2015176280A priority patent/JP6099712B2/ja
Priority to SG10201509883TA priority patent/SG10201509883TA/en
Priority to US14/956,411 priority patent/US20160162550A1/en
Publication of TW201621711A publication Critical patent/TW201621711A/zh
Application granted granted Critical
Publication of TWI550418B publication Critical patent/TWI550418B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

巨量串流資料即時處理方法及其裝置與應用系統
本發明係與巨量資料即時處理與資料倉儲領域有關,特別是關於一種巨量串流資料的即時處理方法及其裝置與應用系統,藉此達到即時查詢與即時告警等管理功效。
企業以往利用資料分析輔助決策過程時,常面臨一些問題,例如企業內部各個部門的資訊系統在原始設計上常以達成該部門目標為主,各資訊系統之間常個別獨立,缺乏整合的結果導致各個資料孤井(data silos)散落各地,造成企業「資料存得很多但真正具有情報價值的資訊卻不足」的情況。為了達到資料的統合與匯整,以提供必需資訊協助決策者做成決策,企業常透過具有大量儲存與快速分析等能力的「資料倉儲(data warehouse)」,將以往龐大、散落各地且無法深入整理分析的營運資料,建立成為一個整合性資料庫。透過資料倉儲,企業可以靈活地分析、運用、探索各式資料,協助企業訂定精準的營運決策。
資料倉儲於產業界的運用,如第1圖所示。來自複數個資料源10的資料,傳統上會先彙整儲存於一關聯式資料庫11,之後該些資料以批次的方式,經一ETL工具12進行萃取、轉置與載入等前處理(pre-processing)後,匯入一資料倉儲13,後續當有需要的時候,透過一批次分析運算工具14對資料倉儲13中的資料進行進一步的分析以供查詢 (未顯示),或是產生一統計報表15。
上述資料倉儲的運用,可執行於半導體界的製程中(例如蝕刻、黃光等),或娛樂界的線上遊戲生命週期管理等領域。若以半導體製程為例,該等資料源10係由複數個生產機台所構成,該些生產機台持續產生的資訊被傳送至該關聯式資料庫11,亦即該關聯式資料庫11係用以儲存半導體製程的資料例如日誌。在經驗上,該關聯式資料庫11其儲存容量上限頂多為儲存約14天左右的資料量,然而半導體業界多數製程的期間都長於14天,所以實務上的作法是,每天將關聯式資料庫11中的資料經該ETL工具12進行數小時的前處理之後,轉存至儲存容量較大之該資料倉儲13,經驗上該資料倉儲13的保存期限約2年以上。當有需要的時候,存於該資料倉儲13中的資料經該批次分析運算工具14進行進一步的處理,例如製程良率的分析,之後分析結果可供第三方進行即時查詢,甚至是產出該統計報表15以作為決策之用。經驗上該批次分析運算工具14的處理頻率為每月執行一次,每次需時數小時以上。
上述傳統作法存在一些缺點,例如從該些資料源10至該關聯式資料庫11這一段流程,因對半導體產業來說至關重要,是以實務上該段流程的設計非必要不會更動,在此情況下,該關聯式資料庫11的容量不足以容納整個完整製程的資料量,該關聯式資料庫11也無法隨意橫向擴充。再者,匯存於關聯式資料庫11的資料是以批次的方式,經該ETL工具12進行前處理,過程耗時,是以無法提供即時告警。此外,當該等資料源10之資料量持續增加時,該資料倉儲13亦需進行擴充,軟體授權與硬體升級都將衍生龐大費用負擔。以上情況,皆不利半導體業達到「在合理成本 管控下即時掌握製程狀況」目標。
類似的情況也發生在線上遊戲領域。該等資料源10之來源係為複數個玩家的裝置端,例如手機、電腦或甚至是遊戲機等,各玩家的遊戲登入與付費等相關資訊匯存於該關聯式資料庫11,每天經該ETL工具12以批次的方式進行為時數小時的前處理後,轉存入該資料倉儲13。線上遊戲運營商可根據一預設頻率(例如每月),利用該批次分析運算工具14對存於資料倉儲13的資料進行進一步的運算以供查詢,或甚至匯出該統計報表15來協助線上遊戲運營商管理產品的生命週期。由於線上遊戲領域之產品生命週期越來越短,故亟需能「在合理成本條件下達成產品績效即時分析」的方法與裝置,以便優化產品組合,快速制訂精準的市場行銷策略。
有鑑於此,本發明人感其目前之習知技術未臻完善而竭其心智苦心研究,並憑其從事該項產業多年之累積經驗,提出全新之巨量串流資料即時處理方法與裝置,以期改善上述習知技術存在之缺失。
鑑於上述問題,本發明之目的在於提供一種巨量串流資料即時處理方法及其系統架構,透過該方法可以將巨量串流資料作即時性處理,同時並提出執行該方法所對應之系統架構,且進一步地運用該方法與該系統架構,對來自各關聯式資料庫之各式資料進行巨量串流資料的即時管理。
為達上述目的,本發明係提出一種巨量串流資料即時處理方法,供以透過網路連線接收至少一關聯式資料庫提供之複數個串流資料進行即時處理後,對應輸出至少一非關聯式資料庫儲存,方法包含:根據網 路連線之複數個連接埠識別該關聯式資料庫之資料種類;設定由該關聯式資料庫傳送之該等串流資料之一通訊模式係為同步式模式或非同步式模式;根據一主索引依序取得每筆遞增之該等串流資料;判斷作為來源提供之該關聯式資料庫與作為目的接收之該非關聯式資料庫其資料型態是否一致,若一致則該等串流資料無需轉換;若不一致則將該等串流資料轉換成該非關聯式資料庫之資料型態;及根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫。
在一較佳實施例中,為加強網路回應速度以及為降低系統各軟體組件間之耦合性,以利可獨立發展及擴充部署架構,其中,根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫步驟,若該通訊模式係為非同步式,將轉換後或無須轉換之該等串流資料先暫存於一記憶體,屆至該等串流資料陸續於該記憶體存放至一預定資料狀態時,一次性寫入該非關聯式資料庫。
為達前述目的,本發明亦提出一種可執行前述即時處理方法的串流資料處理引擎,包含:一連接埠識別模組,供以根據網路連線之複數個連接埠識別該關聯式資料庫之資料種類;一通訊模式設定模組,電信連接該連接埠識別模組,藉由該關聯式資料庫之資料種類進一步分別設定由該關聯式資料庫傳送之該等串流資料之一通訊模式係為同步式模式或非同步式模式;一接收模組,電信連接該通訊模式設定模組,並依序取得每筆遞增之該等串流資料;一轉換模組,電信連接該接收模組,供以判斷作為來源提供之該關聯式資料庫與作為目的接收之該非關聯式資料庫其資料型態是否一致,若一致則該等串流資料無需轉換;若不一致則將該等串流 資料轉換成該非關聯式資料庫之資料型態;及一輸出模組,電信連接該接收模組,並根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫;其中,若該通訊模式係為非同步式,將轉換後或無須轉換之該等串流資料先暫存於一記憶體,屆至該等串流資料陸續於該記憶體存放為一預定資料狀態時,一次性寫入該非關聯式資料庫。
進一步地,利用前述之即時處理方法與串流資料處理引擎,本發明更提出一種巨量串流資料之即時處理系統,其包含:一主資料庫,係為結構化資料庫類型並含有複數個串流資料;一從資料庫,係為結構化資料庫;一備份器,電信連接該主資料庫與該從資料庫,該備份器具有熱備份功能而將該主資料庫內資料同步更新至該從資料庫;一ETL工具,係電信連接該主資料庫;一資料倉儲,係為結構化資料庫類型並電信連接該ETL工具,其中該主資料庫提供之該等串流資料係經該ETL工具前處理後傳送至該資料倉儲儲存;前述之該串流資料處理引擎,電信連接該從資料庫,其中該從資料庫提供之該等串流資料係傳送至該串流資料處理引擎;及一分散式資料庫,係為非結構化資料庫類型並電信連接該串流資料處理引擎供以寫入該串流資料處理引擎處理後之該等串流資料。
於另一較佳實施例中為能供管理人員即時確認目標到達度、業績管理程度、商業分析狀況等報表,前述之巨量串流資料之即時處理系統更包含有一即時提報單元,係電信連接該分散式資料庫,供以即時提供該分散式資料庫所存資料之一變異狀態。在某些領域例如半導體製程產業,為了達到更快速即時知悉晶圓製程良率狀況的目的,可先由資料倉儲之該等串流資料透過一批次分析運算工具處理後得一告警水準值,然後 由該即時提報單元根據該告警水準值,與上述該變異狀態相互比對後,產生即時告警通知,以利後續管理人員進行相對應的即時處理。
本發明所提出之巨量串流資料即時處理方法、裝置與其系統,可達到秒速等級之即時查詢及即時告警等管理功效,同時因建構的是分散式的即時處理環境,亦可避免傳統上須以高昂代價不斷擴充軟體授權與硬體升級來因應巨量資料處理之作法,進而大幅降低建置成本。
【習知技術】
10‧‧‧資料源
11‧‧‧關聯式資料庫
12‧‧‧ETL工具
13‧‧‧資料倉儲
14‧‧‧批次分析運算工具
15‧‧‧統計報表
【本發明】
20、60‧‧‧串流資料處理引擎
200‧‧‧連接埠識別模組
201‧‧‧通訊模式設定模組
202‧‧‧接收模組
203‧‧‧轉換模組
204‧‧‧輸出模組
30‧‧‧關聯式資料庫
40‧‧‧非關聯式資料庫
61‧‧‧主資料庫
62‧‧‧ETL工具
63‧‧‧資料倉儲
64‧‧‧批次分析運算工具
65‧‧‧統計報表
66‧‧‧從資料庫
67‧‧‧備份器
68‧‧‧分散式資料庫
69‧‧‧即時提報單元
S50、S51、S52、S53、S54、 S530、S532、S540、S542、 S5401、S5402、S5421、S5422‧‧‧步驟
第1圖,為習知運用資料倉儲示意圖。
第2圖,為本發明較佳實施例之串流資料處理架構之方塊示意圖。
第3圖,為本發明較佳實施例之串流資料處理引擎之方塊示意圖。
第4圖,為本發明較佳實施例之巨量串流資料即時處理方法流程示意圖(一)。
第5A、5B圖,為本發明較佳實施例之巨量串流資料即時處理方法流程示意圖(二)。
第6圖,為本發明較佳實施例之巨量串流資料之即時處理系統架構示意圖。
為使 貴審查委員能清楚了解本創作之內容,謹以下列說明搭配圖式進行闡述,同時為便於理解與閱讀,下述實施例中之相同元件係以相同之元件符號標示呈現。
請參閱第2圖至第4圖,其係分別為本發明較佳實施例之串流資料處理架構之方塊示意圖、串流資料處理引擎之方塊示意圖及巨量串流資料即時處理方法流程示意圖(一)。由第4圖及第2圖觀之,本發明係提出一種巨量串流資料即時處理方法以及執行該方法之一種串流資料處理引擎20。其中該串流資料處理引擎20係供以透過網路連線接收至少一關聯式資料庫30提供之複數個串流資料(圖未標示)進行即時資料轉換後,對應輸出至少一非關聯式資料庫40儲存。由於該等串流資料係源源不絕產生之大量資料,因此針對該等串流資料係以箭頭表示其資料之流動方向。與此相迥者,傳統之關聯資料處理係先將資料寫入存在硬碟之表格中,並在應用程式發布查詢要求時一併對硬碟內所有資料進行處理,再將查詢結果暫存至記憶體。由於每次查詢時皆需進行與此相同之運算處理,是以隨著資料量的增加將導致運算效能降低,且在進行讀寫動作時會對硬碟進行存取,於是執行查詢動作時將產生時間差而無法達到即時處理。故,透過本發明提出之串流資料即時處理方法由於毋須將資料寫入硬碟,因此可達到秒速等級之即時處理效果。其中,該關聯式資料庫30為複數設置時,亦採用相同方式處理該等串流資料。
請再次同時參照第2至4圖,其中該巨量串流資料即時處理方法係包含有以下步驟,首先為了辨識由該些關聯式資料庫30傳送之該等串流資料種類為何,以利後續之轉換處理及存入該非關聯式資料庫40之對應設定,是以係先根據網路連線之複數個連接埠(圖未標示)識別該些關聯式資料庫30之資料種類與格式。透過此方式可快速由常用或已經設定之連接埠確認該等串流資料來源屬性,例如常用之FTP使用該連接埠21位置(port 21),或HTTP使用該連接埠80位置(port 80)等即為適例。又此部分關於該等連接埠之概念係為邏輯上存在而非實際硬體設置,故於第3圖之方塊示意圖中並未予以特別標示,上述說明即為步驟S50。
進一步地,為了加強網路回應速度等考量,透過非同步式作業係為本發明接續選擇之手段。所謂非同步作業係指業務間訊息傳遞並非同時呼叫,而是將一個業務操作分成多個階段,且每個階段之間係透過共用資料之方式非同步進行協作。又,非同步式作業亦可降低軟體組件間之耦合性,對於系統架構中各層之獨立發展亦存在優點。是以,當前述利用該等連接埠識別該些關聯式資料庫30之資料種類後,接續地進一步設定由該些關聯式資料庫30所傳送之該等串流資料之一通訊模式係為同步式模式或非同步式模式,此即步驟S51。
再來即是根據一主索引依序取得每筆遞增之該等串流資料,此即步驟S52。由於該等串流資料係由該些關聯式資料庫30提供之結構化資料,而鑑於該非關聯式資料庫40可儲存非結構化資料之特性與優點,例如以NoSQL資料庫為說明,該種資料庫係以一個鍵(Key)對應到一個值(Value)的組合;或以一組鍵值(Key-Value)與追加鍵(Column Family)來描述資料,因結構單純,無需定義資料間之關聯性,且於初始亦無需對資料庫結構事先定義而可彈性變更描述,故存在可儲存資料量較大,擴充性較佳等優點。於是針對串流資料做轉換,以存入非結構化資料為主之該非關聯式資料庫40,乃係後續方法欲執行之步驟。
承前步驟,接續進一步判斷作為來源提供之該些關聯式資料庫30與作為目的接收之該非關聯式資料庫40其資料型態是否一致,即此 步驟S53;若一致時則該等串流資料無需轉換,即此步驟S530;若不一致則將該等串流資料轉換成該非關聯式資料庫40之資料型態,此即步驟S532。而當執行完該步驟S530及步驟S532後根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫40,此即步驟S54。
請再一併參照第5A及5B圖,係為本發明較佳實施例之巨量串流資料即時處理方法流程示意圖(二),此流程係與第4圖架構相同,僅係針對步驟S54再進一步為詳細說明,因此針對相同之步驟內容,於此則不再贅述。首先,由於為因應企業組織型態中不同之資訊系統,因此在該些關聯式資料庫中亦可能再細分為多數不同之異質類型的關聯式資料庫,又針對不同之資安規範需求,以及對於後續引入整體系統架構時可增加其擴充性與網路回應速度,因此對於多數不同之異質類型的關聯式資料庫所儲存之資料,可再進一步針對該通訊模式設定為同步式或非同步式。
經驗上使用非同步式之該通訊模式可改善網路之擴充性與系統效能,原理上係可利用訊息佇列方式實現。亦即使用同步式之該通訊模式其資料將直接寫入資料庫中,當在高平行處理環境下,會對資料庫造成極大負擔,使得回應延遲加劇。但當採用訊息佇列方式後,對於外部請求或傳送之資料發送給訊息佇列後將立即回傳,再由訊息佇列的處理程序(通常情況下該處理程序係獨立部署在專門之伺服器叢集上,可稱之為訊息佇列伺服器)取得資料並非同步寫入資料庫中。由於該訊息佇列伺服器處理速度遠快於資料庫,因此關於回應延遲部分可獲得有效改善。由於該等串流資料之處理並非將其寫入硬碟中而係直接在記憶體上做處理,同時對於前次所處理之結果將存成中期資料,下次便無須再重新全部處理,而只需 對湧入記憶體的新資料與中期資料間差異(Diff)進行處理即可。是以,此種輸入到結果輸出間的延遲甚或可控制在百萬分之一秒的水準,進而實現每秒數十萬至數百萬筆資料的超高處理速度。
故,承前所述,關於步驟S54,係根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫40。該步驟詳細內容如下說明。首先需針對無須轉換(步驟S530)或已轉換(步驟S532)之該等串流資料再進一步判斷該通訊模式是否為同步式,此即步驟S540與步驟S542之判斷式流程。後續於該步驟S540認定為同步式時,即將無須轉換之該等串流資料一次性寫入該非關聯式資料庫40,此即步驟S5401;反之,若該通訊模式係為非同步式,則將無須轉換之該等串流資料先暫存於一記憶體,並屆至該等串流資料陸續於該記憶體存放至對應之一預定資料狀態時,一次性寫入該非關聯式資料庫40,此即步驟S5402。與此相同者,對於經轉換後之該等串流資料於同步式與非同步式之該通訊模式認定後,亦為相同之處理方式。即於該步驟S542認定為同步式時,即將轉換後之該等串流資料一次性寫入該非關聯式資料庫40,此即步驟S5421;反之,若該通訊模式係為非同步式,則將轉換後之該等串流資料先暫存於該記憶體,並屆至該等串流資料陸續於該記憶體存放至對應之該預定資料狀態時,一次性寫入該非關聯式資料庫40,此即步驟S5422
請再次參閱第3圖,該圖所示之串流資料處理引擎即是用以執行如第4圖與第5A、5B圖流程之裝置。因此,以下僅對裝置中各模組之連結關係為說明,至於執行之流程及運作方式與前示第4圖與第5A、5B圖所述相同,故參閱前述之說明內容而於此亦不再贅述。又該裝置中之各 該模組係指例如電腦等計算機之硬體設施以及與其協同運作之應用軟體合併稱之。
如第3圖所示,該串流資料處理引擎20係包含,一連接埠識別模組200、一通訊模式設定模組201、一接收模組202、一轉換模組203,及一輸出模組204。其中該連接埠識別模組200係供以根據網路連線之該等連接埠識別該些關聯式資料庫30之資料種類與型態。至於該通訊模式設定模組201係電信連接該連接埠識別模組200,並藉由該些關聯式資料庫30之資料種類進一步分別設定由該些關聯式資料庫30傳送之該等串流資料之該通訊模式係為同步式模式或非同步式模式。而該接收模組202係電信連接該通訊模式設定模組201,並依序取得每筆遞增之該等串流資料以為後續之即時性處理。亦即將該等串流資料傳送至該轉換模組202,其中該轉換模組202係電信連接該接收模組202,供以判斷作為來源提供之該些關聯式資料庫30與作為目的接收之該非關聯式資料庫40其資料型態是否一致,若一致則該等串流資料無需轉換;若不一致則將該等串流資料轉換成該非關聯式資料庫40之資料型態。最後,透過該輸出模組204將資料傳送至該非關聯性資料庫40。其中該輸出模組204係電信連接該接收模組202,並根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫40;進一步地,若該通訊模式係為非同步式,將轉換後或無須轉換之該等串流資料先暫存於該記憶體,並屆至該等串流資料陸續於該記憶體存放為該預定資料狀態時,一次性寫入該非關聯式資料庫40。
請一併參閱第6圖,係為本發明較佳實施例之巨量串流資料之即時處理系統架構示意圖。此架構係結合如第2至3圖所示之該串流資 料處理引擎20用以實現即時處理之目的,因此執行方法上亦係包含有如第4至5A、5B圖所示流程。如圖觀之,該巨量串流資料之即時處理系統,包含:一主資料庫61、一從資料庫66、一備份器67、一ETL工具62、一資料倉儲63、如前所述之一串流資料處理引擎60、及一分散式資料庫68。架構上其設置目的係欲將串流資料一分為二個相同內容之不同處理路徑,以期實現即時處理目的並兼容傳統資料倉儲之管理功能,如此一來即可不破壞既有之架構又可獨立擴充即時處理之功效。因此當該主資料庫61係設置為結構化資庫類型並提供複數個串流資料時,該從資料庫66亦係設置為結構化資料庫。接著透過該備份器67將二者進行資料同步化備份,是以該備份器67係電信連接該主資料庫61與該從資料庫66,且該備份器67具有熱備份功能而可將該主資料庫61內資料隨時同步更新至該從資料庫66,如此即可實現將二個相同內容分別為不同處理之功效。
接續地,探究該主資料庫61所提供之該等串流資料,其傳送路徑係傳送至該ETL工具62,且該ETL工具62電信連接該主資料庫61,而當該主資料庫61提供之該等串流資料經該ETL工具62前處理後再傳送至該資料倉儲63進行儲存,且該資料倉儲63亦係為結構化資料庫類型,而在一定週期下,該資料倉儲所儲存之資訊係可透過一批次分析運算工具64進行進一步之處理,處理結果可選擇性地呈現於一統計報表65。此部分系統架構係與傳統之架構相容,惟此架構乃無法達到即時警示或即時處理巨量該等串流資料之功效。因此結合本發明前述所提出之該串流資料處理引擎60,針對該從資料庫66所備份提供之該等串流資料進行即時處理,而後再傳送並寫入該分散式資料庫68。因此該串流資料處理引擎60亦係電信 連接該從資料庫66,而該分散式資料庫68同為非結構化資料庫類型並電信連接該串流資料處理引擎60供以寫入經該串流資料處理引擎60轉換處理後之該等串流資料。
進一步地,該巨量串流資料即時處理系統更包含有一即時提報單元69,該即時提報單元69係電信連接該分散式資料庫68,供以即時提供該分散式資料庫68所存資料之一變異狀態。其中所謂之該變異狀態舉例來說,例如於線上遊戲領域中關於商業分析考量所產出之玩家生命週期即時報表。又由於系統兼具有即時處理之功效,透過傳統之系統架構可得知其管控之標準狀態為何。是以,為了達到更有效率之監控與即時處理,可先透過該批次分析運算工具64與該資料倉儲63電信連接,且該資料倉儲63中之該等串流資料透過該批次分析運算工具64進行處理後而得一告警水準值,該即時提報單元69再根據該告警水準值,與該變異狀態相互比對後為即時告警通知。以半導體製程為例,當蝕刻製程量測結果產生異常時,如發生過度蝕刻等狀況,該系統可發出即時告警之主動性提示,而後續接收該即時告警通知之相關人員便可馬上做出相對應的緊急處置與調整。
本發明之提出與其對應之功效主要係針對先前技術所述架構存在的缺失予以改善,以期得到較佳之即時性處理回應。嚴格來說,網路架構並非無中生有或毫無意義的獨自存在,正確而言所有的網路架構與發展皆係為了解決及因應已不敷應對之實際狀況,進而提出可資負荷之整體性架構。換言之,單就網路架構中之各軟硬體概念予以細部拆解或許並非屬新穎,惟實際運作上將各基礎概念結合並架構網路部署絕對是有其對 應欲解決之目的而存在。是以,本發明之技術手段皆有其不可任意切割或隨意拼裝之完整性,否則將無法實現本發明所欲達到之功效。當然若以本發明之架構為基礎予以擴充則不與本發明之目的與功效產生扞格,併予敘明。
以上所述者,僅為本發明之較佳實施例而已,並非用以限定本發明申請專利範圍之權利主張,故該所屬技術領域中具有通常知識者,或是熟悉此技術所作出之等效或輕易變化,例如為導入分散式應用服務、分散式靜態資源、分散式資料儲存與分散式運算等,而將系統架構為分層或分割並透過部署單一或多台伺服器叢集方式呈現,或操作流程之前後順序調整等,在不脫離本發明範圍下所作之均等置換與修飾,仍皆應涵蓋於本發明之專利範圍內。
20‧‧‧串流資料處理引擎
200‧‧‧連接埠識別模組
201‧‧‧通訊模式設定模組
202‧‧‧接收模組
203‧‧‧轉換模組
204‧‧‧輸出模組

Claims (6)

  1. 一種巨量串流資料即時處理方法,供以透過網路連線接收至少一關聯式資料庫提供之複數個串流資料進行即時資料處理後,對應輸出至少一非關聯式資料庫儲存,包含:根據網路連線之複數個連接埠識別該關聯式資料庫之資料種類;設定由該關聯式資料庫傳送之該等串流資料之一通訊模式係為同步式模式或非同步式模式;根據一主索引依序取得每筆遞增之該等串流資料;判斷作為來源提供之該關聯式資料庫與作為目的接收之該非關聯式資料庫其資料型態是否一致,若一致則該等串流資料無需轉換;若不一致則將該等串流資料轉換成該非關聯式資料庫之資料型態;及根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫。
  2. 如申請專利範圍第1項所述之巨量串流資料即時處理方法,其中,根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫步驟,若該通訊模式係為非同步式,將轉換後或無須轉換之該等串流資料先暫存於一記憶體,屆至該等串流資料陸續於該記憶體存放至一預定資料狀態時,一次性寫入該非關聯式資料庫。
  3. 一種執行申請專利範圍第1或2項其中任一項所述方法的串流資料處理引擎,供以透過網路連線接收至少一關聯式資料庫提供之複數個串流資料進行即時資料轉換後,對應輸出至少一非關聯式資料庫儲存,包含:一連接埠識別模組,供以根據網路連線之複數個連接埠識別該關聯 式資料庫之資料種類;一通訊模式設定模組,電信連接該連接埠識別模組,藉由該關聯式資料庫之資料種類進一步分別設定由該關聯式資料庫傳送之該等串流資料之一通訊模式係為同步式模式或非同步式模式;一接收模組,電信連接該通訊模式設定模組,並依序取得每筆遞增之該等串流資料;一轉換模組,電信連接該接收模組,供以判斷作為來源提供之該關聯式資料庫與作為目的接收之該非關聯式資料庫其資料型態是否一致,若一致則該等串流資料無需轉換;若不一致則將該等串流資料轉換成該非關聯式資料庫之資料型態;及一輸出模組,電信連接該接收模組,並根據該通訊模式將轉換後或無須轉換之該等串流資料對應寫入該非關聯式資料庫;其中,若該通訊模式係為非同步式,將轉換後或無須轉換之該等串流資料先暫存於一記憶體,屆至該等串流資料陸續於該記憶體存放為一預定資料狀態時,一次性寫入該非關聯式資料庫。
  4. 一種巨量串流資料之即時處理系統,其包含:一主資料庫,係為結構化資料庫類型並提供複數個串流資料;一從資料庫,係為結構化資料庫;一備份器,電信連接該主資料庫與該從資料庫,該備份器具有熱備份功能而將該主資料庫內資料同步更新至該從資料庫;一ETL工具,係電信連接該主資料庫;一資料倉儲,係為結構化資料庫類型並電信連接該ETL工具,其中 該主資料庫提供之該等串流資料係經該ETL工具前處理後傳送至該資料倉儲儲存;如申請專利範圍第3項所述之一串流資料處理引擎,電信連接該從資料庫,其中該從資料庫提供之該等串流資料係傳送至該串流資料處理引擎;及一分散式資料庫,係為非結構化資料庫類型並電信連接該串流資料處理引擎供以寫入經該串流資料處理引擎處理後之該等串流資料。
  5. 如申請專利範圍第4項所述之即時處理系統,更包含:一即時提報單元,係電信連接該分散式資料庫,供以即時提示該分散式資料庫所存資料之一變異狀態。
  6. 如申請專利範圍第5項所述之即時處理系統,其中,係先將該資料倉儲之該等串流資料,透過一批次分析運算工具處理後得一告警水準值,該即時提報單元再根據該告警水準值,與該變異狀態相互比對後為即時告警通知。
TW103142344A 2014-12-05 2014-12-05 Real - time processing method and device and application system of huge amount of streaming data TWI550418B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
TW103142344A TWI550418B (zh) 2014-12-05 2014-12-05 Real - time processing method and device and application system of huge amount of streaming data
CN201510411832.7A CN105677691A (zh) 2014-12-05 2015-07-14 巨量串流数据实时处理方法及其装置与应用系统
JP2015176280A JP6099712B2 (ja) 2014-12-05 2015-09-08 ビッグストリームデータのリアルタイム処理方法、ストリームデータ処理エンジン及びビッグストリームデータのリアルタイム処理システム
SG10201509883TA SG10201509883TA (en) 2014-12-05 2015-12-02 Method, apparatus, and application system for real-time processing the data streams
US14/956,411 US20160162550A1 (en) 2014-12-05 2015-12-02 Method, apparatus, and application system for real-time processing the data streams

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103142344A TWI550418B (zh) 2014-12-05 2014-12-05 Real - time processing method and device and application system of huge amount of streaming data

Publications (2)

Publication Number Publication Date
TW201621711A TW201621711A (zh) 2016-06-16
TWI550418B true TWI550418B (zh) 2016-09-21

Family

ID=56094523

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103142344A TWI550418B (zh) 2014-12-05 2014-12-05 Real - time processing method and device and application system of huge amount of streaming data

Country Status (5)

Country Link
US (1) US20160162550A1 (zh)
JP (1) JP6099712B2 (zh)
CN (1) CN105677691A (zh)
SG (1) SG10201509883TA (zh)
TW (1) TWI550418B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484691B (zh) * 2015-08-24 2019-12-10 阿里巴巴集团控股有限公司 移动终端的数据存储方法和装置
CA3018881C (en) * 2016-03-14 2023-01-03 Rubikloud Technologies Inc. Method and system for persisting data
CN107622062A (zh) * 2016-07-13 2018-01-23 天脉聚源(北京)科技有限公司 一种对大批量数据存储的方法和系统
CN106227791B (zh) * 2016-07-20 2020-02-07 广东电网有限责任公司 一种数据存储架构
CN107341198B (zh) * 2017-06-16 2020-05-12 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询方法
US10762109B2 (en) * 2018-07-27 2020-09-01 Salesforce.Com, Inc. Asynchronous deletion in non-relational databases
TWI681302B (zh) * 2018-10-01 2020-01-01 中華電信股份有限公司 用於服務資訊查詢之多層次快取查詢系統及方法
CN111104441A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种数据采集方法及系统
CN111104416A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种分布式电力数据管理系统
US12093316B2 (en) * 2019-01-31 2024-09-17 Hewlett Packard Enterprise Development Lp Partial file system instances
US11392541B2 (en) 2019-03-22 2022-07-19 Hewlett Packard Enterprise Development Lp Data transfer using snapshot differencing from edge system to core system
EP4071631A1 (en) * 2021-04-06 2022-10-12 Amadeus S.A.S. A system and method for exchanging and managing data stored in heterogeneous data sources

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090138446A1 (en) * 2007-11-27 2009-05-28 Umber Systems Method and apparatus for real-time multi-dimensional reporting and analyzing of data on application level activity and other user information on a mobile data network
TW201102833A (en) * 2009-07-06 2011-01-16 Yi-Zhao Yang Method and system of website data sharing and updating among web servers
TW201220071A (en) * 2010-11-09 2012-05-16 Chunghwa Telecom Co Ltd for raising the treatment efficiency by using centralized management of resources stored in cloud platform space and cloud decentralization operation technique
TW201434009A (zh) * 2013-02-21 2014-09-01 Net Orange Inc 用以於網路環境中顯現病患治療措施之系統及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179980A (ja) * 1994-12-26 1996-07-12 Hitachi Ltd 分散データベースシステム
US6049821A (en) * 1997-01-24 2000-04-11 Motorola, Inc. Proxy host computer and method for accessing and retrieving information between a browser and a proxy
US7742687B2 (en) * 2005-03-22 2010-06-22 Mediatek Inc. Digital television recorders and stream format conversion and methods thereof
CN100410896C (zh) * 2005-07-28 2008-08-13 光宝科技股份有限公司 串流数据缓冲装置及其存取方法
WO2013069073A1 (ja) * 2011-11-07 2013-05-16 株式会社日立製作所 時系列データ管理システム、装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090138446A1 (en) * 2007-11-27 2009-05-28 Umber Systems Method and apparatus for real-time multi-dimensional reporting and analyzing of data on application level activity and other user information on a mobile data network
TW201102833A (en) * 2009-07-06 2011-01-16 Yi-Zhao Yang Method and system of website data sharing and updating among web servers
TW201220071A (en) * 2010-11-09 2012-05-16 Chunghwa Telecom Co Ltd for raising the treatment efficiency by using centralized management of resources stored in cloud platform space and cloud decentralization operation technique
TW201434009A (zh) * 2013-02-21 2014-09-01 Net Orange Inc 用以於網路環境中顯現病患治療措施之系統及方法

Also Published As

Publication number Publication date
CN105677691A (zh) 2016-06-15
TW201621711A (zh) 2016-06-16
JP6099712B2 (ja) 2017-03-22
JP2016110620A (ja) 2016-06-20
US20160162550A1 (en) 2016-06-09
SG10201509883TA (en) 2016-07-28

Similar Documents

Publication Publication Date Title
TWI550418B (zh) Real - time processing method and device and application system of huge amount of streaming data
JP6904638B2 (ja) プロセス制御システムにおけるビッグデータの管理
US11057313B2 (en) Event processing with enhanced throughput
US20230252028A1 (en) Data serialization in a distributed event processing system
US11625381B2 (en) Recreating an OLTP table and reapplying database transactions for real-time analytics
US9336288B2 (en) Workflow controller compatibility
JP2020140717A (ja) イベント処理のための動的に型付けされたビッグデータによるイベントの充実化
CN108885641B (zh) 高性能查询处理和数据分析
Isah et al. A scalable and robust framework for data stream ingestion
US20160103914A1 (en) Offloading search processing against analytic data stores
US10430437B2 (en) Automated archival partitioning and synchronization on heterogeneous data systems
US20140358845A1 (en) Data warehouse compatibility
US20160103702A1 (en) Low latency architecture with directory service for integration of transactional data system with analytical data structures
US11243942B2 (en) Parallel stream processing of change data capture
US11249975B2 (en) Data archiving method and system using hybrid storage of data
CN113826084A (zh) 流媒体数据的高效进程外重组
Bosi et al. Cloud-enabled smart data collection in shop floor environments for industry 4.0
Alwidian et al. Big data ingestion and preparation tools
CN111897877B (zh) 基于分布式思想的高性能高可靠数据共享系统及方法
CN113672692B (zh) 数据处理方法、装置、计算机设备和存储介质
WO2016206100A1 (zh) 一种数据表的分区管理方法及装置
US11556497B2 (en) Real-time archiving method and system based on hybrid cloud
US20220327095A1 (en) Data archiving method and system for minimizing cost of data transmission and retrieval
CN112101894A (zh) 选煤智能系统
CN112749236A (zh) 数据仓库的数据维护方法

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees