TWI436222B - Real - time multi - dimensional analysis system and method on cloud - Google Patents

Real - time multi - dimensional analysis system and method on cloud Download PDF

Info

Publication number
TWI436222B
TWI436222B TW100149085A TW100149085A TWI436222B TW I436222 B TWI436222 B TW I436222B TW 100149085 A TW100149085 A TW 100149085A TW 100149085 A TW100149085 A TW 100149085A TW I436222 B TWI436222 B TW I436222B
Authority
TW
Taiwan
Prior art keywords
cloud
dimension
analysis
dimensional analysis
dimensional
Prior art date
Application number
TW100149085A
Other languages
English (en)
Other versions
TW201327199A (zh
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW100149085A priority Critical patent/TWI436222B/zh
Priority to CN201210325232.5A priority patent/CN102819616B/zh
Publication of TW201327199A publication Critical patent/TW201327199A/zh
Application granted granted Critical
Publication of TWI436222B publication Critical patent/TWI436222B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

雲端線上即時多維度分析系統與方法
本發明一種線上即時多維度分析系統與方法,係屬於商業智慧(Business Intelligence)與雲端運算(Cloud Computing)的範疇,特別是指運用雲端運算技術來達成系統線上動態增減資源之擴充性、平行計算、超大維度分析、非結構性資料分析等功效者。本發明更進一步擴展了指令產生器與樞紐分析介面的技術。
線上分析作業(Online Analytical Process,OLAP)技術,主要與線上交易作業(Online Transaction Process,OLTP)作區別。線上交易處理即為一般的資料新增刪除修改查詢作業,而線上分析作業則著重於查詢與分析,主要態樣為提供資料之各面向及多維度即時分析,近年來已是商業智慧技術基礎且重要的一環。
隨著雲端運算技術的蓬勃發展,雲端服務或系統對資料處理能力及儲存容量幾乎可無限制動態擴充,伴隨而來的是待分析的資料動輒為規模在數百Tera bytes以上之海量等級,遠遠超過傳統OLAP伺服器所能處理的範圍,如何將商業智慧技術推展應用於雲端運算平台成為一大課題。將線上分析作業與雲端技術結合,將使系統具有線上動態增減資源的擴充性,藉由平行計算而大幅縮短處理時間,並能達成傳統技術所無法做到的超大維度分析,或非結構性之資料分析。目前在雲端運算平台所發展出的線上分析技術較成熟的有Pig OLAP sketch和Zohmg等。Pig OLAP sketch的作法係將資料彙整處理,使資料量大幅減低至傳統OLAP伺服器能處理的範圍,然後匯出至雲端平台外部,由外部的傳統OLAP伺服器來提供即時分析顯示的功效。此作法固然可以達到對雲內資料作線上分析的目的,但平添了將資料匯出至雲外並匯入傳統OLAP伺服器的動作,增加作業複雜度。此外,將資料匯出至雲外後將無法利用雲端架構之可擴充性與平行計算等優點,能處理的資料量會受限於該OLAP伺服器的計算能力與儲存空間,亦無法達成超大維度與非結構化資料的分析。而Zohmg則是所有作業皆在雲端平台內,利用現有雲端運算技術來處理,為與本發明最接近之先前技術,故本章節的探討主要以此先前技術作為比較對象。
傳統線上分析作業為提高查詢階段的效率而採用一種預先處理的技巧,將資料依各層面分析的彙總值預先計算好,儲存成多維結構(MOLAP)或關連結構(ROLAP)或混合結構(HOLAP)的方塊(Cube),在查詢階段因只需依索引取得預先彙總結果而縮短反應時間,滿足線上分析即時性的需求。多維結構多半儲存為檔案,藉由索引檔案位移量直接存取來加快速度,關聯結構則儲存於關聯式資料庫,利用其索引的能力來快速取值。然而在雲端運算架構中皆無這些技巧可用,因而須另尋其它的方法來取代。為提供雲端即時線上分析,先前技術係在Hadoop此一雲端運算平台下,利用HBase此一雲端快速索引儲存機制,儲存預先彙總結果來達成。熟習該項技藝者受限於現有較成熟的可用技術之下,一般也會推導得出這種設計,然而,完整線上分析作業功能在雲端實作時尚有許多困難須突破,並非可輕易達成者。目前雲端運算平台的限制在於快速索引儲存機制單純只有索引存取資料的功能,預先彙總所需之關聯(JOIN)、群組(GROUP BY)、計數(COUNT)、相異計數(DISTINCT COUNT)、加總(SUM)、最大值(MAX)、最小值(MIN)、平均(AVG)等運算須另搭配雲端計算作業,例如具有MapReduce邏輯的平行處理過程,才能完成。先前技術的作法係在資料處理階段產生一套程式專案,由程式設計師修改撰寫其中部分MapReduce程式碼後,交由系統執行預先彙總作業。此方式使得資料處理過程中須有程式專業人員介入才能達成,使用上困難繁雜,亦容易出錯。此外,先前技術在線上分析作業中,係發展出一套http API介面指令,由專業人員下達指令查詢,取得回傳的JSON(JavaScript Object Notation,JavaScript物件表示法)格式資料,解析其中的數值。此方式同樣須倚賴專業人員,並非適合一般使用者操作之介面。綜上所述,先前技術需仰賴專業人員為每個資料處理工作撰寫平行計算程式碼,並為每次查詢下達指令分析回傳結果,既困難繁雜又容易出錯,實非一良善之設計,而亟待加以改良。
本案發明人鑑於上述習用方式所衍生的各項缺點,乃亟思加以改良創新,並經多年苦心孤詣潛心研究後,終於成功研發完成本件雲端線上即時多維度分析系統與方法。
本發明雲端線上即時多維度分析系統與方法的目的,在於揭露一種應用於雲端線上分析作業資料處理階段的自動化技術,藉由指令產生器依據中繼資料生成多層次彙總之指令及程序,自動完成預先彙總作業,無須專業人員介入。
本發明之次一目的在揭露一種於雲端線上分析作業中實作樞紐分析表的方法,提供直觀、視覺化、所見即所得、即時互動的操作方式。
達成上述發明目的之雲端線上即時多維度分析系統與方法,該系統包含一個雲端平行計算平台、複數個原始維度表、一個以上的原始事實表,以及一到多個樞紐分析介面;該雲端平行計算平台具有一個雲端儲存及計算模組、一個雲端快速存取模組、一到多個指令產生器、複數個中繼資料以及一個即時多維度分析模組;該原始維度表及該原始事實表透過一上載傳輸介面上載至該雲端平行計算平台後儲存於該雲端儲存及計算模組;該中繼資料具有該上載儲存資料之內容及關聯資訊;該指令產生器依據該中繼資料產生指令,驅動該雲端儲存及計算模組預先分析該上載儲存資料,計算多維度彙總後,將分析結果及相關資料轉換儲存於該雲端快速存取模組以供即時呈現;該樞紐分析介面透過一傳輸介面與該即時多維度分析模組連接,且該即時多維度分析模組透過一傳輸介面與該雲端快速存取模組連接以即時取得該分析結果及該相關資料;其特徵為該指令產生器係自動產生該多維度彙總及該資料轉換所需之指令,自動完成該彙總及該轉換程序;以及使用者係透過該樞紐分析介面即時互動操作瀏覽樞紐分析結果。該方法包含上載原始維度表及原始事實表至雲端儲存及計算模組、設定中繼資料、預先計算多維度分析結果儲存於雲端快速存取模組、轉換維度及中繼資料至雲端快速存取模組、即時呈現線上樞紐分析結果等步驟。
請參閱圖一、圖二及圖三所示,圖一為本發明雲端線上即時多維度分析系統架構示意圖;圖二為本發明雲端線上即時多維度分析系統之指令產生器與中繼資料細部分解圖;圖三為本發明雲端線上即時多維度分析方法之步驟圖。其相關之實施方式說明於下:圖一揭露本發明雲端線上即時多維度分析系統較佳實施例之架構。系統包含一個雲端平行計算平台1,具有一個雲端儲存及計算模組11,一個雲端快速存取模組12,一個到多個指令產生器13,複數個中繼資料14以及一個即時多維度分析模組15;於該雲端平行計算平台1之外,尚有複數個原始維度表2及一個以上待分析的原始事實表3,以及一到多個樞紐分析介面4。管理者將該原始維度表2及原始事實表3上載至該雲端平行計算平台1時,係儲存於該雲端儲存及計算模組11;且管理者設定之資料內容資訊以及資料間的關聯資訊,係儲存於該中繼資料14中;該指令產生器13係依據該中繼資料14產生指令,驅動該雲端儲存及計算模組11預先計算分析所儲存之資料;該分析結果係儲存於該雲端快速存取模組12以供即時呈現;該中繼資料14中,即時呈現所需的部分亦被轉換儲存至該雲端快速存取模組12中;使用者係透過該樞紐分析介面4即時互動操作瀏覽樞紐分析結果;該樞紐分析介面4係與該即時多維度分析模組15連接,該即時多維度分析模組15與該雲端快速存取模組12連接以即時取得並呈現多維度分析結果。該雲端平行計算平台1是一個提供海量級資料分散式運算與儲存的環境,具容錯能力、高可用性、高效能、彈性擴充等特性,熟習該項技藝者可用Hadoop、Amazon EC2、中華電信HiCloud等平台達成。在該雲端平台內,該雲端儲存及計算模組11管理所儲存的海量資料,並提供類似SQL指令之查詢語言與執行介面,管理者可用較高階的語法描述所欲進行之計算,該模組會自動將其轉換為MapReduce之工作交由系統執行。欲提供功能較完整的多維度分析,該高階查詢語言需能支援關聯(JOIN)、群組(GROUP BY)、計數(COUNT)、相異計數(DISTINCT COUNT)、加總(SUM)、最大值(MAX)、最小值(MIN)、平均(AVG)等計算,熟習該項技藝者可用Hive、Pig等套件來達成。此外,該雲端快速存取模組12提供線上即時分析所需高速取得資料的能力,資料以特殊索引方式存入後,該模組可在毫秒之內藉由索引鍵將資料取出,熟習該項技藝者可採用以鍵-值(key-value)對應關係作為索引的BigTable、HBase、Cassandra等套件來達成。請參考圖二本發明雲端線上即時多維度分析系統之指令產生器與中繼資料細部分解圖,進一步揭露該指令產生器13及該中繼資料14之細部架構。該指令產生器13包含一到多個彙總指令產生器131、一到多個維度轉換指令產生器132、一到多個維度中繼資料轉換指令產生器133以及一到多個事實表中繼資料轉換指令產生器134。該中繼資料14包括一到多個維度表中繼資料141及一到多個事實表中繼資料142。該彙總指令產生器131係讀入該維度表中繼資料141及該事實表中繼資料142後,據以產生所有可能分析面向之排列組合的彙總指令,交由該雲端儲存及計算模組11來平行計算,並將回傳之彙總結果依特殊索引方式產生指令儲存於該雲端快速存取模組12。該維度表轉換指令產生器132係讀入該維度表中繼資料141後,據以產生維度表查詢指令,向該雲端儲存及計算模組11查詢,並將回傳之維度資料依特殊索引方式產生指令儲存於該雲端快速存取模組12。該維度中繼資料轉換指令產生器133係讀入該維度表中繼資料141後,產生指令將其依特殊索引方式轉換儲存於該雲端快速存取模組12。該事實表中繼資料轉換指令產生器134係讀入該事實表中繼資料142後,產生指令將其依特殊索引方式轉換儲存於該雲端快速存取模組12。請參考圖三本發明雲端線上即時多維度分析方法之步驟圖,進一步揭露在上述架構之下如何達成本發明雲端線上即時多維度分析之功能。首先在步驟1000上載該原始維度表2及該原始事實表3至該雲端儲存及計算模組11。該原始事實表3為待分析之資料,包含多筆紀錄,每筆紀錄具有一至多個可彙總之欄位及一至多個用以區分之欄位,可彙總之欄位經彙總後形成多維度分析中的量值(measure),用以區分之欄位則形成多維度分析中的維度(dimension)。舉一範例,假設該原始事實表3之一為客戶基本資料,具有以下欄位:
在多維度分析中係將其客戶代碼經相異計數(DISTINCT COUNT)計算彙總後得到客戶人數之量值;年齡經最小值(MIN)及最大值(MAX)計算彙總後得到最低年齡、最高年齡之量值;年收入經平均(AVG)計算彙總後得到平均年收入之量值。而性別、縣市別、行業別則分別形成三個維度,用於不同的分析面向。熟習該項技藝者可任意將維度與量值排列組合來作多維度分析,例如在上例中可依不同性別分析客戶之最低年齡、最高年齡,或依不同行業別分析客戶之平均年收入,或依性別、縣市別交叉分析其客戶人數等。該原始維度表2係列舉各分析面向中可能出現代碼值及其顯示名稱與展現順序。上述範例中有性別、縣市別、行業別等三個分析面向,假設其可能出現的值分別如下:
性別維度
縣市別維度
行業別維度
熟習該項技藝者可透過FTP、SFTP、HTTP、HTTPS、odbc、jdbc等傳輸方法將上述原始資料上載至該雲端平行計算平台1的主機後,再以該雲端儲存及計算模組11所提供之應用程式介面(API)、指令行命令(CLI)、圖形化介面(GUI)等將資料匯入該模組,凡此種種方法之組合皆應視為本步驟之等效實施。值得一提的是若上述該原始資料原本即儲存在該雲端平行計算平台1,則本步驟可以省略,或只需做後半部匯入的動作。接著於步驟2000中設定中繼資料。此步驟主要將維度表以及事實表的資料格式、相互關係記錄於中繼資料中,作為後續步驟的輸入,幫助自動化處理。上述範例中,該三組原始維度表2對應的中繼資料內容如下:
由於不同的多維度分析可能會有相同的分析面向,熟習該項技藝者可建立共用的維度中繼資料。上述範例中,該原始事實表3對應的中繼資料內容如下:
熟習該項技藝者可提供圖形化介面(GUI)引導使用者標示上述資料的性質,不需要具備雲端專業知識的人員介入,僅需對資料格式有所了解,甚至高階使用者本身即可勝任。然後於步驟3000中預先計算多維度分析結果,儲存於該雲端快速存取模組11。此步驟由該彙總指令產生器131讀入該維度表中繼資料141及該事實表中繼資料142後,對所有可能分析面向之排列組合產生彙總指令,交由該雲端儲存及計算模組11執行,並將回傳之彙總結果依特殊設計之索引方式儲存於該雲端快速存取模組11中。上述範例中,所有可能分析面向之排列組合計有:依縣市別、依性別、依行業別、縣市別與性別交叉、性別與行業別交叉、縣市別與性別與行業別交叉、以及不區分全部加總等,以維度代碼分別表示為c,g,i,cg,ci,gi,cgi,ALL。熟習該項技藝者可用適當的程式語言如Python、C#、Perl、Java、C、C++等來撰寫該彙總指令產生器131,其中上述排列組合可用二進位列舉來產生,如本範例由三位數之二進位列舉000、001、010、011、100、101、110、111,令三個位元分別代表分析面向是否包含c、g、i,位元為1代表包含對應的分析面向,則可產生ALL、i、g、gi、c、ci、cg、cgi之維度代碼排列組合,熟習該項技藝者在處理上述代碼組合時可依字母順序排序以維持一致性。該彙總指令產生器131依據該維度中繼資料141及該事實表中繼資料142可產生所有維度組合之彙總指令,例如依縣市別與性別與行業別交叉分析之彙總指令為:
上述彙總指令交由該雲端儲存及計算模組11執行後,將所得彙總結果依鍵-值(key-value)關係索引儲存於該雲端快速存取模組12以供後續步驟快速取出,儲存時以維度代碼組合為列索引鍵,維度值之組合加上量值順序為行索引鍵。舉例說明,假設上例中其中一筆傳回之彙總結果「TP,M,E 657375 28 55 782596」,代表台北市男性服務業的客戶人數為657375人,年齡範圍在28歲到55歲,平均年薪為782596元,其指令為:put ‘customer_analysis’,‘cgi’,‘m:TP,M,E:1’,‘657375’ put ‘customer_analysis’,‘cgi’,‘m:TP,M,E:2’,‘28’ put ‘customer_analysis’,‘cgi,‘m:TP,M,E:3’,‘55’ put ‘customer_analysis’,‘cgi’,‘m:TP,M,E:4’,‘782596’其中customer_analysis為對應此事實表彙總之表格名稱,可由使用者指定或系統自動產生。產生指令的規則,即存放維度代碼組合為cgi、維度值組合為TP,M,E的第1個量值時,其列索引鍵為cgi,行索引鍵為m:TP,M,E:1,其餘情況皆以此類推。該維度表中繼資料141及該事實表中繼資料具備產生上述彙總指令及儲存指令所需之完整資訊。熟習該項技藝者據此撰寫程式將中繼資料套進指令中,並處理資料之輸入與輸出,即可完成該彙總指令指令產生器131。步驟4000轉換維度及中繼資料至雲端快速存取模組可與上述步驟3000同時進行。需轉換儲存之資料包括維度表、維度中繼資料、及事實表中繼資料等,分別由該維度表轉換指令產生器132、該維度中繼資料轉換指令產生器133及該事實表中繼資料轉換指令產生器134完成。上述範例中,以縣市別維度為例,該維度表轉換指令產生器132係依據該維度表中繼資料141產生以下維度表查詢指令:select city_code,city_name from dim_city order by city_order;向該雲端儲存及計算模組11查詢,並將回傳之維度資料依鍵-值(key-value)關係索引儲存於該雲端快速存取模組12以供後續步驟快速取出,儲存時以維度代碼為列索引鍵,以特定關鍵字如first作為行索引鍵索引第一個維度值,接著以維度值配合另一特定關鍵字如next作為行索引鍵索引下一個維度值,直到整個維度表皆能索引到為止;每個維度值以又另一特定關鍵字如name作為行索引鍵索引該維度值之顯示名稱。以上述縣市別維度為例其指令為:put ‘dimensions’,‘c’,‘d:first’,‘TP’ put ‘dimensions’,‘c’,‘d:name:TP’,‘台北市’ put ‘dimensions’,‘c’,‘d:next:TP’,‘NT’ put ‘dimensions’,‘c’,‘d:name:NT’,‘新北市’ put ‘dimensions’,‘c’,‘d:next:NT’,‘TC’ put ‘dimensions’,‘c’,‘d:name:TC’,‘台中市’ put ‘dimensions’,‘c’,‘d:next:TC’,‘TN’ put ‘dimensions’,‘c’,‘d:name:TN’,‘台南市’ put ‘dimensions’,‘c’,‘d:next:TN’,‘KS’ put ‘dimensions’,‘c’,‘d:name:KS’,‘高雄市’ put ‘dimensions’,‘c’,‘d:next:KS’,‘OT’ put ‘dimensions’,‘c’,‘d:name:OT’,‘其它’其中dimensions為系統儲存維度資訊的表格名稱。產生指令的規則,即以維度代碼c為列索引鍵,利用關鍵字first索引第一個維度值,並以各維度值及關鍵字next索引下一個維度值,並以各維度值及關鍵字name索引該維度值之顯示名稱。熟習該項技藝者據此撰寫程式將中繼資料套進指令中,並處理資料之輸入與輸出,即可完成該維度表轉換指令產生器132。上述範例中,該維度中繼資料轉換指令產生器133係依據該維度表中繼資料141產生以下指令,將其依鍵-值(key-value)關係索引儲存於該雲端快速存取模組12:put ‘dimensions’,‘g’,‘d:dimname’,‘性別’ put ‘dimensions’,‘c’,‘d:dimname’,‘縣市別’ put ‘dimensions’,‘i’,‘d:dimname’,‘行業別’產生指令的規則,即以維度代碼為列索引,配合關鍵字dimname來索引其維度名稱。熟習該項技藝者據此撰寫程式將中繼資料套進指令中,並處理資料之輸入與輸出,即可完成該維度中繼資料轉換指令產生器133。上述範例中,該事實表中繼資料轉換指令產生器134係依據該事實表中繼資料142產生以下指令,將其依鍵-值(key-value)關係索引儲存於該雲端快速存取模組12:put ‘customer_analysis’,‘cube’,‘m:cubename’,‘客戶分析’ put ‘customer_analysis’,‘cube’,‘m:dimensions’,‘cgi’ put ‘customer_analysis’,‘measures’,‘m:count’,‘4’ put ‘customer_analysis’,‘measures’,‘m:name:1’,‘客戶人數’ put ‘customer_analysis’,‘measures’,‘m:name:2’,‘最低年齡’ put ‘customer_analysis’,‘measures’,‘m:name:3’,‘最高年齡’ put ‘customer_analysis’,‘measures’,‘m:name:4’,‘平均年收入’產生指令的規則,即以關鍵字cube為列索引,配合關鍵字cubename來索引分析報表名稱,及關鍵字dimensions來索引所有維度代碼。此外並以關鍵字measures為另一列索引,配合關鍵字count來索引共有多少個量值,及關鍵字name配合量值序號來索引該量值之名稱。熟習該項技藝者據此撰寫程式將中繼資料套進指令中,並處理資料之輸入與輸出,即可完成該事實表中繼資料轉換指令產生器134。最後在步驟5000中即時呈現線上樞紐分析結果。使用者透過該樞紐分析介面4動態改變維度、量值來安排呈現的方式時,該樞紐分析介面4係透過該即時多維度分析模組15向該雲端快速存取模組12動態取得分析報表中對應之資訊來即時呈現。動態樞紐分析報表中通常須顯示分析報表名稱,並將分析報表所有可分析維度列出讓使用者動態改變;使用者操作設定欲分析之面向並安排其行、列位置後,動態樞紐分析表顯示目前交叉分析名稱,並於行、列標頭各顯示指定維度所有項目名稱,以及於資料區中顯示量值名稱,及特定維度交叉條件下對應量值之彙總值。該即時多維度分析模組15向該雲端快速存取模組12動態取得上述資訊的方法,分別說明如下。取得分析報表名稱的方法,即如上所述規則,以關鍵字cube為列索引,配合關鍵字cubename之索引方式取出。上述範利取得分析報表名稱之指令為:get ‘customer_analysis’,‘cube’,‘m:cubename’取得分析報表所有可分析維度的方法,即如上所述規則,以關鍵字cube為列索引,配合關鍵字dimensions之索引方式取出。上述範利取得分析報表所有可分析維度之指令為:get ‘customer_analysis’,‘cube’,‘m:dimensions’顯示目前交叉分析名稱的方法,即如上所述規則,以維度代碼為列索引,配合關鍵字dimname來索引其維度名稱,將目前交叉分析之各維度名稱取出以顯示其組合。以上述範例之縣市別為例,維度代碼為c,取得維度名稱的指令為:get ‘dimensions’,‘c’,‘d:dimname’取得維度所有項目值及名稱的方法,即如上所述規則,以維度代碼為列索引鍵,以關鍵字first作為行索引鍵索引第一個維度值,接著以維度值配合另一關鍵字next作為行索引鍵索引下一個維度值,直到整個維度表皆能索引到為止;每個維度值以又另一關鍵字name作為行索引鍵索引該維度值之顯示名稱。以上述範例之縣市別別為例,取得維度所有項目值及名稱的指令為:get ‘dimensions’,‘c’,‘d:first’取得「TP」 get ‘dimensions’,‘c’,‘d:name:TP’取得「台北市」 get ‘dimensions’,‘c’,‘d:next:TP’取得「NT」 get ‘dimensions’,‘c’,‘d:name:NT’取得「新北市」 get ‘dimensions’,‘c’,‘d:next:NT’取得「TC」 get ‘dimensions’,‘c’,‘d:name:TC’取得「台中市」 get ‘dimensions’,‘c’,‘d:next:TC’取得「TN」 get ‘dimensions’,‘c’,‘d:name:TN’取得「台南市」 get ‘dimensions’,‘c’,‘d:next:TN’取得「KS」 get ‘dimensions’,‘c’,‘d:name:KS’取得「高雄市」 get ‘dimensions’,‘c’,‘d:next:KS’取得「OT」 get ‘dimensions’,‘c’,‘d:name:OT’取得「其它」顯示量值名稱的方法,首先取得量值個數,再依序取得各量值名稱。取得量值個數的方法,即如上所述規則,以關鍵字measures為一列索引,配合關鍵字count來索引共有多少個量值。上述範例中取得量值個數的指令為:get ‘customer_analysis’,‘measures’,‘m:count’接著依序取得各量值名稱,即如上所述規則,以關鍵字measures為列索引,並以關鍵字name配合量值序號來索引該量值之名稱。上述範例中依序取得各量值名稱的指令為:get ‘customer_analysis’,‘measures’,‘m:name:1’ get ‘customer_analysis’,‘measures’,‘m:name:2’ get ‘customer_analysis’,‘measures’,‘m:name:3’ get ‘customer_analysis’,‘measures’,‘m:name:4’取得特定維度交叉條件下對應量值之彙總值的方法,即如上所述規則,以維度代碼組合為列索引鍵,維度值之組合加上量值順序為行索引鍵。例如在縣市別、性別交叉分析下,取得台中市男性的平均年收入,其指令為:get ‘customer_analysis’,‘cg’,‘m:TC,M:4’其中cg為縣市別、性別交叉分析之索引鍵,TC,M為台中市男性之索引鍵,而4為平均年收入之索引鍵。該樞紐分析介面4之多維度分析操作方式,可包括向下鑽研(Drill Down)、向上小計(Roll Up)、切片(Slice)、切塊(Dice)、跨越鑽研(Drill Across)、穿透分析(Drill Through)等,熟習該項技藝者皆可撰寫程式依據上述存取方法來達成。本發明所揭露之雲端線上即時多維度分析系統與方法具備下列優點:
1.本發明將線上分析作業與雲端技術結合,使系統具有線上動態增減資源的擴充性,藉由平行計算而大幅縮短處理時間,並能達成傳統技術所無法做到的超大維度分析,或非結構性之資料分析。
2.本發明藉由指令產生器依據中繼資料生成多層次彙總之指令及程序,自動完成預先彙總作業,無須專業人員介入。
3.本發明以雲端技術實作樞紐分析表,提供使用者直觀、視覺化、所見即所得、即時互動的操作方式。上列詳細說明乃針對本發明之一可行實施例進行具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。綜上所述,本案不僅於技術思想上確屬創新,並具備習用之傳統方法所不及之上述多項功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出申請,懇請 貴局核准本件發明專利申請案,以勵發明,至感德便。
1...雲端平行計算平台
11‧‧‧雲端儲存及計算模組
12‧‧‧雲端快速存取模組
13‧‧‧指令產生器
131‧‧‧彙總指令產生器
132‧‧‧維度表轉換指令產生器
133‧‧‧維度中繼資料轉換指令產生器
134‧‧‧事實表中繼資料轉換指令產生器
14‧‧‧中繼資料
141‧‧‧維度表中繼資料
142‧‧‧事實表中繼資料
15‧‧‧即時多維度分析模組
2‧‧‧原始維度表
3‧‧‧原始事實表
4‧‧‧樞紐分析介面
1000‧‧‧上載原始維度表及原始事實表至雲端儲存及計算模組
2000‧‧‧設定中繼資料
3000‧‧‧預先計算多維度分析結果,儲存於雲端快速存取模組
4000‧‧‧轉換維度及中繼資料至雲端快速存取模組
5000‧‧‧即時呈現線上樞紐分析結果
圖一為本發明雲端線上即時多維度分析系統架構示意圖。
圖二為本發明雲端線上即時多維度分析系統之指令產生器與中繼資料細部分解圖。
圖三為本發明雲端線上即時多維度分析方法之步驟圖。
1...雲端平行計算平台
11...雲端儲存及計算模組
12...雲端快速存取模組
13...指令產生器
14...中繼資料
15...即時多維度分析模組
2...原始維度表
3...原始事實表
4...樞紐分析介面

Claims (15)

  1. 一種雲端線上即時多維度分析系統,包含:雲端平行計算平台,其包含雲端儲存及計算模組、雲端快速存取模組、指令產生器、中繼資料以及即時多維度分析模組;原始維度表及原始事實表,係透過一上載傳輸介面上載至該雲端平行計算平台後儲存於該雲端儲存及計算模組;以及樞紐分析介面,該樞紐分析介面透過一傳輸介面與該即時多維度分析模組連接,且該即時多維度分析模組透過一傳輸介面與該雲端快速存取模組連接以即時取得該分析結果及相關資料;該中繼資料具有該上載儲存資料之內容及關聯資訊;該指令產生器依據該中繼資料產生指令,驅動該雲端儲存及計算模組預先分析該上載儲存資料,計算多維度彙總後,將分析結果及相關資料轉換儲存於該雲端快速存取模組以供即時呈現;該多維度彙總及該資料轉換所需之指令係自動產生,並提供使用者透過該樞紐分析介面即時互動操作瀏覽樞紐分析結果。
  2. 如申請專利範圍第1項所述之雲端線上即時多維度分析系統,其中該雲端平行計算平台係包含:Hadoop、Amazon EC2以及中華電信HiCloud。
  3. 如申請專利範圍第1項所述之雲端線上即時多維度分析系統,其中該雲端儲存及計算模組提供高階查詢語言與執行介面,並支援該多維度彙總所需之運算者。
  4. 如申請專利範圍第3項所述之雲端線上即時多維度分析系統,其中該高階查詢語言所支援之所需運算至少包含:關聯、群組、計數、相異計數、加總、最大值、最小值、平均。
  5. 如申請專利範圍第4項所述之雲端線上即時多維度分析系統,其中該雲端儲存及計算模組為:Hive或Pig。
  6. 如申請專利範圍第1項所述之雲端線上即時多維度分析系統,其中該雲端快速存取模組為下列之一者:BigTable、HBase或Cassandra。
  7. 如申請專利範圍第1項所述之雲端線上即時多維度分析系統,其中該上載傳輸介面為下列之一者:FTP、SFTP、HTTP、HTTPS、odbc、jdbc。
  8. 如申請專利範圍第1項所述之雲端線上即時多維度分析系統,其中該中繼資料包含下列之一項或一項以上者:各維度表儲存位置、各維度顯示名稱、各維度項目顯示名稱、各事實表儲存位置、各事實表可分析維度、各事實表可彙總量值、各量值顯示名稱、各量值彙總方法。
  9. 如申請專利範圍第1項所述之雲端線上即時多維度分析系統,其中該樞紐分析介面操作方式包含下列之一項或一項以上者:動態改變維度或量值之安排呈現方式、向下鑽研、向上小計、切片、切塊、跨越鑽研、穿透分析。
  10. 一種雲端線上即時多維度分析方法,包含以下步驟:(1)上載一原始維度表及一原始事實表至一雲端儲存及計算模組;(2)設定一中繼資料;(3)計算一多維度分析結果儲存於一雲端快速存取模組、轉換維度及該中繼資料至該雲端快速存取模組、即時呈現線上樞紐分析結果。
  11. 一種如申請專利範圍第10項所述之雲端線上即時多維度分析方法,其中該原始維度表及該原始事實表原本即儲存在一雲端平行計算平台,而省略上載該原始維度表及該原始事實表至該雲端儲存及計算模組之步驟 者。
  12. 一種如申請專利範圍第10或11項所述之雲端線上即時多維度分析方法,其中預先計算多維度分析結果,係由一到多個指令產生器依據該中繼資料產生指令自動執行者。
  13. 一種如申請專利範圍第12項所述之雲端線上即時多維度分析方法,其中該指令產生器依據該中繼資料產生指令時,係以二進位列舉來產生所有可能分析面向之排列組合者。
  14. 一種如申請專利範圍第10或11項所述之雲端線上即時多維度分析方法,其中該預先計算多維度分析結果儲存於雲端快速存取模組步驟,係將彙總結果依鍵-值關係索引儲存,且以維度代碼組合為列索引鍵,維度值之組合加上量值順序為行索引鍵者。
  15. 一種如申請專利範圍第10或11項所述之雲端線上即時多維度分析方法,其中該轉換維度至雲端快速存取模組步驟,係將維度表依鍵-值關係索引儲存於該雲端快速存取模組,且以維度代碼為列索引鍵,一特定關鍵字用以索引第一個維度值,以各維度值配合另一特定關鍵字索引下一個維度值,並以各維度值配合又另一特定關鍵字索引該維度值之顯示名稱者。
TW100149085A 2011-12-28 2011-12-28 Real - time multi - dimensional analysis system and method on cloud TWI436222B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100149085A TWI436222B (zh) 2011-12-28 2011-12-28 Real - time multi - dimensional analysis system and method on cloud
CN201210325232.5A CN102819616B (zh) 2011-12-28 2012-09-05 云端线上即时多维度分析系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100149085A TWI436222B (zh) 2011-12-28 2011-12-28 Real - time multi - dimensional analysis system and method on cloud

Publications (2)

Publication Number Publication Date
TW201327199A TW201327199A (zh) 2013-07-01
TWI436222B true TWI436222B (zh) 2014-05-01

Family

ID=47303727

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100149085A TWI436222B (zh) 2011-12-28 2011-12-28 Real - time multi - dimensional analysis system and method on cloud

Country Status (2)

Country Link
CN (1) CN102819616B (zh)
TW (1) TWI436222B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460052B2 (en) * 2016-12-22 2019-10-29 Sap Se Parallel model creation in cloud platform
CN108984574B (zh) 2017-06-05 2021-01-05 北京嘀嘀无限科技发展有限公司 数据处理方法及装置
CN109151000A (zh) * 2018-08-01 2019-01-04 长沙拓扑陆川新材料科技有限公司 一种云平台并行通信的系统及方法
CN110769037B (zh) * 2019-09-28 2021-12-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 嵌入式边缘计算平台资源配置方法
US11960497B2 (en) * 2020-03-05 2024-04-16 Guangzhou Quick Decision Information Technology Co., Ltd. Method and system for automatically generating data determining result

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089846A (zh) * 2006-06-16 2007-12-19 国际商业机器公司 数据分析方法、设备以及数据分析辅助方法
CN100495403C (zh) * 2007-01-30 2009-06-03 金蝶软件(中国)有限公司 联机分析处理系统中处理非空数据的方法和装置
CN102238025A (zh) * 2010-04-30 2011-11-09 英业达股份有限公司 使用在线分析处理技术获取统计数据的系统及其方法

Also Published As

Publication number Publication date
TW201327199A (zh) 2013-07-01
CN102819616A (zh) 2012-12-12
CN102819616B (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
CN110618983B (zh) 基于json文档结构的工业大数据多维分析与可视化方法
US10860598B2 (en) Systems and methods for interest-driven business intelligence systems including event-oriented data
US9773029B2 (en) Generation of a data model
CN106095862B (zh) 集中式可扩展融合型多维复杂结构关系数据的存储方法
CN107622103B (zh) 管理数据查询
CN106104592B (zh) 映射带键实体的属性
US8655861B2 (en) Query metadata engine
RU2540843C2 (ru) Отображение множества областей заголовков строк и столбцов в сводной таблице
US9043344B1 (en) Data mining and model generation using an in-database analytic flow generator
TWI436222B (zh) Real - time multi - dimensional analysis system and method on cloud
US10296505B2 (en) Framework for joining datasets
US20160162521A1 (en) Systems and Methods for Data Ingest in Interest-Driven Business Intelligence Systems
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN105843842A (zh) 一种大数据环境下多维聚集查询与展示系统及方法
Singh et al. SQL2Neo: Moving health-care data from relational to graph databases
CN112651594A (zh) 指标管理系统、方法及相应设备和存储介质
US10552423B2 (en) Semantic tagging of nodes
Potey et al. Database migration from structured database to non-structured database
Abdel Azez et al. Optimizing join in HIVE star schema using key/facts indexing
CN110389953B (zh) 基于压缩图的数据存储方法、存储介质、存储装置和服务器
CN111984745A (zh) 数据库字段动态扩展方法、装置、设备及存储介质
Hasan et al. An approach for data transformation in homogeneous and heterogeneous information systems
Alexakis et al. Intelligent querying for implementing building aggregation pipelines
US11636421B1 (en) Model driven reporting
CN114090583A (zh) 一种跨业务系统订单数据分析方法和装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees