TWI475411B - Large data checking system and its method in cloud platform - Google Patents

Large data checking system and its method in cloud platform Download PDF

Info

Publication number
TWI475411B
TWI475411B TW100149402A TW100149402A TWI475411B TW I475411 B TWI475411 B TW I475411B TW 100149402 A TW100149402 A TW 100149402A TW 100149402 A TW100149402 A TW 100149402A TW I475411 B TWI475411 B TW I475411B
Authority
TW
Taiwan
Prior art keywords
data
quality
cloud
rule
rules
Prior art date
Application number
TW100149402A
Other languages
English (en)
Other versions
TW201327228A (zh
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW100149402A priority Critical patent/TWI475411B/zh
Priority to CN201210200083XA priority patent/CN102750367A/zh
Publication of TW201327228A publication Critical patent/TW201327228A/zh
Application granted granted Critical
Publication of TWI475411B publication Critical patent/TWI475411B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

在雲端平台的大資料檢核系統及其方法
本發明係關於一種雲端資料品質檢核技術,用於組織/企業內外部將待檢核的資料,檢誤、校對,過濾出有效的資料,特別指於雲端平台,透過雲端運算技術,來進行品質比對之資料檢核流程。本發明同時屬於資料倉儲(Data Warehouse)、商業智慧(Business Intelligence)與雲端運算(Cloud Computing)的範疇。
目前針對資料倉儲資料品質檢核之習用方式,主要面對下列幾處限制:
1. 單一主機效能受限導致資料品質資訊產生的過程費時:如何即時計算出待檢測資料的資料品質,主要受限於待檢測資料的資料量,與運算主機的效能。如果使用者打算針對待檢測資料進行完整內容(包含所有屬性/欄位的所有資料筆數)的計算,例如字串過濾、值域分析、匯總函數計算等等包括規則判斷、計算的方式,在待檢測資料的資料筆數龐大時,往往必須花費漫長的時間等待單一資料計算主機的計算結果,如此無法兼顧獲取資料的即時性,資料品質通報的即時性也因此延遲受影響。因此在資料檢核的實際作法策略上,往往演變成不一定每次都進行整批資料的檢核,而改採用以統計的抽樣檢定方式進行資料品質計算,縮小資料檢核計算的範圍,藉此獲得有關資料品質的概略資訊,並且加快資料品質計算的過程。例如透過隨機抽樣檢定縮小資料筆數,或者僅僅抽取部份用以檢定的資料屬性/欄位來進行資料檢核比對;如此則無法確保全面資料品質的完整性與準確性,失去資料檢核意義。
2. 缺乏有效的方法處理大資料(Big Data):傳統資料檢核讀入、處理資料的方式,花費時間與檔案大小成正比,檔案越大所耗費的時間越長,如果針對大資料的讀檔、以及後續處理方式仍舊以循序處理完成,會導致效能不佳。此外單一主機的記憶體也有上限存在,如果存放在記憶體的資料超過上限,有可能造成處理效能大服下降,或停擺的狀況,因此為了避免上述問題,習用的方式會將大檔案資料進行切段處理,以分次進行的方式完成,如此切檔的動作又得耗費額外成本。
3. 在雲端平台的資料載入作業目前沒有品質檢核的方法:目前雲端平台存放的資料還沒有具體的機制可以提供使用者作資料檢核,因此資料載入時發生錯誤導致整批資料載入失敗,使用者必須花額外的時間檢查載入錯誤,如此則耗費大量人力時間。
4. 傳統的關聯式資料庫整批載入方式無法同步檢核:關聯式資料庫在面對大資料的載入,傳統上是以Bulk Insert方式進行批次載入以提昇載入效能,但缺點是無法和資料檢核流程同步進行,萬一在資料檢核階段偵測到某資料行的部份資料屬性值錯誤,必須排除掉部份錯誤的資料行,或對資料行額外的處理加工,將部份錯誤之欄位予以空白(Blank)、空值(Null)或預測值(Predict Value)取代,接著將過濾後的結果產生暫存檔,再把此暫存檔進行大批載入。因此RDBMS面對大資料時,無法與資料檢核流程同步進行。不單如此,暫存檔也需要佔用額外磁碟存放空間。
5. 資料品質資訊受限於磁碟儲存空間而無法有效應用歷史品質資料:現階段單一主機資料預備載入的磁碟存放空間受到限制,無法存放以Petabyte等級的資料量。資料品質資訊的儲存空間同樣也有限,因此關於資料品質的資訊往往需要排程進行定期刪除。當歷史品質資料無法有效保存,使用者就無法針對完整的歷史資料進行應用,例如從歷史品質資料萃取進行未來品質的預測等。
綜合上述的結果,資料檢核之習用方法,受限於資料量與計算能力,所獲得的資料品質往往是二擇的局面:即時,但獲得的資訊片面不完整;或者資訊完整卻耗費時間,並且無法有效保存。
由此可見,上述習用方式仍有諸多缺失,實非一良善之設計,而亟待加以改良。
本案發明人鑑於上述習用方式所衍生的各項缺點,乃亟思加以改良創新,並經多年苦心孤詣潛心研究後,終於成功研發完成本件「在雲端平台上的大資料檢核系統及其方法」,透過雲端運算技術,將企業存放在雲端平台的資料,分散平行處理進行完整資料內容之比對,加快處理效率並且計算出資料品質,再依組織所設定的通報程序,採取進一步處理,透過此流程可標準化資料倉儲資料品質估計方法,有效的提昇組織內保存的資料品質。
本發明之目的在於針對應用於資料倉儲資料品質稽核,提出一種透過雲端平台來完成資料檢核工作的系統及其方法,在雲端平台所存放的原始大資料,載入到資料倉儲的過程中,透過雲端運算進行品質檢測與比對,完成資料檢核工作,讓資料載入資料倉儲過程的同時能夠進行比對、取得對應的品質資料,並藉此流程作為資料品質取得的一種標準。
次要目的:利用雲端分散運算技術與運算能力,以及雲端存放空間的彈性,有效的利用歷史資料,進行資料採礦建模,將產生的模型用來衡量新進資料的資料品質,達到建模更加快速、預測更加準確的目的。
本發明之一種在雲端平台的大資料檢核系統,具有雲端大資料,透過雲端運算進行品質檢測與比對,其包括品質項目雲資料庫,用以儲存品值資料;品質規則雲資料庫,用以儲存品質規則與規則所組成的模型資料;雲端規則探勘模組,用以連結該品質項目雲資料庫、自動產生資料檢核規則模型,存放於該品質規則雲資料庫中;雲端資料檢驗模組,用以計算比對該雲端大資料,連結該雲端規則探勘模組產生的規則模型,與該雲端大資料比對產生品質資料項目;雲端品質篩選模組,用以連結該品質項目雲資料庫,將通過檢核的該雲端大資料載入到目標資料集散地;雲端訊息通報模組,用以連接該品質項目雲資料庫,將每次資料檢核的結果蒐集、通報使用者;以及目標資料集散地,接收通過該雲端訊息通報模組檢核之資料,用以存放該資料。
如上所述之在雲端平台的大資料檢核系統,其中該雲端平台係為Hadoop、EC2或Cloudera Enterprise。
其中,該目標資料集散地係為非關聯式資料庫、關聯式資料庫、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
該品質項目雲資料庫係為非關聯式資料庫、關聯式資料庫、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
品質規則雲資料庫係為非關聯式資料庫、關聯式資料庫、Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
該雲端規則探勘模組,更包括使用者介面,提供使用者輸入客製化的資料檢驗規則;與使用者介面連接的API,用以將規則儲存於該品質規則雲資料庫中;品質規則,用以計算並判斷資料品質;規則建立Mapper/Reducer,利用分散平行運算演算法建立規則模型;以及雲端規則探勘引擎,用以自動建立規則模型,呼叫該些規則建立Mapper/Reducer,並將該些品質規則,存放於該品質規則雲資料庫中。
其中,該雲端規則探勘模組建立的規則演算法係為關聯規則或決策樹演算法。該雲端資料檢驗模組,更包括雲端資料檢驗引擎,用以連接該規則雲資料庫與啟動資料檢核分散運算工作以及資料檢核Mapper/Reducer,用以計算品質項目資料,將結果存放在該品質項目雲資料庫。
該雲端品質篩選模組,更包括雲端品質篩選引擎,連接該品質項目雲資料庫,啟動品質篩選分散運算工作;品質過濾決策設定檔,存放使用者預先定義的過濾決策;以及品質篩選Mapper/Reducer,用以比對過濾原始資料並將檢核通過的資料載入到該目標資料集散地。
該雲端訊息通報模組,更包括雲端訊息通報引擎,連結該品質項目雲資料庫,啟動訊息通報分散運算工作;通報決策設定檔,存放使用者預先定義的通報決策;以及訊息通報Mapper/Reducer,用以匯總資料檢核結果並通報使用者。其中,該雲端訊息通報模組之訊息通報方式係為E-Mail或SMS。
本發明之一種在雲端平台的大資料檢核系統之檢核方法,其步驟至少包含:a.初始化品質比對計算模型;b.分割原始資料;c.驗證個別資料分割; d.進行目標資料載入;e.更新比對模型;以及f.通報比對結果。
如上所述之在雲端平台的大資料檢核方法,其中該驗證個別資料分割步驟係將獲得的品質項目資料依照Key-Value關係,以資料行為Key,對照該品質規則雲資料庫比對出的品質分數為Value,索引儲存在該品質項目雲資料庫者。
該方法,其中該進行目標資料載入步驟係將待檢核資料依照Key-Value關係計算過濾,以資料行為Key,對照該品質規則雲資料庫比對出的品質分數為Value,參考使用者決策進行過濾,並將過濾後的資料,由分散運算單元載入該目標資料集散地者。
該更新比對模型步驟係將該比對模型依Key-Value關係索引儲存,以關聯規則或決策樹演算法之資料探勘技術,以該品質項目資料庫中的資料行「某屬性=值」或「某屬性」為Key,該演算法所需屬性的分割指標為Value進行匯總者。
該通報比對結果步驟係將彙總結果依Key-Value關係,以E-Mail或SMS簡訊通報使用者,且以品質分數為Key,資料行為Value進行匯總者。
達成上述發明目的之在雲端平台的大資料檢核系統,係由雲端規則探勘模組、雲端資料檢驗模組、雲端品質篩選模組、雲端訊息通報模組、目標資料集散地、品質項目雲資料庫以及品質規則雲資料庫所組成。達成上述發明目的之在雲端平台的大資料檢核方法,包括以下步驟:初始化品質比對計算模型、分割原始資料、驗證個別資料分割、進行目標資料載入、更新比對模型以及通報比對結果。
本發明係針對一種應用在資料倉儲系統所設計之資料品質檢測及計算方法,係在資料透過雲端平台進行載入時,即透過歷史品質資料所建立之比對模型,決定其資料品質程度,藉以評定資料品質的好壞。本發明可以提供企業於雲端平台存放之大資料可靠的評量方式,用以決定不同進入資料倉儲資料的品質程度。並且將結果自動通報使用者。
圖一揭露本發明在雲端平台的大資料檢核系統及其方法較佳實施例之架構,透過雲端運算平台進行雲端資料檢核工作。此系統包括四個模組與三個資料庫:一個雲端規則探勘模組1負責資料檢核規則模型的產生、存放;一個雲端資料檢驗模組3負責計算比 對雲端大資料2,產生品質項目資料;一個雲端品質篩選模組4負責將通過檢核,符合使用者預期的資料載入到一個目標資料集散地6;一個雲端訊息通報模組5將每次資料檢核的結果蒐集、通報使用者;該目標資料集散地6負責存放通過驗證的目標資料;一個品質項目雲資料庫7負責儲存品質資料;一個品質規則雲資料庫8負責儲存品質規則與規則所組成的模型資料。
該雲端規則探勘模組1連接該品質項目雲資料庫7,先產生品質規則到該品質規則雲資料庫8;接著該雲端資料檢驗模組3連接該品質規則雲資料庫8,將該雲端大資料2進行分散比對,將產生的品質項目資料存放到該品質項目雲資料庫7;接著該雲端品質篩選模組4再連接到該品質規則雲資料庫8將該雲端大資料2依照該品質項目雲資料庫7中對照的資料品質,篩選目標資料到該目標資料集散地6存放;最後該雲端訊息通報模組5連接該品質項目雲資料庫7中的資料通報使用者當次檢核結果。
上述雲端平台是一個提供大資料分散式運算與儲存的環境,具容錯能力、高可用性、高效能、彈性擴充等特性,熟習該項技藝者可採用Hadoop、Amazon EC2、Cloudera Enterprise等等由多伺服器組成的雲端 平台來達成;該目標資料集散地6、該品質項目雲資料庫7以及該品質規則雲資料庫8可採用Hive、HBase、BigTable、Cassandra、Amazon SimpleDB等等建立在雲端平台上的資料庫來存放雲端大資料,皆應視為等效實施。
請參考圖二所示之雲端規則探勘模組詳細示意圖,該雲端規則探勘模組1係由以下子模組所組成:在一到多個資料品質規則1.5還未自動產生以前,由使用者透過一個介面1.1手動操作,新增一到多個由「IF...THEN...」組成的資料品質規則1.5,一個API(Application Interface,應用程式介面)1.2將上述資料品質規則1.5儲存在該品質雲資料庫8內。之後當該品質項目雲資料庫7開始有歷史資料以後,再由該雲端規則探勘引擎1.3,以資料探勘(Data Mining)技術進行規則模型自動化建立。由於透過此技術,所建立出的規則模型有從歷史資料自動化演進學習的特性,藉此當未來歷史資料累積越多,將可以自動提昇預測資料品質的正確性,並且回饋至資料載入的流程。
負責規則模型建立的該分散運算單元Mapper/Reducer 1.4,是利用分散平行運算來處理資料。由於雲端環境是多主機所組成,大資料被切成小 塊的資料分開來處理,接著分散到各個工作節點(Data Nodes)主機進行分散平行運算,最後再合併結果進行匯總,具備相較於傳統單一主機的處理方式更快速的處理能力。舉一範例,假設品質項目雲資料庫存放的歷史品質資料,為歷史資料行與品質分數的標籤所組成,例如:
該雲端規則探勘模組1可以透過例如關聯規則或決策樹等平行演算法來處理。利用n-item對1-item(正常、異常)的關聯規則挖掘平行演算法時,在負 責規則建立的該分散運算單元Mapper/Reducer 1.4中以平行處理演算法計算出支持度(Support)與信賴度(Confidence)指標,每個迭代(Iteration)從n-item對1-item開始往(n+1)-item對1-item方向逐步進行挖掘。例如某一迭代挖掘出「銷售地點=地點B→異常」規則的支持度為20%、信賴度90%,如果決定繼續往下挖掘,則下一次迭代就是進行「銷售地點=地點B;其他欄位=值→正常/異常」的規則挖掘。
或者該雲端規則探勘模組1也可利用決策樹平行演算法,將歷史品質的屬性進行分割學習的決策樹平行演算法,於該Mapper/Reducer 1.4中透過該演算法計算出每個資料屬性的屬性分割指標,例如GINI Index、Entropy等等,如果決定繼續往下挖掘,則下一次迭代就是進行「銷售地點=地點B;其他欄位=值→正常/異常」的規則挖掘。
平行演算法的特點,相較於傳統演算法單一運算 單元的差異,在分散給不同運算單元處理的時候,只針對單元處理資料的計算出部份數據,最後收集完整才進行匯總的最終計算結果,熟習該項技藝者可以利用Mapper/Reducer、PIG、Cascading、HIVE等技術來完成。
當每個迭代(Iteration)中,負責規則模型建立的該Mapper/Reducer 1.4計算出上述之屬性分割指標,例如支持度、信賴度、GINI Index、Entropy等等,演算法根據條件判斷決定是否停止向下挖掘,例如該規則下的歷史資料已經有95%皆為同一分類,或者已經達到最大階層數等等。如果未達停止的標準,就繼續呼叫該Mapper/Reducer 1.4準備進行下一次迭代的計算,最後將品質規則所組成的分類模型,存放在該品質規則雲資料庫8中。
請參考圖三所示之雲端資料檢驗模組詳細示意圖,雲端資料檢驗模組3係由以下子模組所組成:一個雲端資料檢驗引擎3.1會呼叫負責資料檢核比對、運算的一到多個之分散處理單元3.2,將該雲端大資料2進行分割與分散運算,連接該品質規則雲資料庫8進行規則比對,計算出一到多個品質項目集合3.3(包括用來識別資料行的鍵值與品質分數),最後再由一到多個分散處理單元3.2,將該品質項目儲存到 該品質項目雲資料庫7。
請參考圖四所示之雲端品質篩選模組詳細示意圖,該雲端品質篩選模組4係由以下子模組所組成:一個雲端品質篩選引擎4.1會呼叫負責篩選過濾的一到多個之分散處理單元4.3,將資料行與該品質項目資料庫7對應的分數,參考一個使用者預先設定的品質過濾決策設定檔4.2,採用完全排除/預測值取代載入/部份載入的策略,載入到目標資料集散地6,其中部份載入的策略,由於目標資料集散地為Column-Based的雲端資料庫,因此具備部份資料載入的能力。舉一範例,例如使用者事先設定的過濾決策為「部份載入」,規則與資料比對的結果為:
則篩選模組會將資料「產品名稱=商品B;銷售日期=日期B;商店名稱=商店B;銷售金額=金額B」繼續載入到目標資料集散地中,並且在含有值的欄位進行統計匯總訊息時,合併進行計算,例如SUM(銷售金額),可以將仍然具有實際值的該欄位資訊進行加總計算。
請參考圖五所示之雲端訊息通報模組詳細示意圖,該雲端訊息通報模組5係由以下子模組所組成:一個雲端訊息通報引擎5.1,參考一個使用者預先設定的通報決策設定檔5.2,呼叫負責匯總訊息的一到多個分散處理單元5.3,將該品質項目雲資料庫7中該次流程所存放的資料進行訊息匯總,並透過該訊息通報引擎5.2的例如E-Mail或者SMS簡訊功能,將產生的一到多個匯總訊息5.4發布給使用者。舉一範例,例如使用者事先設定的通報決策為「根據本次比對品質進行分類彙整」,資料比對的結果為:
Mapper將品質分數當作Key值,資料行當成Value,交給Reducer,Reducer針對每個不同的Key進行Count的動作,將最後的結果,透過E-Mail或SMS方式將匯總訊息通報使用者。
請參考圖六所示,為本發明「在雲端平台的大資料檢核方法」之流程圖,此方法共有初始化品質比對計算模型100、分割原始資料200、驗證個別資料分割300、進行目標資料載入400、更新比對模型500、通報比對結果600等步驟。
首先在步驟100初始化品質比對計算模型,載入待檢測資料之品質規則模型,如果存在,將規則載入,如果規則模型不存在,則由使用者透過介面建立模型,此階段步驟最終會初始化一個用來提供資料檢核的規則模型。
接著在步驟200將雲端大資料進行分割交給分散運算處理單元Mapper/Reducer進行分散運算,根據原始檔案大小自動分割成適當大小,在雲端各主機 節點進行後續分散運算,此階段步驟將原始檔案分割成適當大小的檔案分割,並且發派給雲端各主機節點Data Nodes進行不同任務之平行處理。
步驟300接續前一步驟之資料分割,在負責資料檢驗Mapper中把資料檔名+資料行數當成Key,原始資料行當成Value,在每次讀進Key-Value時,重新以資料行作為查詢比對的鍵值與規則模型進行比對,得到目標比對結果值,與原始資料行作為索引鍵,合併為Key-Value格式的品質項目資料,交給Reducer,Reducer繼續將收集到的Key-Value存放到上述品質項目雲資料庫7中。
步驟400繼續將步驟200之資料分割,在負責品質篩選的Mapper中,利用原始資料行當作查詢比對的鍵值,先前存放在該品質項目雲資料庫7進行查詢,取得品質分數,並且Mapper會載入使用者事先定義的過濾決策,決定是否將該資料交給Reducer,最後Reducer收到資料後將其載入到上述目標資料集散地6。此階段步驟的結果,完成資料檢核工作,將通過檢核的資料載入該目標資料集散地6中。
接著在步驟500將存放在該品質項目雲資料庫7的歷史品質資料,利用分散式資料探勘分散演算法技術,在負責規則建立的Mapper中,把品質資料的「屬 性=值」的n-item當成Key,品質分數當成Value,計算出特定屬性的統計值交給Reducer,接著Reducer統一計算出特定屬性的分割指標,例如Support、Confidence等等,挖掘出「IF...THEN...」組成的資料品質規則檢驗規則存在上述品質規則雲資料庫8中,並且判斷是否達到停止條件決定是否停止向下挖掘。此階段步驟結果產生檢驗規則模型,存放在該品質規則雲資料庫8中。
於步驟600連接該品質項目雲資料庫7,在負責訊息通報的Mapper中,參考使用者預先設定的通報決策設定,把品質資料的品質分數當成Key,資料行當成Value,交給Reducer,Reducer將此次比對結果進行匯總通報使用者。此階段步驟最終結果為通報使用者資料檢核工作結束與比對結果。
本發明所提供之資料整合技術,與其他習用技術相互比較時,更具備下列優點:
1.本發明在雲端多主機上進行分散式運算,改善傳統資料整合技術受限於單一主機之處理效能低落問題。
2.本發明之方法串連多個步驟流程,可自動化結合、綁入原有資料載入流程,提昇資料載入品質的效率。
3.本發明透過雲端運算與分散式資料探勘演算法,可以快速有效的利用歷史品質資料改善原有資料檢核模型,達到資料品質判斷準確率精進之預期效果。
上列詳細說明乃針對本發明之一可行實施例進行具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
綜上所述,本案不僅於技術思想上確屬創新,並具備習用之傳統方法所不及之上述多項功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出申請,懇請 貴局核准本件發明專利申請案,以勵發明,至感德便。
1‧‧‧雲端規則探勘模組
2‧‧‧雲端大資料
3‧‧‧雲端資料檢驗模組
4‧‧‧雲端品質篩選模組
5‧‧‧雲端訊息通報模組
6‧‧‧目標資料集散地
7‧‧‧品質項目雲資料庫
8‧‧‧品質規則雲資料庫
1.1‧‧‧使用者介面
1.2‧‧‧規則操作API
1.3‧‧‧雲端規則探勘引擎
1.4‧‧‧規則建立Mapper/Reducer
1.5‧‧‧品質規則
3.1‧‧‧雲端資料檢驗引擎
3.2‧‧‧資料檢驗Mapper/Reducer
3.3‧‧‧品質項目集合
4.1‧‧‧雲端品質篩選引擎
4.2‧‧‧品質決策設定檔
4.3‧‧‧品質篩選Mapper/Reducer
4.4‧‧‧目標資料
5.1‧‧‧雲端訊息通報引擎
5.2‧‧‧通報決策設定檔
5.3‧‧‧訊息通報Mapper/Reducer
5.4‧‧‧匯總訊息
100‧‧‧初始化品質比對模型
200‧‧‧分割原始資料
300‧‧‧驗證個別資料分割
400‧‧‧進行目標資料載入
500‧‧‧更新比對模型
600‧‧‧通報比對結果
請參閱有關本發明之詳細說明及其附圖,將可進一步瞭解本發明之技術內容及其目的功效;相關附圖為:圖一為在雲端平台的大資料檢核系統架構之示意圖;圖二為該資料檢核系統之雲端規則探勘模組詳細示意圖;圖三為該資料檢核系統之雲端資料檢驗模組詳細示意圖;圖四為該資料檢核系統之雲端品質篩選模組詳細示意圖;圖五為該資料檢核系統之雲端訊息通報模組詳細示意圖;以及圖六為在雲端平台的大資料檢核方法之流程圖;
1...雲端規則探勘模組
2...雲端大資料
3...雲端資料檢驗模組
4...雲端品質篩選模組
5...雲端訊息通報模組
6...目標資料集散地
7...品質項目雲資料庫
8...品質規則雲資料庫

Claims (14)

  1. 一種在雲端平台的大資料檢核系統,具有雲端大資料,透過雲端運算進行品質檢測與比對,其包括:一品質項目雲資料庫,儲存複數個資料品質規則,該等資料品質規則係用以判斷該雲端大資料之資料品質;一雲端規則探勘模組,連接該品質項目雲資料庫,該雲端規則探勘模組更對該等資料品質規則以關聯規則或決策樹演算法進行資料探勘以及演進學習,據以建立規則模型,並透過該規則模型來自動化更新該等資料品質規則;一雲端檢驗模組,將該雲端大資料進行分割,以分散至複數個分散處理模組來和該資料品質規則進行比對處理,以計算出品質項目資料,該品質項目資料包含用來識別資料行之鍵值以及品質分數;一雲端品質篩選模組,配置該等負責篩選作業之分散處理模組,以對該資料行及該品質分數進行篩選檢核,該雲端品質篩選模組更將獲得之該品質項目資料依照Key-Value關係,以資料行為Key,對照該品質規則雲資料庫比對出的品質分數為Value來索引儲存,並再參考使用者決策參數進行過濾,並將過濾後之資料由該等分散處理模組載入目標資料集散地;一雲端訊息通報模組,通知使用端該雲端品質篩選模組之檢核結果;一品質規則雲資料庫,用以儲存該資料品質規則及其組成而成之該規則模型;以及一目標資料集散地,接收通過該雲端訊息通報模組 檢核之資料。
  2. 如請求項1所述之系統,其中該雲端平台係為Hadoop、EC2或Cloudera Enterprise。
  3. 如請求項1所述之系統,其中該目標資料集散地係為Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
  4. 如請求項1項所述之系統,其中該品質項目雲資料庫係為Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
  5. 如請求項1項所述之系統,其中該品質規則雲資料庫係為Hive、HBase、BigTable、Cassandra或Amazon SimpleDB。
  6. 如請求項1所述之系統,其中該雲端規則探勘模組,更包括:一使用者介面,提供使用者輸入客製化之該等資料品質規則;一與使用者介面連接的API,用以將該等資料品質規則儲存於該品質規則雲資料庫中;多個規則建立Mapper/Reducer,利用分散平行運算演算法建立該規則模型;以及一雲端規則探勘引擎,用以自動建立該規則模型,呼叫該些規則建立Mapper/Reducer,並將該品質規則,存放於該品質規則雲資料庫中。
  7. 如請求項6所述之系統,其中該雲端規則探勘模組建立的規則演算法係為關聯規則或決策樹演算法。
  8. 如請求項1所述之系統,其中該雲端資料檢驗模組,更包括:一雲端資料檢驗引擎,用以連接該規則雲資料庫與啟動資料檢核分散運算工作;以及 多個資料檢核Mapper/Reducer,用以計算該品質項目資料,將結果存放在該品質項目雲資料庫。
  9. 如請求項1所述之系統,其中該雲端品質篩選模組,更包括:一雲端品質篩選引擎,連接該品質項目雲資料庫,啟動品質篩選分散運算工作;一品質過濾決策設定檔,存放使用者預先定義的過濾決策;以及多個品質篩選Mapper/Reducer,用以比對過濾原始資料並將檢核通過的資料載入到該目標資料集散地。
  10. 如請求項1所述之系統,其中該雲端訊息通報模組,更包括:一雲端訊息通報引擎,連結該品質項目雲資料庫,啟動訊息通報分散運算工作;一通報決策設定檔,存放使用者預先定義的通報決策;以及多個訊息通報Mapper/Reducer,用以匯總資料檢核結果並通報使用者。
  11. 如請求項1所述之系統,其中該雲端訊息通報模組之訊息通報方式係為E-Mail或SMS。
  12. 一種在雲端平台的大資料檢核系統之檢核方法,其步驟至少包含:a.初始化品質比對計算模型,對複數個資料品質規則以關聯規則或決策樹演算法進行資料探勘以及演進學習,據以建立規則模型,並透過該規則模型來自動化更新該等資料品質規則,其中該等資料品質規則係用以判斷雲端大資料之資料品質; b.分割原始資料,係將該雲端大資料進行分割,以分散至複數個分散處理模組,來和該等資料品質規則進行比對處理,以計算出品質項目資料,該品質項目資料包含用來識別資料行之鍵值以及品質分數;c.驗證個別資料分割,對該資料行及該品質分數進行篩選檢核,將獲得之該品質項目資料依照Key-Value關係,以資料行為Key,對照比對出來之該品質分數為Value來索引儲存;d.進行目標資料載入,將待檢核資料依照Key-Value關係計算過濾,參考使用者決策參數進行過濾,並將過濾後的資料由分散運算單元載入目標資料集散地;以及e.通報使用端檢核結果。
  13. 如請求項12所述之方法,其中該更新品質規則模型步驟係將該比對模型依Key-Value關係索引儲存,以該關聯規則或該決策樹演算法之資料探勘技術,以該資料品質規則之資料行「某屬性=值」或「某屬性」為Key,該演算法所需屬性的分割指標為Value進行匯總者。
  14. 如請求項12所述之方法,其中該通報比對結果步驟係將彙總結果依Key-Value關係,以E-Mail或SMS簡訊通報使用者,且以品質分數為Key,資料行為Value進行匯總者。
TW100149402A 2011-12-29 2011-12-29 Large data checking system and its method in cloud platform TWI475411B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100149402A TWI475411B (zh) 2011-12-29 2011-12-29 Large data checking system and its method in cloud platform
CN201210200083XA CN102750367A (zh) 2011-12-29 2012-06-18 在云端平台的大数据检核系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100149402A TWI475411B (zh) 2011-12-29 2011-12-29 Large data checking system and its method in cloud platform

Publications (2)

Publication Number Publication Date
TW201327228A TW201327228A (zh) 2013-07-01
TWI475411B true TWI475411B (zh) 2015-03-01

Family

ID=47030552

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100149402A TWI475411B (zh) 2011-12-29 2011-12-29 Large data checking system and its method in cloud platform

Country Status (2)

Country Link
CN (1) CN102750367A (zh)
TW (1) TWI475411B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI693525B (zh) * 2018-12-21 2020-05-11 凌群電腦股份有限公司 雲端大數據資料庫快捷建立索引系統

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN106021415B (zh) * 2016-05-13 2019-07-09 中国建设银行股份有限公司 一种数据检核方法及系统
CN107766587A (zh) * 2016-08-16 2018-03-06 台湾国际物业管理顾问有限公司 用以检核建筑物设备成本的方法
CN106354799B (zh) * 2016-08-26 2020-01-14 河海大学 基于数据质量的主题数据集多层分面过滤方法与系统
CN106503196B (zh) * 2016-10-26 2019-05-03 云南大学 云环境下可扩展存储索引结构的构建和查询方法
CN108470228A (zh) * 2017-02-22 2018-08-31 国网能源研究院 财务数据稽核方法及稽核系统
CN107291954B (zh) * 2017-07-28 2020-07-31 南京邮电大学 一种基于MapReduce的OCL并行查询方法
CN109685360A (zh) * 2018-12-19 2019-04-26 成都四方伟业软件股份有限公司 数据质量检测方法及装置
CN109933581A (zh) * 2019-03-01 2019-06-25 武汉达梦数据库有限公司 一种数据质量检测方法及系统
CN111209274B (zh) * 2019-12-30 2021-05-07 三盟科技股份有限公司 一种数据质量检核方法、系统、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055370A1 (en) * 2008-10-10 2009-02-26 Business.Com System and method for data warehousing and analytics on a distributed file system
TW201120779A (en) * 2009-12-04 2011-06-16 Mohist Web Technology Co Ltd Trade to handle the power removal to trust a the method and the system that teach believe certification
WO2011080389A1 (en) * 2009-12-29 2011-07-07 Nokia Corporation Distributed authentication with data cloud

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9075663B2 (en) * 2010-05-12 2015-07-07 Samsung Electronics Co., Ltd. Cloud-based web workers and storages
CN102255933B (zh) * 2010-05-20 2016-03-30 中兴通讯股份有限公司 云服务中介、云计算方法及云系统
CN102055800A (zh) * 2010-12-13 2011-05-11 南京大学 基于信息汇聚的交通物联网分层体系架构

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055370A1 (en) * 2008-10-10 2009-02-26 Business.Com System and method for data warehousing and analytics on a distributed file system
TW201120779A (en) * 2009-12-04 2011-06-16 Mohist Web Technology Co Ltd Trade to handle the power removal to trust a the method and the system that teach believe certification
WO2011080389A1 (en) * 2009-12-29 2011-07-07 Nokia Corporation Distributed authentication with data cloud

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI693525B (zh) * 2018-12-21 2020-05-11 凌群電腦股份有限公司 雲端大數據資料庫快捷建立索引系統

Also Published As

Publication number Publication date
TW201327228A (zh) 2013-07-01
CN102750367A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
TWI475411B (zh) Large data checking system and its method in cloud platform
US9720971B2 (en) Discovering transformations applied to a source table to generate a target table
US9928281B2 (en) Lightweight table comparison
CN107766568B (zh) 使用列式数据库中的直方图进行有效查询处理
US9710536B2 (en) Method and system for validating data
US10671627B2 (en) Processing a data set
CN111125059B (zh) 数据迁移方法、装置、存储介质及服务器
US11487732B2 (en) Database key identification
CN114443639A (zh) 处理数据表及自动训练机器学习模型的方法和系统
CN112445875A (zh) 数据关联及检验方法、装置、电子设备及存储介质
US9195730B2 (en) Verifying correctness of a database system via extended access paths
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
US11422992B2 (en) Auto reinforced anomaly detection
US9213759B2 (en) System, apparatus, and method for executing a query including boolean and conditional expressions
US20150277976A1 (en) System and method for data quality assessment in multi-stage multi-input batch processing scenario
US11556497B2 (en) Real-time archiving method and system based on hybrid cloud
US11227288B1 (en) Systems and methods for integration of disparate data feeds for unified data monitoring
JP5668425B2 (ja) 障害検知装置、情報処理方法、およびプログラム
US20140156580A1 (en) Inference of anomalous behavior of members of cohorts and associate actors related to the anomalous behavior based on divergent movement from the cohort context centroid
US20230305917A1 (en) Operation management apparatus and method
KR101609915B1 (ko) 다차원 시간차 분석 방법 및 장치
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
CN114860690A (zh) 数据迁移方法、装置、设备及存储介质
US11042457B2 (en) Application updates
JP2023507688A (ja) プロセスのエッジテーブル表現

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees