TWI781400B - 資料齊備度分析系統和資料齊備度分析方法 - Google Patents

資料齊備度分析系統和資料齊備度分析方法 Download PDF

Info

Publication number
TWI781400B
TWI781400B TW109115288A TW109115288A TWI781400B TW I781400 B TWI781400 B TW I781400B TW 109115288 A TW109115288 A TW 109115288A TW 109115288 A TW109115288 A TW 109115288A TW I781400 B TWI781400 B TW I781400B
Authority
TW
Taiwan
Prior art keywords
data
mentioned
index
score
completeness
Prior art date
Application number
TW109115288A
Other languages
English (en)
Other versions
TW202143039A (zh
Inventor
龔如心
張晉維
陳聖華
Original Assignee
台達電子工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 台達電子工業股份有限公司 filed Critical 台達電子工業股份有限公司
Priority to TW109115288A priority Critical patent/TWI781400B/zh
Publication of TW202143039A publication Critical patent/TW202143039A/zh
Application granted granted Critical
Publication of TWI781400B publication Critical patent/TWI781400B/zh

Links

Images

Landscapes

  • Analysing Materials By The Use Of Radiation (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種資料齊備度分析系統包括儲存裝置、欄位資料描述檔產生模組和廣義資料齊備度分析模組。儲存裝置用以儲存複數原生資料。欄位資料描述檔產生模組產生複數原生資料所對應之複數欄位資料描述檔。廣義資料齊備度分析模組根據產生之欄位資料描述檔判斷原生資料的一致性指標之分數。廣義資料齊備度分析模組根據每一欄位資料描述檔之分類標籤,從原生資料中取得要進行分析之標籤之資料,並取得要進行分析之標籤之資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數。一種資料齊備度分析方法亦在此揭露。

Description

資料齊備度分析系統和資料齊備度分析方法
本發明之實施例主要係有關於一種資料齊備度分析技術,特別係有關於一種藉由不同齊備度分析模組和指標來分析不同面向資料之資料齊備度之資料齊備度分析技術。
隨著數據資料蒐集更加便利,可利用的數據資料量急速增加,且資料分析技術也跟著蓬勃發展。有效的大數據資料分析結果需仰賴良好的資料品質,因此資料品質是資料分析上重要的課題。現行的資料品質診斷做法可分為資料分析專家自行利用程式語言分析,或使用市面上分析套裝軟體。然而,目前針對資料品質(齊備度)之分析方法尚不夠全面,診斷的流程尚未標準化,亦缺乏針對後續應用檢視進而再優化的面向
有鑑於上述問題,本發明之實施例提供了一種資料齊備度分析系統和資料齊備度分析方法。
根據本發明之一實施例提供了一種資料齊備度分析系統,包括一儲存裝置、一欄位資料描述檔產生模組和一齊備度分析模組。儲存裝置用以儲存複數原生資料。欄位資料描述檔產生模組耦接上述儲存裝置,且用以產生上述複數原生資料所對應之複數欄位資料描述檔。廣義資料齊備度分析模組耦接上述儲存裝置和上述欄位資料描述檔產生模組,以取得上述複數原生資料和上述複數欄位資料描述檔。廣義資料齊備度分析模組可根據上述複數欄位資料描述檔判斷原生資料的一一致性指標之分數。廣義資料齊備度分析模組可根據每一上述欄位資料描述檔之分類標籤,從上述複數原生資料中取得要進行分析之標籤之資料,並取得要進行分析之標籤之資料所對應之一完整性指標之分數、一正確性指標之分數、一有效性指標之分數和一精煉度指標之分數。廣義資料齊備度分析模組可根據上述一致性指標之分數,以及要進行分析之標籤之資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷要進行分析之標籤之資料所對應之資料齊備度。
在一些實施例中,資料齊備度分析系統更包括一原生資料齊備度分析模組。原生資料齊備度分析模組耦接上述儲存裝置和上述欄位資料描述檔產生模組,以取得上述複數原生資料和上述複數欄位資料描述檔。原生資料齊備度分析模組可根據上述複數原生資料和上述複數欄位資料描述檔,取得每一上述原生資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數。原生資料齊備度分析模組可根據每一上述原生資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷每一上述原生資料之資料齊備度。
在一些實施例中,資料齊備度分析系統更包括一特定資料齊備度分析模組。特定資料齊備度分析模組耦接上述儲存裝置和上述欄位資料描述檔產生模組,以取得上述複數原生資料和上述複數欄位資料描述檔。特定資料齊備度分析模組可根據一特定模板,從上述複數原生資料中取得特定資料,以及取得上述特定資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數、上述精煉度指標之分數、一配適度指標之分數和一資料量指標之分數。特定資料齊備度分析模組可根據上述特定資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數、上述精煉度指標之分數、上述配適度指標之分數和上述資料量指標之分數,判斷上述特定資料之資料齊備度。
在本發明之實施例中,配適度指標係用以判斷上述特定資料所包含之內容,是否滿足上述特定模板所需要之內容。
在本發明之實施例中,資料量指標係用以根據一學習曲線判斷上述特定資料所包含之內容之資料量是否足夠。
在本發明之實施例中,完整性指標係用以判斷資料之欄位之數據是否有遺漏。
在本發明之實施例中,正確性指標係用以判斷資料是否有格式錯誤、數值錯誤以及關聯錯誤。
在本發明之實施例中,有效性指標係用以判斷資料是否發生異常集群分布,以及資料之數值是否超過一臨界值。
在本發明之實施例中,精煉度指標係用以判斷資料中是否出現重複之內容或分布。
一致性指標係用以判斷複數原生資料之間的欄位是否具有關聯性以及其名稱和記錄方式是否一致。
根據本發明之一實施例提供了一種資料齊備度分析方法。上述資料齊備度分析方法之步驟包括,藉由欄位資料描述檔產生模組產生複數原生資料所對應之複數欄位資料描述檔;藉由一廣義資料齊備度分析模組取得上述複數原生資料和上述複數欄位資料描述檔;藉由上述廣義資料齊備度分析模組,根據上述複數欄位資料描述檔判斷原生資料的一一致性指標之分數;藉由上述廣義資料齊備度分析模組,根據每一上述欄位資料描述檔之分類標籤,從上述複數原生資料取得要進行分析之標籤之資料,並取得要進行分析之標籤之資料所對應之一完整性指標之分數、一正確性指標之分數、一有效性指標之分數和一精煉度指標之分數;以及藉由上述廣義資料齊備度分析模組根據上述一致性指標之分數,以及要進行分析之標籤之資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷要進行分析之標籤之資料所對應之資料齊備度。
關於本發明其他附加的特徵與優點,此領域之熟習技術人士,在不脫離本發明之精神和範圍內,當可根據本案實施方法中所揭露之資料齊備度分析系統和方法,做些許的更動與潤飾而得到。
本章節所敘述的是實施本發明之較佳方式,目的在於說明本發明之精神而非用以限定本發明之保護範圍,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
第1圖係顯示根據本發明之一實施例所述之一資料齊備度分析系統100之方塊圖。如第1圖所示,資料齊備度分析系統100可包括一儲存裝置110、一欄位資料描述檔產生模組120、一原生資料齊備度分析模組130、一廣義資料齊備度分析模組140,以及一特定資料齊備度分析模組150。注意地是,在第1圖中所示之方塊圖,僅係為了方便說明本發明之實施例,但本發明並不以第1圖為限。資料齊備度分析系統100中亦可包含其他元件。
根據本發明之實施例,收集到之複數原生資料可被儲存在儲存裝置110中。此外,根據本發明之實施例,收集到之複數原生資料可先被轉換成表格之形式。特別說明地是,本發明所述之原生資料係表示已轉換成表格形式之原生資料。也就是說,本發明之實施例中所述儲存裝置110所儲存之原生資料係表示複數資料表。儲存在儲存裝置110之原生資料,可提供給原生資料齊備度分析模組130、廣義資料齊備度分析模組140以及特定資料齊備度分析模組150,以進行資料齊備度分析。
根據本發明之實施例,當要對收集到之原生資料進行資料齊備度之分析時,欄位資料描述檔產生模組120可從儲存裝置110取得原生資料,並根據取得之原生資料(例如:複數資料表),產生對應每一原生資料(資料表)之欄位資料描述檔。在每一欄位資料描述檔中可記錄每一原生資料(資料表)之欄位名稱、每一原生資料(資料表)之欄位所對應之欄位資料型態(type)、每一原生資料(資料表)之欄位所對應之分類標籤(category)、原生資料(資料表)間之欄位關聯,但本發明不以此為限。
每一原生資料(資料表)之欄位名稱可係產品名稱、產品序號、物質之名稱、人員之名稱或量測數值,但本發明不以此為限。每一原生資料(資料表)之欄位所對應之欄位資料型態可包括,整數(可標示為int)、字串(可標示為varchar)、布林值(可標示為bool)或日期(可標示為data),但本發明不以此為限。每一原生資料(資料表)之欄位所對應之分類標籤可包括,人、機器、原料、方法、環境、地點或量測,但本發明不以此為限。每一原生資料(資料表)之欄位所對應之內容可係表示欄位名稱所對應之描述。底下以表1和表2為例來說明。
產品 記錄項目 序號 數值
A 溫度 1 31.5
A 速度 1 3648
A 電壓 1 0.89
A 溫度 2 31
A 速度 2 3680
A 電壓 2 0.89
表1
欄位名稱 欄位所對應之內容 欄位之資料型態 分類標籤
產品 產品的名稱 字串 其他
記錄項目 產品屬性 字串 其他
序號 產品序號 布林值 其他
數值 產品屬性之數值 整數 量測
表2
表1係根據本發明一實施例所述之一原生資料S之示意圖。如表1所示,表1所示之原生資料S係關於產品A之資料表。特別說明地是,原生資料S僅係顯示產品A之資料,但本發明不以此為限。其他原生資料亦可包含其他產品之資料表。此外,在表1之原生資料S中係以產品A之資訊為例,但本發明不以此為限。原生資料亦可係其他對應不同分析主題之資料表,例如:環境量測、人物分析、事件分析等。表2係根據本發明一實施例所述之一欄位資料描述檔之示意圖。如表2所示,表2所示之欄位資料描述檔中顯示了表1之原生資料S之每一欄位所對應之欄位名稱、資料型態、分類標籤。特別說明地是,表2僅係用來說明本發明之實施例,但本發明不以此為限。欄位資料描述檔中亦可包含其他資訊,例如在多個不同的原生資料表之間,可以依據不同欄位之間的資料相似度來建立欄位關聯的資訊。
根據本發明之實施例,當原生資料齊備度分析模組130要分析原生資料(例如:複數資料表)之資料齊備度時,可從儲存裝置110取得要進行分析之原生資料,以及從欄位資料描述檔產生模組120取得要進行分析之原生資料所對應之欄位資料描述檔。接著,原生資料齊備度分析模組130可根據取得之原生資料和欄位資料描述檔,計算出每一原生資料所對應之完整性(completeness)指標之分數、正確性(accuracy)指標之分數、有效性(validity)指標之分數和精煉度(compaction)指標之分數。原生資料齊備度分析模組130可再根據每一原生資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數,產生對應原生資料之資料齊備度之一整體分數。
根據本發明之實施例,完整性指標係用以判斷資料之欄位之數據是否有遺漏或缺失。根據本發明之一實施例,原生資料齊備度分析模組130可計算出原生資料之每一欄位數據缺失之比率,並根據每一欄位數據缺失之比率計算出原生資料對應之完整性指標之分數。根據本發明之一實施例,若一欄位之數據缺失之比率大於一臨界值,原生資料齊備度分析模組130可產生一提示訊息,以告知使用者此欄位之數據齊備度可能不足。
根據本發明之實施例,正確性指標係用以判斷資料是否有格式錯誤、數值錯誤以及關聯錯誤。根據本發明之一實施例,原生資料齊備度分析模組130可根據原生資料包含之數據發生錯誤(格式錯誤、數值錯誤以及關聯錯誤)之百分比,計算出原生資料對應之正確性指標之分數。
根據本發明之一實施例,原生資料齊備度分析模組130可根據欄位資料描述檔所記錄之欄位所對應之欄位資料型態,判斷原生資料之每一欄位所包含之數據是否發生格式錯誤。舉例來說,若一欄位所對應之欄位資料型態是整數 (int),但其包含之數據卻出現字串(varchar),原生資料齊備度分析模組130就會判斷該欄位發生格式錯誤。注意地是,上述例子僅係用以說明本發明之實施例,但本發明不以此為限。
根據本發明之一實施例,原生資料齊備度分析模組130可判斷原生資料之每一欄位所包含之數據是否大於或小於一上限值或一下限值,以判斷是否發生數值錯誤。舉例來說,若一欄位所記錄的數據是身高,但卻出現小於0之數值,原生資料齊備度分析模組130就會判斷該欄位發生數值錯誤。根據本發明之另一實施例,原生資料齊備度分析模組130可判斷原生資料之每一欄位所包含之數據是否出現不合理之數值,以判斷是否發生數值錯誤。舉例來說,若一欄位所記錄的數據是性別,但卻出現和性別無關之數據,原生資料齊備度分析模組130就會判斷該欄位發生數值錯誤。注意地是,上述例子僅係用以說明本發明之實施例,但本發明不以此為限。
根據本發明之一實施例,原生資料齊備度分析模組130可判斷原生資料之欄位之數據的關聯是否發生錯誤,以判斷是否發生關聯錯誤。舉例來說,若原生資料之一欄位所記錄的數據是華氏溫度,另一欄位所記錄的數據是攝氏溫度,當華氏溫度和其對應之攝氏溫度之關聯發生錯誤時,原生資料齊備度分析模組130就會判斷原生資料發生關聯錯誤。舉另一例子來說,若原生資料之一欄位所記錄的數據是起始時間,另一欄位所記錄的數據是結束時間,當一起始時間晚於其對應之結束時間,原生資料齊備度分析模組130就會判斷原生資料發生關聯錯誤。注意地是,上述例子僅係用以說明本發明之實施例,但本發明不以此為限。
根據本發明之實施例,有效性指標係用以判斷資料是否發生異常集群分布,以及資料之數值(例如:離群數(outlier))是否超過一臨界值。根據本發明之一實施例,原生資料齊備度分析模組130可判斷原生資料之每一欄位所對應之數據是否太過分散或太過集中,以判斷原生資料是否發生異常集群分布。當欄位所對應之數據太過分散或太過集中,會使得原生資料因樣本過於分散或集中,而降低了原生資料之分析價值。因此,當原生資料之每一欄位所對應之數據太過分散或太過集中時,原生資料齊備度分析模組130就會判斷原生資料發生異常集群分布。舉例來說,若原生資料之一欄位所記錄之數據是設備型號,當該欄位所記錄之設備型號太過分散(即所收集之樣本分散於不同型號)時,原生資料齊備度分析模組130就會判斷原生資料發生異常集群分布。若原生資料之一欄位所記錄之數據是性別,當該欄位所記錄之數據太過集中(即所收集之樣本過於集中,例如:所記錄之性別都是男生)時,原生資料齊備度分析模組130就會判斷原生資料發生異常集群分布。此外,根據本發明之另一實施例,原生資料齊備度分析模組130可判斷原生資料之每一欄位所對應之數值是否超過一臨界值,以判斷原生資料中所收集到之樣本是否出現異常。當原生資料之一欄位所對應之數值超過一臨界值時,原生資料齊備度分析模組130就會判斷原生資料中所收集到之樣本出現異常。原生資料齊備度分析模組130可根據判斷原生資料是否發生異常集群分布,以及原生資料之數值是否超過一臨界值之結果,計算出原生資料所對應之有效性指標之分數。注意地是,上述例子僅係用以說明本發明之實施例,但本發明不以此為限。
根據本發明之實施例,精煉度指標係用以判斷資料中是否出現重複之內容或分布。根據本發明之一實施例,原生資料齊備度分析模組130可判斷原生資料中是否出現重複之欄位或重複之數據,以計算出原生資料所對應之精煉度指標之分數。
根據本發明之實施例,當廣義資料齊備度分析模組140要分析原生資料(例如:複數資料表)之每一分類標籤之資料之資料齊備度時,廣義資料齊備度分析模組140可先從儲存裝置110取得要進行分析之原生資料,以及從欄位資料描述檔產生模組120取得要進行分析之原生資料所對應之欄位資料描述檔。廣義資料齊備度分析模組140會判斷每一原生資料彼此之相關性,以取得一致性(consistency)指標之分數。此外,廣義資料齊備度分析模組140會根據每一欄位資料描述檔所記錄之分類標籤(即每一原生資料之欄位所對應之分類標籤),從每一原生資料中取出要進行分析之標籤所對應之欄位之資料,並計算出要進行分析之標籤之資料所對應之完整性(completeness)指標之分數、正確性(accuracy)指標之分數、有效性(validity)指標之分數和精煉度(compaction)指標之分數。最後,廣義資料齊備度分析模組140可根據一致性指標之分數,以及要進行分析之標籤之資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數,產生要進行分析之標籤之資料對應之資料齊備度之一整體分數。以表1和表2為例,若廣義資料齊備度分析模組140要進行分析之分類標籤係「量測」,廣義資料齊備度分析模組140就會從原生資料中取出分類標籤係「量測」之欄位之資料,來進行資料齊備度之分析。
根據本發明之實施例,一致性指標係用以判斷複數原生資料之間的欄位是否具有關聯性以及其名稱和記錄方式是否一致。舉例來說,若原生資料A1之欄位B1和原生資料A2之欄位B2係對應相同的資料,但欄位B1和欄位B2之欄位名稱不一致或欄位B1和欄位B2之欄位資料型態不一致時,廣義資料齊備度分析模組140就會判斷原生資料A1之欄位B1和原生資料A2之欄位B2不一致。當原生資料彼此對應之相同欄位之名稱和記錄方式不一致時,將容易造成分析上之混淆。廣義資料齊備度分析模組140會根據原生資料彼此對應之覆蓋之比例,計算出一致性指標之分數。注意地是,上述例子僅係用以說明本發明之實施例,但本發明不以此為限。
根據本發明之實施例,廣義資料齊備度分析模組140計算需要進行分析之標籤之資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數之方式和原生資料齊備度分析模組130計算原生資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數之計算方式類似,因此在此就不再贅述。
根據本發明之實施例,當特定資料齊備度分析模組150要分析原生資料(例如:複數資料表)之中對應一特定模板所對應之特定資料之資料齊備度時,特定資料齊備度分析模組150可先從儲存裝置110取得要進行分析之原生資料,以及從欄位資料描述檔產生模組120取得要進行分析之原生資料所對應之欄位資料描述檔。本發明之實施例所述之特定模板可係表示針對特定應用、特定之情境、特定之需求所需要之特定資料之設定。底下會以表3來做說明。
序號 溫度 速度 電壓
1 31.5 3648 0.89
2 31 3680 0.89
3 34 3568 0.89
4 32 3680 0.89
5 35 3616 0.89
6 33 3680 0.9
…  
表3
表3係根據本發明一實施例所述之一特定資料之示意圖。參考表1所示,若特定模板係針對產品A之資料齊備度之分析,特定資料齊備度分析模組150會根據特定模板之資訊,從原生資料中取得關於產品A之特定資料(如表3所示)。特別說明地是,表3僅係用來說明本發明之實施例,但本發明不以此為限。特定模板亦可係不同應用之分析。
特定資料齊備度分析模組150可根據特定模板之資訊,從原生資料中取得特定資料,並計算出特定資料所對應之完整性(completeness)指標之分數、正確性(accuracy)指標之分數、有效性(validity)指標之分數、精煉度(compaction)指標之分數、配適度(fitness)指標之分數和資料量(quantity)指標之分數。最後,特定資料齊備度分析模組150可根據特定資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數、精煉度指標之分數、配適度指標之分數和資料量指標之分數,產生特定資料對應之資料齊備度之一整體分數。
根據本發明之實施例,配適度指標係用以判斷特定資料所包含之內容,是否滿足特定模板所需要之內容。特定資料齊備度分析模組150可判斷特定資料所包含之欄位,是否滿足特定模板所需要之欄位,以計算出特定資料對應之配適度指標之分數。根據本發明之一實施例,特定資料齊備度分析模組150可根據對應此特定模板之歷史資料判斷目前特定資料所包含之內容是否可滿足特定模板所需要之內容,以計算出特定資料對應之配適度指標之分數。
根據本發明之實施例,資料量指標係用以根據一學習曲線判斷特定資料所包含之內容之資料量是否足夠。學習曲線可係利用一資料學習方法來產生。特定資料齊備度分析模組150可根據特定資料所包含之內容之資料量產生一學習曲線,並根據學習曲線之斜率去計算,以產生資料量指標之分數。當學習曲線之斜率越小,表示特定資料所包含之內容之資料量越足夠。當學習曲線之斜率越大,則表示特定資料所包含之內容之資料量越不足。
根據本發明之實施例,特定資料齊備度分析模組150計算特定資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數之方式和原生資料齊備度分析模組130計算原生資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數之計算方式類似,因此,在此就不再贅述。
根據本發明之實施例所提出之原生資料齊備度分析模組130、廣義資料齊備度分析模組140以及特定資料齊備度分析模組150,資料齊備度分析系統100可分別產生資料不同面向之資料齊備度之分析結果。在一些實施例中,可僅採用原生資料齊備度分析模組130、廣義資料齊備度分析模組140以及特定資料齊備度分析模組150之一者所產生之分析結果來判定資料之資料齊備度。在一些實施例中,可採用原生資料齊備度分析模組130、廣義資料齊備度分析模組140以及特定資料齊備度分析模組150之多者所產生之分析結果,進行綜合性之評估來判定資料之資料齊備度。
第2圖係根據本發明之一實施例所述之一資料齊備度分析方法之流程圖。此資料齊備度分析齊備度方法可適用資料齊備度分析系統100。如第2圖所示,在步驟S210,資料齊備度分析系統100之欄位資料描述檔產生模組會產生複數原生資料所對應之複數欄位資料描述檔。在步驟S220,資料齊備度分析系統100之一廣義資料齊備度分析模組取得複數原生資料和複數欄位資料描述檔。在步驟S230,資料齊備度分析系統100之廣義資料齊備度分析模組根據複數欄位資料描述檔判斷原生資料的一一致性指標之分數。在步驟S240,資料齊備度分析系統100之廣義資料齊備度分析模組根據每一欄位資料描述檔之分類標籤,從複數原生資料取得要進行分析之標籤之資料,並取得要進行分析之標籤之資料所對應之一完整性指標之分數、一正確性指標之分數、一有效性指標之分數和一精煉度指標之分數。在步驟S250,資料齊備度分析系統100之廣義資料齊備度分析模組根據一致性指標之分數,以及要進行分析之標籤之資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數,判斷要進行分析之標籤之資料所對應之資料齊備度。
第3圖係根據本發明之一實施例所述之一資料齊備度分析方法之流程圖。此資料齊備度分析方法可適用資料齊備度分析系統100。如第3圖所示,在步驟S310,資料齊備度分析系統100會產生複數原生資料所對應之複數欄位資料描述檔。在步驟S320,資料齊備度分析系統100之一原生資料齊備度分析模組取得複數原生資料和複數欄位資料描述檔。在步驟S330,資料齊備度分析系統100之原生資料齊備度分析模組根據複數原生資料和複數欄位資料描述檔,取得每一原生資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數。在步驟S340,資料齊備度分析系統100之原生資料齊備度分析模組根據每一原生資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數和精煉度指標之分數,判斷每一原生資料之資料齊備度。
第4圖係根據本發明之一實施例所述之一資料齊備度分析方法之流程圖。此資料齊備度分析方法可適用資料齊備度分析系統100。如第4圖所示,在步驟S410,資料齊備度分析系統100之欄位資料描述檔產生模組會產生複數原生資料所對應之複數欄位資料描述檔。在步驟S420,資料齊備度分析系統100之一特定資料齊備度分析模組取得複數原生資料和複數欄位資料描述檔。在步驟S430,資料齊備度分析系統100之特定資料齊備度分析模組根據一特定模板,從複數原生資料取得特定資料,以及取得特定資料所對應之完整性指標之分數、正確性指標之分數、有效性指標之分數、精煉度指標之分數、配適度指標之分數和資料量指標之分數。在步驟S440,資料齊備度分析系統100之特定資料齊備度分析模組根據完整性指標之分數、正確性指標之分數、有效性指標之分數、精煉度指標之分數、配適度指標之分數和資料量指標之分數,判斷特定資料之資料齊備度。
根據本發明提出之資料齊備度分析方法,可藉由不同分析模組和指標來分析不同面向之資料齊備度。
本說明書中以及申請專利範圍中的序號,例如「第一」、「第二」等等,僅係為了方便說明,彼此之間並沒有順序上的先後關係。
本發明之說明書所揭露之方法和演算法之步驟,可直接透過執行一處理器直接應用在硬體以及軟體模組或兩者之結合上。一軟體模組(包括執行指令和相關數據)和其它數據可儲存在數據記憶體中,像是隨機存取記憶體(RAM)、快閃記憶體(flash memory)、唯讀記憶體(ROM)、可抹除可規化唯讀記憶體(EPROM)、電子可抹除可規劃唯讀記憶體(EEPROM)、暫存器、硬碟、可攜式硬碟、光碟唯讀記憶體(CD-ROM)、DVD或在此領域習之技術中任何其它電腦可讀取之儲存媒體格式。一儲存媒體可耦接至一機器裝置,舉例來說,像是電腦/處理器(爲了說明之方便,在本說明書以處理器來表示),上述處理器可透過來讀取資訊(像是程式碼),以及寫入資訊至儲存媒體。一儲存媒體可整合一處理器。一特殊應用積體電路(ASIC)包括處理器和儲存媒體。一用戶設備則包括一特殊應用積體電路。換句話說,處理器和儲存媒體以不直接連接用戶設備的方式,包含於用戶設備中。此外,在一些實施例中,任何適合電腦程序之產品包括可讀取之儲存媒體,其中可讀取之儲存媒體包括和一或多個所揭露實施例相關之程式碼。在一些實施例中,電腦程序之產品可包括封裝材料。
以上段落使用多種層面描述。顯然的,本文的教示可以多種方式實現,而在範例中揭露之任何特定架構或功能僅為一代表性之狀況。根據本文之教示,任何熟知此技藝之人士應理解在本文揭露之各層面可獨立實作或兩種以上之層面可以合併實作。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何熟習此技藝者,在不脫離本揭露之精神和範圍內,當可作些許之更動與潤飾,因此發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:資料齊備度分析系統 110:儲存裝置 120:欄位資料描述檔產生模組 130:原生資料齊備度分析模組 140:廣義資料齊備度分析模組 150:特定資料齊備度分析模組 S210~S250、S310~S330、S410~S430:步驟
第1圖係顯示根據本發明之一實施例所述之一資料齊備度分析系統100之方塊圖。 第2圖係根據本發明之一實施例所述之一資料齊備度分析方法之流程圖。 第3圖係根據本發明之另一實施例所述之一資料齊備度分析方法之流程圖。 第4圖係根據本發明之另一實施例所述之一資料齊備度分析方法之流程圖。
100:資料齊備度分析系統
110:儲存裝置
120:欄位資料描述檔產生模組
130:原生資料齊備度分析模組
140:廣義資料齊備度分析模組
150:特定資料齊備度分析模組

Claims (20)

  1. 一種資料齊備度分析系統,包括:一儲存裝置,用以儲存複數原生資料;一欄位資料描述檔產生模組,耦接上述儲存裝置,且該欄位資料描述檔產生模組用以產生對應於上述複數原生資料之複數欄位資料描述檔;以及一廣義資料齊備度分析模組,耦接上述儲存裝置和上述欄位資料描述檔產生模組,以取得上述複數原生資料和上述複數欄位資料描述檔;其中上述廣義資料齊備度分析模組根據上述複數欄位資料描述檔判斷上述複數原生資料的一一致性指標之分數;其中上述廣義資料齊備度分析模組根據每一上述欄位資料描述檔之分類標籤,從上述複數原生資料中取得要進行分析之分類標籤之資料,並取得要進行分析之分類標籤之資料所對應之一完整性指標之分數、一正確性指標之分數、一有效性指標之分數和一精煉度指標之分數;其中上述廣義資料齊備度分析模組根據上述一致性指標之分數,以及要進行分析之分類標籤之資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷要進行分析之分類標籤之資料所對應之資料齊備度;其中上述有效性指標係用以判斷資料是否發生異常集群分布。
  2. 如請求項1之資料齊備度分析系統,更包括:一原生資料齊備度分析模組,耦接上述儲存裝置和上述欄位資料描述檔產生模組,以取得上述複數原生資料和上述複數欄位資料描述檔;其中上述原生資料齊備度分析模組根據上述複數原生資料和上述複數欄位資料描述檔,取得每一上述原生資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數;其中上述原生資料齊備度分析模組根據每一上述原生資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷每一上述原生資料之資料齊備度。
  3. 如請求項2之資料齊備度分析系統,更包括:一特定資料齊備度分析模組,耦接上述儲存裝置和上述欄位資料描述檔產生模組,以取得上述複數原生資料和上述複數欄位資料描述檔;其中上述特定資料齊備度分析模組根據一特定模板,從上述複數原生資料中取得特定資料,以及取得上述特定資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數、上述精煉度指標之分數、一配適度指標之分數和一資料量指標之分數; 其中上述特定資料齊備度分析模組根據上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數、上述精煉度指標之分數、上述配適度指標之分數和上述資料量指標之分數,判斷上述特定資料之資料齊備度。
  4. 如請求項3之資料齊備度分析系統,其中上述配適度指標係用以判斷上述特定資料所包含之內容,是否滿足上述特定模板所需要之內容。
  5. 如請求項3之資料齊備度分析系統,其中上述資料量指標係用以根據一學習曲線判斷上述特定資料所包含之內容之資料量是否足夠。
  6. 如請求項3之資料齊備度分析系統,其中上述完整性指標係用以判斷資料之欄位之數據是否有遺漏。
  7. 如請求項3之資料齊備度分析系統,其中上述正確性指標係用以判斷資料是否有格式錯誤、數值錯誤以及關聯錯誤。
  8. 如請求項3之資料齊備度分析系統,其中上述有效性指標係用以判斷資料之數據是否太過分散或太過集中。
  9. 如請求項3之資料齊備度分析系統,其中上述精煉度指標係用以判斷資料中是否出現重複之內容或分布。
  10. 如請求項1之資料齊備度分析系統,其中上述一致性指標係用以判斷上述複數原生資料之間的欄位是否具有關聯性以及其名稱和記錄方式是否一致。
  11. 一種資料齊備度分析方法,包括: 產生複數原生資料所對應之複數欄位資料描述檔;藉由一廣義資料齊備度分析模組取得上述複數原生資料和上述複數欄位資料描述檔;藉由上述廣義齊備度資料分析模組,根據上述複數欄位資料描述檔判斷上述複數原生資料的一一致性指標之分數;藉由上述廣義資料齊備度分析模組,根據每一上述欄位資料描述檔之分類標籤,從上述複數原生資料取得要進行分析之分類標籤之資料,並取得要進行分析之分類標籤之資料所對應之一完整性指標之分數、一正確性指標之分數、一有效性指標之分數和一精煉度指標之分數;以及藉由上述廣義資料齊備度分析模組根據上述一致性指標之分數,以及要進行分析之分類標籤之資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷要進行分析之分類標籤之資料所對應之資料齊備度;其中上述有效性指標係用以判斷資料是否發生異常集群分布。
  12. 如請求項11之資料齊備度分析方法,更包括:藉由一原生資料齊備度分析模組,取得上述複數原生資料和上述複數欄位資料描述檔;藉由上述原生資料齊備度分析模組根據上述複數原生資料和上述複數欄位資料描述檔,取得每一上述原生資料所對應之上述完整 性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數;以及藉由上述原生資料齊備度分析模組根據每一上述原生資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數和上述精煉度指標之分數,判斷每一上述原生資料之資料齊備度。
  13. 如請求項12之資料齊備度分析方法,更包括:藉由一特定資料齊備度分析模組取得上述複數原生資料和上述複數欄位資料描述檔;藉由上述特定資料齊備度分析模組根據一特定模板,從上述複數原生資料取得特定資料,以及取得上述特定資料所對應之上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數、上述精煉度指標之分數、一配適度指標之分數和一資料量指標之分數;以及藉由上述特定資料齊備度分析模組根據上述完整性指標之分數、上述正確性指標之分數、上述有效性指標之分數、上述精煉度指標之分數、上述配適度指標之分數和上述資料量指標之分數,判斷上述特定資料之資料齊備度。
  14. 如請求項13之資料齊備度分析方法,其中上述配適度指標係用以判斷上述特定資料所包含之內容,是否滿足上述特定模板所需要之內容。
  15. 如請求項13之資料齊備度分析方法,其中上述資料量指標係用以根據一學習曲線判斷上述特定資料所包含之內容之資料量是否足夠。
  16. 如請求項13之資料齊備度分析方法,其中上述完整性指標係用以判斷資料之欄位之數據是否有遺漏。
  17. 如請求項13之資料齊備度分析方法,其中上述正確性指標係用以判斷資料是否有格式錯誤、數值錯誤以及關聯錯誤。
  18. 如請求項13之資料齊備度分析方法,其中上述有效性指標係用以判斷資料之數據是否太過分散或太過集中。
  19. 如請求項13之資料齊備度分析方法,其中上述精煉度指標係用以判斷資料中是否出現重複之內容或分布。
  20. 如請求項11之資料齊備度分析方法,其中上述一致性指標係用以判斷上述複數原生資料之間的欄位是否具有關聯性以及其名稱和記錄方式是否一致。
TW109115288A 2020-05-08 2020-05-08 資料齊備度分析系統和資料齊備度分析方法 TWI781400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109115288A TWI781400B (zh) 2020-05-08 2020-05-08 資料齊備度分析系統和資料齊備度分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109115288A TWI781400B (zh) 2020-05-08 2020-05-08 資料齊備度分析系統和資料齊備度分析方法

Publications (2)

Publication Number Publication Date
TW202143039A TW202143039A (zh) 2021-11-16
TWI781400B true TWI781400B (zh) 2022-10-21

Family

ID=80783334

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109115288A TWI781400B (zh) 2020-05-08 2020-05-08 資料齊備度分析系統和資料齊備度分析方法

Country Status (1)

Country Link
TW (1) TWI781400B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1517873A (zh) * 2003-01-15 2004-08-04 英业达股份有限公司 生产线管理系统以及方法
TW201447570A (zh) * 2013-02-27 2014-12-16 Hewlett Packard Development Co 資料同步技術
TW201525714A (zh) * 2013-12-18 2015-07-01 Tencent Tech Shenzhen Co Ltd 監控業務運行資料入庫的方法、資料源伺服器、資料監控中心伺服器及通信系統
TW201616360A (zh) * 2014-10-29 2016-05-01 波音公司 複雜資料集的預測分析以及包含其之系統和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1517873A (zh) * 2003-01-15 2004-08-04 英业达股份有限公司 生产线管理系统以及方法
TW201447570A (zh) * 2013-02-27 2014-12-16 Hewlett Packard Development Co 資料同步技術
TW201525714A (zh) * 2013-12-18 2015-07-01 Tencent Tech Shenzhen Co Ltd 監控業務運行資料入庫的方法、資料源伺服器、資料監控中心伺服器及通信系統
TW201616360A (zh) * 2014-10-29 2016-05-01 波音公司 複雜資料集的預測分析以及包含其之系統和方法

Also Published As

Publication number Publication date
TW202143039A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
List et al. Sequence comparison in computational historical linguistics
JP5963328B2 (ja) 生成装置、生成方法、およびプログラム
JP6850806B2 (ja) 電子データ構造から属性を抽出するための注釈システム
Chang et al. What makes a great journal great in the sciences? Which came first, the chicken or the egg?
JP2018195078A (ja) 評価装置、評価方法、および評価プログラム
Carlson et al. Bootstrapping information extraction from semi-structured web pages
CN111814793A (zh) 药品图文信息违规检测方法及系统
CN107784069B (zh) 一种用于智能诊断学生知识能力的方法
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
US8117237B2 (en) Optimized method and system for managing proper names to optimize the management and interrogation of databases
US20220366346A1 (en) Method and apparatus for document evaluation
CN112597062A (zh) 军用软件结构化质量数据抽取方法、装置及软件测试装置
CN113782125A (zh) 基于人工智能的诊所评分方法、装置、电子设备及介质
Amit et al. Corrective commit probability: a measure of the effort invested in bug fixing
TWI781400B (zh) 資料齊備度分析系統和資料齊備度分析方法
US20190303434A1 (en) Method And Device For Generating An Electronic Document Specification
CN112366002A (zh) 一种基于知识库对院内真实世界不良用药的评估方法
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
CN116303741A (zh) 数据展示方法、设备及存储介质
US20210318949A1 (en) Method for checking file data, computer device and readable storage medium
CN113626417A (zh) 数据齐备度分析系统和数据齐备度分析方法
Rahaman et al. Comparisons of bibliometric indices to gauge the quality of virology journals
TWI582620B (zh) 教科書引證索引系統
Gerber et al. Automatic quality control of transportation reports using statistical language processing
Mohseni et al. Comparative Analysis of Preference in Contemporary and Earlier Texts Using Entropy Measures

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent