TW201222310A

TW201222310A - System and method for filling missing data values and computer program product thereof

Info

Publication number: TW201222310A
Application number: TW099141008A
Authority: TW
Inventors: Shin-Mu Tseng; Bai-En Shie; Ja-Hwung Su; Chih-Hua Hsu
Original assignee: Inst Information Industry
Priority date: 2010-11-26
Filing date: 2010-11-26
Publication date: 2012-06-01
Also published as: US20120136896A1

Description

201222310 六、發明說明： '【發明所屬之技術領域】本發明係有關於一種資料填補系統與方法，特別是有關於一種用以補齊資料遺漏值的填補系統、方法及其電腦程式產品。【先前技術】現今許多在生物學、醫療用途資料的收集和處理，往往在遠端、或不同地方收集許多資料，再進行彙整或資料 I 處理分析。例如，基因資料的收集技術，不外乎是利用晶片或是檢測裝置以檢驗生物組織或收集生物的生理訊號，如動物或植物的細胞、體液、生物動作的生理訊號…等多種不同的基因表現資料，此等基因表現資料會被記錄於晶片或檢測裝置儲存單元中的資料陣列。然而，如上所舉例的基因資料收集，當收集基因表現資料作為醫學分析時，常會遇到基因表現值遺漏的情形。目前醫學上若基因表現資料有遺漏時，於許多分析上即無 • 法使用，故會被視為無效資料以將此缺值的資料列刪除。然而，資料列刪除過多時，將會造成分析不準確，或是無法進行分析的情形，最常見的作法是，再利用相同或相異的晶片或檢測裝置再次收集基因表現資料。不論是重新收集資料作業，或是使用其他晶片或檢測裝置，很明顯的會造成珍貴醫療資料的浪費。另一方面，現今的資料補漏技術中，多提出線性迴歸方程式（Linear regression )、類神經網路（Neural network )與 KNN ( K-nearest neighborhood )。 201222310 但線性迴歸方程式與類神經網路難以應用於類別型資料，而且，於相關的資料陣列若使用不同的補值技術，所分析出來的結果將被受質疑。另一方面，KNN則不適用於較大 .資料量的資料陣列，而且搜尋資料的時間會過長，所能使用的範_太小。因此，如何提供一適用於各種資料陣列，不會花費過長資料處理時間，且具低誤差率的補值方法，為廠商應思慮的問題。 • 【發明内容】本發明欲解決的問題係提供一種利用高相似度的資料列輔助配對，以取得相關預估資料，藉此以填補未知資料欄的資料遺漏值之填補系統、方法及其電腦程式產品。為解決上述系統問題，本發明揭露一種資料遺漏值之填補系統，其包括一儲存單元與一計算設備。儲存單元儲存有一資料陣列，資料陣列包括複數個資料列以及複數個資料欄，該等資料列包括複數個完整資料列與複數個缺值 * 資料列，每一缺值資料列包括至少一未知資料。計算設備包括有一分析程式與一處理器，處理器用以讀取並利用分析程式分析該資料陣列。其中，處理器係從所有完整資料列找出各缺值資料列近似的至少一目標資料列，從其取出至少一已知資料以推算出一預估資料，以取代其個別對應的各未知資料並作為複數個待修正資料，再從所有待修正資料找出一特定待修正資料，以特定待修正資料所在之欄的資料變化趨勢，從 201222310 所有資料攔令選擇資料變化趨勢近似順序的一第一指定資料欄與-第二指定資料攔，並依據特定待修正資料所在之列的資料，以相同資料為同群方式找出一資_群組，再依據資料列群組與第二指定資料搁之搁組合，以相同資料為同群方式劃分該等資料列為複數個子群組，並其中找出資料匹配資料列群組之至少一目標群組，以利用其對應特定待修正資料攔的資料推算出一填補資料以填入特定待修正資料之欄，再判斷特定待修正資料所在之列是否有其他籲待修正資料，以決定是否指定另—特定待修正資料。為解決上述方法問題，本發明揭露一種資料遺漏值之填補方法’適用於-資料陣列，此資料睁列包括複數個資料列以及複數個資料攔。此方法包括：從資料陣列中找出複數個完整資料列與複數個缺值資料列，每一缺值資料列包括至少一未知資料；從各完整資料列中分別為每一缺值資料列取出近似的至少一目標資料列；依據每一未知資料 Φ 於所屬缺值資料列的攔位置，從缺值資料列對應的目標資料列取得至少一已知資料，並利用已知資料推算出一預估資料，將各預估資料取代其個別對應的未知資料，以作為複數個待修正資料；從各待修正資料中指定一特定待修正資料’該特定待修正資料所在之列係為一修正資料列；依據該特定待修正資料所在之欄的資料變化趨勢，從各資料搁中選擇資料變化趨勢近似的一第一指定資料攔，依據特定待修正資料所在之列的資料’以相同資料為同群方式找出包括修正資料列的一資料列群組；從各資料欄中選擇與 201222310 特定待修正資料所在之㈣料變化趨勢第二指定資料攔，依據特定待修I# 、料欄之欄組合，依上述二::=w 八々一 i, 爛σ以相同貢料為同群方式劃複數個子群組;從各子群組找出資料匹配資目標群組’以利用上述的目標群組對應正貢料欄的資料推算出—填補資料以填入特定待

貧枓之攔；_特定待修正資料所在之列是否有其他待修正資料’以決定是敎待修正資料。本發明更揭露-種電腦程式產品，其供取以執行上述資料遺難之填補方法，流程如前說明，在此即不贅述。本發明之特點係在於，結合皮爾森資料相關係數與約略集合，採用兩段式資料補漏技術，建立高精準度的預估資料進行填補後再修正所填補之資料，此有益於提升分析的精確度與有效性。其次，此技術可將具有遺漏值的資料 •做填補，許多資料將可被保留，故被填補後的資料可被應用於更多的資料分析，而非輕易捨棄，故得以避免重複進行基因表現資料收集的作業，有益於節省醫療資源，以及節省人力及技術成本。【實施方式】茲配合圖式將本發明較佳實施例詳細說明如下。首先，請參閱圖1Α繪示本發明實施例之系統方塊圖，此系统包括一计鼻設備20與一館存單元1 〇，此储存單元 10内儲一資料陣列11，計算設備20内建有一處理器21、 6 201222310 一資料擷取器23與一分析程式22。資料擷取器23用以從儲存單元10上取得資料陣列11，處理器21將利用分析程式22以分析上述的資料陣列11。然而，資料陣列11亦得以預先被擷取而儲存於計算設備20的資料儲存單元24 中，以供處理器21直接讀取資料儲存單元24的資料陣列 11以執行下列所述的遺漏值之填補作業。計算設備20可以是一般具有資料處理能力的電子設備，例如各種類型的電腦、個人電腦、筆記型電腦、伺服 • 器、工作站或PDA等。儲存單元10可以是具有儲存能力的元件或裝置，例如晶片、記憶體、硬碟、隨身碟等，也可設置於其他裝置中或與其他裝置整合，例如各類型檢測裝置（檢測生物檢體後產生各類檢測資料）、健康照護盒（收集人體各類生理訊號）、訊號收集裝置（收集各類訊號）等。請配合圖1A而同時參閱圖1B繪示本發明實施例之資料遺漏值之填補方法流程示意圖，其適用於資料陣列的漏 ^ 值補缺，請同時參閱圖1C與圖1D繪示的圖1B方法中的細部流程示意圖，以及圖2繪示本發明一實施例之第一種資料陣列示意圖、圖3繪示本發明一實施例之資料陣列之預估值填入示意圖、圖4繪示本發明一實施例之資料陣列之特定待修正資料指定示意圖、圖5A繪示本發明一實施例之資料陣列之第一指定資料欄選擇示意圖、圖5 B繪示本發明一實施例之資料陣列之資料列群組劃分示意圖、圖6A 繪示本發明一實施例之資料陣列之另一資料列群組劃分示意圖、圖6B繪示本發明一實施例之資料陣列之子群組劃分e 201222310 示意圖與圖7緣示本發明—實施例之資料陣列之群組對應示意圖以利於了解。如圖1A’此方法包括兩個階段，—為利用皮爾森資料 (Pearson Correlation Coefficient, PCC) 料初步填人未知資料攔’―為利用約略集合以將找出缺值的近似值，以修正原預估資料，此方法流程如下：

攸貝料陣列中找出複數個完整資料列與複數個缺值資料列’每-缺值資料列包括至少一未知資料（步驟su〇)。 ^圖2’一以數值型的資料陣列m為例，資料陣列山包括複數個資料列以及複數個資料攔。假設資料陣列lla包括10個資料列，A中第4、5 5 個資料列為完整資料列，第卜2、3、6、7、8、1〇個資料列為缺值讀列，每—個缺值資料列包括至少_ 料7彳圖中以〇代表)，如第】資料列的未知資料欄為第3 攔、第2資料列的未知資料攔為第i搁、第列 =斗欄為第4攔、第6資料列的未知資料欄為第2攔與弟3棚…以此類推。攸各完整資料财分別為每―缺值資料列取標:料列(步驟S120)。此步驟請同時參_^^ =本發明實施狀資料㈣線輯流㈣意圖，其步驟奢— 一元—…·，/彳〜凡！頁科曲線（步驟S12 建立母-缺值資料列之-缺值資料曲線（步驟s叫。在此說明，先分析每一個完整資料列’將完整資米 8 201222310 的負斗、射於二維的資料軸，以取得每一完整資料列對應的完整資料曲括啤線。相同的，分析每一個缺值資料列，在忽略其具有未知資料的條件下’將缺值資料列的資料映射於一維的資料輛，以取得每一缺值資料列對應的缺值資料曲線。比對每一缺值資料曲線與完整資料曲線的相似度，以從所有完整資料曲線找出每一缺值資料曲線對應的至少一最近似目標資料曲線（步驟S123)。於此，將每一個缺值 • 資料曲線比對所有的完整資料曲線，各缺值資料曲線與完整資料曲線逐一比對後’會產生完整資料曲線對應缺值資料曲線的近似率。之後，依據此等近似率，每一缺值資料曲線得以被匹對出至少一個近似目標資料曲線。之後，依據此等缺值資料曲線與目標資料曲線的匹對，得以找出每一缺值資料列近似的至少一最近似目標資料列（步驟S124)，前述的目標資料曲線即為此處所述的籲目標資料列所映射於二維座標軸產生，故缺值資料曲線與目標資料曲線的配對即能反向取得缺值資料列與目槔資科列的配對。然而，步驟S120亦能以相同次序攔之數值相互比對羞值的方式，以比較出缺值資料列與各完整資料列的資科矣異度，進而比較出缺值資料列與各完整資料列的資科相似度，取得具高相似度的缺值資料列與完整資料列的氐對’ 而此方法為資料比對技術領域之具通常知識者所熟知’衣此不贅述。 201222310 僅次粗據每未知貝料於所屬缺值資料列的欄位置，從缺對應的目標#料縣得至少—已知 /、_對應的未知資料，以作為複數 (步驟 S140)。 ^ ^ 值次斜I預估貝料為其預填入的未知資料攔所屬缺广，屬的目標資料列的已知資料的例如’圖2與圖3洽千咨u λα —" 值 4輕㈣諸，第1 :=!有未知貧料71於第3攔，而最近似元整資料列為第5資料列，扮楚3 幻的 (3/卜3)… 貧料列的第3攔即以3 么二=資料72。又如’第2 #料列具有未知資 ==:最接近第2資料列的完整資料列為第4 資料-。又如/ ^ 而Mm欠貝科歹J具有未知資料71於第4攔，而取接近第3資料列的完整資料列為料列，故第3資料列的第4欄即以2 ;、=二 ;_72。以此類推，將各未知資料二關= :代：完成未知資料的初階段填補作業，而此等二4 科即視為後續將被使用的待修正資料’即如圖3所接著，進行預估資料的修正作業， S刚之後，從财待修正賴’ 驟⑽），此特定待修正資料所在之列寺修正f枓（步請同時參閱圖4,將弈…”、 > 正貝料列。將先别進订預估賢料填補的所有待修正… 201222310 資料〃，中L擇者作為目前將進行資料修正的特定待修丨次料而其所在之列即視為-修正資料列。以下，將第 3 為未修正過的修正資料列8卜第1資料列的第。、二有特定待修正資料82,於此，重新以〇替之。熱，"Λ著-依據特定待修正資料所在之攔的資料變化趨 '料二所有資料攔中選擇資料變化趨勢近似的—第一指定二為二依據特定待修正資料所在之列的資料，以相同資 S160)5 $式找出包括修正資料列的—資料列群組（步驟曰。特定待修正資料所在之攔的資料變化趨勢近似度，資料效益值之高低作為基準，關於資料效益料列群Γ、/⑽時參閱圖1示本發明實施例之尋求資每一程示意圖’其步驟如下：需先計算各資料列的的資料效，步驟叫以選擇資料效益貝料攔作為前述的第一指定資料襴（步驟s 16 2 )。各仃貝料效益值的計算方式如下： m Σ f m 、 Σ\> ί ΣνΛ/) vi.k-M— m V — /=1 Vj,k — l J m

故{cor(l，修正資料列的未 , 木知貝科攔數），cor(2，修正貝料列的未知資料欄數)，c〇r( 1,修正貝科列的未知資料欄數），cor(5,修正資料列的未知 (公式1) 貝科襴數）} = {〇.867 -0 419 -0.062, 0.600}，其中’修正資料，.’ S3 、料歹j 81的未知貧料攔數為3。 201222310 資料欄為第一指二;::第2料欄為最高’故視第1 的資料’以相同資料為同群方式:所二=:::=攔組，即如圖5Α與圖5Β絡- ’ 灯sj刀群前述第i資料攔，亦是第曰不二康各資料列的第1攔（即資料列會被劃分為四個群&，曰=^ 83)的資料，所有第糊與第4資二列、第叫^ 從嗲W 同一個資料列群組84。變化趨勢第二近似的正資料所在彻資料所在之欄與第二貝料搁’依據特定待修正相同資料為同雜m曰又貝；斗搁之搁組合’依此攔組合以 S170)。，、’、 J分各資料列為複數個子群組（步驟料列:::二的複雜度’可 :r群:式對所有資料列進行劃心料修正㈣所在之攔處於第3 侈正出4個群組。然而，修正資料列的特定待影響，在此忽略修正資H成一個群組皆不對後續運算有第二:艾=’資料效益值以第4欄為第2高.故視 M : ―4曰疋身料攔83’。故將第1資料列的第3欄斑 4=為參照用的棚組合，以在各糊 I且成的m進行輯，即可從原劃分的4個群組再劃⑸ 201222310 .^ 8個子群組。其中，第3資料列與第4資料列因兩者的第3欄與第4欄的資料組合相同（同為丨圖中方框選處），故第3資料列與第4資料列被劃分於同一子群組第I子群組97)中。相同的’修正資料列81的特定 2正貧料82為0’故是否自成—個群㈣不對後續運算有影響，在此忽略修正資料列8 j。從所有子群組找出資料匹配資料列群組的至少一目^ ’以利用所有目標群組對應特定待修資料攔的資料：异出-填補資料以填入特定待修資料棚（步驟議）。盆方式包括，當子群組中的一特定群組之資料列，與資料^ =中的純列任一相符者，判斷特定群組為目標群組，此時，即指定待修正資料攔為指定資料攔。料列如第圖二Γ,資料列群組84包㈣^ =、第3- 貝料列與第4資料列。然而，料列，第7子群組97包括第3資料列與第4資： ί料=4義而言，第4子群組94與第7子群組97為二:= 即第4子群組94與第7子群組97 即為上拍特鱗組，第4子群組94的第3敎數值與第 :二二7的第3欄即為上述的指定資料攔，其數靖 k後而使用於待修正資料攔中。因此，第！資料列的特疋待修資料攔應填人的填觀料為，第 ' 棚之數值與第7子群組97的第3攔之數值除以2的^ 鮮〜3’5° h之’填補資料即是「被選取子群植的特疋待修㈣_數值加、崎觀子群城」。故第卜 ^ irSl 13 201222310 .料㈣較鄉資制應填人數值為3.5。 τ 2後判斷特疋待修正資料所在之列是否有其他待修 f 4 S190)。當特定待修正資料所在之列全數修 =完畢時，即結束作業，反之’則指定另—特定待修正資科，即疋返回（步驟S15〇)，以持續步驟_至步驟· 的流直至所有特定待修正資料被全數修正完畢為止。料列8至圖1G繪示的第二種資料陣列變化與資 4⑽，請同時參關1A至圖1D以利於了解。本發明實施例之第二種資料陣列範例圖 = 為例。假設，料陣列包括9個資料列，二第貝科列、第7資料列與苐9資料列為缺值資料列， ::ΓΓϊ資料列包括至少一個未知資料71，，如第5資料第2們1^料71’於第1搁、第7資料列的未知資料71，於第、第9資料列的未知資料71，於第！攔…以此類推。相同的，透過步驟su〇至步驟叫〇，圖8緣示的資 '，列’其所有的未知資料將被相關的預估資料所取代， Γ完成未知資料的初階段填補作業，即如圖9所繪示。例如’可利用P—關係數公式來進行預估： =_相_數公式主要概念是分咖㈣列，其在各欄計的變化，以將有缺值之列的平均值二::再依據所算出缺值之列的平均值來計算缺值 14 201222310 ， Pearson相關係數公式，如下所示： ⑴ where I = luC\lv. 其中^分別代表為兩資料列〜，_分別為第〇列的第i、j個攔位值，則為第χ列的平均值，j為兩資料列共同有值的攔集合，以圖2為例，其中第2列與第3 % 籲之相似度計算如下 r2 — 2’5， g = 3.25 ’ Simiiarity(第 2 列，第 3 列） =((3-2.5)(2-3.25)+(3-2.5)(4-3.25)+(3-2.5)(3-3.25))/((/- (3-2.5)2+(3-2.5)2+(3-2.5)2)(^(2-3.25)2+(4-3.25)2+ (3-3.25)2)=0.125/ (^0-25+0.25+0.25)(^0.5625+0.5625+ 0.0625))=0.14。接下來，藉此再根據最相似列的目標攔值預測出結 φ 果，一般使用的公式定義如下·· P . = ir JL * (rv,i ~ …—， ⑴ where U = all similar xisers with u. 、，其中Pu’ i為第u列第i欄的目標攔值，為第u列的平均攔值，Su，v表示為第u列與第v列之相似度，以圖2 舉例來說，假設想要預測的是第2列第i攔的值，首先必須先決定與第2列最為相關的其他資料列，在圖2令我們 201222310 可以發現與第1列與第2列最為相似，相似度計算的結果分別為 0.353 ，因此最後的預測結果 P2J=2.5+(0.353*(4-3))/0.353=3.5。然而，與前述實施例不同處在於，前實施例的資料列的資料為數值型資料，預估資料72,為其預填入的未知資料 71，所屬缺值資料列，其對應的目標資料列的相關已知資料的平均數值。然而，此例資料列的資料為類別型資料，預估資料72’為其預更替的未知資料71’所屬缺值資料列’其 • 對應的目標資料列的相關已知資料中出現次數最高的資料。舉例而言，假設第5資料列對應的目標資料列為第1 資料例至第4資料列，此等資料列的第1欄中，出現最多次的資料為L，第5資料列的第1欄的數值即被預估為L。相似的，圖9繪示的第二種資料陣列於初步預估資料 72’填入後，亦透過步驟S150至步驟S190以修正各缺值資料列的特定待修正資料，改以計算出的填補資料85替之， ▲ 如圖10繪示。就此例，步驟S150至步驟S190可參考習知技術，例如文獻為”T.P. Hong, L.H. Tseng, and S.L. Wang. “ Learning rules from incomplete training examples by rough sets.” Expert Systems with Applications, Vol. 22, pp. 285, 2002."來進行運算。綜上所述’乃僅記載本發明為呈現解決問題所採用的技術手段之實施方式或實施例而已，並非用來限定本發明專利實施之範圍。即凡與本發明專利申請範圍文義相符，[s] 16 201222310 或依本發明專利範圍所做的均等變化與修飾，皆為本發明專利範圍所涵蓋。

[s] 17 201222310 【圖式簡單說明】 '圖1A繪示本發明實施例之系統方塊圖；圖1B繪示本發明實施例之資料遺漏值之填補方法流程示意圖；圖1C與圖1D繪示的圖1B方法中的細部流程示意圖；圖2繪示本發明實施例之第一種資料陣列範例圖；圖3繪示本發明一實施例之資料陣列之預估值填入示意圖， • 圖4繪示本發明一實施例之資料陣列之特定待修正資料指定不意圖，圖5A繪示本發明一實施例之資料陣列之第一指定資料欄選擇示意圖；圖5 B繪示本發明一實施例之資料陣列之資料列群組劃分不意圖，圖6A繪示本發明一實施例之資料陣列之另一資料列群組劃分示意圖； ^ 圖6B繪示本發明一實施例之資料陣列之子群組劃分示意圖，圖7繪示本發明一實施例之資料陣列之群組對應示意圖；圖8繪示本發明一實施例之第二種資料陣列範例圖；圖9繪示本發明一實施例之第二種資料陣列之預估值填入示意圖；以及圖10繪示本發明一實施例之第二種資料陣列之填補資料填入示意圖。 18 201222310

【主要元件符號說明】 10 儲存單元 11 資料陣列 11a 數值型的資料陣列 lib 類別型的資料陣列 20 計算設備 21 處理器 22 分析程式 23 資料擷取器 24 資料儲存單元 71 數值型的資料陣列的未知資料 71, 類別型的貧料陣列的未知貧料 72 ' IT 預估資料 81 未修正過的修正資料列 82 特定待修正資料 83 第一指定資料欄 83, 第二指定資料欄 84 資料列群組 85 填補資料 94 第4子群組 97 第7子群組 19

Claims

201222310 七、申請專利範圍： l 一種資料遺漏值之填補系統，其包括：、-儲存早7C’其儲存有—資料陣列，該資料陣列包括複數個資制以及複數個資料欄，該等㈣列包括複數個完整資料列與複數個缺值資料列，每—缺值資料列包括至少一未知資料；以及一計算設備，其包括·· 一分析程式；及一處理器’用以讀取並利用該分析程式分析該資料陣列’其中，該處理器係從該等完整資料職出各缺值貝枓列近似的至少一目標資料列，從其取出至少一已知主㈣以推算出—預㈣料’以取代其個別對應的該等未貝料並作為複數個待修正資料，再從該等待修正資料 ^ 一敎待修正㈣，㈣特定躲正麟所在之搁的貝科k化趨勢’從該等資料攔中選擇資料變化趨勢近 =序的一第一指定資料搁與一第二指定資料搁，並依 : = 料所在之列的資料，以相同資料為同 _ 貝料列群組，再依據該:#料列群組與該第攔組合，以相同資料為同群方式劃:該列^ 群組，並其中找出資料匹配該資料次杜Γ之至少—目標群組，以利用其對應該特定待修正 ::攔的資料推算出-填補資料以填入該特定待修正 ==判斷該!定待修正資料所在之列是否有其 >貝；以/夫疋是否指定另—特定待修正資料。 [S] 20 201222310 2·如申請專利範圍第1項所述資料遺漏值之填補系統，立中該處理器係建立每一完整資料列之一完整資料曲線，建立每一缺值資料列之一缺值資料曲線，並比對每一缺值資料曲線與該等完整資料曲線的相似度，以從該等完整資料曲線找出每一缺值資料曲線對應的至少一近似目標資料曲線；以及依據該等缺值資料曲線與各該目標資料曲線的匹對，找出每-缺值資料列近似的至^ 一最近似目標資料列。

3.如申請專利範圍第所述資料遺漏值之填補系統，〕中該處理器係判斷該子群組中一特定群組之資料列，^ 該資料列群組中之資料列任一相符時，判斷該特定群: 為該目標群組，再指定待修正資料搁為指定資料搁。 4‘ =申請專利範圍第i項所述資料遺漏值之填補系統，』中该等貢料列之資料為數值型資料，該填補資料為⑹ 少一目標群組之該指定#料攔中的數值的平均數。

U!:範圍第1項所述資料遺漏值之填補系統，| 資料為類別型資料，該預估資料為其予〗 ==料攔所屬該缺值資料攔，其對應的卿目才示貝枓列之該至少一已知資料中的資料。 6. :，遺漏值之填補方法，適用於一資料陣列，” =陣列包括複數個資料列以及複數個資料攔，該方:包從該資料陣列中找出複數個完整缺值資料列，每―缺值資料列包括至少-未知資 201222310 從該等完整資料列中分別為每一缺值資料列取出近似的至少一目標資料列；依據每一未知資料於所屬該缺值資料列的攔位置，從該缺值資料列對應的該至少—目標資料列取得至 )一已知貧料，並利用該至少—已知資料推算出-預估

將該等預估資料取代其個別對應的該等未知資料，以作為複數個待修正資料；、定待ί Γ ^修正資料中指定—特定待修正#料，該特疋待修正資料所在之列係為—修正資料列；依據該特定待修正#料所在之攔的資料變化趨 ^從該等資料攔中選擇資料變化趨勢近似的一第一指定貧料攔’並依據該特定待修正資料所在之列的資料：以相同資料為同群方式找出-資料列群組；、攸綠寻貞、科欄甲選擇與該特定待修正資料攔資料變化趨勢第二近似的一第二指定資，修正資料所在之攔與第二指定資料欄之攔： δ，依該組合以相同資料為同群方式劃分為複數個子群組；貝了寸幻馬從該等子群組找出資料匹配該資料列群組之至，丨、目^群、.且以利用4至少—目標群組對應該正資料欄的資料推算出一填補資料以 = 正資料之攔；以及苛疋待修 [S] 22 201222310 欠判斷該特定待修正資料所在之列是否有其他待修正資料，以決定是否指定另一特定待修正資料。如申吻專利範圍第6項所述資料遺漏值之填補方法，其中從該等完整資料列中分別為取出每一缺值資料列取出近似的至少一目標資料列之該步驟包括·· 建立每一完整資料列之一完整資料曲線；建立每一缺值資料列之一缺值資料曲線：、比對每-缺值資料曲線與該等完整資料曲線的相似度’以從該等完整資料曲線找出每—缺值資料曲線對應的至少一近似目標資料曲線；以及依據該等缺值資料曲線與各該目標資料曲線的匹 ’找出每-缺值資料列近似的至少—最近似目標資料

8· Π請翻範㈣6韻述轉相值之填補方法，其從该等子群組找㈣料匹配該資料列群組之至少^ 目標群組之該步驟包括：伯疋付修正貧料攔為指定資料攔。 • 項所述資料遺漏值之填補方法1 二==ί值型資料，該填補資料為該至、^扣疋貝料攔中的數值的平均數。 23 201222310 ίο.如申請專利範圍第6項所述資料遺漏值之填補方法，其中該等資料列之資料為類別型資料，該預估資料為其預填入的未知資料攔所屬該缺值資料欄，其對應的該至少一目標資料狀該至少—已知資料中的資料。 11·一種電腦㈣產品’其供—計算設備讀取吨行之填補方法’以分析—資料陣列，該資料陣列包複數個貧料列以及複數個資料攔，該方法包含. 缺值陣列中找出複數個完整資料列與複數個 '"严列’母一缺值資料列包括至少一未知資料；近似的貝料列中分別為每—缺值資料列取出近似的至少一目標資料列；依據每一未知資料於所屬該缺置，從該缺值資料列㈣, J0muiL 少一P4 ^ j對應的錢少-目標資料列取得至已知貝料，並利用該至少資料；以及貝丁叶推异出一預估將該等預估資料取代其個枓，則乍為複數個待修正資料；的4未知貧從該等待修正資料中指定待修正眘特疋待修正貧料，該特 2 所在之列係為-修正資料列；勢’從該等資料襴中選擇的資料變化趨定資料襴，依據該特=:趨的一第-指相同資料為同群方正貪料所在之列的資料，以列群組； x戈出包括該修正資料列之一資料 24 201222310 從該等資料欄中選擇與該特定待修正資料所在之欄資料變化趨勢第二近似的一第二指定資料攔，依據該特定待修正資料所在之欄與第二指定資料欄之欄組合，依該組合以相同資料為同群方式劃分該等資料列為複數個子群組；從該等子群組找出資料匹配該資料列群組之至少一目標群組，以利用該至少一目標群組對應該特定待修正資料欄的資料推算出一填補資料以填入該特定待修正資料之攔；以及判斷該特定待修正資料所在之列是否有其他待修正資料，以決定是否另一特定待修正資料。

25