TW201222310A - System and method for filling missing data values and computer program product thereof - Google Patents
System and method for filling missing data values and computer program product thereof Download PDFInfo
- Publication number
- TW201222310A TW201222310A TW099141008A TW99141008A TW201222310A TW 201222310 A TW201222310 A TW 201222310A TW 099141008 A TW099141008 A TW 099141008A TW 99141008 A TW99141008 A TW 99141008A TW 201222310 A TW201222310 A TW 201222310A
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- column
- missing
- group
- corrected
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
201222310 六、發明說明: '【發明所屬之技術領域】 本發明係有關於一種資料填補系統與方法,特別是有 關於一種用以補齊資料遺漏值的填補系統、方法及其電腦 程式產品。 【先前技術】 現今許多在生物學、醫療用途資料的收集和處理,往 往在遠端、或不同地方收集許多資料,再進行彙整或資料 I 處理分析。例如,基因資料的收集技術,不外乎是利用晶 片或是檢測裝置以檢驗生物組織或收集生物的生理訊號, 如動物或植物的細胞、體液、生物動作的生理訊號…等多 種不同的基因表現資料,此等基因表現資料會被記錄於晶 片或檢測裝置儲存單元中的資料陣列。 然而,如上所舉例的基因資料收集,當收集基因表現 資料作為醫學分析時,常會遇到基因表現值遺漏的情形。 目前醫學上若基因表現資料有遺漏時,於許多分析上即無 • 法使用,故會被視為無效資料以將此缺值的資料列刪除。 然而,資料列刪除過多時,將會造成分析不準確,或是無 法進行分析的情形,最常見的作法是,再利用相同或相異 的晶片或檢測裝置再次收集基因表現資料。不論是重新收 集資料作業,或是使用其他晶片或檢測裝置,很明顯的會 造成珍貴醫療資料的浪費。另一方面,現今的資料補漏技 術中,多提出線性迴歸方程式(Linear regression )、類神經 網路(Neural network )與 KNN ( K-nearest neighborhood )。 201222310 但線性迴歸方程式與類神經網路難以應用於類別型資料, 而且,於相關的資料陣列若使用不同的補值技術,所分析 出來的結果將被受質疑。另一方面,KNN則不適用於較大 .資料量的資料陣列,而且搜尋資料的時間會過長,所能使 用的範_太小。 因此,如何提供一適用於各種資料陣列,不會花費過 長資料處理時間,且具低誤差率的補值方法,為廠商應思 慮的問題。 • 【發明内容】 本發明欲解決的問題係提供一種利用高相似度的資料 列輔助配對,以取得相關預估資料,藉此以填補未知資料 欄的資料遺漏值之填補系統、方法及其電腦程式產品。 為解決上述系統問題,本發明揭露一種資料遺漏值之 填補系統,其包括一儲存單元與一計算設備。儲存單元儲 存有一資料陣列,資料陣列包括複數個資料列以及複數個 資料欄,該等資料列包括複數個完整資料列與複數個缺值 * 資料列,每一缺值資料列包括至少一未知資料。計算設備 包括有一分析程式與一處理器,處理器用以讀取並利用分 析程式分析該資料陣列。 其中,處理器係從所有完整資料列找出各缺值資料列 近似的至少一目標資料列,從其取出至少一已知資料以推 算出一預估資料,以取代其個別對應的各未知資料並作為 複數個待修正資料,再從所有待修正資料找出一特定待修 正資料,以特定待修正資料所在之欄的資料變化趨勢,從 201222310 所有資料攔令選擇資料變化趨勢近似順序的一第一指定資 料欄與-第二指定資料攔,並依據特定待修正資料所在之 列的資料,以相同資料為同群方式找出一資_群組,再 依據資料列群組與第二指定資料搁之搁組合,以相同資料 為同群方式劃分該等資料列為複數個子群組,並其中找出 資料匹配資料列群組之至少一目標群組,以利用其對應特 定待修正資料攔的資料推算出一填補資料以填入特定待修 正資料之欄,再判斷特定待修正資料所在之列是否有其他 籲待修正資料,以決定是否指定另—特定待修正資料。 為解決上述方法問題,本發明揭露一種資料遺漏值之 填補方法’適用於-資料陣列,此資料睁列包括複數個資 料列以及複數個資料攔。此方法包括:從資料陣列中找出 複數個完整資料列與複數個缺值資料列,每一缺值資料列 包括至少一未知資料;從各完整資料列中分別為每一缺值 資料列取出近似的至少一目標資料列;依據每一未知資料 Φ 於所屬缺值資料列的攔位置,從缺值資料列對應的目標資 料列取得至少一已知資料,並利用已知資料推算出一預估 資料,將各預估資料取代其個別對應的未知資料,以作為 複數個待修正資料;從各待修正資料中指定一特定待修正 資料’該特定待修正資料所在之列係為一修正資料列;依 據該特定待修正資料所在之欄的資料變化趨勢,從各資料 搁中選擇資料變化趨勢近似的一第一指定資料攔,依據特 定待修正資料所在之列的資料’以相同資料為同群方式找 出包括修正資料列的一資料列群組;從各資料欄中選擇與 201222310 特定待修正資料所在之㈣料變化趨勢第二 指定資料攔,依據特定待修I# 、 料欄之欄組合,依上述二::=w 八々一 i, 爛σ以相同貢料為同群方式劃 複數個子群組;從各子群組找出資料匹配資 目標群組’以利用上述的目標群組對應 正貢料欄的資料推算出—填補資料以填入特定待
貧枓之攔;_特定待修正資料所在之列是否有其他 待修正資料’以決定是敎待修正資料。 本發明更揭露-種電腦程式產品,其供 取以執行上述資料遺難之填補方法,流程如前說明,在 此即不贅述。 本發明之特點係在於,結合皮爾森資料相關係數與約 略集合,採用兩段式資料補漏技術,建立高精準度的預估 資料進行填補後再修正所填補之資料,此有益於提升分析 的精確度與有效性。其次,此技術可將具有遺漏值的資料 •做填補,許多資料將可被保留,故被填補後的資料可被應 用於更多的資料分析,而非輕易捨棄,故得以避免重複進 行基因表現資料收集的作業,有益於節省醫療資源,以及 節省人力及技術成本。 【實施方式】 茲配合圖式將本發明較佳實施例詳細說明如下。 首先,請參閱圖1Α繪示本發明實施例之系統方塊圖, 此系统包括一计鼻設備20與一館存單元1 〇,此储存單元 10内儲一資料陣列11,計算設備20内建有一處理器21、 6 201222310 一資料擷取器23與一分析程式22。資料擷取器23用以從 儲存單元10上取得資料陣列11,處理器21將利用分析程 式22以分析上述的資料陣列11。然而,資料陣列11亦得 以預先被擷取而儲存於計算設備20的資料儲存單元24 中,以供處理器21直接讀取資料儲存單元24的資料陣列 11以執行下列所述的遺漏值之填補作業。 計算設備20可以是一般具有資料處理能力的電子設 備,例如各種類型的電腦、個人電腦、筆記型電腦、伺服 • 器、工作站或PDA等。儲存單元10可以是具有儲存能力 的元件或裝置,例如晶片、記憶體、硬碟、隨身碟等,也 可設置於其他裝置中或與其他裝置整合,例如各類型檢測 裝置(檢測生物檢體後產生各類檢測資料)、健康照護盒(收 集人體各類生理訊號)、訊號收集裝置(收集各類訊號)等。 請配合圖1A而同時參閱圖1B繪示本發明實施例之資 料遺漏值之填補方法流程示意圖,其適用於資料陣列的漏 ^ 值補缺,請同時參閱圖1C與圖1D繪示的圖1B方法中的 細部流程示意圖,以及圖2繪示本發明一實施例之第一種 資料陣列示意圖、圖3繪示本發明一實施例之資料陣列之 預估值填入示意圖、圖4繪示本發明一實施例之資料陣列 之特定待修正資料指定示意圖、圖5A繪示本發明一實施 例之資料陣列之第一指定資料欄選擇示意圖、圖5 B繪示本 發明一實施例之資料陣列之資料列群組劃分示意圖、圖6A 繪示本發明一實施例之資料陣列之另一資料列群組劃分示 意圖、圖6B繪示本發明一實施例之資料陣列之子群組劃分e 201222310 示意圖與圖7緣示本發明—實施例之資料陣列之群組對應 示意圖以利於了解。 如圖1A’此方法包括兩個階段,—為利用皮爾森資料 (Pearson Correlation Coefficient, PCC) 料初步填人未知資料攔’―為利用約略集合以將找出缺值 的近似值,以修正原預估資料,此方法流程如下:
攸貝料陣列中找出複數個完整資料列與複數個缺值資 料列’每-缺值資料列包括至少一未知資料(步驟su〇)。 ^圖2’一以數值型的資料陣列m為例,資料陣列山包括 複數個資料列以及複數個資料攔。 假設資料陣列lla包括10個資料列,A中第4、5 5 個資料列為完整資料列,第卜2、3、6、7、8、1〇個資料 列為缺值讀列,每—個缺值資料列包括至少_ 料7彳圖中以〇代表),如第】資料列的未知資料欄為第3 攔、第2資料列的未知資料攔為第i搁、第列 =斗欄為第4攔、第6資料列的未知資料欄為第2攔與 弟3棚…以此類推。 攸各完整資料财分別為每―缺值資料列取 標:料列(步驟S120)。此步驟請同時參_^^ =本發明實施狀資料㈣線輯流㈣意圖,其步驟 奢— 一元—…·,/彳〜凡!頁科曲線(步驟S12 建立母-缺值資料列之-缺值資料曲線(步驟s叫。 在此說明,先分析每一個完整資料列’將完整資米 8 201222310 的負斗、射於二維的資料軸,以取得每一完整資料列對應 的完整資料曲括 啤線。相同的,分析每一個缺值資料列,在忽 略其具有未知資料的條件下’將缺值資料列的資料映射於 一維的資料輛,以取得每一缺值資料列對應的缺值資料曲 線。 比對每一缺值資料曲線與完整資料曲線的相似度,以 從所有完整資料曲線找出每一缺值資料曲線對應的至少一 最近似目標資料曲線(步驟S123)。於此,將每一個缺值 • 資料曲線比對所有的完整資料曲線,各缺值資料曲線與完 整資料曲線逐一比對後’會產生完整資料曲線對應缺值資 料曲線的近似率。之後,依據此等近似率,每一缺值資料 曲線得以被匹對出至少一個近似目標資料曲線。 之後,依據此等缺值資料曲線與目標資料曲線的匹 對,得以找出每一缺值資料列近似的至少一最近似目標資 料列(步驟S124),前述的目標資料曲線即為此處所述的 籲 目標資料列所映射於二維座標軸產生,故缺值資料曲線與 目標資料曲線的配對即能反向取得缺值資料列與目槔資科 列的配對。 然而,步驟S120亦能以相同次序攔之數值相互比對羞 值的方式,以比較出缺值資料列與各完整資料列的資科矣 異度,進而比較出缺值資料列與各完整資料列的資科相似 度,取得具高相似度的缺值資料列與完整資料列的氐對’ 而此方法為資料比對技術領域之具通常知識者所熟知’衣 此不贅述。 201222310 僅次粗據每未知貝料於所屬缺值資料列的欄位置,從缺 對應的目標#料縣得至少—已知 /、_對應的未知資料,以作為複數 (步驟 S140)。 ^ ^ 值次斜I預估貝料為其預填入的未知資料攔所屬缺 广,屬的目標資料列的已知資料的 例如’圖2與圖3洽千咨u λα —" 值 4輕㈣諸,第1 :=!有未知貧料71於第3攔,而最近似 元整資料列為第5資料列,扮楚3 幻的 (3/卜3)… 貧料列的第3攔即以3 么二=資料72。又如’第2 #料列具有未知資 ==:最接近第2資料列的完整資料列為第4 資料-。又如/ ^ 而Mm欠 貝科歹J具有未知資料71於第4攔, 而取接近第3資料列的完整資料列為 料列,故第3資料列的第4欄即以2 ;、=二 ;_72。以此類推,將各未知資料二關= :代:完成未知資料的初階段填補作業,而此等二4 科即視為後續將被使用的待修正資料’即如圖3所 接著,進行預估資料的修正作業, S刚之後,從财待修正賴’ 驟⑽),此特定待修正資料所在之列寺修正f枓(步 請同時參閱圖4,將弈…”、 > 正貝料列。 將先别進订預估賢料填補的所有待修正… 201222310 資料〃,中L擇者作為目前將進行資料修正的特定待修 丨次料而其所在之列即視為-修正資料列。以下,將第 3 為未修正過的修正資料列8卜第1資料列的第 。、二有特定待修正資料82,於此,重新以〇替之。 熱,"Λ著-依據特定待修正資料所在之攔的資料變化趨 '料二所有資料攔中選擇資料變化趨勢近似的—第一指定 二為二依據特定待修正資料所在之列的資料,以相同資 S160)5 $式找出包括修正資料列的—資料列群組(步驟 曰。特定待修正資料所在之攔的資料變化趨勢近似度, 資料效益值之高低作為基準,關於資料效益 料列群Γ、/⑽時參閱圖1示本發明實施例之尋求資 每一 程示意圖’其步驟如下:需先計算各資料列的 的資料效,步驟叫以選擇資料效益 貝料攔作為前述的第一指定資料襴(步驟s 16 2 )。 各仃貝料效益值的計算方式如下: m Σ f m 、 Σ\> ί ΣνΛ/) vi.k-M— m V — /=1 Vj,k — l J m
故{cor(l,修正資料列的未 , 木知貝科攔數),cor(2,修正 貝料列的未知資料欄數),c〇r( 1,修正貝科列的未知資料欄 數),cor(5,修正資料列的未知 (公式1) 貝科襴數)} = {〇.867 -0 419 -0.062, 0.600},其中’修正資料 ,.’ S3 、料歹j 81的未知貧料攔數為3。 201222310 資料欄為第一指二;::第2料欄為最高’故視第1 的資料’以相同資料為同群方式:所二=:::=攔 組,即如圖5Α與圖5Β絡- ’ 灯sj刀群 前述第i資料攔,亦是第曰不二康各資料列的第1攔(即 資料列會被劃分為四個群&,曰=^ 83)的資料,所有 第糊與第4資二列、第叫^ 從嗲W 同一個資料列群組84。 變化趨勢第二近似的正資料所在彻 資料所在之欄與第二貝料搁’依據特定待修正 相同資料為同雜m曰又貝;斗搁之搁組合’依此攔組合以 S170)。,、’、 J分各資料列為複數個子群組(步驟 料列:::二的複雜度’可 :r群:式對所有資料列進行劃心 料修正㈣所在之攔處於第3 侈正出4個群組。然而,修正資料列的特定待 影響,在此忽略修正資H成一個群組皆不對後續運算有 第二:艾=’資料效益值以第4欄為第2高.故視 M : ―4曰疋身料攔83’。故將第1資料列的第3欄斑 4=為參照用的棚組合,以在各糊 I且成的m進行輯,即可從原劃分的4個群組再劃⑸ 201222310 .^ 8個子群組。其中,第3資料列與第4資料列因兩者 的第3欄與第4欄的資料組合相同(同為丨圖中方框選 處),故第3資料列與第4資料列被劃分於同一子群組 第I子群組97)中。相同的’修正資料列81的特定 2正貧料82為0’故是否自成—個群㈣不對後續運算 有影響,在此忽略修正資料列8 j。 從所有子群組找出資料匹配資料列群組的至少一目^ ’以利用所有目標群組對應特定待修資料攔的資料: 异出-填補資料以填入特定待修資料棚(步驟議)。盆 方式包括,當子群組中的一特定群組之資料列,與資料^ =中的純列任一相符者,判斷特定群組為目標群組, 此時,即指定待修正資料攔為指定資料攔。 料列如第圖二Γ,資料列群組84包㈣^ =、第3- 貝料列與第4資料列。然而, 料列,第7子群組97包括第3資料列與第4資: ί料=4義而言,第4子群組94與第7子群組97為 二:= 即第4子群組94與第7子群組97 即為上拍特鱗組,第4子群組94的第3敎數值與第 :二二7的第3欄即為上述的指定資料攔,其數靖 k後而使用於待修正資料攔中。因此,第!資料列的特 疋待修資料攔應填人的填觀料為,第 ' 棚之數值與第7子群組97的第3攔之數值除以2的^ 鮮〜3’5° h之’填補資料即是「被選取子群植的 特疋待修㈣_數值加、崎觀子群城」。故第卜 ^ irSl 13 201222310 .料㈣較鄉資制應填人數值為3.5。 τ 2後判斷特疋待修正資料所在之列是否有其他待修 f 4 S190)。當特定待修正資料所在之列全數修 =完畢時,即結束作業,反之’則指定另—特定待修正資 科,即疋返回(步驟S15〇),以持續步驟_至步驟· 的流直至所有特定待修正資料被全數修正完畢為止。 料列8至圖1G繪示的第二種資料陣列變化與資 4⑽,請同時參關1A至圖1D以利於了解。 本發明實施例之第二種資料陣列範例圖 = 為例。假設,料陣列包括9個資料列, 二第貝科列、第7資料列與苐9資料列為缺值資料列, ::ΓΓϊ資料列包括至少一個未知資料71,,如第5資料 第2們1^料71’於第1搁、第7資料列的未知資料71,於 第、第9資料列的未知資料71,於第!攔…以此類推。 相同的,透過步驟su〇至步驟叫〇,圖8緣示的資 ',列’其所有的未知資料將被相關的預估資料所取代, Γ完成未知資料的初階段填補作業,即如圖9所繪示。例 如’可利用P—關係數公式來進行預估 : =_相_數公式主要概念是分咖㈣列,其在各欄 計的變化,以將有缺值之列的平均值 二::再依據所算出缺值之列的平均值來計算缺值 14 201222310 , Pearson相關係數公式,如下所示: ⑴ where I = luC\lv. 其中^分別代表為兩資料列〜,_分別為第〇 列的第i、j個攔位值,則為第χ列的平均值,j為兩資料 列共同有值的攔集合,以圖2為例,其中第2列與第3 % 籲之相似度計算如下 r2 — 2’5, g = 3.25 ’ Simiiarity(第 2 列,第 3 列) =((3-2.5)(2-3.25)+(3-2.5)(4-3.25)+(3-2.5)(3-3.25))/((/- (3-2.5)2+(3-2.5)2+(3-2.5)2)(^(2-3.25)2+(4-3.25)2+ (3-3.25)2)=0.125/ (^0-25+0.25+0.25)(^0.5625+0.5625+ 0.0625))=0.14。 接下來,藉此再根據最相似列的目標攔值預測出結 φ 果,一般使用的公式定義如下·· P . = ir JL * (rv,i ~ …—, ⑴ where U = all similar xisers with u. 、,其中Pu’ i為第u列第i欄的目標攔值,為第u列的 平均攔值,Su,v表示為第u列與第v列之相似度,以圖2 舉例來說,假設想要預測的是第2列第i攔的值,首先必 須先決定與第2列最為相關的其他資料列,在圖2令我們 201222310 可以發現與第1列與第2列最為相似,相似度計算的結果 分別為 0.353 ,因此最後的預測結果 P2J=2.5+(0.353*(4-3))/0.353=3.5。 然而,與前述實施例不同處在於,前實施例的資料列 的資料為數值型資料,預估資料72,為其預填入的未知資料 71,所屬缺值資料列,其對應的目標資料列的相關已知資料 的平均數值。然而,此例資料列的資料為類別型資料,預 估資料72’為其預更替的未知資料71’所屬缺值資料列’其 • 對應的目標資料列的相關已知資料中出現次數最高的資 料。舉例而言,假設第5資料列對應的目標資料列為第1 資料例至第4資料列,此等資料列的第1欄中,出現最多 次的資料為L,第5資料列的第1欄的數值即被預估為L。 相似的,圖9繪示的第二種資料陣列於初步預估資料 72’填入後,亦透過步驟S150至步驟S190以修正各缺值資 料列的特定待修正資料,改以計算出的填補資料85替之, ▲ 如圖10繪示。 就此例,步驟S150至步驟S190可參考習知技術,例 如文獻為”T.P. Hong, L.H. Tseng, and S.L. Wang. “ Learning rules from incomplete training examples by rough sets.” Expert Systems with Applications, Vol. 22, pp. 285, 2002."來進行運算。 綜上所述’乃僅記載本發明為呈現解決問題所採用的 技術手段之實施方式或實施例而已,並非用來限定本發明 專利實施之範圍。即凡與本發明專利申請範圍文義相符,[s] 16 201222310 或依本發明專利範圍所做的均等變化與修飾,皆為本發明 專利範圍所涵蓋。
[s] 17 201222310 【圖式簡單說明】 '圖1A繪示本發明實施例之系統方塊圖; 圖1B繪示本發明實施例之資料遺漏值之填補方法流程示 意圖; 圖1C與圖1D繪示的圖1B方法中的細部流程示意圖; 圖2繪示本發明實施例之第一種資料陣列範例圖; 圖3繪示本發明一實施例之資料陣列之預估值填入示意 圖, • 圖4繪示本發明一實施例之資料陣列之特定待修正資料指 定不意圖, 圖5A繪示本發明一實施例之資料陣列之第一指定資料欄 選擇示意圖; 圖5 B繪示本發明一實施例之資料陣列之資料列群組劃分 不意圖, 圖6A繪示本發明一實施例之資料陣列之另一資料列群組 劃分示意圖; ^ 圖6B繪示本發明一實施例之資料陣列之子群組劃分示意 圖, 圖7繪示本發明一實施例之資料陣列之群組對應示意圖; 圖8繪示本發明一實施例之第二種資料陣列範例圖; 圖9繪示本發明一實施例之第二種資料陣列之預估值填入 示意圖;以及 圖10繪示本發明一實施例之第二種資料陣列之填補資料 填入示意圖。 18 201222310
【主要元件符號說明】 10 儲存單元 11 資料陣列 11a 數值型的資料陣列 lib 類別型的資料陣列 20 計算設備 21 處理器 22 分析程式 23 資料擷取器 24 資料儲存單元 71 數值型的資料陣列的未知資料 71, 類別型的貧料陣列的未知貧料 72 ' IT 預估資料 81 未修正過的修正資料列 82 特定待修正資料 83 第一指定資料欄 83, 第二指定資料欄 84 資料列群組 85 填補資料 94 第4子群組 97 第7子群組 19
Claims (1)
- 201222310 七、申請專利範圍: l 一種資料遺漏值之填補系統,其包括: 、-儲存早7C’其儲存有—資料陣列,該資料陣列包 括複數個資制以及複數個資料欄,該等㈣列包括複 數個完整資料列與複數個缺值資料列,每—缺值資料列 包括至少一未知資料;以及 一計算設備,其包括·· 一分析程式;及 一處理器’用以讀取並利用該分析程式分析該資料 陣列’其中,該處理器係從該等完整資料職出各缺值 貝枓列近似的至少一目標資料列,從其取出至少一已知 主㈣以推算出—預㈣料’以取代其個別對應的該等未 貝料並作為複數個待修正資料,再從該等待修正資料 ^ 一敎待修正㈣,㈣特定躲正麟所在之搁 的貝科k化趨勢’從該等資料攔中選擇資料變化趨勢近 =序的一第一指定資料搁與一第二指定資料搁,並依 : = 料所在之列的資料,以相同資料為同 _ 貝料列群組,再依據該:#料列群組與該第 攔組合,以相同資料為同群方式劃:該 列^ 群組,並其中找出資料匹配該資料 次杜Γ之至少—目標群組,以利用其對應該特定待修正 ::攔的資料推算出-填補資料以填入該特定待修正 ==判斷該!定待修正資料所在之列是否有其 >貝;以/夫疋是否指定另—特定待修正資料。 [S] 20 201222310 2·如申請專利範圍第1項所述資料遺漏值之填補系統,立 中該處理器係建立每一完整資料列之一完整資料曲 線,建立每一缺值資料列之一缺值資料曲線,並比對每 一缺值資料曲線與該等完整資料曲線的相似度,以從該 等完整資料曲線找出每一缺值資料曲線對應的至少一 近似目標資料曲線;以及依據該等缺值資料曲線與各該 目標資料曲線的匹對,找出每-缺值資料列近似的至^ 一最近似目標資料列。3.如申請專利範圍第所述資料遺漏值之填補系統,〕 中該處理器係判斷該子群組中一特定群組之資料列,^ 該資料列群組中之資料列任一相符時,判斷該特定群: 為該目標群組,再指定待修正資料搁為指定資料搁。 4‘ =申請專利範圍第i項所述資料遺漏值之填補系統,』 中该等貢料列之資料為數值型資料,該填補資料為⑹ 少一目標群組之該指定#料攔中的數值的平均數。U!:範圍第1項所述資料遺漏值之填補系統,| 資料為類別型資料,該預估資料為其予〗 ==料攔所屬該缺值資料攔,其對應的卿 目才示貝枓列之該至少一已知資料中的資料。 6. :,遺漏值之填補方法,適用於一資料陣列,” =陣列包括複數個資料列以及複數個資料攔,該方:包 從該資料陣列中找出複數個完整 缺值資料列,每―缺值資料列包括至少-未知資 201222310 從該等完整資料列中分別為每一缺值資料列取出 近似的至少一目標資料列; 依據每一未知資料於所屬該缺值資料列的攔位 置,從該缺值資料列對應的該至少—目標資料列取得至 )一已知貧料,並利用該至少—已知資料推算出-預估將該等預估資料取代其個別對應的該等未知資 料,以作為複數個待修正資料; 、 定待ί Γ ^修正資料中指定—特定待修正#料,該特 疋待修正資料所在之列係為—修正資料列; 依據該特定待修正#料所在之攔的資料變化趨 ^從該等資料攔中選擇資料變化趨勢近似的一第一指 定貧料攔’並依據該特定待修正資料所在之列的資料: 以相同資料為同群方式找出-資料列群組;、 攸綠寻貞、科欄 甲選擇與該特定待修正資料 攔資料變化趨勢第二近似的一第二指定資 ,修正資料所在之攔與第二指定資料欄之攔: δ,依該組合以相同資料為同群方式劃分 為 複數個子群組; 貝了寸幻馬 從該等子群組找出資料匹配該資料列群組之至,丨、 目^群、.且以利用4至少—目標群組對應該 正資料欄的資料推算出一填補資料以 = 正資料之攔;以及 苛疋待修 [S] 22 201222310 欠判斷該特定待修正資料所在之列是否有其他待修 正資料,以決定是否指定另一特定待修正資料。 如申吻專利範圍第6項所述資料遺漏值之填補方法,其 中從該等完整資料列中分別為取出每一缺值資料列取 出近似的至少一目標資料列之該步驟包括·· 建立每一完整資料列之一完整資料曲線; 建立每一缺值資料列之一缺值資料曲線: 、比對每-缺值資料曲線與該等完整資料曲線的相 似度’以從該等完整資料曲線找出每—缺值資料曲線對 應的至少一近似目標資料曲線;以及 依據該等缺值資料曲線與各該目標資料曲線的匹 ’找出每-缺值資料列近似的至少—最近似目標資料8· Π請翻範㈣6韻述轉相值之填補方法,其 從该等子群組找㈣料匹配該資料列群組之至少^ 目標群組之該步驟包括: 伯疋付修正貧料攔為指定資料攔。 • 項所述資料遺漏值之填補方法1 二==ί值型資料,該填補資料為該至 、^扣疋貝料攔中的數值的平均數。 23 201222310 ίο.如申請專利範圍第6項所述資料遺漏值之填補方法,其 中該等資料列之資料為類別型資料,該預估資料為其預 填入的未知資料攔所屬該缺值資料欄,其對應的該至少 一目標資料狀該至少—已知資料中的資料。 11·一種電腦㈣產品’其供—計算設備讀取吨行 之填補方法’以分析—資料陣列,該資料陣列包 複數個貧料列以及複數個資料攔,該方法包含. 缺值陣列中找出複數個完整資料列與複數個 '"严列’母一缺值資料列包括至少一未知資料; 近似的貝料列中分別為每—缺值資料列取出 近似的至少一目標資料列; 依據每一未知資料於所屬該缺 置,從該缺值資料列㈣, J0muiL 少一P4 ^ j對應的錢少-目標資料列取得至 已知貝料,並利用該至少 資料;以及 貝丁叶推异出一預估 將該等預估資料取代其個 枓,則乍為複數個待修正資料; 的4未知貧 從該等待修正資料中指 定待修正眘特疋待修正貧料,該特 2 所在之列係為-修正資料列; 勢’從該等資料襴中選擇的資料變化趨 定資料襴,依據該特=:趨的一第-指 相同資料為同群方正貪料所在之列的資料,以 列群組; x戈出包括該修正資料列之一資料 24 201222310 從該等資料欄中選擇與該特定待修正資料所在之 欄資料變化趨勢第二近似的一第二指定資料攔,依據該 特定待修正資料所在之欄與第二指定資料欄之欄組 合,依該組合以相同資料為同群方式劃分該等資料列為 複數個子群組; 從該等子群組找出資料匹配該資料列群組之至少 一目標群組,以利用該至少一目標群組對應該特定待修 正資料欄的資料推算出一填補資料以填入該特定待修 正資料之攔;以及 判斷該特定待修正資料所在之列是否有其他待修 正資料,以決定是否另一特定待修正資料。25
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099141008A TW201222310A (en) | 2010-11-26 | 2010-11-26 | System and method for filling missing data values and computer program product thereof |
US12/976,571 US20120136896A1 (en) | 2010-11-26 | 2010-12-22 | System and method for imputing missing values and computer program product thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099141008A TW201222310A (en) | 2010-11-26 | 2010-11-26 | System and method for filling missing data values and computer program product thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201222310A true TW201222310A (en) | 2012-06-01 |
Family
ID=46127337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099141008A TW201222310A (en) | 2010-11-26 | 2010-11-26 | System and method for filling missing data values and computer program product thereof |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120136896A1 (zh) |
TW (1) | TW201222310A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091047A (zh) * | 2014-06-18 | 2014-10-08 | 清华大学深圳研究生院 | 基于交通时空信息的交通流缺失数据估算系统及方法 |
CN111766832A (zh) * | 2020-06-29 | 2020-10-13 | 重庆大学 | 一种不完备数据驱动的数控机床切削能耗预测建模方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10685062B2 (en) * | 2012-12-31 | 2020-06-16 | Microsoft Technology Licensing, Llc | Relational database management |
TR201514432T1 (tr) | 2013-06-21 | 2016-11-21 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Veri̇ni̇n i̇leri̇ beslemeli̇ si̇ni̇r aği mi̇mari̇si̇ kullanilarak yalanci-yi̇neleme i̇le i̇şlenmesi̇ i̇çi̇n yöntem |
WO2015004502A1 (en) | 2013-07-09 | 2015-01-15 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Method for imputing corrupted data based on localizing anomalous parts |
US9922315B2 (en) | 2015-01-08 | 2018-03-20 | Outseeker Corp. | Systems and methods for calculating actual dollar costs for entities |
US10025946B1 (en) | 2015-12-08 | 2018-07-17 | Gravic, Inc. | Method of controlling whether an uncompleted transaction applied against a database goes forward or is aborted, and for modifying the uncompleted transaction so that it can go forward |
US10025845B1 (en) | 2015-12-08 | 2018-07-17 | Gravic, Inc. | Method of logging non-durable attributes of an uncompleted transaction so as to make such attributes durable |
US9569473B1 (en) * | 2015-12-08 | 2017-02-14 | Gravic, Inc. | Method of controlling whether an uncompleted transaction applied against a database goes forward using either synchronous or asynchronous replication, or using either encrypted replication or unencrypted replication |
US10997135B2 (en) | 2016-09-16 | 2021-05-04 | Oracle International Corporation | Method and system for performing context-aware prognoses for health analysis of monitored systems |
CN107239660B (zh) * | 2017-06-02 | 2020-08-11 | 北京航空航天大学 | 基于混合整数线性规划的粗糙集模型建立方法和装置 |
US11010365B2 (en) | 2018-03-29 | 2021-05-18 | International Business Machines Corporation | Missing value imputation using adaptive ordering and clustering analysis |
CN110163748B (zh) * | 2019-05-28 | 2021-08-17 | 京东数字科技控股有限公司 | 一种流动性期限管理缺失数据回填方法和设备 |
-
2010
- 2010-11-26 TW TW099141008A patent/TW201222310A/zh unknown
- 2010-12-22 US US12/976,571 patent/US20120136896A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091047A (zh) * | 2014-06-18 | 2014-10-08 | 清华大学深圳研究生院 | 基于交通时空信息的交通流缺失数据估算系统及方法 |
CN111766832A (zh) * | 2020-06-29 | 2020-10-13 | 重庆大学 | 一种不完备数据驱动的数控机床切削能耗预测建模方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120136896A1 (en) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201222310A (en) | System and method for filling missing data values and computer program product thereof | |
Damen et al. | Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100 | |
Al-Sai et al. | Big data impacts and challenges: a review | |
CN104321802A (zh) | 图像分析装置、图像分析系统、图像分析方法 | |
CN104298736B (zh) | 数据集合连接方法、装置及数据库系统 | |
TW201514718A (zh) | 執行具有定義草圖精確度分佈之集合運算的系統與方法 | |
CN107545276A (zh) | 联合低秩表示和稀疏回归的多视角学习方法 | |
US20120311140A1 (en) | Method of processing web access information and server implementing same | |
JP4894580B2 (ja) | 旬度解析システム、旬度解析方法、及び旬度解析プログラム | |
CN107590505A (zh) | 联合低秩表示和稀疏回归的学习方法 | |
CN107480466A (zh) | 基因组数据存储方法及电子设备 | |
CN108459965B (zh) | 一种结合用户反馈和代码依赖的软件可追踪生成方法 | |
CN106897385A (zh) | 一种基于关联矩阵的不确定数据连接合并算法 | |
Price et al. | Selection bias and the statistical patterns of mortality in conflict | |
CN103902582B (zh) | 一种减少数据仓库数据冗余的方法和装置 | |
CN109727030A (zh) | 一种区块链中账户数据存储方法 | |
Petrov et al. | Interactive exploration of correlated time series | |
Ayad et al. | Predicting abnormalities in laboratory values of patients in the intensive care unit using different deep learning models: Comparative study | |
Trushkowsky et al. | Getting it all from the crowd | |
TWI607331B (zh) | 資料分析方法與裝置 | |
WO2017107651A1 (zh) | 确定新闻之间相关性、多新闻之间相关性计算方法和装置 | |
Safadi et al. | Active cleaning for video corpus annotation | |
CN112182076A (zh) | 一种联合不同来源数据的变量选择方法 | |
Matsumoto et al. | Analysis of over 50000 research papers' altmetrics published in Scopus over a period of 24 weeks | |
KR101638114B1 (ko) | 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법 |