TW201222310A - System and method for filling missing data values and computer program product thereof - Google Patents

System and method for filling missing data values and computer program product thereof Download PDF

Info

Publication number
TW201222310A
TW201222310A TW099141008A TW99141008A TW201222310A TW 201222310 A TW201222310 A TW 201222310A TW 099141008 A TW099141008 A TW 099141008A TW 99141008 A TW99141008 A TW 99141008A TW 201222310 A TW201222310 A TW 201222310A
Authority
TW
Taiwan
Prior art keywords
data
column
missing
group
corrected
Prior art date
Application number
TW099141008A
Other languages
English (en)
Inventor
Shin-Mu Tseng
Bai-En Shie
Ja-Hwung Su
Chih-Hua Hsu
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW099141008A priority Critical patent/TW201222310A/zh
Priority to US12/976,571 priority patent/US20120136896A1/en
Publication of TW201222310A publication Critical patent/TW201222310A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

201222310 六、發明說明: '【發明所屬之技術領域】 本發明係有關於一種資料填補系統與方法,特別是有 關於一種用以補齊資料遺漏值的填補系統、方法及其電腦 程式產品。 【先前技術】 現今許多在生物學、醫療用途資料的收集和處理,往 往在遠端、或不同地方收集許多資料,再進行彙整或資料 I 處理分析。例如,基因資料的收集技術,不外乎是利用晶 片或是檢測裝置以檢驗生物組織或收集生物的生理訊號, 如動物或植物的細胞、體液、生物動作的生理訊號…等多 種不同的基因表現資料,此等基因表現資料會被記錄於晶 片或檢測裝置儲存單元中的資料陣列。 然而,如上所舉例的基因資料收集,當收集基因表現 資料作為醫學分析時,常會遇到基因表現值遺漏的情形。 目前醫學上若基因表現資料有遺漏時,於許多分析上即無 • 法使用,故會被視為無效資料以將此缺值的資料列刪除。 然而,資料列刪除過多時,將會造成分析不準確,或是無 法進行分析的情形,最常見的作法是,再利用相同或相異 的晶片或檢測裝置再次收集基因表現資料。不論是重新收 集資料作業,或是使用其他晶片或檢測裝置,很明顯的會 造成珍貴醫療資料的浪費。另一方面,現今的資料補漏技 術中,多提出線性迴歸方程式(Linear regression )、類神經 網路(Neural network )與 KNN ( K-nearest neighborhood )。 201222310 但線性迴歸方程式與類神經網路難以應用於類別型資料, 而且,於相關的資料陣列若使用不同的補值技術,所分析 出來的結果將被受質疑。另一方面,KNN則不適用於較大 .資料量的資料陣列,而且搜尋資料的時間會過長,所能使 用的範_太小。 因此,如何提供一適用於各種資料陣列,不會花費過 長資料處理時間,且具低誤差率的補值方法,為廠商應思 慮的問題。 • 【發明内容】 本發明欲解決的問題係提供一種利用高相似度的資料 列輔助配對,以取得相關預估資料,藉此以填補未知資料 欄的資料遺漏值之填補系統、方法及其電腦程式產品。 為解決上述系統問題,本發明揭露一種資料遺漏值之 填補系統,其包括一儲存單元與一計算設備。儲存單元儲 存有一資料陣列,資料陣列包括複數個資料列以及複數個 資料欄,該等資料列包括複數個完整資料列與複數個缺值 * 資料列,每一缺值資料列包括至少一未知資料。計算設備 包括有一分析程式與一處理器,處理器用以讀取並利用分 析程式分析該資料陣列。 其中,處理器係從所有完整資料列找出各缺值資料列 近似的至少一目標資料列,從其取出至少一已知資料以推 算出一預估資料,以取代其個別對應的各未知資料並作為 複數個待修正資料,再從所有待修正資料找出一特定待修 正資料,以特定待修正資料所在之欄的資料變化趨勢,從 201222310 所有資料攔令選擇資料變化趨勢近似順序的一第一指定資 料欄與-第二指定資料攔,並依據特定待修正資料所在之 列的資料,以相同資料為同群方式找出一資_群組,再 依據資料列群組與第二指定資料搁之搁組合,以相同資料 為同群方式劃分該等資料列為複數個子群組,並其中找出 資料匹配資料列群組之至少一目標群組,以利用其對應特 定待修正資料攔的資料推算出一填補資料以填入特定待修 正資料之欄,再判斷特定待修正資料所在之列是否有其他 籲待修正資料,以決定是否指定另—特定待修正資料。 為解決上述方法問題,本發明揭露一種資料遺漏值之 填補方法’適用於-資料陣列,此資料睁列包括複數個資 料列以及複數個資料攔。此方法包括:從資料陣列中找出 複數個完整資料列與複數個缺值資料列,每一缺值資料列 包括至少一未知資料;從各完整資料列中分別為每一缺值 資料列取出近似的至少一目標資料列;依據每一未知資料 Φ 於所屬缺值資料列的攔位置,從缺值資料列對應的目標資 料列取得至少一已知資料,並利用已知資料推算出一預估 資料,將各預估資料取代其個別對應的未知資料,以作為 複數個待修正資料;從各待修正資料中指定一特定待修正 資料’該特定待修正資料所在之列係為一修正資料列;依 據該特定待修正資料所在之欄的資料變化趨勢,從各資料 搁中選擇資料變化趨勢近似的一第一指定資料攔,依據特 定待修正資料所在之列的資料’以相同資料為同群方式找 出包括修正資料列的一資料列群組;從各資料欄中選擇與 201222310 特定待修正資料所在之㈣料變化趨勢第二 指定資料攔,依據特定待修I# 、 料欄之欄組合,依上述二::=w 八々一 i, 爛σ以相同貢料為同群方式劃 複數個子群組;從各子群組找出資料匹配資 目標群組’以利用上述的目標群組對應 正貢料欄的資料推算出—填補資料以填入特定待
貧枓之攔;_特定待修正資料所在之列是否有其他 待修正資料’以決定是敎待修正資料。 本發明更揭露-種電腦程式產品,其供 取以執行上述資料遺難之填補方法,流程如前說明,在 此即不贅述。 本發明之特點係在於,結合皮爾森資料相關係數與約 略集合,採用兩段式資料補漏技術,建立高精準度的預估 資料進行填補後再修正所填補之資料,此有益於提升分析 的精確度與有效性。其次,此技術可將具有遺漏值的資料 •做填補,許多資料將可被保留,故被填補後的資料可被應 用於更多的資料分析,而非輕易捨棄,故得以避免重複進 行基因表現資料收集的作業,有益於節省醫療資源,以及 節省人力及技術成本。 【實施方式】 茲配合圖式將本發明較佳實施例詳細說明如下。 首先,請參閱圖1Α繪示本發明實施例之系統方塊圖, 此系统包括一计鼻設備20與一館存單元1 〇,此储存單元 10内儲一資料陣列11,計算設備20内建有一處理器21、 6 201222310 一資料擷取器23與一分析程式22。資料擷取器23用以從 儲存單元10上取得資料陣列11,處理器21將利用分析程 式22以分析上述的資料陣列11。然而,資料陣列11亦得 以預先被擷取而儲存於計算設備20的資料儲存單元24 中,以供處理器21直接讀取資料儲存單元24的資料陣列 11以執行下列所述的遺漏值之填補作業。 計算設備20可以是一般具有資料處理能力的電子設 備,例如各種類型的電腦、個人電腦、筆記型電腦、伺服 • 器、工作站或PDA等。儲存單元10可以是具有儲存能力 的元件或裝置,例如晶片、記憶體、硬碟、隨身碟等,也 可設置於其他裝置中或與其他裝置整合,例如各類型檢測 裝置(檢測生物檢體後產生各類檢測資料)、健康照護盒(收 集人體各類生理訊號)、訊號收集裝置(收集各類訊號)等。 請配合圖1A而同時參閱圖1B繪示本發明實施例之資 料遺漏值之填補方法流程示意圖,其適用於資料陣列的漏 ^ 值補缺,請同時參閱圖1C與圖1D繪示的圖1B方法中的 細部流程示意圖,以及圖2繪示本發明一實施例之第一種 資料陣列示意圖、圖3繪示本發明一實施例之資料陣列之 預估值填入示意圖、圖4繪示本發明一實施例之資料陣列 之特定待修正資料指定示意圖、圖5A繪示本發明一實施 例之資料陣列之第一指定資料欄選擇示意圖、圖5 B繪示本 發明一實施例之資料陣列之資料列群組劃分示意圖、圖6A 繪示本發明一實施例之資料陣列之另一資料列群組劃分示 意圖、圖6B繪示本發明一實施例之資料陣列之子群組劃分e 201222310 示意圖與圖7緣示本發明—實施例之資料陣列之群組對應 示意圖以利於了解。 如圖1A’此方法包括兩個階段,—為利用皮爾森資料 (Pearson Correlation Coefficient, PCC) 料初步填人未知資料攔’―為利用約略集合以將找出缺值 的近似值,以修正原預估資料,此方法流程如下:
攸貝料陣列中找出複數個完整資料列與複數個缺值資 料列’每-缺值資料列包括至少一未知資料(步驟su〇)。 ^圖2’一以數值型的資料陣列m為例,資料陣列山包括 複數個資料列以及複數個資料攔。 假設資料陣列lla包括10個資料列,A中第4、5 5 個資料列為完整資料列,第卜2、3、6、7、8、1〇個資料 列為缺值讀列,每—個缺值資料列包括至少_ 料7彳圖中以〇代表),如第】資料列的未知資料欄為第3 攔、第2資料列的未知資料攔為第i搁、第列 =斗欄為第4攔、第6資料列的未知資料欄為第2攔與 弟3棚…以此類推。 攸各完整資料财分別為每―缺值資料列取 標:料列(步驟S120)。此步驟請同時參_^^ =本發明實施狀資料㈣線輯流㈣意圖,其步驟 奢— 一元—…·,/彳〜凡!頁科曲線(步驟S12 建立母-缺值資料列之-缺值資料曲線(步驟s叫。 在此說明,先分析每一個完整資料列’將完整資米 8 201222310 的負斗、射於二維的資料軸,以取得每一完整資料列對應 的完整資料曲括 啤線。相同的,分析每一個缺值資料列,在忽 略其具有未知資料的條件下’將缺值資料列的資料映射於 一維的資料輛,以取得每一缺值資料列對應的缺值資料曲 線。 比對每一缺值資料曲線與完整資料曲線的相似度,以 從所有完整資料曲線找出每一缺值資料曲線對應的至少一 最近似目標資料曲線(步驟S123)。於此,將每一個缺值 • 資料曲線比對所有的完整資料曲線,各缺值資料曲線與完 整資料曲線逐一比對後’會產生完整資料曲線對應缺值資 料曲線的近似率。之後,依據此等近似率,每一缺值資料 曲線得以被匹對出至少一個近似目標資料曲線。 之後,依據此等缺值資料曲線與目標資料曲線的匹 對,得以找出每一缺值資料列近似的至少一最近似目標資 料列(步驟S124),前述的目標資料曲線即為此處所述的 籲 目標資料列所映射於二維座標軸產生,故缺值資料曲線與 目標資料曲線的配對即能反向取得缺值資料列與目槔資科 列的配對。 然而,步驟S120亦能以相同次序攔之數值相互比對羞 值的方式,以比較出缺值資料列與各完整資料列的資科矣 異度,進而比較出缺值資料列與各完整資料列的資科相似 度,取得具高相似度的缺值資料列與完整資料列的氐對’ 而此方法為資料比對技術領域之具通常知識者所熟知’衣 此不贅述。 201222310 僅次粗據每未知貝料於所屬缺值資料列的欄位置,從缺 對應的目標#料縣得至少—已知 /、_對應的未知資料,以作為複數 (步驟 S140)。 ^ ^ 值次斜I預估貝料為其預填入的未知資料攔所屬缺 广,屬的目標資料列的已知資料的 例如’圖2與圖3洽千咨u λα —" 值 4輕㈣諸,第1 :=!有未知貧料71於第3攔,而最近似 元整資料列為第5資料列,扮楚3 幻的 (3/卜3)… 貧料列的第3攔即以3 么二=資料72。又如’第2 #料列具有未知資 ==:最接近第2資料列的完整資料列為第4 資料-。又如/ ^ 而Mm欠 貝科歹J具有未知資料71於第4攔, 而取接近第3資料列的完整資料列為 料列,故第3資料列的第4欄即以2 ;、=二 ;_72。以此類推,將各未知資料二關= :代:完成未知資料的初階段填補作業,而此等二4 科即視為後續將被使用的待修正資料’即如圖3所 接著,進行預估資料的修正作業, S刚之後,從财待修正賴’ 驟⑽),此特定待修正資料所在之列寺修正f枓(步 請同時參閱圖4,將弈…”、 > 正貝料列。 將先别進订預估賢料填補的所有待修正… 201222310 資料〃,中L擇者作為目前將進行資料修正的特定待修 丨次料而其所在之列即視為-修正資料列。以下,將第 3 為未修正過的修正資料列8卜第1資料列的第 。、二有特定待修正資料82,於此,重新以〇替之。 熱,"Λ著-依據特定待修正資料所在之攔的資料變化趨 '料二所有資料攔中選擇資料變化趨勢近似的—第一指定 二為二依據特定待修正資料所在之列的資料,以相同資 S160)5 $式找出包括修正資料列的—資料列群組(步驟 曰。特定待修正資料所在之攔的資料變化趨勢近似度, 資料效益值之高低作為基準,關於資料效益 料列群Γ、/⑽時參閱圖1示本發明實施例之尋求資 每一 程示意圖’其步驟如下:需先計算各資料列的 的資料效,步驟叫以選擇資料效益 貝料攔作為前述的第一指定資料襴(步驟s 16 2 )。 各仃貝料效益值的計算方式如下: m Σ f m 、 Σ\> ί ΣνΛ/) vi.k-M— m V — /=1 Vj,k — l J m
故{cor(l,修正資料列的未 , 木知貝科攔數),cor(2,修正 貝料列的未知資料欄數),c〇r( 1,修正貝科列的未知資料欄 數),cor(5,修正資料列的未知 (公式1) 貝科襴數)} = {〇.867 -0 419 -0.062, 0.600},其中’修正資料 ,.’ S3 、料歹j 81的未知貧料攔數為3。 201222310 資料欄為第一指二;::第2料欄為最高’故視第1 的資料’以相同資料為同群方式:所二=:::=攔 組,即如圖5Α與圖5Β絡- ’ 灯sj刀群 前述第i資料攔,亦是第曰不二康各資料列的第1攔(即 資料列會被劃分為四個群&,曰=^ 83)的資料,所有 第糊與第4資二列、第叫^ 從嗲W 同一個資料列群組84。 變化趨勢第二近似的正資料所在彻 資料所在之欄與第二貝料搁’依據特定待修正 相同資料為同雜m曰又貝;斗搁之搁組合’依此攔組合以 S170)。,、’、 J分各資料列為複數個子群組(步驟 料列:::二的複雜度’可 :r群:式對所有資料列進行劃心 料修正㈣所在之攔處於第3 侈正出4個群組。然而,修正資料列的特定待 影響,在此忽略修正資H成一個群組皆不對後續運算有 第二:艾=’資料效益值以第4欄為第2高.故視 M : ―4曰疋身料攔83’。故將第1資料列的第3欄斑 4=為參照用的棚組合,以在各糊 I且成的m進行輯,即可從原劃分的4個群組再劃⑸ 201222310 .^ 8個子群組。其中,第3資料列與第4資料列因兩者 的第3欄與第4欄的資料組合相同(同為丨圖中方框選 處),故第3資料列與第4資料列被劃分於同一子群組 第I子群組97)中。相同的’修正資料列81的特定 2正貧料82為0’故是否自成—個群㈣不對後續運算 有影響,在此忽略修正資料列8 j。 從所有子群組找出資料匹配資料列群組的至少一目^ ’以利用所有目標群組對應特定待修資料攔的資料: 异出-填補資料以填入特定待修資料棚(步驟議)。盆 方式包括,當子群組中的一特定群組之資料列,與資料^ =中的純列任一相符者,判斷特定群組為目標群組, 此時,即指定待修正資料攔為指定資料攔。 料列如第圖二Γ,資料列群組84包㈣^ =、第3- 貝料列與第4資料列。然而, 料列,第7子群組97包括第3資料列與第4資: ί料=4義而言,第4子群組94與第7子群組97為 二:= 即第4子群組94與第7子群組97 即為上拍特鱗組,第4子群組94的第3敎數值與第 :二二7的第3欄即為上述的指定資料攔,其數靖 k後而使用於待修正資料攔中。因此,第!資料列的特 疋待修資料攔應填人的填觀料為,第 ' 棚之數值與第7子群組97的第3攔之數值除以2的^ 鮮〜3’5° h之’填補資料即是「被選取子群植的 特疋待修㈣_數值加、崎觀子群城」。故第卜 ^ irSl 13 201222310 .料㈣較鄉資制應填人數值為3.5。 τ 2後判斷特疋待修正資料所在之列是否有其他待修 f 4 S190)。當特定待修正資料所在之列全數修 =完畢時,即結束作業,反之’則指定另—特定待修正資 科,即疋返回(步驟S15〇),以持續步驟_至步驟· 的流直至所有特定待修正資料被全數修正完畢為止。 料列8至圖1G繪示的第二種資料陣列變化與資 4⑽,請同時參關1A至圖1D以利於了解。 本發明實施例之第二種資料陣列範例圖 = 為例。假設,料陣列包括9個資料列, 二第貝科列、第7資料列與苐9資料列為缺值資料列, ::ΓΓϊ資料列包括至少一個未知資料71,,如第5資料 第2們1^料71’於第1搁、第7資料列的未知資料71,於 第、第9資料列的未知資料71,於第!攔…以此類推。 相同的,透過步驟su〇至步驟叫〇,圖8緣示的資 ',列’其所有的未知資料將被相關的預估資料所取代, Γ完成未知資料的初階段填補作業,即如圖9所繪示。例 如’可利用P—關係數公式來進行預估 : =_相_數公式主要概念是分咖㈣列,其在各欄 計的變化,以將有缺值之列的平均值 二::再依據所算出缺值之列的平均值來計算缺值 14 201222310 , Pearson相關係數公式,如下所示: ⑴ where I = luC\lv. 其中^分別代表為兩資料列〜,_分別為第〇 列的第i、j個攔位值,則為第χ列的平均值,j為兩資料 列共同有值的攔集合,以圖2為例,其中第2列與第3 % 籲之相似度計算如下 r2 — 2’5, g = 3.25 ’ Simiiarity(第 2 列,第 3 列) =((3-2.5)(2-3.25)+(3-2.5)(4-3.25)+(3-2.5)(3-3.25))/((/- (3-2.5)2+(3-2.5)2+(3-2.5)2)(^(2-3.25)2+(4-3.25)2+ (3-3.25)2)=0.125/ (^0-25+0.25+0.25)(^0.5625+0.5625+ 0.0625))=0.14。 接下來,藉此再根據最相似列的目標攔值預測出結 φ 果,一般使用的公式定義如下·· P . = ir JL * (rv,i ~ …—, ⑴ where U = all similar xisers with u. 、,其中Pu’ i為第u列第i欄的目標攔值,為第u列的 平均攔值,Su,v表示為第u列與第v列之相似度,以圖2 舉例來說,假設想要預測的是第2列第i攔的值,首先必 須先決定與第2列最為相關的其他資料列,在圖2令我們 201222310 可以發現與第1列與第2列最為相似,相似度計算的結果 分別為 0.353 ,因此最後的預測結果 P2J=2.5+(0.353*(4-3))/0.353=3.5。 然而,與前述實施例不同處在於,前實施例的資料列 的資料為數值型資料,預估資料72,為其預填入的未知資料 71,所屬缺值資料列,其對應的目標資料列的相關已知資料 的平均數值。然而,此例資料列的資料為類別型資料,預 估資料72’為其預更替的未知資料71’所屬缺值資料列’其 • 對應的目標資料列的相關已知資料中出現次數最高的資 料。舉例而言,假設第5資料列對應的目標資料列為第1 資料例至第4資料列,此等資料列的第1欄中,出現最多 次的資料為L,第5資料列的第1欄的數值即被預估為L。 相似的,圖9繪示的第二種資料陣列於初步預估資料 72’填入後,亦透過步驟S150至步驟S190以修正各缺值資 料列的特定待修正資料,改以計算出的填補資料85替之, ▲ 如圖10繪示。 就此例,步驟S150至步驟S190可參考習知技術,例 如文獻為”T.P. Hong, L.H. Tseng, and S.L. Wang. “ Learning rules from incomplete training examples by rough sets.” Expert Systems with Applications, Vol. 22, pp. 285, 2002."來進行運算。 綜上所述’乃僅記載本發明為呈現解決問題所採用的 技術手段之實施方式或實施例而已,並非用來限定本發明 專利實施之範圍。即凡與本發明專利申請範圍文義相符,[s] 16 201222310 或依本發明專利範圍所做的均等變化與修飾,皆為本發明 專利範圍所涵蓋。
[s] 17 201222310 【圖式簡單說明】 '圖1A繪示本發明實施例之系統方塊圖; 圖1B繪示本發明實施例之資料遺漏值之填補方法流程示 意圖; 圖1C與圖1D繪示的圖1B方法中的細部流程示意圖; 圖2繪示本發明實施例之第一種資料陣列範例圖; 圖3繪示本發明一實施例之資料陣列之預估值填入示意 圖, • 圖4繪示本發明一實施例之資料陣列之特定待修正資料指 定不意圖, 圖5A繪示本發明一實施例之資料陣列之第一指定資料欄 選擇示意圖; 圖5 B繪示本發明一實施例之資料陣列之資料列群組劃分 不意圖, 圖6A繪示本發明一實施例之資料陣列之另一資料列群組 劃分示意圖; ^ 圖6B繪示本發明一實施例之資料陣列之子群組劃分示意 圖, 圖7繪示本發明一實施例之資料陣列之群組對應示意圖; 圖8繪示本發明一實施例之第二種資料陣列範例圖; 圖9繪示本發明一實施例之第二種資料陣列之預估值填入 示意圖;以及 圖10繪示本發明一實施例之第二種資料陣列之填補資料 填入示意圖。 18 201222310
【主要元件符號說明】 10 儲存單元 11 資料陣列 11a 數值型的資料陣列 lib 類別型的資料陣列 20 計算設備 21 處理器 22 分析程式 23 資料擷取器 24 資料儲存單元 71 數值型的資料陣列的未知資料 71, 類別型的貧料陣列的未知貧料 72 ' IT 預估資料 81 未修正過的修正資料列 82 特定待修正資料 83 第一指定資料欄 83, 第二指定資料欄 84 資料列群組 85 填補資料 94 第4子群組 97 第7子群組 19

Claims (1)

  1. 201222310 七、申請專利範圍: l 一種資料遺漏值之填補系統,其包括: 、-儲存早7C’其儲存有—資料陣列,該資料陣列包 括複數個資制以及複數個資料欄,該等㈣列包括複 數個完整資料列與複數個缺值資料列,每—缺值資料列 包括至少一未知資料;以及 一計算設備,其包括·· 一分析程式;及 一處理器’用以讀取並利用該分析程式分析該資料 陣列’其中,該處理器係從該等完整資料職出各缺值 貝枓列近似的至少一目標資料列,從其取出至少一已知 主㈣以推算出—預㈣料’以取代其個別對應的該等未 貝料並作為複數個待修正資料,再從該等待修正資料 ^ 一敎待修正㈣,㈣特定躲正麟所在之搁 的貝科k化趨勢’從該等資料攔中選擇資料變化趨勢近 =序的一第一指定資料搁與一第二指定資料搁,並依 : = 料所在之列的資料,以相同資料為同 _ 貝料列群組,再依據該:#料列群組與該第 攔組合,以相同資料為同群方式劃:該 列^ 群組,並其中找出資料匹配該資料 次杜Γ之至少—目標群組,以利用其對應該特定待修正 ::攔的資料推算出-填補資料以填入該特定待修正 ==判斷該!定待修正資料所在之列是否有其 >貝;以/夫疋是否指定另—特定待修正資料。 [S] 20 201222310 2·如申請專利範圍第1項所述資料遺漏值之填補系統,立 中該處理器係建立每一完整資料列之一完整資料曲 線,建立每一缺值資料列之一缺值資料曲線,並比對每 一缺值資料曲線與該等完整資料曲線的相似度,以從該 等完整資料曲線找出每一缺值資料曲線對應的至少一 近似目標資料曲線;以及依據該等缺值資料曲線與各該 目標資料曲線的匹對,找出每-缺值資料列近似的至^ 一最近似目標資料列。
    3.如申請專利範圍第所述資料遺漏值之填補系統,〕 中該處理器係判斷該子群組中一特定群組之資料列,^ 該資料列群組中之資料列任一相符時,判斷該特定群: 為該目標群組,再指定待修正資料搁為指定資料搁。 4‘ =申請專利範圍第i項所述資料遺漏值之填補系統,』 中该等貢料列之資料為數值型資料,該填補資料為⑹ 少一目標群組之該指定#料攔中的數值的平均數。
    U!:範圍第1項所述資料遺漏值之填補系統,| 資料為類別型資料,該預估資料為其予〗 ==料攔所屬該缺值資料攔,其對應的卿 目才示貝枓列之該至少一已知資料中的資料。 6. :,遺漏值之填補方法,適用於一資料陣列,” =陣列包括複數個資料列以及複數個資料攔,該方:包 從該資料陣列中找出複數個完整 缺值資料列,每―缺值資料列包括至少-未知資 201222310 從該等完整資料列中分別為每一缺值資料列取出 近似的至少一目標資料列; 依據每一未知資料於所屬該缺值資料列的攔位 置,從該缺值資料列對應的該至少—目標資料列取得至 )一已知貧料,並利用該至少—已知資料推算出-預估
    將該等預估資料取代其個別對應的該等未知資 料,以作為複數個待修正資料; 、 定待ί Γ ^修正資料中指定—特定待修正#料,該特 疋待修正資料所在之列係為—修正資料列; 依據該特定待修正#料所在之攔的資料變化趨 ^從該等資料攔中選擇資料變化趨勢近似的一第一指 定貧料攔’並依據該特定待修正資料所在之列的資料: 以相同資料為同群方式找出-資料列群組;、 攸綠寻貞、科欄 甲選擇與該特定待修正資料 攔資料變化趨勢第二近似的一第二指定資 ,修正資料所在之攔與第二指定資料欄之攔: δ,依該組合以相同資料為同群方式劃分 為 複數個子群組; 貝了寸幻馬 從該等子群組找出資料匹配該資料列群組之至,丨、 目^群、.且以利用4至少—目標群組對應該 正資料欄的資料推算出一填補資料以 = 正資料之攔;以及 苛疋待修 [S] 22 201222310 欠判斷該特定待修正資料所在之列是否有其他待修 正資料,以決定是否指定另一特定待修正資料。 如申吻專利範圍第6項所述資料遺漏值之填補方法,其 中從該等完整資料列中分別為取出每一缺值資料列取 出近似的至少一目標資料列之該步驟包括·· 建立每一完整資料列之一完整資料曲線; 建立每一缺值資料列之一缺值資料曲線: 、比對每-缺值資料曲線與該等完整資料曲線的相 似度’以從該等完整資料曲線找出每—缺值資料曲線對 應的至少一近似目標資料曲線;以及 依據該等缺值資料曲線與各該目標資料曲線的匹 ’找出每-缺值資料列近似的至少—最近似目標資料
    8· Π請翻範㈣6韻述轉相值之填補方法,其 從该等子群組找㈣料匹配該資料列群組之至少^ 目標群組之該步驟包括: 伯疋付修正貧料攔為指定資料攔。 • 項所述資料遺漏值之填補方法1 二==ί值型資料,該填補資料為該至 、^扣疋貝料攔中的數值的平均數。 23 201222310 ίο.如申請專利範圍第6項所述資料遺漏值之填補方法,其 中該等資料列之資料為類別型資料,該預估資料為其預 填入的未知資料攔所屬該缺值資料欄,其對應的該至少 一目標資料狀該至少—已知資料中的資料。 11·一種電腦㈣產品’其供—計算設備讀取吨行 之填補方法’以分析—資料陣列,該資料陣列包 複數個貧料列以及複數個資料攔,該方法包含. 缺值陣列中找出複數個完整資料列與複數個 '"严列’母一缺值資料列包括至少一未知資料; 近似的貝料列中分別為每—缺值資料列取出 近似的至少一目標資料列; 依據每一未知資料於所屬該缺 置,從該缺值資料列㈣, J0muiL 少一P4 ^ j對應的錢少-目標資料列取得至 已知貝料,並利用該至少 資料;以及 貝丁叶推异出一預估 將該等預估資料取代其個 枓,則乍為複數個待修正資料; 的4未知貧 從該等待修正資料中指 定待修正眘特疋待修正貧料,該特 2 所在之列係為-修正資料列; 勢’從該等資料襴中選擇的資料變化趨 定資料襴,依據該特=:趨的一第-指 相同資料為同群方正貪料所在之列的資料,以 列群組; x戈出包括該修正資料列之一資料 24 201222310 從該等資料欄中選擇與該特定待修正資料所在之 欄資料變化趨勢第二近似的一第二指定資料攔,依據該 特定待修正資料所在之欄與第二指定資料欄之欄組 合,依該組合以相同資料為同群方式劃分該等資料列為 複數個子群組; 從該等子群組找出資料匹配該資料列群組之至少 一目標群組,以利用該至少一目標群組對應該特定待修 正資料欄的資料推算出一填補資料以填入該特定待修 正資料之攔;以及 判斷該特定待修正資料所在之列是否有其他待修 正資料,以決定是否另一特定待修正資料。
    25
TW099141008A 2010-11-26 2010-11-26 System and method for filling missing data values and computer program product thereof TW201222310A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW099141008A TW201222310A (en) 2010-11-26 2010-11-26 System and method for filling missing data values and computer program product thereof
US12/976,571 US20120136896A1 (en) 2010-11-26 2010-12-22 System and method for imputing missing values and computer program product thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099141008A TW201222310A (en) 2010-11-26 2010-11-26 System and method for filling missing data values and computer program product thereof

Publications (1)

Publication Number Publication Date
TW201222310A true TW201222310A (en) 2012-06-01

Family

ID=46127337

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099141008A TW201222310A (en) 2010-11-26 2010-11-26 System and method for filling missing data values and computer program product thereof

Country Status (2)

Country Link
US (1) US20120136896A1 (zh)
TW (1) TW201222310A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091047A (zh) * 2014-06-18 2014-10-08 清华大学深圳研究生院 基于交通时空信息的交通流缺失数据估算系统及方法
CN111766832A (zh) * 2020-06-29 2020-10-13 重庆大学 一种不完备数据驱动的数控机床切削能耗预测建模方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10685062B2 (en) * 2012-12-31 2020-06-16 Microsoft Technology Licensing, Llc Relational database management
TR201514432T1 (tr) 2013-06-21 2016-11-21 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Veri̇ni̇n i̇leri̇ beslemeli̇ si̇ni̇r aği mi̇mari̇si̇ kullanilarak yalanci-yi̇neleme i̇le i̇şlenmesi̇ i̇çi̇n yöntem
WO2015004502A1 (en) 2013-07-09 2015-01-15 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for imputing corrupted data based on localizing anomalous parts
US9922315B2 (en) 2015-01-08 2018-03-20 Outseeker Corp. Systems and methods for calculating actual dollar costs for entities
US10025946B1 (en) 2015-12-08 2018-07-17 Gravic, Inc. Method of controlling whether an uncompleted transaction applied against a database goes forward or is aborted, and for modifying the uncompleted transaction so that it can go forward
US10025845B1 (en) 2015-12-08 2018-07-17 Gravic, Inc. Method of logging non-durable attributes of an uncompleted transaction so as to make such attributes durable
US9569473B1 (en) * 2015-12-08 2017-02-14 Gravic, Inc. Method of controlling whether an uncompleted transaction applied against a database goes forward using either synchronous or asynchronous replication, or using either encrypted replication or unencrypted replication
US10997135B2 (en) 2016-09-16 2021-05-04 Oracle International Corporation Method and system for performing context-aware prognoses for health analysis of monitored systems
CN107239660B (zh) * 2017-06-02 2020-08-11 北京航空航天大学 基于混合整数线性规划的粗糙集模型建立方法和装置
US11010365B2 (en) 2018-03-29 2021-05-18 International Business Machines Corporation Missing value imputation using adaptive ordering and clustering analysis
CN110163748B (zh) * 2019-05-28 2021-08-17 京东数字科技控股有限公司 一种流动性期限管理缺失数据回填方法和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091047A (zh) * 2014-06-18 2014-10-08 清华大学深圳研究生院 基于交通时空信息的交通流缺失数据估算系统及方法
CN111766832A (zh) * 2020-06-29 2020-10-13 重庆大学 一种不完备数据驱动的数控机床切削能耗预测建模方法

Also Published As

Publication number Publication date
US20120136896A1 (en) 2012-05-31

Similar Documents

Publication Publication Date Title
TW201222310A (en) System and method for filling missing data values and computer program product thereof
Damen et al. Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100
Al-Sai et al. Big data impacts and challenges: a review
CN104321802A (zh) 图像分析装置、图像分析系统、图像分析方法
CN104298736B (zh) 数据集合连接方法、装置及数据库系统
TW201514718A (zh) 執行具有定義草圖精確度分佈之集合運算的系統與方法
CN107545276A (zh) 联合低秩表示和稀疏回归的多视角学习方法
US20120311140A1 (en) Method of processing web access information and server implementing same
JP4894580B2 (ja) 旬度解析システム、旬度解析方法、及び旬度解析プログラム
CN107590505A (zh) 联合低秩表示和稀疏回归的学习方法
CN107480466A (zh) 基因组数据存储方法及电子设备
CN108459965B (zh) 一种结合用户反馈和代码依赖的软件可追踪生成方法
CN106897385A (zh) 一种基于关联矩阵的不确定数据连接合并算法
Price et al. Selection bias and the statistical patterns of mortality in conflict
CN103902582B (zh) 一种减少数据仓库数据冗余的方法和装置
CN109727030A (zh) 一种区块链中账户数据存储方法
Petrov et al. Interactive exploration of correlated time series
Ayad et al. Predicting abnormalities in laboratory values of patients in the intensive care unit using different deep learning models: Comparative study
Trushkowsky et al. Getting it all from the crowd
TWI607331B (zh) 資料分析方法與裝置
WO2017107651A1 (zh) 确定新闻之间相关性、多新闻之间相关性计算方法和装置
Safadi et al. Active cleaning for video corpus annotation
CN112182076A (zh) 一种联合不同来源数据的变量选择方法
Matsumoto et al. Analysis of over 50000 research papers' altmetrics published in Scopus over a period of 24 weeks
KR101638114B1 (ko) 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법