TWI684107B - 資料補值與分類方法以及資料補值與分類系統 - Google Patents

資料補值與分類方法以及資料補值與分類系統 Download PDF

Info

Publication number
TWI684107B
TWI684107B TW107145759A TW107145759A TWI684107B TW I684107 B TWI684107 B TW I684107B TW 107145759 A TW107145759 A TW 107145759A TW 107145759 A TW107145759 A TW 107145759A TW I684107 B TWI684107 B TW I684107B
Authority
TW
Taiwan
Prior art keywords
sample
historical
data
classification
classified
Prior art date
Application number
TW107145759A
Other languages
English (en)
Other versions
TW202024959A (zh
Inventor
陳伯煒
Original Assignee
國立中山大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中山大學 filed Critical 國立中山大學
Priority to TW107145759A priority Critical patent/TWI684107B/zh
Application granted granted Critical
Publication of TWI684107B publication Critical patent/TWI684107B/zh
Publication of TW202024959A publication Critical patent/TW202024959A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供一種資料補值與分類方法以及資料補值與分類系統。此資料補值與分類系統包含資料庫、歷史樣本補值計算模組及當前樣本補值與分類模組。在此資料補值與分類方法中,首先對每一已分類歷史樣本組進行補值計算,以獲得每一已分類歷史樣本組所對應之基底矩陣及缺值。接著,進行樣本分類階段,以對當前樣本進行資料分類。在樣本分類階段中,首先利用迭代投影追蹤(Iterative Projection Pursuit;IPP)演算法與非線性不等式來計算當前樣本所對應之權重向量。接著,根據前述之基底矩陣以及權重向量來計算對應至不同類別之候選樣本,並據以決定當前樣本的類別和缺值。

Description

資料補值與分類方法以及資料補值與分 類系統
本發明是有關於一種資料補值與分類方法以及資料補值與分類系統。
隨著資訊科技的進步,人們可透過對資料進行各種分析和處理來獲得想要的資訊。例如,透過資料探勘技術,人們可以從資料庫中獲得具有特定關係的數據。又例如,透過分類技術,人們可以對資料庫中的資料進行分類,以利資料的整理。再例如,透過補值技術,人們可以對資料中數值缺失的部分進行填補。
傳統的補值技術包含多重插補法(Multiple Imputation)、整筆刪除法(Listwise Deletion)、內插法(Interpolation)、K-鄰近演算法(K-nearest Neighbor Algorithm)等,其中多重插補法需要大量的運算資源;整筆刪除法可能遺失重要的資料訊息;內插法在屬性欄位出現數量不等的遺失數據時,會無法運行;K-鄰近演算法在屬 性欄位出現數量不等的遺失數據時,需要填入預設的固定值。
本發明之目的在於提供一種資料補值與分類方法以及資料補值與分類系統,以克服傳統補值技術的缺點。
在上述之資料補值與分類方法中,首先進行歷史樣本處理階段,以對歷史樣本進行補值,並計算相應的基底矩陣。在歷史樣本處理階段中,首先提供複數筆歷史樣本。然後,將歷史樣本分為複數個類別,以獲得複數個已分類歷史樣本組,其中這些已分類歷史樣本組係一對一地對應至上述之類別,每一已分類歷史樣本組包含複數個已知歷史數據以及至少一個歷史缺失數據。接著,將每一歷史缺失數據以0來替換。接著,針對每一已分類歷史樣本組進行補值計算。在此補值計算步驟中,首先計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣。然後,利用每一已分類歷史樣本組所對應之基底矩陣和權重矩陣來計算每一已分類歷史樣本組之歷史缺失數據的預測值。在歷史樣本處理階段後,接著進行樣本分類階段,以將當前樣本分類為上述類別之其中一者,其中此當前樣本包含複數個已知數據以及至少一個缺失數據。在樣本分類階段中,首先利用迭代投影追蹤(Iterative Projection Pursuit;IPP)演算法與非線性不等式來計算當前樣本所對應之複數個權重向量,其中這些權重向量係一對一地對應至上述之類別,且每一權重向量係受限 於一權重參數,此權重參數係根據非線性不等式來計算獲得。然後,進行候選樣本計算步驟,以根據對應至相同類別之基底矩陣以及權重向量來計算對應至上述類別之複數個候選樣本,其中這些候選樣本係一對一地對應至上述之類別。接著,計算每一候選樣本與當前樣本之一差異,以獲得複數個候選樣本差異。然後,根據這些候選樣本差異來決定當前樣本之至少一個缺失數據的預測值以及當前樣本所對應之類別。
依據本發明之一實施例,上述之非線性不等式為二次不等式。
依據本發明之一實施例,上述計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣之步驟係利用交替最小平方法(Ridge Alternating Least Squares;RALS)和類別相依資料補值(Class-dependent Data Imputation)技術來進行。
依據本發明之一實施例,上述之交替最小平方法為脊交替最小平方法(Ridge Alternating Least Squares;RALS)。
依據本發明之一實施例,上述之候選樣本計算步驟係將基底矩陣和權重向量相乘,以獲得每一候選樣本。
在上述之資料補值與分類系統中,資料補值與分類系統包含資料庫、歷史樣本補值計算模組以及當前樣本補值與分類模組。資料庫係儲存複數個已分類歷史樣本組,其中已分類歷史樣本組係一對一地對應至複數個類別,每一 已分類歷史樣本組包含複數個已知歷史數據以及至少一個歷史缺失數據。歷史樣本補值計算模組係用以:將每一歷史缺失數據以0來替換;計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣;利用每一已分類歷史樣本組所對應之基底矩陣和權重矩陣來計算每一已分類歷史樣本組之歷史缺失數據的預測值。當前樣本補值與分類模組係用以接收外部提供之當前樣本,並用以:利用迭代投影追蹤演算法與非線性不等式來計算當前樣本所對應之複數個權重向量,其中該些權重向量係一對一地對應至該些類別,且每一該些權重向量係受限於一權重參數,該權重參數係根據該非線性不等式來計算獲得;進行候選樣本計算步驟,以根據對應至相同類別之基底矩陣以及權重向量來計算對應至上述類別之複數個候選樣本,其中這些候選樣本係一對一地對應至上述之類別;計算每一候選樣本與當前樣本之一差異,以獲得複數個候選樣本差異;根據這些候選樣本差異來決定當前樣本之至少一個缺失數據的預測值以及當前樣本所對應之類別。
依據本發明之一實施例,上述之非線性不等式為二次不等式。
依據本發明之一實施例,上述計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣之步驟係利用交替最小平方法(Ridge Alternating Least Squares;RALS)和類別相依資料補值(Class-dependent Data Imputation)技術來進行。
依據本發明之一實施例,上述之交替最小平方 法為脊交替最小平方法(Ridge Alternating Least Squares;RALS)。
依據本發明之一實施例,上述之資料補值與分類模組係將基底矩陣和權重向量相乘,以獲得每一候選樣本。
100‧‧‧資料補值與分類系統
110‧‧‧資料庫
112、114、116‧‧‧已分類歷史樣本組
120‧‧‧歷史樣本補值計算模組
122、124、126‧‧‧基底因子產生模組
130‧‧‧當前樣本補值與分類模組
132a、134a、136a‧‧‧加權因子產生模組
132b、134b、136b‧‧‧資料重建模組
200‧‧‧資料補值與分類方法
210‧‧‧歷史樣本處理階段
212~214‧‧‧步驟
214a~214b‧‧‧步驟
220‧‧‧樣本分類階段
221~224‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之詳細說明如下:[圖1]係繪示根據本發明實施例之及資料補值與分類系統的功能方塊示意圖;[圖2]係繪示根據本發明實施例之資料補值與分類方法的流程示意圖;[圖3]係繪示根據本發明實施例之歷史樣本;[圖4]係繪示根據本發明實施例之已分類歷史樣本組;[圖5]係繪示根據本發明實施例之基底矩陣和權重矩陣;[圖6]係繪示根據本發明實施例之預測的樣本矩陣;以及[圖7]係繪示根據本發明實施例之當前樣本。
關於本文中所使用之『第一』、『第二』、...等,並非特別指次序或順位的意思,其僅為了區別以相同技 術用語描述的元件或操作。
請參照圖1,其係繪示根據本發明實施例之及資料補值與分類系統100的功能方塊示意圖。資料補值與分類系統100包含資料庫110、歷史樣本補值計算模組120以及當前樣本補值與分類模組130。資料庫110係用以儲存複數筆歷史樣本。在本發明之一實施例中,這些歷史樣本被分類為複數個已分類歷史樣本組,例如已分類歷史樣本組112、114、116。這些已分類歷史樣本組112、114、116係一對一地對應至複數個分類類別,並以資料庫子集的方式來儲存於資料庫110中。
歷史樣本補值計算模組120係用以計算已分類歷史樣本組的基底矩陣和權重矩陣,以對已分類歷史樣本組的缺失數據進行補值。歷史樣本補值計算模組120包含複數個基底因子產生模組,例如基底因子產生模組122、124、126。基底因子產生模組122、124、126係用以接收已分類歷史樣本組112、114、116,並計算每一個已分類歷史樣本組所對應之基底矩陣和權重矩陣。根據每一個已分類歷史樣本組所對應之基底矩陣和權重矩陣,可推得每一個已分類歷史樣本組中缺失數據的預測值。
當前樣本補值與分類模組130係用以接收外部裝置140所提供之新資料(以下稱為當前樣本),並對當前樣本進行補值與分類,以獲得當前樣本中缺失數據的預測值以及當前樣本所對應的類別。當前樣本補值與分類模組130包含複數個加權因子產生模組(例如加權因子產生模組 132a、134a、136a)、複數個資料重建模組(例如資料重建模組132b、134b、136b)以及判斷模組138。加權因子產生模組132a、134a、136a係用以產生當前樣本對應至各類別之加權因子。資料重建模組132b、134b、136b係用以產生當前樣本對應至各類別之複數個候選樣本。判斷模組138係用以根據候選樣本來決定缺失數據的預測值以及當前樣本所對應的類別。在以下的實施例中,將介紹歷史樣本補值計算模組120和當前樣本補值與分類模組130所使用的演算法。
首先,考慮一個大小為M×N且含缺失數據的樣本矩陣X,其中M代表維度大小(又稱自變量數量)、N為收集的樣本總數。接著,考慮矩陣填補的目標函式。在本實施例中,使用脊交替最小平方法(Ridge Alternating Least Squares;RALS)來獲得矩陣填補的目標函式,但本發明之實施例並不受限於此。在本發明之其他實施例中,亦可採用其他的交替最小平方法來獲得目標函式。
當使用脊交替最小平方法來獲得矩陣填補的目標函式時,則目標最小化UV所合成的矩陣與X之間的誤差值可表示為:
Figure 107145759-A0101-12-0007-1
其中,UV各為M×D以及D×N的未知填補因子矩陣(待求解);D為中介(Intermediate)維度大小;∥.∥ F 為佛羅貝尼烏斯範數(Frobenius Norm);ρU與ρV各為UV的嶺參數(Ridge parameter)。嶺參數係用來調節目標函式 且避免UV過於擬合(Overfitting)。為了找出UV,使用下列方程式:V=(U T U+ρ V I)-1 U T×G(X) (2)
U T=(VV T+ρ U I)-1 V×G(X)T (3)
其中T代表矩陣轉置運算,G為作用於矩陣X上的元素遮罩(Element-wise Mask)。當矩陣X上的元素為空值時,該元素會暫時視為零來處理。另外,為方便表示,以上式子(2)-(5)以矩陣形式來表達。
假設yN×1的類別標籤(Class Label)向量(亦可稱為分類(Categorical)應變數向量)。此y向量對應樣本矩陣X中的樣本。又假設樣本中共可分成L種類別,所以樣本矩陣X可以被分割為X l ,其中l=1,...,LX l 大小為M×N l N 1+N 2+...+N L =N。為了反映不同類別的數值特性,本發明之實施例採用類別相依數據補值(Class-dependent Data Imputation)技術,先找出類別相依的填補因子矩陣U l V l ,再進行細化步驟。填補因子矩陣U l V l 可表示如下:
Figure 107145759-A0101-12-0008-80
Figure 107145759-A0101-12-0008-82
在上述式子中,只有對應的X l 才會被用於找出U l V l 。透過上述步驟,可找出對應至各個類別的填補因子矩陣。
接著,假設t為外部所提供的一筆當前樣本,其大小為M×1。針對此當前樣本t,假設有一個D×1的權重向 量v l 使得下式成立:
Figure 107145759-A0101-12-0009-31
當前樣本t存在於U l 所構築(Span)起來的向量空間裡,即span(U l ),但是權重向量v l 的形成卻有各種可能性。因此,本發明之實施例提出一種「基於二次不等式約束的填補權重因子形成技術」,其可限制權重向量v l (亦可稱為填補權重因子)形成的可能性。本發明實施例之「基於二次不等式約束的填補權重因子形成技術」係採用基於二次不等式約束(Quadratic Inequality Constraint)的脊交替最小平方法(Ridge Alternating Least Squares;RALS)。然而,本發明之實施例並不受限於此。在本發明之其他實施例中,亦可以採用其他非線性不等式搭配其他的交替最小平方法來限制權重向量v l
考慮基於二次不等式約束(Quadratic Inequality Constraint)的脊交替最小平方法(Ridge Alternating Least Squares;RALS),其方程式如下:
Figure 107145759-A0101-12-0009-3
其中
Figure 107145759-A0101-12-0009-78
為一大小為D×1的向量且代表統計分佈v l 的質心或中心。此外,δ l 為自訂的純量數值且為正數。式子(7)可以擴充為下面通式:
Figure 107145759-A0101-12-0009-4
其中,Γ l 為一個大小為q×D的吉洪諾夫(Tikhonov)矩陣、B l 為一個p×1的平移向量(例如:
Figure 107145759-A0101-12-0009-79
)。為了計算式子(8),需要引入高階(High-order)泛化奇異值分 解(Generalized Singular Value Decomposition,GSVD)。以下的敘述將介紹GSVD作用於U l B l 以及Γ l 之輸出。為了簡化表示方式,在以下的敘述中,忽略下標l。假設高階GSVD作用後產生以下式子:
Figure 107145759-A0101-12-0010-5
Figure 107145759-A0101-12-0010-6
Figure 107145759-A0101-12-0010-7
其中,Q代表酉矩陣;R為一可逆矩陣。另外,矩陣S中的非對角項均為0。假設μβγ各代表矩陣S US B以及S Γ的對角項,則矩陣S US B以及S Γ可以下列式子表示:S U=diag(μ 1,μ 2,...,μ D ) (12)
S B=diag(β 1,β 2,...,β z ) (13)
S Γ=diag(γ 1,γ 2,...,γ q ) (14)
此外z=min{p,D}、q
Figure 107145759-A0101-12-0010-64
DD
Figure 107145759-A0101-12-0010-65
M。基於式子(9)-(14),式子(7)可簡化成下式:
Figure 107145759-A0101-12-0010-9
其中,
Figure 107145759-A0101-12-0010-66
Figure 107145759-A0101-12-0010-67
Figure 107145759-A0101-12-0010-68
。藉由引入拉格朗日乘數(Lagrangian Multiple)λ,式子(15)可改寫為下式:
Figure 107145759-A0101-12-0010-10
對拉格朗日函數L(
Figure 107145759-A0101-12-0010-70
)微分,且令等的左邊為0,可得下式:
Figure 107145759-A0101-12-0010-11
式子(17)可轉換成函數
Figure 107145759-A0101-12-0011-71
(λ)。假設rB的矩陣秩(Rank),函數
Figure 107145759-A0101-12-0011-72
(λ)可整理成下列三種狀況:第一種狀況,當z=p
Figure 107145759-A0101-12-0011-73
q
Figure 107145759-A0101-12-0011-12
第二種狀況,當z=p>q
Figure 107145759-A0101-12-0011-13
第三種狀況,當z=D時,
Figure 107145759-A0101-12-0011-14
式子(16)之值最小時,
Figure 107145759-A0101-12-0011-76
-δ 2需為0。將式子(18)-(20)個別帶入
Figure 107145759-A0101-12-0011-77
,可得函數ψ(λ)。函數ψ(λ)可為:當r>q時,
Figure 107145759-A0101-12-0012-17
否則,
Figure 107145759-A0101-12-0012-16
接著,先計算λ,其中令函數ψ(λ)等於δ 2即可得到λ。然後,計算
Figure 107145759-A0101-12-0012-57
,其中將λ根據上述之情況來置入式子(18)、(19)或(20),即可得
Figure 107145759-A0101-12-0012-58
。接著,計算v,其中將
Figure 107145759-A0101-12-0012-59
置入下列方程式:
Figure 107145759-A0101-12-0012-18
如此,即可得到v
接著說明如何利用權重因子v來進行補值。
本發明之實施例係利用「基於二次不等式約束之迭代投影追蹤(Iterative Projection Pursuit;IPP)」演算法來進行補值計算。然而,本發明之實施例並不受限於此,在本發明之其他實施例中,亦可利用其他非線性不等式之迭代投影追蹤演算法來進行補值。
在本實施例之補值計算中,首先根據上述類別l來初始化當前樣本t
Figure 107145759-A0101-12-0012-60
,以將當前樣本t中之缺失數據用0來替換。接著,進行第一步驟,以根據上述「基於二次不等式約束的填補權重因子形成技術」來計算v l 。在v l 的計算方法中,首先將
Figure 107145759-A0101-12-0012-61
[i]置入式子(21)或(22),以計算ψ(λ l )[i],即可得出λ l [i],其中i代表第i次的迭代。然後,將λ l [i]置入式子(18)、(19)或(20),可得出
Figure 107145759-A0101-12-0012-62
(λ l )[i]。接著,計算v l [i],其中
Figure 107145759-A0101-12-0012-63
然後,進行第二步驟,對當前樣本t進行缺失數據的預測值計算,其中預測值計算係利用以下的方程式來進行插補:
Figure 107145759-A0101-12-0013-19
Figure 107145759-A0101-12-0013-20
其中,運算符號⊕係代表將t中的缺失項用
Figure 107145759-A0101-12-0013-56
中的對應項取代。
重複上述之第一步驟和第二步驟直到均方根誤差(Root-mean-square Error;RMSE)ε l 收斂,其中均方根誤差ε l 係以下列方程式表示:
Figure 107145759-A0101-12-0013-21
其中
Figure 107145759-A0101-12-0013-22
然後,選取最小的ε l ,以決定當前樣本t的類別,其方程式如下:
Figure 107145759-A0101-12-0013-23
其中,l*為當前樣本t的類別。
以下將以一實施例來說明資料補值與分類系統100所對應的資料補值與分類方法200。
請同時參照圖2,其係繪示根據本發明實施例之資料補值與分類方法200的流程示意圖。資料補值與分類方法200包含歷史樣本處理階段210和樣本分類階段220,其 中歷史樣本處理階段210可由前述之歷史樣本補值計算模組120來進行,而樣本分類階段220可由前述之當前樣本補值與分類模組130來進行。
在歷史樣本處理階段210中,首先進行步驟211,以提供複數筆歷史樣本,如圖3所示。在本實施例中,歷史樣本包含七筆樣本,其係對應至七天的天氣資訊。每筆樣本包含五個數據:氣壓、濕度、溫度、風力以及雨量。在這些歷史樣本中,週二的溫度、週六的濕度和風力以及周日的溫度為缺失數據。另外,本實施例之歷史樣本已被分類為好天氣和壞天氣。然而,在本發明之其他實施例中,若歷史樣本尚未被分類,可再添加分類模組於前述之歷史樣本補值計算模組120中,以對歷史樣本進行分類步驟212。
接著,進行步驟213,以將歷史樣本中的歷史缺失數據以0來替換,如圖4所示。在圖4中,對歷史樣本X進行轉置運算可獲得歷史樣本X' 。歷史樣本X' 根據其類別可分為兩個已分類歷史樣本組
Figure 107145759-A0101-12-0014-48
以及
Figure 107145759-A0101-12-0014-49
,其中已分類歷史樣本組
Figure 107145759-A0101-12-0014-50
係對應至好天氣類別,而已分類歷史樣本組
Figure 107145759-A0101-12-0014-51
係對應至壞天氣類別。
然後,進行步驟214,以針對每一已分類歷史樣本組
Figure 107145759-A0101-12-0014-52
以及
Figure 107145759-A0101-12-0014-53
進行補值計算。在本發明之實施例中,步驟214係由前述之基底因子產生模組,例如基底因子產生模組122、124、126來進行。在步驟214中,首先進行步驟214a,以計算每一已分類歷史樣本組
Figure 107145759-A0101-12-0014-54
以及
Figure 107145759-A0101-12-0014-55
所對應之基底矩陣和權重矩陣,如圖5所示。利用前述之式子 (2)-(3)可將已分類歷史樣本組
Figure 107145759-A0101-12-0015-32
分解為基底矩陣U Good和權重矩陣V Good。類似地,利用前述之式子(2)-(3)可將已分類歷史樣本組
Figure 107145759-A0101-12-0015-33
分解為基底矩陣U Bad和權重矩陣V Bad。接著,進行步驟214b,以利用每一已分類歷史樣本組
Figure 107145759-A0101-12-0015-34
以及
Figure 107145759-A0101-12-0015-35
所對應之基底矩陣和權重矩陣來計算每一已分類歷史樣本組
Figure 107145759-A0101-12-0015-36
以及
Figure 107145759-A0101-12-0015-37
之至少一個歷史缺失數據的預測值。如圖6所示,在步驟214b中,將基底矩陣U Good乘以權重矩陣V Good可以得到預測的樣本矩陣
Figure 107145759-A0101-12-0015-38
,接著透過樣本矩陣
Figure 107145759-A0101-12-0015-39
即可得到已分類歷史樣本組
Figure 107145759-A0101-12-0015-40
中缺失數據的預測值。類似地,將基底矩陣U Bad乘以權重矩陣V Bad可以得到預測的樣本矩陣
Figure 107145759-A0101-12-0015-41
,接著透過樣本矩陣
Figure 107145759-A0101-12-0015-42
即可得到已分類歷史樣本組
Figure 107145759-A0101-12-0015-43
中缺失數據的預測值。在本發明之一實施例中,可對預測的樣本矩陣
Figure 107145759-A0101-12-0015-44
Figure 107145759-A0101-12-0015-45
進行轉置,以使其列數和行數與已分類歷史樣本組
Figure 107145759-A0101-12-0015-46
Figure 107145759-A0101-12-0015-47
一致,如此即可比對出失數據的預測值。
在樣本分類階段220中,首先進行步驟221,以利用前述之迭代投影追蹤演算法與非線性不等式來計算當前樣本t所對應之複數個權重向量,這些權重向量係一對一地對應至上述類別,例如好天氣和壞天氣。在本發明之實施例中,步驟221係利用「基於二次不等式約束之迭代投影追蹤」來計算當前樣本t所對應之權重向量。如圖7所示,當前樣本t為某一天的天氣,其中缺失的濕度值以0來取代。利用前述之式子(21)與(22)可計算出當前樣本t對應至好天氣的參數λ Good,接著再利用式子(18)、(19)、(20)與(23)以及 參數λ Good來計算出當前樣本t對應至好天氣的權重向量v Good,其中參數λ Good係用以限制權重向量v Good的內容。類似地,利用前述之式子(21)與(22)可計算出當前樣本t對應至壞天氣的參數λ Bad,接著再利用式子(18)、(19)、(20)與(23)以及參數λ Bad來計算出當前樣本t對應至壞天氣的權重向量v Bad,其中參數λ Bad係用以限制權重向量v Bad的內容。
在步驟222中,根據對應至相同類別之基底矩陣以及權重向量來計算對應至上述類別之複數個候選樣本。例如,上述之基底矩陣U Good和權重向量v Good係對應至好天氣的類別,故根據基底矩陣U Good和權重向量v Good來計算對應至好天氣的候選樣本。在本實施例中,將基底矩陣U Good乘以權重向量v Good(U Good×v Good),以獲得對應至好天氣的候選樣本t Good。類似地,上述之基底矩陣U Bad和權重向量v Bad係對應至壞天氣的類別,故根據基底矩陣U Bad和權重向量v Bad來計算對應至壞天氣的候選樣本。在本實施例中,將基底矩陣U Bad乘以權重向量v Bad(U Bad×v Bad),以獲得對應至壞天氣的候選樣本t Bad
在步驟223中,計算每一候選樣本與當前樣本t之差異,以獲得複數個候選樣本差異。在本實施例中,根據上述式子(26)來計算候選樣本t Goodt Bad與當前樣本t中未缺失數據之差異,以獲得候選樣本t Good與當前樣本t之好天氣樣本差異,以及獲得候選樣本t Bad與當前樣本t之壞天氣樣本差異。然而,本發明之實施例並不受限於此。在本發明 之其他實施例中,亦可利用其他方法來計算候選樣本與當前樣本之差異。
在步驟224中,根據上述之候選樣本差異來決定當前樣本t之至少一個缺失數據的預測值以及當前樣本t所對應之類別。在本實施例中,根據式子(28)來將候選樣本差異最小的候選樣本決定為正確的樣本資料,接著再根據正確的樣本資料樣本來決定當前樣本t之缺失數據的預測值以及當前樣本t所對應之類別。例如,當候選樣本t Good所對應的候選樣本差異小於候選樣本t Bad所對應的候選樣本差異時,決定候選樣本t Good為正確的樣本資料。接著,比對候選樣本t Good與當前樣本t,以獲得當前樣本t之缺失數據的預測值。另外,由於候選樣本t Good對應至好天氣的類別,故決定當前樣本t為好天氣。
由以上說明可知,本發明之實施例係對含有空值的數據樣本進行補全的計算,且對不同類別的數據樣本使用差異化和非線性的插補因子,如此可獲得更接近真實統計分佈的插補值。如此,本發明之實施例之資料補值與分類方法200的補值和分類更為精確。
雖然本發明已以數個實施例揭露如上,然其並非用以限定本發明,在本發明所屬技術領域中任何具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
200‧‧‧資料補值與分類方法
210‧‧‧歷史樣本處理階段
212~214‧‧‧步驟
214a~214b‧‧‧步驟
220‧‧‧樣本分類階段
221~224‧‧‧步驟

Claims (10)

  1. 一種資料補值與分類方法,包含:進行一歷史樣本處理階段,其中該歷史樣本處理階段包含:提供複數筆歷史樣本;將該些歷史樣本分為複數個類別,以獲得複數個已分類歷史樣本組,其中該些已分類歷史樣本組係一對一地對應至該些類別,每一該些已分類歷史樣本組包含複數個已知歷史數據以及至少一個歷史缺失數據;將每一該些歷史缺失數據以0來替換;以及針對每一該些已分類歷史樣本組進行一補值計算步驟,其中該補值計算步驟包含:計算每一該些已分類歷史樣本組所對應之一基底矩陣和一權重矩陣;以及利用每一該些已分類歷史樣本組所對應之該基底矩陣和該權重矩陣來計算每一該些已分類歷史樣本組之該至少一歷史缺失數據的預測值;以及進行一樣本分類階段,以將一當前樣本分類為該些類別之其中一者,其中該當前樣本包含複數個已知數據以及至少一個缺失數據,該樣本分類階段包含:利用一迭代投影追蹤(Iterative Projection Pursuit;IPP)演算法與一非線性不等式來計算該當前 樣本所對應之複數個權重向量,其中該些權重向量係一對一地對應至該些類別,且每一該些權重向量係受限於一權重參數,該權重參數係根據該非線性不等式來計算獲得;進行一候選樣本計算步驟,以根據對應至相同類別之該基底矩陣以及該權重向量來計算對應至該些類別之複數個候選樣本,其中該些候選樣本係一對一地對應至該些類別;計算每一該些候選樣本與該當前樣本之一差異,以獲得複數個候選樣本差異;以及根據該些候選樣本差異來決定該當前樣本之該至少一缺失數據的預測值以及該當前樣本所對應之類別。
  2. 如申請專利範圍第1項所述之資料補值與分類方法,其中該非線性不等式為二次不等式。
  3. 如申請專利範圍第1項所述之資料補值與分類方法,其中計算每一該些已分類歷史樣本組所對應之該基底矩陣和該權重矩陣之步驟係利用一交替最小平方法(Alternating Least Squares;ALS)和類別相依資料補值(Class-dependent Data Imputation)技術來進行。
  4. 如申請專利範圍第3項所述之資料補值與分類方法,其中該交替最小平方法為脊交替最小平方法 (Ridge Alternating Least Squares;RALS)。
  5. 如申請專利範圍第1項所述之資料補值與分類方法,其中該候選樣本計算步驟係將該基底矩陣和該權重向量相乘,以獲得每一該些候選樣本。
  6. 一種資料補值與分類系統,包含:一資料庫,用以儲存複數個已分類歷史樣本組,其中該些已分類歷史樣本組係一對一地對應至複數個類別,每一該些已分類歷史樣本組包含複數個已知歷史數據以及至少一個歷史缺失數據;一歷史樣本補值計算模組,用以:將每一該些歷史缺失數據以0來替換;計算每一該些已分類歷史樣本組所對應之一基底矩陣和一權重矩陣;以及利用每一該些已分類歷史樣本組所對應之該基底矩陣和該權重矩陣來計算每一該些已分類歷史樣本組之該至少一歷史缺失數據的預測值;以及一當前樣本補值與分類模組,用以接收外部提供之一當前樣本,並用以:利用一迭代投影追蹤(Iterative Projection Pursuit;IPP)演算法與一非線性不等式來計算該當前樣本所對應之複數個權重向量,其中該些權重向量係一對一地對應至該些類別,且每一該些權重向量係受限於一權重參數,該權重參數係根據該非線性不等式 來計算獲得;進行一候選樣本計算步驟,以根據對應至相同類別之該基底矩陣以及該權重向量來計算對應至該些類別之複數個候選樣本,其中該些候選樣本係一對一地對應至該些類別;計算每一該些候選樣本與該當前樣本之一差異,以獲得複數個候選樣本差異;以及根據該些候選樣本差異來決定該當前樣本之該至少一缺失數據的預測值以及該當前樣本所對應之類別。
  7. 如申請專利範圍第6項所述之資料補值與分類系統,其中該非線性不等式為二次不等式。
  8. 如申請專利範圍第6項所述之資料補值與分類系統,其中計算每一該些已分類歷史樣本組所對應之該基底矩陣和該權重矩陣之步驟係利用一交替最小平方法(Alternating Least Squares;ALS)和類別相依資料補值(Class-dependent Data Imputation)技術來進行。
  9. 如申請專利範圍第8項所述之資料補值與分類系統,其中該交替最小平方法為脊交替最小平方法(Ridge Alternating Least Squares;ALS)。
  10. 如申請專利範圍第6項所述之資料補值與分類系統,其中該資料補值與分類模組係將該基底矩陣 和該權重向量相乘,以獲得每一該些候選樣本。
TW107145759A 2018-12-18 2018-12-18 資料補值與分類方法以及資料補值與分類系統 TWI684107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107145759A TWI684107B (zh) 2018-12-18 2018-12-18 資料補值與分類方法以及資料補值與分類系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107145759A TWI684107B (zh) 2018-12-18 2018-12-18 資料補值與分類方法以及資料補值與分類系統

Publications (2)

Publication Number Publication Date
TWI684107B true TWI684107B (zh) 2020-02-01
TW202024959A TW202024959A (zh) 2020-07-01

Family

ID=70413239

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107145759A TWI684107B (zh) 2018-12-18 2018-12-18 資料補值與分類方法以及資料補值與分類系統

Country Status (1)

Country Link
TW (1) TWI684107B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI737515B (zh) * 2020-10-13 2021-08-21 國立中山大學 對稱非負矩陣的補值方法、電子裝置與電腦程式產品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
TWI463334B (zh) * 2012-07-20 2014-12-01 Univ Nat Cheng Kung 標的裝置的基底預測保養方法與其電腦程式產品
CN104599168A (zh) * 2015-02-02 2015-05-06 北京嘀嘀无限科技发展有限公司 叫车订单的分配方法和装置
US20150235143A1 (en) * 2003-12-30 2015-08-20 Kantrack Llc Transfer Learning For Predictive Model Development
TWI612433B (zh) * 2016-11-17 2018-01-21 財團法人工業技術研究院 整體式學習預測裝置與方法、以及非暫存電腦可讀的儲存媒介

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150235143A1 (en) * 2003-12-30 2015-08-20 Kantrack Llc Transfer Learning For Predictive Model Development
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
TWI463334B (zh) * 2012-07-20 2014-12-01 Univ Nat Cheng Kung 標的裝置的基底預測保養方法與其電腦程式產品
CN104599168A (zh) * 2015-02-02 2015-05-06 北京嘀嘀无限科技发展有限公司 叫车订单的分配方法和装置
TWI612433B (zh) * 2016-11-17 2018-01-21 財團法人工業技術研究院 整體式學習預測裝置與方法、以及非暫存電腦可讀的儲存媒介

Also Published As

Publication number Publication date
TW202024959A (zh) 2020-07-01

Similar Documents

Publication Publication Date Title
CN108829763B (zh) 一种基于深度神经网络的影评网站用户的属性预测方法
CN108021930B (zh) 一种自适应的多视角图像分类方法及系统
Cersonsky et al. Improving sample and feature selection with principal covariates regression
CN109766469A (zh) 一种基于深度哈希学习优化的图像检索方法
US20200193220A1 (en) Method for data imputation and classification and system for data imputation and classification
CN109214429A (zh) 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法
CN113420421B (zh) 移动边缘计算中基于时序正则化张量分解的QoS预测方法
CN112364942B (zh) 信贷数据样本均衡方法、装置、计算机设备及存储介质
Sutton-Charani et al. Learning decision trees from uncertain data with an evidential EM approach
CN112541639A (zh) 基于图神经网络和注意力机制的推荐系统评分预测方法
CN109447118A (zh) 一种基于Adaboost和欠采样的不平衡学习方法
TWI684107B (zh) 資料補值與分類方法以及資料補值與分類系統
CN109102021A (zh) 缺失条件下的核互补齐多核k-均值聚类机器学习方法
CN112381282A (zh) 基于宽度学习系统的光伏发电功率预测方法
CN108537342A (zh) 一种基于邻居信息的网络表示学习方法及系统
Zhang et al. Dbiecm-an evolving clustering method for streaming data clustering
CN117036781A (zh) 一种基于树综合多样性深度森林的图像分类方法
CN110324178B (zh) 一种基于多经验核学习的网络入侵检测方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN109728958A (zh) 一种网络节点信任预测方法、装置、设备及介质
CN115496153A (zh) 多头自注意力的深度卷积嵌入聚类风光荷联合场景方法
Suzuki Sparse Estimation with Math and R: 100 Exercises for Building Logic
Cui et al. KPCA-ESN soft-sensor model of polymerization process optimized by biogeography-based optimization algorithm
Majumdar et al. Identification of genetic markers for increasing agricultural productivity: An empirical study
WO2023085195A1 (ja) モデル生成装置、モデル生成方法及びデータ推定装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees