TWI684107B

TWI684107B - 資料補值與分類方法以及資料補值與分類系統

Info

Publication number: TWI684107B
Application number: TW107145759A
Authority: TW
Inventors: 陳伯煒
Original assignee: 國立中山大學
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-02-01
Also published as: TW202024959A

Abstract

本發明提供一種資料補值與分類方法以及資料補值與分類系統。此資料補值與分類系統包含資料庫、歷史樣本補值計算模組及當前樣本補值與分類模組。在此資料補值與分類方法中，首先對每一已分類歷史樣本組進行補值計算，以獲得每一已分類歷史樣本組所對應之基底矩陣及缺值。接著，進行樣本分類階段，以對當前樣本進行資料分類。在樣本分類階段中，首先利用迭代投影追蹤(Iterative Projection Pursuit；IPP)演算法與非線性不等式來計算當前樣本所對應之權重向量。接著，根據前述之基底矩陣以及權重向量來計算對應至不同類別之候選樣本，並據以決定當前樣本的類別和缺值。

Description

資料補值與分類方法以及資料補值與分類系統

本發明是有關於一種資料補值與分類方法以及資料補值與分類系統。

隨著資訊科技的進步，人們可透過對資料進行各種分析和處理來獲得想要的資訊。例如，透過資料探勘技術，人們可以從資料庫中獲得具有特定關係的數據。又例如，透過分類技術，人們可以對資料庫中的資料進行分類，以利資料的整理。再例如，透過補值技術，人們可以對資料中數值缺失的部分進行填補。

傳統的補值技術包含多重插補法(Multiple Imputation)、整筆刪除法(Listwise Deletion)、內插法(Interpolation)、K-鄰近演算法(K-nearest Neighbor Algorithm)等，其中多重插補法需要大量的運算資源；整筆刪除法可能遺失重要的資料訊息；內插法在屬性欄位出現數量不等的遺失數據時，會無法運行；K-鄰近演算法在屬性欄位出現數量不等的遺失數據時，需要填入預設的固定值。

本發明之目的在於提供一種資料補值與分類方法以及資料補值與分類系統，以克服傳統補值技術的缺點。

在上述之資料補值與分類方法中，首先進行歷史樣本處理階段，以對歷史樣本進行補值，並計算相應的基底矩陣。在歷史樣本處理階段中，首先提供複數筆歷史樣本。然後，將歷史樣本分為複數個類別，以獲得複數個已分類歷史樣本組，其中這些已分類歷史樣本組係一對一地對應至上述之類別，每一已分類歷史樣本組包含複數個已知歷史數據以及至少一個歷史缺失數據。接著，將每一歷史缺失數據以0來替換。接著，針對每一已分類歷史樣本組進行補值計算。在此補值計算步驟中，首先計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣。然後，利用每一已分類歷史樣本組所對應之基底矩陣和權重矩陣來計算每一已分類歷史樣本組之歷史缺失數據的預測值。在歷史樣本處理階段後，接著進行樣本分類階段，以將當前樣本分類為上述類別之其中一者，其中此當前樣本包含複數個已知數據以及至少一個缺失數據。在樣本分類階段中，首先利用迭代投影追蹤(Iterative Projection Pursuit；IPP)演算法與非線性不等式來計算當前樣本所對應之複數個權重向量，其中這些權重向量係一對一地對應至上述之類別，且每一權重向量係受限於一權重參數，此權重參數係根據非線性不等式來計算獲得。然後，進行候選樣本計算步驟，以根據對應至相同類別之基底矩陣以及權重向量來計算對應至上述類別之複數個候選樣本，其中這些候選樣本係一對一地對應至上述之類別。接著，計算每一候選樣本與當前樣本之一差異，以獲得複數個候選樣本差異。然後，根據這些候選樣本差異來決定當前樣本之至少一個缺失數據的預測值以及當前樣本所對應之類別。

依據本發明之一實施例，上述之非線性不等式為二次不等式。

依據本發明之一實施例，上述計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣之步驟係利用交替最小平方法(Ridge Alternating Least Squares；RALS)和類別相依資料補值(Class-dependent Data Imputation)技術來進行。

依據本發明之一實施例，上述之交替最小平方法為脊交替最小平方法(Ridge Alternating Least Squares；RALS)。

依據本發明之一實施例，上述之候選樣本計算步驟係將基底矩陣和權重向量相乘，以獲得每一候選樣本。

在上述之資料補值與分類系統中，資料補值與分類系統包含資料庫、歷史樣本補值計算模組以及當前樣本補值與分類模組。資料庫係儲存複數個已分類歷史樣本組，其中已分類歷史樣本組係一對一地對應至複數個類別，每一已分類歷史樣本組包含複數個已知歷史數據以及至少一個歷史缺失數據。歷史樣本補值計算模組係用以：將每一歷史缺失數據以0來替換；計算每一已分類歷史樣本組所對應之基底矩陣和權重矩陣；利用每一已分類歷史樣本組所對應之基底矩陣和權重矩陣來計算每一已分類歷史樣本組之歷史缺失數據的預測值。當前樣本補值與分類模組係用以接收外部提供之當前樣本，並用以：利用迭代投影追蹤演算法與非線性不等式來計算當前樣本所對應之複數個權重向量，其中該些權重向量係一對一地對應至該些類別，且每一該些權重向量係受限於一權重參數，該權重參數係根據該非線性不等式來計算獲得；進行候選樣本計算步驟，以根據對應至相同類別之基底矩陣以及權重向量來計算對應至上述類別之複數個候選樣本，其中這些候選樣本係一對一地對應至上述之類別；計算每一候選樣本與當前樣本之一差異，以獲得複數個候選樣本差異；根據這些候選樣本差異來決定當前樣本之至少一個缺失數據的預測值以及當前樣本所對應之類別。

依據本發明之一實施例，上述之資料補值與分類模組係將基底矩陣和權重向量相乘，以獲得每一候選樣本。

100‧‧‧資料補值與分類系統

110‧‧‧資料庫

112、114、116‧‧‧已分類歷史樣本組

120‧‧‧歷史樣本補值計算模組

122、124、126‧‧‧基底因子產生模組

130‧‧‧當前樣本補值與分類模組

132a、134a、136a‧‧‧加權因子產生模組

132b、134b、136b‧‧‧資料重建模組

200‧‧‧資料補值與分類方法

210‧‧‧歷史樣本處理階段

212~214‧‧‧步驟

214a~214b‧‧‧步驟

220‧‧‧樣本分類階段

221~224‧‧‧步驟

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之詳細說明如下：[圖1]係繪示根據本發明實施例之及資料補值與分類系統的功能方塊示意圖；[圖2]係繪示根據本發明實施例之資料補值與分類方法的流程示意圖；[圖3]係繪示根據本發明實施例之歷史樣本；[圖4]係繪示根據本發明實施例之已分類歷史樣本組；[圖5]係繪示根據本發明實施例之基底矩陣和權重矩陣；[圖6]係繪示根據本發明實施例之預測的樣本矩陣；以及[圖7]係繪示根據本發明實施例之當前樣本。

關於本文中所使用之『第一』、『第二』、...等，並非特別指次序或順位的意思，其僅為了區別以相同技術用語描述的元件或操作。

請參照圖1，其係繪示根據本發明實施例之及資料補值與分類系統100的功能方塊示意圖。資料補值與分類系統100包含資料庫110、歷史樣本補值計算模組120以及當前樣本補值與分類模組130。資料庫110係用以儲存複數筆歷史樣本。在本發明之一實施例中，這些歷史樣本被分類為複數個已分類歷史樣本組，例如已分類歷史樣本組112、114、116。這些已分類歷史樣本組112、114、116係一對一地對應至複數個分類類別，並以資料庫子集的方式來儲存於資料庫110中。

歷史樣本補值計算模組120係用以計算已分類歷史樣本組的基底矩陣和權重矩陣，以對已分類歷史樣本組的缺失數據進行補值。歷史樣本補值計算模組120包含複數個基底因子產生模組，例如基底因子產生模組122、124、126。基底因子產生模組122、124、126係用以接收已分類歷史樣本組112、114、116，並計算每一個已分類歷史樣本組所對應之基底矩陣和權重矩陣。根據每一個已分類歷史樣本組所對應之基底矩陣和權重矩陣，可推得每一個已分類歷史樣本組中缺失數據的預測值。

當前樣本補值與分類模組130係用以接收外部裝置140所提供之新資料(以下稱為當前樣本)，並對當前樣本進行補值與分類，以獲得當前樣本中缺失數據的預測值以及當前樣本所對應的類別。當前樣本補值與分類模組130包含複數個加權因子產生模組(例如加權因子產生模組 132a、134a、136a)、複數個資料重建模組(例如資料重建模組132b、134b、136b)以及判斷模組138。加權因子產生模組132a、134a、136a係用以產生當前樣本對應至各類別之加權因子。資料重建模組132b、134b、136b係用以產生當前樣本對應至各類別之複數個候選樣本。判斷模組138係用以根據候選樣本來決定缺失數據的預測值以及當前樣本所對應的類別。在以下的實施例中，將介紹歷史樣本補值計算模組120和當前樣本補值與分類模組130所使用的演算法。

首先，考慮一個大小為M×N且含缺失數據的樣本矩陣X，其中M代表維度大小(又稱自變量數量)、N為收集的樣本總數。接著，考慮矩陣填補的目標函式。在本實施例中，使用脊交替最小平方法(Ridge Alternating Least Squares；RALS)來獲得矩陣填補的目標函式，但本發明之實施例並不受限於此。在本發明之其他實施例中，亦可採用其他的交替最小平方法來獲得目標函式。

當使用脊交替最小平方法來獲得矩陣填補的目標函式時，則目標最小化UV所合成的矩陣與X之間的誤差值可表示為：

其中，U與V各為M×D以及D×N的未知填補因子矩陣(待求解)；D為中介(Intermediate)維度大小；∥．∥_F為佛羅貝尼烏斯範數(Frobenius Norm)；ρ_U與ρ_V各為U及V的嶺參數(Ridge parameter)。嶺參數係用來調節目標函式且避免U和V過於擬合(Overfitting)。為了找出U和V，使用下列方程式：V=(U ^T U+ρ _V I)^-1 U ^T×G(X) (2)

U ^T=(VV ^T+ρ _U I)^-1 V×G(X)^T (3)

其中T代表矩陣轉置運算，G為作用於矩陣X上的元素遮罩(Element-wise Mask)。當矩陣X上的元素為空值時，該元素會暫時視為零來處理。另外，為方便表示，以上式子(2)-(5)以矩陣形式來表達。

假設y為N×1的類別標籤(Class Label)向量(亦可稱為分類(Categorical)應變數向量)。此y向量對應樣本矩陣X中的樣本。又假設樣本中共可分成L種類別，所以樣本矩陣X可以被分割為X _l，其中l=1,...,L。X _l大小為M×N _l且N ₁+N ₂+...+N _L=N。為了反映不同類別的數值特性，本發明之實施例採用類別相依數據補值(Class-dependent Data Imputation)技術，先找出類別相依的填補因子矩陣U _l和V _l，再進行細化步驟。填補因子矩陣U _l和V _l可表示如下：

在上述式子中，只有對應的X _l才會被用於找出U _l和V _l。透過上述步驟，可找出對應至各個類別的填補因子矩陣。

接著，假設t為外部所提供的一筆當前樣本，其大小為M×1。針對此當前樣本t，假設有一個D×1的權重向量v _l使得下式成立：

當前樣本t存在於U _l所構築(Span)起來的向量空間裡，即span(U _l)，但是權重向量v _l的形成卻有各種可能性。因此，本發明之實施例提出一種「基於二次不等式約束的填補權重因子形成技術」，其可限制權重向量v_l(亦可稱為填補權重因子)形成的可能性。本發明實施例之「基於二次不等式約束的填補權重因子形成技術」係採用基於二次不等式約束(Quadratic Inequality Constraint)的脊交替最小平方法(Ridge Alternating Least Squares；RALS)。然而，本發明之實施例並不受限於此。在本發明之其他實施例中，亦可以採用其他非線性不等式搭配其他的交替最小平方法來限制權重向量v _l。

考慮基於二次不等式約束(Quadratic Inequality Constraint)的脊交替最小平方法(Ridge Alternating Least Squares；RALS)，其方程式如下：

其中

為一大小為D×1的向量且代表統計分佈v_l的質心或中心。此外，δ _l為自訂的純量數值且為正數。式子(7)可以擴充為下面通式：

其中，Γ _l為一個大小為q×D的吉洪諾夫(Tikhonov)矩陣、B _l為一個p×1的平移向量(例如：

)。為了計算式子(8)，需要引入高階(High-order)泛化奇異值分解(Generalized Singular Value Decomposition，GSVD)。以下的敘述將介紹GSVD作用於U _l、B _l以及Γ _l之輸出。為了簡化表示方式，在以下的敘述中，忽略下標l。假設高階GSVD作用後產生以下式子：

其中，Q代表酉矩陣；R為一可逆矩陣。另外，矩陣S中的非對角項均為0。假設μ、β、γ各代表矩陣S _U、S _B以及S _Γ的對角項，則矩陣S _U、S _B以及S _Γ可以下列式子表示：S _U=diag(μ ₁,μ ₂,...,μ _D) (12)

S _B=diag(β ₁,β ₂,...,β _z) (13)

S _Γ=diag(γ ₁,γ ₂,...,γ _q) (14)

此外z=min{p,D}、q

D且D

M。基於式子(9)-(14)，式子(7)可簡化成下式：

其中，

、

且

。藉由引入拉格朗日乘數(Lagrangian Multiple)λ，式子(15)可改寫為下式：

對拉格朗日函數L(

)微分，且令等的左邊為0，可得下式：

式子(17)可轉換成函數

(λ)。假設r為B的矩陣秩(Rank)，函數

(λ)可整理成下列三種狀況：第一種狀況，當z=p

q時

第二種狀況，當z=p>q時

第三種狀況，當z=D時，

式子(16)之值最小時，

-δ ²需為0。將式子(18)-(20)個別帶入

，可得函數ψ(λ)。函數ψ(λ)可為：當r>q時，

否則，

接著，先計算λ，其中令函數ψ(λ)等於δ ²即可得到λ。然後，計算

，其中將λ根據上述之情況來置入式子(18)、(19)或(20)，即可得

。接著，計算v，其中將

置入下列方程式：

如此，即可得到v。

接著說明如何利用權重因子v來進行補值。

本發明之實施例係利用「基於二次不等式約束之迭代投影追蹤(Iterative Projection Pursuit；IPP)」演算法來進行補值計算。然而，本發明之實施例並不受限於此，在本發明之其他實施例中，亦可利用其他非線性不等式之迭代投影追蹤演算法來進行補值。

在本實施例之補值計算中，首先根據上述類別l來初始化當前樣本t為

，以將當前樣本t中之缺失數據用0來替換。接著，進行第一步驟，以根據上述「基於二次不等式約束的填補權重因子形成技術」來計算v _l。在v _l的計算方法中，首先將

[i]置入式子(21)或(22)，以計算ψ(λ _l)[i]，即可得出λ _l[i]，其中i代表第i次的迭代。然後，將λ _l[i]置入式子(18)、(19)或(20)，可得出

(λ _l)[i]。接著，計算v _l[i]，其中

。

然後，進行第二步驟，對當前樣本t進行缺失數據的預測值計算，其中預測值計算係利用以下的方程式來進行插補：

其中，運算符號⊕係代表將t中的缺失項用

中的對應項取代。

重複上述之第一步驟和第二步驟直到均方根誤差(Root-mean-square Error；RMSE)ε _l收斂，其中均方根誤差ε _l係以下列方程式表示：

其中

然後，選取最小的ε _l，以決定當前樣本t的類別，其方程式如下：

其中，l*為當前樣本t的類別。

以下將以一實施例來說明資料補值與分類系統100所對應的資料補值與分類方法200。

請同時參照圖2，其係繪示根據本發明實施例之資料補值與分類方法200的流程示意圖。資料補值與分類方法200包含歷史樣本處理階段210和樣本分類階段220，其中歷史樣本處理階段210可由前述之歷史樣本補值計算模組120來進行，而樣本分類階段220可由前述之當前樣本補值與分類模組130來進行。

在歷史樣本處理階段210中，首先進行步驟211，以提供複數筆歷史樣本，如圖3所示。在本實施例中，歷史樣本包含七筆樣本，其係對應至七天的天氣資訊。每筆樣本包含五個數據：氣壓、濕度、溫度、風力以及雨量。在這些歷史樣本中，週二的溫度、週六的濕度和風力以及周日的溫度為缺失數據。另外，本實施例之歷史樣本已被分類為好天氣和壞天氣。然而，在本發明之其他實施例中，若歷史樣本尚未被分類，可再添加分類模組於前述之歷史樣本補值計算模組120中，以對歷史樣本進行分類步驟212。

接著，進行步驟213，以將歷史樣本中的歷史缺失數據以0來替換，如圖4所示。在圖4中，對歷史樣本X進行轉置運算可獲得歷史樣本X' 。歷史樣本X' 根據其類別可分為兩個已分類歷史樣本組

以及

，其中已分類歷史樣本組

係對應至好天氣類別，而已分類歷史樣本組

係對應至壞天氣類別。

然後，進行步驟214，以針對每一已分類歷史樣本組

以及

進行補值計算。在本發明之實施例中，步驟214係由前述之基底因子產生模組，例如基底因子產生模組122、124、126來進行。在步驟214中，首先進行步驟214a，以計算每一已分類歷史樣本組

以及

所對應之基底矩陣和權重矩陣，如圖5所示。利用前述之式子 (2)-(3)可將已分類歷史樣本組

分解為基底矩陣U _Good和權重矩陣V _Good。類似地，利用前述之式子(2)-(3)可將已分類歷史樣本組

分解為基底矩陣U _Bad和權重矩陣V _Bad。接著，進行步驟214b，以利用每一已分類歷史樣本組

以及

所對應之基底矩陣和權重矩陣來計算每一已分類歷史樣本組

以及

之至少一個歷史缺失數據的預測值。如圖6所示，在步驟214b中，將基底矩陣U _Good乘以權重矩陣V _Good可以得到預測的樣本矩陣

，接著透過樣本矩陣

即可得到已分類歷史樣本組

中缺失數據的預測值。類似地，將基底矩陣U _Bad乘以權重矩陣V _Bad可以得到預測的樣本矩陣

，接著透過樣本矩陣

即可得到已分類歷史樣本組

中缺失數據的預測值。在本發明之一實施例中，可對預測的樣本矩陣

、

進行轉置，以使其列數和行數與已分類歷史樣本組

、

一致，如此即可比對出失數據的預測值。

在樣本分類階段220中，首先進行步驟221，以利用前述之迭代投影追蹤演算法與非線性不等式來計算當前樣本t所對應之複數個權重向量，這些權重向量係一對一地對應至上述類別，例如好天氣和壞天氣。在本發明之實施例中，步驟221係利用「基於二次不等式約束之迭代投影追蹤」來計算當前樣本t所對應之權重向量。如圖7所示，當前樣本t為某一天的天氣，其中缺失的濕度值以0來取代。利用前述之式子(21)與(22)可計算出當前樣本t對應至好天氣的參數λ _Good，接著再利用式子(18)、(19)、(20)與(23)以及參數λ _Good來計算出當前樣本t對應至好天氣的權重向量v _Good，其中參數λ _Good係用以限制權重向量v _Good的內容。類似地，利用前述之式子(21)與(22)可計算出當前樣本t對應至壞天氣的參數λ _Bad，接著再利用式子(18)、(19)、(20)與(23)以及參數λ _Bad來計算出當前樣本t對應至壞天氣的權重向量v _Bad，其中參數λ _Bad係用以限制權重向量v _Bad的內容。

在步驟222中，根據對應至相同類別之基底矩陣以及權重向量來計算對應至上述類別之複數個候選樣本。例如，上述之基底矩陣U _Good和權重向量v _Good係對應至好天氣的類別，故根據基底矩陣U _Good和權重向量v _Good來計算對應至好天氣的候選樣本。在本實施例中，將基底矩陣U _Good乘以權重向量v _Good(U _Good×v _Good)，以獲得對應至好天氣的候選樣本t _Good。類似地，上述之基底矩陣U _Bad和權重向量v _Bad係對應至壞天氣的類別，故根據基底矩陣U _Bad和權重向量v _Bad來計算對應至壞天氣的候選樣本。在本實施例中，將基底矩陣U _Bad乘以權重向量v _Bad(U _Bad×v _Bad)，以獲得對應至壞天氣的候選樣本t _Bad。

在步驟223中，計算每一候選樣本與當前樣本t之差異，以獲得複數個候選樣本差異。在本實施例中，根據上述式子(26)來計算候選樣本t _Good、t _Bad與當前樣本t中未缺失數據之差異，以獲得候選樣本t _Good與當前樣本t之好天氣樣本差異，以及獲得候選樣本t _Bad與當前樣本t之壞天氣樣本差異。然而，本發明之實施例並不受限於此。在本發明之其他實施例中，亦可利用其他方法來計算候選樣本與當前樣本之差異。

在步驟224中，根據上述之候選樣本差異來決定當前樣本t之至少一個缺失數據的預測值以及當前樣本t所對應之類別。在本實施例中，根據式子(28)來將候選樣本差異最小的候選樣本決定為正確的樣本資料，接著再根據正確的樣本資料樣本來決定當前樣本t之缺失數據的預測值以及當前樣本t所對應之類別。例如，當候選樣本t _Good所對應的候選樣本差異小於候選樣本t _Bad所對應的候選樣本差異時，決定候選樣本t _Good為正確的樣本資料。接著，比對候選樣本t _Good與當前樣本t，以獲得當前樣本t之缺失數據的預測值。另外，由於候選樣本t _Good對應至好天氣的類別，故決定當前樣本t為好天氣。

由以上說明可知，本發明之實施例係對含有空值的數據樣本進行補全的計算，且對不同類別的數據樣本使用差異化和非線性的插補因子，如此可獲得更接近真實統計分佈的插補值。如此，本發明之實施例之資料補值與分類方法200的補值和分類更為精確。

雖然本發明已以數個實施例揭露如上，然其並非用以限定本發明，在本發明所屬技術領域中任何具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。