TWI816078B

TWI816078B - 樣本分群探勘方法

Info

Publication number: TWI816078B
Application number: TW110100290A
Authority: TW
Inventors: 陳冠安; 許振揚
Original assignee: 財團法人工業技術研究院
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2023-09-21
Also published as: US20220215966A1; TW202228152A

Abstract

一種樣本分群探勘方法。所述方法包括下列步驟。取得包括多個樣本的場域資料集，各樣本具有對應的實際標註結果。將所述樣本分別輸入至既有模型，以獲得多個估計結果。基於所述估計結果與所述實際標註結果的誤差分布，剔除場域資料集中的離群樣本集，其中場域資料集中的剩餘的樣本形成剩餘樣本集。基於剩餘樣本集的估計結果，將剩餘樣本集分群為困難樣本集與簡單樣本集。

Description

樣本分群探勘方法

本發明是有關於一種資料探勘方法，且特別是有關於一種樣本分群探勘方法。

隨著計算機的運算能力與儲存容量快速提升以及各類大數據的匯集，人工智慧（Artificial intelligence，AI）有著爆炸性的發展。其中一個重要議題便是智慧醫療。將AI用於醫學影像，除了能協助精準診斷及輔助遠距醫療，更能依據過去病例、經驗與病患自身多元醫療指標等訊息挖掘隱性資訊，進而協助醫療決策。AI醫療成了未來智慧醫療的重要指標。

然而，在AI醫療上，判讀醫學影像的AI模型的建置不僅成本高，亦耗時費力。根據調查，在醫學影像的AI模型的建置過程中，有一半的資源會耗費在醫學影像收集與審圖標註上。因此，如何在有限的資源上建置AI模型為目前課題之一。

本發明提供一種樣本分群探勘方法，可加速模型的建置。

本發明的樣本分群探勘方法，包括下列步驟：(a)取得場域資料集，場域資料集包括多個樣本，所述樣本具有對應的多個實際標註結果；(b)將所述樣本分別輸入至既有模型，以獲得多個估計結果；(c)基於所述估計結果與所述實際標註結果的誤差分布，剔除場域資料集中的離群樣本集，其中已剔除離群樣本集後的場域資料集中的剩餘的樣本形成剩餘樣本集；以及(d)基於剩餘樣本集的估計結果，將剩餘樣本集分群為困難樣本集與簡單樣本集。

在本發明的一實施例中，在步驟(b)之後，更包括：計算所述估計結果與所述實際標註結果的誤差分布；透過常態分布檢定方法來檢驗誤差分布是否為常態分布。在判定誤差分布為常態分布時，依序執行步驟(c)及步驟(d)。在判定誤差分布不是常態分布時，選擇另一既有模型，重新執行步驟(b)。

在本發明的一實施例中，計算所述估計結果與所述實際標註結果的誤差分布的步驟包括：透過損失函數來計算各樣本的估計結果與其對應的實際標註結果的誤差值，藉此來獲得誤差分布。

在本發明的一實施例中，所述損失函數採用交叉熵（cross-entropy）。

在本發明的一實施例中，所述步驟(c)包括：將誤差值大於第一設定值的樣本或誤差值小於第二設定值的樣本判定為離群樣本集。

在本發明的一實施例中，所述步驟(d)包括：計算剩餘樣本集中的各樣本對應的誤差值的絕對值，以獲得絕對值分布；對絕對值分布進行正規化轉換，以獲得正規化分布；基於正規化分布，將剩餘樣本集分群為困難樣本集與簡單樣本集。

在本發明的一實施例中，基於正規化分布，將剩餘樣本集分群為困難樣本集與簡單樣本集包括：自正規化分布中的正規化誤差絕對值為0的樣本開始，取出符合第一門檻數量的樣本分群為簡單樣本集；以及自正規化分布中的正規化誤差絕對值為1的樣本開始，取出符合第二門檻數量的樣本分群為困難樣本集。

在本發明的一實施例中，簡單樣本集的樣本數量大於困難樣本集的樣本數量。

基於上述，透過對場域資料集進行樣本分群探勘，可找出導致既有模型判讀準確率下降的樣本，並獲得與既有模型的機率特徵相似性高的樣本，並與一定比例之相似性較低的樣本混合，組成新的資料集以達到快速模型建立與優化之目標。

圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1，電子裝置100包括處理器110以及儲存器120。處理器110例如為中央處理單元（Central Processing Unit，CPU）、物理處理單元（Physics Processing Unit，PPU）、可程式化之微處理器（Microprocessor）、嵌入式控制晶片、數位訊號處理器（Digital Signal Processor，DSP）、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）或其他類似裝置。

儲存器120例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合。儲存器120中儲存有多個程式碼片段，上述程式碼片段在被安裝後，會由處理器110來執行，以實現下述樣本分群探勘方法。

近年來有越來越多技術開源，大量的開源資料與訓練好的既有模型取得容易。以開源資料集（例如Kaggle資料集）來建置糖尿病視網膜眼底病變嚴重程度模型（既有模型）為例，人工智慧訓練資料集的特徵分布決定這個模型的表現。開源資料集中所包括的樣本的特徵可能涵蓋性別、人種等差異。倘若將既有模型應用於與開源資料集所對應場域不同的場域資料集，其判讀便容易失準。例如，亞洲高度近視人口偏高，眼底影像比較容易出現如虎斑紋的特徵。使用者只能取得既有模型與其判讀準確率，並不清楚其在訓練階段中的訓練樣本的組成。而在下述實施例中，利用已訓練好的既有模型以及少量的樣本，可快速建立一套適用於指定場域的判讀模型。

圖2是依照本發明一實施例的樣本分群探勘方法的流程圖。請參照圖2，在步驟S205中，取得一場域資料集。在此，場域資料集包括基於指定場域所收集的多個樣本，每一個樣本具有對應的實際標註結果。使用者可根據需求來收集指定場域的樣本，而所收集的樣本的數量並不需要跟訓練模型用的樣本數量一樣多，少量的樣本亦可達到判讀模型優化之目的。

接著，在步驟S210中，將所述樣本分別輸入至既有模型，以獲得多個估計結果。以既有模型對新的場域資料集作特徵萃取，並以高維向量表示之。既有模型為用以將輸入資料分類至指定類別的分類模型。假設所述分類模型為一高斯函數模型f(x)，將場域資料集的各樣本輸入至高斯函數模型f(x)，可計算出屬於所述指定類別的機率密度函數P(x)（其值為估計結果p）。

高斯函數模型f(x)如下：。其中，x例如代表樣本的特徵向量，D代表樣本的特徵向量的維度，μ與σ分別為期望值與變異數。例如，倘若P(x)≥0.5，判定為第一類別；倘若P(x)＜0.5，判定為第二類別。

在此，為避免所挑選的既有模型不適合場域資料集，可進一步判斷既有模型的可用性。圖3是依照本發明一實施例的判斷既有模型可行性的方法流程圖。請參照圖3，在步驟S305中，檢驗是否為常態分布。具體而言，首先，計算估計結果與實際標註結果的誤差分布。在此，可透過損失函數L(p,q)來計算各樣本的估計結果（p）與其對應的實際標註結果（q）的誤差值（損失值），藉此來獲得誤差分布。損失函數旨於量化評估模型預測結果與實際標註結果的差異量化，損失函數可採用均方誤差、平均絕對誤差或交叉熵（Cross-entropy）等。例如，若既有模型處理的是分類問題，則損失函數計算可選為交叉熵。

若以交叉熵作為損失函數，則損失函數L(p,q)為：其中，p _i代表第i個樣本的估計結果，q _i代表第i個樣本的實際標註結果。

在獲得誤差值之後，再透過常態分布檢定方法來檢驗誤差分布是否為常態分布。底下舉圖4及圖5來說明不可行的既有模型。圖4是依照本發明一實施例的場域資料集應用於既有模型的估計結果分布圖。圖5是依照本發明一實施例的基於圖4的誤差分布的示意圖。

在圖4中，例如利用機率密度函數來計算各樣本的機率值（即，估計結果）p（0≤p≤1）。越靠近中心點的樣本，其p值越高，代表此樣本越適合所選用的既有模型；而越遠離中心的樣本，其p值越低，代表此樣本越不適合所選用的既有模型。

在圖5中，橫軸表示誤差值，縱軸表示樣本數量。利用損失函數L(p,q)來獲得圖4所示的各樣本的誤差值，並獲得如圖5所示的誤差分布。由圖5可以清楚地看出，估計結果與實際標註結果為相同（誤差值為0）的樣本很少，即，意味挑選之既有模型不適合此場域資料集。在此，可透過常態分布檢定方法來判斷誤差分布是否為常態分布。

一般來說，常態分布檢定方法包括Kolmogorov-Smirnov檢驗法及Shapiro-wilk檢驗法等。常態分布中，期望值μ等於位置參數，決定了分佈的位置；其變異數σ等於尺度參數，決定了分布的幅度。例如，當樣本數量小於50時，利用Shapiro-wilk檢驗法的W值來檢測是否為常態分布。當W值大於0.05時，判定誤差分布為常態分布。當W值未大於0.05時，判定誤差分布非常態分布。

當樣本數量大於50時，利用Kolmogorov-Smirnov檢驗法的D值來檢測是否為常態分布。當D值大於0.05時，判定誤差分布為常態分布。當D值未大於0.05時，判定誤差分布非常態分布。

在步驟S305中，在判定誤差分布為常態分布時，表示所選擇的既有模型適用於所選擇的場域資料集，因而結束判斷既有模型可行性的流程，並依序執行圖2的步驟S215及步驟S220。在判定誤差分布不是常態分布時，表示所選擇的既有模型不適用於所選擇的場域資料集，因而如步驟S310所示，選擇另一既有模型，並重新執行步驟S305，直到所選擇的既有模型適用於所選擇的場域資料集。

返回圖2，在步驟S215中，基於估計結果與實際標註結果的誤差分布，剔除場域資料集中的離群樣本集。其中，已剔除離群樣本集後的場域資料集中的剩餘的樣本形成剩餘樣本集。在此，將誤差值大於第一設定值的樣本或誤差值小於第二設定值的樣本判定為離群樣本集。

圖6是依照本發明一實施例的誤差值統計圖。在圖6中，常態分布中的期望值μ等於位置參數，決定了分佈的位置；其變異數σ等於尺度參數，決定了分布的幅度。如圖6所示，誤差值位於μ-σ至μ+σ的樣本數量佔總樣本數量的68.2%，誤差值位於μ-2σ至μ+2σ的樣本數量佔總樣本數量的95.4%，誤差值位於μ-3σ至μ+3σ的樣本數量佔總樣本數量的99.7%。

在本實施例中，將第一設定值設為 μ+3σ，將第二設定值設為 μ-3σ。故，誤差值L(x _i)大於第一設定值 μ+3σ的樣本或誤差值L(x _i)小於第二設定值 μ-3σ的樣本被判定為離群樣本集。

在剔除離群樣本集後，在步驟S220中，基於剩餘樣本集的估計結果，將剩餘樣本集分群為困難樣本集與簡單樣本集。進一步地說，先計算剩餘樣本集中的各樣本對應的誤差值的絕對值，以獲得絕對值分布。誤差的絕對值L’(p,q)如下：。

圖7是依照本發明一實施例的絕對值分布的示意圖。請參照圖7，橫軸代表取誤差的絕對值，縱軸代表樣本數量。將剩餘樣本集中的各樣本的誤差值取絕對值，可忽略高估狀況及低估狀況。

接著，對絕對值分布進行正規化轉換，以獲得正規化分布。正規化誤差絕對值L’’(p,q)如下：。

圖8是依照本發明一實施例的正規化分布的示意圖。參照圖8，橫軸代表正規化誤差絕對值，縱軸代表樣本數量。將計算的資料集損失值進行正規化轉換，以利樣本在高維空間進行比較。

最後，基於正規化分布，將剩餘樣本集分群為困難樣本集與簡單樣本集。以圖8而言，由正規化誤差絕對值為0的樣本開始進行簡單樣本集的分群。例如，將正規化誤差絕對值位於0～0.2的樣本分群至簡單樣本集。倘若簡單樣本集的樣本數量尚未達到第一門檻數量，則再將正規化誤差絕對值位於0.2～0.4的樣本分群至簡單樣本集。以此類推，直到簡單樣本集的樣本數量達到第一門檻數量。

同理，由正規化誤差絕對值為1的樣本開始進行困難樣本集的分群。例如，將正規化誤差絕對值位於0.8～1的樣本分群至困難樣本集。倘若困難樣本集的樣本數量尚未達到第二門檻數量，則再將正規化誤差絕對值位於0.6～0.8的樣本分群至困難樣本集。以此類推，直到困難樣本集的樣本數量達到第二門檻數量。

在此，第一門檻數量例如為剩餘樣本集的總數量的75%，第二門檻數量例如為剩餘樣本集的總數量的25%。然，並不以此為限，只要第一門檻數量（簡單樣本集的樣本數量）大於第二門檻數量（困難樣本集的樣本數量）即可。

底下再舉一實施例來說明。表1表示將所取得的場域資料集輸入至以開源資料集所訓練而成的既有模型而獲得估計結果與實際標註結果的比對關係。

表1

實際標註結果估計結果	0	1	2	3	4
0	4132	90	87	15	30
1	51	16	3	0	0
2	30	77	619	55	38
3	0	1	164	124	44
4	3	10	249	130	153

在表1所示的實施例中，場域資料集的總樣本數量為6121。透過既有模型所獲得的估計結果與實際標註結果相同的樣本數量為5044（4132+16+619+124+153），而估計結果與實際標註結果不同的樣本數量為1077。

圖9是依照本發明一實施例的基於表1所獲得的誤差分布圖。圖10是依照本發明一實施例的基於表1所獲得的正規化分布圖。由圖9可以清楚地看出誤差分布呈鐘形，代表其為常態分布。也就是說，場域資料集適用於所選的既有模型。而經過在剔除離群樣本集、取絕對值、正規化等過程後，獲得如圖10所示的正規化分布。接著，便可基於圖10所示的正規化分布，將剩餘樣本集分群為困難樣本集與簡單樣本集。在獲得困難樣本集與簡單樣本集後，可將困難樣本集與簡單樣本集送入增量式學習架構中對既有模型進行訓練。對此，可使用少量樣本來建置出適合指定場域的模型。

綜上所述，上述實施例中，不需要透過既有模型的訓練樣本，僅需少量具有實際標註結果的樣本來作為既有模型的輸入，便能夠達到快速模型建立與優化之目標。據此，可協助大數據研究或醫療機構來加速模型建置，並且加速取得美國的食品及藥物管理局（Food and Drug Administration，FDA）的認證。

在上述實施例中，透過基於深度學習所萃取之高維特徵向量的分布關係，找出分群邊界的離群樣本集，藉此可修正既有模型，以改善其分類準確度。並且，在達到模型分類精準度提升之目的，同時也確保舊有資料集的分類判讀不受影響。

此外，還可透過損失函數的統計分布關係，評估既有模型的可優化性，並透過正規化後之損失函數，找出與既有模型的分類機率特徵相似性高之樣本（簡單樣本集）相似性較低之樣本（困難樣本集）來組成新的資料集，在簡單樣本集的數量大於困難樣本集的數量的情況下，獲得兼顧既有模型的分類表現。所獲得的新的資料集不僅可用於優化既有模型的判讀精準度，並且也不會因為新的資料集加入，而導致既有的資料集的判讀精準度下降的問題。

100:電子裝置 110:處理器 120:儲存器 S205～S220:樣本分群探勘方法各步驟 S305～S310:判斷既有模型可行性各步驟

圖1是依照本發明一實施例的電子裝置的方塊圖。圖2是依照本發明一實施例的樣本分群探勘方法的流程圖。圖3是依照本發明一實施例的判斷既有模型可行性的方法流程圖。圖4是依照本發明一實施例的場域資料集應用於既有模型的估計結果分布圖。圖5是依照本發明一實施例的基於圖4的誤差分布的示意圖。圖6是依照本發明一實施例的誤差值統計圖。圖7是依照本發明一實施例的絕對值分布的示意圖。圖8是依照本發明一實施例的正規化分布的示意圖。圖9是依照本發明一實施例的基於表1所獲得的誤差分布圖。圖10是依照本發明一實施例的基於表1所獲得的正規化分布圖。

S205~S220:樣本分群探勘方法各步驟

Claims

一種樣本分群探勘方法，包括下列步驟： (a)取得一場域資料集，該場域資料集包括多個樣本，該些樣本具有對應的多個實際標註結果； (b)將該些樣本分別輸入至一既有模型，以獲得多個估計結果； (c)基於該些估計結果與該些實際標註結果的一誤差分布，剔除該場域資料集中的一離群樣本集，其中已剔除該離群樣本集後的該場域資料集中的剩餘的該些樣本形成一剩餘樣本集；以及 (d)基於該剩餘樣本集的該些估計結果，將該剩餘樣本集分群為一困難樣本集與一簡單樣本集。
如請求項1所述的樣本分群探勘方法，其中在步驟(b)之後，更包括：計算該些估計結果與該些實際標註結果的該誤差分布；透過一常態分布檢定方法來檢驗該誤差分布是否為常態分布；在判定該誤差分布為常態分布時，依序執行步驟(c)及步驟(d)；以及在判定該誤差分布不是常態分布時，選擇另一既有模型，重新執行步驟(b)。
如請求項2所述的樣本分群探勘方法，其中計算該些估計結果與該些實際標註結果的該誤差分布的步驟包括：透過一損失函數來計算每一該些樣本的估計結果與其對應的實際標註結果的一誤差值，藉此來獲得該誤差分布。
如請求項3所述的樣本分群探勘方法，其中該損失函數採用交叉熵。
如請求項3所述的樣本分群探勘方法，其中步驟(c)包括：將該誤差值大於一第一設定值的樣本或該誤差值小於一第二設定值的樣本判定為該離群樣本集。
如請求項3所述的樣本分群探勘方法，其中步驟(d)包括：計算該剩餘樣本集中的每一該些樣本對應的該誤差值的一絕對值，以獲得一絕對值分布；對該絕對值分布進行一正規化轉換，以獲得一正規化分布；以及基於該正規化分布，將該剩餘樣本集分群為該困難樣本集與該簡單樣本集。
如請求項6所述的樣本分群探勘方法，其中基於該正規化分布，將該剩餘樣本集分群為該困難樣本集與該簡單樣本集包括：自該正規化分布中的正規化誤差絕對值為0的樣本開始，取出符合一第一門檻數量的樣本分群為該簡單樣本集；以及自該正規化分布中的正規化誤差絕對值為1的樣本開始，取出符合一第二門檻數量的樣本分群為該困難樣本集。
如請求項1所述的樣本分群探勘方法，其中該簡單樣本集的樣本數量大於該困難樣本集的樣本數量。