TWI683223B

TWI683223B - 篩選資料的方法和裝置

Info

Publication number: TWI683223B
Application number: TW107136330A
Authority: TW
Inventors: 李俊賢; 許銀雄; 蔡宗憲; 蔡宗翰
Original assignee: 宏碁股份有限公司
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2020-01-21
Also published as: TW202016752A

Abstract

提供一種篩選資料的方法，適用於篩選出顯著地影響資料之分群的特徵，其包括：取得多筆測量資料，其中多筆測量資料中的每一者包括由多個特徵值組成的第一特徵集合。根據測量誤差，從第一特徵集合中移除一或多個特徵值以產生顯著特徵集合。產生由顯著特徵集合中的特徵值組成的多個特徵組合。對多筆測量資料進行分群以產生分群結果，並且基於分群結果以及評估指標對多個特徵組合進行排行。

Description

篩選資料的方法和裝置

本發明是有關於一種資料處理技術，且特別是有關於一種篩選資料的方法和裝置，其可適用於篩選出顯著地影響資料之分群之特徵。

在醫療領域中，時常會蒐集許多人體之特徵的相關資料，例如代謝體、蛋白體或一般健檢資料等。這些特徵可能是數以萬計的，且所測量出的特徵資料也會存在測量誤差。當要進行群體實驗時，將特徵較類似的受測者分為同一群集可使研究人員更易於觀察各種藥物或治療方法對受測者的影響。一般來說，為方便觀察，研究人員會將所測量的特徵資料以二維或三維圖像（例如：二維或三維的回歸曲線圖）的形式呈現。然而，在存在非常多的特徵種類的情況下，特徵資料將會產生非常多的二維或三維圖像。研究人員很難藉由數量龐大的圖像區分出各個特徵值影響分群的顯著程度。

本發明提供一種篩選資料的方法和裝置，旨在幫助研究人員從資料的眾多特徵中，篩選出最具代表性的特徵。

本發明的篩選資料的方法，適用於篩選出顯著地影響資料之分群的特徵，其包括：取得多筆測量資料，其中多筆測量資料中的每一者包括由多個特徵值組成的第一特徵集合。根據測量誤差，從第一特徵集合中移除一或多個特徵值以產生顯著特徵集合。產生由顯著特徵集合中的特徵值組成的多個特徵組合。對多筆測量資料進行分群以產生分群結果，並且基於分群結果以及評估指標對多個特徵組合進行排行。

本發明的篩選資料的裝置，適用於篩選出顯著地影響資料之分群的特徵，其包括：儲存單元以及處理單元。儲存單元儲存多個模組。處理單元耦接儲存單元，且存取並執行儲存單元所儲存的多個模組，所述多個模組包括：資料接收模組以及資料篩選模組。資料接收模組取得多筆測量資料，其中多筆測量資料中的每一者包括由多個特徵值組成的第一特徵集合。資料篩選模組，經配置以執行：根據測量誤差，從第一特徵集合中移除一或多個特徵值以產生顯著特徵集合。產生由顯著特徵集合中的特徵值組成的多個特徵組合。對多筆測量資料進行分群以產生分群結果，並且基於分群結果以及評估指標對多個特徵組合進行排行。

基於上述，本發明所提出之篩選資料的方法和裝置可從多個資料的多個特徵中篩選出顯著地影響分群的特徵，從而改善研究人員對受測者進行分群的效率。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

為了幫助研究人員從資料的眾多特徵中，篩選出最具代表性的特徵，本發明提供一種篩選資料的方法和裝置。透過以下內容將可讓讀者了解本發明之創作精神。

圖1是依照本發明的實施例繪示一種篩選資料的裝置10的示意圖，其中裝置10可適用於篩選出顯著地影響資料之分群的特徵。裝置10可包括處理單元100以及儲存單元300。

儲存單元300用以儲存裝置10運行時所需的各項軟體、資料及各類程式碼。儲存單元300可例如是任何型態的固定式或可移動式的隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-only Memory，ROM）、快閃記憶體（Flash Memory）、硬碟（Hard Disk Drive，HDD）、固態硬碟（Solid State Drive，SSD）或類似元件或上述元件的組合。

處理單元100耦接儲存單元300，並可存取及執行儲存單元300所儲存的多個模組。處理單元100可例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位信號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）或其他類似元件或上述元件的組合。

在本實施例中，儲存單元300可儲存包括資料接收模組310及資料篩選模組330等多個模組，該些模組的功能將會於下文說明。

圖2是依照本發明的實施例繪示一種篩選資料的方法20的流程圖，方法20可適用於篩選出顯著地影響資料之分群的特徵，且方法20可由如圖1所示的裝置10實施。

在步驟S210，資料接收模組310可取得多筆測量資料，其中所述多筆測量資料中的每一者包括由多個特徵值組成的第一特徵集合。舉例來說，表1記錄了分別對應不同受測者的多筆測量資料，且每一筆測量資料包括由特徵值1、特徵值2、特徵值3、特徵值4及特徵值5等五個特徵值組成的第一特徵集合。表 1

受測者	特徵值1	特徵值2	特徵值3	特徵值4	特徵值5	測量時間（日期）	測量溫度（ ℃ ）	測量儀器編號	測量儀器使用年限( 年)	操作人員編號
1	0.22	1.22	1.89	1.00	2.01	5/1	25	1	4	A1
2	2.03	3.22	0.45	1.00	1.67	5/1	25	1	4	A1
3	1.89	0.33	3.03	1.00	2.01	5/1	25	1	4	A1
4	0.45	3.41	5.95	1.00	1.67	5/1	25	1	4	A1
5	3.74	9.03	1.48	2.00	2.01	5/11	32	2	6	A2
6	1.48	4.44	3.22	2.00	1.67	5/11	32	2	6	A2
7	3.03	5.33	0.33	2.00	2.01	5/12	33	2	6	A2
8	5.95	6.41	3.41	2.00	1.67	5/12	33	2	6	A2

在步驟S220，資料篩選模組330可根據測量誤差，從第一特徵集合中移除一或多個特徵值以產生顯著特徵集合。具體來說，資料篩選模組330可藉由資料接收模組310所接收的多筆測量資料計算出每一種特徵值（例如：表1中的特徵值1、2、3、4及5）的測量誤差，若測量誤差過大，則資料篩選模組330可將對應所述測量誤差的特徵值自第一特徵集合移除。舉例來說，假設表1中的特徵值1及特徵值2的測量誤差過大，則資料篩選模組330藉由移除特徵值1及特徵值2而將表1的資料簡化為表2的資料，其中特徵值3、4及5可組成顯著特徵集合。表 2

受測者	特徵值3	特徵值4	特徵值5	測量時間（日期）	測量溫度（ ℃ ）	測量儀器編號	測量儀器使用年限( 年)	操作人員編號
1	1.89	1.00	2.01	5/1	25	1	4	A1
2	0.45	1.00	1.67	5/1	25	1	4	A1
3	3.03	1.00	2.01	5/1	25	1	4	A1
4	5.95	1.00	1.67	5/1	25	1	4	A1
5	1.48	2.00	2.01	5/11	32	2	6	A2
6	3.22	2.00	1.67	5/11	32	2	6	A2
7	0.33	2.00	2.01	5/12	33	2	6	A2
8	3.41	2.00	1.67	5/12	33	2	6	A2

在步驟S230，資料篩選模組330可產生由顯著特徵集合中的特徵值（例如：表2中的特徵值3、4及5）所組成的特徵組合。一般來說，在觀察資料的特徵值時，會將特徵值組成的特徵組合以二維或三維圖像（例如：二維或三維的回歸曲線圖）的形式呈現，但本發明並不限於此。以二維的回歸曲線圖為例，若要將表2的特徵值以二維的回歸曲線圖的形式呈現，則可將表2的特徵值中的其中二者組成特徵組合，其中特徵組合可以是由特徵值3及特徵值4所組成的特徵組合一、由特徵值4及特徵值5所組成的特徵組合二以及由特徵值3及特徵值5所組成的特徵組合三，如表3所示。表 3

特徵組合	組成特徵組合的特徵值
一	特徵值3	特徵值4
二	特徵值4	特徵值5
三	特徵值3	特徵值5

在步驟S240，資料篩選模組330可對多筆測量資料進行分群以產生分群結果，並且基於分群結果以及評估指標對多個特徵組合進行排行。具體來說，資料篩選模組330可先對已在步驟S220根據測量誤差而移除了一或多個特徵值的多筆測量資料進行分群。分群的方式可例如是透過K-平均演算法（K-means Clustering）或階層式分群法（Hierarchical Clustering）等方法，本發明並不限於此。以表2的資料為例，假設使用K-平均演算法將表2的資料分群為四群（即：K-平均演算法的參數K=4），則分群結果可以如表4所示。表 4

受測者	特徵值3	特徵值4	特徵值5	測量時間（日期）	測量溫度（℃）	測量儀器編號	測量儀器使用年限( 年)	操作人員編號	分群結果
1	1.89	1.00	2.01	5/1	25	1	4	A1	1
2	0.45	1.00	1.67	5/1	25	1	4	A1	1
3	3.03	1.00	2.01	5/1	25	1	4	A1	3
4	5.95	1.00	1.67	5/1	25	1	4	A1	2
5	1.48	2.00	2.01	5/11	32	2	6	A2	4
6	3.22	2.00	1.67	5/11	32	2	6	A2	4
7	0.33	2.00	2.01	5/12	33	2	6	A2	2
8	3.41	2.00	1.67	5/12	33	2	6	A2	2

在獲得分群結果後，資料篩選模組330可基於分群結果計算多個特徵組合對應於評估指標的值，其中評估指標可例如是Dunn指標（Dunn Index）及Davies-Bouldin指標（Davies-Bouldin Index）中的至少其中之一，但本發明不限於此。舉例來說，以表3及表4為例，資料篩選模組330可基於表4的分群結果計算出表3中的特徵組合對應於Dunn指標以及Davies-Bouldin指標的值，如表5所示。表 5

特徵組合	Dunn 指標	Davies-Bouldin 指標
一	6.45	0.59
二	1.21	1.52
三	0.33	6.93

接著，資料篩選模組330考量評估指標的影響而計算各個特徵組合的綜合影響指標。以表5為例，由於Dunn指標與影響程度成正向關係，而Davies-Bouldin指標則與影響程度成反向關係，因此，綜合影響指標 α可以設定為如公式（1）所示（但本發明不限於此）。 α = (Dunn 指標 ) + (-1)*( Davies-Bouldin 指標 )…公式（1）

資料篩選模組330可根據上述的公式（1）計算出表5之特徵組合的綜合影響指標，並且基於綜合影響指標進行排行，如表6所示。由表6可知，在特徵組合一、二及三中，特徵組合一中的特徵值（即：特徵值3和4）對分群結果具有最顯著的影響。基此，在測量資料包括的特徵值數量過多的情況下，研究人員可優先以特徵值3和特徵值4作為分群的依據。表 6

特徵組合	Dunn 指標	Davies-Bouldin 指標	綜合影響指標	特徵組合排行
一	6.45	0.59	5.86	1
二	1.21	1.52	-0.31	2
三	0.33	6.93	-6.60	3

在一些實施例中，上述的步驟S220可被進一步地細分為多個步驟，如圖3所示。圖3是依照本發明的實施例進一步地繪示圖2之步驟S220的流程圖。

在步驟S221，資料篩選模組330可根據第一特徵集合中的第一特徵值的變異程度，決定從第一特徵集合中移除第一特徵值以產生第二特徵集合。以表1為例，資料篩選模組330可基於表1的多筆測量資料計算出特徵值1、2、3、4和5的變異程度，其中變異程度可例如是以標準差、變異數或其他統計量來代表。以標準差為例，資料篩選模組330可計算表1中各個特徵值的標準差。計算結果如表7所示。表 7

特徵值	變異程度（標準差）
1	1.87
2	2.80
3	1.85
4	0.53
5	0.18

而後，資料篩選模組330可根據所計算出的變異程度而將一或多個特徵值從多筆測量資料的第一特徵集合中移除，藉以產生第二特徵集合。舉例來說，資料篩選模組330可根據一預設的變異程度閾值移除變異程度過大的特徵值。假設將所述變異程度閾值設定為1.86，則資料篩選模組330可將第一特徵集合（即：特徵值1、2、3、4和5）中變異程度大於1.86的特徵值1和特徵值2移除，藉以產生第二特徵集合（即：特徵值3、4和5）。當測量資料的特定特徵值之變異程度過大，意味著所述特定特徵值的測量誤差較大。因此，步驟S221可將測量誤差過大的特徵值移除，降低測量誤差對資料分群的影響。

在步驟S222，資料篩選模組330可對第二特徵集合中的特徵值進行分群以產生第二分群結果，分群的方式可例如是透過K-平均演算法或階層式分群法等方法，本發明並不限於此。以表1的資料為例，在特徵值1和特徵值2已被移除的情況下，資料篩選模組330可利用K-平均演算法將表1的資料進行分群。分群結果如表8所示。表 8

受測者	特徵值3	特徵值4	特徵值5	測量時間（日期）	測量溫度（℃）	測量儀器編號	測量儀器使用年限( 年)	操作人員編號	第二分群結果
1	1.89	1.00	2.01	5/1	25	1	4	A1	1
2	0.45	1.00	1.67	5/1	25	1	4	A1	1
3	3.03	1.00	2.01	5/1	25	1	4	A1	3
4	5.95	1.00	1.67	5/1	25	1	4	A1	2
5	1.48	2.00	2.01	5/11	32	2	6	A2	4
6	3.22	2.00	1.67	5/11	32	2	6	A2	4
7	0.33	2.00	2.01	5/12	33	2	6	A2	2
8	3.41	2.00	1.67	5/12	33	2	6	A2	2

在步驟S223，資料篩選模組330可計算第二分群結果與一操作變因的相關程度，其中操作變因可例如是測量時間、測量溫度、測量儀器使用年限、測量儀器編號或操作人員編號等容易造成測量誤差的因素。以表8的資料為例，當操作變因選為測量時間時，資料篩選模組330可基於表8的測量資料計算出分群結果與測量時間的相關程度。具體來說，假設在進行測量資料之測量時所耗用的總測量時間為4天，則資料篩選模組330可計算出表8中每一分群結果的測量時間相對於總測量時間的比例（計算出的比例即可作為一種相關程度），計算出的結果如表9所示。表 9

分群結果	相關程度
1（測量時間：5/1）	1/4 = 0.25
2（測量時間：5/1、5/12）	2/4 = 0.5
3（測量時間：5/1）	1/4 = 0.25
4（測量時間：5/11）	1/4 = 0.25

當一分群結果的測量時間對總測量時間的比例越大，代表所述分群結果中之特徵值的測量越不受測量時間所影響。相對來說，當一分群結果的測量時間對總測量時間的比例越小，代表所述分群結果中之特徵值的測量越容易受測量時間所影響。操作變因選為測量儀器編號或操作人員編號時，亦可用上述計算方式，計算出相關程度。

在步驟S224，資料篩選模組330可比較每一分群結果之相關程度與第一閾值（假設第一閾值為 γ）。若相關程度大於第一閾值 γ，則進入步驟S225。反之，若相關程度小於或等於第一閾值 γ，則進入步驟S226。資料篩選模組330可根據公式（2）計算出相關程度 β，但本發明不限於此。 β = 1- f(n)=

… 公式（ 2 ）其中 β為相關程度、 f(n)為 n的函數以及所有分群結果的測量時間對總測量時間的比例的平均數、 C _i 為第 i個分群結果的測量時間對總測量時間的比例且 n為分群結果的總數。分群結果的測量時間對總測量時間的比例越大代表相關程度越低，因此，公式（2）中的 f(n)與相關程度呈反向關係，故本實施例以1 – f(n)作為相關程度。以表9的資料為例，資料篩選模組330可根據公式（2）及表9計算出相關程度 β= 1 – 0.3125 = 0.6875。

再以表8的資料為例，當操作變因選為測量溫度時，資料篩選模組330可基於表8的測量資料計算出分群結果與測量溫度的相關程度。首先，資料篩選模組330可根據表8計算出各個分群結果的測量溫度的變異程度（例如：標準差、變異數或其他類型的統計量），如表10所示。操作變因選為測量儀器使用年限時，亦可用上述計算方式，計算出變異程度。表 10

分群結果	變異程度（標準差）
1	0.00
2	4.62
3	0.00
4	0.00

接著，資料篩選模組330可根據公式（3）計算出相關程度 β，但本發明不限於此。 β = 1 / g(n)= 1 /

… 公式（ 3 ）其中 β為相關程度、 g(n)為 n的函數以及所有分群結果的變異程度的平均數、 D _i 為第 i個分群結果的測量溫度的變異程度且 n為分群結果的總數。當一分群結果的測量溫度之變異程度越高，代表該分群結果較不受測量溫度影響。反之，當一分群結果的測量溫度之變異程度越小，代表該分群結果較容易受測量溫度影響。因此，本實施例以 g(n)的倒數作為相關程度。資料篩選模組330可根據公式（3）及表10計算出相關程度 β= 1 / 1.155 = 0.866。

另一計算相關程度的方式，再以表8的資料為例，計算出分群結果與測量資料的卡方檢定，以卡方值作為相關程度。首先，以數值型變因的測量儀器使用年限為例，需先切分出多個年限的區間（例如：5年以下及/或5年以上），計算於各區間內數量，如表11a所示。表 11a

	使用年限區間
5年以下	5年以上
分群結果	1	2	0
2	1	2
3	1	0
4	0	2

以表11a的結果計算卡方值為5.3333，即為相關程度 β。當操作變因選為類別型變因（例如：測量時間、測量儀器編號、操作人員編號）時，不需切分出多個區間，可直接計算卡方值。

在步驟S225，資料篩選模組330可計算第二特徵集合中的第二特徵值的群組間差異值，並且基於群組間差異值以及第二閾值而決定從第二特徵集合中移除第二特徵值以產生更新後的第二特徵集合，其中所述群組間差異值可關聯於第二特徵值的P值（P-Value），但本發明不限於此。以表8的資料為例，資料篩選模組330可例如透過變異數分析或變方分析（Analysis of Variance，ANOVA）計算出每一特徵值的P值。當P值越大時，代表群組間差異值越小。反之，當P值越小時，代表群組間差異值越大。因此，資料篩選模組330可利用每一特徵值的P值計算出每一特徵值的群組間差異值，如表11所示。表 11

特徵值	群組間差異值
特徵值3	0.03
特徵值4	0.53
特徵值5	0.45

在獲得每一特徵值的群組間差異值後，資料篩選模組330可比較群組間差異值與一第二閾值 δ，若一特徵值的群組間差異值小於第二閾值 δ，則資料篩選模組330可將該特徵值從第二特徵集合（例如：特徵值3、4和5）中移除以產生新的第一特徵集合，並重新進入步驟S222。

在步驟S226，資料篩選模組330可將第二特徵集合作為顯著特徵集合。

在一些實施例中，圖2的步驟S230可被進一步地細分為多個步驟，如圖4所示。圖4是依照本發明的實施例進一步地繪示圖2之步驟S230的流程圖。

在步驟S231，資料篩選模組330可設定觀察顯著特徵集合中的特徵值的圖像維度。接著，在步驟S232，資料篩選模組330可基於顯著特徵集合中的特徵值以及圖像維度產生多個特徵組合。具體來說，本領域人員常使用回歸曲線圖觀察測量資料的各種特徵值。特徵值的種類雖然繁多，然而，當要利用回歸曲線圖觀察特徵值時，通常是將回歸曲線圖繪示於以二維或三維的圖像上。以表2的資料為例，為了繪示出各個特徵值的回歸曲線圖，資料篩選模組330可設定用以觀察顯著特徵集合中的特徵值（例如：表2中的特徵值3、4和5）的圖像維度為二維圖像。進一步地，資料篩選模組330可基於顯著特徵集合中的特徵值（例如：表2中的特徵值3、4和5）以及圖像維度為二維圖像而產生由二個特徵值組成的特徵組合，如表3所示。

再以表2的資料為例，為了繪示出各個特徵值的回歸曲線圖，資料篩選模組330可設定用以觀察顯著特徵集合中的特徵值（例如：表2中的特徵值3、4和5）的圖像維度為三維圖像。進一步地，資料篩選模組330可基於顯著特徵集合中的特徵值（例如：表2中的特徵值3、4和5）以及圖像維度為三維圖像而產生由三個特徵值組成的特徵組合，如表12所示。表 12

特徵組合	組成特徵組合的特徵值
一	特徵值3	特徵值4	特徵值5

綜上所述，本發明可根據一特徵值的變異程度來決定是否將該特徵值移除。此外，針對如測量時間或測量溫度等有可能造成測量誤差的操作變因，本發明可基於特徵值與操作變因的相關程度過大而進行基於群組間差異值的特徵值移除程序。如此，可有效地降低測量誤差對資料分群所造成之影響。在移除了測量誤差過大的特徵值後，本發明可透過評估指標對由多個特徵值組成的特徵組合進行排行。研究人員可透過排行的結果判斷出何種特徵組合較能顯著地的影響分群結果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10‧‧‧篩選資料的裝置

100‧‧‧處理單元

20‧‧‧篩選資料的方法

300‧‧‧儲存單元

310‧‧‧資料接收模組

330‧‧‧資料篩選模組

S210、S220、S221、S222、S223、S224、S225、S226、S230、S231、S232、S240‧‧‧步驟

圖1是依照本發明的實施例繪示一種篩選資料的裝置的示意圖。圖2是依照本發明的實施例繪示一種篩選資料的方法的流程圖。圖3是依照本發明的實施例進一步地繪示圖2之步驟的流程圖。圖4是依照本發明的實施例進一步地繪示圖2之步驟的流程圖。

20‧‧‧篩選資料的方法

S210、S220、S230、S240‧‧‧步驟

Claims

一種篩選資料的方法，適用於篩選出影響資料之分群的特徵，所述方法包括：由一電子裝置執行下列步驟：取得多筆測量資料，其中所述多筆測量資料中的每一者包括由多個特徵值組成的第一特徵集合；根據所述多個特徵值的每一者的測量誤差，從所述第一特徵集合中移除一或多個特徵值以產生特徵集合；產生由所述特徵集合中的特徵值組成的多個特徵組合；以及對所述多筆測量資料進行分群以產生分群結果，並且基於所述分群結果以及評估指標對所述多個特徵組合進行排行。
如申請專利範圍第1項所述的方法，其中根據測量誤差，從所述第一特徵集合中移除一或多個特徵值以產生特徵集合的步驟包括執行至少一次下列之步驟：根據所述第一特徵集合中的第一特徵值的變異程度，決定從所述第一特徵集合中移除所述第一特徵值以產生第二特徵集合；對所述第二特徵集合中的特徵值進行分群以產生第二分群結果；基於所述第二分群結果與操作變因的相關程度大於第一閾值而計算所述第二特徵集合中的第二特徵值的群組間差異值，並且基於所述群組間差異值以及第二閾值而決定從所述第二特徵集合中移除所述第二特徵值以產生更新後的所述第二特徵集合；以及基於所述第二分群結果與所述操作變因的所述相關程度小於或等於所述第一閾值而將所述第二特徵集合作為所述特徵集合。
如申請專利範圍第1項所述的方法，其中產生由所述特徵集合中的特徵值組成的多個特徵組合的步驟包括：設定觀察所述特徵集合中的所述特徵值的圖像維度；以及基於所述特徵集合中的所述特徵值以及所述圖像維度產生所述多個特徵組合。
如申請專利範圍第2項所述的方法，其中所述群組間差異值關聯於所述第二特徵值的P值。
如申請專利範圍第2項所述的方法，其中所述操作變因為下列的至少其中之一：測量時間、測量溫度、測量儀器使用年限與編號及操作人員編號。
如申請專利範圍第1項所述的方法，其中所述評估指標關聯於下列的至少其中之一：Dunn指標及Davies-Bouldin指標。
一種篩選資料的裝置，適用於篩選出影響資料之分群的特徵，所述裝置包括：儲存單元，儲存多個模組；以及處理單元，耦接所述儲存單元，且存取並執行所述儲存單元所儲存的所述多個模組，所述多個模組包括：資料接收模組，取得多筆測量資料，其中所述多筆測量資料中的每一者包括由多個特徵值組成的第一特徵集合；以及資料篩選模組，經配置以執行：根據所述多個特徵值的每一者的測量誤差，從所述第一特徵集合中移除一或多個特徵值以產生特徵集合，產生由所述特徵集合中的特徵值組成的多個特徵組合；以及對所述多筆測量資料進行分群以產生分群結果，並且基於所述分群結果以及評估指標對所述多個特徵組合進行排行。
如申請專利範圍第7項所述的裝置，其中根據測量誤差，從所述第一特徵集合中移除一或多個特徵值以產生特徵集合的步驟包括執行至少一次下列之步驟：根據所述第一特徵集合中的第一特徵值的變異程度，決定從所述第一特徵集合中移除所述第一特徵值以產生第二特徵集合；對所述第二特徵集合中的特徵值進行分群以產生第二分群結果；基於所述第二分群結果與操作變因的相關程度大於第一閾值而計算所述第二特徵集合中的第二特徵值的群組間差異值，並且基於所述群組間差異值以及第二閾值而決定從所述第二特徵集合中移除所述第二特徵值以產生更新後的所述第二特徵集合；以及基於所述第二分群結果與所述操作變因的所述相關程度小於或等於所述第一閾值而將所述第二特徵集合作為所述特徵集合。
如申請專利範圍第7項所述的裝置，其中產生由所述特徵集合中的特徵值組成的多個特徵組合的步驟包括：設定觀察所述特徵集合中的所述特徵值的圖像維度；以及基於所述特徵集合中的所述特徵值以及所述圖像維度產生所述多個特徵組合。
如申請專利範圍第8項所述的裝置，其中所述群組間差異值關聯於所述第二特徵值的P值。
如申請專利範圍第8項所述的裝置，其中所述操作變因為下列的至少其中之一：測量時間、測量溫度、測量儀器使用年限與編號及操作人員編號。
如申請專利範圍第7項所述的裝置，其中所述評估指標關聯於下列的至少其中之一：Dunn指標及Davies-Bouldin指標。