TW202107345A

TW202107345A - 用於追跡資料的資料擴增系統及方法

Info

Publication number: TW202107345A
Application number: TW109104858A
Authority: TW
Inventors: 章煥李
Original assignee: 南韓商三星顯示器有限公司
Priority date: 2019-04-05
Filing date: 2020-02-15
Publication date: 2021-02-16
Also published as: JP7489784B2; US11922301B2; US20200320439A1; EP3719709A1; JP2020173786A; CN111797885A; KR20200118351A

Abstract

本發明係一種用於分類的系統和方法。在一些實施例中，該方法包括從標記的輸入資料集形成第一訓練資料集和第二訓練資料集；用第一訓練資料集訓練第一分類器；用第二訓練資料集訓練可變自動編碼器，該可變自動編碼器包括編碼器和解碼器；藉由將偽隨機向量饋入解碼器來生成第三資料集；使用第一分類器標記該第三資料集以形成第三訓練資料集；基於該第三資料集形成第四訓練資料集；以及使用第四訓練資料集訓練第二分類器。

Description

用於追跡資料的資料擴增系統及方法

相關申請案之交互參照

本案主張2019年4月5日提交至美國智慧財產局標題為「用於追跡資料集的資料擴增系統及方法」之美國臨時申請案號62/830,831的優先權及效益，其全部內容藉由參照而併入本文中。

根據本案揭露之一或多個實施例，其涉及分類器，更具體地說，其涉及利用訓練分類器來擴增資料之系統及方法。

當使用在二進制類別上具有資料不平衡的資料進行訓練時，或者當與給定的輸入資料維度相比訓練資料的數量相對較小時，自動分類器可能表現出相對較差的性能。

因此，需要用於資料擴增之改善的系統和方法。

根據本發明的實施例，提供了一種用於分類的方法，該方法包括：從標記的輸入資料集中形成第一訓練資料集和第二訓練資料集；用第一訓練資料集訓練第一分類器；用第二訓練資料集訓練可變自動編碼器，該可變自動編碼器包括編碼器和解碼器；藉由將偽隨機向量饋入解碼器來生成第三資料集；使用第一分類器標記第三資料集以形成第三訓練資料集；基於第三資料集形成第四訓練資料集；並使用第四訓練資料集訓練第二分類器。

在一些實施例中，第一訓練資料集是標記的輸入資料集。

在一些實施例中，第二訓練資料集是標記的輸入資料集。

在一些實施例中，第一訓練資料集的形成包括：對標記的輸入資料集進行超採樣，以生成第一補充資料集；以及結合標記的輸入資料集和第一補充資料集，形成第一訓練資料集。

在一些實施例中，標記的輸入資料集之超採樣包括使用合成少數超採樣技術。

在一些實施例中，標記的輸入資料集的超採樣包括使用自適應合成超採樣技術。

在一些實施例中，第四訓練資料集與第三訓練資料集相同。

在一些實施例中，第四訓練資料集的形成包括組合：標記的輸入資料集的第一部分和第三訓練資料集，以形成第四訓練資料集。

在一些實施例中，第四訓練資料集的形成包括組合：標記的輸入資料集的第一部分、第一補充資料集和第三訓練資料集，以形成第四訓練資料集。

在一些實施例中，該方法進一步包括藉由與標記的輸入資料集的第一部分不同之第二部分來驗證第二分類器。

在一些實施例中，第二訓練資料集的形成包括：對標記的輸入資料集進行超採樣，以產生第一補充資料集；結合標記的輸入資料集和第一補充資料集，以形成第二訓練資料集。

在一些實施例中，標記的輸入資料集包括：包括第一數量之資料元素的多數分類資料以及包括第二數量之資料元素的少數分類資料，第一數量超出第二數量至少5倍。

在一些實施例中，第一數量超過第二數量至少15倍。

根據本發明的實施例，提供了一種分類系統，包括：處理電路，其配置為：從標記的輸入資料集中形成第一訓練資料集和第二訓練資料集；使用第一訓練資料集訓練第一分類器；使用第二訓練資料集訓練可變自動編碼器，該可變自動編碼器包括編碼器和解碼器；藉由將偽隨機向量饋入解碼器來生成第三資料集；使用第一分類器標記第三資料集以形成第三訓練資料集；基於第三資料集形成第四訓練資料集；以及使用第四訓練資料集訓練第二分類器。

在一些實施例中，第一訓練資料集為標記的輸入資料集。

在一些實施例中，第二訓練資料集為標記的輸入資料集。

在一些實施例中，第一訓練資料集的形成包括：對標記的輸入資料集進行超採樣，以產生第一補充資料集；以及結合標記的輸入資料集和第一補充資料集，以形成第一訓練資料集。

在一些實施例中，標記的輸入資料集的超採樣包括使用合成少數超採樣技術。

根據本發明的實施例，提供了一種用於將製造的零件分類為良品或劣品的分類系統，該分類系統包括：資料收集電路；以及處理電路，該處理電路被配置為：從標記的輸入資料集形成第一訓練資料集和第二訓練資料集；使用第一訓練資料集訓練第一分類器；使用第二訓練資料集訓練可變自動編碼器，該可變自動編碼器包括編碼器和解碼器；藉由將偽隨機向量饋入解碼器以形成第三資料集；使用第一分類器標記第三資料集以形成第三訓練資料集；基於第三資料集形成第四訓練資料集；以及使用第四訓練資料集訓練第二分類器。

下面結合附圖之詳細闡述，旨在作為根據本發明提供之用於資料擴增的系統和方法的例示性實施例之描述，而並非表示本發明可被建構或利用之唯一形式。該描述結合所示出的實施例闡述了本發明之特徵。然而，應當理解，相同或等同之功能和結構可以藉由不同的實施例來實施，這些不同的實施例也被包含在本發明之範圍內。如本發明其他部分所示，相似的元件符號旨在指出相似的元件或特徵。

二進制類的分類器可能具有將資料樣本分配給兩個類別之一的任務，以及用於訓練此種分類器的訓練資料可能存在顯著的不平衡。例如，在用於製造電子零件之製造過程中，多數零件是可接受的或「良品」，而少數零件在某種程度上有缺陷或「劣品」。因此，當在製造和測試過程中獲得資料時，大部分資料可能來自良品的裝置，亦即，資料中可能存在不平衡。當訓練自動分類器將零件分類為「良品」或「劣品」時，這類不平衡可能成為障礙。

此外，每個零件獲得之測量值的數量可能很大，亦即，每個資料樣本的維度數目(資料元素為要分類的項目，例如製造零件之測量值的集合)可能很大。當訓練自動分類器，特別是當任一類中訓練資料元素之數量小於每個資料元素之維度數目時，可能是進一步的障礙。

例如，當製造可攜式顯示器時，可以在顯示面板的製造過程中獲得追跡資料。追跡資料可以包括，例如，在製造過程中溫度和壓力的測量值，其作為時間之函數。可以使用多個溫度和壓力感測器，並且每個感測器可以被採樣多次(例如，在幾天的期間內，每天三至四次)。由這些測量結果得出的追跡資料可以例如包括約64個時間追跡，每個時間追跡具有約304個測量，例如，總共進行了超過19,000次測量，因此每個資料元素皆具有超過19,000個維度。

如下文進一步詳細描述之各種方法，其可用於解決一些上述之障礙。參照第1圖，在一些實施例中，用於檢測故障部件的分類系統包括一個或多個資料收集電路105(可包括例如溫度感測器、壓力感測器、放大器以及類比數位轉換器)、資料預處理電路110(可重新格式化資料，下文進一步詳細討論)，以及可為深度學習（DL）神經網路之分類器115。

資料預處理電路110可以從資料收集電路105接收原始追跡資料(例如，上述的多個時間追跡)，並且可以將資料重新格式化，例如二維陣列(例如，224×224陣列)。二維陣列的尺寸可選擇與藉由神經網路之常用分類的圖像尺寸相當。重新格式化後使得可能重新利用圖像之神經網路分類器中的部分代碼，以利用在一些實施例中。

在一些實施例中，第2圖示出了用於開發和測試分類器的流程圖。從資料預處理電路110接收標記的輸入資料集205，標記的輸入資料集205包括第一數量的資料樣本(例如，幾千個資料元素)，每個樣本被標記為「良品」(或「 G」)，以及第二數量的資料樣本(例如10至100個資料元素)，每個樣本被標記為「劣品」(或「 NG」)。可以在210處採用超採樣(下文進一步詳細討論)以生成包括一種或兩種類別中之附加資料樣本的第一補充資料集。標記的輸入資料集205和第一補充資料集可在215處被用於使用第一訓練資料集(可為標記的輸入資料集205和第一補充資料集兩者的組合(或「聯合」)，即可以包括兩者)的監督學習來訓練第一分類器(或「基準分類器」)。也就是可能包括標記的輸入資料集205和第一補充資料集。在一些實施例中，可省略在210處的超採樣的步驟或其結果，並且可以僅使用標記的輸入資料集205來訓練第一分類器。

在220處，可使用由第一分類器(例如，已訓練之第一分類器或使用第一分類器訓練所得之權重進行編程的神經網路的副本)的訓練產生的模型來標記第三資料集，以形成第三訓練資料集。機器學習模型可包括分類器、回歸器、自動編碼器等的多種形式中的任意一種。第三資料集可如下文進一步詳細討論之在225處藉由使用可變自動編碼器的資料擴增方法來生成。在225處，資料擴增方法可使用第二訓練資料集作為輸入，該第二訓練資料集例如可為標記的輸入資料集205，或者標記的輸入資料集205和第一補充資料集的組合。

在230處，可使用(i)標記的輸入資料集205之第一部分235(藉由資料分離器240從標記的輸入資料集205所產生)、(ii)第一補充資料集，以及(iii)第三個訓練資料集中的一個或多個部分的組合來訓練第二分類器。在245處，可使用標記的輸入資料集205(也可藉由資料分離器240從標記的輸入資料集205所生成)的第二部分250來驗證從第二分類器(例如，已訓練之第二分類器或使用第二分類器的訓練所得之權重進行編程的神經網路的副本)訓練所得到的模型。第二部分250(用於驗證)可以與第一部分235(用於訓練)不同，例如，它可以是標記輸入資料集205之剩餘部分。

在245處的驗證步驟中訓練之後，第二分類器的性能(即由第二分類器訓練產生之模型的性能)可用於評估第二分類器可否適用於生產，例如，對於每個製造的零件，確定其是否要使用或丟棄(或重製)。

第3A圖為超採樣步驟(在第2圖中的210處)的流程圖。在210處，對標記的輸入資料集205進行超採樣，以形成第一補充資料集(或「超採樣的資料集」)305。可使用SMOTE(合成少數超採樣技術，Synthetic Minority Over-sampling Technique)或ADASYN(自適應合成，Adaptive Synthetic)超採樣來執行超採樣，其皆可以用來創建少數分類(例如「劣品」類)中資料元素的資料集。ADASYN可以抵消通過添加小的隨機向量(或「偏移(offset)」)產生的每個資料元素，以減少第一補充資料集的資料元素可能干擾其他類別的可能性(例如，多數分類，其可能是「良品」類)。

第3B圖為在第一分類器的215處(第2圖)之訓練的流程圖。在215處，使用(i)標記的輸入資料集205和(ii)第一補充資料集305中的一個或兩者來訓練第一分類器，從而得到第一分類器模型(或「基準二進制分類器模型」)310。

第3C圖為資料擴增的流程圖(在第2圖的225處)。可變自動編碼器可以包括編碼器和解碼器。編碼器可以將每個接收到之資料元素映射或「編碼」為向量或「潛向量」，但要遵守的條件為潛向量之分佈近似於單位高斯分佈(即近似於向量分佈，其向量之元素為獨立的高斯分佈，例如皆具有各自的均值和方差)。解碼器可以執行與編碼器操作類似的逆運算，期可以將編碼器產生的每個潛向量映射到一個(合成的)資料元素，該資料元素近似於編碼器將映射到潛向量的資料元素。編碼器和解碼器可與代表資料元素之訓練集(例如，上述的第二訓練集)一起進行訓練，以及成本函數為對編碼器的輸入和解碼器的輸出之間的差異進行高斯分佈正規化之測量值。一旦對編碼器和解碼器訓練後，偽隨機潛向量(生成以具有單位高斯分佈)饋送至解碼器中，以生成合成資料元素(例如，生成第三資料集315)。如使用來自兩個類別的資料元素(即，同時具有「良品」資料元素和「劣品」資料元素)訓練可變自動編碼器，則合成資料元素可能為未標記。

第3D圖為第三資料集之標記(在第2圖中之220處)以形成第三訓練資料集的流程圖。藉由第一分類器模型310對第三資料集315進行分類，並且對第三資料集315的每個資料元素進行標記，以形成第三訓練資料集(或「標記的VAE資料集」)320。第3E圖為第二分類器之訓練的流程圖(在第2圖中之230處）。(i)標記的輸入資料集205的第一部分235(藉由資料分離器240從標記的輸入資料集205所生成)、(ii)第一補充資料集305、以及(iii) 使用第三訓練資料集320中的一個或多個(或一個或多個的相應部分)在230處來訓練第二分類器，從而得到第二分類器模型(或「二進制分類器模型」)325。第3F圖為分類器驗證的流程圖(在第2圖中的245處)。標記的輸入資料集205之第二部分250的每個資料元素被饋送到已訓練之第二分類器(或「第二分類器模型」)325中，並且在330處將所產生的每個分類與資料元素的標籤進行比較。其後根據分類與標籤相符的程度評估第二分類器之性能。

第4圖之表中示出了使用超採樣和原始G資料集的80%的基準模型310執行一實施例測試之結果。根據第2圖所示之方法，處理了包括「良品」類中的3936個資料元素和「劣品」類中的22個資料元素之標記的輸入資料集205。使用超採樣(在第2圖中之210處)將(i)「劣品」資料元素與(ii)「良品」資料元素的比率增加到0.1：1或1：1。第4圖之表中(在第一欄)示出了所使用之訓練資料集的「良品」和「劣品」資料元素的分類精度，以及(第二欄中)，「良品」和「劣品」資料元素之分類精度係用於驗證資料集。

第5圖之表中示出了在一個實施例中第二分類器模型325之性能測試的結果。使用(i)來自VAE之合成樣本(第三訓練資料集)，其包括3238個G樣本以及6762個NG樣本、(ii)藉由超採樣生成的2000個NG樣本，以及(iii)在輸入資料集中的G樣本中，隨機抽取2000個真實G樣本，用以訓練第二分類器。

可以看出，第5圖所示之性能明顯優於第4圖所示之性能，亦即，在對應第4圖和第5圖之測試中，第二分類器明顯優於第一(基準)分類器。此外，使用輸入資料集205之G樣本中的較少部分即可獲得第5圖之結果；輸入資料集205中80%之G樣本用於訓練分類器之測試中，並生成如第4圖之結果，而輸入資料集205的G樣本(2000個G樣本)中只有50.8%用於訓練分類器之測試中，並生成如第5圖之結果。

在一些實施例中，k-fold驗證為用於獲得對根據本文所述方法建構之分類器115的準確性更可靠的評估。

在一些實施例中，第一分類器(或「第一分類器模型」)310和第二分類器(或「第二分類器模型」)325中的每一個可如本文所述之經適當訓練的SqueezeNet、ResNet或VggNet神經網路。可藉由在arxiv.org/abs/1312.6114取得之D. Kingma和M. Welling的「 Auto-Encoding Variational Bayes」中之內容來建構可變自動編碼器，其全部內容通過引用併入本文。

在一些實施例中，資料預處理電路110、分類器115和執行第2圖所示方法之分類系統中的一個或多個，在一個或多個處理電路中實施。術語「處理電路」在本文中用來表示用於處理資料或數位訊號的硬體、韌體以及軟體之任何組合。處理電路之硬體可包括例如專用集成電路(ASIC)、通用或專用中央處理器(CPU)、數位訊號處理器(DSP)、圖形處理器(GPU)，以及可程式化邏輯裝置(例如，場域可程式化邏輯閘陣列(FPGA))。在如本文所使用的處理電路中，每個功能皆由其配置的硬體執行(即，硬佈線)以執行該功能，或藉由更通用的硬體(例如CPU)配置為執行儲存在非暫態儲存媒體中的指令。處理電路可被製造在單個印刷電路板(PCB)上，或也可分佈在幾個互連的PCB上。處理電路可包含其他處理電路；例如處理電路可包括在PCB上互連的兩個處理電路，FPGA和CPU。

如本文所使用，事物之「部分」係指事物的全部或少於全部。例如資料集的一部分所指為該資料集的適當子集，或者整個資料集。

可理解的是，儘管術語「第一」、「第二」、「第三」等在本文中可用於描述各種元件、組件、區域、層和/或部分，但是該等元件、組件、區域、層和/或部分不應受到其術語的限制。該術語僅用於區分一個元素、組件、區域、層或者另一個元素、組件、區域、層或部分。因此，在不脫離本發明構思的精神和範圍之情況下，本文中討論的第一元件、組件、區域、層或部分可被稱為第二元件、組件、區域、層或部分。

本文所使用的術語僅出於描述特定實施例的目的，並且無意於限制本發明構思。如本文中所使用之術語「基本上(substantially)」、「大約(about)」和類似術語被用作近似術語而不是程度術語，並且意在解釋測量或計算值中固有之偏差，這些偏差將被本領域具通常知識者所認可。如本文所用之術語「主要組分(major component)」是指以大於組合物或產物中任何其他單一組分的量存在於組合物、聚合物或產物中的組分。相反地，術語「主要成分(primary component)」是指佔組合物、聚合物或產物的至少50重量%或更多的組分。如本文中所使用之術語「主要部分(major portion)」在應用於多個物品時表示至少一半的物品。

如本文中所使用單數形式「一(a)」和「一(an)」也意指包括複數形式，除非上下文另外明確指出。將進一步理解的是，當在本文中使用之術語「包括(comprises)」和/或「包含(comprising)」時，其指定了所述特徵、整體、步驟、操作、元件和/或組件的存在，但不排除存在一個或多個附加特徵、整體、步驟、操作、元件、組件和/或群組。如本文所使用之術語「及/或(and/or)」包括一個或多個相關聯列出之項目的任何和所有組合。當在元件列表之前時，諸如「…中的至少一個」的表達會修飾整個元件列表，而不修飾列表中的各個元件。此外，當描述發明構思的實施例時，「可(may)」的使用是指「本公開的一個或多個實施例」。同樣地，術語「例示性(exemplary)」旨在表示示例或說明。如本文所使用之術語「使用(use)」、「使用(using)」和「被使用(used)」可分別被認為與術語「利用(utilize)」、「利用(utilizing)」和「已利用(utilized)」同義。

可理解的是，當元件或層被稱為在另一元件或層「上」、「連接至」、「耦合至」或「鄰近」時，其可以直接連接至可存在與另一元件或層耦接或相鄰的另一元件或層、或一個或多個中間元件或層。相反地，當元件或層被稱為「直接在」、「直接連接至」、「直接耦合至」或「緊鄰」另一元件或層時，則不存在中間元件或層。

本文中引用的任何數值範圍旨在包括包含在所述範圍內之具有相同數值精度的所有子範圍。例如，範圍「 1.0至10.0」旨在包括在所列舉的最小值1.0和所列舉的最大值10.0(並且包括)之間的所有子範圍，亦即，具有等於或大於1.0之最小值以及等於或小於10.0之最大值，例如2.4至7.6。本文列舉的任何最大數值限制旨在包括其中包含的所有較低數值限制，並且本文中列舉的任何最小數值限制旨在包括其中包含的所有較高數值限制。

儘管本文已經具體描述和示出了用於資料擴增的系統和方法的例示性實施例，但是許多修改和變化對於本領域具通常知識者而言將是顯而易見的。因此，應當理解，除了本文具體描述的以外，可以體現根據本文的原理建構之用於資料擴增的系統和方法。本發明也由以下申請專利範圍及其等同物所界定。

105:資料收集電路 110:資料預處理電路 115:分類器 205:輸入資料集 210:超採樣 215:基準二進制分類器訓練 220:資料標記 225:VAE資料擴增 230:分類器訓練 235,250:輸入資料 240:資料分離器 245:分類器驗證 305:第一補充資料集 310:第一分類器模型 315:第三資料集 320:第三訓練資料集 325:第二分類器模型 330:比較原始標籤與結果

參考說明書、申請專利範圍和附圖將可理解本發明，以及本發明其他特徵和優點，其中：第1圖係根據本發明實施例，用於分類之系統的方塊圖；第2圖係根據本發明實施例，用於訓練和驗證分類器之方法的流程圖；第3A圖係根據本發明實施例，用於訓練和驗證分類器之方法之一部分的流程圖；第3B圖係根據本發明實施例，用於訓練和驗證分類器之方法之一部分的流程圖；第3C圖係根據本發明實施例，用於訓練和驗證分類器之方法之一部分的流程圖；第3D圖係根據本發明實施例，用於訓練和驗證分類器之方法之一部分的流程圖；第3E圖係根據本發明實施例，用於訓練和驗證分類器之方法之一部分的流程圖；第3F圖係根據本發明實施例，用於訓練和驗證分類器之方法之一部分的流程圖；第4圖係根據本發明實施例之測試結果的表；以及第5圖係根據本發明實施例之測試結果的表。

205:輸入資料集

210:超採樣

215:基準二進制分類器訓練

220:資料標記

225:VAE資料擴增

230:分類器訓練

235,250:輸入資料

240:資料分離器

245:分類器驗證

Claims

一種分類方法，該方法包括：從一標記的輸入資料集中形成一第一訓練資料集和一第二訓練資料集；使用該第一訓練資料集訓練一第一分類器；使用該第二訓練資料集訓練一可變自動編碼器，該可變自動編碼器包括一編碼器和一解碼器；藉由將一偽隨機向量饋入該解碼器以生成一第三資料集；使用該第一分類器標記該第三資料集以形成一第三訓練資料集；基於該第三資料集以形成一第四訓練資料集；以及使用該第四訓練資料集訓練該第二分類器。
如請求項1所述之分類方法，其中，該第一訓練資料集為該標記的輸入資料集。
如請求項1所述之分類方法，其中，該第二訓練資料集為該標記的輸入資料集。
如請求項1所述之分類方法，其中，該第一訓練資料集之形成包括：對該標記的輸入資料集進行一超採樣，以生成一第一補充資料集；以及組合該標記的輸入資料集和該第一補充資料集以形成該第一訓練資料集。
如請求項4所述之分類方法，其中，對該標記的輸入資料集進行之該超採樣包括使用一合成少數超採樣技術。
如請求項4所述之分類方法，其中，對該標記的輸入資料集進行之該超採樣包括使用一自適應合成超採樣技術。
如請求項4所述之分類方法，其中，該第四訓練資料集和該第三訓練資料集相同。
如請求項4所述之分類方法，其中，該第四訓練資料集之形成包括組合：該標記的輸入資料集之一第一部份，以及該第三訓練資料集，以形成該第四訓練資料集。
如請求項4所述之分類方法，其中，該第四訓練資料集之形成包括組合：該標記的輸入資料集之一第一部份，該第一補充資料集，以及該第三訓練資料集，以形成該第四訓練資料集。
如請求項9所述之分類方法，其中，進一步包括利用該標記的輸入資料集中不同於該標記的輸入資料集之該第一部份的一第二部份來驗證該第二分類器。
如請求項1所述之分類方法，其中，該第二訓練資料集之形成包括：對該標記的輸入資料集進行一超採樣，以生成一第一補充資料集；以及組合該標記的輸入資料集和該第一補充資料集以形成該第二訓練資料集。
如請求項1所述之分類方法，其中，該標記的輸入資料集包括：包括一第一數量之資料元素之多數分類資料和包括一第二數量之少數分類資料，該第一數量超過該第二數量至少5倍。
如請求項12所述之分類方法，其中，該第一數量超過該第二數量至少15倍。
一種分類系統，其包括：一處理電路，其配置為：從一標記的輸入資料集中形成一第一訓練資料集和一第二訓練資料集；使用該第一訓練資料集訓練一第一分類器；使用該第二訓練資料集訓練一可變自動編碼器，該可變自動編碼器包括一編碼器和一解碼器；藉由將偽隨機向量饋入該解碼器以生成一第三資料集；使用該第一分類器標記該第三資料集以形成一第三訓練資料集；基於該第三資料集形成一第四訓練資料集；以及使用該第四訓練資料集訓練一第二分類器。
如請求項14所述之分類系統，其中，該第一訓練資料集為該標記的輸入資料集。
如請求項14所述之分類系統，其中，該第二訓練資料集為該標記的輸入資料集。
如請求項14所述之分類系統，其中，該第一訓練資料集之形成包括：對該標記的輸入資料集進行一超採樣，以生成一第一補充資料集；以及組合該標記的輸入資料集和該第一補充資料集以形成該第一訓練資料集。
如請求項17所述之分類系統，其中，對該標記的輸入資料集進行之該超採樣包括使用一合成少數超採樣技術。
如請求項17所述之分類系統，其中，對該標記的輸入資料集進行之該超採樣包括使用一自適應合成超採樣技術。
一種用於將製造零件分類為良品或劣品之分類系統，該分類系統包括：一資料收集電路；以及一處理電路，該處理電路被配置為：從一標記的輸入資料集中形成一第一訓練資料集和一第二訓練資料集；使用該第一訓練資料集訓練一第一分類器；使用該第二訓練資料集訓練一可變自動編碼器，該可變自動變碼器包括一編碼器和一解碼器；藉由將偽隨機向量饋入該解碼器來生成一第三資料集；使用該第一分類器標記該第三資料集以形成一第三訓練資料集；基於該第三資料集形成一第四訓練資料集；以及使用該第四訓練資料集訓練一第二分類器。