TW202129528A

TW202129528A - 產品分類系統及方法

Info

Publication number: TW202129528A
Application number: TW109133200A
Authority: TW
Inventors: 章煥李
Original assignee: 南韓商三星顯示器有限公司
Priority date: 2019-10-01
Filing date: 2020-09-25
Publication date: 2021-08-01
Also published as: US20210097400A1; JP2021057042A; KR20210039927A; US20230316084A1; EP3800588A1; CN112598017A; US11710045B2

Abstract

本發明提供一種產品分類系統及方法。處理器產生第一分類器的第一實例及第二實例，並基於輸入資料集以訓練第一實例及第二實例。基於輸入資料集以訓練第二分類器，其中第二分類器係配置以學習與輸入資料集相關聯之潛空間的表徵。第一補充資料集在潛空間中產生，其中第一補充資料集為無標號的資料集。基於第一分類器的第一實例，產生用於標記該第一補充資料集的第一預測值，並且基於第一分類器的第二實例，產生用於標記該第一補充資料集的第二預測值。基於第一預測值和第二預測值為第一補充資料集生成標記註釋。至少基於輸入資料集及具註記的第一補充資料集以訓練第三分類器。

Description

產品分類系統及方法

相關申請案之交互參照

本申請案主張於2019年10月1日所提出名稱為「用於資料不足的知識萃取(KNOWLEDGE DISTILLATION FOR DATA INSUFFICIENCY)」之第62/909,053號美國臨時申請案之優先權，其內容透過引用方式全文併入本文中。

根據本揭露的實施例一個或多個態樣涉及一種分類器，具體來說，涉及一種用於訓練機器學習(Machine Learning，ML)分類器的系統及方法，且其中可用的訓練資料小且不平衡。

手機顯示器產業在近幾年成長快速。隨著新型顯示面板模組及生產方法的採用，僅使用傳統機制難以檢查表面的缺陷。因此希望採用人工智慧(Artificial Intelligence，AI)來自動預測所製造的顯示面板模組是否有故障（例如，分類為「不良」或「良」）。實際上，希望可以使用人工智慧來預測其他硬體產品中的缺陷，而不僅僅是顯示面板模組。

可以很好地推廣至以前未見過的新資料的人工智慧/機器學習(artificial intelligence/machine learning，AI/ML)模型(稱為「通用機器學習模型」)將適合執行此類的任務。然而，當訓練資料集不足且高度不平衡時，將難以產生通用機器學習模型。由於製造資料集的性質，資料集的不足及類別的不平衡是不可避免的問題，這使得產生通用機器學習模型成為一項具有挑戰性任務。

因此，需要提供一種改良的系統及方法，用於從數量有限的且可能在二元分類上不平衡的訓練資料中能穩定且安定地建構人工智慧/機器學習模型。

本揭露的實施例針對一種用於分類透過製程所生產的產品方法。其中，處理器接收輸入資料集，並至少產生第一分類器的第一實例及第二實例，並且基於輸入資料集訓練第一分類器的第一實例及第二實例。同樣地，基於輸入資料集訓練第二分類器，其中第二分類器係配置以學習與輸入資料集相關聯的潛空間的表徵。處理器進一步在潛空間中產生第一補充資料集，其中第一補充資料集為無標號的資料集。處理器產生第一預測值，以基於第一分類器的第一實例標記第一補充資料集，並且進一步產生第二預測值，以基於第一分類器的第二實例標記第一補充資料集。處理器基於第一預測值及第二預測值，為第一補充資料集產生複數個標號註記。處理器進一步至少基於輸入資料集及具註記的第一補充資料集訓練第三分類器。經訓練的第三分類器係配置以接收待分類的產品的資料，並且基於所接收的資料輸出預測。

在一實施例中，各第一分類器、第二分類器及第三分類器為神經網路。

在一實施例中，第二分類器為變分自動編碼器(variational autoencoder)。

在一實施例中，潛空間提供輸入資料集的壓縮表徵。

在一實施例中，產生第一補充資料集包含在潛空間中產生隨機資料元件。

在一實施例中，產生複數個標號註記包含：基於第一預測值及第二預測值以確定主類別，以及基於主類別以標記第一補充資料集。

在一實施例中，產生複數個標號註記包含：確定第一預測值的第一機率及第二預測值的第二機率；計算第一機率及第二機率的平均值；以及基於計算出的平均值以識別第一補充資料集的類別。

在一實施例中，產生複數個標號註記包含：基於第一預測值，確定主類別的第一機率及次類別的第二機率，並且基於第二預測值，確定該主類別的第三機率及次類別的第四機率；計算第一機率及第三機率的第一平均值；計算第二機率及第四機率的第二平均值；並且，基於計算出的第一平均值及第二平均值標記第一補充資料集。

在一實施例中，分類產品的方法進一步包含：基於對潛空間的超取樣以產生第二補充資料集；以及基於輸入資料集、具註記的第一補充資料集及第二補充資料集以訓練第三分類器。

本揭露的實施例也針對一種用於分類透過製程所生產的產品的系統。此系統包含處理器及記憶體，其中記憶體儲存有複數個指令，當處理器執行複數個指令時，使處理器：接收輸入資料集；至少產生第一分類器的第一實例及第二實例；基於輸入資料集以訓練第一分類器的第一實例及第二實例；基於該輸入資料集以訓練第二分類器，其中第二分類器係配置以學習與輸入資料集相關聯的潛空間的表徵；在潛空間中產生第一補充資料集，其中第一補充資料集為無標號的資料集；產生第一預測值，以基於第一分類器的第一實例標記第一補充資料集；產生第二預測值，以基於第一分類器的第二實例標記第一補充資料集；基於第一預測值及第二預測值，為第一補充資料集產生複數個標號註記；以及至少基於輸入資料集及具註記的第一補充資料集訓練第三分類器，其中經訓練的第三分類器係配置以接收待分類的產品的資料，並且基於所接收的資料以輸出預測。

本揭露的實施例進一步針對一種用於分類所生產的部件為良品或不良品的系統。此系統包含：配置以收集輸入資料集資料收集電路；以及耦接至資料收集電路的處理電路。處理電路具有以下邏輯：接收所收集的輸入資料集；至少產生第一分類器的第一實例及第二實例；基於輸入資料集以訓練第一分類器的第一實例及第二實例；基於輸入資料集以訓練第二分類器，其中第二分類器係配置以學習與輸入資料集相關聯的潛空間的表徵；在潛空間中產生第一補充資料集，其中第一補充資料集為無標號的資料集；產生第一預測值，以基於第一分類器的第一實例標記第一補充資料集；產生第二預測值，以基於第一分類器的第二實例標記第一補充資料集；基於第一預測值及第二預測值，為第一補充資料集產生複數個標號註記；以及至少基於輸入資料集及具註記的第一補充資料集以訓練第三分類器，其中經訓練的第三分類器係配置以接收待分類的產品的資料，並且基於所接收的資料以輸出預測。

下文中結合附圖闡述的詳細說明旨在作為根據本揭露所提供的用於資料擴增的系統及方法的例示性實施例的說明，且並非旨在表示可以建構或應用本揭露的唯一形式。在下文中的說明結合所示出的實施例闡述了本揭露的特徵。可以理解的是，相同或相似的功能或結構可以透過不同的實施例實現，這些不同的實施例也意圖包含在本揭露的範圍內。如本文中其他地方所標示的，相似的元件符號旨在表示相似的元件或特徵。

在產品的製造過程中，例如行動顯示器的製造過程，可以獲取數位追蹤資料。雖然本揭露以行動顯示器產品作為實例，然而本領域具有通常知識者可以理解的是，本揭露的實施例可以應用於其他玻璃或非玻璃產品的製造過程中，包含例如晶片及半導體玻璃的製造。

追蹤資料係透過一個或多個感測器進行收集，感測器可以設置在例如生產過程中的承載產品的輸送帶上。感測器配置為將任何感測到的動作紀錄為追蹤資料。感測器可以為，例如多個溫度及壓力感測器，其配置以接收製造過程中作為時間函數的溫度及壓力的測量值。各感測器可以進行多次的採樣(例如，每隔數秒鐘在將於腔室內製造的玻璃或晶圓上)。

本揭露期望可以使用分類器以自動分析追蹤資料，以從不具有缺陷(「良」)的所生產產品中預測具有缺陷(「不良」)的產品。因此，需要訓練分類器，以將資料樣本分類為「良」及「不良」兩個類別之一。然而，用於訓練上述分類器的訓練資料可能存在有顯著的不平衡。例如，在製造電子零件的製造過程中，大多數的零件是可接受的或為「良」的，而少數零件在某種程度上具有缺陷或為「不良」。好的零件的數量可能大於壞的零件的數量約100至200。因此，當在製造及測試過程中獲取資料時，大部分的資料可能來自好的裝置，從而造成訓練資料的不平衡。此外，由於產品模型的快速變化，通常很難期望能有足夠的資料集以訓練深度學習模型。並且，產品模型的生命週期短，將很難收集足夠的資料樣本。此外，通常需要為新產品模型產生新的人工智慧/機器學習模型，以檢測新產品模型的缺陷情況。因此，產生具有有限資料集的通用模型是一個共有的挑戰。

存在有可以用於人為地擴增訓練資料集的尺寸的資料擴增技術。其中一個技術可以為，例如產生所有可能的資料樣本案例以作為訓練資料。然而，考慮到所有可能的情況將會產生過大的資料集。同樣地，儘管可以擴展樣本，但這些樣本在訓練模型時可能並非皆為有意義的。

另一個經常應用於視覺辨識/影像分類的技術是資料蒸餾(data distillation)。資料蒸餾是用於全監督(omni-supervised)學習的常見方法，此方法透過產生無標號資料的註記以從無標號資料中提取知識。可以使用基於對大量具標號的資料進行訓練的模型以產生註記。然後，使用額外產生的註記對模型進行再訓練。可以透過具標號的資料的幾何/空間變換(例如，翻轉、位移及/或旋轉)以產生額外的無標號資料。Ilija Radosavovic等人在「電腦視覺與模式辨識(2018)(Computer Vision and Pattern Recognition (2018))」中的「資料蒸餾：邁向全監督學習(Data Distillation: Towards Omni-Supervised Learning)」提供了關於資料蒸餾的更多資訊，其相關內容可以在 https://arxiv.org/abs/1712.04440 取得，並且其內容透過引用併入本文。

然而，通常用於擴增資料以進行影像分類的幾何變換不適用於追蹤資料，因為無法知道哪些變換能夠在執行變換後維持輸入資料的特性。並且，對於缺陷樣本，製造任務與缺陷模式的產生之間通常存在相關性，因此不能保證透過應用已知的資料擴增技術可以提高分類器的品質。因此，傳統的資料擴增技術不適用出於訓練目的的擴增缺陷或追蹤資料。資料蒸餾建議使用網路級別(Internet level)的資料集中的無標號資料集，但是在網路上找不到與特定公司的製造資料集相似的資料樣本。

有鑑於先前技術中的缺陷，需要一種用於全監督學習的系統及方法，此方法用於產生通用機器學習模型，以解決具標號的資料集中的資料不足及類別不平衡的問題。根據各種實施例，可以使用深度生成模型透過資料擴增以解決輸入資料集的不足及類別的不平衡。具體來說，資料擴增是在流形空間(manifold space)或稱潛空間(latent space)中執行，而不是在輸入資料空間中執行的。

同樣地，由於產生通用的人工智慧/機器學習模型的主要問題之一是資料集的不足，可以透過使用深度生成模型資料的資料產生以將更多的方差融合到資料集進而解決此問題。在一些實施例中，擴增/補充資料是利用隨機輸入以從潛空間中產生的無標號資料集。在一些實施例中，擴增資料是由從潛空間超取樣而獲得的合成資料樣本所組成。

根據一實施例，從基線機器學習模型的多個實例中蒸餾知識，以註記無標號資料集並產生新的帶註資料集。透過將無標號資料集饋送至經訓練的機器學習模型的多個實例中的每一個實例，可以蒸餾來自複數個實例的知識。然後可以使用集合機制基於每個機器學習模型實例的輸出來標記未標記的資料。因此，可以從資料強度較小的模型(例如，單一個機器學習模型的實例)中獲得知識蒸餾，同時推廣至機器學習模型以獲得相較於單獨的傳統模型更好的分類準確性。經過訓練後，通用機器學習模型可用於預測製造過程中產生的故障零件。

第1圖為根據一例示性實施例的用於將零件分類為有缺陷或無缺陷的系統。在一些實施例中，此系統包含一個或多個資料收集電路105(其可以包含，如溫度及壓力感測器、放大器及/或類比數位轉換器)、資料處理電路110(其可以使資料重訂格式(reformat)，將在下文中詳細說明)、以及分類器引擎115(其可以產生深度學習(Deep Learning，DL)神經網路)。

資料處理電路110可以從資料收集電路105接收原始追蹤資料(例如，上述的多個時間軌跡)，並且可以使資料重訂格式，例如為二維陣列(例如，224x224陣列)。在一個實施例中，資料處理電路110包含用於儲存一個或多個原始追蹤資料的資料儲存裝置。可以選擇二維陣列的尺寸，使其與通常由神經網路分類的影像的大小相當。並且，重訂格式可以使得在一些實施例中，再利用實現影像的神經網路分類器的編碼的某些部分成為可能。

重訂格式的輸入資料透過神經網路提供至分類器引擎115以進行訓練或者做出預測。在這方面，分類器引擎115可以配置有儲存在一個或複數個有形的、機器可讀媒體上的邏輯或指令，這些邏輯或指令可以由一個或複數個處理裝置執行以透過深度學習神經網路產生、訓練及執行預測。

第2圖為根據一例示性實施例的第1圖中的系統的分類器引擎的概念方塊圖。在訓練期間，從處理電路110接收具標號的輸入資料集200。具標號的輸入資料集200包含分別標記為「良」(或者「G」)的第一數量的資料樣本(例如，數千個資料元件)，以及分別標記為「不良」(或者「NG」)的第二數量的資料樣本(例如，介於10至100個之間的資料元件)。

具標號的輸入資料集200用於訓練分類器，分類器可以是深度學習神經網路，例如變分自動編碼器(variational autoencoder)。雖然使用變分自動編碼器做為實例，但本領域具有通常知識者可以理解的是，可以使用其他的深度生成模型來代替變分自動編碼器，例如生成對抗網絡(Generative Adversarial Network，GAN)、自迴歸模型(Auto-regression Model)等。在應用變分自動編碼器202的實施例中，變分自動編碼器202係配置以學習輸入資料集200的潛/隱藏/流形空間的表徵。一般來說，潛空間由特徵向量組成，這些特徵向量為輸入資料集200的較簡單/壓縮的表徵(例如，尺寸較小)。

在一些實施例中，調用經訓練的變分自動編碼器202以統計方式產生其他訓練資料(也稱為合成資料樣本)。在這方面，變分自動編碼器202可以耦接至超取樣模組204及隨機產生模組206。可以調用超取樣模組204以對變分自動編碼器202所學習的潛空間進行超取樣，以產生額外的「不良」樣本。可以使用隨機輸入調用隨機產生模組206以在潛空間中產生補充樣本。根據一個實施例，隨機生成的資料樣本是無標號的資料樣本。

在一個實施例中，分類器引擎115係同樣配置以產生二元基線分類器的複數個(例如，兩個或更多個)分類器實例208a、208b及208c(統稱為208)。各分類器實例208可以為，例如神經網路。

來自隨機產生模組206的隨機產生的資料樣本提供至各分類器實例以進行知識蒸餾。在這方面，來自分類器實例208的關於隨機產生的資料樣本的預測整體用於訓練學生分類器/模型210。也就是說，各種分類器實例208所進行的預測的集合產生了新的知識，其可以被蒸餾並用於訓練學生分類器210。

在一個實施例中，除了來自分類器實例208的蒸餾知識，原始的具標號的輸入資料集200及/或來自超採樣模組204的額外樣本同樣用於訓練學生分類器210。一旦經訓練後，可以向學生分類器210饋送用於新製造的產品的新追蹤資料，以預測該產品是「良」或者「不良」。在一個實施例中，經訓練的學生分類器210可以被檢測系統(未繪示出)用來對新製造的產品進行此類型的預測。在一個實施例中，如果產品被預測為「不良」，則檢測系統可以輸出關於將要採取的動作的訊息或建議。例如，此動作可以為移除具有缺陷的產品以進行進一步的測試、修復或丟棄。實驗顯示，對於新的追蹤資料，經訓練的模型210可以穩定的運作並且在分類準確度的臨界水準內(例如，準確度為90%或更高)內。

第3圖為根據一例示性實施例由分類器引擎115執行的用於產生及訓練學生分類器210(學生模型)的過程的流程圖。在方塊300中，具標號的輸入資料集200被分類器引擎115接收。

在方塊302中，輸入資料集200用於訓練(例如，使用監督式學習)基線分類器的兩個或多個分類器實例208。各分類器實例208可以透過基線分類器初始化為隨機初始狀態來產生。例如，可以在初始化時隨機設置基線分類器的初始權重。透過訓練單一模型的複數個實例，而非訓練通常為大又複雜的分離且獨立的模型，可以產生更方便、更具經濟效益的訓練(就計算資源而言)。

在方塊300中接收的輸入資料集200同樣用於訓練方塊308中的變分自動編碼器202。在一個實施例中，變分自動編碼器202被訓練為學習在潛空間中的輸入資料集200的表徵。一旦經訓練後，變分自動編碼器202可以用於在方塊310及方塊314中產生擴增的資料。在這方面，在方塊310中，分類器引擎115調用經訓練的變分自動編碼器模型以在潛空間中產生補充的額外無標號資料樣本。可以使用，例如隨機輸入，以產生額外的資料樣本。

在方塊304a、方塊304b及方塊304c中，各分類器實例208接收額外無標號資料樣本312，並為所接收的樣本產生預測。

在方塊306中，來自各分類器實例208的預測結果的整體用於為額外無標號資料樣本312產生註記，並產生帶註資料集316。以這種方式，可以將透過調用各分類器實例208所獲得的知識蒸餾至學生分類器210中。當獨立地考量各個獨立的分類器實例208時可能容易發生錯誤，然而各分類器實例208的預測的集合有助於減少經訓練的學生分類器210的誤差。因此，可以透過使用整體機制(ensemble mechanism)以穩定地實現經訓練的學生分類器210的穩定性。

各種整體方法中的一個可以用於產生額外無標號資料樣本312的註記。例如硬投票(hard voting)、軟投票(soft voting)及知識蒸餾(knowledge distillation)等整體方法，但不限定於此。基於硬投票整體的方法採用大多數分類器實例208的預測，並基於多數的決策來標記額外的資料集。例如，如果第一分類器實例208a及第二分類器實例208b預測特定的資料樣本為「良」的類別，並且第三分類器實例208c預測其為「不良」的類別，則此資料樣本將被標記為「良」的類別。

基於軟投票的整體方法採用各種分類器實例208的預測機率的平均值，如下所示：

，其中K為分類器實例的數量。

例如，如果第一分類器實例208a以99%的機率預測為「良」，第二分類器實例208b以49%的機率預測為「良」，並且第三分類器實例208c以49%的機率預測為「良」，在各種分類器實例中資料樣本為「良」的平均機率為(99 + 49 + 49) / 3 = 65.67%。因此，對於資料樣本的整體決策為「良」。

基於整體方法的知識蒸餾獲取模型的多個實例的平均機率，不僅要考慮主類別(例如，「良」)，也要考慮次類別(例如，「不良」)。在一些實施例中知識蒸餾可以延伸至多類別模型。在這樣的實施例中，可以在多類別的模型的多個實例上獲得平均機率。

根據一個實施例，在方塊314中，分類器引擎115同樣產生用於訓練學生分類器210的額外資料樣本。在這方面，超取樣算法應用於在次類別(例如，「不良」)中產生額外資料樣本，以產生超取樣資料集318。在一個實施例中，超取樣來自變分自動編碼器的潛空間而非原始的或其他的潛空間。

在方塊320中，分類器引擎115使用以下資料集以訓練學生分類器210：(1)原始的輸入資料集200；(2)帶註資料集316；及/或(3)超取樣資料集318。經訓練的學生分類器可以作為二元分類器，以基於為了此產品所獲得的新追蹤資料將新生產的產品進行分類，例如分類為「良」或者「不良」。

第4圖為根據一例示性實施例的第1圖中的變分自動編碼器202的詳細方塊圖。一般來說，變分自動編碼器202為可以包含編碼器網路(簡稱為「編碼器400」)以及解碼器網路(簡稱為「解碼器402」)的神經網路。編碼器400可以將所接收到的各資料元件，例如輸入資料集200，映射或編碼至特徵向量404中，但要遵循以下條件：特徵向量404的分佈近似於單位高斯分佈(unit Gaussian distribution) (即，近似於向量的元素呈現獨立高斯分佈的向量分佈，例如分別具有平均值及方差)。在這方面，變分自動編碼器202使用平均向量406及標準偏差向量408以將所接收的各資料元件編碼至特徵向量404中。本領域具有通常知識者可以理解的是，特徵向量404係為輸入資料200的壓縮的、低維度的表徵。所有特徵向量404的空間可以稱為潛空間。

解碼器402可以執行編碼器400的操作的近似反算(approximate inverse)；其可以將編碼器400所產生的各特徵向量404映射至(合成)資料元件中，此資料元件近似於編碼器400將映射至特徵向量404中的資料元件。編碼器400及解碼器402可以與輸入資料集200一起被訓練。

一旦訓練了編碼器400及解碼器402，即可以調用方塊310(第3圖)以在潛空間中產生補充資料。例如，潛空間可以隨機地採樣以產生隨機的向量(產生為具有單位高斯分佈)，其可以饋送至解碼器402以產生合成資料元件(例如，產生額外資料集312)。由於使用來自兩個類別的資料元件(即同時具有「良」的資料元件及「不良」的資料元件)訓練變分自動編碼器202，因此額外資料集312為無標號的。

第5圖為根據一例示性實施例的潛空間超取樣的方塊314(第3圖)的過程的詳細流程圖。在方塊500中，透過訓練方塊308中的變分自動編碼器模型所獲取的潛空間資料集被輸入至超取樣模組502中。在一個實施例中，超取樣模組502係配置以從次類別(「不良」類別)的實例中採樣屬性，以產生合成樣本(例如，超取樣資料集318)。不同於使用原始輸入資料集以增加原始輸入資料集中的次類別的傳統超取樣，本揭露的實施例允許增加來自所學習的潛空間的次類別資料。

超取樣可以使用諸如合成少數類超取樣技術(Synthetic Minority Over-sampling Technique，SMOTE)、自適應合成(Adaptive Synthetic，ADASYN)超取樣等算法達成。一般來說，SMOTE為一種超取樣方法，其從次類別中建立合成樣本，而非建立副本。根據一個實施例，此算法在潛空間中選擇兩個或多個相似實例(使用距離測量)，並在與相鄰實例之間的差異之內一次干擾一個實例的一個屬性一個隨機量。

ADASYN可以透過向其添加一個小的隨機向量(或者「偏移」)以抵消各資料元件，進而降低次類別的合成樣本干擾其他類別(例如，可以為「良」的主類別)的可能性。

潛空間中的超取樣資料集輸出至方塊504。

第6A圖為可用於訓練深度學習模型的實例輸入資料集(近似於輸入資料集200)的分佈圖。在第6A圖的實例中，輸入資料集200為小的，且由標記為「良」600的資料及標記為「不良」602的資料組成。

第6B圖至第6E圖為基於第6A圖的輸入資料集200產生不同決策邊界604a、604b、604c及604d的複數個分類器實例(例如，分類器實例208)的示意圖。在一個實例中，不同的決策邊界是輸入的訓練資料很小所造成的結果。由於不同的決策邊界604a、604b、604c及604d，各模型都將對未來的資料做出不同的分類決策。

第7A圖為已增加其他樣本的實例輸入資料集(近似於第6A圖中的實例資料集)的分佈圖，其已經根據本揭露的各實施例的資料擴增機制而增加了額外的附加樣本700(訓練資料)。由於輸入資料集200很小，額外的樣本有助於填補輸入資料中的間隙。可以使用深度生成模型透過上述的資料擴增機制以產生額外的樣本。

第7B圖為基於第7A圖的擴增的訓練資料集以產生不同決策邊界704a、704b、704c及704d的複數個分類器實例(例如，分類器實例208)的示意圖。如第7B圖中所示，儘管輸入資料中的間隙被附加樣本700填充，複數個分類器實例中的每一個仍然傾向於產生不同的決策邊界704a、704b及704c。然而，當應用來自多個分類器實例的知識蒸餾時，如箭號706a、706b及706c所示，可以為學生分類器識別相較於各個單獨的模型實例更穩定且準確的新決策邊界704d。

根據實驗顯示，透過從模型實例中應用知識蒸餾，可以穩定且安定地產生通用機器學習模型，而無需了解完整的測試資料集。例如，對於「不良」的資料，某些單獨的模型實例的驗證準確性低至80％。然而，利用本揭露的實施例的資料擴增及知識蒸餾機制產生的通用機器學習模型對於「不良」的資料產生了90％或更高的驗證準確性。

在一些實施例中，一個或多個資料處理電路110、分類器引擎115及上述的各種模型及模型/分類器是透過一個或多個處理電路實現。術語「處理電路(processing circuit)」在本文中用以表示用於處理資料或數位訊號的硬體、韌體、及軟體的任意組合。處理電路可以包含例如特殊應用積體電路(application specific integrated circuits，ASICs)、通用或專用的中央處理器(Central Processing Units，CPUs)、數位訊號處理器(Digital Signal Processors，DSPs)、圖像處理器(Graphics Processing Units，GPUs)、以及諸如場域可程式閘陣列(Field Programmable Gate Arrays，FPGAs)的可程式邏輯裝置。在本文中所使用的處理電路中，各功能可以透過配置以執行此功能的硬體(即硬佈線)來執行，也可以透過配置以執行儲存在非暫時性儲存媒體中的指令的多個一般用途的硬體(例如CPU)來執行。處理電路可以安裝在單個印刷電路板(Printed Circuit Board，PCB)上，或者可以分布在複數個相連的印刷電路板上。一個處理電路可以包含其他處理電路；例如，處理電路可以包含在印刷電路板上互連的兩個處理電路：場域可程式閘陣列及中央處理器。

可以理解的是，儘管術語「第一(first)」、「第二(second)」、「第三(third)」等在本文中可以用於說明各種類型的元件、組件、區域、層、及/或部分，但這些元件、組件、區域、層、及/或部分不應受到這些術語的限定。這些術語僅用於分別一個元件、組件、區域、層、或部分與另一個元件、組件、區域、層、或部分。因此，在不脫離本發明概念的範圍的狀況下，下文中的第一元件、組件、區域、層、或部分可以稱作第二元件、組件、區域、層、或部分。

在本文所使用的術語僅用於說明特定的實施例，而不用於限定本發明概念。在本文中所使用的術語「實質上(substantially)」、「約(about)」和其他類似術語被用作近似詞而非度量詞，並且用於解釋測量值及計算值的固有誤差，且可以被本領域具有通常知識者所認可。

在本文所使用的單數形式「一(a)」、「一(an)」及「該(the)」也意圖包含複數形式，除非上下文明確的另外指出。可以進一步理解的是，在說明書中使用術語「包含(comprises)」及/或「包含(comprising)」時，表示指定所陳述的特徵、整體、步驟、操作、元件、及/或組件存在，但不排除一個或複數個其他特徵、整體、步驟、操作、元件、及/或組件的存在或附加。在本文中所使用的術語「及/或(and/or)」包含一個或複數個相關聯的所列項目的任何及所有組合。當諸如「至少一個(at least one of)」的表達位在元件列表之前時，則修飾整個元件列表而不修飾列表中的各元件。此外，在說明本發明概念的實施例時，「可以(may)」表示「本揭露的一個或複數個實施例」。同樣的，術語「例示性(exemplary)」旨在表示範例或圖示。如本文中所使用的術語「使用(use)」、「使用(using)」、「使用(used)」可以分別作為「利用(utilize)」、「利用(utilizing)」、「利用(utilized)」的同義詞。

可以理解的是，當一元件或層，稱作在另一元件或層「上(on)」，或者「連接至(connected to)」、「耦接至(coupled to)」或「鄰近(adjacent to)」另一元件或層時，它可以直接在另一元件或層之上，或者直接連接至、耦接至、或鄰近另一元件或層，或者可以存在中間元件或層。相反的，當一元件或層稱作「直接在(directly)」另一元件「上(on)」，「直接連接至(directly connected to)」、「直接耦接至(directly coupled to)」或「緊鄰(immediately adjacent to)」另一元件或層時，則不存在中間元件或層。

任何本文中所述的數值範圍可以包含在所述範圍內的具有相同數值精確度的所有子範圍。例如，一個範圍「1.0至10.0」可以包含所述最小值1.0及所述最大值10.0之間的所有子範圍，也就是具有大於或等於1.0的最小值及小於或等於10.0的最大值，例如，2.4至7.6。任何本文所述的最大數值限制可以包含所有較低的數值限制，且本說明書中所述的所有最小數值限制可以包含所有較高的數值限制。

儘管已經在本文中具體的說明並示出了用於模型實例的知識蒸餾的系統及方法的例示性實施例，但是各種修改及變更對於本領域具有通常知識者將是顯而易見的。因此，應當理解的是，除了在本文中具體說明的實施方式以外，可以透過其他實施方式以實現根據本揭露原理的用於知識蒸餾的系統及方法。並且，本發明的保護範圍由所附的申請專利範圍及其等同物所限定。

105:資料收集電路 110:資料處理電路 115:分類器引擎 200:輸入資料集 202:變分自動編碼器 204,502:超取樣模組 206:隨機產生模組 208,208a,208b,208c:分類器實例 210:學生分類器 300,302,304a,304b,304c,306,308,310,314,320,500,504:方塊 312:額外無標號資料樣本 316:帶註資料集 318:超取樣資料集 400:編碼器 402:解碼器 404:特徵向量 406:平均向量 408:標準偏差向量 600:「良」 602:「不良」 604a,604b,604c,604d,704a,704b,704c,704d:決策邊界 700:附加樣本 706a,706b,706c:箭號

參照說明書、申請專利範圍及附圖，將可以清楚理解本揭露的特徵及優點。第1圖為根據一例示性實施例的用於將零件分類為有缺陷或無缺陷的系統；第2圖為根據一例示性實施例的第1圖中的系統的分類器引擎的概念方塊圖；第3圖為根據一例示性實施例的由第2圖的分類器引擎執行的用於產生及訓練學生分類器的過程的流程圖；第4圖為根據一例示性實施例的第1圖中的變分自動編碼器的詳細方塊圖；第5圖為根據一例示性實施例的潛空間超取樣的過程的詳細流程圖；第6A圖為可用於訓練深度學習模型的實例輸入資料集的分佈圖；第6B圖至第6E圖為基於第6A圖的輸入資料集產生不同決策邊界的複數個分類器的實例示意圖；第7A圖為已增加其他樣本的實例輸入資料集的分佈圖；以及第7B圖為基於第7A圖的擴增的訓練資料集以產生不同決策邊界的複數個分類器示意圖。

115:分類器引擎

200:輸入資料集

202:變分自動編碼器

204:超取樣模組

206:隨機產生模組

208a,208b,208c:分類器實例

210:學生分類器

Claims

一種產品分類方法，係分類透過製程所生產的產品，該方法包含利用一處理器執行的以下步驟：接收一輸入資料集；至少產生一第一分類器的一第一實例及一第二實例；基於該輸入資料集以訓練該第一分類器的該第一實例及該第二實例；基於該輸入資料集以訓練一第二分類器，其中該第二分類器係配置以學習與該輸入資料集相關聯的一潛空間的表徵；產生一第一補充資料集於該潛空間中，其中該第一補充資料集為無標號的資料集；產生一第一預測值，以基於該第一分類器的該第一實例標記該第一補充資料集；產生一第二預測值，以基於該第一分類器的該第二實例標記該第一補充資料集；基於該第一預測值及該第二預測值，為該第一補充資料集產生複數個標號註記；以及至少基於該輸入資料集及具註記的該第一補充資料集訓練一第三分類器，其中經訓練的該第三分類器係配置以接收待分類的產品的資料，並且基於所接收的資料以輸出預測。
如請求項1所述之產品分類方法，其中該第一分類器、該第二分類器及該第三分類器中的每一個為神經網路。
如請求項2所述之產品分類方法，其中該第二分類器為變分自動編碼器(variational autoencoder)。
如請求項1所述之產品分類方法，其中該潛空間提供該輸入資料集的壓縮表徵。
如請求項1所述之產品分類方法，其中產生該第一補充資料集包含在該潛空間中產生隨機資料元件。
如請求項1所述之產品分類方法，其中產生該複數個標號註記包含：基於該第一預測值及該第二預測值以確定一主類別；以及基於該主類別以標記該第一補充資料集。
如請求項1所述之產品分類方法，其中產生該複數個標號註記包含：確定該第一預測值的一第一機率及該第二預測值的一第二機率；計算該第一機率及該第二機率的一平均值；以及基於計算出的該平均值以識別該第一補充資料集的類別。
如請求項1所述之產品分類方法，其中產生該複數個標號註記包含：基於該第一預測值，確定一主類別的一第一機率及一次類別的一第二機率；基於該第二預測值，確定該主類別的一第三機率及該次類別的一第四機率；計算該第一機率及該第三機率的一第一平均值；計算該第二機率及該第四機率的一第二平均值；並且基於計算出的該第一平均值及該第二平均值以標記該第一補充資料集。
如請求項1所述之產品分類方法，其進一步包含：基於對該潛空間的超取樣以產生一第二補充資料集；基於該輸入資料集、具註記的該第一補充資料集及該第二補充資料集以訓練該第三分類器。
一種產品分類系統，係分類透過製程所生產的產品，該系統包含：一處理器；以及一記憶體，其中該記憶體儲存有複數個指令，當該處理器執行複數個指令時，使該處理器：接收一輸入資料集；至少產生一第一分類器的一第一實例及一第二實例；基於該輸入資料集以訓練該第一分類器的該第一實例及該第二實例；基於該輸入資料集以訓練一第二分類器，其中該第二分類器係配置以學習與該輸入資料集相關聯的一潛空間的表徵；產生一第一補充資料集於該潛空間中，其中該第一補充資料集為無標號的資料集；產生一第一預測值，以基於該第一分類器的該第一實例標記該第一補充資料集；產生一第二預測值，以基於該第一分類器的該第二實例標記該第一補充資料集；基於該第一預測值及該第二預測值，為該第一補充資料集產生複數個標號註記；以及至少基於該輸入資料集及具註記的該第一補充資料集以訓練一第三分類器，其中經訓練的該第三分類器係配置以接收待分類的產品的資料，並且基於所接收的資料以輸出預測。
如請求項10所述之產品分類系統，其中該第一分類器、該第二分類器及該第三分類器中的每一個為神經網路。
如請求項11所述之產品分類系統，其中該第二分類器為變分自動編碼器。
如請求項10所述之產品分類系統，其中該潛空間提供該輸入資料集的壓縮表徵。
如請求項10所述之產品分類系統，其中使該處理器產生該第一補充資料集的該複數個指令包含使該處理器在該潛空間中產生隨機資料元件的指令。
如請求項10所述之產品分類系統，其中使該處理器產生該複數個標號註記的該複數個指令包含使該處理器執行以下操作的指令：基於該第一預測值及該第二預測值以確定一主類別；以及基於該主類別以標記該第一補充資料集。
如請求項10所述之產品分類系統，其中使該處理器產生該複數個標號註記的該複數個指令包含使該處理器執行以下操作的指令：確定該第一預測值的一第一機率以及該第二預測值的一第二機率；計算該第一機率及該第二機率的一平均值；以及基於計算出的該平均值以識別該第一補充資料集的類別。
如請求項10所述之產品分類系統，其中使該處理器產生該複數個標號註記的該複數個指令包含使該處理器執行以下操作的指令：基於該第一預測值，確定一主類別的一第一機率及一次類別的一第二機率；基於該第二預測值，確定該主類別的一第三機率及該次類別的一第四機率；計算該第一機率及該第三機率的一第一平均值；計算該第二機率及該第四機率的一第二平均值；並且基於計算出的該第一平均值及該第二平均值以標記該第一補充資料集。
如請求項10所述之產品分類系統，其進一步包含：基於對該潛空間的超取樣以產生一第二補充資料集；基於該輸入資料集、具註記的該第一補充資料集及該第二補充資料集以訓練該第三分類器。
一種產品分類系統，係分類所生產的部件為良品或不良品，該系統包含：一資料收集電路，係配置以收集一輸入資料集；一處理電路，耦接至該資料收集電路，該處理電路具有以下邏輯：接收所收集的該輸入資料集；至少產生一第一分類器的一第一實例及一第二實例；基於該輸入資料集以訓練該第一分類器的該第一實例及該第二實例；基於該輸入資料集以訓練一第二分類器，其中該第二分類器係配置以學習與該輸入資料集相關聯的一潛空間的表徵；產生一第一補充資料集於該潛空間中，其中該第一補充資料集為無標號的資料集；產生一第一預測值，以基於該第一分類器的該第一實例標記該第一補充資料集；產生一第二預測值，以基於該第一分類器的該第二實例標記該第一補充資料集；基於該第一預測值及該第二預測值，為該第一補充資料集產生複數個標號註記；以及至少基於該輸入資料集及具註記的該第一補充資料集以訓練一第三分類器，其中經訓練的該第三分類器係配置以接收待分類的產品的資料，並且基於所接收的資料以輸出預測。