TW202403603A

TW202403603A - 用於偵測在晶圓之成像資料集中的異常的電腦實施方法與使用此方法的系統

Info

Publication number: TW202403603A
Application number: TW112111751A
Authority: TW
Inventors: 安娜阿爾佩羅維奇; 湯瑪斯柯柏; 詹斯提摩紐曼; 艾柏希拉許司里坎薩
Original assignee: 德商卡爾蔡司Ｓｍｔ有限公司
Priority date: 2022-03-28
Filing date: 2023-03-28
Publication date: 2024-01-16
Also published as: WO2023186833A1; WO2023186833A9

Abstract

本發明係關於一種用於偵測異常（15）的電腦實施方法（10、10’），該電腦實施方法包含：選擇一晶圓（120）的成像資料集（12）和一定義機器學習模型（16）用於異常偵測的超參數值；藉由計算一目標函數值來訓練和評估該機器學習模型（16）；選擇該等已訓練機器學習模型之一者並將其應用於偵測異常（15）。本發明另關於一種用於偵測晶圓（120）的成像資料集（12）中異常（15）之電腦實施方法（10’’），該電腦實施方法包含：針對每個缺陷類別提供異常偵測影像值分佈的樣本；針對異常定位藉由訓練一機器學習模型來校準該異常偵測影像（20、26、26’）；將一臨界值應用於該已校準異常偵測影像（98、108），以偵測異常（15）。

Description

用於偵測在晶圓之成像資料集中的異常的電腦實施方法與使用此方法的系統

本發明係關於用於偵測晶圓的成像資料集中異常之電腦實施方法。本發明另關於機器可讀取硬體儲存裝置、關於一種用於控制半導體製造廠中晶圓生產的系統、及一種用於控制半導體製造廠中生產晶圓品質之系統。

本發明不限用於晶圓的電腦實施方法，其可應用於任何其他製造物件。［相關申請案］

本申請案主張2022年3月28日申請的第63/324258號美國臨時申請案和2022年5月25日申請的第102022113352.4號德國專利申請案之優先權，其在此通過引用整個併入本文供參考。

品質控制（QC）用於反覆改善最終產品品質的生產製程。由於其核心角色，使得品質控制技術不僅需要通用、高效和靈活，而且能夠調適不斷變化的生產條件和用例。由於沒有關於潛在缺陷的資訊，使得這些資訊可能會隨著應用或時間推移而變化，因此QC系統必須基於廣泛的假設以涵蓋所有缺陷類型。因此，QC系統應該能夠解決冷啟動條件。

冷啟動涉及學習型系統無法對尚未收集到足夠資訊的項目進行任何推論之問題。這個問題經常發生在半導體產業，因為製程和晶圓類型不斷調適。因此，冷啟動為涉及自動資料建模的機器學習系統中一常見問題，因為每當修改系統參數時，機器學習模型都必須從頭開始重新訓練。

無監督機器學習技術，例如自動編碼器，成功解決了QC問題。在訓練期間，此類技術學習大量可用的「無瑕」或「無缺陷」資料之已壓縮內部表示。因此，該模型能夠完美重建無缺陷的影像樣本。在測試期間，輸入影像中的缺陷沒有如實重建。具有高重建誤差的空間區域表示關於訓練資料的異常值，也稱為異常。異常是成像資料集與先前定義規範的局部偏差，這裡是與規範的半導體結構之偏差。

尚且，並非所有異常都是缺陷：例如，異常還可包括成像偽影、影像採集雜訊、不同的成像條件、標準範圍內的半導體結構變化、罕見的半導體結構或由於微影不完善引起的變化、改變製造條件或改變晶圓處理等。這種不是缺陷但通過某種異常偵測方法偵測到的異常稱為干擾（Nuisance）。

基於無監督學習的機器學習模型僅從資料中獲取資訊，無需任何人工輸入，例如註釋，其可能是工作量大、嘈雜或不切實際的。然而，仍然需要專家知識來監督模型訓練，即定義稱為超參數的各種模型參數，例如模型的設計及其複雜性（例如，層數、每層篩選器的數量、自動編碼器瓶頸的大小）、其正則化（例如，策略和振幅）、資料預處理技術、資料集多樣性和學習策略（例如，學習率和時期數(number of epochs)）。此類超參數的專家選擇對於獲得高品質機器學習模型非常重要。

在先前技術中，提出超參數最佳化方法來最佳化機器學習模型的超參數值，通過找到一組最佳超參數值，將機器學習模型的驗證損失期望降到最低。這種適用於異常偵測的機器學習模型例如為自動編碼器。

目前已提出超參數最佳化方法，其自動搜尋機器學習模型的最佳超參數值。其中，已提出神經架構搜尋（NAS）方法，該方法自動搜尋定義神經網路架構的最佳超參數值。

在這些超參數優化方法中，各種技術可用於預測良好的超參數候選係例如揭露在由S. Belakaria, A. Deshwal, J. Doppa等人，在神經信息處理系統大會（Conference on Neural Information Processing Systems 2019）所提出名稱「多目標貝葉斯優化之最大值熵搜索（Max-value Entropy Search for Multi-Objective Bayesian Optimization）」中。

一稱為Optuna的已知超參數最佳化框架係例如揭露在由Akiba, T., Sano, S., Yanase, T., Ohta, T.和Koyama, M.等人，在Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining，第2623-2631頁所提出名稱「2019, Optunna：下一代超參數優化框架（2019, Optuna: A next-generation hyperparameter optimization framework）」中。

例如，在專利案US 2020/0342329 A1中揭露另一種已知的超參數最佳化方法。在此揭露中，通過評估訓練進度的品質（即損失函數值的歷史），來最佳化自動編碼器的演算法超參數。超參數最佳化方法是無監督的，且不使用任何已標記的訓練資料。

在專利案US 2021/0256392 A1中揭露另一種超參數最佳化方法，其中通過探索超參數的搜尋空間，並比較對應異常偵測網路的性能差異來最佳化超參數。

然而，將所揭示超參數最佳化方法應用於異常偵測機器學習模型並不簡單。需要異常偵測模型來重建影像的無缺陷部分，例如，通過均方誤差損失（L ₂損失），而不是缺陷。已知的超參數最佳化方法，諸如Optuna或US 2020/0342329 A1，使用模型訓練期間使用的相同指標評估機器學習模型，在大多數情況下預設為L ₂指標，即預測的均方誤差。然而，Optuna和先前技術的類似方法不適用於缺陷或異常偵測，因為其會收斂於對包括所有可能缺陷的輸入影像之完美重建，因此異常或缺陷偵測將不可行。

由於並非所有異常都是缺陷，因此用於異常偵測的機器學習模型通常會因雜訊和高干擾率而導致準確率低。因此，應用於晶圓成像資料集的異常偵測方法可能會面臨非常高的干擾率n之問題，其是準確率p的倒數，即n = 1 - p，因為會發現晶圓表面上太多且大多不相關的偏差。因此，先前技術的異常偵測方法需要大量的後置處理，才能用於晶圓表面的缺陷偵測。此外，許多異常偵測方法不會產生像素精確的異常偵測結果。

一種改善的異常偵測方法揭露於由S. Venkataramanan, K-C. Peng, R. V. Singh, A. Mahalanobis等人，在ECCV 2020所提出名稱「圖像中的注意力引導異常檢测和定位（Attention Guided Anomaly Detection and Localization in Images）」中。其中提出的方法基於使用注意力機制來區分無異常區域和異常區域的想法，因此可基於無異常資料進行異常偵測模型的訓練，從而產生更好的結果。然而，這種方法不適用於半導體影像。此外，產成的注意力圖不是像素精確的，因此不能滿足半導體領域的高精度要求。

另一改善的異常偵測方法揭露於由C. Huang, F. Ye, Y. Zhang, Y Wang, Q. Tian等人，在Arxiv 2020所提出名稱「端到端深度半監督模型異常檢測（ESAD: End-to-end Deep Semi-supervised Anomaly Detection）」中。該論文提出了一種基於小型註釋資料集和大量未註釋資料的異常偵測半監督訓練。然而，該方法僅執行影像等級異常偵測，指出影像中是否存在異常而不對其進行定位。同樣，這種方法不能滿足半導體領域的精度要求。

一種用於語義分割之方法揭露於由A. Bearman, O. Russakovsky, V. Ferrari, L. Fei-Fei等人，在歐洲電腦視覺會議（European Conference on Computer Vision 2016）所提出名稱「用於訓練語義分割模型的點級別監督方法（What’s the point: semantic segmentation with Point Supervision）」中。這種方法通過指出物件單點而不是像素精確分割，來解決在註釋影像期間減少使用者工作量的問題。

自動偵測缺陷的方法（滿足半導體領域內的精確要求）包括異常偵測演算法，這些演算法基於晶粒到晶粒或晶粒到資料庫的原則。晶粒到晶粒原則(die-to-die principle)將晶圓的部分與同一晶圓的其他部分進行比較，從而發現與典型或平均晶圓設計之偏差。晶粒到資料庫原則將晶圓的各個部分與來自資料庫的理想模擬資料（例如，晶圓的CAD製檔）進行比較，從而發現與理想資料之偏差。

因此，對於像似晶粒到晶粒或晶粒到資料庫這樣的缺陷偵測方法，因此中間輸出通常是一個差異影像，其顯示預期影像（比較資料集）與實際影像之間的差異。通常通過在差異影像上設定臨界值，來獲得異常建議。如此，可獲得像素精確的異常偵測。然而，設定臨界值是最大化捕獲率（標記為異常的真實缺陷）和降到最低有害率（標記為異常的成像偽影、雜訊、無關的缺陷等）之間的平衡行為。此步驟可能很費力，尤其是當要偵測具有不同形狀、大小和外觀的缺陷時。

傳統上，設定臨界值是專家通過增加臨界值進行篩選的手動處理。在每個步驟中，都會分析新標記的異常並選擇各種缺陷類別的臨界值窗口。替代上，專家針對每個缺陷類別提供一些註釋，以擷取臨界值。然而，這兩實踐都是密集的搜尋操作，並且由於生成的高干擾率而對低對比度缺陷無效。

因此，本發明的問題在於提高半導體晶圓之內的異常偵測。本發明的另一問題為提高用於半導體晶圓之內異常偵測的機器學習方法之準確性。本發明的另一問題為減少為了異常偵測選擇機器學習模型的超參數值所需之使用者互動。本發明的另一問題是提供一種含有超參數最佳化的異常偵測方法。本發明的另一問題使超參數最佳化適用於異常偵測的機器學習方法。本發明的另一問題為提供一評估指標，用於確定異常偵測的機器學習模型之性能。本發明的另一問題為提供一種改善的異常偵測方法，包括一改善的後置處理方法，例如一改善的臨界值設定方法。

本發明解決提高用於異常偵測的機器學習方法準確性問題，特別是用於晶圓的成像資料集。再者，本發明旨在提高用於異常偵測的機器學習方法精度而不降低回收率（Recall）。

此目的通過獨立專利申請項中指定的發明所實現。在附屬專利申請項內指定本發明的優點具體實施例以及進一步開發。

根據本發明的第一具體實施例，提供一種方法來減少為了偵測半導體晶圓中異常或缺陷而選擇機器學習模型的超參數值所需之努力。該方法提供一種自動最佳化機器學習模型的至少一超參數值，從而獲得用於異常偵測的最佳化機器學習模型之方法。因此，一用於根據本發明的第一具體實施例之用於偵測異常的電腦實施方法包含： - 選擇一晶圓的成像資料集； - 從該成像資料集產生訓練資料，及 - 基於該相關目標函數值，從至少兩已訓練機器學習模型之一者選擇已最佳化機器學習模型；及 - 將該已最佳化機器學習模型應用於該晶圓的成像資料集以偵測異常，其中該選擇已最佳化機器學習模型的方法步驟對於至少兩已訓練機器學習模型之每一者包含下列步驟： - 基於一取樣策略從一組關聯的超參數值中選擇一超參數值，該超參數值對應於定義一機器學習模型用於異常偵測的至少一超參數； - 在該訓練資料的輸入子集上訓練由該超參數值控制的一機器學習模型； - 藉由計算一目標函數的關聯目標函數值，以評估該已訓練機器學習模型。

通過從多個不同的機器學習模型中選擇該已最佳化機器學習模型，以提高異常偵測方法的準確性。同時，減少使用者訓練該機器學習模型所需的工作量。

一種用於根據本發明的第二具體實施例之偵測異常的電腦實施方法包含： - 選擇一晶圓的成像資料集； - 從該成像資料集產生訓練資料； - 反覆下列步驟： i. 基於一取樣策略從一組關聯的超參數值中選擇一超參數值，該超參數值對應於定義一機器學習模型用於異常偵測的至少一超參數； ii. 基於該已產生訓練資料的子集，訓練由該超參數定義的該機器學習模型； iii. 藉由計算一目標函數的關聯目標函數值，以評估該已訓練機器學習模型。 - 基於該相關目標函數值選擇該等已訓練機器學習模型之一者，並將其應用於晶圓成像資料集以偵測異常。

通過基於該相關目標函數值選擇該等已訓練機器學習模型之一者，該等已偵測異常的準確性由於該機器學習模型的最佳化超參數（例如該架構）而增加。同時，減少使用者訓練該機器學習模型所需的工作量。該已訓練機器學習模型可用於偵測晶圓的成像資料集中異常。該成像資料集可例如通過結構化電子顯微鏡來獲取。

在機器學習模型中，超參數是一種參數，該參數值用於控制該學習過程，但不是從資料中學習。對照下，其他參數（通常是節點權重）的值係通過訓練資料的訓練得出。根據第一或第二具體實施例的一實例，超參數包括至少設計超參數或演算法超參數之一者。設計超參數係指該機器學習模型的設計。該設計超參數包含與該機器學習模型架構相關的所有超參數，例如層數、層的大小、層的類型、篩選器的大小、捲積層的內核大小、使用的捲積類型、升取樣方案、層間的連接、瓶頸大小、瓶頸篩選器大小等。模型或設計超參數的實例為神經網路的拓撲結構和大小。演算法超參數原則上對模型的性能沒有影響，但會影響學習過程的速度和品質。演算法超參數的實例包括學習率、小批量大小、丟失率、訓練資料集的大小和內容、損失函數的類型。演算法超參數的另一實例是使用的最佳化演算法（隨機梯度下降、Adam、RmsProp等）。

根據第一或第二具體實施例，定義用於異常偵測的該機器學習模型的該至少一超參數可包括下列實例之至少一者，但不限於這些：

設計超參數： - 瓶頸大小 - 該瓶頸篩選器大小（瓶頸中的部件數量）； - 該初始篩選器大小（網路第一層的篩選器數量，其他網路特徵件按比例縮放到第一層）； - 使用的該捲積類型； - 該升取樣方案； - 該等層間的連接； - 該模型內的層數； - 該模型內的層大小； - 該模型內的層類型； - 該篩選器大小； - 捲積層的內核大小；

演算法超參數： - 該損失函數的類型及/或參數； - 該初始學習率； - 該學習率衰減因子； - 動能的利用； - 時期數； - 正規化規模； - 訓練集的大小和內容（影像數）； - 代表該資料集的樣本； - 丟失率； - 利用Nesterov加速梯度； - 最佳化演算法的類型。

在根據第一或第二具體實施例的實例中，根據該第一或第二具體實施例的方法更包含選擇複數個超參數的步驟，這些超參數共同定義用於異常偵測的機器學習模型。對於每個選定的超參數，選擇一組關聯的超參數值。較佳是，至少一待最佳化的超參數係與該機器學習模型的設計有關。

在根據第一或第二具體實施例之方法的實例中，產生訓練資料的步驟包含對該成像資料集的子集異常之專家註釋。因此，可定義適用於選擇最佳化機器學習模型或超參數最佳化的目標函數。

根據第一或第二具體實施例的實例，該訓練資料的子集包含該訓練資料的多個樣本。其也可包含整個已產生的訓練資料。該訓練資料子集的大小可隨反覆次數的增加而增加，從而減少計算時間。

在根據第一或第二具體實施例之方法的實例中，機器學習模型的輸入資料和訓練資料可由成像資料集的特定大小之圖塊組成。在根據第一或第二具體實施例的實例中，從成像資料集中擷取圖塊（例如，2-D影像或3-D體素陣列），並輸入該機器學習模型。圖塊可包括要偵測異常之足夠空間範圍。在根據第一或第二具體實施例的實例中，圖塊至少與預期的異常一樣大，並且結合空間鄰域範圍。

在根據第一或第二具體實施例的一實例中，選擇自動編碼器模型作為機器學習模型，其中該自動編碼器機器學習模型經過訓練，以計算無異常晶圓的成像資料集之重建子集。

自動編碼器機器學習模型是一種無監督的機器學習方法，需要最少的使用者輸入。自動編碼器模型是一種人工神經網路，用於無監督學習以學習未標記資料的有效編碼。自動編碼器包含兩主要部分：一編碼器，將輸入映射至編碼、及一解碼器，將編碼映射至輸入重建。編碼器神經網路和解碼器神經網路可訓練，以降到最低輸入資料的重建表示(reconstructed representation)與輸入資料本身之間的差異。代碼可為具有較低維度的輸入資料之表示，因此可視為輸入資料的壓縮版本。在根據第一或第二具體實施例的一實例中，自動編碼器被迫近似重建輸入，在重建中只保留資料最相關的態樣。因此，自動編碼器可用於異常偵測。異常通常涉及成像資料集中與規範的罕見偏差，由於其很少出現，使得自動編碼器不會重建此類資訊，從而抑制成像資料集中的異常。

在根據第一或第二具體實施例的一實例中，於根據第一或第二具體實施例的異常偵測步驟期間，基於成像資料集和比較資料集之間的比較，來偵測所述成像資料集中的異常。該比較資料集包含當與成像資料集比較時，使得異常偵測成為可能之資訊。在根據第一或第二具體實施例的一實例中，該比較資料集包含理想無缺陷的重建成像資料集。在根據第一或第二具體實施例的實例中，重建成像資料集係通過自動編碼器或通過主成分分析來重建。在根據第一或第二具體實施例的實例中，使用應用於該比較資料集的距離指標或臨界值操作，來執行異常偵測。

然後可通過將成像資料集的不完美重建與原始成像資料集進行比較，來偵測異常。輸入影像和輸入影像的重建表示間之任何差異都指出存在異常。該輸入影像與該輸入影像的重建表示間之距離指標可用於量化是否存在異常。其間的差異越大，圖塊中包含異常的可能性就越大。異常偵測可包括將一或多個臨界值應用於原始影像與重建影像之差異影像。在根據第一或第二具體實施例的實例中，可將局部臨界值應用於差異影像的子集。進一步的測量也可用於異常偵測，例如差異的大小、位置或形狀或其局部分佈。從而，在抑制由於雜訊所引起偏差之同時，偵測針對性的缺陷。

在根據第一或第二具體實施例的實例中，用於偵測異常的方法更包含多個用於定義適合於選擇最佳化機器學習模型或適合於超參數最佳化的目標函數之步驟。根據範例的該目標函數可包含至少一模型評估指標(model evaluation metric)。

一模型評估指標是衡量該已訓練機器學習模型屬性的可量化表達，並可包含對多個屬性中至少一者的測量，這些屬性涉及該已訓練機器學習模型的性能、異常偵測的品質、該已訓練機器學習模型的複雜性、應用該已訓練機器學習模型的工作量或成本等。在根據第一或第二具體實施例的實例中，可在目標函數內定義和適當組合多重模型評估指標。在一實例中，提供先前產生的驗證資料用於評估模型評估指標。

在根據第一或第二具體實施例的一實例中，目標函數包含至少兩模型評估指標。使用包含至少兩模型評估指標的目標函數之方法特別適用於異常偵測，因為不同模型評估指標的組合可防止一已訓練機器學習模型（例如一自動編碼器）的重建缺陷，確保比較資料集在出現缺陷時充分偏離成像資料集。如此，也減少人力，最大限度提高異常偵測的性能，並提高結果的品質、可重複性和穩定性。此外，可進行冷啟動。

目標函數是對已訓練機器學習模型品質的衡量，因此也是對為該模型選擇的超參數值品質之衡量。應用含有至少兩不同模型評估指標的目標函數，以確保根據第一或第二具體實施例的超參數值最佳化不會產生含有異常的該訓練資料之完美重建，因為同時計算所有模型評估指標，並因此有助於目標函數的目標函數值。

用於超參數最佳化的目標函數可包含或者是在機器學習模型訓練期間當成模型評估指標的損失函數。模型評估指標也可包含或可為Lp-norm損失函數，其中p ≥ 1，例如L ₂損失函數。Lp-norm損失函數可測量訓練資料樣本與相應目標資料樣本的偏差，例如訓練資料樣本與其無異常重建的偏差，例如訓練資料樣本與其由自動編碼器重建的偏差。這確保無異常影像區域的正確重建，從而產生改善的異常偵測結果。

在根據第一或第二具體實施例的一實例中，至少模型評估指標中之一者包含一判別損失函數，該損失函數評估異常的專家註釋與偵測到的異常間之差異。該等專家註釋包含分配給成像資料集中的像素或區域之標籤，該等標籤指出例如異常或無異常。因此，目標函數也可或替代上包含使用由專家使用者提供的一些像素級註釋(pixelwise annotation)之缺陷/非缺陷的判別損失L _CE。在根據第一或第二具體實施例的一實例中，原始樣本和已編碼樣本之間的差異（原始編碼）被保留為連續值，但限制在範圍（0, 1）內。該值通過交叉熵損失，直接與二進制標籤（異常/無異常）進行比較。請注意，提供的示例不需要包含數據集中的所有缺陷。較佳是，少於10%，更佳是少於1%的訓練資料為專家註釋。此外，專家註釋僅將標籤分配給成像資料集中存在的異常之子集及/或成像資料集中存在的異常類型之子集。如此，所需的專家使用者輸入被降到最低並使冷啟動成為可能，因為如果成像資料集中出現新缺陷，則不需要專門的專家使用者註釋。另應注意，這些訓練資料量不足以訓練獨立模型。

根據第一或第二具體實施例的一實例，可經由多重格式（例如，邊界框、點擊點、輔助處理資訊等）提供專家註釋，並相應調整判別損失（L _CE）。例如，邊界框註釋與重疊指標相關聯，亦即交並比損失L _IOU。

在本發明之第一或第二具體實施例的一實例中，給出了專家註釋，例如作為像素註釋或邊界框。這些專家註釋係使用專家知識所促成，例如基於臨界距離、臨界尺寸或間距尺寸，其與晶圓上結構的最小尺寸有關。如此，專家只需單擊成像資料集中缺陷的中心就足夠，並且與臨界距離、臨界尺寸或間距大小對應的較大區域會自動指定為單擊點周圍的缺陷。

為了避免過度擬合，多個模型評估指標之一者可更包含機器學習模型複雜性度量，例如機器學習模型複雜性的奧卡姆剃刀（Occam-razor）懲罰。該模型評估指標考慮機器學習模型一前向傳遞(forward-pass)中浮點運算（L _FLOP）的總數，例如，此數的對數。替代上，訓練神經網路的層數及/或大小及/或神經元之間的連接數及/或其他合適的超參數值，可由模型評估指標用於測量機器學習模型的複雜性。

在本發明的第一或第二具體實施例的一實例中，訓練資料包含成像資料集子集的異常之專家註釋，並且目標函數包含Lp-norm損失函數的加權總和，其中p≥1，測量訓練資料樣本與相應目標資料樣本的偏差（例如，訓練資料樣本與其自動編碼器重建的偏差）和判別損失函數，用於評估模型預測與異常專家註釋之間的差異。考慮到模型評估指標的這種特定組合可確保非常高精度的異常偵測因此，因為同時1）評估無異常資料預測的準確性（Lp-norm損失），2）評估異常資料預測的準確性（判別損失），3）由於專門選擇的異常專家註釋，防止等級不平衡。

在本發明的第一或第二具體實施例的一實例中，訓練資料包含成像資料集子集的異常之專家註釋，並且目標函數包含Lp-norm損失函數的加權總和，其中p≥1，測量訓練資料樣本與相應目標資料樣本的偏差（例如，訓練資料樣本與其自動編碼器重建的偏差），一種判別損失函數，用於評估異常專家註釋與模型預測之間的差異，以及機器學習模型複雜性度量。考慮到模型評估指標的這種特定組合可確保特別高精度的異常偵測因此，因為同時1）評估無異常資料預測的準確性（Lp-norm損失）；2）評估異常資料預測的準確性（判別損失）；3）由於專門選擇的異常專家註釋，防止等級不平衡；及4）防止過度擬合（複雜度測量）。在一實例中，目標函數包含三個模型評估指標的加權總和，例如， f = w ₁L ₂+ w ₂L _CE+ w ₃L _FLOP其中權重w ₁、w ₂、w ₃可由使用者設置。通常，前兩權重的大小相似，而第三個權重至少低十倍，例如w ₁= 10，w ₂= 1，w ₃= 0.01。一或多個權重也可設定為0，例如w ₃可為0，因此目標函數不會懲罰模型的複雜性。可使用任何其他L _p-norm來取代L ₂-norm。判別損失函數L _CE可取代成任何懲罰差異影像偏差的損失函數和成像資料集中異常的一些地面實況資料，例如交並比損失L _IOU的交集。另可添加其他模型性能指標。此外，還可選擇Optuna庫的其他選項。

在根據第一或第二具體實施例的一實例中，目標函數也包含或替代上述任何一項包含品質值作為模型評估指標，以評估該已訓練機器學習模型的品質，其中使用者界面配置成向使用者呈現關於該已訓練機器學習模型的資訊，並讓使用者指出品質值。呈現給使用者的資訊可包含準確率、回收率、樣本異常偵測、與該已訓練機器學習模型相關的超參數值，例如模型的設計，模型針對其一或多層學習的篩選器等。如果目標函數降到最低，則如果該已訓練機器學習模型的品質很高，使用者可選擇一較低的值作為品質值。如果該已訓練機器學習模型的品質較低，使用者可選擇較高值作為品質值。

在根據第一或第二具體實施例的一實例中，基於先前選擇的超參數值和關聯的目標函數值，根據確定接下來應該選擇哪個超參數值的取樣策略來選擇超參數值。在根據第一或第二具體實施例的一實例中，該取樣策略包含使用取樣演算法。

取樣策略的一實例包含一樹狀結構的Parzen估計器（TPE），其以樹狀結構的方式處理分類超參數。例如，神經網路的層數和每層中神經元的數量定義一樹狀結構。例如，如果第二層不存在，就不可能有第三層，並且只有當該層存在於圖中時，設置神經元的數量才有意義。另一實例為機器學習模型的最佳化器選擇，因為每個最佳化器都可有自己的一組參數。

較佳是，用於選擇超參數值的取樣策略包含通過最佳化從含有預期改善、最大改善概率、信賴上限的群組中選擇的一標準，以考慮來自一或多個先前反覆的目標函數之超參數值和對應值。如此，選擇最佳化機器學習模型的方法性能得到提高，異常偵測結果得到改善。

根據第一或第二具體實施例的一實例，該方法更包含改善採集函數的評估。該採集函數為當成超參數值函數的驗證損失之代理模型，其可擬合先前獲得的目標函數值，也稱為先前觀察值，並配置成預測目標函數的局部最佳可能在哪裡。這些方法進一步稱為順序模型優化（SMBO）。該代理模型至少可作為目標函數的一部分。代理模型的使用簡化了目標函數評估並減少計算時間，因為評估目標函數的昂貴步驟較少執行。

例如，可使用改善概率（PI）當成改善採集函數，其在最有可能改善該值的點上評估目標函數f。目標函數f將降到最低。令f’表示到目前為止觀察到的f之最小值，D表示先前的觀察值，即先前獲得的目標函數值。然後這對應於以下與在給定點x處評估f相關聯的效用函數（對應於一組超參數）：

改善採集函數的概率是期望效用作為x的函數：其中表示正態分佈的密度，該正態分佈的累積分佈函數和K(x,x)其方差。然後選擇具有最高改善概率（最大期望效用）的點x作為下一超參數值進行評估。

考慮改善大小的替代改善採集函數為預期改善（EI）。預期改善在預期中對f’改善最多的點上評估f。這對應於以下效用函數：

然後，預期的改善採集函數是期望效用作為x的函數：

選擇具有最高預期改善（最大預期效用）的點。預期的改善有兩組成部分，第一部分可通過減少均值函數來增加，第二部分可通過增加方差K(x,x)來增加。這兩術語可解釋為明確編碼開發（在低均值點進行評估）和探索（在具有高不確定性的點進行評估）之間的權衡。開發-探索權衡是此類問題中的經典考慮因素，預期改善標準會自動捕獲兩者作為貝葉斯決策理論處理的結果。

一替代改善採集函數通常稱為信賴上限（UCB）。其通常用最大化f而不是降到最低f來描述；然而，在降到最低的情況下，改善採集函數採用以下形式其中＞ 0是權衡參數，並且是f(x)的邊際標準差。在降到最低的範圍中，最好將其描述為信賴下限。同樣，UCB採集函數包含明確開發和探索項。此UCB採集函數的反覆應用將收斂到f的真實全局最小值。

對於所描述的每個取樣策略，至少一組超參數值係與概率分佈有關聯，該概率分佈指出每個超參數值被取樣策略選擇的可能性。概率分佈可預先定義，因此獨立於目標函數值。指出每個超參數值被取樣策略選擇的可能性之概率分佈可根據基於應用的先前知識來建模，較佳基於成像硬體設定或設計知識，例如臨界距離。如此，可將參數空間上的先前知識，結合到第一具體實施例中選擇最佳化機器學習模型的方法步驟中或第二具體實施例的反覆步驟中。因此，由於改善取樣策略並減少計算時間，因此改善異常偵測結果。

在一實例中，該取樣策略包含至少兩不同的取樣策略，用於第一具體實施例中至少兩已訓練機器學習模型，或用於第二具體實施例中反覆步驟期間訓練的機器學習模型，而由於對超參數值空間的更徹底探索，導致改善的結果。

選擇上，根據第一具體實施例之用於選擇最佳化機器學習模型的步驟或第二具體實施例中反覆的步驟包含削剪策略，例如包含一削剪演算法，其決定是否應該繼續或中斷已知機器學習模型的訓練。在一實例中，該削剪策略包含提前停止標準。在一進一步實例中，該削剪策略包含異步連續減半策略。在進一步實例中，可首先基於訓練資料樣本小子集的目標函數，測試通過對一組超參數值進行取樣而產生的機器學習模型。在性能較低的情況下，可提前丟棄該已取樣超參數值，否則可增加訓練資料子集的大小。這種削剪策略減少計算時間。通過應用削剪策略，如果目標函數沒有顯示出良好的因此，則會提前測試並丟棄超參數值。因此，節省計算時間，並且該方法適用於經常需要重新訓練的冷啟動場景。

根據本發明的一第三具體實施例，提供一種用於偵測晶圓之成像資料集中異常之電腦實施方法，其中該成像資料集包含屬於多個缺陷類別的缺陷。該方法包含下列步驟： - 通過將異常偵測方法應用於成像資料集來產生異常偵測影像； - 執行一或多個反覆，其中至少一者包含下列步驟： i. 針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個樣本； ii. 通過至少一校準方法校準異常偵測影像，包含下列步驟： a. 基於該等異常偵測影像值分佈的一或多個樣本，訓練用於異常定位的機器學習模型，較佳為異常分割(anomaly segmentation)； b. 將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像； - 將臨界值應用於該已校準異常偵測影像以偵測異常，從而減少異常偵測影像中的干擾(nuisance)和突出缺陷(highlighting defect)。

在本發明的一第四具體實施例中，提供一種用於偵測晶圓之成像資料集中異常之電腦實施方法，其中該成像資料集包含屬於多個缺陷類別的缺陷。 - 通過將異常偵測方法應用於成像資料集來產生異常偵測影像； - 針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個樣本； - 使用至少一校準方法偵測該異常偵測影像之內的異常，其包含下列步驟： o 基於該等異常偵測影像值分佈的一或多個樣本，訓練用於異常定位的機器學習模型，較佳為異常分割； o 將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像； o 將臨界值應用於該已校準異常偵測影像以偵測異常，從而減少異常偵測影像中的干擾和突出缺陷。

根據本發明的第三或第四具體實施例之方法，使得用於異常偵測的機器學習方法更適用於缺陷偵測，因為其僅需要最少量的使用者輸入，從而同時減少異常偵測影像中的干擾並突出異常或缺陷。基於此已增強或已校準的異常偵測影像，可通過僅應用單個臨界值來穩健偵測異常。

根據第三或第四具體實施例的一態樣，該方法更包含通過使用可用的輔助資訊（例如與晶圓結構尺寸相關的資訊，諸如臨界距離、臨界尺寸、間距尺寸等）或通過提供至少缺陷類別的子集之註釋缺陷，來自動設定該臨界值的步驟。為此，根據第三或第四具體實施例的方法係關於解決方案的工作流程，該解決方案對缺陷尺寸及/或對比度具有耐受性，並校準異常偵測影像（例如差異影像）以突出針對性的缺陷，同時抑制由於雜訊引起的缺陷。

「異常定位」的概念係指任何計算異常位置的方法，例如異常分割方法、語義異常分割方法、異常偵測方法、分類方法、回歸方法、找出分佈樣本方法等。

缺陷類別的數量可與單個缺陷類別、多個缺陷類別或成像資料集中出現的所有缺陷類別相關。

「異常偵測影像」的概念係指異常偵測方法以指出異常的影像形式輸出，例如通過逐像素標記或邊界框等。在第三或第四具體實施例的一實例中，異常偵測影像為成像資料集與比較資料集的差異影像，例如成像資料集的重建。在一實例中，比較資料係基於晶粒到晶粒原則或晶粒到資料庫原則。

在第三或第四具體實施例的一實例中，該比較資料集可包含通過在成像資料集或其子集上訓練機器學習自動編碼器，並將該已訓練自動編碼器應用於成像資料集以獲得重建的成像資料集，而產生的成像資料集之重建表示。這種自動編碼器和重建成像資料集的產生在本發明的第一或第二具體實施例之描述中討論。

如此，提高異常偵測影像的品質。主成分分析可用於產生該已重建的資料集，而不是自動編碼器。

在第三或第四具體實施例的實例中，異常偵測方法為根據本發明之第一或第二具體實施例的方法。

在第三或第四具體實施例的一實例中，該至少一校準方法係選自一組校準方法。在一實例中，針對一組校準方法中的每個校準方法，反覆重複確定一已校準異常偵測影像並將單個臨界值應用於該已校準異常偵測影像之步驟。

在第三或第四具體實施例的一實例中，該方法更包含通過例如使用者輸入，來選擇異常偵測影像值的分佈域之一或多個值來當成臨界值之步驟。臨界值可包含異常偵測影像值分佈域的最小值和最大值，例如異常或缺陷的強度值之最小值和最大值。通過此方法，可結合篩選器應用多重已調適臨界值。

例如，通過應用該至少一校準方法校準該異常偵測影像包含下列步驟： - 對於該缺陷類別子集的每個缺陷類別，基於當前缺陷類別的該等異常偵測影像值之該已選擇的一或多個臨界值，通過調適該等異常偵測影像值，以計算一中間校準的異常偵測影像； - 應用該當前缺陷類別的一或多個篩選器，例如尺寸篩選器；及最後 - 通過將一運算元應用於所有中間校準的異常偵測影像，來產生該已校準異常偵測影像。

在本說明中，一集合的術語「子集」指集合中的單個、一些或所有元素。

在第三或第四具體實施例的一實例中，該運算元選自包含逐像素求和、逐像素平均、逐像素最小值、逐像素最大值、逐像素縮放的群組。如此，最終校準的異常偵測影像包含來自不同缺陷類別的缺陷，每個缺陷類別基於一組不同的臨界值和篩選器從原始異常偵測影像中所擷取。使用最大運算元可保留盡可能多的異常（前提是異常的標記值高於背景），然而最小運算元會進一步減少雜訊和干擾。

根據第三或第四具體實施例的一第二實例，該方法包括提供已註釋缺陷的步驟。該等已註釋缺陷用於自動設定所需的臨界值，以應用於一已校準異常偵測影像。根據第二實例，只需要少數缺陷類別的少量已註釋缺陷，而其他缺陷類別可不加註釋。根據實例的方法依賴於以下假設：該已註釋缺陷涵蓋所有缺陷類別的外觀頻譜。少數缺陷類別意味著缺陷類別的子集包含少於所有缺陷類別的50%，較佳少於所有缺陷類別的30%，更佳少於所有缺陷類別的20%，最佳少於所有缺陷類別的10%。每個類別的少量已註釋缺陷係指每個缺陷類別的已註釋缺陷多於5個但少於20個，較佳多於5個但少於10個。利用根據第二實例的方法，解決了缺陷標註的問題，並且可自動設定用於校準的異常偵測影像之臨界值。

在根據第二實例的校準方法中，自動尋找臨界值的任務可表述為逐像素定位問題，例如逐像素分割問題。根據各種假設，可想到第二具體實施例中逐像素定位的許多不同設計，例如根據註釋的類型（邊界框、點擊點、像素級或影像級註釋、多使用者註釋、來自二手來源的註釋等）、損失函數（通過正則化處理模型複雜性、包含先前知識、處理類別不平衡等）或問題公式（如語義分割、物件偵測、分類、回歸、處理分佈樣本等）。

在第三或第四具體實施例的一實例中，異常定位的機器學習模型經過訓練，以基於異常和非異常樣本來最佳化損失函數。這允許對異常進行高精度的逐像素偵測，這在半導體領域很重要。來自缺陷類別子集的每個缺陷類別之異常偵測影像值分佈的樣本可當成異常樣本。在一進一步實例中，損失函數為半監督損失函數。基於半監督損失函數，可提高異常偵測品質，因為在校準方法的訓練過程中可考慮專家註釋。然而，所需的使用者工作量仍然保持在較低水準，因為只需要少數註釋並且大部分樣本是自動選擇的。在本說明書中，術語「前景樣本」當成「異常樣本」的同義詞，術語「背景樣本」當成「非異常樣本」的同義詞。

具體而言，可將來自缺陷類別子集的每個缺陷類別之異常偵測影像值分佈的樣本當成異常樣本，同時可（自動）從異常偵測影像的其餘像素中選擇非異常樣本。如果異常偵測影像的異常偵測影像值低於一臨界值，則可將異常偵測影像的其餘像素選為非異常樣本。附加或替代上，每個非異常樣本都可通過其異常偵測影像值的加權函數w來加權，特別是通過負指數加權函數來加權。這允許以最小的使用者工作量自動選擇大量非異常像素。其另確保以高精度選擇非異常像素，因為可將更高的權重分配給屬於異常的可能性最低之那些像素，例如，對於具有低異常偵測影像值的像素，例如具有非常低的自動編碼器重建誤差之像素。因此，如果僅從缺陷類別子集的每個缺陷類別中異常偵測影像值之分佈中選擇少量樣本，則可防止錯誤將這些分佈中未選擇的樣本當成非異常樣本。此外，可減少使用者的工作量，因為少量的已選取樣本足以獲得高精度的異常偵測。

使用者只需為缺陷類別的子集提供少量像素級註釋(pixel-level annotation)。該子集可包含所有缺陷類別。較佳是，該子集不含所有缺陷類別。更佳是，該子集僅包含少量缺陷類別，例如少於10%的缺陷類別。利用可用的中繼資訊（例如，臨界尺寸、臨界距離或間距大小），簡化了註釋過程。使用者可提供一點擊點，其可被處理成像素級註釋，例如通過將點擊點擴大到對應於臨界尺寸、臨界距離或代表晶圓上最小結構尺寸下限或上限的間距尺寸之圓。替代上，使用者可使用畫筆標記缺陷像素。基於這些註釋，可訓練機器學習異常定位模型，例如異常分割或異常偵測模型。當應用於異常偵測影像時，此定位模型將每個像素標記為針對性的異常或干擾。如此，可突出顯示異常，同時減少干擾。可採用互補的後置處理技術來進一步減少麻煩，例如直方圖均衡化、位置或大小型的篩選等。最終可使用單個臨界值對該已校準異常偵測影像進行臨界值處理，例如0.5，以獲取成像資料集中的缺陷。

根據本發明的第三或第四具體實施例的一實例，在訓練時，異常定位的機器學習模型是異常分割的機器學習模型。其將部分註釋的異常偵測影像（例如差異影像）視為輸入。在輸出上，該模型將每個像素標記為針對性異常或干擾。由於並非所有輸入像素都由使用者標註，因此模型學習基於以下半監督損失函數：其中為異常偵測影像，y _true為使用者提供來自集合{unannotated=0, anomaly=1}的像素級註釋，即部分標記的異常偵測影像，y _pred為模型預測的標籤。損失函數L是所有像素損失之總和，其是一加權交叉熵損失函數，定義為：其中像素級權重啟用半監督學習。本文中，標註為異常（）的像素經學習為分割成異常。由於負指數，未註釋的像素（）要嘛被視為非異常（在低值的情況下）或被忽略（在高值的情況下）。因此，分割模型抑制雜訊並突出異常，從而提高異常偵測的準確性。半監督學習方法的優點為只需少量的使用者註釋，而大部分訓練資料係基於異常偵測影像值自動選擇。如此，限制了使用者工作量，冷啟動成為可能。

替代上，各種其他損失函數可用於訓練異常定位機器學習模型，例如Kullback-Leibler散度損失函數、L1或L2損失函數等。

第三或第四具體實施例的實例提供一種用於校準差異影像的方法，允許通過將單個臨界值應用於一已校準異常偵測影像，來獲得高回收率和可管理的精度。因此，第三或第四具體實施例的機器學習模型包括設定、訓練和應用非線性篩選器的方法步驟，該篩選器配置成放大缺陷，同時抑制用於半導體缺陷偵測的差異影像中之干擾。

在根據本發明的第三或第四具體實施例的一實例中，使用者界面配置成讓使用者指出異常偵測影像中缺陷類別子集的每個類別之少量缺陷的位置。為此，使用者界面配置成通過選擇該缺陷的單個像素（較佳中心區域中的像素）來指出缺陷位置的使用者指出，並且通過選擇圍繞所選單個像素的區域，較佳是圓形，以自動產生缺陷的註釋，並且從圍繞所選像素的區域取樣異常偵測影像值。較佳是，基於諸如臨界尺寸及/或臨界距離及/或間距尺寸的輔助資訊來選擇區域的尺寸。臨界距離和臨界尺寸與晶圓上結構的最小尺寸有關，而間距尺寸與結構之間的最小距離有關，因此可理解為晶圓結構最小尺寸的上限。因此可假設異常至少與晶圓上的最小結構一樣大。因此，圍繞所選像素產生的異常區域可自動選擇為晶圓結構相對於臨界尺寸、臨界距離或間距尺寸（轉換為像素）的最小尺寸。如此，通過自動增加標記樣本的數量來提高異常偵測的準確性。此外，根據晶圓結構的大小限制所選像素周圍的異常區域大小可防止錯誤標記，尤其是對於晶圓上非常小的結構。此外，由於單擊一次足以註釋缺陷，因此大大減少使用者的註釋工作量。因此，冷啟動變得可行，因為儘管在訓練開始時訓練資料的可用性有限，但很少的選取樣本足以訓練機器學習模型進行異常定位。

根據第一或第二具體實施例的異常偵測方法，及根據第三或第四具體實施例的異常偵測方法可採取許多變化進行訓練。其可作為一單個模組聯合訓練，更易於維護和評估。另一方面，獨立模組具有通用性和專家意見分離的優點。

應當注意，用於偵測晶圓之成像資料集中異常之電腦實施方法可包含根據第一或第二具體實施例的任何實例之超參數最佳化，以及根據第三或第四具體實施例的任何實例之異常偵測影像校準同時進行。根據具體實施例或實例的所有特徵件也可應用於該組合方法。

異常偵測可為缺陷偵測（及可能的分類）工作流程中的第一步驟。特別是，為了獲得適合冷啟動的方法，異常偵測是掃描大量資料有價值的重要第一步驟，因此只有可能含有缺陷的樣本才會呈現給使用者進行註釋。

附加上，可測量偵測到的異常之一或多個屬性，例如其大小、位置或形狀參數，或特定區域或整個成像資料集的異常密度。基於此類測量，至少一晶圓製程參數可基於一或多種測量的特性來控制，或者晶圓的品質可基於一或多種測量的特性和至少一品質評估規則來評估。

因此，已偵測到的異常可用於控制在半導體製造廠中生產的晶圓品質，或者用於控制在半導體製造廠中晶圓的生產過程。

再者，一或多個機器可讀取硬體儲存裝置可包含由一或多個處理裝置執行，以執行含有本文所揭示方法之任一者的操作之指令。

一種用於控制半導體製造廠生產的晶圓品質之檢測系統包含以下特徵件：一成像裝置，其適於提供該晶圓的成像資料集；一選擇性圖形使用者界面，其配置成向使用者呈現資料並從使用者獲得輸入資料；一或多個處理裝置；一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行含有本文所揭示方法之任一者的操作之指令，以基於一或多個測量和至少一品質評估規則來評估晶圓的品質。

一種用於控制半導體製造廠生產的晶圓品質之檢測系統包含以下特徵件：一生產晶圓構件，用於生產由至少一製程參數控制的晶圓；一成像裝置，其適於提供該晶圓的成像資料集；一選擇性圖形使用者界面，其配置成向使用者呈現資料並從使用者獲得輸入資料；一或多個處理裝置；一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行操作之指令，該操作包含一種含有基於一或多個測量以控制至少一晶圓製程參數之方法。

根據本文描述的具體實施例，可使用各種成像模態來採集用於缺陷偵測和分類之成像資料集。連同各種成像模態，可獲得不同的成像資料集。成像資料集可包含一或多個多感官影像，成像資料集可為一多束SEM影像或一聚焦離子束影像，例如由氦離子顯微鏡（HIM）產生。成像資料集可包含二維影像、三維影像、切片式三維影像或多感官融合影像。例如，成像資料集可包含二維影像。本文中，可使用多束SEM。多束mSEM採用多光束同時獲取多個視野中的影像。例如，可使用不少於50個光束，甚至不少於90個光束。每個光束覆蓋晶圓表面的單獨部分。因此，可在短時間內獲取大量成像資料集。通常，每秒獲取45億個像素。例如，一平方釐米的晶圓可用2 nm的像素尺寸成像，從而產生25萬億像素的資料。含有2D影像的成像資料集的其他實例將涉及成像模態，諸如光學成像、相位對比成像、X射線成像等。成像資料集也可能是體積3D資料集，其可逐層處理或作為三維體積處理。本文中，可使用包括聚焦離子束（FIB）源、原子力顯微鏡（AFM）或掃描電子顯微鏡（SEM）的交叉束成像裝置。可使用多模式成像資料集，例如，x射線成像和SEM的組合。成像資料集22可附加或替代包含由航空成像系統獲取的空拍影像。空拍影像為基板水平上的輻射強度分佈。其可用來模擬光微影光罩14在光微影處理中產生的輻射強度分佈。空間影像測量系統例如可配備凝視陣列感測器或線性掃描感測器或延時積分（TDI）感測器。

雖然本發明範例和具體實施例係描述關於半導體晶圓，但應當理解本發明不限於半導體晶圓，而是例如另可應用於半導體製造用的光罩或用於各種其他領域，例如，用於製造組件或生物樣本中的異常偵測。

通過實例和具體實施例所描述的發明不限於這些具體實施例和實例，熟習該項技藝者可通過其各種組合或修改來實施。以下，描述本發明的有利示例性具體實施例並且在附圖中示意性顯示。

圖1顯示含有複數個異常15的示意性缺陷單元結構11。異常15是成像資料集12與先前定義規範的局部偏差，這裡是與規範的半導體結構之偏差。

圖2顯示應用於晶圓120的成像資料集12之異常偵測方法（諸如自動編碼器）的流程圖和結果。該方法的輸入14包含晶圓120的成像資料集12，其包含晶圓120的一或多個影像。基於成像資料集12，訓練機器學習模型16。機器學習模型16可基於晶粒到資料庫原則或晶粒到晶粒原則。根據基於晶粒到晶粒原則的成像資料集12，訓練自動編碼器模型。自動編碼器學習大量可用的「無瑕」或「無缺陷」資料之已壓縮內部表示。因此，機器學習模型16能夠完美重建無缺陷的影像樣本。在測試期間，受污染的輸入影像沒有如實重建。具有高重建誤差的空間區域表示關於訓練資料的異常值，也稱為異常15。基於自動編碼器模型，計算輸入14的重建18之形式中比較資料集。成像資料集12中的缺陷23未由自動編碼器重建，因此重建18（比較資料集）與輸入14之間的差異包含成像資料集12中之缺陷23。由於任何成像偽影，如雜訊、變化的半導體結構或不完美的微影等，也會導致差異影像的差異，並非所有這些差異都是來自於缺陷23。因此，缺陷23僅構成異常15的子集。不是缺陷23但通過某種異常偵測方法偵測到的異常15稱為干擾。差異影像顯示成像資料集12中的異常15。因此，差異影像為異常偵測影像20。

基於沒有缺陷的輸入影像22，獲得重建影像24，其僅由於雜訊而不同，如差異影像26所示。除了含有缺陷23的區域僅部分重建，含有缺陷23的輸入影像22’在重建影像24’中重建。因此，差異影像26’在缺陷位置包含與0的偏差。該等缺陷可通過對差異影像26’應用臨界值來定位。

自動編碼器是一種基於無監督學習的機器學習模型，因此僅從輸入資料中獲取資訊而無需任何人工輸入。然而，仍然需要專家知識通過為定義機器學習模型的超參數定義超參數值，來監督模型訓練，例如瓶頸大小。為了減少所需的使用者互動並改善自動編碼器的重建因此，如圖3所示，根據本發明之第一或第二具體實施例之用於偵測異常15的電腦實施方法10包含以下步驟：在資料選擇步驟19中選擇晶圓120的成像資料集12；在訓練資料產生步驟21中，從成像資料集12產生訓練資料，並反覆以下步驟：在超參數值選擇步驟25中，基於取樣策略，從關聯的一組超參數值中選擇一個超參數值，或者從多個關聯的一組超參數值中選擇多個超參數值，對應於至少一超參數的超參數值定義用於偵測異常15的機器學習模型16；在訓練步驟27中，基於該已產生訓練資料的子集訓練由超參數48定義的機器學習模型16；在模型評估步驟29中，藉由計算目標函數的關聯目標函數值來評估該已訓練機器學習模型16；及在模型選擇步驟31中，基於該已關聯的目標函數值選擇該等已訓練機器學習模型之一者，並將其應用於晶圓120的成像資料集12以偵測異常15。

目標函數確保選擇超參數或多個超參數，使得由超參數或多個超參數定義的機器學習模型正確重建成像資料集12，除了包含缺陷23的區域。為此，目標函數可包含Lp-norm損失函數形式的模型評估指標，其中p ≥ 1，通過懲罰偏差確保成像資料集12的正確重建沒有異常。例如，L ₂-norm損失函數，即均方根差損失函數，預設選擇為大多數超參數最佳化方法的目標函數。

然而，如果用於超參數最佳化的目標函數僅包含基於Lp-norm的模型評估指標，則自動編碼器另將學習重建成像資料集12中包含的任何缺陷23。因此，輸入影像中包含的缺陷23至少部分重建，並且差異影像僅顯示在缺陷位置處與0的輕微偏差或根本沒有偏差，如圖4所示。

在圖4中，顯示通過常見的超參數最佳化方法獲得的異常偵測方法結果。輸入影像30通過自動編碼器機器學習方法16重建，其通過基於僅含有Lp-norm指標的目標函數之標準超參數最佳化方法獲得。這產生包括所有缺陷23的重建影像32形式之比較資料集，因此差異影像形式的異常偵測影像28沒有將成像資料集12中存在的任何缺陷23顯示為異常15。

圖5顯示根據本發明之第一或第二具體實施例的一實例之異常偵測方法10’的流程圖。該方法包含：一超參數最佳化單元43，其執行訓練資料產生步驟21，以從成像資料集12產生訓練資料，該超參數值選擇步驟25選擇超參數值，該訓練步驟27基於選擇的超參數值訓練機器學習模型16，該模型評估步驟29通過目標函數46評估該已訓練機器學習模型，以及該模型選擇步驟31基於相關聯的目標函數值，選擇該等已訓練機器學習模型16之一者。

用於根據本發明的第一或第二具體實施例所訓練異常偵測的機器學習模型係基於晶粒到晶粒或晶粒到資料庫原則。在兩情況下，都需要大量的、最好是無缺陷的資料34來訓練機器學習模型16，例如自動編碼器或主成分分析。

超參數最佳化單元43需要目標函數46，其用於評估每個已訓練機器學習模型16。目標函數46包括一或多個模型評估指標。在本發明之第一或第二具體實施例的實例中，目標函數包含至少兩不同的模型評估指標46，以防止該已訓練機器學習模型也重建缺陷23和異常15。

除了L _p-norm損失函數，一較佳模型評估指標是判別損失函數L _CE，其也需要一些專家註釋36。專家註釋36以例如當成像素註釋或邊界框方式給出。這些專家註釋36可使用專家知識38所促成，例如基於臨界距離、臨界尺寸或間距尺寸，其與晶圓上結構的最小尺寸有關。如此，專家只需單擊異常偵測影像或成像資料集12中缺陷23的中心就足夠，並且對應於臨界距離、臨界尺寸或間距大小的較大區域會自動指定為單擊點周圍的缺陷23。

超參數最佳化單元43包含一取樣器42和一削剪器(pruner)44。取樣器42用於通過從關聯的一組超參數值中為超參數48選擇超參數值來執行取樣策略。在一實例中，通過針對超參數引入超參數範圍40來應用專家知識38。從這些範圍中，超參數值由取樣器42選擇。附加或替代上，可通過引入指出每個超參數值被取樣策略選擇的可能性之概率分佈來應用專家知識38，例如基於成像硬體設定或設計知識，諸如臨界距離、臨界尺寸及/或間距大小。每個超參數值對應於至少一超參數48，該超參數定義用於偵測異常15的機器學習模型。例如，超參數48可指機器學習模型下的神經網路架構（例如，層的數量和大小或自動編碼器瓶頸的大小）或學習率。選擇性削剪器44決定是否應該根據取樣策略通過選擇另一超參數值來繼續機器學習模型16的訓練，或者是否應該中斷訓練，例如通過提前停止標準。在中斷的情況下，可隨機選擇新的超參數值，可能關於已知的超參數範圍及/或超參數值的概率分佈，然後根據取樣策略再次開始訓練。

機器學習模型16在二次取樣資料集50上訓練，該資料集係從完整成像資料集52中取樣的。二次取樣資料集50的大小隨超參數最佳化單元43執行的反覆次數而增加。如此，對於使用者來說，在小的二次取樣資料集50上冷啟動是可行的，只需很少的工作量並且在很短的時間內。此外，線上學習和最佳化成為可能，因為新的訓練資料可很容易地納入訓練處理中，例如包含新型缺陷的訓練資料。因此，訓練處理變得快速且易於適應。在選擇達到最佳目標函數值的訓練機器學習模型之後，已最佳化機器學習模型54最終在全成像資料集52上訓練，以獲得用於異常偵測的最終機器學習模型56。

圖6顯示根據本發明之第一或第二具體實施例的異常偵測方法因此，其中在目標函數46中組合至少兩不同的模型評估指標，以獲得改善的結果。除了Lp-norm - 例如懲罰重建影像32’與輸入影像30’的偏差之L ₂-norm，目標函數46包含基於由專家提供的數個逐像素註釋的缺陷/非缺陷之判別損失函數L _CE。專家指出缺陷23的位置，自動編碼器不應重建這些缺陷。因此，通過使用交叉熵損失作為目標函數46中額外模型評估指標，可將異常偵測影像28’（差異影像）與使用者指出的二進制標籤進行比較。專家註釋36不需要涵蓋成像資料集12中出現的所有類型缺陷23，並且註釋的數量非常少，例如小於10%，較佳小於訓練資料樣本的1%。由於可通過多種格式（例如，邊界框、點擊點、輔助過程資訊等）提供註釋，因此需要相應調整判別損失（L _CE）。例如，邊界框註釋與重疊指標相關聯，即交並比損失（Intersection-over-union loss）L _IOU。

在本發明之第一或第二具體實施例的一實例中，目標函數46更包含模型評估指標，該指標包含針對複雜性的奧卡姆剃刀（Occam-razor）懲罰，以避免過度擬合。該模型評估指標可根據模型一前向傳遞中浮點運算總數（L _FLOP）的對數來定義。替代上，訓練神經網路的層數及/或大小及/或神經元之間的連接數及/或其他合適的超參數值，可由模型評估指標用於測量機器學習模型的複雜性。這種基於複雜性的模型評估指標為選擇性。

在本發明之第一或第二具體實施例的一實例中，目標函數包含三個模型評估指標的加權總和，例如， f = w ₁L ₂+ w ₂L _CE+ w ₃L _FLOP其中權重w ₁、w ₂、w ₃由專家選擇。通常，前兩權重的大小相似，而第三個權重至少低十倍，例如w ₁= 10，w ₂= 1，w ₃= 0.01。一或多個權重，例如權重w3可設定為0。可使用任何其他L _p-norm來代替L ₂-norm。判別損失函數L _CE可替換成任何懲罰差異影像偏差的損失函數和成像資料集中異常的一些地面實況資料，例如交並比損失L _IOU的交集。在一實例中，目標函數也或替代上包含一品質值作為模型評估指標，以評估已訓練機器學習模型16的品質，其中使用者界面128配置成向使用者呈現關於已訓練機器學習模型16的資訊，並讓使用者指出品質值。可添加或使用額外的模型評估指標，以取代上述該等模型評估指標中之一或多者。此外，還可添加骨幹Optuna庫的所有選項。

圖6顯示相同於圖4之含有缺陷23的輸入影像30’。在重建影像32’中，沒有重建缺陷23，因為目標函數包含至少兩模型評估指標。在正確重建背景影像的同時，重建並未按要求複製任何缺陷23（白色圓圈）。因此，作為異常偵測影像28’的差異影像包含缺陷23。

圖7例示樹狀結構Parzen估計器（TPE）的取樣策略，其可用於取樣器42對超參數值進行取樣。

Parzen密度估計器是一種非參數內核密度估計器，用於估計給予一組觀察值x = x ₁、…、x _n的隨機變量（超參數值）之概率密度函數：其中K _h是具有頻寬h的內核。

Parzen估計器的思想接近Bayesian最佳化，但站在相反的理論基礎上。雖然Bayesian最佳化試圖解出p(y|x)（y是目標函數的值，x是超參數值），就是Parzen估計器模型的樹p(x|y)和p(y)。

至於Bayesian最佳化，TPE的第一步驟是開始通過隨機搜尋對目標函數46進行取樣，以將演算法初始化。

然後將觀察分為兩組：根據目標函數46表現最好的一組（良好組58，例如上四分位數）和其餘組（不良組60），將y*定義為兩組的拆分值。

在這些組中每一組之概率已建模（高斯處理對後驗概率建模），如p(x|y) = l(x)如果y ＜ y*以及p(x|y) = g(x)如果y ≥ y*。

兩密度l和g使用Parzen密度估計器建模。這裡g表示良好組62的密度，l表示不良組64的密度。

p(y)係使用p(y ＜ y*) = δ的事實建模，其定義兩類別中的百分位數拆分（即如果g對上四分位數建模，則δ = 0.75）。

使用Baye法則（即p(x,y) = p(y) p(x|y)），可證明預期改善（EI）66的定義等同於l(x)/g(x)。

然後通過該取樣策略選擇下一點作為l(x)/g(x)的最大值，如圖7所示。

圖8例示異步連續減半演算法的削剪策略，在本發明之第一或第二具體實施例的一實例中，削剪器44使用該策略來決定是繼續還是停止模型的訓練。縱軸顯示訓練損失函數，橫軸顯示訓練時間。目標函數值越低，由關聯的一或多個超參數值所定義模型的性能就越好。只有達到最低目標函數值的超參數值或值被不斷改善，而其餘的集合在早期反覆中丟棄。 [異步連續減半演算法（asynchronous successive halving algorithm，ASHA）]

如圖8所示的ASHA算法是一種削剪策略，且是一種以異步方式將隨機搜尋與原則性早停相結合之方法。

連續減半演算法（SHA）是一種著名的多臂強盜演算法，用於執行有原則的提前停止。連續減半演算法從基礎梯級中的所有候選組態開始，並如下方式進行： 1. 將預算（水平軸上的值）統一分配給一已知梯級中的一組候選超參數組態； 2. 評估所有候選組態的性能； 3. 將候選組態的前1/η提升到下一梯級，其中η是使用者選擇的淘汰率； 4. 將下一梯級的每個組態預算加倍並重複，直到剩下一組態。

更高的η表示更激進的淘汰率，其中除了前1/η組態之外的所有組態都淘汰。

SHA算法難以同時進行，因為該演算法將一組組態作為輸入，並等待梯級中的所有組態完成，然後再將組態提升到下一梯級。

為了消除同步提升造成的瓶頸，異步連續減半演算法（ASHA）自下而上增長並儘可能提升組態，而不是從廣泛的組態開始並縮小範圍。

ASHA首先指派工作人員將組態添加到底部梯級。當工作人員完成一項工作並請求新工作時，將檢查從上到下的梯級，以查看每個梯級的前1/η中是否存在可提升到下一梯級的組態。如果沒有，則指派工作人員將組態添加到最低梯級以增加級別的寬度，使得可提升更多組態。

ASHA算法的輸出如圖9所示，總結所有試驗的結果。在此，進行17次超參數最佳化試驗。在初始試驗中，實現最差目標函數值的最差試驗68在第一反覆中被丟棄。在每個隨後反覆中，前一反覆中的最佳模型留為種子並訓練更長時間。最後，最好的試驗70在原始的完整訓練資料集上重新訓練。

圖10顯示根據本發明之第三或第四具體實施例，用於偵測在晶圓120之成像資料集12中異常之電腦實施方法10”之流程圖，成像資料集12包含屬於多個缺陷類別的缺陷23，該方法包含以下步驟：在異常偵測影像產生步驟61中，通過將異常偵測方法應用於成像資料集12來產生異常偵測影像72；執行一或多個反覆73，其中的至少一者包含以下步驟：在取樣步驟63中，針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個樣本；在校準步驟65中，通過至少一校準方法校準異常偵測影像，包含下列步驟：在訓練步驟67中，基於該等異常偵測影像值分佈的一或多個樣本，訓練用於異常定位的機器學習模型，較佳為異常分割；在應用步驟69中，將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像；在臨界步驟71中，將臨界值應用於該已校準異常偵測影像以偵測異常15，從而減少異常偵測影像72中的干擾和突出缺陷23。

圖11顯示根據本發明之第三或第四具體實施例的實例，用於偵測在晶圓120之成像資料集12中異常之電腦實施方法10’’’。異常偵測影像72在每次反覆88中的校準步驟74中校準。在校準步驟74中，從一組校準方法中選擇一校準方法。

該組校準方法包含一第一校準方法，用於基於缺陷類別子集中所有缺陷類別的異常偵測影像值分佈之一或多個樣本來訓練機器學習模型，以進行異常定位。然後將該已訓練機器學習模型應用於異常偵測影像72。最後，將臨界值應用於該已校準異常偵測影像，以獲得異常15或缺陷23。

該組校準方法亦包含一基於全局或局部臨界化及/或篩選器操作的第二校準方法。為此，針對異常偵測影像72選擇一或多個下臨界值及/或上臨界值，並且基於這些臨界值調適異常偵測影像72。篩選器操作可包含，例如，形態學清理、叢集大小篩選、大小篩選等。大小篩選器，例如，指出相應缺陷類型的最小和最大大小，因此只能檢測到大小在指定大小範圍內的異常或缺陷。異常或缺陷的大小可通過連接像素的數量、異常或缺陷在特定方向上的長度或其直徑等來測量。臨界化和篩選操作可在校準方法中組合。可設置使用者界面，以允許使用者選擇臨界值及/或篩選器。最後，將臨界值應用於該已校準異常偵測影像，以獲得異常15或缺陷23。

在評估步驟76中，檢查是否偵測到所有（或足夠多的）缺陷23。在肯定回答77的情況下，反覆88在終止步驟78中終止。否則在否定回答79的情況下，在校準方法調適步驟80中調適校準方法。

為了採用第一校準方法，在註釋調整步驟84中通過專家註釋添加或修改註釋，例如通過單擊缺陷並應用專家知識，例如與最小結構大小相關的臨界尺寸及/或臨界距離及/或間距尺寸。為了調整第二校準方法，在臨界值或篩選器調整步驟82中添加或調整臨界值及/或篩選器，例如經由使用者輸入。可基於額外資訊調整校準方法，例如，在訓練步驟86中重新訓練用於異常定位的機器學習模型。在每次反覆88中，可選擇不同的校準方法，並將其應用於來自先前反覆的該已校準異常偵測影像。

在本發明之第三或第四具體實施例的一實例中，第二校準方法包含以下步驟：對於該缺陷類別子集的每個缺陷類別，通過以下來計算一中間校準的異常偵測影像基於當前缺陷類別的該等異常偵測影像值之該已選擇的一或多個臨界值調整該等異常偵測影像值；應用當前缺陷類別的一或多個篩選器，例如大小篩選器，因此該校準方法僅保留特定大小範圍內的異常15；以及最後通過將運算元應用於所有中間校準異常偵測影像來產生已校準異常偵測影像，該運算元選自包含逐像素求和、逐像素平均、逐像素最小值、逐像素最大值、逐像素縮放的群組。如此，最終已校準異常偵測影像包含來自不同缺陷類別的缺陷23，每個缺陷類別都是基於一組不同的臨界值和篩選器從異常偵測影像72中所擷取。使用最大運算元可保留盡可能多的異常15，而最小運算元會進一步減少雜訊和干擾。

根據第一校準方法的異常偵測影像值之調適可涉及基於上臨界值u和下臨界值l以正規化值。替代上，異常偵測影像值的調適可涉及將該值裁剪到範圍[l,u]

在根據本發明之第三或第四具體實施例的一實例中，校準方法被表述為如圖12所示的逐像素分割問題。異常偵測方法的輸入影像90包含兩類缺陷23，稱為空心菱形和三角形。異常偵測方法的輸出是異常偵測影像92，其為輸入影像90與比較資料集之間的差異影像，這裡是自動編碼器重建輸入影像90的輸出。斑點背景係由於雜訊和缺陷23周圍的高重建誤差造成的。確保高缺陷回收率的簡單臨界值會產生高干擾率。因此，使用用於異常定位的機器學習模型來校準異常偵測影像92。為此，使用者界面配置成讓使用者提供關於缺陷類別子集的幾個樣本之專家註釋96。為了簡化註釋過程，使用者提供點擊點94，點擊點通過利用可用的中繼資訊（例如，臨界距離及/或臨界尺寸及/或間距大小），自動處理為像素級註釋96。根據此中繼資訊，點擊點擴大到覆蓋晶圓最小結構尺寸的區域。在部分註釋的異常偵測影像95中，註釋的像素已設定為壹（1），未註釋像素設定為零（0）。如果使用者只為缺陷類別的子集提供少量（大約5-10個，少於20個）點擊點就足夠。即使其餘的缺陷23不是訓練資料的一部分，其仍可由機器學習模型分割以進行異常分割，這是因為假設註釋類別覆蓋所有缺陷類別的外觀頻譜。根據註釋，訓練異常分割的機器學習模型。如此，使用者的工作量降到最低並且可冷啟動成，因為新的缺陷23也可基於有限的訓練資料並且因為註釋過程需要最小的使用者工作量而被偵測到。

根據本發明之第三或第四具體實施例的一實例，在訓練期間，用於異常分割的機器學習模型將諸如差異影像的部分註釋之異常偵測影像視為輸入。作為輸出，該模型將每個像素標記為針對性異常或干擾。由於並非所有輸入像素都由使用者標註，因此模型學習基於以下半監督損失函數：其中為異常偵測影像92，y _true為使用者提供來自集合{unannotated=0, anomaly=1}的像素級註釋，即部分標記的異常偵測影像95，y _pred為模型預測的標籤。損失函數L是所有像素損失之總和，其是一加權交叉熵損失，定義如下：其中像素級權重啟用半監督學習。本文中，標註為異常（）的像素經學習為分割成異常。由於負指數，未註釋的像素（）要嘛被視為非異常（在低值的情況下）或被忽略（在高值的情況下）。因此，分割模型抑制雜訊並突出顯示異常15，如分割結果所示，其對應於已校準異常偵測影像98。儘管註釋有限且外觀不同，但由於半監督損失函數，這兩缺陷類別都已分割。已校準異常偵測影像98疊加在輸入影像90上，即晶圓120的成像資料集12，產生疊加100。

圖13顯示根據本發明之第三或第四具體實施例的方法之定性分析。在頂列中，重建影像102在對應於缺陷23的區域中不同於輸入影像104。在底列中，顯示在應用校準方法之前未校準的異常偵測影像106。此未校準影像106表現出高回收率（所有缺陷23都被突出顯示）但精度低（多個對應於雜訊的鏡面高光），即具有許多誤報。再者，每個缺陷類別的高光強度不同。在右欄中，顯示在應用校準方法之後的已校準的異常偵測影像108。已校準的異常測影像108顯示高回收率和精確率，所有缺陷類別均顯示1.0的均勻強度。這些可基於0.5的單統一臨界值輕鬆自動偵測。因此，校準方法的應用保持高回收率，顯著提高精度並確保缺陷23的均勻強度值，因此將單一臨界值應用於已校準的異常偵測影像108是足夠用於異常偵測。

應用根據本發明之第三或第四具體實施例的校準方法之優勢在圖14中量化，其顯示校準之前的混淆矩陣110和校準之後的混淆矩陣112，即在分割異常偵測影像108並應用0.5的臨界值之前和之後。如此，可保持較高的回收率（0.93與1.0比較），並顯著減少誤報（從0.61至0.25），從而顯著提高精度。

圖15示意性說明用於控制半導體製造廠中晶圓120生產品質的系統114。系統114包括成像裝置116和處理裝置118。成像裝置116已連結至處理裝置118。成像裝置116配置成獲取晶圓120的成像資料集12。晶圓120可包括半導體結構，例如，諸如場效電晶體的電晶體、記憶體胞元等。成像裝置116的一實例實現可為一SEM或多束mSEM、氦離子顯微鏡（HIM）或含有FIB和SEM或任何帶電粒子成像裝置之交叉光束裝置。

成像裝置116可提供成像資料集12給處理裝置118。處理裝置118包括一處理器，例如實施為CPU 122或GPU。處理器可經由介面124接收成像資料集12。處理器可從記憶體126載入程式碼。處理器可執行程式碼。在執行程式碼時，處理器執行諸如本文所述的技術，例如超參數最佳化、訓練異常偵測方法、執行異常偵測方法以偵測晶圓120的成像資料集12中之一或多個異常15、基於異常偵測影像值分佈的樣本校準異常偵測影像等。例如，處理器可在從記憶體126載入程式碼時分別執行圖3、圖6或圖10所示的電腦實施方法。處理裝置可選擇性包含用於輸入使用者輸入的使用者界面128，例如點擊點、邊界框或異常偵測影像值的分佈特徵。

圖16示意性說明用於控制半導體製造廠中晶圓120的生產之系統114’。系統114’包含相同於圖14所示的組件，並且上述內容也適用於本文中的相對組件。此外，系統114’具有用於生產由至少一晶圓製程參數控制的晶圓120之裝置130。為此，成像資料集12通過成像裝置116提供給處理裝置118。處理裝置118的處理器配置成執行所揭示方法之一，包含基於晶圓120的成像資料集12中已偵測異常15之一或多個測量屬性，來控制至少一晶圓製程參數。例如，由於橋接缺陷的偵測到異常15指出蝕刻不足，因此增加蝕刻量，由於斷線的偵測異常15指出蝕刻過多，因此減少蝕刻量，持續出現異常15指出光罩有缺陷，因此必須檢查光罩，並且由於缺失結構的異常15暗示不理想的材料沉積，因此修改材料沉積。

以下請求項包含本發明的多個較佳具體實施例： 1a. 一種用於異常偵測的電腦實施方法，其包含： - 選擇一晶圓的成像資料集； - 從該成像資料集產生訓練資料； - 反覆以下步驟： i. 基於一取樣策略從一組關聯的超參數值中選擇一超參數值，該超參數值對應於定義一機器學習模型用於異常偵測的至少一超參數； ii. 基於該已產生訓練資料的子集，訓練由該超參數定義的該機器學習模型； iii. 藉由計算一目標函數的關聯目標函數值，以評估該已訓練機器學習模型； - 基於該相關目標函數值選擇該等已訓練機器學習模型之一者，並將其應用於晶圓成像資料集以偵測異常。 1b. 一種用於偵測晶圓之成像資料集中異常之電腦實施方法，該成像資料集包含屬於多個缺陷類別的缺陷，其包含： - 從該成像資料集產生訓練資料； - 反覆以下步驟： i. 基於一取樣策略，從一組關聯的超參數值中選擇一些超參數值，每一超參數值對應於定義一機器學習模型用於異常偵測的至少一超參數； ii. 基於該已產生訓練資料的子集，訓練用於偵測異常的該機器學習模型； iii. 通過含有至少兩不同模型評價指標的目標函數，來評估該已訓練機器學習模型； - 基於該相關目標函數值選擇該等已訓練機器學習模型之一者，並將其應用於晶圓成像資料集以偵測異常，從而提供一異常偵測影像； - 執行一或多個反覆，其中之至少一者包含下列步驟： i. 針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個樣本； ii. 利用選自一組校準方法的校準方法，根據該分佈的樣本校準該異常偵測影像，從而減少該異常偵測影像中的干擾和突出缺陷，其中該等已選取校準方法之至少一者包含下列步驟： c. 基於用於該缺陷類別子集的所有缺陷類別之該等異常偵測影像值分佈的該等一或多個樣本，訓練用於異常定位的機器學習模型，較佳為異常分割； d. 將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像； - 將單一臨界值應用於該已校準異常偵測影像，以偵測異常。 1c. 一種用於偵測晶圓之成像資料集中異常之電腦實施方法，該成像資料集包括屬於多個缺陷類別的缺陷，該方法包含： - 通過將異常偵測模型應用於該成像資料集來提供一異常偵測影像； - 執行一或多個反覆，其中至少一者包含下列步驟： i. 針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個樣本； ii. 利用選自一組校準方法的校準方法，根據該分佈的樣本校準該異常偵測影像，從而減少該異常偵測影像中的干擾和突出缺陷，其中該等已選取校準方法之至少一者包含下列步驟： a. 基於用於該缺陷類別子集的所有缺陷類別之該等異常偵測影像值分佈的該等一或多個樣本，訓練用於異常定位的機器學習模型，較佳為異常分割； b. 將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像； - 將單一臨界值應用於該已校準異常偵測影像，以偵測異常。 1. 一種用於偵測晶圓之成像資料集中異常之電腦實施方法，其包含： - 從該成像資料集產生訓練資料； - 反覆下列步驟： i. 基於一取樣策略，從一組關聯的超參數值中選擇一些超參數值，每一超參數值對應於定義一機器學習模型用於異常偵測的至少一超參數； ii. 基於該已產生訓練資料的子集，訓練用於偵測異常的該機器學習模型； iii. 通過含有至少兩不同模型評價指標的目標函數，來評估該已訓練機器學習模型； - 基於該相關目標函數值選擇該等已訓練機器學習模型之一者，並將其應用於該晶圓的成像資料集以偵測異常。 2. 如前述條款中任一項所述之方法，其中該機器學習模型在以該成像資料集的子集作為輸入呈現時受訓練，以計算無異常的該子集之重建，並且基於該子集與該重建子集之間的比較，來偵測該子集內的異常。 3. 如條款2所述之方法，其中該機器學習模型包含一自動編碼器。 4. 如前述條款中任一項所述之方法，至少一超參數與該機器學習模型的設計有關。 5. 如前述條款中任一項所述之方法，其中該等模型評估指標之一者包含在該機器學習模型訓練期間使用的該損失函數。 6. 如前述條款中任一項所述之方法，其中該等模型評估指標之一者包含一Lp-norm損失函數，其中p ≥ 1。 7. 如前述條款中任一項所述之方法，其中該訓練資料包含對該成像資料集子集的異常之專家註釋，並且該等模型評估指標之一者包含用於評估該等專家註釋異常與該等已偵測異常之間差異的一判別損失函數。 8. 如條款7所述之方法，其中該等專家註釋佔該訓練資料的不到10%，較佳不到1%。 9. 如條款7或8所述之方法，其中該等專家註釋僅包含該成像資料集中存在的該等異常之子集。 10. 如前述條款中任一項所述之方法，其中該等模型評估指標之一者包含該機器學習模型複雜性度量。 11. 如條款10所述之方法，其中該機器學習模型複雜性的度量包含該機器學習模型的一前向傳遞中之浮點運算總數。 12. 如前述條款中任一項所述之方法，其中該目標函數包含該等至少兩模型評估指標的加權總和。 13. 如條款12所述之方法，其中該訓練資料包含對該成像資料集子集異常的專家註釋，並且該目標函數包含Lp-norm損失函數的加權總和，其中p ≥ 1，這是一判別損失函數，用於評估該等專家註釋異常和該等已偵測異常與該機器學習模型複雜性度量之間的差異。 14. 如前述條款中任一項所述之方法，其中用於選擇超參數值數量的該取樣策略包含考慮超參數值和來自一或多個先前反覆的該目標函數之對應值。 15. 如條款14之所述方法，其中該取樣策略通過最佳化選自含有預期改善、最大改善概率、信賴上限群組的一標準來選擇超參數值。 16. 如先前條款中任一項所述之方法，其中該取樣策略包含一提前停止標準。 17. 如先前條款中任一項所述之方法，其中該取樣策略包含從該相關聯的一組超參數值中隨機選擇超參數值。 18. 如先前條款中任一項所述之方法，其中至少一組超參數值係與概率分佈有關聯，該概率分佈指出每個超參數值被取樣策略選擇的可能性。 18a.如先前條款所述之方法，其中該概率分佈係基於先前應用知識建模，較佳基於成像硬體設定或設計知識，諸如臨界距離。 19. 如先前條款中任一項所述之方法，其中至少兩反覆的該取樣策略不同。 20. 如先前條款中任一項所述之方法，其中該已產生訓練資料子集的大小因該取樣策略而異。 21. 如條款20所述之方法，其中該已產生訓練資料子集的大小隨反覆次數的增加而增加。 22. 如先前條款中任一項所述之方法，其中基於該特定應用的先前知識用於選擇初始超參數值。 23. 如先前條款中任一項所述之方法，其中該取樣策略包含： - 在第一反覆中：從關聯的一組超參數值中選擇初始超參數值； - 在接下來的反覆中：從關聯的一組超參數值中選擇超參數值，基於超參數值和來自一或多個先前反覆的該目標函數對應值，最大化預期改善的標準； - 如果在反覆中滿足提前停止標準：從關聯的一組超參數值中選擇初始超參數值。 24. 如先前條款中任一項所述之方法，其中反覆由多個執行緒並行執行。 25. 如先前條款中任一項所述之方法，其中該選取的機器學習模型在該晶圓的整個成像資料集上進行訓練，然後將其應用於該晶圓的該成像資料集以偵測異常。 26. 如先前條款中任一項所述之方法，其中選擇達到該最低目標函數值的該已訓練機器學習模型。 27. 如先前條款中任一項所述之方法，其中選擇達到該最高目標函數值的該已訓練機器學習模型。 28. 如先前條款中任一項所述之方法，其中該取樣策略標準實現選自於由一探索性方案和一開發性方案組成群組中至少一構件。 28a.如先前條款中任一項所述之方法，其中該目標函數包含一品質值以評估該已訓練機器學習模型的品質，其中一使用者界面配置成向使用者呈現關於該已訓練機器學習模型的資訊，並讓使用者指出該品質值。 29. 一種用於偵測晶圓之成像資料集中異常之電腦實施方法，該成像資料集包含屬於多個缺陷類別的缺陷，該方法包含： - 提供通過將異常偵測模型應用於該成像資料集已產生的一異常偵測影像； - 執行下列步驟的一或多個反覆： i. 針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個特徵； ii. 利用選自一組校準方法的校準方法，基於該分佈的特徵來校準該異常偵測影像，從而減少該異常偵測影像中的干擾和突出缺陷。 30. 如條款29、1a、1b或1c所述之方法，其中該異常偵測影像為該成像資料集與一對比資料集的差值影像。 31. 如條款30所述之方法，其中該比較資料係基於一晶粒到晶粒原則或一晶粒到資料庫原則。 32. 如條款30或31所述之方法，其中由一機器學習模型產生該比較資料集。 33. 如條款32所述之方法，其中該比較資料集包含通過在該成像資料集或其子集上訓練一自動編碼器，並將該已訓練自動編碼器應用於該成像資料集以獲得重建表示，而產生該成像資料集之重建表示。 34. 如條款29、1a、1b或1c所述之方法，其中由一機器學習模型產生該異常偵測影像。 35. 如條款34之所述方法，其中該異常偵測和該異常偵測影像的校正由一機器學習模型聯合學習，其應用於該成像資料集以直接獲得該已校正異常偵測影像。 36. 如條款29至35、1a、1b或1c中任一項所述之方法，其中該等一或多個特徵包含來自該分佈的樣本。 37. 如條款29至36、1a、1b或1c中任一項所述之方法，其中該等一或多個特徵包含該分佈的一上分位數及/或一下分位數。 38. 如條款29至37、1a、1b或1c中任一項所述之方法，其中該等一或多個特徵包含該分佈矩。 39. 如條款29至36、1a、1b或1c中任一項所述之方法，其中該等一或多個特徵包含該分佈域的最小值及/或最大值。 40. 如條款29至39中任一項所述之方法，其更針對該缺陷類別子集的每一缺陷類別提供多個篩選器。 41. 如條款40所述之方法，該等篩選器包含大小篩選器。 42. 如條款40或41所述之方法，其中該組校準方法包含一用於通過應用下列步驟來校準該異常偵測影像的校準方法： - 針對該缺陷類別子集的每個缺陷類別，通過下列步驟來計算一中間校準影像： i. 基於該當前缺陷類別的異常偵測影像值分佈之該等一或多個特徵來調適該等異常偵測影像值； ii. 應用該當前缺陷類別的一或多個篩選器； - 通過將一運算元應用於所有中間已校準影像來產生已校準異常偵測影像，該運算元選自含有逐像素總和、逐像素平均、逐像素最小值、逐像素最大值、逐像素縮放的群組。 43. 如條款42所述之方法，其中該等異常偵測影像值通過正規化來調適。 44. 如條款42所述之方法，其中該等異常偵測影像值通過裁切來調適。 45. 如條款29至44、1a、1b或1c中任一項所述之方法，其中該組校準方法包含一用於通過應用下列步驟來校準該異常偵測影像的校準方法： - 基於用於該缺陷類別子集的所有缺陷類別之該等異常偵測影像值分佈的該等一或多個特徵，訓練一用於異常定位的機器學習模型，較佳為異常分割； - 將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像。 46. 如條款45所述之方法，其中訓練該機器學習模型以基於前景和背景樣本來最佳化異常定位之損失函數。 47. 如條款46所述之方法，其中該損失函數為一加權交叉熵損失函數。 48. 如條款46所述之方法，其中該損失函數為一Kullback-Leibler散度損失函數或一L ₁損失函數或一L ₂損失函數。 49. 如條款46至48中任一項所述之方法，其中該損失函數為一半監督損失函數。 50. 如條款45至49中任一項所述之方法，其中該用於異常定位的機器學習模型係在從該分佈特徵衍生的部分標記異常偵測影像上訓練。 51. 如條款45至50中任一項所述之方法，其中該等一或多個特徵包含多個來自該等分佈的樣本，該等樣本係用作前景或背景樣本。 52. 如條款51所述之方法，其中該等樣本係用作前景樣本，且背景樣本係選自該異常偵測影像的其餘像素。 53. 如條款52所述之方法，其中如果其異常偵測影像值低於一臨界值，則可將該異常偵測影像的其餘像素選為背景樣本。 54. 如條款52或53所述之方法，其中每個背景樣本通過其異常偵測影像值的加權函數w進行加權，特別是通過負指數加權函數進行加權。 55. 如條款45至54中任一項所述之方法，其中該機器學習模型係對來自類似應用的訓練資料進行預訓練。 56. 如條款45至55中任一項所述之方法，其中該機器學習模型通過使用一焦點損失函數及/或先前缺陷率，來解決類別不平衡問題。 57. 如條款29至56、1a、1b或1c中任一項所述之方法，其更包含經由使用者界面向使用者呈現該異常偵測影像，該使用者界面配置成讓該使用者輸入關於該缺陷類別子集的每個缺陷類別之資訊，從中導出每個缺陷類別的異常偵測影像值分佈的一或多個特徵。 58. 如條款57所述之方法，其中該使用者界面配置成讓使用者指出該異常偵測影像中該缺陷類別子集的每個類別之少量缺陷位置，以及這些類別中每一者的異常偵測影像值分佈之一或多個特徵，通過從使用者針對該類別指出的缺陷中取樣異常偵測影像值來提供。 59. 如條款58所述之方法，其中該使用者通過選擇單個像素來指出缺陷的位置，較佳是該缺陷的中心區域內之像素。 60. 如條款59所述之方法，其中通過選擇圍繞所選單個像素的區域（最好是圓圈），以自動產生該缺陷的註釋。 61. 如條款60所述之方法，其中該等異常偵測影像值是從所選像素周圍的區域中取樣。 62. 如條款60或61所述之方法，其中該區域是基於應用特定知識所選擇，特別是來自晶圓製造領域的知識。 63. 如條款62所述之方法，其中該區域的大小係基於臨界尺寸所選擇。 64. 如條款62或63所述之方法，其中該區域的大小係基於間距大小所選擇。 65. 如條款29至64、1a、1b或1c中任一項所述之方法，其中該已校準異常偵測影像進行後處理，以進一步減少干擾。 66. 如條款29至65、1a、1b或1c中任一項所述之方法，其中基於類似應用提供該缺陷類別子集的每一缺陷類別之異常偵測影像值分佈的一或多個特徵。 67. 如條款29至66、1a、1b或1c中任一項所述之方法，其更針對該已校準異常偵測影像中每個異常產生一不確定性估計。 68. 如條款29至67、1a、1b或1c中任一項所述之方法，其更包含執行該等一或多個反覆之後的一最後步驟 - 通過單個臨界值對該已校準差異影像進行臨界化處理，以獲得二進制異常偵測影像。 69. 如條款29至68、1a、1b或1c中任一項所述之方法，其中該缺陷類別子集包含少於該缺陷類別的50%，較佳少於該缺陷類別的30%，更佳少於該缺陷類別的20%，並且最佳少於該缺陷類別的10%。 70. 如條款29至69、1a、1b或1c中任一項所述之方法，其中執行多個反覆並且該校準方法對於多個反覆中的至少兩反覆是不同。 70a.如先前條款中任一項所述之方法，其中該成像資料集包含一或多個多感官影像。 70b.如先前條款中任一項所述之方法，其中該成像資料集包含二維影像、三維影像、切片三維影像或多感官融合影像。 71. 如先前條款中任一項所述之方法，其中該成像資料集為一多束SEM影像。 72. 如先前條款中任一項所述之方法，其中該成像資料集為一聚焦離子束SEM影像。 73. 如先前條款中任一項所述之方法，其更包含測量該等已偵測異常的一或多個特徵。 74. 如條款73所述之方法，其更基於該等一或多個測量屬性以控制至少一晶圓製程參數。 75. 如條款73所述之方法，其更包含基於該等一或多個測量屬性和該至少一品質評估規則，以評估該晶圓的品質。 76. 一或多個機器可讀取硬體儲存裝置，其包含可由一或多個處理裝置執行以執行含有如條款1至75中任一項所述之方法的指令。 77. 一種用於控制半導體製造廠中生產的晶圓品質之系統，該系統包含： - 一成像裝置，其適於提供該晶圓的成像資料集； - 一或多個處理裝置； - 一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行含有如條款75之方法的指令。 78. 一種用於控制半導體製造廠中晶圓生產之系統，該系統包含： - 一生產晶圓構件，用於生產由至少一製程參數控制的晶圓； - 一成像裝置，其適於提供該晶圓的成像資料集； - 一或多個處理裝置； - 一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行含有如條款74之方法的指令。 79. 一種用於異常偵測的電腦實施方法，其包含： - 選擇一晶圓的成像資料集； - 從該成像資料集產生訓練資料； - 反覆下列步驟： i. 基於一取樣策略從一組關聯的超參數值中選擇一超參數值，該超參數值對應於定義一機器學習模型用於異常偵測的至少一超參數； ii. 基於該已產生訓練資料的子集，訓練由該超參數定義的該機器學習模型； i. 藉由計算一目標函數的關聯目標函數值，以評估該已訓練機器學習模型； - 基於該相關目標函數值選擇該等已訓練機器學習模型之一者，並將其應用於晶圓成像資料集以偵測異常。 80. 如條款79所述之方法，其中該機器學習模型在以該成像資料集的子集作為輸入呈現時受訓練，以計算無異常的該子集之重建，並且基於該子集與該重建子集之間的比較，來偵測該子集內的異常。 81. 如條款80所述之方法，其中該機器學習模型包含一自動編碼器。 82. 如條款79至81中任一項所述之方法，其中至少一超參數係與該機器學習模型的設計有關。 83. 如條款79至82中任一項所述之方法，其中該目標函數包含至少兩不同的模型評估指標。 84. 如條款83所述之方法，其中該等模型評估指標之一者包含在該機器學習模型訓練期間使用的該損失函數。 85. 如條款83或84所述之方法，其中該等模型評估指標之一者包含一Lp-norm損失函數，其中p ≥ 1。 86. 如條款83至85中任一項所述之方法，其中該訓練資料包含對該成像資料集子集的異常之專家註釋，並且該等模型評估指標之一者包含用於評估該等異常的該等專家註釋與該等已偵測異常之間差異的一判別損失函數。 87. 如條款86所述之方法，其中該等專家註釋僅包含該成像資料集中存在的該等異常之子集。 88. 如條款83至87中任一項所述之方法，其中該等模型評估指標之一者包含該機器學習模型複雜性度量。 89. 如條款88所述之方法，其中該機器學習模型複雜性的度量包含該機器學習模型的一前向傳遞中之浮點運算總數。 90. 如條款79至89中任一項所述之方法，其中該訓練資料包含對該成像資料集子集異常的專家註釋，並且該目標函數包含Lp-norm損失函數的加權總和，其中p ≥ 1，這是一判別損失函數，用於評估該等專家註釋異常與該等已偵測異常之間的差異，以及該機器學習模型複雜性度量。 91. 如條款79至90中任一項所述之方法，其中該目標函數包含一品質值以評估該已訓練機器學習模型的品質，其中一使用者界面配置成向使用者呈現關於該已訓練機器學習模型的資訊，並讓使用者指出該品質值。 92. 如條款79至91中任一項所述之方法，其中用於選擇超參數值的取樣策略包含通過最佳化從含有預期改善、最大改善概率、信賴上限的群組中選擇的一標準，以考慮來自一或多個先前反覆的目標函數之超參數值和對應值。 93. 如條款79至92中任一項所述之方法，其中該取樣策略包含一提前停止標準。 94. 如條款79至93中任一項所述之方法，其中之至少一組超參數值係與概率分佈有關聯，該概率分佈指出每個超參數值被取樣策略選擇的可能性。 95. 如條款94所述之方法，其中該概率分佈係基於先前應用知識建模，較佳基於成像硬體設定或設計知識，諸如臨界距離、臨界尺寸或間距大小。 96. 如條款79至95中任一項所述之方法，其中至少兩反覆的該取樣策略不同。 97. 如條款79至96中任一項所述之方法，其中該已產生訓練資料子集的大小隨反覆次數的增加而增加。 98. 一種用於偵測晶圓之成像資料集中異常之電腦實施方法，該成像資料集包含屬於多個缺陷類別的缺陷，該方法包含： - 通過將異常偵測方法應用於成像資料集來產生異常偵測影像； - 執行一或多個反覆，其中至少一者包含下列步驟： i. 針對該等缺陷類別子集的每個缺陷類別提供異常偵測影像值分佈的一或多個樣本； ii. 通過至少一校準方法校準異常偵測影像，包含下列步驟： a. 基於該等異常偵測影像值分佈的一或多個樣本，訓練用於異常定位的機器學習模型，較佳為異常分割； b. 將該已訓練機器學習模型應用於該異常偵測影像，以獲得該已校準異常偵測影像； - 將臨界值應用於該已校準異常偵測影像以偵測異常，從而減少異常偵測影像中的干擾和突出缺陷。 99. 如條款98所述之方法，其中該異常偵測影像係該成像資料集與一比較資料集的差異影像，該比較資料係基於晶粒到晶粒原則或晶粒到資料庫原則。 100. 如條款99所述之方法，其中該比較資料集包含通過在該成像資料集或其子集上訓練一機器學習自動編碼器，並將該已訓練自動編碼器應用於該成像資料集以獲得重建表示，而產生該成像資料集之重建表示。 101. 如條款98至100中任一項所述之方法，其中用於異常定位的該機器學習模型係訓練成基於前景和背景樣本最佳化一損失函數。 102. 如條款101所述之方法，其中該損失函數為半監督損失函數。 103. 如條款101或102所述之方法，其中來自該缺陷類別子集中每個缺陷類別的該等異常偵測影像值分佈之樣本係用作前景或背景樣本。 104. 如條款103所述之方法，其中該等樣本係用作前景樣本，並且背景樣本從該異常偵測影像的其餘像素中選擇。 105. 如條款104所述之方法，其中如果其異常偵測影像值低於一臨界值，則可將該異常偵測影像的其餘像素選為背景樣本。 106. 如條款104或105所述之方法，其中每個背景樣本通過其異常偵測影像值的加權函數w來加權，特別是通過負指數加權函數來加權。 107. 如條款98至106中任一項所述之方法，其中該使用者界面配置成讓使用者指出該異常偵測影像中該缺陷類別子集的每個類別之少量缺陷位置，其中該使用者通過選擇該缺陷的單個像素，較佳中心區域中的像素，來指出缺陷的位置，並且通過選擇圍繞所選單個像素的區域，較佳為圓形，以自動產生該缺陷的註釋，並且從該所選像素周圍的區域中取樣該等異常偵測影像值。 108. 如條款107所述之方法，其中該區域的大小係基於臨界尺寸及/或臨界距離及/或間距大小所選擇。 109. 如條款79至108中任一項所述之方法，其中該成像資料集包含一或多個多感官影像。 110. 如條款79至109中任一項所述之方法，其中該成像資料集為一多束SEM影像。 111. 如條款79至110中任一項所述之方法，其中該成像資料集為一聚焦離子束SEM影像。 112. 如條款79至111中任一項所述之方法，其更包含測量該等已偵測異常的一或多個特徵。 113. 如條款112所述之方法，其更基於該等一或多個測量屬性以控制至少一晶圓製程參數。 114. 如條款112所述之方法，其更包含基於該等一或多個測量屬性和該至少一品質評估規則，以評估該晶圓的品質。 115. 一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行含有如條款79至114中任一項所述之方法的指令。 116. 一種用於控制半導體製造廠中生產的晶圓品質之系統，該系統包含： - 一成像裝置，其適於提供該晶圓的成像資料集； - 一或多個處理裝置； - 一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行含有如條款114所述之方法的指令。 117. 一種用於控制半導體製造廠中晶圓生產之系統，該系統包含： - 一生產晶圓構件，用於生產由至少一製程參數控制的晶圓； - 一成像裝置，其適於提供該晶圓的成像資料集； - 一或多個處理裝置； - 一或多個機器可讀取硬體儲存裝置，其含有可由一或多個處理裝置執行以執行含有如條款113所述之方法的指令。

總結來說，本發明應特別注意以下較佳特徵：本發明係關於一種用於偵測異常15的電腦實施方法10、10’，其包含：選擇一晶圓120的成像資料集12和一定義機器學習模型16用於異常偵測的超參數值；藉由計算一目標函數值來訓練和評估該機器學習模型16；選擇該等已訓練機器學習模型之一者並將其應用於偵測異常15。本發明另關於用於偵測在晶圓120之成像資料集12中的異常15的電腦實施方法10’’，其包含：針對每個缺陷類別提供異常偵測影像值分佈的樣本；針對異常定位藉由訓練一機器學習模型來校準該異常偵測影像20、26、26’；將一臨界值應用於該已校準異常偵測影像98、108，以偵測異常15。

10、10’、10’’、10’’’:電腦實施方法 11:缺陷單元結構 12:成像資料集 14:輸入 15:異常 16:機器學習模型 18:重建 19:資料選擇步驟 20:異常偵測影像 21:訓練資料產生步驟 22、22’:輸入影像 23:缺陷 24、24’:重建影像 25:超參數值選擇步驟 26、26’:異常偵測影像 27:訓練步驟 28、28’:異常偵測影像 29:模型評估步驟 30、30’:輸入影像 31:模型選擇步驟 32、32’:重建影像 34:無缺陷資料 36:專家註釋 38:專家知識 40:超參數範圍 42:樣本 43:超參數最佳化單元 44:削剪器 46:目標函數 48:超參數 50:二次取樣資料集 52:全成像資料集 54:最佳化模型 56:最終模型 58:良好組 60:不良組 61:異常偵測影像產生步驟 62:良好組的密度 63:取樣步驟 64:不良組的密度 65:校準步驟 66:預期的改善 67:訓練步驟 68:最差試驗 69:應用步驟 70:最好試驗 71:臨界化步驟 72:異常偵測影像 73:反覆 74:校準步驟 76:評估步驟 77:肯定答案 78:終止步驟 79:否定答案 80:校準方法調適步驟 82:臨界或篩選調整步驟 84:註釋調整步驟 86:訓練步驟 88:反覆 90:輸入影像 92:異常偵測影像 94:點擊點 95:部分註釋的異常偵測影像 96:註解 98:已校準異常偵測影像 100:重疊 102:重建影像 104:輸入影像 106:未校準異常偵測影像 108:已校準異常偵測影像 110:校準之前的混淆矩陣 112:校準之後的混淆矩陣 114、114’:系統 116:成像裝置 118:處理裝置 120:晶圓 122:CPU 124:介面 126:記憶體 128:使用者界面 130:生產晶圓構件

圖1顯示由於各種缺陷而含有複數個異常的示意性缺陷單元結構；

圖2顯示應用於晶圓成像資料集的異常偵測方法（諸如自動編碼器）之流程圖和結果；

圖3顯示根據本發明之第一或第二具體實施例的異常偵測方法之流程圖；

圖4顯示通過常見的超參數最佳化方法獲得異常偵測方法的結果；

圖5顯示根據本發明之第一或第二具體實施例的實例之異常偵測方法的流程圖；

圖6顯示基於含有至少兩不同模型評估指標的目標函數，根據本發明之第一或第二具體實施例的一實例之異常偵測方法的結果；

圖7例示樹狀結構Parzen估計器的取樣策略；

圖8例示異步連續減半演算法的削剪策略；

圖9顯示根據樹狀結構Parzen估計器的取樣策略選擇的超參數所定義不同機器學習模型的目標函數值之演變；

圖10顯示根據本發明之第三或第四具體實施例的用於偵測晶圓之成像資料集中異常之電腦實施方法的流程圖；

圖11顯示根據本發明之第三或第四具體實施例的一實例，用於偵測晶圓之成像資料集中異常之電腦實施方法的流程圖；

圖12顯示根據本發明之第三或第四具體實施例的用於偵測晶圓之成像資料集中異常之電腦實施方法的步驟；

圖13顯示根據本發明之第三或第四具體實施例的用於偵測晶圓之成像資料集中異常之電腦實施方法所獲得異常偵測影像與已校準異常偵測影像的比較；

圖14顯示根據本發明之第三或第四具體實施例的用於偵測晶圓之成像資料集中異常之電腦實施方法所獲得異常偵測影像與已校準異常偵測影像的混淆矩陣；

圖15示意性說明用於控制半導體製造廠中晶圓品質的系統；

圖16示意性說明用於控制半導體製造廠中晶圓生產的系統。

12:成像資料集

14:輸入

16:機器學習模型

18:重建

20:異常偵測影像

22、22’:輸入影像

23:缺陷

24、24’:重建影像

26、26’:異常偵測影像

Claims

一種用於多個異常（15）之偵測的電腦實施方法（10、10’），其包含： - 選擇一晶圓（120）的一成像資料集（12）； - 從該成像資料集（12）產生訓練資料； - 反覆下列步驟： i. 基於一取樣策略從關聯的一組超參數值中選擇一超參數值，該超參數值對應於定義一機器學習模型（16）用於異常（15）之偵測的至少一超參數（48）； ii. 基於已產生的該訓練資料的一子集，訓練由該超參數（48）定義的該機器學習模型（16）； iii. 藉由計算一目標函數（46）的關聯的一目標函數值，以評估已訓練的該機器學習模型（16）； - 基於關聯的該目標函數值選擇已訓練的該等機器學習模型之一者，並將其應用於一晶圓（120）的該成像資料集（12）以偵測異常（15）。
如請求項1所述之方法，其中該機器學習模型在以該成像資料集（12）的一子集作為輸入（14）呈現時受訓練，以計算無異常（15）的該子集之重建（18），並且基於該子集與重建的該子集之間的比較，來偵測該子集內的該等異常（15）。
如請求項2所述之方法，其中該機器學習模型（16）包含一自動編碼器。
如前述請求項中任一項所述之方法，其中至少一超參數（48）為一設計超參數，其係與該機器學習模型（16）的設計有關。
如前述請求項中任一項所述之方法，其中該至少一超參數（48）的全部為設計超參數，其係與該機器學習模型的設計有關。
如前述請求項中任一項所述之方法，其中該目標函數（46）包含至少兩不同的模型評估指標。
如請求項6所述之方法，其中該等模型評估指標之至少一者測量該等異常偵測的該品質。
如請求項6或7所述之方法，其中該等模型評估指標之一者包含在該機器學習模型（16）訓練期間使用的該損失函數。
如請求項8所述之方法，其中該等模型評估指標之一者為在該機器學習模型（16）訓練期間使用的該損失函數。
如請求項6至9中任一項所述之方法，其中該等模型評估指標之一者包含該等訓練資料樣本和相應之多個目標資料樣本的一Lp-norm損失函數，其中p ≥ 1。
如請求項7至10中任一項所述之方法，其中該訓練資料包含對該成像資料集（12）之多個子集之多個異常（15）的多個專家註釋（36），並且該等模型評估指標之一者包含用於評估該等異常（15）的該等專家註釋（36）與已偵測之該等異常（15）之間差異的一判別損失函數。
如請求項11所述之方法，其中該等專家註釋（36）僅將多個標記指派至該成像資料集（12）中存在的多個異常類型（15）之一子集。
如請求項7至12中任一項所述之方法，其中該等模型評估指標之一者包含該機器學習模型（16）的一複雜性度量。
如前述請求項中任一項所述之方法，其中該訓練資料包含對該成像資料集（12）之多個子集之多個異常（15）的多個專家註釋（36），並且該目標函數（46）包含該等訓練資料樣本和相應之多個目標資料樣本的一Lp-norm損失函數的一加權總和，其中p≥1，以及評估該等異常（15）的該等專家註釋（36）之間差異的一判別損失函數。
如請求項14所述之方法，其中該目標函數（46）更包含該機器學習模型（16）的一複雜性度量。
如請求項13或15所述之方法，其中該機器學習模型（16）之該複雜性度量考量該機器學習模型（16）的一前向傳遞中之多個浮點運算的總數。
如先前請求項中任一項所述之方法，其中該目標函數（46）包含一品質值，以評估已訓練之該機器學習模型（16）的品質，其中一使用者界面（128）配置成向一使用者呈現關於已訓練之該機器學習模型（16）的資訊，並讓該使用者指出該品質值。
如前述請求項中任一項所述之方法，其中用於選擇超參數值的數量的該取樣策略包含通過最佳化從含有預期改善、最大改善概率、信賴上限的群組中選擇的一標準，以考慮來自一或多個先前反覆的該目標函數（46）之超參數值和對應值。
如先前請求項中任一項所述之方法，其中該取樣策略包含一提前停止標準。
如先前請求項中任一項所述之方法，其中至少一組超參數值係與一概率分佈有關聯，該概率分佈指出每個超參數值被該取樣策略選擇的可能性。
如請求項20所述之方法，其中該概率分佈係基於關於臨界距離、臨界尺寸或間距大小的先前應用知識而建模。
如先前請求項中任一項所述之方法，其中對於至少兩反覆，該取樣策略不同。
如先前請求項中任一項所述之方法，其中已產生之該訓練資料的該子集的大小隨反覆次數的增加而增加。
一種用於在一晶圓（120）之一成像資料集（12）中多個異常（15）之偵測的電腦實施方法（10’’、10’’’），該成像資料集（12）包含屬於多個缺陷類別的多個缺陷（23），該方法包含： - 通過將一異常偵測方法應用於成像資料集（12）來產生一異常偵測影像（20、26、26’、28、28’、72、92）； - 執行包含下列步驟的一或多個反覆（88）： i. 針對該等缺陷類別之一子集的每個缺陷類別提供多個異常偵測影像值之一分佈的一或多個樣本； ii. 通過至少一校準方法校準該異常偵測影像（20、26、26’、28、28’、72、92），其包含下列步驟： a. 基於該等異常偵測影像值之該分佈的該一或多個樣本，訓練用於異常定位，較佳為異常分割的一機器學習模型； b. 將該已訓練之該機器學習模型應用於該異常偵測影像（20、26、26’、28、28’、72、92），以獲得已校準之該異常偵測影像（98、108）； - 將一臨界值應用於已校準之該異常偵測影像（98、108）以偵測多個異常（15），從而減少該異常偵測影像（20、26、26’、28、28’、72、92）中的干擾和多個突出缺陷（23）。
如請求項24所述之方法，其中該異常偵測影像（20、26、26’、28、28’、72、92）係該成像資料集（12）與一比較資料集的一差異影像，該比較資料係基於晶粒到晶粒原則或晶粒到資料庫原則。
如請求項25所述之方法，其中該比較資料集包含該成像資料集（12）之一重建表示，其通過在該成像資料集（12）或其一子集上訓練一機器學習自動編碼器並且將已訓練之該自動編碼器應用於該成像資料集（12）以獲得該重建表示而產生。
如請求項24至26中任一項所述之方法，其中用於異常定位的該機器學習模型係訓練成基於多個異常和非異常樣本以最佳化一損失函數。
如請求項27所述之方法，其中該損失函數為一半監督損失函數。
如請求項27或28所述之方法，其中來自該等缺陷類別之一子集中每個缺陷類別的多個異常偵測影像值之該等分佈之該等樣本係用作多個異常樣本。
如請求項29之方法，其中該等非異常樣本係選自該異常偵測影像（20、26、26’、28、28’、72、92）的多個其餘像素。
如請求項30所述之方法，其中將該異常偵測影像（20、26、26’、28、28’、72、92）的一其餘像素選為一非異常樣本，如果其異常偵測影像值低於一臨界值的話。
如請求項30或31所述之方法，其中在該損失函數中每個異常樣本通過其異常偵測影像值的一加權函數w來加權，特別是通過負指數加權函數來加權。
如請求項27至32中任一項所述之方法，其中該損失函數為一半監督加權交叉墒損失函數。
如請求項33所述之方法，其中該損失函數由下列定義：其中表示該異常偵測影像（20、26、26’、28、28’、72、92），y _true表示來自該集合的一像素級註釋{未註釋=0，異常=1}，y _pred表示該機器學習模型所預設的標記，w為加權因子，及i係指該異常偵測影像（20、26、26’、28、28’、72、92）中的像素索引。
如請求項24至34中任一項所述之方法，其中將一單個臨界值應用於已校準之該異常偵測影像（98、108），以偵測異常（15）。
如請求項24至35中任一項所述之方法，其中該使用者界面（128）配置成讓一使用者指出該異常偵測影像（20、26、26’、28、28’、72、92）中該等缺陷類別之該子集的每個類別之少量缺陷（23）的位置，其中該使用者通過選擇該缺陷（23）的一單個像素，較佳中心區域中的一像素，以指出一缺陷（23）的位置，並且通過選擇圍繞所選之該單個像素的一區域，較佳為一圓形，以自動產生該缺陷的一註釋（96），並且從圍繞所選該像素的區域中取樣該等異常偵測影像值。
如請求項36所述之方法，其中該區域的大小係基於臨界尺寸及/或臨界距離及/或間距大小所選擇。
如先前請求項中任一項所述之方法，其中該成像資料集（12）包含一或多個多感官影像。
如先前請求項中任一項所述之方法，其中該成像資料集（12）為一多束SEM影像。
如請求項中任一項所述之方法，其中該成像資料集（12）為一聚焦離子束SEM影像。
如先前請求項中任一項所述之方法，其更包含測量已偵測之該等異常（15）的一或多個特徵。
如請求項41所述之方法，更基於該一或多個測量屬性以控制至少一晶圓製程參數。
如請求項42所述之方法，更包含基於該一或多個測量屬性和該至少一品質評估規則，以評估該晶圓（120）的品質。
一或多個機器可讀取硬體儲存裝置，其包含可由一或多個處理裝置（118）執行的多個指令，以執行包含如請求項1至43中任一項所述之方法的多個操作。
一種包含多個指令的電腦程式產品，當由電腦執行該程式時，該等指令使該電腦執行前述請求項中任一項所述之方法。
一種用於控制在一半導體製造廠中生產的多個晶圓（120）之品質的系統（114），該系統（114）包含： - 一成像裝置（116），其適於提供該晶圓（120）的一成像資料集（12）； - 一或多個處理裝置（118）； - 一或多個機器可讀取硬體儲存裝置，其包含可由一或多個處理裝置（118）執行的多個指令，以執行包含如請求項43所述之方法的多個操作。
一種用於控制一半導體製造廠中多個晶圓（120）之生產的系統（114’），該系統（114’）包含： - 一生產晶圓構件（130），其用於生產由至少一製程參數控制的多個晶圓（120）； - 一成像裝置（116），其適於提供該晶圓（120）的一成像資料集（12）； - 一或多個處理裝置（118）； - 一或多個機器可讀取硬體儲存裝置，其包含可由一或多個處理裝置（118）執行的多個指令，以執行包含如請求項42所述之方法的多個操作。