TW202038110A

TW202038110A - 分類半導體樣本中的缺陷

Info

Publication number: TW202038110A
Application number: TW108146199A
Authority: TW
Inventors: 阿賽夫艾斯拜格; 寶茲扣漢; 胥倫甘奧
Original assignee: 以色列商應用材料以色列公司
Priority date: 2018-12-20
Filing date: 2019-12-17
Publication date: 2020-10-16
Also published as: KR102530950B1; US11321633B2; CN112805719A; US20200202252A1; WO2020129041A1; JP7254921B2; KR20210105335A; TWI791930B; JP2022512292A

Abstract

提供了用於分類半導體樣本中的缺陷的分類器和方法。方法包含：接收分類為多數類別的第一組缺陷，而一些缺陷屬於一個或多個少數類別且一些缺陷屬於多數類別；選擇屬性子集並為屬性定義區分項，以使第二分類器使用屬性子集與區分項正確地將至少一部分缺陷分類為少數類別與多數類別；生成訓練集，訓練集包括：多數類別的缺陷、少數類別的缺陷、以及被第二分類器分類為少數類別的額外缺陷；在訓練集、子集與區分項上訓練引擎，引擎獲取對於缺陷屬於多數類別的可信度；將引擎應用於被分類為多數類別的第二組缺陷，以獲得對於將每個缺陷分類為多數類別的可信度；以及輸出具有低可信度的缺陷為屬於一個或多個少數類別。

Description

分類半導體樣本中的缺陷

當前揭示的技術標的總體上涉及樣本檢驗領域，並且更具體地涉及能夠自動偵測將被分類為監測缺陷類別的缺陷的方法和系統。

對於相關於所製造元件的超大型整合化的高密度與效能的當前需求，需要次微米特徵、提高電晶體與電路速度、以及改良可靠性。這種需求要求以高精度與高度均勻性形成元件特徵，這相應地使得必需小心監測製造處理，包含在元件仍處於半導體樣本形式時就頻繁且詳細地檢驗元件。

本說明書所述用詞「樣本(specimen)」，應被擴張性地解譯為涵蓋用於製造半導體積體電路、磁頭、平面顯示器與其他半導體製品的任何種類的晶圓、遮罩、以及其他以上各者之結構、結合及/或零件。

本說明書所述用詞「缺陷(defect)」，應被擴張性地解譯為涵蓋形成在樣本上或在樣本內的任何類型的異常或不期望的特徵。

複雜的樣本製造處理並非不會存在誤差，且該等誤差可在所製造的元件中產生錯誤。該等錯誤可包含可有害於元件操作的缺陷，以及可為缺陷但不會對所製造的元件有害或造成誤動作的損害(nuisances)。作為非限制性示例，在製造處理期間內，由於原始材料中的錯誤、機械、電性或光學性誤差、人為誤差或其他誤差，而可產生缺陷。此外，缺陷可能是由時空因素引起的，諸如在檢驗處理中一個或多個製造階段之後發生的晶圓溫度變化，這可能會導致晶圓變形。檢驗處理還可能引入其他所謂的誤差，例如由於檢驗設備或處理中的光學、機械或電性問題，從而使得資料擷取不盡完美。這種誤差可能會產生誤報結果，看起來可能包含缺陷，但實際上此區域不存在缺陷。

在許多應用中，缺陷的類型或類別是重要的。例如，可將缺陷分類為數個類別中的一個，諸如顆粒、刮痕、處理等等。

本說明書所述用詞「多數類別(majority class)」，應被擴張性地解譯為涵蓋時常發生的任何缺陷種類或類別。例如，若在檢驗樣本時發生預定數量的一類別的缺陷、在檢驗樣本時至少檢測到預定部分的屬於一類別的缺陷、所遭遇到的屬於一類別的缺陷數量足以訓練分類器以將缺陷辨識為屬於此類別、或其他準則時，則可將此類別視為多數類別。

本說明書所述用詞「少數類別(minority class)」，應被擴張性地解譯為涵蓋不時常發生的任何缺陷種類或類別，且因此統計資料不足以藉由訓練分類器將缺陷分類到此類別而產生可靠的分類模型。例如，若在檢驗樣本時發生少於預定數量的一類別的缺陷、在檢驗樣本時檢測到少於預定部分的屬於一類別的缺陷、所遭遇到的屬於一類別的缺陷數量不足以訓練分類器以將缺陷辨識為屬於此類別等等，則可將此類別視為少數類別。

除非另外明確說明，否則本說明書所述用詞「檢驗」應被擴張性地解譯為涵蓋對物件進行的任何種類的偵測及/或分類。藉由在待檢驗物件製造期間（或其後）使用非破壞性檢驗工具來進行檢驗。作為非限制性示例，檢驗處理可包含使用一個或多個檢驗工具，對物件或物件部分進行的掃描（單次或多次掃描）、取樣、查核、測量、分類和/或其他操作。類似的，可在待檢驗物件的製造之前提供檢驗，並可例如包含產生檢驗配方。應注意到，除非另外明確說明，否則本說明書所述用詞「檢驗」或其衍伸用詞，不限於所檢驗區域的尺寸、掃描的速度或解析度、或檢驗工具的類型。作為非限制性示例，各式各樣的非破壞性檢驗工具包含光學工具、掃描式電子顯微鏡、原子力顯微鏡等等。

檢驗處理可包含複數個檢驗步驟。在製造處理期間內，可多次執行檢驗步驟，例如在製造之後或在處理某些層之後等等。額外或替代地，可重複多次進行每個檢驗步驟，例如對於不同樣本位置進行，或由不同的檢驗設定對於相同樣本位置進行。

作為非限制性示例，執行時間(run-time)檢驗可採用兩階程序，例如檢驗樣本且隨後校核所取樣的缺陷。在檢查步驟期間，通常由相當高的速度及/或低解析度來掃描樣本或樣本部分（例如感興趣區域、熱點等等）的表面。分析所擷取的檢查圖樣，以偵測缺陷並獲取位置與其他的缺陷檢查屬性。在查核步驟，在檢查階段偵測到的至少一些缺陷的圖像，通常被由相當低的速度及/或高解析度擷取，從而能夠對至少一些缺陷進行分類及（可選的）其他分析。在一些情況中，可由相同的檢查工具實施這兩個階段，且在一些其他情況中，由不同的檢查工具實施這兩個階段。

根據本案揭示技術標的的一些態樣，提供一種用於將樣本中的缺陷分類為複數個類別的系統。系統包括處理器和記憶體電路系統（PMC），PMC經配置為：接收由第一分類器分類為多數類別的複數個缺陷，其中複數個缺陷中的一個或多個缺陷屬於一個或多個少數類別，並且複數個缺陷中的至少一部分缺陷屬於多數類別，並且其中複數個缺陷中的每個缺陷由複數個屬性特徵化，每個屬性具有各自的值；選擇複數個屬性的子集，並為子集的每個屬性定義區分項，以使配置為根據子集和每個相應屬性的區分項對缺陷進行分類的第二分類器，可以正確地將複數個缺陷中至少預定份額的缺陷分類為一個或多個少數類別與多數類別；生成臨時訓練集，臨時訓練集包括：屬於多數類別的複數個缺陷中的至少一部分缺陷、屬於少數類別的複數個缺陷中的至少一部分、以及額外缺陷，額外缺陷具有屬性子集的值而使第二分類器將額外缺陷分類為少數類別；訓練引擎，引擎經配置以獲取對於由屬性子集的第一組值所特徵化的缺陷係屬於多數類別的可信度，其中係對臨時訓練集、屬性子集子集的每個屬性的區分項執行訓練；將引擎應用於被分類為多數類別的第二複數個缺陷中的每個給定缺陷，以獲得對於將給定缺陷分類為多數類別的可信度；以及從第二複數個缺陷輸出具有低於一定臨限的可信度的缺陷，缺陷從而被假定為屬於一個或多個少數類別。

根據本案揭示技術標的的進一步態樣，PMC可進一步經配置以生成額外缺陷，額外缺陷可由第二分類器分類為一個或多個少數類別，並將額外缺陷包含入臨時訓練集中。額外缺陷中的至少一個缺陷為被產生為複數個第一組值的合成缺陷，每個第一值根據子集的每個屬性的區分項相關聯於來自子集的屬性。作為非限制性示例，將相關聯於給定屬性的第一值決定為一值，此值在屬於一個或多個少數類別的第一缺陷的給定屬性的值以及鄰近第一缺陷並屬於多數類別的第二缺陷的給定屬性的值之間，及決定為屬於一個或多個少數類別之缺陷的給定屬性之值。。

根據本案揭示技術標的的進一步態樣，PMC進一步經配置以：將輸出缺陷的至少一部分識別為屬於一個或多個少數類別；藉由對訓練集訓練第一分類器來更新第一分類器，訓練集包含屬於一個或多個少數類別的複數個缺陷的至少一些缺陷、屬於多數類別的複數個缺陷的至少一些缺陷、以及被識別為屬於一個或多個少數類別的輸出缺陷；以及更新由第一分類器分類為多數類別的複數個缺陷，並輸出在更新時出現且引擎對其獲取具有低於臨限值的可信度的缺陷。

根據本案揭示技術標的的其他態樣，提供一種分類缺陷的方法，方法由計算平臺執行，計算平臺包括處理器和記憶體電路系統（PMC）。方法包含：由PMC接收由第一分類器分類為多數類別的複數個缺陷，其中複數個缺陷中的一個或多個缺陷屬於一個或多個少數類別，並且複數個缺陷中的至少一部分缺陷屬於多數類別，並且其中複數個缺陷中的每個缺陷由複數個屬性特徵化，每個屬性具有各自的值；由PMC選擇複數個屬性的子集，並為子集的每個屬性定義區分項，以使配置為根據子集和每個相應屬性的區分項對缺陷進行分類的第二分類器，可以正確地將複數個缺陷中至少一預定份額的缺陷分類為一個或多個少數類別與多數類別；由PMC生成臨時訓練集，臨時訓練集包括：屬於多數類別的複數個缺陷中的至少一部分缺陷、屬於少數類別的複數個缺陷中的至少一部分、以及額外缺陷，額外缺陷具有屬性子集的值而使第二分類器將額外缺陷分類為少數類別；由PMC訓練引擎，引擎經配置以獲取對於由屬性子集的第一組值所特徵化的缺陷係屬於多數類別的可信度，其中係對臨時訓練集、屬性子集與子集的每個屬性的區分項執行訓練；由PMC將引擎應用於被分類為多數類別的第二複數個缺陷中的每個給定缺陷，以獲得對於將給定缺陷分類為多數類別的可信度；以及由PMC從第二複數個缺陷輸出具有低於預定臨限的可信度的缺陷，該等缺陷從而被假定為屬於一個或多個少數類別。

根據本案揭示技術標的的進一步態樣，方法可進一步包含生成額外缺陷，額外缺陷可由第二分類器分類為一個或多個少數類別，並將額外缺陷包含入臨時訓練集中。額外缺陷中的至少一個缺陷為被產生為複數個第一組值的合成缺陷，每個第一值根據對於子集的每個屬性的區分項相關聯於來自子集的屬性。

根據本案揭示技術標的的進一步態樣，方法可進一步包含：將輸出缺陷的至少一部分識別為屬於一個或多個少數類別；藉由對訓練集訓練第一分類器來更新第一分類器，訓練集包含屬於一個或多個少數類別的複數個缺陷的至少一些缺陷、屬於多數類別的複數個缺陷的至少一些缺陷、以及被識別為屬於一個或多個少數類別的輸出缺陷；以及更新由第一分類器分類為多數類別的複數個缺陷，並輸出在更新時出現且引擎對缺陷獲取具有低於臨限值的可信度的缺陷。

在本案揭示技術標的的一些具體實施例的優點中，增強了對使用者設置的成功準則或度量的監測，此成功準則相關於自動化缺陷分類。成功準則的一些非限制性示例，包括一個或多個類別的分類純度、一個或多個類別的分類準確性、以及提取。

進一步的優點之一是，藉由校正不平衡訓練集的影響，藉由識別一個或多個少數類別的其他缺陷，以及在利用本發明之前正確地將無法分類的缺陷正確分類，來根據使用者需求優化分類結果。

在下面的詳細描述中，闡述了許多具體細節以便提供對本發明的透徹理解。然而，本領域技術人員將理解到，可以在沒有這些具體細節的情況下實踐本案揭示的技術標的。在其他情況下，未詳細描述習知方法、程序、組件和電路，以免模糊本案揭示的技術標的。

除非另有特別說明，否則從以下討論中顯而易見的是，應理解到，在整個說明書討論中，利用諸如「處理」、「計算」、「表示」、「計算」、「生成」、「分配」、「選擇」、「決定」、「接收」、「訓練」、「應用」、「輸出」之類的用詞，是指將資料操縱和/或轉換為其他資料的電腦的動作和/或處理，該資料被由物理形式表示，諸如電子、量值，及/或該資料代表實體物件。用詞「電腦」應被擴張性地解譯為涵蓋任何種類的具有資料處理能力的基於硬體的電子裝置，包含（作為非限制性示例）本案揭示的分類器與其中的PMC。

本文所述用詞「非暫態性記憶體」與「非暫態性儲存媒體」，應被擴張性地解譯為涵蓋適合用於本案揭示的技術標的的任何揮發性或非揮發性電腦記憶體。

應理解到，除非另外說明，本案揭示的技術標的的在多個獨立實施例的背景內容之下說明的一些特徵，可被結合於單一具體實施例中提供。相對的，本案揭示的技術標的的在單一具體實施例的背景內容之下說明的各種特徵，也可被個別提供或以任何適合的子組合提供。在下列實施方式中，揭示數種特定的細節以期通透瞭解方法與設備。

本說明書所述在樣本中的「缺陷(defect)」之用詞，應被擴張性地解譯為涵蓋形成在樣本上或在樣本內的任何類型的異常或不期望的特徵。

本說明書所述用詞「已知為屬於一類別」，應被擴張性地解譯為涵蓋被視為參考標準的任何缺陷對類別的分類，例如是由人類使用者進行的分類、由可信分類器進行的分類等等。

本說明書所述用詞「分類(classification)」，應被擴張性地解譯為任何缺陷對複數個預定類別中的一個類別的指派。通常，根據已知屬於所需類別中的每個類別的缺陷來訓練分類器。一旦訓練完成，則分類器可用於將缺陷分類為任何類別，不論是否已知此缺陷屬於哪一類別。

給定的缺陷可屬於多數類別或少數類別。在將分類器對一組缺陷施加時，大部分的缺陷將被分類器自動分類為多數類別。然而，由於已知為屬於少數類別的訓練缺陷的數量不足，許多少數缺陷也將被誤分類為多數類別。因為在校核期間僅會進一步檢驗在檢查期間偵測到的缺陷的一小部分，被分類為多數類別的少數缺陷受到校核的機率很低。

因此，出於多種原因，在訓練分類器時，某些群落（例如少數類別）的缺陷代表性不足，是製造和檢驗過程中的一個嚴重問題。

首先，錯誤的分類可造成對檢驗處理品質的不精確的估算。由於少數缺陷的低代表性，少數缺陷對處理估算的影響很低，因此可能不精確地估算整體處理的品質。

再者，檢驗處理的穩定性可為低的：由於在缺陷被誤分類時較小的群落較容易受到改變的不良影響，少量的缺陷（或甚至單一缺陷）可顯著影響處理估算的標準差。因此難以穩定地估算檢驗處理。

第三，單單分類錯誤可產生過於嚴重而不能處理的缺陷。而且，為消除一些非常嚴重的缺陷付出了巨大的努力，從而減少了這些類別的剩餘缺陷。因此，如果在訓練過程中這些缺陷的代表性不足，則不會將其他缺陷歸類，從而可能導致樣本中的嚴重問題不被發現；和

第四，某些類別的缺陷雖然被稱為屬於同一類別，但可具有不同的特性。例如，「顆粒」類型的缺陷在金屬和矽樹脂中可能存在顯著差異。藉由不識別和訓練特定的少數類別，可能會丟失與特定缺陷有關的重要資訊。

牢記這一點，現在注意圖1，示出了根據本案揭示技術標的的某些具體實施例的檢驗系統的一般框圖。圖1所示的檢驗系統100，可以用於檢驗樣本（例如晶圓和/或其部分），作為樣本製造的一部分。檢驗可以是物件製造的一部分，並且可以在物件製造期間或之後進行。檢驗系統可包括各種檢驗工具，例如一個或多個檢查檢驗工具101以及一個或多個校核檢驗工具102，檢查檢驗工具101配置為擷取檢查圖像（通常以相對較高的速度和/或低解析度），校核檢驗工具102配置為擷取由檢查工具101偵測到的至少部分缺陷的校核圖像（通常以相對較低的速度和/或高解析度）。示出的檢驗系統100還包括基於電腦的自動缺陷分類工具（在下文中也稱為分類器）103，分類器103能夠根據缺陷類型將缺陷自動分類為複數個類別。作為非限制性示例，分類可以具有不同的目的，並且分類結果可以用於識別特定的感興趣缺陷（DoI）、從真實缺陷中過濾出虛假缺陷、建立帕累托（Pareto）以識別統計處理控制（SPC）中的偏差、和/或其他方式（根據分類目的）。

使用者可以在GUI 108的幫助下定義類別和分配給每個類別的缺陷以訓練分類引擎121。此外，GUI 108可以被配置為使使用者（和/或管理系統）能夠設置和監測與自動化缺陷分類有關的成功準則或度量，諸如純度、精確度、萃取率、或針對每個類別的其他參數，以及根據使用者要求優化分類結果。

分類器103可以可操作地連接到一個或多個檢查工具101和/或一個或多個校核工具102。視情況，分類器103可以與一個或多個檢查工具101或與一個或多個校核工具102完全或部分整合。分類器103可以進一步可操作地連接到設計伺服器110和資料儲存庫109。

可以藉由檢查工具101（例如光學檢查系統、低解析度SEM等）檢驗樣本。可以處理所得的圖像和/或衍生資料（視情況與其他資料一起（例如，設計資料和/或缺陷分類資料）），以選擇缺陷進行校核。

可以由校核工具102（例如掃描式電子顯微鏡（SEM）或原子力顯微鏡（AFM）等）檢查被選擇用於校核的潛在缺陷位置的子集。可以將有關校核圖像和/或其衍生資料的資料（以下稱為校核資料122），直接或藉由一個或多個中間系統傳輸到分類器103。注意到，校核資料可包括由一個或多個中間系統生成的作為校核圖像的衍生資料的資料。

分類器103包括處理器和記憶體電路系統（PMC）104，PMC 104可操作地連接到基於硬體的輸入介面105和基於硬體的輸出介面106。PMC 104被配置為提供操作分類器所必需的處理，如參考圖2進一步詳細描述的，並且PMC 104包括處理器和記憶體（在PMC 104內未單獨示出）。將參考圖2至4進一步詳細描述分類器103和PMC 104的操作。

由輸出介面106輸出的分類器103的處理結果，可以作為檢查指令相關資料123或校核指令相關資料124分別提供給檢查檢驗工具101或校核檢驗工具102，以便例如藉由改變操作參數的值來改變檢查檢驗工具101或校核檢驗工具102的操作。

熟習此項技術者將容易理解，本案揭示技術標的的教示內容不限於圖1所示系統；等效和/或經修改的功能可以由另一種方式合併或劃分，並且可以以軟體與韌體和硬體的任何適當組合來實現。

注意到，圖1所示的檢驗系統可以在分佈式計算環境中實現，其中，圖1所示的上述功能模塊可以分佈在多個本地和/或遠端裝置上，並且可以藉由一個或多個通訊網絡鏈接。還應注意到，在其他具體實施例中，檢驗工具101和/或102、資料儲存庫109、儲存系統107、設計伺服器110和/或GUI 108的至少一部分，可以在檢驗系統100的外部，並且操作為藉由輸入介面105和輸出介面106與分類器103進行資料通信。分類器103可以被實現為與一個或多個檢驗工具結合使用的一個或多個獨立電腦。視情況，分類器103可以對儲存在資料儲存庫109和/或儲存系統107中的預先獲取的校核資料進行操作。替代地或附加地，分類器103的相應功能可以至少部分地整合一個或多個檢驗工具、處理控制工具、配方生成工具、用於自動缺陷校核和/或分類的系統、和/或與檢驗相關的其他系統。

PMC 104可以包括少數缺陷識別引擎117、訓練引擎120和一個或多個分類引擎121。少數缺陷識別引擎117可用於識別少數缺陷，訓練引擎120可使用少數缺陷來訓練一個或多個分類引擎121。

少數缺陷識別引擎117可包括初始少數缺陷獲取引擎118，用於識別存在參考標準的少數缺陷，且這些少數缺陷被分類引擎121誤分類為多數類別。少數缺陷識別引擎117可進一步包括額外的少數缺陷獲取引擎119，額外的少數缺陷獲取引擎119被配置為識別可能是少數缺陷但不存在參考標準的缺陷。然後，使用者可以校核這些缺陷，並決定一個或多個缺陷是否確實是少數缺陷。一旦有足夠數量的少數類別缺陷可用，訓練引擎120可用於訓練分類引擎（也稱為分類器121）。

PMC 104可以包括訓練引擎120，訓練引擎120被配置為接收多個缺陷，每個缺陷具有對應的分類，並且輸出適合於接收缺陷並且提供將缺陷分類到的類別的分類器。

PMC 104可以包括一個或多個分類引擎120，也稱為分類器，其可以由訓練引擎118或另一訓練引擎訓練，或者從外部源接收。如下所述，一個這樣的引擎可以是由不足數量的少數缺陷訓練的初始引擎，而另一個引擎可以被由更多缺陷訓練。

參照圖2，示出了根據本案揭示技術標的的某些具體實施例的操作少數缺陷識別引擎117的一般流程圖。PMC 104被配置為根據在非暫態性電腦可讀取儲存媒體上實現的電腦可讀取指令來執行以下詳述的各個操作。

現在參考圖3，其以「混淆矩陣」的形式展示了多數和少數的類別以及對其的分類。用詞「混淆矩陣」應該被擴張性地解譯為涵蓋任何表格佈局，從而可以直觀地顯示參考標準分類與自動分類結果。

因此，圖3的表300示出了例如在檢查示例性樣本期間偵測到的總共250個缺陷的人與機器的分類，每個缺陷屬於A、B、C或D類別之一。表300包括列304、308、312和316，每個列都與由使用者分類的每個類別的缺陷有關，因此，這種對類別的分配被稱為「參考標準(ground truth)」。由使用者分類的缺陷數量，顯示在「總計」行332中：A類別60，B類別44，C類別119和D類別27。

如表300的行320、324和328所示，還使用預設分類器或任何其他初始分類器對缺陷進行分類：例如，確實將52個A類別缺陷分類為A類別，將2個B類別缺陷分類為C類別缺陷，依此類推。

如表400的主對角線的前三個條目所示，對A、B和C類別的大多數缺陷進行了正確分類：A類別60個缺陷中的52個，B類別44個缺陷中的38個，C類別119個中的110個。因此，將A，B和C類別視為多數類別。但是，沒有任何類別缺陷被分類為D類別。這很可能是因為在訓練分類器時D類別缺陷不足，因此分類器無法將缺陷分類到此類別。因此，D類別被稱為少數類別，並且此類別的缺陷被分類為多數類別。因此，需要找到更多的D類別缺陷，以便相應地訓練分類器。

現在回到圖2，PMC 104接收（200）由第一分類器分類為第一多數類別的複數個缺陷。所接收的缺陷已經被預先分類為預定義的類別（例如由人類專家和/或另一個分類器和/或先前的分類器的版本等），使得認為此預分類是參考標準。因此，PMC 104接收屬於相同多數類別或少數類別的缺陷。

例如，PMC 104可接收由第一分類器分配給一個類別（例如在行320上顯示的A類別）且已知屬於A類別或D類別的缺陷。將忽略被分類為A類別但屬於其他多數類別的缺陷（例如屬於B類別的4個缺陷和屬於C類別的3個缺陷）。因此，需要區分正確分類為A類別的52個A類別缺陷和錯誤分類為A類別的3個D類別缺陷。

每個缺陷都可以描述為分配給各種屬性的值的集合，例如向量。通常，每個缺陷都可以描述為分配給數百個或更多屬性的值，例如與它的類型、顏色、大小、位置、成因等有關。

PMC 104然後可以選擇（204）屬性的子集，並為子集的每個屬性定義區分項，以便正確地區分屬於多數類別的缺陷和屬於少數類別的缺陷。屬性子集選擇可以被稱為降維(dimensionality reduction)。當維度（即屬性）多於缺陷時，從數學上看來可以進行這種區分。但是，減少維度的數量可有助於增強通用性，例如區分穩定性，從而可以將額外缺陷也歸為任一類別。

可以將區分描述為僅基於所選屬性子集的臨時分類器，並將缺陷分類為多數類別和少數類別。應當理解，正確地區分分配給多數類別的缺陷和分配給少數類別的缺陷，可以涉及將多數類別缺陷的至少預定部分分類為多數類別，以及將少數類別缺陷的（可能不同的）至少預定部分分類為少數類別。預定部分可涉及預定比例的各個缺陷、至少預定數量的各個缺陷等等。

如果屬性可接收一系列值，例如離散範圍或連續範圍，則區分項可為分界點，以使具有超過閾值的值的缺陷與一個類別相關聯，而具有小於閾值的值的缺陷與其他類別相關聯。如果屬性可接收兩個可能值（例如0或1）之一，則區分項可被定義為使得具有此屬性的第一值的缺陷與一個類別相關聯，而具有此屬性的第二值的缺陷與其他類別相關聯。

選擇屬性子集可使用隨機森林方法，此方法藉由建構複數個決策樹、從每個這樣的決策樹接收分類結果、並做出符合大多數樹做出的決策的決策來進行操作。在第一階段，構建第一樹：可以根據基尼雜質（Gini Impurity）指數選擇第一屬性，可以將此指數視為對於在被根據子集中標籤分佈隨機標記時，從集合隨機選擇的元素將被不正確地標記的頻率的衡量。例如，假設提供了九個缺陷，每個缺陷都屬於兩個類別之一：「X」和「0」。九個缺陷的屬性值如下：[1、1.5、2、3、4、5.5、6、8、10]。當按此屬性的值的升序對缺陷進行排序時，缺陷向量為：[X X 0 X X 0 0 X 0]，表示第一、第二、第四、第五和第八個缺陷屬於「X」類別，並且其他缺陷屬於「0」類別。對於此向量，類別「X」的基尼雜質指數定義為Pi*(1-Pi)（其中Pi是正確分類「X」的機率），為

。可以理解到，基尼雜質指數的最佳值為0，這指示藉由屬性達成完美區分（其中Pi為0或1）。如果將用於區分向量的屬性的區分值選擇為1.5和2之間，則向量將如下所示：[X X | 0 X X 0 0 X 0]，表示「|」符號左側的缺陷分類為「0」，右側的缺陷被分類為「X」，則類別「X」的基尼雜質指數為：

。類似地，類別「0」的基尼雜質指數為0，因此加權平均值為0*

+

*

= 0.19，這意味著基尼指數降低了，即純度提高了。

可以選擇提供最佳加權平均值的屬性和區分項選擇，作為決策樹的第一級。在下一級別，可以選擇不同的屬性，或具有不同的區分值的相同屬性。

在一些具體實施例中，可以選擇分類為多數類別的僅一些缺陷來建構隨機森林，而不是選擇全部缺陷。然而，可被選擇來建構隨機森林的誤分類為多數類別的缺陷的比例，可能高於其在分類為多數類別的缺陷中的比例。例如，如果已將100個缺陷分類為多數類別，其中兩個屬於少數類別而98個屬於多數類別，則可以為隨機森林選擇20個缺陷，其中包括屬於少數類別的兩個缺陷，以及屬於多數類別的18個缺陷。

可以建構多個這樣的樹，每個樹基於一組不同的缺陷以及對屬性和區分項的不同選擇。

一旦建構了預定數量的決策樹，就可以選擇屬性子集。可以基於參與樹中的每個屬性來選擇屬性子集：參與較多樹的屬性（或者在一個或多個樹中較高層的屬性），可以被賦予比參與較少樹的屬性（或者在一個或多個樹中較低層的屬性）更高的等級。

隨機森林方法可消除將屬性集過度擬合(overfitting)到可用訓練集的情況，其中，過度擬合涉及這樣一種情況，其中屬性子集被設計為很好地區分訓練集，但是對於其他缺陷集合而言效率較低。

PMC 104隨後可以生成（212）臨時訓練集，包括：已經被正確地分類的多數類別的複數個缺陷；以及已經被不正確地分類為多數類別的複數個少數類別缺陷。在一些具體實施例中，並非選擇所有分類為多數類別的缺陷。此外，被錯誤分類為多數類別的少數類別缺陷的比例，可能高於其各自在被分類為多數缺陷的所有缺陷中的比例。臨時訓練集還可能包含額外缺陷。

PMC 104可能會產生額外缺陷。額外缺陷是將被基於屬性子集的分類器（例如上面的隨機森林分類器）分類為少數類別的缺陷。產生額外缺陷也可以稱為過取樣。將理解到，可以藉由將值分配給屬性子集中的屬性來執行生成缺陷。

現在參考圖4，其示出了在包括二維的屬性子集中的過取樣的示例性具體實施例。

給定多數類別和少數類別的多種缺陷，過取樣可涉及生成一個或多個合成缺陷，即一個或多個值集合，每個值都相對接近現有的少數缺陷。

圖4示出了三個少數缺陷，由「O」表示的400、404和412，以及一定數量的多數缺陷，諸如由「X」表示的408或416。為了創建能夠很好地區分兩個類別的缺陷的分類器，可以生成更多的合成缺陷，該等缺陷更接近具有多數類別鄰居的少數缺陷。因此，可以在缺陷404和412附近產生合成缺陷，但是不在缺陷400附近，缺陷400沒有「X」類別鄰居。

可以使用合成少數族群過取樣技術（SMOTE）來執行合成缺陷的生成：對於每個少數缺陷，可以計算到最近多數缺陷的距離。可以使用任何必需的度量（諸如所選屬性子集上的（可能的加權）平方和）執行距離計算。可以選擇預定數量的少數缺陷，其與多數類別的最近鄰居的距離最小。在一些具體實施例中，相同的少數缺陷可以被選擇多次。因此，可以選擇少數缺陷404和412。對於每個這樣選擇的缺陷，可以創建合成缺陷，合成缺陷具有的屬性值在少數缺陷的屬性值和最接近多數缺陷的屬性值之間的範圍內。在圖4的示例中，可以沿著連接少數缺陷404和多數缺陷408的線創建合成缺陷。在一些具體實施例中，可以在更接近少數缺陷的位置生成合成缺陷，例如，每個屬性的值可以計算為0.8*少數缺陷的屬性值+ 0.2*多數缺陷的屬性值，或任何其他它們的加權值組合。可以沿著連接少數缺陷412和多數缺陷416的線生成第二合成缺陷。

然後，PMC 104可以在臨時訓練集、屬性子集以及此子集的每個屬性的區分項上訓練（216）可信度引擎。可信度引擎可被配置為接收缺陷和缺陷被分類到的類別，並且輸出缺陷確實屬於此類別的可信度。

可信度引擎也可以被實現為樹集成，其中樹集成的樹可以使用梯度增強(gradient boosting)來生成。生成決策樹可以從預設分類樹開始，其根據所選擇的屬性子集進行操作，並將缺陷分類為多數類別和少數類別。增強的基尼雜質指數可以考慮分配給每個類別的權重：W_A *P_A *(1-W_A P_A )，其中W_A 是分配給A類別的權重，P_A 是將缺陷正確分類為A類別的機率。為了訓練可信度引擎更好地對少數類別的缺陷進行分類，少數類別的權重可能高於分類為多數類別的所有缺陷中少數缺陷的比例。然後可以生成其他樹，其中將較高的權重分配給先前生成的樹不正確分類的少數缺陷，例如：

。可以藉由選擇不同的區分值來賦予某些缺陷比其他缺陷更高的權重，從而使分類後得到的增強的基尼雜質指數更高。

可信度引擎生成的輸出因此是樹的集合，每個樹都與一個類別和權重相關聯。可以基於與每個樹相關聯的錯誤率來獲得權重。錯誤率可以定義為缺陷的權重之和，對於缺陷，樹輸出的結果與參考標準有所不同。

一旦可信度引擎可用，PMC 104就可以將可信度引擎應用於（220）分類為多數類別的進一步的缺陷，其中對於這些缺陷沒有參考標準。因此，將分類為多數類別的每個此類缺陷提供給可信度引擎，並獲得可信度。可信度表示對缺陷確實屬於多數類別並且沒有錯誤地分類為多數類別的可信度。可以藉由在步驟216生成的樹集成中的所有樹對缺陷進行分類，並對所有將缺陷分類為多數類別的樹的權重求和，從而獲得0到1之間的可信度，來獲得可信度。

然後，PMC 104可輸出（224）分類為多數類別的缺陷，多數類別的可信度低，例如低於預定閾值。或者，可以輸出具有最低可信度的預定數量的缺陷或者分類為多數類別的所有缺陷的預定比例。低可信度可表示缺陷不是多數缺陷而是少數缺陷的可能性很高。

現在參考圖5，示出了根據本案揭示技術標的的某些具體實施例的校核樣本的方法的一般流程圖。

PMC 104可被配置為根據在非暫態性電腦可讀取儲存媒體上實現的電腦可讀取指令來執行以下詳述的各個操作。

在可用的訓練資料上訓練（500）分類器，包含訓練由使用者分類的缺陷。

然後針對進一步的缺陷執行分類（504），對於這些缺陷尚無分類。

如以上結合圖2所描述的，可以監測並拒絕分類結果（508）。監測涉及獲得多數缺陷的可信度，例如如圖2的步驟200、204、212、216和220中所述，且拒絕可涉及輸出（224）分類可信度低的缺陷。

可例如由使用者校核輸出缺陷，並且可以接收（512）這些缺陷的參考標準分類。

可以收集（516）由使用者指示為少數缺陷的缺陷，並將其保存在儲存元件或稱為「容器」的資料結構中。當在容器中積累了數量足以進行訓練的少數缺陷時（例如至少預定數量，諸如30、40、100等），可以訓練新的分類器，其中此類別也是多數類別，因此也可以正確地對少數缺陷進行分類。因此，此分類器可以代替第一分類器。

然後可以重複訓練（500），也可以將其稱為具有可用的參考標準分類的再訓練或更新分類器。

圖5的迭代可以繼續預定次數、預定時間段，直到拒絕率下降到第一預定閾值以下，直到拒絕數量下降到第二預定閾值以下，或者直到滿足另一個停止標準為止。

熟習此項技術者將容易意識到，本案揭示技術標的的教示內容不受圖2和圖5所示的方法的約束。為了獲得少數缺陷並相應地訓練分類器，可以實施其他適當的演算法及其組合。

本發明不限於在本文中包含的描述中闡明或在附圖中示出的細節。本發明能夠具有其他具體實施例並且能夠以各種方式被實踐和執行。因此，應當理解，本文採用的用語和用詞是出於描述的目的，而不應被認為是限制性的。因此，熟習此項技術者將認識到，本揭示內容所基於的概念可以容易地用作設計用於實現本案揭示技術標的的幾個目的的其他結構、方法和系統的基礎。

還應該理解，根據本發明的系統可以至少部分地在適當程式化的電腦上實現。類似地，本發明考慮了一種電腦可讀取電腦程序，用於執行本發明的方法。本發明進一步考慮一種非暫態性電腦可讀取記憶體，其有形地體現了可由電腦執行以執行本發明的方法的指令程式。

在本發明技術領域中具有通常知識者將容易理解，可以在不脫離由所附申請專利範圍和由所附申請專利範圍限定的本發明範圍的情況下，將各種修改和改變應用於如前所述的本發明的具體實施例。

100:檢驗系統 101:檢查檢驗工具 102:校核檢驗工具 103:自動缺陷分類工具（分類器） 104:處理器和記憶體電路系統（PMC） 105:輸入介面 106:輸出介面 107:儲存系統 108:GUI 109:資料儲存庫 110:設計伺服器 117:少數缺陷識別引擎 118:初始少數缺陷獲取引擎 119:額外的少數缺陷獲取引擎 120:訓練引擎 121:分類引擎 122:校核資料 123:檢查指令相關資料 124:校核指令相關資料 200-224:步驟 300:表 304:列 308:列 312:列 316:列 320:行 324:行 328:行 332:行 400:表 404:少數缺陷 408:多數缺陷 412:少數缺陷 416:多數缺陷 500-516:步驟

為了理解本發明並了解其如何在實踐中進行，現在將藉由非限制性示例的方式，參考附圖來描述具體實施例，其中：

圖1示出了根據本案所揭示技術標的的一些具體實施例的檢驗系統的一般方塊圖；

圖2示出了根據本案所揭示技術標的的一些具體實施例的一種方法的一般流程圖，此方法識別可屬於少數類別的缺陷；

圖3示出了根據本案所揭示技術標的的一些具體實施例的缺陷分類的混淆矩陣；

圖4示出了根據本案所揭示技術標的的一些具體實施例的可在其上產生額外缺陷的示例性二維缺陷；以及

圖5示出了根據本案所揭示技術標的的一些具體實施例的一種樣本校核方法的一般流程圖。

國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無

國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無

200-224:步驟

Claims

一種將一樣本中的缺陷分類為複數個類別的系統，該系統包括一處理器和記憶體電路系統（PMC），該PMC經配置為：接收由一第一分類器分類為一多數類別的複數個缺陷，其中該複數個缺陷中的一個或多個缺陷屬於一個或多個少數類別，並且該複數個缺陷中的至少一部分缺陷屬於該多數類別，並且其中該複數個缺陷中的每個缺陷由複數個屬性特徵化，每個屬性具有一各自的值；選擇該複數個屬性的一子集，並為該子集的每個屬性定義一個區分項，以使配置為根據該子集和每個相應屬性的該區分項對缺陷進行分類的一第二分類器，可以正確地將該複數個缺陷中至少一預定份額的缺陷分類為該一個或多個少數類別與該多數類別；生成一臨時訓練集，該臨時訓練集包括：屬於該多數類別的該複數個缺陷中的至少一部分缺陷、屬於該少數類別的該複數個缺陷中的至少一部分、以及額外缺陷，該等額外缺陷具有該屬性子集的值而使該第二分類器將該等額外缺陷分類為該少數類別；訓練一引擎，該引擎經配置以獲取對於由該屬性子集的第一組值所特徵化的一缺陷係屬於該多數類別的一可信度，其中係對該臨時訓練集、該屬性子集與該子集的每個屬性的該區分項執行訓練；將該引擎應用於被分類為該多數類別的一第二複數個缺陷中的每個給定缺陷，以獲得對於將該給定缺陷分類為該多數類別的一可信度；以及從該第二複數個缺陷輸出具有低於一預定臨限的一可信度的缺陷，該等缺陷從而被假定為屬於該一個或多個少數類別。
如請求項1所述之系統，其中該PMC進一步經配置以生成額外缺陷，該等額外缺陷可由該第二分類器分類為該一個或多個少數類別，並將該等額外缺陷包含入該臨時訓練集中。
如請求項2所述之系統，其中該等額外缺陷中的至少一個缺陷為被產生為複數個第一組值的一合成缺陷，每個第一值根據對於該子集的每個屬性的一區分項相關聯於來自該子集的一屬性。
如請求項3所述之系統，其中相關聯於一給定屬性的一第一值被決定為一值，該值在屬於該一個或多個少數類別的一第一缺陷的該給定屬性的一值以及鄰近該第一缺陷並屬於該多數類別的一第二缺陷的該給定屬性的一值之間。
如請求項3所述之系統，其中將相關聯於一給定屬性的一第一值被決定為屬於該一個或多個少數類別的一缺陷的該給定屬性的一值。
如請求項1所述之系統，其中該PMC進一步經配置以：將該等輸出缺陷的至少一部分識別為屬於該一個或多個少數類別；藉由對一訓練集訓練該第一分類器來更新該第一分類器，該訓練集包含屬於該一個或多個少數類別的該複數個缺陷的至少一些缺陷、屬於該多數類別的該複數個缺陷的至少一些缺陷、以及被識別為屬於該一個或多個少數類別的該等輸出缺陷；以及更新由該第一分類器分類為該多數類別的該複數個缺陷，並輸出在更新時出現且該引擎獲取其低於該臨限值的一可信度的缺陷。
如請求項1所述之系統，其中該引擎包含一樹集成。
如請求項1所述之系統，其中該區分項為來自一範圍的值的一臨限值。
如請求項1所述之系統，其中該區分項包含來自一分立值集合的一個或多個值。
一種分類缺陷的方法，該方法由一計算平臺執行，該計算平臺包括一處理器和記憶體電路系統（PMC），該方法包含以下步驟：由該PMC接收由一第一分類器分類為一多數類別的複數個缺陷，其中該複數個缺陷中的一個或多個缺陷屬於一個或多個少數類別，並且該複數個缺陷中的至少一部分缺陷屬於該多數類別，並且其中該複數個缺陷中的每個缺陷由複數個屬性特徵化，每個屬性具有一各自的值；由該PMC選擇該複數個屬性的一子集，並為該子集的每個屬性定義一個區分項，以使配置為根據該子集和每個相應屬性的該區分項對缺陷進行分類的一第二分類器，可以正確地將該複數個缺陷中至少一預定份額的缺陷分類為該一個或多個少數類別與該多數類別；由該PMC生成一臨時訓練集，該臨時訓練集包括：屬於該多數類別的該複數個缺陷中的至少一部分缺陷、屬於該少數類別的該複數個缺陷中的至少一部分、以及額外缺陷，該等額外缺陷具有該屬性子集的值而使該第二分類器將該等額外缺陷分類為該少數類別；由該PMC訓練一引擎，該引擎經配置以獲取對於由該屬性子集的第一組值所特徵化的一缺陷係屬於該多數類別的一可信度，其中係對該臨時訓練集、該屬性子集與該子集的每個屬性的該區分項執行訓練；由該PMC將該引擎應用於被分類為該多數類別的一第二複數個缺陷中的每個給定缺陷，以獲得對於將該給定缺陷分類為該多數類別的一可信度；以及由該PMC從該第二複數個缺陷輸出具有低於一預定臨限的一可信度的缺陷，該等缺陷從而被假定為屬於該一個或多個少數類別。
如請求項10所述之方法，其中該方法進一步包含以下步驟：生成額外缺陷，該等額外缺陷可由該第二分類器分類為該一個或多個少數類別，並將該等額外缺陷包含入該臨時訓練集中。
如請求項11所述之方法，其中該等額外缺陷中的至少一個缺陷為被產生為複數個第一組值的一合成缺陷，每個第一值根據對於該子集的每個屬性的一區分項相關聯於來自該子集的一屬性。
如請求項12所述之方法，其中將相關聯於一給定屬性的一第一值決定為一值，該值在屬於該一個或多個少數類別的一第一缺陷的該給定屬性的一值與鄰近該第一缺陷並屬於該多數類別的一第二缺陷的該給定屬性的一值之間。
如請求項12所述之方法，其中將相關聯於一給定屬性的一第一值決定為屬於該一個或多個少數類別的一缺陷的該給定屬性的一值。
如請求項10所述之方法，該方法進一步包含：將該等輸出缺陷的至少一部分識別為屬於該一個或多個少數類別；藉由對一訓練集訓練該第一分類器來更新該第一分類器，該訓練集包含屬於該一個或多個少數類別的該複數個缺陷的至少一些缺陷、屬於該多數類別的該複數個缺陷的至少一些缺陷、以及被識別為屬於該一個或多個少數類別的該等輸出缺陷；以及更新由該第一分類器分類為該多數類別的該複數個缺陷，並輸出在更新時出現且該引擎獲取其低於該臨限值的一可信度的缺陷。
如請求項10所述之方法，其中該引擎包含在一隨機森林分類器中。
如請求項10所述之方法，其中該區分項為來自一範圍的值的一臨限值。
如請求項10所述之方法，其中該區分項包含來自一分立值集合的一個或多個值。
一種非暫態性電腦可讀取媒體，包含指令，該等指令在由一電腦執行時，使得該電腦執行一種將一樣本中的缺陷自動分類為複數個類別的方法，該方法包含：接收由一第一分類器分類為一多數類別的複數個缺陷，其中該複數個缺陷中的一個或多個缺陷屬於一個或多個少數類別，並且該複數個缺陷中的至少一部分缺陷屬於該多數類別，並且其中該複數個缺陷中的每個缺陷由複數個屬性特徵化，每個屬性具有一各自的值；選擇該複數個屬性的一子集，並為該子集的每個屬性定義一個區分項，以使配置為根據該子集和每個相應屬性的該區分項對缺陷進行分類的一第二分類器，可以正確地將該複數個缺陷中至少一預定份額的缺陷分類為該一個或多個少數類別與該多數類別；生成一臨時訓練集，該臨時訓練集包括：屬於該多數類別的該複數個缺陷中的至少一部分缺陷、屬於該少數類別的該複數個缺陷中的至少一部分、以及額外缺陷，該等額外缺陷具有該屬性子集的值而使該第二分類器將該等額外缺陷分類為該少數類別；訓練一引擎，該引擎經配置以獲取對於由該屬性子集的第一組值所特徵化的一缺陷係屬於該多數類別的一可信度，其中係對該臨時訓練集、該屬性子集與該子集的每個屬性的該區分項執行訓練；將該引擎應用於被分類為該多數類別的一第二複數個缺陷中的每個給定缺陷，以獲得對於將該給定缺陷分類為該多數類別的一可信度；以及從該第二複數個缺陷輸出具有低於一預定臨限的一可信度的缺陷，該等缺陷從而被假定為屬於該一個或多個少數類別。