TW202333088A - 用於半導體製造之連續機器學習模型訓練 - Google Patents
用於半導體製造之連續機器學習模型訓練 Download PDFInfo
- Publication number
- TW202333088A TW202333088A TW111124425A TW111124425A TW202333088A TW 202333088 A TW202333088 A TW 202333088A TW 111124425 A TW111124425 A TW 111124425A TW 111124425 A TW111124425 A TW 111124425A TW 202333088 A TW202333088 A TW 202333088A
- Authority
- TW
- Taiwan
- Prior art keywords
- machine learning
- learning module
- recipe
- recipes
- tool
- Prior art date
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 133
- 239000004065 semiconductor Substances 0.000 title claims description 61
- 238000004519 manufacturing process Methods 0.000 title claims description 22
- 238000012549 training Methods 0.000 title claims description 20
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims description 73
- 238000007689 inspection Methods 0.000 claims description 31
- 230000007547 defect Effects 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 20
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000010894 electron beam technology Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 235000012431 wafers Nutrition 0.000 description 24
- 238000013136 deep learning model Methods 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 7
- 230000001537 neural effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000009472 formulation Methods 0.000 description 5
- 238000001459 lithography Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 230000008021 deposition Effects 0.000 description 2
- 238000005530 etching Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000001465 metallisation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000003050 axon Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005468 ion implantation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 229920002120 photoresistant polymer Polymers 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L21/00—Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
- H01L21/67—Apparatus specially adapted for handling semiconductor or electric solid state devices during manufacture or treatment thereof; Apparatus specially adapted for handling wafers during manufacture or treatment of semiconductor or electric solid state devices or components ; Apparatus not specifically provided for elsewhere
- H01L21/67005—Apparatus not specifically provided for elsewhere
- H01L21/67242—Apparatus for monitoring, sorting or marking
- H01L21/67288—Monitoring of warpage, curvature, damage, defects or the like
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L21/00—Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
- H01L21/67—Apparatus specially adapted for handling semiconductor or electric solid state devices during manufacture or treatment thereof; Apparatus specially adapted for handling wafers during manufacture or treatment of semiconductor or electric solid state devices or components ; Apparatus not specifically provided for elsewhere
- H01L21/67005—Apparatus not specifically provided for elsewhere
- H01L21/67242—Apparatus for monitoring, sorting or marking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Manufacturing & Machinery (AREA)
- Computer Hardware Design (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- Power Engineering (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Testing Or Measuring Of Semiconductors Or The Like (AREA)
- Junction Field-Effect Transistors (AREA)
Abstract
使用兩個機器學習模組或模型來產生一配方。一第一機器學習模組基於經量測信號判定一組配方。第二機器學習模組基於一成本函數分析該組配方以判定一最終配方。該第二機器學習模組亦可在該組配方未通過使用該成本函數之評估之情況下判定設定。
Description
本發明係關於半導體檢測及計量。
半導體製造行業之演進對良率管理及特定言之計量及檢測系統提出更高要求。臨界尺寸不斷縮小,而行業需要減少達成高良率、高價值生產之時間。最小化從偵測到一良率問題至解決其之總時間最大化一半導體製造商之投資報酬率。
製造諸如邏輯及記憶體裝置之半導體裝置通常包含使用大量製程處理一半導體晶圓以形成半導體裝置之各種特徵及多個層級。例如,微影術係涉及將一圖案從一倍縮光罩轉印至配置於一半導體晶圓上之一光阻劑之一半導體製程。半導體製程之額外實例包含但不限於化學機械拋光(CMP)、蝕刻、沈積及離子植入。在一單一半導體晶圓上製造之多個半導體裝置之一配置可被分離為個別半導體裝置。
在半導體製造期間之各種步驟使用檢測程序來偵測晶圓上之缺陷以促進製程中之更高良率及因此更高利潤。檢測始終係製造諸如積體電路(IC)之半導體裝置之一重要部分。然而,隨著半導體裝置之尺寸減小,檢測對於成功製造可接受半導體裝置變得更為重要,此係因為較小缺陷可導致裝置故障。例如,隨著半導體裝置之尺寸減小,縮小大小之缺陷之偵測已變得必要,此係因為甚至相對小之缺陷可導致半導體裝置中之非所要像差。
缺陷檢視通常涉及重新偵測藉由一檢測程序偵測到之缺陷且使用一高放大率光學系統或一掃描電子顯微鏡(SEM)以一較高解析度產生關於缺陷之額外資訊。因此,在樣品上之已藉由檢測偵測到缺陷之離散位置處執行缺陷檢視。藉由缺陷檢視產生之缺陷之較高解析度資料更適合於判定缺陷之屬性,諸如輪廓、粗糙度,或更精確大小資訊。
亦在半導體製造期間之各種步驟使用計量程序來監測及控制程序。計量程序與檢測程序之不同之處在於,不同於其中在晶圓上偵測缺陷之檢測程序,計量程序用於量測無法使用現有檢測工具判定之晶圓之一或多個特性。計量程序可用於量測晶圓之一或多個特性,使得可從一或多個特性判定一程序之效能。例如,計量程序可量測在程序期間形成在晶圓上之特徵之一尺寸(例如,線寬、厚度等)。另外,若晶圓之一或多個特性係不可接受的(例如,在該(等)特性之一預定範圍之外),則可使用晶圓之一或多個特性之量測來更改程序之一或多個參數,使得藉由程序製造之額外晶圓具有(若干)可接受特性。
校準檢測及計量工具之習知技術包含藉由調整各種系統參數進行機械校準。例如,可藉由調整一光學系統之一焦距,調整一偏光定向或調整其他物理系統參數來校準工具。一些技術亦可執行一最佳化程序以最小化由一參考工具產生之信號與由一經校準工具產生之信號之間之差異。此等最佳化程序通常限於調整與被校準之工具相關聯之少量物理參數,直至由工具產生之信號與由一參考工具產生之一組參考信號之間之差異被最小化。然而,由於最佳化程序通常使用有限數目個物理參數,因此由經校準工具產生之信號與參考信號之間仍可存在差異。
機器學習可用於選擇用於檢測或計量工具之配方。訓練用於一計量應用之一機器學習配方之一常見方式通常包含一應用工程師使用不同輸入設定產生多個機器學習配方,且接著基於一些預定義效能度量(例如,量測精度、準確度、擬合優度)來評估該等配方。接著,應用工程選取最佳配方。使用此方法產生之配方具有若干缺點。當產生初始組之機器學習配方時,該等配方可歸因於輸入設定之有限數目而具有次佳配方品質。該等配方亦可由於最終結果取決於評估該組初始機器學習配方之一人之技能及經驗而具有不一致品質。最後,該等配方可歸因於該組初始機器學習配方之一非最佳化組及評估該組初始機器學習配方所涉及之手動工作量而需要較長時間來開發。
因此,需要新系統及技術。
在一第一實施例中提供一種系統。該系統包含經組態以判定一組配方之一第一機器學習模組及經組態以從該組配方及一成本函數判定一最終配方或設定之一第二機器學習模組。該第一機器學習模組接收經量測信號。該組配方中之各配方將該等經量測信號轉換為所關注參數。該第二機器學習模組在該組配方未通過使用該成本函數之評估之情況下判定該等設定,藉此該第二機器學習模組導引該第一機器學習模組之開發。該第二機器學習模組從該組配方判定通過使用該成本函數之評估之該最終配方。
該系統可包含經組態以產生該等經量測信號之一工具。該工具包含:一載物台,其經組態以固持一晶圓;一能量源,其將能量引導至該載物台上之該晶圓處;及一偵測器,其接收從該晶圓反射之能量。該工具可為一半導體計量工具或一半導體檢測工具。例如,該能量可為光或電子。
該第二機器學習模組可將該等設定提供至該第一機器學習模組,使用該等設定來訓練由該第二機器學習模組進行之該評估,或使用該等設定來訓練由該第二機器學習模組進行之配方產生。
該等所關注參數可包含臨界尺寸、疊對、一材料性質或一缺陷類型。
該成本函數可基於準確度、精度、總量測不確定性、缺陷捕獲率或量測時間之一或多者。
該第二機器學習模組可進一步基於該等經量測信號及/或工具效能度量進行評估。
該第一機器學習模型及該第二機器學習模型可各自為一神經網路模型。
在一第二實施例中提供一種方法。該方法包含使用一第一機器學習模組基於經量測信號判定一組配方。該組配方中之各配方將該等經量測信號轉換為所關注參數。使用一第二機器學習模組基於一成本函數分析該組配方。該第二機器學習模組經組態以在該組配方未通過使用該成本函數之評估之情況下判定設定,或經組態以從該組配方判定通過使用該成本函數之評估之一最終配方,藉此該第二機器學習模組導引該第一機器學習模組之開發。
該方法可進一步包含使用一半導體計量工具量測一半導體晶圓,藉此形成該等經量測信號。該半導體計量工具可為一光學半導體計量工具或一電子束半導體計量工具。
該方法可進一步包含使用一半導體檢測工具量測一半導體晶圓,藉此形成該等經量測信號。該半導體檢測工具可為一光學半導體檢測工具或一電子束半導體檢測工具。
該方法可進一步包含將該等設定提供至該第一機器學習模組,使用該等設定來訓練由該第二機器學習模組進行之該評估,或使用該等設定來訓練由該第二機器學習模組進行之配方產生。
該方法可進一步包含訓練該第二機器學習模組以評估現有配方之效能。
該等現有配方可來自運行一相同產品之至少一個不同生產線、運行一不同產品之至少一個不同生產線、運行一不同程序步驟之至少一個不同生產線或運行一不同目標之至少一個不同生產線。
該方法可進一步包含訓練該第二機器學習模組以從該組配方判定該最終配方。該訓練可使用由該第一機器學習模組產生之配方。
該等所關注參數可包含臨界尺寸、疊對、一材料性質或一缺陷類型。
該成本函數可基於準確度、精度、總量測不確定性、缺陷捕獲率或量測時間之一或多者。
該第二機器學習模組可進一步基於該等經量測信號及/或工具效能度量進行評估。
該最終配方可用於生產一半導體晶圓。
一種儲存一程式之非暫時性電腦可讀媒體可經組態以指示一處理器執行第二實施例之方法。
儘管將依據某些實施例描述所主張之標的物,然其他實施例(包含未提供本文中闡述之全部益處及特徵之實施例)亦在本發明之範疇內。可在不脫離本發明之範疇之情況下做出各種結構、邏輯、程序步驟及電子改變。因此,僅參考隨附發明申請專利範圍來定義本發明之範疇。
本文中揭示之實施例揭示創建用於計量應用中之高品質機器學習(ML)模型之一自動化技術。一機器學習模型可基於預定義成本函數評估現有配方之效能且接著產生一改良配方。本文中揭示之方法可得到比使用先前手動技術更高品質之一配方。另外,產生此一配方所需之時間顯著短於一應用工程師在一手動模式下產生之配方。相關聯機器學習模組之運行時間及訓練兩者可為自動化的。
在本文中揭示之實施例中,多個機器學習配方可用於將經量測信號轉換為所關注參數。較高階機器學習模型可導引一較低階機器學習模型之開發。較低階機器學習模型可產生所關注參數,該等參數可呈一配方之形式。可定義一成本函數,且將其用於評估此等機器學習配方及輸出。可訓練一機器學習模型以評估由另一機器學習模型產生之現有配方之效能,且接著基於成本函數產生一最佳配方。在一例項中,可從一組現有之已經訓練機器學習配方選擇多個機器學習配方。在另一例項中,訓練一組新的機器學習配方。
在所揭示之實施例中,訓練可評估現有配方之效能之一機器學習模型。至此機器學習模型之輸入係初始配方組(例如,由機器學習模組使用指定初始設定組訓練之配方)及用於配方評估之成本函數。機器學習模型之輸出係最終配方。
圖1係一方法100之一實施例之一流程圖。該方法繪示一第一機器學習模組109及一第二機器學習模組110。第一機器學習模組109及一第二機器學習模組110可各自運行一分開的模型。雖然被繪示為分開的,但在另一實施例中,一單一機器學習模組可運行兩個模型。第一機器學習模組109及一第二機器學習模組110可在一或多個處理器上運行。本文中描述之處理器、(若干)其他系統或(若干)其他子系統可為各種系統之部分,包含一個人電腦系統、影像電腦、主機電腦系統、工作站、網路器具、網際網路器具或其他裝置。(若干)子系統或(若干)系統亦可包含此項技術中已知之任何適合處理器,諸如一平行處理器。另外,(若干)子系統或(若干)系統可包含作為一獨立或一網路連結工具之具有高速處理及軟體之一平台。
使用經量測信號101來產生初始設定102。可使用一人類操作者或資料庫來產生初始設定102。初始設定102可經設計以最大化配方在一第一次反覆通過104處之分析之機會。提供一較寬範圍之可能初始設定102可增加成功機會,以較長配方產生時間為代價。
可使用一半導體計量工具量測一半導體晶圓以形成經量測信號101。此半導體計量工具可為一光學或電子束半導體計量工具。在另一例項中,使用一半導體檢測工具量測半導體晶圓以形成經量測信號101。半導體檢測工具可為一光學或電子束半導體檢測工具。此等半導體檢測工具及半導體計量工具可由工具113表示。工具113包含:一載物台,其經組態以固持一晶圓114;一能量源,其將能量引導至載物台上之晶圓處;及一偵測器,其接收從晶圓反射之能量,但其他組件係可能的。
接著,第一機器學習模組109使用初始設定102判定一組配方103。第一機器學習模組109可使用美國專利第10,101,670號(該案之全部內容以引用的方式併入)中揭示之方法或其他方法來訓練。雖然通常判定一組配方103,但亦可判定一單一配方103。該組配方中之各配方將經量測信號101轉換為所關注參數。該等所關注參數可包含臨界尺寸、疊對、一材料性質或一缺陷類型。其他所關注參數亦為可能的,諸如作為用於特性化一半導體結構或用於半導體程序設備之物理參數之彼等。例如,焦點及劑量參數可為一微影程序之所關注參數。存在可用於蝕刻、沈積、CMP、植入或其他程序設備之其他參數。
接著,在104處使用第二機器學習模組110基於成本函數105分析來自103之該組配方。如果來自103之該組配方未通過使用成本函數105之評估104,則第二機器學習模組110判定新設定108。如果來自103之該組配方之一者通過使用成本函數105之評估104,則該配方成為最終配方107。在106處展示與配方評估104分開之通過/未通過決策,但通過/未通過僅繪示評估104之結果。
通常存在與一成本函數相關聯之至少一個數字。如果來自103之多個配方「通過」評估,則可選擇具有最佳數字之一個配方。例如,一成本函數產生0至1之一範圍內之一數字,其中1係最佳的。憑藉此成本函數,0.9可被定義為配方「通過」之一臨限值。因此,具有數字>0.9之任何配方皆將通過。接著,選擇具有最高數字之配方。因此,在該實例中,選擇具有0.95之一配方而非具有0.93之一配方。
最終配方107可包含用於諸如工具113之一工具之硬體設定。例如,自一個至四十個工具設定可被包含在最終配方107中,但其他值亦為可能的。最終配方107亦可包含資料處理設定。作為一實例,成本函數可對應於參數精度。接著,選擇具有最低精度之一配方,此係因為較低精度可為更佳的。可存在針對最終配方107最佳化之多個輸出參數。
初始設定可能未得到滿足全部指定要求之一最終配方107。在此等例項中,執行一再訓練步驟,其中使用新設定108產生一組額外配方103。可由第二機器學習模組110選擇新設定108。此等可為用作初始設定102之相同設定,但具有不同值。與工具113相關聯之設定之一些實例可包含經量測信號之一子集、波長範圍、入射角、數值孔徑等。其他設定可為機器學習模型之參數,諸如機器學習模型之一類型、神經元之數目、樹、葉、節點、學習率、正則化參數、正則化類型、目標函數等。
傳統地,由一人類操作者手動地選擇新設定108。視情況,在所提出之方法中,新設定108之選擇可為圖2中展示之機器學習模型之一部分。在圖2中,使用初始配方組111及至少一個額外配方組112訓練第二機器學習模組110。
成本函數可基於一或多個參數,諸如計量效能度量(例如,準確度、精度、總量測不確定性)、檢測效能度量(例如,缺陷捕獲率)或任何其他配方相關特性(例如,量測時間)。成本函數亦可基於兩個或更多個配方之間之一差異以保證配方在一再訓練期間之一逐漸改變。在一例項中(例如,針對圖4中展示之再訓練方法),可使用在反覆之間改變之一成本函數。
其他參數可包含計量效能度量,如一判定係數(R2,R平方)或相對於參考之斜率。參數亦可包含一般模型品質度量,如擬合優度或卡方檢定(chi-square)。參數進一步可包含機器學習模型品質度量,如均方根誤差(RMSE)、平均絕對誤差(MAE)、收斂或重呼。
在圖1之實施例中,將新設定108提供至第一機器學習模組109。新設定108可為具有新值之初始設定102,或可包含與初始設定102不同之設定。
第二機器學習模組110 (或第一機器學習模組109)可藉由在訓練組中包含額外經量測信號而以給定時間間隔(例如,每天一次、在運行時間或在計量工具停機期間)更新。
在一實施例中,亦使用工具效能度量訓練第二機器學習模組110。
藉由方法100產生之配方具有優於先前技術之若干優點。由於第二機器學習模組甚至比一高技能之人類操作者更快地選取最終配方107,因此配方產生時間更快。一典型人類產生之配方可花費數天來產生,而一機器學習產生之配方可在幾小時內產生。由於配方之選擇係更確定性的(即,取決於所訓練之機器學習模型)而非取決於產生配方之一人類操作者之一技能組,因此最終配方107品質更一致且具有更佳穩健性。使用機器學習模型可導致更快迴轉時間容許遍歷更多組設定,因此存在選擇一更佳組之一更高機會,2)人為錯誤之更小機會,及/或3)更確定性輸出(即,非完美人類決策之更小影響)。由於歸因於無需來自一人之回饋之完全自動化反覆迴路之一更快反覆循環,此容許在相同時框中完成更多反覆,因此最終配方107品質係更佳的。由於一機器學習模型使用一人類操作者不可用之額外洞察力(諸如一複合、多變數成本函數)之能力,因此最終配方107品質亦為更佳的。
在圖3中展示一完全自動化、機器學習驅動之配方產生。第二機器學習模組110中之機器學習模型使用某一組預定義初始設定。此組預定義初始設定可能不會在第一次反覆得到一高品質最終配方107。然而,歸因於完全自動化之訓練及配方產生循環,機器學習模型可快速反覆遍歷若干循環,從而逐漸改良配方品質,直至達成所要結果(例如,由預定義成本函數驅動)。此等快速反覆循環可無需在各反覆之任何手動輸入。因此,由於具有快速自動化反覆之較小組初始設定,一更快配方產生時間係可能的。
此方法之另一實施例擴展至圖4中展示之一生產環境中。在最終配方被部署至生產中之後,將由一計量工具或其他工具產生額外信號。此等信號可用於再訓練第二機器學習模組之模型,從而得到一更高品質配方。此再訓練可在上文描述之完全自動化模式下以定期時間間隔(例如,每天一次)、在計量工具停機期間或在運行時間進行。
由於無需等待大組經量測信號之產生,因此圖4之實施例可在原始配方之部署中實現快速迴轉時間。可使用一組有限信號產生最初部署之配方。歸因於該組有限初始信號,該配方可具有一較低品質及穩健性,因此可使用另一成本函數來產生該配方。隨著時間推移及各隨後再訓練,配方品質可逐漸改良。
雖然使用藉由半導體計量工具產生之信號進行描述,但本文中揭示之實施例可應用於使用半導體檢測工具信號作為輸入之半導體檢測工具之配方產生。除經量測信號之外,亦可使用模擬或合成信號。可僅使用模擬信號產生一配方。例如,在圖4上展示之方法中,第一組信號可僅含有模擬信號,且接著甚至可在產生任何經量測信號之前部署初始機器學習配方。
可執行配方產生以考量工具效能度量。在一實例中,配方可以降低總量測時間之一方式進行最佳化。在另一實例中,可藉由將此效能度量包含至成本函數中來減小配方未通過率。如果經量測信號之數目減少,則總量測時間可減少。因此,藉由在成本函數中包含經量測信號之數目,可減少總量測時間。例如,一初始配方可使用兩個方位角進行資料收集,而一最佳化配方僅使用一單一方位角,因此將量測時間改良約2倍。可藉由改良至成本函數中之穩健性度量(例如,準確度、總量測不確定性(TMU)、擬合優度)來降低配方未通過率
本文中揭示之實施例可藉由將來自運行相同產品、不同產品、不同程序步驟或不同目標之不同生產線之現有配方包含至訓練組中來執行。不同生產線可位於同一或不同製造設施(「晶圓廠」)中。在一實例中,針對M1A層訓練之一配方(即,第一金屬層之金屬化中之一第一微影步驟)可用於針對M1B層訓練一配方(即,第一金屬層之金屬化中之一第二微影步驟)。在另一實例中,針對不具有下層之目標堆疊訓練之一配方可用於針對具有下層之目標堆疊訓練一配方。
第一機器學習模組109及第二機器學習模組110可藉由一處理器執行。第一機器學習模組109及第二機器學習模組110可包含一深度學習分類模組(例如,一卷積神經網路(CNN)模組)。深度學習分類模組可具有本文中進一步描述之組態之一者。根植於神經網路技術之深度學習係具有許多神經元層之一概率圖模型,通常稱為一深度架構。深度學習技術以一階層方式處理諸如影像、文字、語音等之資訊。在於本發明中使用深度學習時,使用學習從資料自動完成特徵提取。例如,可使用深度學習分類模組基於一或多個所提取特徵對缺陷進行分類、排序或分組。
一般言之,深度學習(亦稱為深度結構化學習、階層式學習或深度機器學習)係基於嘗試模型化資料中之高階抽象之一組演算法之機器學習之一分支。在一簡單情況中,可存在兩組神經元:接收一輸入信號之神經元及發送一輸出信號之神經元。當輸入層接收一輸入時,其將輸入之一經修改版本傳遞至下一層。在一深度網路中,輸入與輸出之間存在許多層,從而容許演算法使用由多個線性及非線性變換組成之多個處理層。
深度學習係基於資料之學習表示之機器學習方法之一更廣泛族之部分。一觀察(例如,待提取以供參考之一特徵)可以許多方式(諸如每像素之強度值之一向量)或以一更抽象方式(如一組邊緣、特定形狀之區域等)表示。一些表示優於其他表示之處在於,簡化學習任務(例如,面部辨識或面部表情辨識)。深度學習可提供用於無監督或半監督式特徵學習及階層式特徵提取之高效演算法。
此領域中之研究嘗試製作更佳表示且創建模型以從大規模資料學習此等表示。一些表示受神經科學中之進展啟發且鬆散地基於一神經系統中之資訊處理及通信型樣之解譯,諸如嘗試定義各種刺激與腦中之相關聯神經元回應之間之一關係之神經寫碼。
取決於概率規範及網路架構,存在具有深度架構之許多神經網路變體,包含但不限於深度信念網路(DBN)、受限波茲曼(Boltzmann)機(RBM)及自動編碼器。另一類型之深度神經網路(一CNN)可用於特徵分析。實際實施方案可取決於輸入影像之大小、待分析之特徵之數目及問題之性質而變化。除本文中揭示之神經網路之外,其他層亦可被包含在深度學習分類模組中。
在一實施例中,深度學習模型係一機器學習模型。機器學習可大體上被定義為對電腦提供在未經明確程式化之情況下學習之能力之一種類型之人工智慧(AI)。機器學習致力於開發可教示其等自身在曝露於新資料時生長及改變之電腦程式。機器學習探索可從資料學習且對資料作出預測之演算法之研究及構造。此等演算法藉由透過從樣本輸入建立一模型來作出資料驅動預測或決策而克服以下嚴格靜態程式指令。
在一些實施例中,深度學習模型係一生成模型。一生成模型可大體上被定義為本質上概率性之一模型。換言之,一生成模型係執行前向模擬或基於規則之方法之模型。可基於一適合訓練資料集學習生成模型(其中可學習其參數)。在一項實施例中,深度學習模型經組態為一深度生成模型。例如,模型可經組態以具有一深度學習架構,其中模型可包含多個層,該多個層執行數個演算法或變換。
在另一實施例中,深度學習模型經組態為一神經網路。在一進一步實施例中,深度學習模型可為具有一組權重之一深度神經網路,該組權重根據深度神經網路已被饋送來訓練它之資料模型化世界。神經網路可大體上被定義為基於神經單元之一相對大集合之一運算方法,其鬆散地模型化一生物腦使用藉由軸突連接之生物神經元之相對大叢集解決問題之方式。各神經單元與許多其他神經單元連接,且鏈結可強制執行或抑制其等對經連接神經單元之激發狀態之效應。此等系統係自我學習且經訓練而非明確程式化且在解決方案或特徵偵測難以按一傳統電腦程式表達之領域中具有優勢。
神經網路通常由多個層構成,且信號路徑從前部橫越至後部。神經網路之目標係以與人腦相同之方式解決問題,但若干神經網路遠遠更加抽象。當代神經網路專案通常使用數千至數百萬個神經單元及數百萬個連接來工作。神經網路可具有此項技術中已知之任何適合架構及/或組態。
在一較佳實施例中,機器學習模型經實施為一神經網路模型。在一個實例中,基於從量測資料提取之特徵選擇神經網路之節點之數目。在其他實例中,機器學習模型可經實施為一多項式模型、一回應表面模型或其他類型之模型。該等模型在美國專利第10,101,670號中進一步描述,該案之全部內容以引用的方式併入。
在一項實施例中,用於本文中揭示之應用之深度學習模型經組態為一AlexNet。例如,一AlexNet包含其後接著數個完全連接層(例如,3個)之數個卷積層(例如,5個),其等組合地經組態及訓練以執行所要分析。在另一此實施例中,用於本文中揭示之應用之深度學習模型經組態為一GoogleNet。例如,一GoogleNet可包含諸如卷積、池化及完全連接層之層,諸如本文中進一步描述為經組態及訓練以執行所要分析之層。雖然GoogleNet架構可包含相對高數目個層(尤其相較於本文中描述之一些其他神經網路),但一些層可平行操作,且彼此平行運作之層之群組通常被稱為起始模組。其他層可循序操作。因此,GoogleNet與本文中描述之其他神經網路之不同之處在於並非所有層皆配置成一循序結構。平行層可類似於Google之起始網路或其他結構。
在一些此等實施例中,用於本文中揭示之應用之深度學習模型經組態為一深度殘餘網路。例如,如本文中描述之一些其他網路,一深度殘餘網路可包含其後接著完全連接層之卷積層,其等組合地經組態及訓練用於特徵性質提取。在一深度殘餘網路中,層經組態以參考層輸入學習殘餘功能而非學習未引用功能。特定言之,代替希望各若干堆疊層直接擬合一所要底層映射,明確容許此等層擬合一殘餘映射,其藉由具有捷徑連接之前饋神經網路實現。捷徑連接係略過一或多個層之連接。可藉由取得包含卷積層之一普通神經網路結構且插入捷徑連接而產生一深度殘餘網,其藉此取得普通神經網路且將其轉變為其殘餘學習對應物。
在一些實施例中,藉由深度學習模型判定之資訊包含藉由深度學習模型提取之特徵性質。在一項此實施例中,深度學習模型包含一或多個卷積層。該(等)卷積層可具有此項技術中已知之任何適合組態。以此方式,深度學習模型(或深度學習模型之至少一部分)可經組態為一CNN。例如,深度學習模型可經組態為一CNN,其通常係卷積層及池化層之堆疊。本文中描述之實施例可利用深度學習概念(諸如一CNN)以解決通常棘手之表示反轉問題。深度學習模型可具有此項技術中已知之任何CNN組態或架構。一或多個池化層亦可具有此項技術中已知之任何適合組態(例如,最大池化層)且通常經組態用於減少由一或多個卷積層產生之特徵圖之維數同時維持最重要特徵。
一般言之,本文中描述之深度學習模型係一經訓練深度學習模型。例如,深度學習模型可在先前藉由一或多個其他系統及/或方法訓練。已產生及訓練深度學習模型,且接著判定模型之功能性(在本文中描述),該功能性可接著用於執行深度學習模型之一或多個額外功能。
可將訓練資料輸入至可以任何適合方式執行之模型訓練(例如,CNN訓練)。例如,模型訓練可包含將訓練資料輸入至深度學習模型(例如,CNN)且修改模型之一或多個參數,直至模型之輸出相同於(或實質上相同於)外部驗證資料。模型訓練可產生一或多個經訓練模型,接著可將其或其等發送至使用驗證資料執行之模型選擇。可將由各一或多個經訓練模型針對輸入至一或多個經訓練模型之驗證資料產生之結果與驗證資料進行比較以判定哪一個模型係最佳模型。例如,產生與驗證資料最緊密匹配之結果之模型可被選擇為最佳模型。接著,可使用測試資料對所選擇之模型(例如,最佳模型)進行模型評估。模型評估可以任何適合方式執行。亦可將一最佳模型發送至模型部署,其中可將最佳模型發送至工具以供使用(訓練後模式)。
一額外實施例係關於一種非暫時性電腦可讀媒體,其儲存可在一控制器上執行以執行用於使用一成本函數判定一配方之一電腦實施方法之程式指令,在本文中揭示。一電子資料儲存單元或其他儲存媒體可含有包含可在一處理器上執行之程式指令之非暫時性電腦可讀媒體。電腦實施方法可包含本文中描述之(若干)任何方法之(若干)任何步驟。
可如本文中描述般執行該方法之步驟之各者。該等方法亦可包含可由本文中描述之處理器及/或(若干)電腦子系統或(若干)系統執行之(若干)任何其他步驟。該等步驟可由一或多個電腦系統執行,該一或多個電腦系統可根據本文中描述之實施例之任一者組態。另外,上文描述之方法可由本文中描述之系統實施例之任一者執行。
儘管已參考一或多項特定實施例描述本發明,然將理解,可在不脫離本發明之範疇之情況下製作本發明之其他實施例。因此,本發明被視為僅受限於隨附發明申請專利範圍及其等之合理解釋。
100:方法
101:經量測信號
102:初始設定
103:配方
104:評估
105:成本函數
106:通過/未通過決策
107:最終配方
108:新設定
109:第一機器學習模組
110:第二機器學習模組
111:初始配方組
112:額外配方組
113:工具
114:晶圓
為更充分理解本發明之性質及目標,應參考結合隨附圖式進行之以下詳細描述,其中:
圖1係根據本發明之一方法之一實施例之一流程圖;
圖2係用於圖1之方法之一再訓練循環之一流程圖;
圖3係全自動化配方產生之一流程圖;及
圖4係運行時間期間之配方再訓練之一流程圖。
100:方法
101:經量測信號
102:初始設定
103:配方
104:評估
105:成本函數
106:通過/未通過決策
107:最終配方
108:新設定
109:第一機器學習模組
110:第二機器學習模組
113:工具
114:晶圓
Claims (26)
- 一種系統,其包括: 一第一機器學習模組,其經組態以判定一組配方,其中該第一機器學習模組接收經量測信號,其中該組配方中之各配方將該等經量測信號轉換為所關注參數;及 一第二機器學習模組,其經組態以從該組配方及一成本函數判定一最終配方或設定,其中該第二機器學習模組在該組配方未通過使用該成本函數之評估之情況下判定該等設定,藉此該第二機器學習模組導引該第一機器學習模組之開發,且其中該第二機器學習模組從該組配方判定通過使用該成本函數之評估之該最終配方。
- 如請求項1之系統,其進一步包括經組態以產生該等經量測信號之一工具,其中該工具包含:一載物台,其經組態以固持一晶圓;一能量源,其將能量引導至該載物台上之該晶圓處;及一偵測器,其接收從該晶圓反射之該能量,且其中該工具係一半導體計量工具或一半導體檢測工具。
- 如請求項2之系統,其中該能量係光。
- 如請求項2之系統,其中該能量係電子。
- 如請求項1之系統,其中該第二機器學習模組將該等設定提供至該第一機器學習模組。
- 如請求項1之系統,其中該第二機器學習模組使用該等設定來訓練由該第二機器學習模組進行之該評估。
- 如請求項1之系統,其中該第二機器學習模組使用該等設定來訓練由該第二機器學習模組進行之配方產生。
- 如請求項1之系統,其中該等所關注參數包含臨界尺寸、疊對、一材料性質或一缺陷類型。
- 如請求項1之系統,其中該成本函數係基於準確度、精度、總量測不確定性、缺陷捕獲率或量測時間之一或多者。
- 如請求項1之系統,其中該第二機器學習模組進一步基於該等經量測信號及/或工具效能度量進行評估。
- 如請求項1之系統,其中該第一機器學習模型及該第二機器學習模型各自為一神經網路模型。
- 一種方法,其包括: 使用一第一機器學習模組基於經量測信號判定一組配方,其中該組配方中之各配方將該等經量測信號轉換為所關注參數;及 使用一第二機器學習模組基於一成本函數分析該組配方,其中該第二機器學習模組經組態以在該組配方未通過使用該成本函數之評估之情況下判定設定,或經組態以從該組配方判定通過使用該成本函數之評估之一最終配方,藉此該第二機器學習模組導引該第一機器學習模組之開發。
- 如請求項12之方法,其進一步包括使用一半導體計量工具量測一半導體晶圓,藉此形成該等經量測信號,其中該半導體計量工具係一光學半導體計量工具或一電子束半導體計量工具。
- 如請求項12之方法,其進一步包括使用一半導體檢測工具量測一半導體晶圓,藉此形成該等經量測信號,其中該半導體檢測工具係一光學半導體檢測工具或一電子束半導體檢測工具。
- 如請求項12之方法,其進一步包括將該等設定提供至該第一機器學習模組。
- 如請求項12之方法,其進一步包括使用該等設定來訓練由該第二機器學習模組進行之該評估。
- 如請求項12之方法,其進一步包括使用該等設定來訓練由該第二機器學習模組進行之配方產生。
- 如請求項12之方法,其進一步包括訓練該第二機器學習模組以評估現有配方之效能。
- 如請求項18之方法,其中該等現有配方係來自運行一相同產品之至少一個不同生產線、運行一不同產品之至少一個不同生產線、運行一不同程序步驟之至少一個不同生產線或運行一不同目標之至少一個不同生產線。
- 如請求項12之方法,其進一步包括訓練該第二機器學習模組以從該組配方判定該最終配方。
- 如請求項20之方法,其中該訓練使用由該第一機器學習模組產生之配方。
- 如請求項12之方法,其中該等所關注參數包含臨界尺寸、疊對、一材料性質或一缺陷類型。
- 如請求項12之方法,其中該成本函數係基於準確度、精度、總量測不確定性、缺陷捕獲率或量測時間之一或多者。
- 如請求項12之方法,其中該第二機器學習模組進一步基於該等經量測信號及/或工具效能度量進行評估。
- 如請求項12之方法,其中在一半導體晶圓之生產中使用該最終配方。
- 一種非暫時性電腦可讀媒體,其儲存經組態以指示一處理器執行如請求項12之方法之一程式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/510,307 | 2021-10-25 | ||
US17/510,307 US20230128610A1 (en) | 2021-10-25 | 2021-10-25 | Continuous Machine Learning Model Training for Semiconductor Manufacturing |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202333088A true TW202333088A (zh) | 2023-08-16 |
Family
ID=86056866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111124425A TW202333088A (zh) | 2021-10-25 | 2022-06-30 | 用於半導體製造之連續機器學習模型訓練 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230128610A1 (zh) |
IL (1) | IL309270A (zh) |
TW (1) | TW202333088A (zh) |
WO (1) | WO2023076080A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7523076B2 (en) * | 2004-03-01 | 2009-04-21 | Tokyo Electron Limited | Selecting a profile model for use in optical metrology using a machine learning system |
EP3654103A1 (en) * | 2018-11-14 | 2020-05-20 | ASML Netherlands B.V. | Method for obtaining training data for training a model of a semicondcutor manufacturing process |
WO2020234863A1 (en) * | 2019-05-22 | 2020-11-26 | Applied Materials Israel Ltd. | Machine learning-based classification of defects in a semiconductor specimen |
JP2022552845A (ja) * | 2019-10-23 | 2022-12-20 | ラム リサーチ コーポレーション | 半導体を製造するためのレシピの決定 |
-
2021
- 2021-10-25 US US17/510,307 patent/US20230128610A1/en active Pending
-
2022
- 2022-06-30 TW TW111124425A patent/TW202333088A/zh unknown
- 2022-10-19 IL IL309270A patent/IL309270A/en unknown
- 2022-10-19 WO PCT/US2022/047069 patent/WO2023076080A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
IL309270A (en) | 2024-02-01 |
US20230128610A1 (en) | 2023-04-27 |
WO2023076080A1 (en) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599951B2 (en) | Training a neural network for defect detection in low resolution images | |
CN111052332B (zh) | 训练以学习为基础的缺陷分类器 | |
KR102530209B1 (ko) | 반도체 애플리케이션을 위해 구성된 심층 학습 모델을 위한 진단 시스템 및 방법 | |
CN108475351B (zh) | 用于训练基于机器学习的模型的系统和计算机实施方法 | |
US10679333B2 (en) | Defect detection, classification, and process window control using scanning electron microscope metrology | |
US11774859B2 (en) | Method and apparatus for evaluating an unknown effect of defects of an element of a photolithography process | |
TW201901113A (zh) | 用於對準以不同模態所獲取之影像之以學習為基礎之方法 | |
US10818001B2 (en) | Using stochastic failure metrics in semiconductor manufacturing | |
JP7255919B2 (ja) | 積層造形における人工知能プロセス制御のためのシステム、方法および媒体 | |
TW202135116A (zh) | 用於掃描電子顯微鏡影像之寬頻電漿輔助缺陷偵測流程 | |
US20190378260A1 (en) | Cross layer common-unique analysis for nuisance filtering | |
US11774371B2 (en) | Defect size measurement using deep learning methods | |
CN111670445A (zh) | 基于过程参数的衬底标记方法 | |
TW202232231A (zh) | 隨機性光阻厚度缺陷之預測及計量學 | |
TW202333088A (zh) | 用於半導體製造之連續機器學習模型訓練 | |
TW202205125A (zh) | 使用生成對抗網路之半導體製造製程參數判定 | |
TWI768092B (zh) | 用於臨界尺寸量測之檢測導引臨界位點選擇 | |
TWI814370B (zh) | 用於程序控制之因果卷積網路 |