Beschreibung
Verfahren zur Überwachung eines Herstellungsprozesses
Die vorliegende Erfindung betrifft ein Verfahren zur Überwachung eines Herstellungsprozesses. Die vorliegende Erfindung betrifft insbesondere ein Verfahren zur Überwachung eines Herstellungsprozesses zur Bearbeitung eines Halbleitersubstrats in der Halbleiterfertigung.
Moderne industrielle Produktion ist im allgemeinen durch einen hohen Grad der Automatisierung gekennzeichnet. Insbesondere in der Halbleiterindustrie ist ein hoher Automatisierungsgrad unabdingbar, um international wettbewerbsfähig sein zu können.
Bei der Herstellung und Bearbeitung von Halbleitersubstraten zur Bildung von integrierten Halbleiterschaltungen wird eine Vielzahl von Herstellungsprozessen und Bearbeitungsprozessen eingesetzt. Als Beispiele seien hier Abscheidungsprozesse zur Erzeugung von Materialschichten sowie Ätzprozesse zum Strukturieren dieser Schichten genannt. Diese Herstellungsprozesse müssen grundsätzlich überwacht werden, da aufgrund ihrer Komplexität unbemerkte Störungen bzw. schlecht angepasste Pro- zessbedingungen zu fehlerhaft hergestellten Halbleiterschaltungen führen können. Um diese Überwachung effizient durchfuhren zu können, besteht allgemein der Wunsch, den Herstel- lungsprozess durch die Analyse von bestimmten, während des Herstellungsprozesses ermittelten Messgrößen zu charakteri- sieren, um dadurch gegebenenfalls regelnd eingreifen zu können.
Insbesondere, bei Ätzungen zur Strukturierung von Material - schichten ist die Ätzzeit ein entscheidender Parameter, um ein qualitativ hochwertiges Ergebnis zu erzielen. Ist die Ätzzeit zu gering, wird die zu ätzende Schicht nur unvollständig entfernt. Bei einer zu langen Ätzung können bei-
spielsweise aktive Gebiete angeätzt werden, oder es kommt zu einem Unterätzen von Strukturen. Beide Zustände müssen durch geeignete Methoden der Detektion des richtigen Endzeitpunktes vermieden werden.
Ein mögliches Verfahren zur Detektion des richtigen Endzeitpunktes ist beispielsweise aus der US 5,877,032 bekannt. Darin wird ein Verfahren zur Bestimmung des Endpunkts eines Plasmaätzprozesses beschrieben, bei dem die optische Emission des Plasmas zur Ermittlung des Endpunkts herangezogen wird. Hintergrund dieses Verfahrens ist die Tatsache, dass bei dem Ätzprozess eine auf einem Substrats befindliche Schicht durchgeätzt und dabei das darunterliegende Substrat bzw. die darunterliegende Schicht freigelegt wird. Die Wechselwirkung des Atzgases mit dem freigelegten Substrat bzw. der freigelegten Schicht lässt sich spektroskopisch als Veränderung des Emissionsspektrums des Plasmas nachweisen. Diese Veränderung wird gemäß der US 5,877,032 mit einer Vielzahl von vorgegebenen Referenzkurven verglichen und aus dem Vergleich auf den Endpunkt des Plasmaätzprozesses geschlossen.
Aus der US 5,739,051 ist ebenfalls ein Verfahren zur Ermittlung des Endpunkts eines Plasmaätzprozesses bekannt. Bei diesem Verfahren wird ebenfalls die optische Emission des Plas- mas zur Ermittlung des Endpunktes herangezogen, wobei Emissionslinien, die charakteristisch für die Wechselwirkung des Atzgases mit dem freigelegten Substrat sind, für die Bewertung verwendet werden.
Üblicherweise werden an industriellen Anlagen in Abhängigkeit der im Plasma ablaufenden chemischen Reaktionen optische Filter eingesetzt, um in fest vorgegebenen Wellenlängenbereichen den zeitlichen Verlauf der Intensitäten verfolgen zu können. Diese Vorgehensweise ist gerade an Kammern, an denen wech- selnde Produkte mit unterschiedlichen chemischen Zusammensetzungen gefahren werden, nicht praktikabel. Die Detektion des Endpunktes in verschiedenen optischen Bereichen erfordert
J L M to H
( l 0 cπ 0 LΠ O LΠ co < 3 φ O α a a a fö N P. Hl < n IQ o ι_ι. N M D- « α tr < P- α Ό φ s: s rr o φ H- H- Hi φ PJ Φ φ Φ d 0 H- Φ Φ a Φ rr Φ d 3 Φ Φ Φ H- Φ 0 Φ Φ ) d d Φ φ H- tr H 3 3 rr a 0 H d Mi •-( a Φ H t-i 3 Φ α H H- ω co Φ 3 « H tr a ri H-1 0 Φ
Φ £U= IQ Φ 3 rr H. Φ ω Φ Hl N Φ 0 O d J Φ - ω I— ' 3" ι-J
H- 3 n PJ - h < 0 ^ oc) 3 Φ 3 PJ Φ ω n < O W w N CU a Φ CO ri rr • Φ CO er a α p. PJ 0 H- a Φ Φ Φ ^l N tr H- o d rr Φ H- 3 3 H- 3 LQ rr H- 0 α a φ Φ d Φ Φ 'ή O 3 Φ o> 3 co d n rr φ a H 0 α α Φ Hi Φ s- Φ LQ c Φ σ H-1 H-
3 co Φ a LQ h- ' N rr Φ ? N Φ Ό a IQ PJ Hi 3 N N « J N P) φ H- rr H- PJ= a
IQ d 3- Mi Φ N Φ ≤ H- 3 ζ a d Φ d d» CD Φ φ rr 0 N a ri Φ Φ a φ φ 3 3 PJ a PJ a Φ 3 &. Φ 3 3 < 0 IQ C H- H- LQ t Φ J α ? LQ Q. H- a IQ Φ H- M P- rr n 3 co φ P- LQ > 0 rr d Φ rr rr d Φ Φ *. H- 3 rr cn Φ Φ 3 d a CO co ≥! rr d H- H Φ Φ rr Ω a 3 h-1 *o O 3 3 3 0 rr 3 LQ H- φ 3 H Φ
H rr O N Φ Φ a O d H 3 H tr IQ h-1 d d P. rr Φ 0 H-1 er 3
Φ Φ 0 Φ 3^ rr d < rr IQ tr a J: CO 0= l Φ Φ 3 3 Φ £ er H- Φ 3 3 φ Φ ^
H K 3 H Φ PJ H 0 N co Φ IQ ω O Φ H- co 3 ?r X α H- H- 0 3 PJ= H H- rr
PJ •Ö rr a ≤ O 0- TJ t Φ Hi rr rr rr Φ α CO rr t ) H- rr Φ I-1 0
M h-1 CO W Φ tr Φ CQ Hl Φ α 3 Φ Φ PJ: o co H P) 5 O H- M- rr rr
Φ 3 Φ Φ H- co H Φ ^ t-1 CD Φ d= CΛ H- K Φ tr 3 Φ rr C M K fX rr O O Φ Φ a 3 3 rr IQ H- " 0): co H rr Φ 3 φ 3 Φ LQ 3 < a Φ O 3 PJ φ 3 tr H 3 ω H- PJ 3 0 Φ 3 Φ IQ H rr •^ in ?a H- a 3 Φ H- φ 3 s O rr d H PL. Φ •
O co ≥; rr PJ t a H- co rr H- Φ Φ - Φ rr N < O H N 3 H- ≤ •O PJ d 3
H co Φ - a rr O -1 H- 3 n 3 ≤ Φ Φ CO rr s- Φ φ rr 3 H- rr r a H- σ φ φ H- rr O Φ l_l. d rr < α - t-1 Φ 3 LΠ Φ H a O rr Φ H- 3 rr 3 O φ Q a J 0
3 o N a φ a Φ 0 H- rr rr £-> 00 N Φ H Hi a 3 rr LQ Φ O H- d= H 3"
3 £ d LQ I— ' H Φ H- ω rr ^ d 3 rr J e 3 (-■ Φ -1 N t-1 3 LΠ 3 d= OJ er to Φ a 0 rr • CQ ≤ Φ H rf^ Φ tr •ö Φ Φ Φ h1- co d d Ό » 3 co Φ er a
N o O π Φ α Φ Φ ω H- to rÜ 3 H Φ H rr rr O J H 3 O cn P- rr H Φ H-
£ Ό ΪY 3 3- Φ a O ω 3 H rr N J O: φ Φ ?r a H • tr d α LQ 3 LΠ n H- H CO
• Φ Φ 3 2; co 0) Cu H- Φ 3 Hl 3 rr φ Hi Φ cd Φ 00 tr LQ < O
CO Φ d IQ 2 o σi M Φ 3 3 D. 3 φ d H J J tu H φ P. 3 - rr Φ Φ tr tr L
PJ rr a CO Φ w Φ » 3 3 3 P Φ H 3 tQ d d d H- w c o Φ rr ^ H H H- Φ d H Φ rr N a co a - d tr co 3 Φ Φ 3 Hi Hi Φ a φ a rr CO Φ to PJ J 3 3 l-h Φ 3 - Φ Φ D. co Φ w N 3 3 Φ 3 J 3 ω H rr 3 PJ H- 3 LO d -S 3 PJ rr 3 rr PJ H H- N IQ d - φ d IQ co W N d ßj: . . 0- s: H- d 3 LQ J co Φ rr d d
H co a IQ Φ H l H- CD rr 3 α £ o tΛ Φ Φ d H- LQ O 3 Φ 3 Φ LQ 1— ■ ≤ cn 3
Φ PJ rr a Φ rr H- 0= O *» rr CO 0- H- 0- J Φ O H H O Φ rr d CO PJ H- Φ t-1 O α rr d Φ • ri - rr a <£> Ό . Φ 3 •Ü P H . c H O a PJ 3 CD Φ H H-"
Φ Hl tT H-1 Ό Φ 0) cn d ω 3 d d= rr Φ d < Ö tr CO 0 LQ 3 ^ O. a rr H- N
3 IQ rr w Φ D- d a a rr 3 σ Φ 3 a φ Φ d 0 3 rr O < tr (-• d φ Φ
P_ ι-f H- P) a Φ ? M - Φ 3 cπ H er a ω Ό P- Φ φ φ PJ= 3 LQ H-
Φ d tr a 3 co rr H- rr 3 rr H < - o α>= φ PJ LQ Φ O Φ 3 5 H 0 3 LQ rr rr
* 3 Φ Φ co rr * 23 Φ CO P. 5S co P> φ cn P>= a t-i CO a a ω Hl co IQ α H- Mi 3 CO PJ Φ N 0 H- tr d n LΠ rr rr H- Hi Cυ Φ ra <! fu o Φ D- & H- co Φ - a H- rr < 0 Φ σ ω H- Hi tQ co N Φ d Φ d= 3 a Kl 3 0 tr φ a Φ H- O tu •o ^ Φ tr 3 N Φ tr H- Φ a 3 - H 3 H H 3 er a H- H H 3 tr CO Φ tr
3 0 (-•- o c Φ H- H. 3 α H- fυ PJ Φ j^ H- d LQ rr rr Φ P- CO LQ Φ . Φ Φ
3 3 φ Φ 0 H Φ « Φ TJ d Φ 1- ro O a £X Φ 3 N ω Φ a H m > 3
Φ I-1 H 0 0) H (-1- Φ d co 3 O LO tr IQ Φ 0- H- PJ Φ H- O φ ι-i d
> co aJ 3 a rr M a Φ 3 - o> tr H- H- Φ dö a H- 0 O σ H- 0 co >
≤ PJ PJ tu IQ - α &. 3 φ d ≤ H & σ 3 Φ P J rr 3 3" J π N ζ d
Φ rr Φ Ml CO Φ d rr rr ω H- H- α Φ Φ Φ φ ö CO Ό CO CO tr φ PJ Hi
H Φ H- rr co Φ N co £D a co co l H O Φ H to α Φ H- * ; d co J H- Φ co tr
CO c
* CQ Φ O 0 3 CQ Ό Φ &. Ci 3* « P> Φ rr O co LQ Φ co l-1 J
O d Φ co φ r a Ό
≥! IQ tr H l_l. Φ rr CO H IQ Φ r Φ 3 φ ? φ Φ H N H- 3
3' 3 co Φ Φ 0- 0) Φ Φ φ Φ H er H- tυ Φ Hi φ H- Φ d rr - a Φ d 3 P-
3 IQ C H rr a PJ 3 H- Ω 0- < Φ IQ X H O 3 X rr co s: co rr 3 H LQ φ d CO d t-i N N o α 3 tr φ S» σ H- Φ rr φ φ PJ N rr H- rr H- H - Φ H N rr Φ H PJ c Φ ζ co Φ φ co 3 P- 3 d H- CO 3 H- P- 0 Φ d σ ΓΛ 3 d o H- Φ Φ co 3 3 N Hl Φ rr rr IQ 0
1 - 1 a H 0- 3 Φ J φ H- 1 a 3
Φ 1 Φ Φ 3 co H- d fx co Φ 3 f-1 3 a Hi
zung. Daher wird in der US 5,864,773 ein sogenanntes virtuelles Sensorsystem vorgeschlagen, bei dem diese Veränderungen vor der eigentlichen Bewertung der Messgrößen berücksichtigt werden. Dadurch soll ein virtueller Sensor geschaffen werden, der frei von kammerspezifischen bzw. prozessspezifischen Fehlereinwirkungen ist. Da jedoch auch hierbei auf Erfahrungen des Bedienungspersonals zurückgegriffen werden muss, können unerwartet auftretende Fehler und Veränderungen nicht automatisch berücksichtigt werden.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Überwachung eines Herstellungsprozesses bereitzustellen, das die genannten Nachteile vermindert bzw. gänzlich vermeidet. Insbesondere ist es die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Überwachung eines Herstellungs - Prozesses bereitzustellen, das in der Lage ist, aus großen Datenmengen die entscheidenden Informationen, d.h. wichtige Kenngrößen, zu extrahieren.
Diese Aufgabe wird erfindungsgemäß von den Verfahren zur
Überwachung eines Herstellungsprozesses nach dem unabhängigen Patentanspruch 1 gelöst. Weitere vorteilhafte Ausführungsformen, Eigenschaften und Aspekte der vorliegenden Erfindung ergeben sich aus den abhängigen Ansprüchen, der Be- Schreibung und den beiliegenden Zeichnungen.
Erfindungsgemäß wird ein Verfahren zur Überwachung eines Herstellungsprozesses bereitgestellt, das folgende Schritte aufweist :
a) eine Vielzahl von Messgrößen wird zu vorgegebenen Zeitpunkten bestimmt,
b) aus der Vielzahl von Messgrößen wird zumindest eine Line- arkombination gebildet, wobei die Gewichte der Linearkombination so gewählt sind, dass eine vorgegebene Kurvenform approximiert wird,
LO J to t P1 P1
LΠ o cn o LΠ o LΠ
Emissionsspektrum verwendet. Emissionsspektren beinhalten in der Regel sehr detaillierte Informationen über den der Strahlungsemission zu Grunde liegenden Prozess, beispielsweise einer chemischen Reaktion. Bei der Aufnahme derartiger Spektren fallen jedoch sehr große Datenmengen an, aus denen mit herkömmlichen Methoden die entscheidenden Informationen nur mit großen Schwierigkeiten extrahiert werden können. Durch das erfindungsgemäße Verfahren ist es nun möglich, die Daten eines Emissionsspektrums so aufzubereiten, dass die entschei- denden Informationen (Kenngrößen) nahezu in Echtzeit bzw. in Echtzeit aus den Daten gewonnen werden können. Dementsprechend können Emissionsspektren mit dem erfindungsgemäßen Verfahren zur online Überwachung von Herstellungs- bzw. Bearbeitungsprozessen eingesetzt werden. Dabei ist es insbesondere bevorzugt, wenn die Intensitäten von verschiedenen Wellenlängen in einem Spektralbereich zwischen 200 und 950 nm verwendet werden.
Gemäß einer bevorzugten Ausführungsform wird das Emissions- Spektrum eines Plasmaprozesses, insbesondere eines Plasmaätzprozesses, verwendet. Plasmaätzprozesse zum Strukturieren von Materialschichten spielen in der Halbleiterfertigung einer wichtige Rolle. Die Dimensionen der erzeugten Strukturen hängen entscheidend von der Qualität des verwendeten Ätzpro- zesses ab. Das Emissionsspektrum des Plasmas enthält dabei eine Vielzahl von Informationen, die zur Kontrolle des Pla- maprozesses notwendig sind. Hochentwickelte Sensorsysteme wie beispielsweise die sogenannte „Optical Emission Spectroscopy (OES) " oder die sogenannte „Residual Gas Analysis (RGA) " kön- nen zur Aufnahme der Spektren verwendet werden. Dabei ist es insbesondere bevorzugt, wenn als Kenngröße der Endzeitpunkt des Plasmaprozesses bestimmt wird.
Gemäß einer weiteren bevorzugten Ausführungsform wird als vorgegebene Kurvenform eine stufenförmige Funktion verwendet. Stufenförmige Funktionen, wie beispielsweise eine Tangenshy- perbolicus-Funktion, können mit entsprechenden Auswertungsal-
gorithmen relativ leicht daraufhin untersucht werden, ob die Stufe bereits durchlaufen wurde oder nicht, d.h. ob der Wert der Funktion bereits von einem niedrigen Wert auf einen höheren Wert gesprungen ist. Ist dementsprechend die zu bestimmende Kenngröße mit dem Auftreten der Stufe verknüpft, so kann die Kenngröße relativ einfach automatisch bestimmt werden. Dabei ist es insbesondere bevorzugt, wenn die stufenförmige Funktion zumindest einen freien Parameter zur Anpassung an die zu bestimmende Kenngröße aufweist.
Gemäß einer weiteren bevorzugten Ausführungsform werden zur Ermittlung der Gewichte der Linearkombination die Messgrößen zu den vorgegebenen Zeitpunkten in einer Matrix angeordnet und es wird auf Basis dieser Matrix eine Hauptkomponentenana- lyse („Principal Component Analysis") durchgeführt. Die
Hauptkomponentenanalyse ist eine Methode, eine Matrix A durch ihre Hauptvektoren („principal vectors") bzw. Hauptkompenen- ten („principal components") auszudrücken. Zur Berechnung der Hauptkompenenten können eine Reihe von Verfahren eingesetzt werden. Beispielsweise kann die Singulärwertzerlegung („Singular value decomposition (SVD)") der Matrix A berechnet werden. Als Alternative können auch die Eigenwerte sowie Eigenvektoren der Korrelationsmatrix (ATA) der Matrix A berechnet werden. Darüber hinaus können auch andere Verfahren zur Zer- legung einer Matrix wie die sogenannten „ (nonlinear) Partial Least Squares" einer Matrix A verwendet werden.
Bevorzugt wird die Hauptkomponentenanalyse mit Hilfe einer Singulärwertzerlegung realisiert, so dass die Matrix Am n in zwei orthogonale Matrizen U™*"' und Vnxn und eine diagonalbesetzte Matrix ∑ mit den Singulärwerten σx zerlegt wird, wobei gilt:
A = U ∑ Vτ = ∑, σ, Ul vτ, .
Dabei bilden die sogenannten „linken" Eigenvektoren uλ die Matrix Omxm während die sogenannten „rechten" Eigenvektoren v
die Matrix Vnxn bilden. Üblicherweise sind die Singulärwerte σx der Größe nach geordnet und repräsentieren den Anteil, den das zugehörige dyadische Produkt ^v"1^ an der Bildung der Gesamtmatrix A besitzt. Die dyadischen Produkte UiV^, die nur kleine Singulärwerte σx besitzen, tragen in der Regel keine Information über den überwachten Prozess. Dementsprechend werden real gemessene Matrizen von Messgrößen in der Regel durch die dyadischen Produkte UιVTj. mit den 3 bis 15 größten Singulärwerten σx ausreichend gut repräsentiert.
Gemäß einer weiteren bevorzugten Ausführungsform wird zur Ermittlung der Gewichte der Linearkombination ein Funktional auf Basis der vorgegebenen Kurvenform und der Linearkombination minimiert bzw. maximiert. Dabei ist es insbesondere be- vorzugt, wenn durch die Minimierung (bzw. Maximierung) des
Funktionais die wesentlichen Hauptkomponenten der Messgrößenmatrix bestimmt werden. Durch die Minimierung (bzw. Maximierung) des Funktionais lassen sich auf einfache Weise diejenigen Hauptkompenenten festlegen, die berücksichtigt werden müssen, um die vorgegebene Kurvenform mit ausreichender Genauigkeit approximieren zu können. Weiterhin ist es bevorzugt, wenn durch die Minimierung des Funktionais der freie Parameter der stufenförmigen Funktion bestimmt wird. So lässt sich auf selbstkonsistente Weise ein optimaler Signalverlauf für die zu bestimmende Messgröße festlegen.
Gemäß einer weiteren bevorzugten Ausführungsform wird zur Bestimmung der Kenngröße eine Glättung der Linearkombination durchgeführt. In der Regel weisen die Messgrößen einen Rauschanteil auf, der sich auch bei einer Linearkombination der Messgrößen wiederfindet. Damit aufgrund des Rauschens keine Fehlbewertung vorgenommen wird, ist es bevorzugt den Rauschanteil durch eine Glättung der Linearkombination soweit zu unterdrücken, dass die Kenngröße korrekt bestimmt werden kann. Dabei ist es insbesondere bevorzugt, wenn die Glättung der Linearkombination durch die Verwendung eines Nullphasenfilters erzielt wird. Durch eine Unterdrückung des Rauschan-
teils können qualitative Kriterien, wie das Auftreten eines lokalen Maximas oder das Auftreten eines Wendepunktes, zur Bestimmung der Kenngröße herangezogen werden. Qualitative Kriterien haben gegenüber quantitative Kriterien, wie das Überschreiten bestimmter Schwellwerte, den Vorteil, dass sie in weit geringerem Maße von der jeweiligen Absolutgröße der Messwerte abhängen und somit robuster über einen größeren Wertebereich eingesetzt werden können.
Zur Erhöhung der Robustheit des Verfahrens, kann es sinnvoll sein, die Ergebnisse mehrerer Probeläufe bzw. Produktionsläufe in die Festlegung der Gewichte (Koeffizienten) für die Linearkombination einfließen zu lassen. Daher werden gemäß einer weiteren bevorzugten Ausfuhrungsform zur Ermittlung der Gewichte der Linearkombination die Messgrößen mehrerer Probe- und/oder Produktionsläufe verwendet. Dabei ist es insbesondere bevorzugt, wenn die Messgrößen mehrerer Probe- und/oder Produktionsläufe in einer Matrix (Block-Matrix) angeordnet werden und auf Basis dieser Matrix eine Hauptkomponentenana- lyse durchgeführt wird.
Nachfolgend wird die Erfindung anhand der Zeichnungen näher erläutert. Es zeigen:
Fig. 1 eine schematischer Darstellung einer Vorrichtung zur Durchführung einer ersten Ausführungsform des erfindungsgemäßen Verfahrens,
Fig. 2A - 2C eine Darstellung der ersten drei linken Ei- genvektoren einer Spektrenmatrix,
Fig. 3A - 3C eine Darstellung der entsprechenden ersten drei rechten Eigenvektoren einer Spektrenmatrix,
Fig. 4 einen Graph der erzielbaren Modellgüte in Abhängigkeit von dem Endzeitpunkt tEp und der Anzahl der berücksichtigten Hauptkomponenten,
Fig. 5 einen Graph der erzielbaren Modellgüte bei optimalen CopC 1 sowie tEp in Abhängigkeit von der Anzahl der berücksichtigten Hauptkomponenten,
Fig. 6 eine Darstellung eines Endpunktmusters uEp,
Fig. 7 eine Darstellung der Linearkombination y(t)
(generiertes Endpunktsignal) zur verbesserten Bestimmung des Endzeitpunkts einer Plasmaät- zung,
Fig. 8 das entsprechende herkömmliche Signal zur Bestimmung des Endzeitpunkts einer Plasmaätzung nach dem Stand der Technik,
Fig. 9 den Verlauf der Linearkombination y(t) für einige Produktwafer aus drei verschiedenen Produktionszyklen,
Fig. 10 den Verlauf des entsprechenden herkömmlichen
Signals nach dem Stand der Technik,
Fig. 11 die zeitliche Ableitung der in Fig. 9 gezeigten Linearkombinationen y(t),
Fig. 12 die zeitliche Ableitung der in Fig. 9 gezeigten Linearkombinationen y(t) nach einer Filterung, und
Fig. 13 Linearkombinationen y(t) (durchgezogen) mit den ermittelten Endzeitpunkten (Kreis) zum
Vergleich mit den herkömmlichen CN-Signalen (gestrichelt) nach dem Stand der Technik.
Fig. 1 zeigt eine schematische Darstellung einer Vorrichtung zur Durchführung einer ersten Ausführungsform des erfindungsgemäßen Verfahrens. Die wesentlichen Bestandteile dieser Vorrichtung sind eine Reaktionskammer 1, in der beispielsweise ein Plasmaätzverfahren (z.B. RIE) durchgeführt werden kann. Über einen Einlass 2 wird das Ätzgas in die Reaktionskammer 1 geführt, wo es ionisiert und in ein Plasma überführt wird.
Das Plasma 9 wird von einer kapazitiv angelegten RF-Spannung, die von einer RF-Quelle 3 bereitgestellt wird, erzeugt und aufrechterhalten. Durch einen Auslass 4 werden die Reaktions- produkte der Ätzung aus der Reaktionskammer 1 entfernt. Als Ätzgas wird ein Ätzgasgemisch aus CF4, CHF3 und Argon verwendet, wobei das Plasma durch ein Magnetfeld (nicht gezeigt) von etwas 60 Gaus in seiner Homogenität verbessert wird. Die zur Erzeugung und Aufrechterhaltung des Plasmas verwendete Leistung beträgt etwa 1200 Watt. Der Druck in der Reaktions- kammer 1 beträgt dabei etwa 150 mtorr.
Im vorliegenden Beispiel dient das Plasma dazu, Kontaktlöcher in eine Siliziumdioxidschicht zu ätzen, die auf einem Silizi- umwafer 5 angeordnet ist. Dazu wird der Siliziumwafer 5 auf einer Halterung 6 in der Reaktionskammer 1 abgelegt. Bei modernen Halbleiterprodukten, wie Speicher oder Prozessoren, weisen die Kontaktlöcher, die in der Regel zum Anschluss der Diffusiongebiete (aktive Gebiete) der Transistoren dienen, ein sehr geringes Öffnungsverhältnis auf. Dementsprechend hoch sind die Anforderung an die Erkennung des richtigen Endzeitpunkts der Ätzung, an dem die Kontaktlδcher das Siliziumsubstrat erreichen. Ist die Ätzzeit zu kurz, werden die Kontaktlöcher nicht vollständig geöffnet und die Transistoren sind nicht angeschlossen. Ist die Ätzzeit zu lang, werden die aktiven Gebiete der Transistoren stark angeätzt. Beides kann zum totalen Ausfall der integrierten Schaltung führen.
O LO ) t H P1
LΠ O LΠ o LΠ o LΠ
zungen verwendet werden. Die Hauptkomponentenanalyse wird mit Hilfe einer Singulärwertzerlegung realisiert, so dass die Matrix Λ0(λ, t) in zwei orthogonale Matrizen U0 und V0 und eine diagonalbesetzte Matrix ∑0 mit den Singulärwerten σ°! zerlegt wird, wobei gilt:
Λ0(λ, t) = Uo ∑o V0 T = ∑, σ\ u0, (v\)τ .
Dabei bilden die sogenannten „linken" Eigenvektoren u° die Matrix U0 während die sogenannten „rechten" Eigenvektoren v°! die Matrix V0 bilden. Die Figuren 2A - 2C zeigen Darstellungen der ersten drei linken Eigenvektoren u0 ! der Matrix Λ0(λ, t) , d.h. die linken Eigenvektoren u°1 mit den drei größten Singulärwerten σ°! . Die Figuren 3A - 3C zeigen Darstellungen der entsprechenden ersten drei rechten Eigenvektoren vC ! der Matrix Λ0(λ, t) . Die Spalten u°! der Matrix U0 können als Basiswellenlängenmuster interpretiert werden, während die Spalten v°x der Matrix V0 als Basiszeitsignale interpretiert werden können.
Zur Bestimmung einer geeigneten Linearkombination der Messgrößen wird nun folgender Ansatz verwendet:
y0(t) = ∑, Λ0(λ, t)τ u\ c, .
Dabei indiziert der Index i die wichtigsten linken Hauptkomponenten u0! der Matrix Λ0(λ, t) . Wieviele und welche der wichtigsten Hauptkomponenten u°! dann wirklich berücksichtigt werden, wird durch die folgende Minimierung eines Gütefunkti- onals bestimmt. Auch die noch unbekannten Koeffizienten c^. werden in der folgende Minimierung des Gütefunktionais festgelegt. Sind die wichtigsten Hauptkomponenten u°! festgelegt und sind die Koeffizienten cx bestimmt, dann ist dadurch auch die Linearkombination der Messgrößen festgelegt. Aufgrund der Orthogonal i tat der linken Hauptkomponenten u0! kann die Funktion y0(t) auch in folgender Form geschrieben werden:
y0(t) = Σ, v\(t) σ\ c, .
Die Funktion y0(t) ist eine Funktion der Zeit t, die mit Hilfe der Koeffizienten Cj. an eine vorgegebene Kurvenform an- gepasst werden kann. Die vorgegebene Kurvenform ist dabei so gewählt, dass sich die wichtige Kenngröße, in diesem Fall der Endzeitpunkt der Ätzung, relativ leicht aus der Linearkombination extrahieren lässt . Ein typisches Beispiel einer solchen Kurvenform ist eine Tangenshyperbolicus-Funktion:
y„o(t) = 0,5 (tanh[(t - tEP) /δ] + 1).
Der Parameter δ ist dabei ein Maß für die gewünschte Steilheit mit der die Funktion yM0(t) von ihrem Ausgangswert (« 0) auf ihren Endwert (~ 1) springt. Dieser Parameter wird in diesem Beispiel von außen vorgegeben und ist keine Variable in der nun folgenden Optimierung. Der Parameter tEP gibt den Zeitpunkt an, an dem die Funktion yM0(t) von ihrem Ausgangswert (« 0) auf ihren Endwert (~ 1) springt. Dieser Parameter tEP wird nicht von außen vorgegeben, sondern er wird in der nun folgenden Optimierung festgelegt, so dass der aus dem Probelauf gewonnene Endzeitpunkt und der Parameter tEP möglichst gut übereinstimmen. Dies wird in diesem Ausführungs- beispiel durch die Minimierung des Gütefunktionais Q er- reicht. Dabei gilt:
Q2 = Σ (yo(t, ci) - y„0(t, tEP))7 N
mit dem Normierungsfaktor
N = ∑t(yMo(t, tEP) - ∑t- yM0(t', tEP))2 .
Die Summe ∑t (bzw. ∑t-) steht dabei für eine Summe der jeweiligen Funktionswerte an den vorgegebenen Zeitpunkten. Durch die Minimierung des Gütefunktionais Q werden die wichtigsten Hauptkomponenten v°1 ausgewählt, der Parameter tEP optimiert und die Koeffizienten c bestimmt. Letztes ist aufgrund der
Orthonormalität der rechten Eigenvektoren v°! ohne Schwierigkeiten möglich. So ergibt sich die Beziehung
für die optimalen Koeffizienten Copt 1, die natürlich noch implizit von dem Parameter tEP abhängen. Die Auswahl der wichtigsten Hauptkomponenten u°! bzw. v° ist ebenfalls leicht zu lösen, da wiederum aufgrund der Orthogonalitätseigenschaft der Beitrag jeder Hauptkomponente zur Reduzierung des Gütefunktionals Q direkt angegeben werden kann. Für eine spezielle Vorauswahl von Hauptkomponenten müssen lediglich diejenigen Hauptkomponenten ausgewählt werden, die die betrags- mäßig größten Koeffizienten c0 1 ^ besitzen.
Als Beispiels zeigt Fig. 4 einen Graph der erzielbaren Modellgüte in Abhängigkeit von dem Endzeitpunkt tEP und der Anzahl der berücksichtigten Hauptkomponenten. Die optimale Wahl für den Parameter tEP (diejenige Stelle, an der das steilste Endpunktsignal erzeugt werden kann) wird durch eine eindimensionale numerische Optimierung gefunden. Dabei ist es zweckmäßig, eine übergeordnete Gittersuche und anschließend eine lokale gradietenorientierte Optimierung zum Auffinden des optimalen tEpopt(n) in Abhängigkeit der Anzahl der berücksich- tigten Hauptkomponenten zu verwenden. Auf diese Weise lassen sich Störungen durch lokale Minima vermeiden.
Fig. 5 zeigt einen Graph der erzielbaren Modellgüte Qopt bei optimalen Koeffizienten cop! sowie tEP σpt in Abhängigkeit von der Anzahl der berücksichtigten Hauptkomponenten. Auf Basis dieses Graphs kann schließlich der einzige, noch festzulegende Parameter - die Anzahl der zu berücksichtigenden Haupt- komponenten - festgelegt werden. In Fig. 5 ist zu erkennen, dass bereits mit 4 ausgewählten Hauptkomponenten eine ausrei- chende Modellgüte erreicht ist.
Damit ist die Probeätzung ausgewertet, und die Gewichte der Linearkombination aus den Messgrößen sind festgelegt. Aus den ausgewählten rechten Hauptkomponenten und den optimalen Koeffizienten copc 1 kann nun ein „Endpunktmuster" uEP gebildet wer- den:
UEP = ∑, Ul C°pt 1 .
Fig. 6 zeigt eine Darstellung des Endpunktmusters uEP. Dabei sind die Komponenten UEP 3 des Endpunktmuster UEP die gesuchten Gewichte für die Linearkombination der Intensitäten der gemessenen Wellenlängen des Emissionsspektrums. In dem vorliegenden Ausführungsbeispiel kann dem Endpunktmuster uEP eine chemische Interpretation zugeordnet werden. In Fig. 6 sind beispielsweise deutlich CN- und H-Linien zu erkennen.
Soll nun der Endzeitpunkt einer Ätzung während der Herstellung einer integrierten Schaltung bestimmt werden, dann wird, wie in Bezug auf Fig. 1 beschrieben, fortlaufend das Emissi- onsspektrum der Plasmaätzung gemessen. Aus den Messgrößen wird nun mit Hilfe der Gewichte EP3 eine Linearkombination y(t) gebildet. Dies kann beispielsweise dadurch erfolgen, dass aus den gemessenen Werten eine Matrix Λ(λ, t) erstellt wird und nach jedem Messzeitpunkt das Endpunktmuster UEP mit der Transponierten dieser Matrix Λ(λ, t) multipliziert wird:
y(t) = Λ(λ, t)τ uEP.
Fig. 7 zeigt eine Darstellung der Linearkombination y(t) zur verbesserten Bestimmung des Endzeitpunkts einer Plasmaätzung. Man erkennt deutlich, dass die Linearkombination y(t) im wesentlichen eine stufenförmige Form aufweist, welche ein wesentlich schärferes und für die Erkennung des richtigen Endzeitpunkts besser geeignetes Signal liefert. Als Vergleich dazu ist in Fig. 8 das entsprechende herkömmliche Endpunkt- Signal dargestellt. Bei diesem herkömmlichen Endpunkt-Signal muss der richtige Endzeitpunkt aus der Lage des kleinen loka-
len Maximums in der Mitte des Signals (etwa bei 80 Sekunden) gewonnen werden. Dementsprechend unsicher ist die Bestimmung des Endzeitpunkts mit den herkömmlichen Verfahren.
Eine Auswertung der in Fig. 7 gezeigten Linearkombination y(t) liefert nun den gewünschten Endzeitpunkt der Plasmaätzung. Eine Möglichkeit, die Linearkombination y(t) auszuwerten, besteht in der Vorgabe eines Schwellwerts (z.B. 0,6). Übersteigt die Linearkombination y(t) den Schwellwert, kann der Ätzprozeß entweder sofort oder nach Ablauf einer gewissen, fest vorgegebenen Nachätzzeit beendet werden.
Die Vorgabe eines Schwellwert ist sehr einfach zu implementieren und liefert für viele Prozesse zufriedenstellende Er- gebnisse. Leider hängt diese Verfahren zur Bestimmung der Kenngröße in der Regel von den Absolutgrößen der Messwerte ab. Im vorliegenden Beispiel hängt das Erreichen des Schwell- werts beispielsweise von der Gesamtintensität der gemessenen Strahlung ab. Die Gesamtintensität der gemessenen Strahlung ist aber a priori nicht bekannt, so dass durch eine Vorgabe eines Schwellwerts der richtige Endzeitpunkt nicht exakt festlegen lässt.
Fig. 9 zeigt den Verlauf der Linearkombination y(t) für ei- nige Produktionswafer aus drei verschiedenen ProduktionsZyklen. Die resultierende Endpunktsignale zeigen die erfolgreiche Übertragung des Endpunktmusters auf andere Ätzungen. Im Vergleich sind in Fig. 10 nochmals die herkömmlichen Endpunktsignale (CN-Linien) der entsprechenden Ätzungen darge- stellt. Obwohl es entsprechend Fig. 9 gelungen ist, ein im
Vergleich zu Fig. 10 viel schärferes Endpunktsignal zu erzeugen, führt eine quantitative Schwellwertvorgabe (von etwa 0.6) nicht exakt zu den gewünschten Endzeitpunkten, da dieser Schwellwert je nach Gesamtintensität des Signals eher oder später erreicht wird. Daher wird im folgenden eine qualitative Signalanalyse durchgeführt.
Zur genauen Festlegung des Endzeitpunkts wird daher im folgenden der Wendepunkt der Linearkombination y(t), d.h. das Maximum der ersten Ableitung der Linearkombination y(t) nach der Zeit, verwendet. Wie aus Fig. 9 ersichtlich, ist dieser Wendepunkt im wesentlichen unabhängig von der Gesamtintensität des gemessenen Signals. Fig. 11 zeigt die zeitliche Ableitung der in Fig. 9 gezeigten Linearkombinationen y(t) . Man erkennt jedoch, dass aufgrund des Rauschens in den Messgrößen die erste Ableitung der Linearkombinationen y(t) ebenfalls stark verrauscht ist, so dass sich das Maximum der ersten Ableitung nicht auf einfache Weise bestimmen lässt.
Daher werden in der vorliegenden Ausfuhrungsform die Linearkombinationen y(t) zuerst gefiltert, bevor die erste zeitli- ehe Ableitung gebildet wird. Durch die Filterung wird der Rauschanteil unterdrückt und das eigentliche Signal tritt stärker hervor. Fig. 12 zeigt die erste Ableitung der gefilterten Linearkombinationen y(t) . Damit sich bei der Filterung das Maximum nicht verschiebt, wird die Filterung mit einem sogenannten Nullphasenfilter durchgeführt. Zur Filterung der Linearkombination y(t) kann eine Reihe von Verfahren bzw. Filtern eingesetzt werden. Im vorliegenden Beispiel wurde die zeitdiskrete Variante (Tastzeit Ta) eines Butterworth-Filters 1. Ordnung (Filterzeit TF) verwendet. Dieses Filter besitzt folgende Übertragungsfunktion G:
1-α - a z +
G = —- — mit a = eχp(-Ta/TF). z ~ a
Für die konkrete Anwendung wurde eine Filterzeitkonstante TF von 10s bei einer Tastzeit Ta von 2s gewählt.
Die konkrete Filterung wird durchgeführt, indem das Filter G zunächst auf das zu filternde Signal y(t) angewendet wird. Das so erzeugte Zwischensignal y* wird nun zur Kompensation der bei der ersten Filterung erzeugten PhaenverSchiebung über ein durch Null- und Polstellenspiegelung aus dem Filter G ge-
O LO to to P1
LΠ O LΠ o LΠ O LΠ
die richtigen Gewichte (Koeffizienten) für die Linearkombination der Messgrößen festzulegen. Zur Erhöhung der Robustheit des Verfahrens, kann es jedoch sinnvoll sein, die Ergebnisse mehrerer Probeläufe bzw. Produktionsläufe in die Festlegung der Gewichte (Koeffizienten) für die Linearkombination einfließen zu lassen. Im vorliegenden Fall können beispielsweise die gemessenen Spektrenmatrizen mehrerer Ätzungen (z.B. am Anfang, in der Mitte und am Ende eines sogenannten „Wetclean- Zyklus" der Reaktionskammer) in die Festlegung der Gewichte einbezogen werden.
Zur Berücksichtigung mehrerer Probeläufe bzw. Produktionsläufe ist es bevorzugt, die Messgrößenmatrizen der einzelnen Prozesse zu einer einzigen, großen Block-Matrix zusammenzu- führen. Für das Beispiels Kontaktlochätzung heißt dies, dass eine große Spektrenmatrix aus n zeitlich aneinandergereihten Spektrenmatrizen gebildet wird. Dies bedeutet, dass für eine feste Wellenlänge (dies entspricht einer Zeile der Matrix) die zeitlichen Intensitätsverläufe der verschiedenen Ätzpro- zesse nacheinander in eine Zeile der Matrix eingetragen werden. Sollen beispielsweise 3 Probeätzungen entsprechend dem oben beschrieben Ausführungsbeispiel berücksichtigt werden, entsteht eine Matrix Λ0(λ, t) mit 1024 Zeile und 300 (3 * 100) Spalten.
Zur Bestimmung der Gewichte der Linearkombination y(t) kann nun wiederum eine Singulärwertzerlegung auf der Basis der Matrix Λ0(λ, t) , die mehrere Blockmatrizen Λn(λ, t) umfasst, durchgeführt werden:
[Λιμ,t) | Λ2(A,t) |... | Λπ(Λ,t)] = U - Σ - Vr - ∑σ,. - W (A) - v,(t)r .
In der Matrix U sind wiederum die linear unabhängigen spektralen Basismuster Ui enthalten. Die Vektoren vi verkörpern jetzt allerdings die den spektralen Basismustern zugeordneten zeitlichen Signalkomponenten über mehrere Ätzungen. Entsprechend muss das gewünschte Endpunktsignal yMo(t) mit n hintereinander angeordneten tanh- Funktionen ausgestattet werden,
deren j=l,..,n Lagen tEp3 für jede Ätzung in die Optimierung einzubeziehen sind. Durch die folgende Optimierung des Güte- funktionals erhält man somit n verschiedene Parameter tεp3 aber nur einen Satz von optimalen Koeffizienten copt ! , aus denen nun wiederum ein Endpunktmuster uEP gebildet werden kann:
EP = ∑x Ul copt 1 .
Die so gewonnen Gewichte UEP3 beinhalten jetzt jedoch die Informationen mehrerer Ätzungen, so dass Verfahren beispielsweise über einen längeren Zeitraum stabil eingesetzt werden kann.