Vorrichtung und Verfahren zur Optimierung von technischen Produktionsprozessen durch Verdichtung, Zusammenführung und
Analyse von Prozess-/Qualitätsdaten
Die Erfindung betrifft ein Verfahren zur Optimierung von technischen Produktionsprozessen durch Verdichtung und Analyse von Prozess- und Qualitätsdaten innerhalb eines Regelkreises. Das Verfahren bezieht sich auf technische Produktionsprozesse z.B. der Herstellung von Kristallen, insbesondere CaF2, und auf Produktionsprozesse an Glasschmelzwannen.
Gebiet der Erfindung:
Bei technischen Produktionsprozessen, z.B. in der Kristallzucht (z.b. CaF2-Kristallzucht) , und an Glasschmelzwannen, fallen große Mengen von Prozess- und Qualitätsdaten an. Diese Daten enthalten in ihrer Gesamtheit häufig hohe Potenziale zur Optimierung von Produktionsprozessen und in der Folge der Prozessprodukte. Durch die häufig sehr große Menge an Daten und der Form, in der diese vorliegen, sind diese Potenziale ohne geeignete Datenaufbereitungs- und analyseverfahren meist nur sehr schwer zu finden. Durch geeignete Methoden lassen sich jedoch in den Daten versteckte Erkenntnisse und Optimierungpotenziale entdecken. Innerhalb eines Daten-Regelkreises können die gefundenen Erkenntnisse und Informationen in die Steuerung der
Prozess- und Produktionskette einfließen (Figur 1) . Dieser Regelkreis kann sowohl für Batchprozesse als auch für kontinuierliche Produktionsprozesse implementiert werden.
Hierbei ergeben sich folgende Teilprobleme:
a) Prozessdaten eines technischen Prozesses werden häufig innerhalb eines Prozessleitsystems erhoben und in speziellen Prozessdatenspeichern abgelegt. Hierbei handelt es sich um Daten, die in kontinuierlichen oder diskontinuierlichen Zeitintervallen an den Messstellen der Anlage erhoben und in der Regel digitalisiert werden, um sie auf einem digitalen Datenträger abzulegen. Hieraus resultieren historische Messdaten-Zeitreihen, die für jede der Messstellen entstehen und gespeichert werden. Diese Rohdaten können aus einer sehr großen Anzahl von einzelnen Messdaten bestehen, wobei wichtige Prozessinformationen meist nicht in dem einzelnen Messwert, sondern vielmehr in dessen Zeitverlauf zu finden sind. Zudem lassen sich einzelne Messwerte eines Prozesses nur sehr schwer mit anderen Prozessen (Batchprozesse) oder anderen Prozesszuständen (kontinuierliche Prozesse) vergleichen. Hier stellt sich das Problem, wie die Messdaten-Zeitreihen zu hoch- aussagefähigen und zwischen Prozessen oder Prozesszuständen vergleichbaren Kennwerten verdichtet werden können.
b) In der Anmeldung wird im Folgenden zwischen den Daten, die während eines Prozesses erhoben werden (Prozessdaten) , und den Daten, die vor, zwischen und nach den Prozessen an Prozesseingangsmaterialien, Zwischenprodukten bzw. Prozessendprodukten erhoben werden (Qualitätsdaten) , unterschieden. Zur Optimierung eines Produktionsprozesses ist es in vielen Fällen nicht ausreichend, nur die Prozessdaten oder nur die Qualitätsdaten zu analysieren. Vielmehr ist die Korrelation der Prozessdaten zu den Daten, die vor dem Prozess vorliegen, bzw. den Daten, die am Prozessprodukt gemessen werden können, notwendig. Eine vollständige Analyse eines
Produktionsschrittes ist folglich erst nach vollständigem Abschluss möglich. Hier stellt sich die Problematik, wie die unterschiedlichen Datenarten, die auch zu unterschiedlichen Produktionszeitpunkten erhoben werden, so abgelegt werden, dass die korrekten Datenbeziehungen erhalten bleiben und Datenkorrelationen auch zwischen unterschiedlichen Produktionsschritten gefunden werden können.
c) Die Vielzahl der unterschiedlichen Prozess- und Qualitätsdaten erschwert das Auffinden von Optimierungspotenzialen. Direkte, triviale Analysemethoden führen daher nur selten zu brauchbaren Ergebnissen. Zudem birgt die Analyse von historischen Daten immer die Gefahr, nicht vergleichbare Daten mit in eine Analyse einzubeziehen, wodurch die Aussagen dieser Analyse verzerrt werden. Hieraus ergibt sich die Problematik, dass komplexe Datenanalysetechniken möglichst sicher und effizient eingesetzt werden müssen.
Aufgabe der Erfindung:
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Verdichtung, zusammenführenden Speicherung und Analyse von Prozess- und Qualitätsdaten eines Produktionsprozesses z.B. der Kristallzucht und der Glasschmelzwannen zu finden, das die genannten Probleme löst und Optimierungspotenziale des Produktionsprozesses aufzeigt.
Übersicht über die Lösung der Aufgabe:
Diese Aufgabe wird durch die Erfindung mit den Merkmalen der unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.
Erfindungsgemäß wird diese Aufgabe gelöst, indem Messdatenreihen in Prozesskennwerte verdichtet werden. Diese
Kennwerte erfüllen die Anforderung, entscheidende
Prozessinformationen und zudem hohe Vergleichbarkeit zu anderen Prozessen oder Prozesszuständen zu enthalten. Die so bestimmten Prozesskennwerte werden in Relation zu anderen Produktions-, Prozess- und Qualitätsdaten abgespeichert. Auf diesen Informationen wird dann eine Datenanalyse mit Datamining, multivariaten Methoden oder anderen Verfahren durchgeführt, um Datenabhängigkeiten zu finden. Auf der Basis dieser Abhängigkeiten können dann wieder Überlegungen hinsichtlich neuer Prozessparameter getroffen werden, die dann z.B. in Form eines Regelkreises wieder in den Produktionsprozess einfließen. Um die dabei auftretenden z. T. extrem hohen Verknüpfungsberechnungen zu bewältigen, werden diese Operationen nach dem heutigen Stand der Technik meist mit OLAP-Datenstrukturen (OLAP: online analytical processing) durchgeführt. Andere Verfahren sind jedoch möglich.
Prozesskennwerte werden durch speziell konzipierte Berechnungs-Algorithmen über mehrere Verdichtungsstufen erzeugt. Die einzelnen Berechnungsschritte können unterteilt werden in einfache Vorverarbeitungsschritte (Filterung, Glättung, Fehlstellenbereinigung) , in elementare Verdichtungsstufen (Mittelwertbildung, Basisstatistiken über einem der Auswertung zugrunde gelegten Zeitraster) oder komplexere, teilweise den physikalischen Prozess abbildende Ausdrücke (extrahierte Kurvenelemente der Prozesszeitreihen, Steigungen, Störungen, mehrdimensionale Datencluster oder auch einfach nur Rezeptnummern, welche einem an anderer Stelle hinterlegten, zum Teil komplizierten Ablauf entsprechen können) . Es werden also nicht nur Informationen verdichtet und in die Auswertelogik eingebaut, sondern z. T. nur ein Hinweis auf eine Information oder ein Klassifikationsergebnis abgeleitet und weiterverarbeitet.
Sowohl die Prozesskennwerte als auch sämtliche Qualitätsdaten werden in einem globalen Datenspeicher (Datawarehouse)
zusammengefasst. Hierbei dürfen die Beziehungen, die zwischen den Daten bestehen, nicht verloren gehen, damit eine nachfolgende, leistungsfähige und Datenarten übergreifende Datenanalyse durchgeführt werden kann, (siehe Figur 2)
Auf dem so bestimmten, globalen Datenbestand im digitalen Datenspeicher (Datawarehouse) werden Analysen z.B. mittels multidimensionaler Methoden (OLAP basierend) durchgeführt. In der Kristallzucht kommt z.B. eine DSS-Software (Decision Support Software) zum Einsatz, welche nach heutigem Stand der Technik meist auf OLAP basierenden Datenbanken operiert, die sowohl benutzergetriebene Standardmethoden als auch datengetriebene Analysemethoden (Datamining-Routinen) beherrscht. Hierbei werden Korrelationen zwischen unterschiedlichen Merkmalen (z.B. Anlagendaten und Produktmerkmalen) gefunden und in Änderungsmöglichkeiten der Anlagen- und Prozesssteuerung übersetzt.
Ein möglicher Einsatz des Verfahrens ist bei Produktionsprozessen der Kristallzucht (z.B. CaF2 oder die Verwendung bei der Herstellung von polykristallinem Silicium für die Photovoltaik) und an Glasschmelzwannen gegeben.
In kurzen zeitlichen Abständen erhobene Prozessdaten
(Rohdaten) entziehen sich der leistungsfähigen Datenanalyse durch z.B. Datamining mittels OLAP und müssen folglich vorher in analysierbare, d.h. hochgradig vergleichbare Kennwerte übersetzt werden. Hierbei stehen die Prozessrohdaten vorher meist in sehr einfach strukturierter Form (Spalten:
Messzeitpunkt, Messstelle, Messwert) zur Verfügung (siehe
Figur 3) .
Zur sinnvollen Kennwertgenerierung werden logisch zusammenhängende Zeitintervalle durch Datenfilterung separiert. Bei Batchprozessen werden in einer möglichen
Ausführungsform die vollständigen Batchzeiträume in die
Analyse einbezogen. Bei kontinuierlichen Prozessen werden Kennwerte in regelmäßigen oder unregelmäßigen Zeitintervallen erhoben. Anlagenprozesse setzen sich meist aus unterschiedlichen Prozessphasen zusammen, die durch die Anlagenprogrammierung und Steuerung definiert werden bzw. durch Ereignisse innerhalb der Prozessdaten selbst entstehen und durch die jeweiligen Prozessnotwendigkeiten bestimmt sind. Die Kennwerte eines Prozesses lassen sich auf einzelne Prozessphasen bzw. mehrere zusammenhängende Phasen beziehen. Derart erhobene Prozesskennwerte sichern eine hohe Vergleichbarkeit zu gleichen Kennwerten eines anderen Prozesses, auch wenn die Anzahl der Prozessphasen bzw. der Verlauf der Phasen nicht identisch ist.
Zwischen Batch- und kontinuierlichen Prozessen liegt ein Unterschied in der Verdichtung zur Segmentierung der Prozesse.
Hierbei kommt bei Batchprozessen eine zeitliche Segmentierung nach logisch zusammenhängenden Prozesszeitbereichen zur
Anwendung, während kontinuierliche Prozesse, da ohne zeitliche
Begrenzung, durch Clusterung der entscheidenden Messstellen- Zeitreihen zerlegt und klassifiziert werden.
Kurze Beschreibung der Zeichnungen:
Im Folgenden wird die Erfindung anhand von Ausführungsbeispielen näher erläutert, die in den Figuren schematisch dargestellt sind. Gleiche Bezugsziffern in den einzelnen Figuren bezeichnen dabei gleiche Elemente. Im Einzelnen zeigen:
Fig. 1 eine schematische Darstellung eines möglichen Aufbaus eines Daten-Regelkreises bei technischen Produktionsprozessen unter Verwendung eines
Datawarehouses;
Fig. 2 ein schematisches Beispiel eines Datawarehouse- Konzepts zur globalen Erfassung von heterogenen Datenquellen zur Prozessdatenanalyse;
Fig. 3 eine schematische Darstellung einer einfachen Prozessdatenverdichtung;
Fig. 4 eine mehrstufige Prozessdatenverdichtung von Prozesskennwerten;
Fig. 5 die Auflistung von drei Merkmalsdimensionen, davon zwei Energieclusterungen (Spalten BR_PRZ_KL / Zeilen BR_ABS_KL) sowie eine Temperaturprofilanalyse
(weitere Unterteilung mittels Spalte SW_BOD_KL) in einer sog. Pivottabelle;
Fig. 6 ein Prinzip der Automatisierung von Verteilungsvergleichen; die z.B. 10% kleinsten Werte einer Zielgröße werden in den Häufigkeitsverteilungen aller Einflussgrößen markiert (im Bild sind fünf Beispiele) ; je größer die Verteilungsunterschiede, desto auffälliger ist die Einflussgröße, so sind z.B. Einflüsse 2, 3 und 5 sehr auffällig, Einflüsse 1 und 4 eher unauffällig.
Die Figur 1 zeigt einen möglichen Aufbau eines Daten- Regelkreises bei technischen Produktionsprozessen unter Verwendung eines Datawarehouses . Hierbei werden im globalen Datenspeicher die Qualitätsdaten der Eingangsmaterialien, die Prozessdaten, die verdichtet wurden zu Prozesskennwerten, und die Qualitätsdaten der Endprodukte in Relation zueinander abgespeichert. Es ist auch denkbar, dass weitere Daten mit auf dem globalen Datenspeicher abgespeichert werden, wie in Fig. 2 deutlich wird. Auf die so abgespeicherten Daten werden Datenanalysen wie Datamining oder multivariate Methoden
angewandt. Die Einzelheiten zu diesen Verfahren können den Literaturangaben entnommen werden, die im Anhang zu finden sind. Diese Verfahren haben gemeinsam, dass sowohl Abhängigkeiten der Informationen gefunden werden als auch zukünftige Verhaltensweisen bestimmt werden können und somit auch Trends erkennbar sind. Die so gewonnenen Informationsrückflüsse können wiederum verwendet werden, um in die technischen Produkte bzw. den Prozess einzufließen. Figuren 1 und 2 zeigen schematische Abbildungen eines möglichen Datenflusses. Hierbei werden neben unterschiedlichen Datenquellen z.B. auch heterogene Datenarten (Messdaten, Prozessdaten, betriebswirtschaftliche und logistische Daten) in einem globalen Datenspeicher, dem Datawarehouse, vereint. Diese Art der Datenhaltung ist Voraussetzung für die nachfolgenden, leistungsfähigen Datenanalysen, die aufgrund ihrer Komplexität mittels moderner Methoden durchgeführt werden. Zur Datenanalyse können die Daten des Datawarehouses z.B. in multidimensionale Datenstrukturen (z. B. aus heutiger Sicht sog. OLAP-Cubes) transformiert und über einen Server (z.B. OLAP-Server) bereitgestellt werden. Die Figuren 3 und 4 zeigen mögliche Kennwertgenerierungen. In Prozessdatenspeichern befinden sich alle Messstellen des gesamten Anlagenbestands, und dies in einem zeitlich nicht begrenzten Umfang. Zur Filterung eines Datenbereichs für die Kennwertanalyse werden diese in Segmente zerlegt. Die Figur 3 zeigt hierbei beispielhaft die Prozesswerte in einem Grafen, um zu verdeutlichen, wie einfache Verdichtungen aussehen können. Hierbei werden Segmente oder Untersegmente gebildet, in denen Steigungen, Veränderungen von Steigungen, Kurven, aufgetretene Störungen, Messstellen-Streuungen, Maxima, Minima und weitere auch komplexere Rechenausdrücke, wie mehrdimensionale Klassifikationen oder auch nur Verweise auf bestimmte Rezepturen in einer Anlage gebildet werden. Details zur mehrdimensionalen Klassifikation werden im folgenden auf
den nächsten Seite erklärt. Bei kontinuierlichen Prozessen dienen wichtige Merkmale dazu, durch Clusterprozesse zur Teilung des Prozesses in wenige aber in den Merkmalen maximal unterschiedliche (d.h. mit hohem Merkmalsabstand auftretende) Prozessabschnitte verwendet zu werden. Ziel der Kennwerte ist es immer, dass die Summe aller Kennwerte eines Prozesses diesen in zur Analyse ausreichender und zu anderen Prozessen vergleichbarer Form beschreibt.
Die Bestimmung der Kennwerte erfolgt innerhalb der Segmente nach definierten Regeln. Jeder Kennwert wird nach einer exakt definierten Regel festgelegt. Einfaches Beispiel für eine solche Regel ist die Ermittlung eines Kennwerts, der einen Temperaturanstieg zwischen zwei definierten Prozessphasen bestimmt. In einem ersten Verdichtungsschritt werden die Prozessphasen innerhalb des Prozesses ermittelt und ein Prozesssegment markiert. Innerhalb dieses Prozesssegments werden nun verschiedene Kennwerte berechnet, z.B. der gesuchte Anstieg der Temperaturmessstelle. Diese werden in einem relationalen Datenspeicher abgelegt. In Abhängigkeit der Prozesstypen können sich diese Kennwerte und deren Bestimmung jedoch unterscheiden. So unterscheidet sich die Vorgehensweise beim Batchprozess der Kristallzucht von einem kontinuierlichen Prozess einer Glassschmelze. Batchprozess (z.B. Kristallzuchtprozess) : Als einer der ersten Schritte der Kennwertgenerierung erfolgt eine Segmentierung des zu analysierenden Zeitabschnitts in logisch abgetrennte Prozessphasenbereiche. Hierbei werden Segmentgrenzen nach exakt vordefinierten Regeln aus den Messdaten-Zeitreihen gefunden. Hier kann die Prozesssegmentierung statisch durch vorprogrammierte Phasen innerhalb der Prozessrezeptur bedingt sein oder durch definierte Zustände innerhalb der Prozessdaten dynamisch gefunden werden. Im Allgemeinen werden Segmentgrenzen an Kurvenpunkten gefunden, die den Anfang bzw. das Ende eines logisch zusammenhängenden Prozessabschnitts
bedeuten, z.B. das Ende einer Aufheizphase (statisch, da schon in den Prozessrezepten definiert) oder das Erreichen einer definierten Wachstumshöhe im Kristallzuchtprozess (dynamisch, da Zustand erst während des Prozesses entsteht) . Hierbei gelten die gefundenen Segmente und Segmentgrenzen als quasi normierte Zeitbasis für die Auswertung der Zeitreihen aller Messstellen. Bei kontinuierlichen Prozessen (z.B. Glasschmelze) gibt es a priori keine scharf abgegrenzten zeitlichen Abschnitte wie beim Batch-Prozess . Zustände reihen sich quasi endlos aneinander, Anfang und Ende können Jahre auseinander liegen und haben prozesstechnisch kaum mehr miteinander zu tun. Würden nun die einzelnen Parameter des Prozesses unabhängig voneinander als Ergebnis mehrdimensionaler Analysen berechnet, so würde dies zu einem Gesamtbild führen, welches weder prozesstechnisch sinnvoll noch physikalisch überhaupt realisierbar wäre. Die Lösung besteht darin, über eine mehrdimensionale Klassenbildung typische Prozesszustände mit einem dazugehörigen „Unscharfekorridor" vorab zu ermitteln (sog. Merkmalscluster) . Der zu einem Datencluster gehörende Zeitbereich wird von nun an wie ein Prozesssegment behandelt. Diese Methode trennt den Prozess in Abschnitte unterschiedlicher Prozessfahrweisen und Strategien, welche durch typische Datencluster identifiziert und voneinander abgegrenzt werden. Ein solcher Datencluster könnte etwa einem für eine bestimmte Fahrweise typischen Temperaturprofil einer Glaswanne entsprechen. Werden nun auch andere Datenbereiche, wie etwa Energie geclustert, so erhält man eine mehrdimensionale Überlagerung / Überlappung verschiedener Zeitintervalle, für die der gefundene Temperatur- bzw. Energiecluster am besten zutrifft, messbar gemacht über ein mehrdimensionales Abstandsmaß.
Die Figur 5 zeigt die Auflistung von drei Merkmalsdimensionen, davon zwei Energieclusterungen (Spalten BR_PRZ_KL / Zeilen BR ABS KL) sowie eine Temperaturprofilanalyse (weitere
Unterteilung mittels Spalte SW_BOD_KL) in einer sog. Pivottabelle.
Das Zusammenspiel des Miteinander- und Nacheinanderauftretens der hier aufgeführten Klassen (bezeichnet nach Nummern 1, 2, 3 usw.) sowie deren Verknüpfung mit den restlichen Prozessdaten lässt sich selbst in dieser überschaubaren Tabelle kaum mehr ohne Datamining-Verfahren beherrschen, geschweige denn auf der Ebene unklassifizierter Rohdaten, d. h. ohne die Anwendung einer evtl. Verdichtung.
Damit ergeben sich zwischen der kennzahlorientierten Analyse von Batch- und Kontiprozessen folgende Unterschiede und Parallelen:
Zur Kennwertgenerierung werden die Kurvenverläufe der Messtellen-Zeitreihen auf Merkmale analysiert, die im Vorfeld exakt definiert wurden. Hierbei findet eine mehrstufige Verdichtung statt (siehe Figur 4) . In der ersten Verdichtungsstufe werden direkt verfügbare Kennwerte wie Messdaten, Mittelwerte, Varianzen usw. berechnet. In einer nächsten Verdichtungsstufe werden übergeordnete Prozessstrukturierungen vorgenommen. Hierbei handelt es sich um Segmentierungsschritte, die logisch zusammenhängende Prozesszustände gegeneinander abgrenzen und um
Datenclusterungen, die mittels Datamining-Routinen unterschiedliche Messstellen-Zeitreihen in Cluster unterteilen, die untereinander maximale Unterscheidbarkeit aufweisen. Nachfolgende Stufen bauen dann auf den Ergebnissen der unteren Stufen auf und errechnen weitere, abgeleitete Kennwerte. Als Beispiel können bestimmte Kurvenanomalien wie Überschwinger oder Peakhöhen in bestimmten Prozesssegmenten gefunden und analysiert werden. Im letzten Verdichtungsschritt werden Klassifikationen über Kennwerte gebildet, so dass ähnlichen Kennwerten identische Klassen zugeordnet werden. Die berechneten Kennwerte eines Prozesses bzw. eines Prozesszustands werden über eine Schnittstelle dem Datawarehouse übergeben und über eindeutige Prozessidentifier an Qualitätsdaten gekoppelt. Mitentscheidend für die Leistungsfähigkeit des Gesamtkonzepts ist die Qualität der Datengrundlage, auf die die Datenanalyse aufsetzt. Hier sind folgende Punkte zu nennen:
- Vollständigkeit der Erfassung aller Daten, die zur Optimierungspotential-Analyse notwendig sind bzw. Einfluss auf Prozess- oder Produktqualität haben können.
- Abbildung der exakten Beziehungen zwischen allen Daten, auch wenn diese Daten aus unterschiedlichen Datenquellen entstammen.
Ein Beispiel der Anwendung des erfindungsgemäßen Verfahrens ist das Vorgehen zur Reduzierung von Realstrukturdefekten die während der Einkristallherstellung, beispielsweise der CaF2- Einkristallherstellung oder Herstellung von Einkristallen anderer Fluoride oder anderer beispielsweise kubischer Kristalle, wie Granate, typischerweise entstehen. Solche Einkristalle besitzen eine von der idealen Kristallstruktur abweichende sog. Realstruktur. Als abweichende Defektausprägungen können beispielsweise Blockgrenzen, Kleinwinkelkorngrenzen, Gleitbänder oder Streuzentren
innerhalb der Kristalle auftreten. Das Vorkommen dieser Defekte hängt zum Teil von vielen, eventuell voneinander abhängigen Einflussfaktoren ab. Zur Optimierung müssen sowohl Prozesskennwerte als auch Qualitätsparameter von Eingangs- und Ausgangsprodukten in eine gemeinsame Analyse einbezogen werden. Wichtige Prozesskennwerte sind hierbei Informationen, die die entscheidenden Prozessschritte kennzeichnen. Dieses sind als Beispiel Informationen über Leistungs- und Temperaturverläufe und Temperaturgradienten innerhalb des Zuchtprozesses, die Einfluss auf die Realstruktur und die Defektausprägungen des Kristalls haben können. Als Qualitätsparameter der Eingangsprodukte sind z.B. Rohstoffanalysedaten und Vorprozessparameter von entscheidender Bedeutung. Durch Zusammenführung sämtlicher möglicher Einflussparameter, Klassifikationsparameter und Zielgrößen innerhalb einer Datenquelle werden nach z.B. multidimensionaler Datenaufbereitung (OLAP-Cubes) komplexe, zielführende Analysemethoden angewandt. Da einzelne Prozesse in der Kristallzucht zu zum Teil zufällig geprägten Defektstrukturen führen können (Unscharfe der Zielgrößen) , ist es zur Erhöhung der Schärfe der Ergebnisaussagen wichtig, dass wir eine möglichst große Datenbasis d.h. große Anzahl von Einzelprozessen in die Analysen einbeziehen.
Die folgenden Analysen können auf sehr unterschiedlichen Methoden beruhen, die z.B. in die Klassen der Datamining- Routinen oder der multivariaten Analysemethoden fallen. Im beschriebenen Beispiel wird eine Rangfolgeroutine angewandt, die sämtliche Einflussgrößen in definierbarer Tiefe miteinander kombiniert und für alle möglichen Kombinationen den Zielparameter bestimmt. Hiermit können wir die Einflussparameterkombinationen bestimmen, die zu den besten oder schlechtesten Zielparameterwerten (Stärke von Defektausprägungen) führen.
Im beschriebenen Beispiel wird eine weitere Datamining-Methode angewandt, die Vergleiche zwischen Verteilungen der Ziel- und der Einflussparameter automatisiert und nach gefundenen Verteilungsunterschieden sortiert (siehe Figur 6) . Bei dieser Methode können alle möglichen Einflussgrößen untersucht und nach Auffälligkeit sortiert werden. Als Ergebnis könnten z.B. die zehn auffälligsten Einflussgrößen auf eine bestimmte Kristalldefektausprägung ermittelt und mit anderen Methoden vertiefend untersucht werden. Die Figur 6 zeigt ein Prinzip der Automatisierung von Verteilungsvergleichen. Die z.B. 10% kleinsten Werte einer Zielgröße werden in den Häufigkeitsverteilungen aller Einflussgrößen markiert (im Bild sind fünf Beispiele gezeigt) . Je größer der Verteilungsunterschied, desto auffälliger ist die Einflussgröße, z.B. Einflüsse 2, 3 und 5 sind sehr auffällig, Einflüsse 1 und 4 dagegen eher unauffällig.
Im beschriebenen Beispiel ebenfalls zielführend ist die Anwendung der multiplen Regressionsanalyse (multivariate Analysemethode, siehe Literaturangabe) , die ebenfalls erlaubt, den Einfluss von mehreren Parametern auf eine Zielgröße zu untersuchen. In automatisierter Form werden diese Analysen auf sämtliche mögliche Kombinationen von allen möglichen Einflussparametern angewandt und bewertet. Hiermit lassen sich die wichtigsten Einflussparameter und besten Modelle der Zielgröße finden.
Die genannten Parameter und die erwähnten Analysemethoden stellen hierbei nur Beispiele dar. So kann auch die Datenanalyse einen mehrstufigen Prozess darstellen, da die Ergebnisse einer Analysemethode als Einstiegsobjekte weiterführender Analysemethoden dienen können.
Es sei hier erwähnt, dass Analysemethoden auf multidimensionalen Strukturen eine sehr einfache Einbeziehung von Klassifikationen erlauben. Im beschriebenen Beispiel
können Prozessklassen durch Merkmalsclusterung von Prozesskennwerten gebildet werden. Dieses erlaubt dann die Erweiterung allgemein durchgeführter Analysen auf die gefundenen Prozessklassen. Hiermit können dann Aussagen zu Abhängigkeiten der Analyseergebnisse von den einzelnen Prozessklassen gefunden werden.
Die Ergebnisse der genannten Beispielanalysen werden genutzt, um die Prozesssteuerungen zur Verbesserung der Kristalldefekte optimierend zu verändern. Es wird darauf hingewiesen, dass die Ausführungsbeispiele keine Beschränkung des Schutzumfanges darstellen, sondern lediglich einige unter vielen Möglichkeiten darstellen.
Liste der zitierten Literatur:
■ Multivariate Analysemethoden
K. Backhaus, B. Erichson, W. Plinke, R. Weiber Springer-Verlag, 10. Auflage Berlin u.a. 2003
■ Datamining: Concepts and Techniques by Jiawei Han, Micheline Kamber Academic Press, USA, 2001