Verfahren zur Durchführung von HochdurchsatzexperimentenProcedure for carrying out high throughput experiments
Die vorliegende Anmeldung betrifft ein Verfahren zur Durchführung von Hochdurchsatzexperimenten, gekennzeichnet durch die Verwendung eines schnellen und gezielten Auswerteverfahrens.The present application relates to a method for carrying out high throughput experiments, characterized by the use of a fast and targeted evaluation method.
In den letzten Jahren sind weltweit hohe Investitionen in High Throughput Experimentation (HTE) getätigt worden, um die Arbeitsabläufe zu beschleunigen und zu verbessern. Allein im Bereich Katalyse sind 2001 weltweit 13 Mrd. € investiert worden, von denen ca. die Hälfte auf den Hochdurchsatzbereich entfallen sein dürfte. Vorrangige Anwendungsfelder sind: Wirkstoffforschung, (heterogene und homogene) Katalyse, Materialforschung und Identifizierung von optimalen Reaktionsbedingungen bei chemischen, biochemischen oder biotechnologischen Systemen.In recent years, large investments in High Throughput Experimentation (HTE) have been made worldwide to speed up and improve work processes. In the field of catalysis alone, € 13 billion was invested worldwide in 2001, of which around half is likely to be attributed to the high throughput area. Priority fields of application are: drug research, (heterogeneous and homogeneous) catalysis, material research and identification of optimal reaction conditions in chemical, biochemical or biotechnological systems.
Bisher wurden zur Unterstützung der gezielten Versuchsplanung und Datenanalyse bei Hochdurchsatzexperimenten Methoden der statistischen Versuchsplanung gemäßSo far, methods of statistical test planning have been used to support targeted test planning and data analysis in high-throughput experiments
E. Scheffler: Statistische Versuchsplanung und -auswertung, 3. Aufl. Deutscher Verlag für Grundstoffindustrie, Stuttgart 1997.E. Scheffler: Statistical experiment planning and evaluation, 3rd edition. German publisher for basic material industry, Stuttgart 1997.
verwendet oder ün Bereich der heterogenen Katalyse auch evolutionäre Techniken, wie sie unteruses or in the field of heterogeneous catalysis also evolutionary techniques as described under
D. Wolf et al.: An evolutionary approach in the combinatorial selection and optunization of catalytic materials. Applied Catalysis A: General, 200 (2000), 63-77D. Wolf et al .: An evolutionary approach in the combinatorial selection and optunization of catalytic materials. Applied Catalysis A: General, 200 (2000), 63-77
beschrieben sind, eingesetzt.are used.
Weitere Ausführungen über den Einsatz mathematischer Methoden in der Hochdurchsatzforschung werden beschrieben beiFurther explanations on the use of mathematical methods in high-throughput research are described in
Holzwarth et al.: Combinatorial approaches to heterogeneous catalysis: strategies and perspectives for academic research. Catalysis Today, 67 (2001) 309-318,Holzwarth et al .: Combinatorial approaches to heterogeneous catalysis: strategies and perspectives for academic research. Catalysis Today, 67 (2001) 309-318,
J.N. Cawse: Information Based Strategies for Combinatorial and High Throughput Materials Development. Technical Report, GE Research & Development Center. 99CRD166, Feb. 2000,J. N. Cawse: Information Based Strategies for Combinatorial and High Throughput Materials Development. Technical Report, GE Research & Development Center. 99CRD166, Feb. 2000,
K. Huang et al.: Artifϊcial neural network-aided design of a multi-component catalyst for methane oxidativ coupling. Applied catalysis A: General 219 (2001) 61-68,K. Huang et al .: Artifϊcial neural network-aided design of a multi-component catalyst for methane oxidativ coupling. Applied catalysis A: General 219 (2001) 61-68,
S. Rose: Statistical design and application to combinatorial chemistry. Combinatorial chemistry, reviews, Vol. 7 (2), 2002, 133-138.
Eine Übersicht zu geeigneten mathematischen Verfahren befindet sich bei:S. Rose: Statistical design and application to combinatorial chemistry. Combinatorial chemistry, reviews, vol. 7 (2), 2002, 133-138. An overview of suitable mathematical methods can be found at:
M. Berthold, D. J. Hand: Intelligent Data Analysis. Springer, Heidelberg 1999.M. Berthold, D.J. Hand: Intelligent Data Analysis. Springer, Heidelberg 1999.
Darüber hinaus gibt es Software-Systeme wie die „Lead Discovery"-Erweiterung der Software Spotfire, die mathematische Methoden bereitstellt.In addition, there are software systems such as the "Lead Discovery" extension of the Spotfire software, which provides mathematical methods.
Bei den meisten Hochdurchsatzexperimenten fallen jedoch zunehmend größere Datenmengen pro Durchlauf an (mehr als 5 Datensätze pro Durchlauf). Je größer die generierte Datenmenge ist, desto weniger lassen sich diese Datenmengen in einer adäquaten Zeit (weniger als 0,5 Tag) angemessen auswerten und sich die Ergebnisse in eine geeignete Versuchsstrategie einbinden. Ziel ist es deshalb Methoden zu entwickeln, die eine zügige Datenauswertung soweit ermöglichen, dass dem Experimentator wichtige Aussagen für eine weitere Planung von Versuchen schnell zugänglich gemacht werden.In most high throughput experiments, however, increasingly larger amounts of data are generated per run (more than 5 data sets per run). The larger the amount of data generated, the less this amount of data can be adequately evaluated in an adequate time (less than 0.5 day) and the results integrated into a suitable test strategy. The aim is therefore to develop methods that enable rapid data evaluation to the extent that important information for further planning of experiments is quickly made available to the experimenter.
Die bekannten mathematischen Verfahren, die bei Hochdurchsatzexperimenten eingesetzt werden, lassen sich zwar auf die in der Einleitung beschriebenen Problemstellungen anwenden, doch setzen sie häufig ein höheres Maß an Einarbeitung des Anwenders voraus, sind langwieriger in ihrer An- wendung oder können den Versuchsraum hinsichtlich seiner Dimensionen (d.h. der Anzahl der betrachteten Einflussgrößen) nicht ausreichend reduzieren.The known mathematical methods used in high-throughput experiments can be applied to the problems described in the introduction, but they often require a higher level of familiarization by the user, are more lengthy to use, or can affect the dimensions of the test room (ie the number of influencing variables considered) do not reduce sufficiently.
Darüber hinaus beschränken sich die meisten Verfahren für die Optimierung auf eine Zielgröße (Ausgangsgröße) wie Ausbeute, Selektivität sowie bestimmte physikalische Eigenschaften oder aus ihnen abgeleitete Größen. Mehrzieloptimierungen sind kaum möglich.In addition, most methods for optimization are limited to a target variable (output variable) such as yield, selectivity and certain physical properties or variables derived from them. Multi-target optimizations are hardly possible.
Ausgehend vom Stand der Technik stellte sich somit die Aufgabe ein Verfahren zur Durchführung von Hochdurchsatzexperimenten zu Verfügung zu stellen, welches durch Auswertung der Daten und darauf fußender Optimierung der Versuchsplanung, bei geringem Einarbeitungs- und Anwendungsaufwand zu einer effizienteren Durchführung der Experimente, insbesondere zu einer möglichst starken Reduktion des Versuchsraumes, führt. Diese Aufgabe wird überraschenderweise durch die vorliegend beschriebene Erfindung gelöst.Based on the state of the art, the task was to provide a method for carrying out high-throughput experiments, which, by evaluating the data and optimizing the experiment planning based on it, with little familiarization and application effort, would allow the experiments to be carried out more efficiently, in particular one as possible strong reduction of the test room. This object is surprisingly achieved by the invention described here.
Die nachfolgend beschriebene Erfindung beschränkt sich dabei nicht nur auf den Einsatz bei „echten" Hochdurchsatzbedingungen, sondern ist generell einsetzbar, wenn ein kombinatorisches Vorgehen im Bereich Forschung und Entwicklung erkennbar ist. „Hochdurchsatzexperiment" oder „Hochdurchsatzverfahren" ist daher im Kontext dieser Anmeldung als „kombinatorische Vor- gehensweise bei Durchführung von Experimenten" zu verstehen.
Die Erfindung betrifft daher ein Verfahren zur Durchfuhrung von Hochdurchsatzexperimenten, gekennzeichnet durch die Verwendung eines schnellen und gezielten Auswerteverfahrens hinsichtlich bestimmter Größen in den Ergebnissen, wodurch die Effizienz beim Experimentieren gesteigert wird.The invention described below is not limited to use under "real" high throughput conditions, but can generally be used if a combinatorial approach in the area of research and development can be identified. "High throughput experiment" or "high throughput process" is therefore in the context of this application as " combinatorial procedure when performing experiments ". The invention therefore relates to a method for carrying out high-throughput experiments, characterized by the use of a fast and targeted evaluation method with regard to certain variables in the results, which increases the efficiency during experimentation.
Bei den Experimenten handelt es sich unabhängig voneinander bevorzugt, aber nicht einschränkend um:The experiments are, independently of one another, preferred, but not restrictive:
• das Screening/Suche/Optimierung von heterogenen Katalysatoren• the screening / search / optimization of heterogeneous catalysts
• das Screening/Suche/Optimierung von homogenen Katalysatoren• the screening / search / optimization of homogeneous catalysts
• das Screening/Suche/Optimierung von Wirkstoffen • das Screening/Suche/Optimierung neuer Materialien /Materialeigenschaften• the screening / search / optimization of active substances • the screening / search / optimization of new materials / material properties
Schwerpunkt ist der Bereich Hochdurchsatzexperimente. Ein Auswertungszyklus des erfindungsgemäßen Verfahrens sollte mind. 5, bevorzugt mind. 10, besonders bevorzugt mind. 100, ganz besonders bevorzugt mind. 500 und insbesondere mindestens 1000 Experünente umfassen. Idealerweise liegen dem Auswertungszyklus mindestens 5000 Experimente zu Grunde. Es ist daher insbe- sondere sinnvoll teclmische Anlagen zu verwenden, die z. B. min. 5, bevorzugt mind. 10, besonders bevorzugt mind. 100, ganz besonders bevorzugt mind, 500 und insbesondere mindestens 1000 Experimente, idealerweise mindestens 5000 Experimente pro Tag umsetzen können. Alternativ kann man mindestens 5, bevorzugt mind. 10, besonders bevorzugt mind. 100, ganz besonders bevorzugt mind. 500 und insbesondere mindestens 1000, idealerweise mindestens 5000 Experimente über mehrere Tage zusammenfassen und als einen Auswertungszyklus behandeln.The focus is on high throughput experiments. An evaluation cycle of the method according to the invention should comprise at least 5, preferably at least 10, particularly preferably at least 100, very particularly preferably at least 500 and in particular at least 1000 experiments. Ideally, the evaluation cycle is based on at least 5000 experiments. It is therefore particularly sensible to use technical systems which, for. B. min. 5, preferably at least 10, particularly preferably at least 100, very particularly preferably at least 500 and in particular at least 1000 experiments, ideally at least 5000 experiments per day. Alternatively, at least 5, preferably at least 10, particularly preferably at least 100, very particularly preferably at least 500 and in particular at least 1000, ideally at least 5000 experiments over several days can be combined and treated as one evaluation cycle.
Die Auswertung der Versuche erfolgt auf der Grundlage einer Zielgröße (Ausgangsgröße) wie beispielsweise Aktivität, Selektivität, Wirksamkeit oder vorgegebene Materialeigenschaften. Voraussetzung für die Anwendung des Verfahrens ist, dass sich für die Zielgrößen Häufigkeitsstatistiken erstellen lassen und sich die Einstellparameter (Einflussgrößen, Eingangsgrößen) der Versuche als binäre Größen formulieren lassen.The tests are evaluated on the basis of a target variable (starting variable) such as activity, selectivity, effectiveness or predetermined material properties. A prerequisite for the application of the method is that frequency statistics can be created for the target variables and that the setting parameters (influencing variables, input variables) of the tests can be formulated as binary variables.
Vergleichbare Auswerteverfahren sind bisher nicht bekannt.No comparable evaluation methods are known to date.
Bei der vorliegenden Erfindung werden hingegen die Einstellungen der Einflussgrößen für einen erfolgreichen Versuch auf der Basis von Häufigkeitsstatistiken der Einflussgrößen in Bezug auf die Zielgrößen verwendet. Das Verfahren ist hinsichtlich seiner Anwendung schnell und robust und ermöglicht bei großen Datenmengen pro Tag einen schnellen Informationsgewinn, auf dessen Grundlage bspw. eine Reduktion der Dimension des Versuchsraums, also der Anzahl der Versuche, durchgeführt werden kann.
Das Verfahren ist besonders geeignet für Versuchsreihen, die so angelegt sind, dass die Einflussgrößen nicht stark miteinander korreliert sind.In the present invention, on the other hand, the settings of the influencing variables are used for a successful experiment on the basis of frequency statistics of the influencing variables in relation to the target variables. The method is quick and robust with regard to its application and enables a quick gain of information with large amounts of data per day, on the basis of which, for example, a reduction in the dimension of the test room, that is to say the number of attempts, can be carried out. The method is particularly suitable for test series that are designed so that the influencing variables are not strongly correlated with one another.
Darüber hinaus ist das Auswerteverfahren in der Lage, mögliche Wechselwirkungseffekte von Einflussgrößen zu identifizieren und mögliche Anomalien in der Reinheit chemischer Substanzen auf- zudecken.In addition, the evaluation method is able to identify possible interaction effects of influencing variables and to detect possible anomalies in the purity of chemical substances.
Dieses Auswerteverfahren ermöglicht es, große Datenmengen, wie sie z.B. im Hochdurchsatzbereich anfallen, schnell auszuwerten und dabei auch Informationen zugänglich zu machen, die mit Standardverfahren nicht ohne weiteres aufgedeckt werden können. Hierfür werden im Gegensatz zu üblichen Methoden als Zielgröße nicht die ursprüngliche Zielgröße (z.B. Ausbeute, Selektivität, Kosten, ...) selbst, sondern zusätzlich oder ausschließlich eine Häufigkeitsstatistik auf der Grundlage der ursprünglichen Zielgröße verwendet.This evaluation method enables large amounts of data, e.g. in the high-throughput area, they must be evaluated quickly and information made available that cannot be easily discovered using standard methods. In contrast to conventional methods, the original target quantity (e.g. yield, selectivity, costs, ...) itself is not used as the target variable, but an additional or only frequency statistics based on the original target variable are used.
Das erfindungsgemäße Verfahren stellt somit eine Möglichkeit dar, um Komponenten und Zusammensetzungen oder Molekülgruppen, Teilmoleküle etc. für einen optimalen Katalysator, Wirkstoff oder optimales Material (z.B. Polymer, Lack, Kunststoff) zu identifizieren. Das Auswerte- verfahren unterstützt dabei durch einen Optimierungsprozess das Gesamtverfahren.The method according to the invention thus represents a possibility for identifying components and compositions or groups of molecules, partial molecules etc. for an optimal catalyst, active substance or optimal material (e.g. polymer, lacquer, plastic). The evaluation process supports the overall process with an optimization process.
Das erfindungsgemäße Verfahren lässt sich wie folgt beschreiben:The method according to the invention can be described as follows:
1. Experimente werden durchgeführt. Die Ausführung der Experimente kann parallelisiert oder sequentiell erfolgen. Pro Auswertungszyklus sollten jedoch mind. 5, bevorzugt mind. 10, besonders bevorzugt mind. 100, ganz besonders bevorzugt mind. 500 und insbesondere mindestens 1000, idealerweise mindestens 5000 durchgeführte Experimente vorliegen. Die Experimente können aus dem Bereich Katalyse, Wirkstoffforschung, neue Materialien oder Reaktionsoptimierung stammen. Die Experimente sind dadurch gekennzeichnet, dass Einflussgrößen - in der Regel sind dies gleichzeitig bestimmte Eingangsgrößen -, vornehmlich Elemente, Mischungskomponenten, chemische Verbindungen oder Teilmoleküle (fimktionelle Gruppen) sind. Diese Einflussgrößen müssen als diskrete Variablen bzw. binär handhabbar sein.
Beispiel: a) Ein Katalysator besteht maximal aus 5 Komponenten. Als Komponenten kommen die Elemente A, B, C, D, E, F, G, H, I, J in Frage. Dann gibt es für jedes Element die Möglichkeit, dass es im Katalysator „vorhanden" oder „nicht vorhanden" ist. b) Ein Katalysator besteht maximal aus 5 Komponenten. Als Komponenten kommen die Elemente A, B, C, D, E in Frage, wobei sie in den Konzentrationen hoch, mittel, niedrig vorliegen können. Dann sind die diskreten Einflussgrößen des Systems: Ahoch, Amittel, Aniedrig, Bhoch, Bmittel, Bniedrig, Choch, Cmittel... und z.B. Ahoch kann dann „vorhanden" oder „nicht vorhanden" sein. Zur Verarbeitung der Daten wird z. B. einer der binären Zustände als „0" und der andere als „1" codiert.1. Experiments are carried out. The experiments can be carried out in parallel or sequentially. However, at least 5, preferably at least 10, particularly preferably at least 100, very particularly preferably at least 500 and in particular at least 1000, ideally at least 5000, experiments should be carried out per evaluation cycle. The experiments can come from the fields of catalysis, drug discovery, new materials or reaction optimization. The experiments are characterized by the fact that influencing factors - as a rule, these are certain input variables at the same time - are primarily elements, mixture components, chemical compounds or sub-molecules (functional groups). These influencing variables must be manageable as discrete variables or binary. Example: a) A catalyst consists of a maximum of 5 components. The components A, B, C, D, E, F, G, H, I, J are suitable as components. Then there is the possibility for each element that it is "present" or "not present" in the catalyst. b) A catalyst consists of a maximum of 5 components. The components A, B, C, D, E are suitable, although they can be present in the concentrations high, medium, low. Then the discrete influencing variables of the system are: Ahoch, Amittel, Aniedrig, Bhoch, Bmittel, Bniederig, Choch, Cmittel ... and eg Ahoch can then be "available" or "not available". For processing the data, e.g. B. one of the binary states is encoded as "0" and the other as "1".
2. Die Experimentdaten und Ergebnisse (Ergebnisse = Zielgrößen), werden, bevorzugt tabellarisch, erfasst und entsprechend einer diskreten Handhabung der Ausgangsgrößen aufbereitet.2. The experiment data and results (results = target values) are recorded, preferably in tabular form, and processed in accordance with a discrete handling of the starting values.
3. Für eine oder mehrere Ausgangsgrößen werden Häufigstatistiken in Form von „Wahrscheinlichkeitsverläufen" erstellt. Die diskrete Einflussgröße soll allgemein als EG und die kontinuierliche Ausgangsgröße als AG bezeichnet werden, dann gilt für die EG- AG-Funktion:3. For one or more output variables, frequent statistics are created in the form of "probability profiles". The discrete influencing variable should generally be referred to as the EG and the continuous output variable as the AG, then the following applies to the EG-AG function:
Λ , _ „ , ( Anzahl Versuche mit AG > x) r EG -AG- Funktion = ± iM- (Gl.1) (Anzahl Versuche) EG Dies bedeutet: Es wird für jede Einflussgröße die Anzahl der Versuche gezählt, in denen diese Einflussgröße vorhanden ist (z.B. Wert größer als Null) und die Ausgangsgröße einen Wert > x annimmt. Dabei ist es sinnvoll, dass gilt x e [0;xmctx] mit xmax ≥ (gemessener Maximalwert der Ausgangsgröße) Λ , _ „, (number of attempts with AG> x) r EG -AG function = ± iM - (Eq. 1) (number of attempts) EG This means: For each influencing variable , the number of attempts in which this is counted Influencing variable is present (e.g. value greater than zero) and the output variable assumes a value> x. It makes sense that xe [0; xmctx] with xmax ≥ (measured maximum value of the output variable)
Gl. (1) stellt eine umgekehrte empirische Verteilungsfunktion dar. Bei geeigneten mathe- matischen Nebenbedingungen ist die durch Gl. (1) beschriebene Häufigkeit eine gute Näherung der Wahrscheinlichkeit.Eq. (1) represents an inverse empirical distribution function. With suitable mathematical constraints, the one given by Eq. (1) frequency described a good approximation of the probability.
4. Für jedes Element lässt sich damit eine EG-AG-Funktion in Abhängigkeit von x graphisch erstellen. Aufgrund der Kurvenverläufe kann ein Ranking der Einflussgrößen vorge-
nommen werden. Dieses Ranking ermöglicht Aussagen über die Bedeutung der Einflussgrößen für die Optimierung der Ausgangsgröße. Für das Ranking können verschiedene Ansätze gewählt werden:4. For each element, an EG-AG function can be created graphically depending on x. Based on the curves, a ranking of the influencing variables can be be taken. This ranking enables statements about the importance of the influencing variables for the optimization of the initial variable. Different approaches can be used for the ranking:
a) Betrachtung der Anfangswerte: Dies ermöglicht Aussagen mit welcher Wahr- . scheinlichkeit die Verwendung bzw. Einstellung einer bestimmten Einflussgröße überhaupt ein Ergebnis in der Ausgangsgröße liefert. Bei einem Katalysator liefert der Anfangswert bspw. Anhaltspunkte über die Wahrscheinlichkeit, mit welcher der Katalysator bei Berücksichtigung der betrachteten Einflussgröße überhaupt aktiv ist. Das Ranking erfolgt hierbei über die Anfangswerte: Je höher der An- fangswert, desto bedeutender wird die Einflussgrößen aufgefasst,a) Consideration of the initial values: This enables statements with which truth. Probably the use or setting of a certain influencing variable delivers a result in the initial variable. In the case of a catalytic converter, the initial value provides, for example, clues about the probability with which the catalytic converter is even active when the influencing variable under consideration is taken into account. The ranking is based on the initial values: the higher the initial value, the more important the influencing factors are understood,
oderor
b) Betrachtung der Maximalwerte: Hierbei werden die Einflussgrößen gemäß ihrer maximalen x- Werte bewertet, d.h. bezogen auf einen Katalysator erfolgt das Ranking z.B. auf der Basis maximaler Ausbeutewerte, die bei Verwendung der einzelnen Einflussgrößen erzielt werden. In diesem Fall heißt maximaler AWert, der größte jc-Wert bei dem die zugehörige EG-AG-Funktion nicht Null ist. Einflussgrößen mit einem hohen maximalen x- Wert werden dann höher bewertet,b) Consideration of the maximum values: Here, the influencing variables are evaluated according to their maximum x values, i.e. based on a catalyst, the ranking is e.g. on the basis of maximum yield values that are achieved when using the individual influencing variables. In this case, the maximum A value is the largest jc value at which the associated EG AG function is not zero. Influencing factors with a high maximum x value are then rated higher,
oderor
c) Betrachtung einer Kombination aus a) und b),c) considering a combination of a) and b),
oderor
d) Betrachtung der Kurvenform: Verschiedene Einflussgrößen können verschiedene Kurvenverläufe aufweisen, die sich in der Gestalt oder den Absolutwerten unterscheiden. Ein Ranking könnte dabei so erfolgen, dass die Einflussgrößen, deren Kurven weitgehend oberhalb der Kurve einer anderen Einflussgröße verlaufen, besser gerankt werden als die untere Kurve. Mit anderen Worten: Eine Einflussgröße wird umso besser gerankt, je mehr Kurven ganz oder teilweise unterhalb der dazugehörigen Kurve liegen,d) Consideration of the curve shape: Different influencing variables can have different curve profiles that differ in shape or in absolute values. A ranking could be done in such a way that the influencing variables, whose curves run largely above the curve of another influencing variable, are ranked better than the lower curve. In other words: The more curves are wholly or partially below the corresponding curve, the better the ranking is,
oderor
e) Betrachtung einer Kombination aus a) und d), b) und d), c) und d).
5. Das Ranking wird bei der Planung neuer Experimente berücksichtigt, indem neue Versuche weitgehend unter Verwendung von Einflussgrößen durchgeführt werden, die eine gute Rankingposition haben. Folgende Unterscheidungen sind dabei denkbar: a) Verwendung fast ausschließlich von Einflussgrößen die eine gute Rankingposition haben, wodurch sich eine Reduktion der Dimension im Versuchsraum ergibt, und/oder b) Bei der Durchführung von Experimenten werden Versuche mit Einflussgrößen, die eine gute Rankingposition haben, besonders berücksichtigt, zJB. durch Anzahl oder gezielte Betrachtung.e) Consideration of a combination of a) and d), b) and d), c) and d). 5. The ranking is taken into account when planning new experiments by largely carrying out new experiments using influencing factors that have a good ranking position. The following distinctions are conceivable: a) Use almost exclusively of influencing factors that have a good ranking position, which results in a reduction of the dimension in the test room, and / or b) When carrying out experiments, tests with influencing variables that have a good ranking position are especially considered, e.g. by number or targeted consideration.
6. Planung und Durchführung neuer Versuche unter Berücksichtigung des Rankings6. Planning and execution of new tests taking into account the ranking
7. Falls das Versuchsziel oder Optimierungsziel nicht ausreichend erreicht worden ist, wird das Verfahren ab Schritt 2. auf der Basis neuer Experimente wiederholt, indem a) das Auswerteverfahren nur auf die neuen Experimente angewendet wird, oder b) das Auswerteverfahren auf alle durchgeführten Experimente angewendet wird, oder7. If the test goal or optimization goal has not been sufficiently achieved, the procedure is repeated from step 2. on the basis of new experiments, by a) applying the evaluation method only to the new experiments, or b) applying the evaluation method to all experiments carried out will, or
•c) das Auswerteverfahren auf alle Experimente (auch vorhergehende) angewendet wird, die in Zusammenhang mit Einflussgrößen stehen, die in den letzten Durchläufen berücksichtigt worden sind.• c) the evaluation method is applied to all experiments (including previous ones) that are related to influencing factors that were taken into account in the last runs.
Besonders bevorzugte Ausfuhrungsformen des erfindungsgemäßen Hochdurchsatzverfahrens ergeben sich durch Berücksichtigung der folgenden Merkmale:Particularly preferred embodiments of the high-throughput method according to the invention result from the following features:
(1) Das Ranking der Einflussgrößen, dass sich aus dem Auswertungsverfahren ergibt, wird direkt oder in Kombination mit anderen Versuchsplanungsverfahren zur Planung neuer Versuche herangezogen werden.(1) The ranking of the influencing factors resulting from the evaluation procedure will be used directly or in combination with other experiment planning procedures for planning new experiments.
(2) Die Erstellung des Rankings unter 4. erfolgt unter Verwendung von Klassifizierungs- algorithmen, z.B. Clusterverfahren. Bei der erfindungsgemäß bevorzugten Verwendung von Clusterverfahren können besonders bevorzugt Gruppen von EG-AG-Funktionen zu- sammengefasst werden, die sich ähnlich verhalten und ähnliche Merkmale aufweisen. Die
Clusterung kann auch beispielsweise bezüglich der Form oder der Absolutwerte der Kurvenverläufe oder in einer Kombination dieser Kriterien erfolgen. Geeignete Clusterverfahren sind: kmeans, knn (next neighbour), Fuzzy Cmeans oder allgemein hierarchische Verfahren. Weitere Verfahren werden beschrieben in H.-J. Mucha, Clusteranalyse mit Mikrocomputern, Akademie-Verlag, Berlin 1992(2) The ranking under 4. is created using classification algorithms, eg cluster processes. In the preferred use of cluster methods according to the invention, groups of EG-AG functions that behave similarly and have similar characteristics can be combined particularly preferably. The Clustering can also take place, for example, with regard to the shape or the absolute values of the curve profiles or in a combination of these criteria. Suitable cluster processes are: kmeans, knn (next neighbor), fuzzy cmeans or generally hierarchical processes. Other methods are described in H.-J. Mucha, cluster analysis with microcomputers, Akademie Verlag, Berlin 1992
B. S. Everitt, S. Landau,M. Leese, Cluster Analysis, Edward Arnold, 4th Ed., 2001. Die Clusterung kann beispielsweise erfolgen, indem die Kurven in Stützstellen zerlegt werden. Die Dimension des Clusterraums sind dann die x- Werte der Stützstellen; auf diese Weise kann die Clusterung z. B. in einem 100 dimensionalen Raum erfolgen, wenn jede Kurve in 100 Stützstellen jeweils zu den gleichen x- Werten zerlegt wird.BS Everitt, S. Landau, M. Leese, Cluster Analysis, Edward Arnold, 4 th Ed., 2001. The clustering can, for example, by the curves are broken down into nodes. The dimension of the cluster space is then the x-values of the support points; in this way the clustering z. B. in a 100-dimensional space if each curve is broken down into 100 support points to the same x values.
(3) Es erfolgt eine Gruppierung der Einflussgrößen auf der Grundlage der EG-AG-Funktion gemäß (2) die zur Auswertung und Verfeinerung des Rankings eine mehrdimensionale Matrix berücksichtigt. D. h. die Einflussgrößen werden bzgl. ihres Einflusses auf die Ausgangsgrößen bewertet, indem z.B. jeweils die mittlere Zielgröße aller Versuche, die eine bestimmte Einflussgröße berücksichtigen bzw. enthalten, ermittelt wird. Auf diese Weise ist auch ein Ranking der Einflussgrößen auf Basis der Ausgangsgrößen möglich. Diese verschiedenen Rankings der Einflussgrößen können miteinander verglichen werden. Bei der Planung neuer Versuche können dann Versuche mit Einflussgrößen, die in mehr als einem Ranking gut bewertet worden sind, besonders berücksichtigt werden. Dies kann noch eine zusätzliche Reduktion des Versuchsraums ermöglichen.(3) The influencing variables are grouped on the basis of the EG-AG function according to (2), which takes into account a multi-dimensional matrix for evaluating and refining the ranking. I.e. the influencing variables are evaluated with regard to their influence on the output variables, e.g. by the mean target size of all tests that take into account or contain a certain influencing variable is determined. In this way it is also possible to rank the influencing variables on the basis of the output variables. These different rankings of the influencing variables can be compared with each other. When planning new tests, tests with influencing factors that have been rated well in more than one ranking can then be given special consideration. This can enable an additional reduction in the test room.
(4) Die EG-AG-Funktion aus 3. wird in folgender abgewandelter Form betrachtet:(4) The EG-AG function from 3. is considered in the following modified form:
„^ , „ π , (Anzahl Versuche mit AG > x)πr EG -AG- Funktion = — i I — (G 2) Gesamtzahl der betrachteten Versuche" ^ ," Π , (number of experiments with AG> x) πr EG -AG function = - i I - ( G 2 ) total number of experiments considered
(5) Die EG-AG-Funktion wird in 3. in folgender abgewandelter Form betrachtet:(5) The EG-AG function is considered in 3. in the following modified form:
, v (Anzahl Versuche mit AG > x) r ., (EG- AG- Funktion) =± — — — ≡^- (G1.3) (Anzahl Versuche) EG N dabei gibt N die Anzahl der Einflussgrößen an, die von Null verschieden sind, d.h. die EG- AG-Funktion wird so aufgestellt, dass nur Versuche berücksichtigt werden, die die be-
trachtete Einflussgröße enthalten und bei denen genau N Einflussgrößen vorhanden bzw. belegt sind. D. h. beispielsweise für einen Katalysator entspricht N der Anzahl der Komponenten in der Katalysatormischung. Diese Abwandlung ermöglicht eine detailliertere Untersuchung der Bedeutung der Einflussgrößen. (6) Das beschriebene Verfahren wird mit weiteren Datenanalyseverfahren vor Schritt 3. kombiniert, z.B. können vor Schritt 3. die Eingangs- und Ausgangsgrößen einer Korrelationsanalyse unterzogen werden und es werden dann in 3. nur die un- korrelierten Größen berücksichtigt., v (number of attempts with AG> x) r ., (EG- AG function) = ± - - - ≡ ^ - (G1.3) (number of attempts) EG N specifies N the number of influencing factors, which of Are zero different, ie the EG-AG function is set up in such a way that only tests that take into account the sought influencing variable and for which exactly N influencing variables are available or documented. I.e. for a catalyst, for example, N corresponds to the number of components in the catalyst mixture. This modification enables a more detailed investigation of the importance of the influencing factors. (6) The described method is combined with other data analysis methods before step 3. For example, before step 3. the input and output variables can be subjected to a correlation analysis and then only the uncorrelated variables are taken into account in 3.
Das erfindungsgemäße Verfahren ermöglicht durch die Verwendung der erfindungsgemäßen Aus- werteverfahren eine schnelle Identifizierung wichtiger Einflussgrößen bei der Durchführung von Versuchen und damit eine Steigerung der Effizienz und evtl. Reduktion des experimentellen Aufwands sowie eine Verringerung von „Time to Market". Gleichzeitig ermöglicht dieses Auswerteverfahren über das Ranking einen Vergleich der Einflussgrößen untereinander. Letzteres kann als Grundlage gerade im Katalysesektor oder bei der Wirkstoffforschung für Struktur-Eigen- Schaftsbeziehungen herangezogen werden, beispielsweise können bei der Katalysatorsuche Komponenten identifiziert werden, die möglicherweise „Garanten" einer Aktivität sind oder die grundsätzlich keine Aktivität erlauben.By using the evaluation methods according to the invention, the method according to the invention enables rapid identification of important influencing variables when carrying out experiments and thus an increase in efficiency and possibly a reduction in experimental outlay and a reduction in "time to market". At the same time, this evaluation method enables the ranking compares the influencing factors with one another, the latter can be used as a basis, especially in the catalysis sector or in drug discovery for structure-property relationships, for example, in the catalyst search, components can be identified which may be "guarantors" of an activity or which are fundamentally no activity allow.
U.a. über die graphische Darstellung der Auswertefunktionen (EG-AG-Funktionen) ist es möglich Anomalien oder fehlerhafte Versuchseinstellungen nachzuweisen, z.B. haben bei einfachen Häufigkeitsstatistiken von Katalysatorkomponenten die EG-AG-Funktionen in allen in der Verfahrens- und Ausführungsbeschreibung (1.-7. und (l)-(6)) genannten Varianten oftmals ähnliche Kurvenverläufe. Starke Abweichungen einzelner Komponenten deuten in solchen Fällen beispielsweise auf Verunreinigungen hin.Et al The graphical representation of the evaluation functions (EG-AG functions) makes it possible to detect anomalies or incorrect test settings, e.g. With simple frequency statistics of catalyst components, the EG-AG functions often have similar curve profiles in all the variants mentioned in the process and implementation description (1-7 and (1) - (6)). In such cases, large deviations of individual components indicate impurities, for example.
Darüber hinaus ermöglicht die Kombination mit dem Kurvenclustern eine schnelle Identifikation sich ähnlich verhaltener Einflussgrößen, was in Bezug auf Katalysatorkomponenten dazu führen kann, dass teure Komponenten leichter gegen weniger teure ausgetauscht werden.In addition, the combination with the curve clustering enables quick identification of influencing variables that behave similarly, which in relation to catalyst components can make it easier to replace expensive components with less expensive ones.
Die Verwendung des Verfahrens nach der Ausführungsbeschreibung (5) kann ferner herangezogen werden, um Wechselwirkungseffekte der Einflussgrößen offen zu legen oder eine Begrenzung in der Anzahl der Einflussgrößen zu entdecken, wenn z.B. Kurvenverläufe hinsichtlich der Absolut- werte für N < Nmax besser sind als für N=Nmax (Nmax: maximale Anzahl von Null verschiedener Einflussgrößen).
Neben den oben dargelegten Verfahrens- und Ausfuhrungsbeschreibungen (1.-7. und (l)-(6)) sind folgende Ausführungsformen des Auswerteverfahrens und damit des erfindungsgemäßen Verfahrens besonders geeignet:The use of the method according to the description of embodiment (5) can also be used to disclose interaction effects of the influencing variables or to discover a limitation in the number of influencing variables if, for example, curve profiles with respect to the absolute values are better for N <Nmax than for N = Nmax (Nmax: maximum number of zero different influencing variables). In addition to the process and embodiment descriptions (1-7 and (l) - (6)) set out above, the following embodiments of the evaluation method and thus of the method according to the invention are particularly suitable:
I. Die Datenerfassung erfolgt im Allgemeinen rechnergestützt. Eine manuelle Erfassung ist auch möglich. Die Berechnung der EG-AG-Funktionen erfolgt im Allgemeinen rechnergestützt. Eine manuelle Berechnung ist auch möglich.I. The data collection is generally computer-based. Manual entry is also possible. The EG-AG functions are generally calculated with the aid of a computer. A manual calculation is also possible.
II. Die Berechnung der EG-AG-Funktionen erfolgt im Allgemeinen rechnergestützt. Eine manuelle Berechnung ist auch möglich.II. The calculation of the EG-AG functions is generally computer-based. A manual calculation is also possible.
πi. Die Dateneingabe zur Berechnung der EG-AG-Funtionen bzw. Datenaufbereitung kann rechnergestützt erfolgen. Eine manuelle Bearbeitung ist möglich.πi. The data input for calculating the EG-AG functions and data preparation can be computer-based. Manual processing is possible.
IV. Das Ranking der Einflussgrößen kann rechnergestützt erfolgen. Eine manuelle Durchführung des Rankings ist auch möglich.IV. The ranking of influencing factors can be computer-based. It is also possible to carry out the ranking manually.
V. Die Schritte 2.,3. und 4. der Verfahrensbeschreibung können ganz oder teilweise rechnergestützt ablaufen.V. Steps 2., 3. and 4. The description of the process can run entirely or partially with the aid of a computer.
VI. Die Schritte 2.,3. und 4. der Verfahrensbeschreibung können ganz oder teilweise in einem Computerprogramm abgebildet sein und hintereinander automatisch ablaufen.VI. Steps 2., 3. and 4. The description of the method can be wholly or partially depicted in a computer program and run automatically one after the other.
VII. Das in der Verfahrensbeschreibung beschriebene Verfahren kann komplett in ein System zur Versuchsplanung implementiert werden, so dass nur eine Rechnereinheit im Verfahren benutzt wird.VII. The method described in the method description can be completely implemented in a system for test planning, so that only one computer unit is used in the method.
VIII. Das in der Verfahrensbeschreibung beschriebene Verfahren kann auch als Versuchsplanungsverfahren als Teil eines Hochdurchsatzverfahrens eingesetzt werden.VIII. The process described in the process description can also be used as a test planning process as part of a high-throughput process.
IX. Das in der Verfahrensbeschreibung beschriebene Verfahren kann wie in der Ausführungsform (2) dargestellt mit Clusterverfahren kombiniert werden. Die Clusterung kann rechnergestützt, manuell oder analog zu den technischen Ausführungsformen V. und VI. in Kombination mit Datenaufbereitung, Berechnung der EG-AG-Funktionen und dem Ranking ganz oder teilweise rechnergestützt erfolgen.IX. The method described in the method description can be combined with cluster methods as shown in embodiment (2). The clustering can be computer-aided, manual or analogous to the technical embodiments V. and VI. in combination with data preparation, calculation of EG-AG functions and the ranking take place completely or partially with computer support.
Besonders hervorzuheben sind die Vorteile, die die Anwendung von einfachen Zählstatistiken auf experimentelle Einflussgrößen bietet.
Figur 1 : mögliche Ausfuhrungsform nach der Verfahrens- und Ausfuhrungsbeschreibung (Schritt 1.-7.)Particularly noteworthy are the advantages that the application of simple counting statistics offers to experimental factors. Figure 1: possible embodiment according to the process and execution description (step 1-7.)
Figur 2: mögliche Ausführungsformen der Verfahrens- und Ausführungsbeschreibung (Schritt 1.-7.) unter Berücksichtigung einer graphischen Darstellung der EG-AG-FunktionenFigure 2: possible embodiments of the method and execution description (steps 1.-7.) Taking into account a graphic representation of the EG-AG functions
Figur 3 :mögliche Ausführungsformen der Verfahrens- und Ausführungsbeschreibung (Schritt 1.-7.) unter Berücksichtigung von Ausführungsform (2)Figure 3: possible embodiments of the method and implementation description (steps 1-7.) Taking into account embodiment (2)
Figur 4:mögliche Ausführungsform der Verfahrens- und Ausführungsbeschreibung (Schritt 1.-7.), die Versuchsplanung ergibt sich direkt aus dem Ranking evtl. unter Berücksichtigung von (2) oder (3)Figure 4: possible embodiment of the process and implementation description (steps 1-7), the experiment planning results directly from the ranking, possibly taking into account (2) or (3)
Figur 5 mögliche Ausführungsform der Verfahrens- und Ausführungsbeschreibung ( Schritt 1.-7.) unter Berücksichtigung von (2), wobei das Verfahren direkt mit einem Versuchsplanungswerkzeug gemäß (1) kombiniert wird. Die erfassten Experimentaldaten können hierbei direkt in das Versuchsplanungssystem eingehen. Im Versuchsplanungswerkzeug können hierbei zusätzlich die Informationen berücksichtigt werden, die sich aus der Anwendung des Verfahrens gemäß den Schritten 1.-7. incl. (2) ergeben.
Figure 5 possible embodiment of the method and implementation description (step 1.-7.) Taking into account (2), the method being combined directly with an experimental planning tool according to (1). The acquired experimental data can go directly into the test planning system. The test planning tool can also take into account the information that results from the application of the method according to steps 1-7. incl. (2) result.