WO2015197781A1 - Verfahren zum klassifizieren eines stoffgemischs - Google Patents

Verfahren zum klassifizieren eines stoffgemischs Download PDF

Info

Publication number
WO2015197781A1
WO2015197781A1 PCT/EP2015/064433 EP2015064433W WO2015197781A1 WO 2015197781 A1 WO2015197781 A1 WO 2015197781A1 EP 2015064433 W EP2015064433 W EP 2015064433W WO 2015197781 A1 WO2015197781 A1 WO 2015197781A1
Authority
WO
WIPO (PCT)
Prior art keywords
measurement data
data set
spectroscopy
combined
classification
Prior art date
Application number
PCT/EP2015/064433
Other languages
English (en)
French (fr)
Inventor
Stephan Schwarzinger
Felix BRAUER
Original Assignee
Alnumed Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alnumed Gmbh filed Critical Alnumed Gmbh
Publication of WO2015197781A1 publication Critical patent/WO2015197781A1/de

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/02Food
    • G01N33/03Edible oils or edible fats
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N24/00Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects
    • G01N24/08Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects by using nuclear magnetic resonance
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N24/00Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects
    • G01N24/10Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects by using electron paramagnetic resonance
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R33/00Arrangements or instruments for measuring magnetic variables
    • G01R33/20Arrangements or instruments for measuring magnetic variables involving magnetic resonance
    • G01R33/44Arrangements or instruments for measuring magnetic variables involving magnetic resonance using nuclear magnetic resonance [NMR]
    • G01R33/46NMR spectroscopy
    • G01R33/4625Processing of acquired signals, e.g. elimination of phase errors, baseline fitting, chemometric analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R33/00Arrangements or instruments for measuring magnetic variables
    • G01R33/20Arrangements or instruments for measuring magnetic variables involving magnetic resonance
    • G01R33/44Arrangements or instruments for measuring magnetic variables involving magnetic resonance using nuclear magnetic resonance [NMR]
    • G01R33/46NMR spectroscopy
    • G01R33/465NMR spectroscopy applied to biological material, e.g. in vitro testing

Definitions

  • the present invention relates to a method for classifying a substance mixture based on at least one predetermined
  • Nuclear magnetic resonance (NMR) spectroscopy structural information
  • optical spectroscopy eg, infrared (IR) spectroscopy: functional groups
  • MS mass spectrometry
  • chromatographic and spectroscopic methods such as NMR, optical spectroscopy and mass spectrometry are suitable for very complex problems due to their high resolution and dynamic bandwidth.
  • Non-directed means that parameters can be correlated with the problem without having to know the identity and / or cause of the parameter or parameter profile.
  • An example of this is the investigation of food by NMR or IR spectroscopy not only to determine the concentration of individual substances, but the
  • PCA principal component analysis
  • PLS partial least squares
  • SIMCA soft independent modeling by class analogy
  • random forest random forest
  • SVM support vector machines
  • Classification is understood to mean the assignment of the substance mixture to one of several previously known groups.
  • the previously known groups differ in at least one property, which here as
  • Classification criterion is called.
  • a classification criterion is understood to be a quantitatively or qualitatively detectable quantity characterizing the substance mixture.
  • it may be a geographical origin, a Purity, variety breeding, processing, storage and / or aging history, genetic, transcriptomic and / or proteomic information and / or medical or veterinary diagnosis.
  • An independent further measurement data record is to be understood as a measurement data record which is not influenced by the recording of the first measurement data set and / or other further measurement data sets.
  • the recording of the first measurement data set thus has no effect on the second measurement data set.
  • the measurement data of the at least one further measurement data set are thus independent of the measurement data of the first measurement data set.
  • Measurement data sets used different samples of the mixture.
  • the combined measurement data record completely comprises the measurement data of the first and of the at least one further measurement data set recorded in it, ie all data selected from the first and the at least one further measurement data set for the combination.
  • There is thus no data reduction in the combination of the measurement data sets in particular also no averaging between the at least two measurement data sets.
  • an averaging within a measurement data record is possible before the combination of the measurement data records.
  • Measured data set extracted again from the combined measurement data set and treated separately.
  • the method described here Compared to the evaluation of the data of each method for itself and a subsequent correlation of the results of the individual measuring methods, the method described here has the significant advantage that no abstraction of the information and thus no loss of information by evaluation at the level of separate measurement.
  • the first and / or the at least one further measuring method are preferably selected from the group:
  • Electron spin resonance spectroscopy ESR
  • Absorption spectroscopy in particular UVA / IS spectroscopy
  • Near-infrared spectroscopy means infrared spectroscopy chiroptical methods
  • Measurement data sets can be used different measuring methods. However, it is also possible to record the first and the at least one further measured data set with the same measuring method. In this case, however, for the recording of the measurement records
  • the substance mixture before taking the first and / or at least one further measurement data set of a Sample preparation in particular an extraction and / or buffering and / or dilution and / or enrichment and / or separation, is subjected.
  • a Sample preparation in particular an extraction and / or buffering and / or dilution and / or enrichment and / or separation
  • Measuring method can be adjusted. It is thus also possible to highlight certain aspects of the substance mixture for the acquisition of the measurement data sets, for example by removing substances which are unimportant for the classification or the enrichment of substances of particular importance for the classification.
  • the substance mixture is subjected to a different sample preparation before the first measurement data set is recorded than before the at least one further measurement data set was recorded.
  • Gain information For example, polar and apolar extracts of the composition can be examined by the same measuring method. It is preferred if the first measured data record and the at least one further measured data record are recorded using different measuring methods. As a result, a particularly high information gain can be achieved. As explained, it is alternatively or additionally possible that to apply the same measuring methods to different samples or to perform them with different measuring parameters.
  • the first and / or the at least one further measurement data set are subjected to a mathematical transformation before step c), in particular by Fourier transformation, smoothing, differentiation,
  • the at least one further and the combined measured data set are each represented as a set of ordered pairs of respectively one measured variable and one associated measured value.
  • Both the first and the at least one further measurement data set, as well as the combined measurement data set are thus two-dimensional data sets.
  • subareas of the measurement data records can be selected for the analysis, which are particularly significant for the classification, while subareas that show no dependence on the at least one classification criterion can be discarded.
  • the amount of data to be processed can be reduced without a quality loss occurs in the classification.
  • Measurement data set with the database containing the known combined measured data sets contained in the database by means of a statistical method, in particular by principal component analysis (PCA), least squares regression (PLS), neural networks, SIMCA classification (soft independent modeling by class analogy), random-forest method and / or
  • PCA principal component analysis
  • PLS least squares regression
  • SIMCA soft independent modeling by class analogy
  • random-forest method and / or
  • Support vector machine in groups of known combined measurement data sets of the same known
  • Classification are classified, and the combined measurement data set is assigned to the group to which it has the lowest statistical distance.
  • the database thus represents a training data record, by means of which a statistical classifier known per se can be trained.
  • a statistical classifier known per se can be trained.
  • the processing of the combined measurement data record by the classifier can directly result in the classification of the substance mixture, as in the case of a neural network or a random forest.
  • Other classifiers such as
  • clusteranalytical methods only supply the boundaries of the individual classes of the training data record in the respective state space, so that the still unclassified combined measurement data record then has to be assigned on the basis of a distance measure of the next group.
  • the at least one classification criterion has a geographical origin, a purity, a cultivar identity, a
  • the invention is not limited to the said areas.
  • Fig. 1 is a flowchart representation of the steps in the
  • FIG. 2 is a flow chart illustration of the steps in FIG.
  • Fig. 3 A superposition of a plurality of one-dimensional NMR spectra of edible oils
  • FIG. 4 shows a detail from the superimposed spectra according to FIG.
  • Fig. 5 A superposition of a plurality of IR spectra of different
  • FIG. 7 shows a detailed view of the NMR region of the pseudo spectrum according to FIG.
  • FIG. 8 A schematic result of a principal component analysis of FIG
  • FIG. 9 A schematic result of a principal component analysis of combined NMR and IR spectra of a plurality of
  • FIG. 11 shows a dimensionless pseudo spectrum of a single honey generated from an NMR and an IR spectrum
  • Fig. 1 the sequence of an embodiment of a method according to the invention for classifying a mixture of substances is schematically
  • At least one sample of a mixture of substances is provided in step S10.
  • multiple samples are provided that may or may not differ in the type of sample preparation.
  • extraction and / or buffering and / or dilution and / or enrichment and / or separation can be carried out for sample preparation.
  • the substance mixture may be a substance mixture of artificial or natural origin, in particular a food, a stimulant, a sample of human, animal, plant or microbial origin or an extract thereof or a combination thereof.
  • fruit and vegetable juices, beer and mixed beer drinks must, wines and sparkling wines, spirits, energy drinks, coffee, tea, cocoa, smoothies, milk and milk products, etc.), other liquid foods (such as oil and fats, vinegar, etc.) not liquid foods (such as honey, coffee, tea, herbs, meat, fish, bread and
  • steps S12, S14, S16, S18 a first measurement data set and at least one further measurement data set of the samples of the substance mixture prepared in step S10 are now recorded.
  • a variety of methods can be used. In particular, methods from the following group are suitable:
  • ESR Electron spin resonance spectroscopy
  • Near-infrared spectroscopy means infrared spectroscopy chiroptical methods, - emission spectroscopy, in particular fluorescence spectroscopy,
  • Different or even identical measuring methods can be used for the first and the at least one further measured data set.
  • the type of sample preparation and / or the measurement parameters used preferably differ for the individual measurement data records.
  • the measurement data records thus obtained can be subjected to a mathematical treatment not shown in the figure.
  • a mathematical treatment for example Fourier transform, smoothing, differentiation, integration, scaling, baseline correction, phase correction, zero filling, binning and / or
  • step S20 The first and the at least one further measurement data set are now combined in step S20 into a combined measurement data set, which is referred to in FIG. 1 as a multimethod pseudo spectrum. It is not necessary to use all the data of the data records, including the selection of
  • Both the abscissa values and the ordinate values of the first and the at least one further measurement data set can be scaled in the summary to the combined measurement data set.
  • the scaling factors are arbitrary per se, but it is advantageous if, in particular, the abscissa values of the original measurement data sets are scaled such that the data of the original measurement data sets in the combined Do not overlap the measurement data set.
  • a scaling of the ordinate values is particularly useful if a visual representation of the data is desired. Only on the basis of this combined measured data record does the evaluation and interpretation of the measured data and thus the classification of the substance mixture take place in steps S22 and S24. Various numerical, algebraic and / or statistical methods can be used for this purpose. Metadata relating to the mixture can also be included in the analysis.
  • a classification of the substance mixture is based on a
  • Training data sets are used for different classification methods.
  • the principal component analysis is suitable
  • PCA principal component analysis
  • PLS least-squares regression
  • neural networks SIMCA classification
  • SVM support vector machines
  • step S1 10 a schematic flow diagram of a method for classifying a substance mixture according to the prior art is shown in FIG.
  • step S1 10 the provision and, if appropriate, preparation of samples of the mixture of substances is also carried out.
  • step S1 10 corresponds to step S10 of the embodiment shown in FIG.
  • step S20 the prior art method shown in FIG. 2 differs substantially from the embodiment of the invention shown in FIG. 1 in that it does not correspond to step S20
  • steps S1, S120 and S122 a separate numerical, algebraic and / or statistical evaluation is instead performed for each measurement data set recorded in steps S1, S1 and S1 carried out.
  • a separate result in particular a separate classification.
  • the embodiment described in Fig. 1 thus has the significant advantage that no abstraction of information and thus no loss of information through evaluation procedures at the level of the separate measuring methods.
  • Vegetable edible oils can only be chemically analyzed with regard to their quality and identity with considerable expenditure of time. Significantly faster than chemical processes are spectroscopic methods that can simultaneously quantify many properties of the oils. This can be done for example by means of IR spectroscopy and by means of NMR spectroscopy. Both Methods are based on completely different physical measuring principles and have different advantages:
  • FIGS. 3 and 4 show superimposed one-dimensional proton NMR spectra 10, 10 'different edible oils. For the sake of clarity, not all spectra are designated individually. Each is the posted
  • FIG. 4 shows an enlargement of the fatty acid region between 6.5 and 8.5 ppm, in which signals are visible which are not apparent in the complete representation of the spectrum for scaling reasons are visible.
  • Fig. 5 shows an overlay of. IR spectra 12, 12 ', 12 "of different edible oils For reasons of clarity, not all spectra are also designated individually here, the absorption (ordinate) being plotted against the wavenumber (abscissa). Although a larger number of ingredients can be detected over a larger dynamic range than in IR spectroscopy using NMR spectroscopy, a principal component analysis of the NMR spectra per se does not allow a satisfactory discrimination of the oils.
  • the abscissa values are scaled such that the original measurement data records 10, 12 do not overlap in the combined measurement data record 14.
  • the individual spectra 10, 12 may need to be scaled to facilitate the visualization. For example, in the unscaled
  • FIGS. 8 and 9 the main component analyzes for a plurality of edible oils of known classification are shown in each case to illustrate the advantages of the described method.
  • Fig. 8 shows the result of principal component analysis of NMR spectra of a plurality of edible oils. As you can see, the
  • FIG. 9 shows the result of another principal component analysis which was carried out on the basis of pseudo-spectra 14 combined NMR spectra 10 and IR spectra 12 of the same edible oils. It becomes clear that by using the pseudo-spectra 14 a significant
  • the groups 101 to 110 are now all clearly separated and all of the group 104 associated oils through the classifier, here the principal component analysis, correctly assigned to a contiguous cluster.
  • a further increase in the accuracy of the classification can be achieved by the addition of further measurement data records. This is demonstrated again in Fig. 10 for a sample of an oil.
  • a mass spectrum measurement data set 16 was additionally created here and integrated into the combined measurement data set 14. Again, scaling is necessary. The further evaluation can be done with those already described
  • Classification criteria can be transferred.
  • FIGS. 11 and 12 the production of combined measured data records 14 for a sample of honey is demonstrated in FIGS. 11 and 12.
  • an NMR measurement data set 10 and an IR measurement data set 12 were combined into a combined measurement data set 14 and, as shown in FIG. 12, optionally scaled.
  • the main difference to the analysis of edible oils lies in the sample preparation. While an aqueous extract of honey is used to record the NMR spectra, honey can be analyzed in the solid or pasty state to record the IR spectra.
  • the sample thus assayed can then be further analyzed and classified using a training dataset of honeys of known classification. LIST OF REFERENCE NUMBERS

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Food Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Klassifizieren eines Stoffgemischs anhand zumindest eines vorgegebenen Klassifizierungskriteriums, mit den Schritten: a) Aufnehmen eines das Stoffgemisch betreffenden ersten Messdatensatzes (10) mittels eines ersten Messverfahrens; b) Aufnehmen zumindest eines das Stoffgemisch betreffenden, unabhängigen weiteren Messdatensatzes (12) mittels eines weiteren Messverfahrens; c) zumindest teilweises Kombinieren des ersten (10) und des zumindest einen weiteren Messdatensatzes (12) zu einem kombinierten Messdatensatz (14); d) Klassifizieren des Stoffgemischs durch Vergleichen des kombinierten Messdatensatzes (14) in seiner Gesamtheit mit einer Datenbank umfassend bekannte kombinierte Messdatensätze für eine Mehrzahl von Stoffgemischen mit bekannter Klassifikation.

Description

Verfahren zum Klassifizieren eines Stoff gern ischs
Die vorliegende Erfindung betrifft ein Verfahren zum Klassifizieren eines Stoffgemischs anhand zumindest eines vorgegebenen
Klassifizierungskriteriums. Zur Untersuchung wissenschaftlicher und/oder technischer Fragestellungen werden unterschiedlichste Messverfahren verwendet. Dabei wird das
Vorhandensein oder die Magnitude eines gemessenen Parameters mit der Fragestellung direkt, also in gerichteter Weise, in Verbindung gebracht. Mit steigender Komplexität der Fragestellung ist oftmals ein einzelner gemessener Parameter nicht ausreichend und es werden mehrere Parameter erfasst, auch Parameter, die mit unterschiedlichen Methoden aufgenommen wurden. Ein Beispiel hierfür ist die Bestimmung der Konformation chemischer
Verbindungen, bei der beispielsweise Messdaten der magnetischen
Kernresonanz-(NMR)-Spektroskopie (Strukturinformation), der optischen Spektroskopie (z. B. lnfrarot-(IR)-Spektroskopie: funktionelle Gruppen) und der Massen-(MS)-Spektrometrie (atomare Zusammensetzung) routinemäßig gemeinsam genutzt werden. Insbesondere chromatographische und spektroskopische Methoden wie die NMR-, die optische Spektroskopie und die Massenspektromet e eignen sich aufgrund der ihnen eigenen hohen Auflösung und dynamischen Bandbreite für die Anwendung auf sehr komplexe Fragestellungen.
Ein Beispiel hierfür ist die Analytik von Mischungen aus einer größeren Anzahl von Stoffen, wie beispielsweise Naturstoffe und Lebensmittel. Neuerdings werden Methoden, die eine Vielzahl von Parametern in einer Messung erfassen - einschließlich der oben genannten Methoden, in gerichteter wie auch nicht- gerichteter Weise auf komplexe Fragestellungen angewandt: Dabei werden ganze Parameterprofile - also die Kombination aus mehreren Parametern, die mit einer Methode erhalten wurden - gerichtet oder nicht-gerichtet mit der Fragestellung verknüpft.
Nicht-gerichtet bedeutet, dass Parameter mit der Fragestellung korreliert werden können, ohne dass die Identität und/oder Ursache für den Parameter oder das Parameterprofil bekannt sein müssen. Ein Beispiel hierfür ist die Untersuchung von Lebensmitteln mittels NMR- oder IR-Spektroskopie nicht nur zur Bestimmung der Konzentration einzelner Substanzen, sondern die
Korrelationen der jeweiligen Parameterprofile mit Eigenschaften wie Herkunft, Sorte, Verarbeitung und/oder Verfälschung.
Für diese Art von Untersuchungen werden üblicherweise Methoden der Statistik verwendet, um Datenprofile und Fragestellungen abzugleichen. Die hierfür üblicherweise verwendeten statistischen Methoden beinhalten, sind aber nicht beschränkt auf: Hauptkomponentenanalysen (principal component analysis, PCA), partielle kleinste Fehlerquadrate (partial least Squares, PLS), neuronale Netze, SIMCA (soft independent modelling by class analogy), Random Forest, SVM (support vector machines) etc.
Nachteilig an diesem bekannten Ansatz ist, dass sich trotz immer
leistungsfähigerer statistischer Methoden viele Fragestellungen nur mit den Daten einer einzelnen Messmethode nicht lösen lassen.
Dargestellt werden kann dies anhand der Authentizitätsuntersuchung von Lebensmitteln. So kann beispielsweise mittels NMR-Spektroskopie festgestellt werden, aus welcher Region ein Wein der Sorte Riesling stammt. Diese
Unterscheidung ist auf unterschiedliche Konzentrationen derselben chemischen Substanzen zurückzuführen. Mit dem gleichen Ansatz lassen sich
beispielsweise auch Sorte und Jahrgang feststellen. Allerdings sind der Auflösung, beispielsweise betreffend die regionale Zuordnung eines
Lebensmittels, und der Genauigkeit der Untersuchung natürliche Grenzen gesetzt.
Versuche, diese Grenzen zu erweitern, bestanden bisher in der Kombination der bereits fertigen Auswertung von Messdaten verschiedener Messmethoden. Hierzu wurden Datenprofile mit verschiedenen Messverfahren erstellt, jeweils individuell ausgewertet und anschließend die Ergebnisse korreliert. Da jede Auswertung, beispielsweise durch statistische Methoden, eine Abstraktion darstellt und damit mit Informationsverlust einhergeht, bleibt die Aussagekraft solcher Ansätze begrenzt. Derartige Methoden der multivariaten Statistik sind beispielsweise in Kessler, W., Multivariate Datenanalyse für die Pharma-, Bio- und Prozessanalytik, WILEY-VCH Verlag, Weinheim, 2007, S.1 - 20
beschrieben. Es ist daher die Aufgabe der vorliegenden Erfindung, eine verbesserte Klassifikation von Stoffgemischen zu ermöglichen.
Diese Aufgabe wird mit dem Gegenstand des Anspruchs 1 gelöst.
Bei einem solchen Verfahren zum Klassifizieren eines Stoffgemischs anhand zumindest eines vorgegebenen Klassifizierungskriteriums werden folgende Schritte durchgeführt: a) Aufnehmen eines das Stoffgemisch betreffenden ersten Messdatensatzes mittels eines ersten Messverfahrens;
b) Aufnehmen zumindest eines das Stoffgemisch betreffenden, unabhängigen weiteren Messdatensatzes mittels eines weiteren Messverfahrens;
c) zumindest teilweises Kombinieren des ersten und des zumindest einen weiteren Messdatensatzes zu einem kombinierten Messdatensatz;
d) Klassifizieren des Stoffgemischs durch Vergleichen des kombinierten Messdatensatzes in seiner Gesamtheit mit einer Datenbank umfassend bekannte kombinierte Messdatensätze für eine Mehrzahl von Stoffgemischen mit bekannter Klassifikation.
Unter Klassifizieren wird dabei das Zuordnen des Stoffgemischs zu einer von mehreren vorbekannten Gruppen verstanden. Die vorbekannten Gruppen unterscheiden sich dabei in zumindest einer Eigenschaft, die hier als
Klassifizierungskriterium bezeichnet wird.
Unter einem Klassifizierungskriterium wird eine quantitativ oder qualitativ erfassbare, das Stoffgemisch charakterisierende Größe verstanden.
Beispielsweise kann es sich dabei um eine geographische Herkunft, eine Reinheit, eine Sortenzugehö gkeit, eine Verarbeitungs-, Lagerungs- und/oder Alterungshisto e, eine genetische, transkriptomische und/oder proteomische Information und/oder eine medizinische oder veterinärmedizinische Diagnose handeln.
Unter einem unabhängigen weiteren Messdatensatz ist ein Messdatensatz zu verstehen, der von der Aufnahme des ersten Messdatensatzes und/oder anderer weiterer Messdatensätze nicht beeinflusst ist. Die Aufnahme des ersten Messdatensatzes hat also keine Auswirkung auf den zweiten Messdatensatz. Die Messdaten des zumindest einen weiteren Messdatensatzes sind somit unabhängig von den Messdaten des ersten Messdatensatzes. Vorzugsweise werden für die Aufnahme des ersten und des zumindest einen weiteren
Messdatensatzes dabei unterschiedliche Proben des Stoffgemischs verwendet. Der kombinierte Messdatensatz umfasst dabei die in ihn aufgenommenen Messdaten des ersten und des zumindest einen weiteren Messdatensatzes vollständig, also alle Daten, die aus dem ersten und dem zumindest einen weiteren Messdatensatz für die Kombination ausgewählt werden. Es erfolgt bei der Kombination der Messdatensätze also keine Datenreduktion, insbesondere auch keine Mittelung zwischen den wenigstens zwei Messdatensätzen. Vor der Kombination der Messdatensätze ist jedoch eine Mittelung innerhalb eines Messdatensatzes möglich.
Unter dem Vergleichen des kombinierten Messdatensatzes in seiner
Gesamtheit ist zu verstehen, dass die Daten aller Messdatensätze, die in den kombinierten Messdatensatz integriert sind, in einem Verarbeitungsschritt den gleichen Vergleichsprozessen unterzogen werden. Mit anderen Worten erfolgt keine Separierung des kombinierten Messdatensatzes in Unterdatensätze, die separat verarbeitet werden. Insbesondere werden in diesem Vergleichsschritt nicht die Daten des ersten bzw. des zumindest einen weiteren
Messdatensatzes wieder aus dem kombinierten Messdatensatz extrahiert und separat behandelt.
Verglichen mit dem Stand der Technik erfolgt also keine getrennte sequentielle Analyse und Klassifizierung der einzelnen Messdatensätze, die anschließend durch Korrelation in ein Gesamtergebnis überführt werden. Vielmehr werden alle Messdatensätze in ihrer Gesamtheit klassifiziert, so dass auf den
abschließenden Korrelationsschritt verzichtet werden kann.
Gegenüber der Auswertung der Daten jeder Methode für sich und einer nachfolgenden Korrelation der Resultate der einzelnen Messverfahren hat das hier beschriebene Verfahren den wesentlichen Vorteil, dass keine Abstraktion der Information und damit kein Informationsverlust durch Auswerteverfahren auf der Ebene der getrennten Messverfahren erfolgt.
Es hat sich überraschenderweise dabei herausgestellt, dass Klassifizierungen, die mit einem Messverfahren oder mit der sequenziellen Kombination mehrerer Messverfahren, wie sie aus dem Stand der Technik bekannt ist, alleine nicht und nicht ausreichend möglich sind, durch entsprechende Datenkombination mit nachfolgender Auswertung der Messdaten in ihrer Gesamtheit nun mit unerwartet hoher Qualität durchgeführt werden können. Bevorzugt sind das erste und/oder das zumindest eine weitere Messverfahren ausgewählt aus der Gruppe:
- Kernspinresonanzspektroskopie (NMR),
Elektronenspinresonanzspektroskopie (ESR); - Absorptionsspektroskopie, insbesondere UVA/IS-Spektroskopie,
Nahinfrarotspektroskopie, Mittel infrarotspektroskopiem chiroptische Methoden,
- Emissionsspektroskopie, insbesondere Fluoreszenzspektroskopie,
Ramanspektroskopie,
- Massenspektrometrie
- Flüssigkeits- oder Gaschromatographie mit spektroskopischer,
elektrochemischer, diffraktometrischer oder refraktometrischer Detektion,
- elektrophoretische Trennverfahren. Überraschenderweise lassen sich insbesondere durch die Kombination von Messdatensätzen eines Messverfahrens mit hoher Auflösung und/oder hoher dynamischer Bandbreite, wie beispielsweise der NMR-Spektroskopie, mit Messdatensätzen von Messverfahren mit geringer Auflösung und/oder dynamischer Bandbreite, wie beispielsweise der IR-Spektroskopie,
Fragestellungen lösen, die sich allein mit der für sich gesehen am besten auflösenden und/oder am empfindlichsten Messmethode nicht lösen lassen. Der kumulierte Informationsgehalt des kombinierten Messdatensatzes stellt daher einen wesentlichen Vorteil gegenüber dem Stand der Technik dar. Für die Aufnahme des ersten und des zumindest einen weiteren
Messdatensatzes können dabei unterschiedliche Messverfahren benutzt werden. Es ist aber auch möglich, den ersten und den zumindest einen weiteren Messdatensatz mit dem gleichen Messverfahren aufzunehmen. In diesem Fall werden jedoch für die Aufnahme der Messdatensätze
unterschiedliche Probenbedingungen und/oder Messparameter verwendet.
Es ist ferner bevorzugt, wenn das Stoffgemisch vor dem Aufnehmen des ersten und/oder zumindest einen weiteren Messdatensatzes einer Probenvorbereitung, insbesondere einer Extraktion und/oder Pufferung und/oder Verdünnung und/oder Anreicherung und/oder Separation, unterzogen wird. Hierdurch können die für die Aufnahme der Messdatensätze verwendeten Proben des Stoffgemischs an die Anforderungen des jeweiligen
Messverfahrens angepasst werden. Es ist so ferner möglich, bestimmte Aspekte des Stoffgemischs für die Aufnahme der Messdatensätze besonders herauszustellen, beispielsweise durch die Entfernung von für die Klassifikation unwichtigen Substanzen oder die Anreicherung von für die Klassifikation besonders bedeutsamen Substanzen.
Es ist vorteilhaft, wenn das Stoffgemisch vor dem Aufnehmen des ersten Messdatensatzes einer anderen Probenvorbereitung unterzogen wird als vor dem Aufnehmen des zumindest einen weiteren Messdatensatzes.
Dies ermöglicht zum einen die Anpassung der jeweiligen Proben an
unterschiedliche Messbedingungen oder Messverfahren, zum anderen können so, falls das gleiche Messverfahren für mehrere Messdatensätze angewendet wird, unterschiedliche Proben bereitgestellt werden, um einen weiteren
Informationsgewinn zu erzielen. Beispielsweise können polare und apolare Extrakte des Stoffgemischs mit dem gleichen Messverfahren untersucht werden. Es ist bevorzugt, wenn der erste Messdatensatz und der zumindest eine weitere Messdatensatz mit unterschiedlichen Messverfahren aufgenommen werden. Hierdurch kann ein besonders hoher Informationsgewinn erzielt werden. Wie erläutert, ist es alternativ oder zusätzlich auch möglich, das gleiche Messverfahren auf unterschiedliche Proben anzuwenden oder mit unterschiedlichen Messparametern durchzuführen.
Weiter bevorzugt werden der erste und/oder der wenigstens eine weitere Messdatensatz vor Schritt c) einer mathematischen Transformation unterzogen, insbesondere durch Fourier-Transformation, Glättung, Differenzierung,
Integration, Skalierung, Basislinienkorrektur, Phasenkorrektur, Null-Füllung, Binning und/oder Bucketing. Hierdurch können Messartefakte reduziert oder ganz beseitigt werden. Auch eine Datenreduktion zur Erleichterung der rechnerischen Handhabbarkeit der Messdatensätze ist so möglich. Durch Verfahren wie die Null-Füllung oder die Anwendung von Fensterfunktionen auf die rohen Messdaten kann auch die apparente Auflösung verbessert werden.
Es ist dabei zweckmäßig, wenn der der erste, der wenigstens eine weitere und der kombinierte Messdatensatz jeweils als Menge aus geordneten Paaren von jeweils einer Messgröße und einen zugeordneten Messwert repräsentiert werden. Obwohl eine Mehrzahl von Messdatensätzen zur Erstellung des kombinierten Messdatensatzes zusammengefasst wird, wird dabei somit die
Dimension des kombinierten Messdatensatzes nicht erhöht, wie dies bei vielen bekannten Verfahren der multivariaten Statistik der Fall ist. Sowohl der erste und der zumindest eine weitere Messdatensatz, als auch der kombinierte Messdatensatz sind also zweidimensionale Datensätze.
Ferner ist es vorteilhaft, wenn zum Kombinieren des ersten und zumindest einen weiteren Messdatensatzes jeweils die vollständigen Messdatensätze oder zusammenhängende oder nichtzusammenhängende Teilmengen der jeweiligen Messdatensätze verwendet werden.
Auf diese Weise können beispielsweise Teilbereiche der Messdatensätze für die Analyse ausgewählt werden, die für die Klassifikation besonders bedeutsam sind, während Teilbereiche, die keine Abhängigkeit von dem wenigstens einen Klassifikationskriterium zeigen, verworfen werden können. Damit kann die zu verarbeitende Datenmenge reduziert werden, ohne dass ein Qualitätsverlust bei der Klassifizierung eintritt.
Es ist weiter bevorzugt, wenn zum Vergleichen des kombinierten
Messdatensatzes mit der Datenbank die in der Datenbank enthaltenen bekannten kombinierten Messdatensätze mittels eines statistischen Verfahrens, insbesondere mittels Hauptkomponentenanalyse (principal component analysis, PCA), Methode der kleinsten Fehlerquadrate (partial least Square regression, PLS), neuronaler Netzwerke, SIMCA-Klassifizierung (soft independent modelling by class analogy), random-forest-Methode und/oder
Stützvektormaschinen (support vector machine, SVM), in Gruppen von bekannten kombinierten Messdatensätze jeweils gleicher bekannter
Klassifikation geordnet werden, und der kombinierte Messdatensatz derjenigen Gruppe zugeordnet wird, zu welcher er den geringsten statistischen Abstand aufweist.
Mit anderen Worten stellt die Datenbank also einen Trainingsdatensatz dar, anhand dessen ein an sich bekannter statistischer Klassifikator trainiert werden kann. Je nach Art des Klassifikators kann die Verarbeitung des kombinierten Messdatensatzes durch den Klassifikator unmittelbar die Klassifizierung des Stoffgemischs ergeben, wie beispielsweise bei einem neuronalen Netz oder einem random forest. Andere Klassifikatoren, wie beispielsweise
clusteranalytische Methoden liefern gegebenenfalls nur die Grenzen der einzelnen Klassen des Trainingsdatensatzes im jeweiligen Zustandsraum, so dass der noch unklassifizierte kombinierte Messdatensatz dann anhand eines Abstandsmaßes der nächstliegenden Gruppe zugeordnet werden muss.
Es ist ferner bevorzugt, wenn das zumindest eine Klassifizierungskriterium eine geographische Herkunft, eine Reinheit, eine Sortenzugehörigkeit, eine
Verarbeitungs-, Lagerungs- und/oder Alterungshistorie, eine genetische, transkriptomische und/oder proteomische Information und/oder eine
medizinische oder veterinärmedizinische Diagnose betrifft.
Bevorzugt ist dabei das Stoffgemisch künstlichen oder natürlichen Ursprungs, insbesondere ein Nahrungsmittel, ein Genussmittel, eine Probe menschlichen, tierischen, pflanzlichen oder mikrobiellen Ursprungs oder ein Extrakt davon oder eine Kombination davon.
Die Erfindung beschränkt sich jedoch nicht auf die genannten Bereiche.
Jegliches qualitativ oder quantitativ erfassbare Klassifizierungskriterium kann im Rahmen des eingangs beschriebenen Verfahrens herangezogen werden, so dass dieses Verfahren Anwendung für alle denkbaren Aufgaben im Bereich der Analyse, Diagnostik oder Qualitätskontrolle von künstlichen oder natürlichen Stoffgemischen finden kann. Die Erfindung wird nun anhand von Ausführungsbeispielen näher erläutert. Es zeigen Fig. 1 Eine Flussdiagramm-Darstellung der Schritte bei der
Durchführung eines Ausführungsbeispiels eines
erfindungsgemäßen Verfahrens zum Klassifizieren eines
Stoffgennischs mit Kombination mehrerer Messdatensätze in einen kombinierten Messdatensatz;
Fig. 2 Eine Flussdiagramm-Darstellung der Schritte bei der
Durchführung eines Ausführungsbeispiels eines Verfahrens zum Klassifizieren eines Stoffgennischs nach dem Stand der Technik;
Fig. 3 Eine Überlagerung einer Mehrzahl von eindimensionalen NMR- Spektren von Speiseölen;
Fig. 4 Ein Ausschnitt aus den überlagerten Spektren nach Fig. 3, der die
Fettsäuresignale der jeweiligen Speiseöle zeigt;
Fig. 5 Eine Überlagerung einer Mehrzahl von IR-Spektren verschiedener
Speiseöle; Fig. 6 Ein aus einem NMR- und einem IR-Spektrum generiertes
dimensionsloses Pseudospektrum eines einzelnen Speiseöls;
Fig. 7 Eine Detailansicht der NMR-Region des Pseudospektrums nach
Fig. 6;
Fig. 8 Ein schematisches Ergebnis einer Hauptkomponentenanalyse von
NMR-Spektren einer Mehrzahl von Speiseölen;
Fig. 9 Ein schematisches Ergebnis einer Hauptkomponentenanalyse von kombinierten NMR- und IR-Spektren einer Mehrzahl von
Speiseölen, erzeugt durch ein Verfahren gemäß Fig. 1 ;
Fig. 10 Ein aus einem NMR-, einem IR- und einem Massenspektrum
generiertes dimensionsloses Pseudospektrum eines einzelnen
Speiseöls; Fig. 1 1 Ein aus einem NMR- und einem IR-Spektrum generiertes dimensionsloses Pseudospektrum eines einzelnen Honigs;
Fig. 12 Eine skalierte Ausschnittsvergrößerung des Pseudospektrums aus
Fig. 1 1 .
In Fig. 1 ist der Ablauf eines Ausführungsbeispiels eines erfindungsgemäßen Verfahrens zum Klassifizieren eines Stoffgemischs schematisch
veranschaulicht.
Zunächst wird in Schritt S10 zumindest eine Probe eines Stoffgemischs bereitgestellt. Bevorzugt werden in Schritt S10 mehrere Proben bereitgestellt, die sich in der Art der Probenvorbereitung unterscheiden können, aber nicht müssen. Zur Probenvorbereitung kann dabei beispielsweise eine Extraktion und/oder Pufferung und/oder Verdünnung und/oder Anreicherung und/oder Separation durchgeführt werden.
Bei dem Stoffgemisch kann es sich um ein Stoffgemisch künstlichen oder natürlichen Ursprungs, insbesondere ein Nahrungsmittel, ein Genussmittel, eine Probe menschlichen, tierischen, pflanzlichen oder mikrobiellen Ursprungs oder ein Extrakt davon oder eine Kombination davon handeln.
Konkrete Beispiele umfassen unter anderem Getränke aller Art (wie
beispielsweise Frucht- und Gemüsesäfte, Bier und Biermischgetränke, Most, Weine und Schaumweine, Spirituosen, Energydrinks, Kaffee, Tee, Kakao, Smoothies, Milch und Milchprodukte etc.), andere flüssige Lebensmittel (wie beispielsweise Öl und Fette, Essig etc.) nicht flüssige Lebensmittel (wie beispielsweise Honig, Kaffee, Tee, Kräuter, Fleisch, Fisch, Brot und
Bäckereiprodukte, Gemüse- und Obstprodukte, feste Milchprodukte, ...); Kosmetika, Phytopharmaka, Pharmaka, Genussmittel, einschließlich
Tabakprodukte, Proben von Körperflüssigkeiten, Gewebsextrakte menschlicher, tierischer oder pflanzlicher Herkunft, und dergleichen. In den folgenden Verfahrensschritten S12, S14, S16, S18 werden nun ein erster Messdatensatz und zumindest ein weiterer Messdatensatz der in Schritt S10 vorbereiteten Proben des Stoffgemischs aufgenommen. Hierzu kann eine Vielzahl von Verfahren verwendet werden. Insbesondere eignen sich Verfahren aus folgender Gruppe:
- Kernspinresonanzspektroskopie (NMR),
Elektronenspinresonanzspektroskopie (ESR);
- Absorptionsspektroskopie, insbesondere UVA/IS-Spektroskopie,
Nahinfrarotspektroskopie, Mittel infrarotspektroskopiem chiroptische Methoden, - Emissionsspektroskopie, insbesondere Fluoreszenzspektroskopie,
Ramanspektroskopie,
- Massenspektrometrie
- Flüssigkeits- oder Gaschromatographie mit spektroskopischer,
elektrochemischer, diffraktomet scher oder refraktometrischer Detektion, - elektrophoretische Trennverfahren.
Dabei können für den ersten und den zumindest einen weiteren Messdatensatz unterschiedliche oder auch gleiche Messverfahren benutzt werden. Im letzteren Fall unterscheiden sich für die einzelnen Messdatensätze dabei vorzugsweise die Art der Probenvorbereitung und/oder die verwendeten Messparameter.
Die so erhaltenen Messdatensätze können einer in der Figur nicht dargestellten mathematischen Behandlung unterzogen werden. Möglich sind beispielsweise Fourier-Transformation, Glättung, Differenzierung, Integration, Skalierung, Basislinienkorrektur, Phasenkorrektur, Null-Füllung, Binning und/oder
Bucketing. Der erste und der zumindest eine weitere Messdatensatz werden nun in Schritt S20 zu einem kombinierten Messdatensatz zusammengefasst, der in Fig. 1 als Multimethoden-Pseudospektrum bezeichnet wird. Dabei müssen nicht alle Daten der Datensätze verwendet werden, auch die Auswahl von
zusammenhängenden oder nicht-zusammenhängenden Teilbereichen der Messdatensätze für die Kombination ist möglich.
Beim Zusammenfassen der Messdatensätze zu dem kombinierten
Messdatensatz werden dabei vorzugsweise die ursprünglichen, mit der Dimension der jeweiligen Messgröße behafteten Abszissen der
Messdatensätze entfernt und im kombinierten Messdatensatz durch eine durchgängige dimensionslose Abszisse ersetzt, auf der die ursprünglichen Ordinaten werte angeordnet werden. Man erhält also eine Kombination der ursprünglichen Messdatensätze, beispielsweise der ursprünglich
aufgenommenen Spektren, in einem Pseudospektrum, welches alle
ausgewählten Daten der ursprünglichen Messdatensätze in dimensionsloser Form enthält.
Sowohl die Abszissenwerte als auch die Ordinatenwerte des ersten und des zumindest einen weiteren Messdatensatzes können bei der Zusammenfassung zu dem kombinierten Messdatensatz skaliert werden. Die Skalierungsfaktoren sind dabei an sich beliebig, es ist jedoch vorteilhaft, wenn insbesondere die Abszissenwerte der ursprünglichen Messdatensätze so skaliert werden, dass die Daten der ursprünglichen Messdatensätze in dem kombinierten Messdatensatz nicht überlappen. Eine Skalierung der Ordinatenwerte ist insbesondere dann sinnvoll, wenn eine visuelle Darstellung der Daten gewünscht ist. Erst anhand dieses kombinierten Messdatensatzes erfolgt nun in Schritt S22 und S24 die Auswertung und Interpretation der Messdaten und somit die Klassifizierung des Stoffgemisches. Hierzu können verschiedene numerische, algebraische und/oder statistische Methoden herangezogen werden. Auch das Stoffgemisch betreffende Metadaten können in die Analyse einbezogen werden.
Bevorzugt erfolgt eine Klassifikation des Stoffgemischs anhand einer
Datenbank von kombinierten Messdatensätzen von Stoffgemischen bekannter Klassifikation. Diese Datensätze können dabei beispielsweise als
Trainingsdatensätze für verschiedene Klassifikationsmethoden herangezogen werden. Es eignen sich beispielsweise die Hauptkomponentenanalyse
(principal component analysis, PCA), die Methode der kleinsten Fehlerquadrate (partial least Square regression, PLS), neuronale Netzwerke, die SIMCA- Klassifizierung, die random-forest-Methode und/oder Stützvektormaschinen (support vector machines, SVM).
Nach dem Training der jeweiligen Algorithmen mit den kombinierten
Messdatensätzen aus der Datenbank können diese Klassifikatoren nun benutzt werden, um das untersuchte Stoffgemisch zu klassifizieren.
Als Klassifizierungskriterien eignen sich dabei beispielsweise eine
geographische Herkunft, eine Sortenzugehörigkeit, eine Reinheit, eine
Verarbeitungs-, Lagerungs- und/oder Alterungshistorie, eine genetische, transkriptomische und/oder proteomische Information und/oder eine
medizinische oder veterinärmedizinische Diagnose. Generell können beliebige quantitativ oder qualitativ erfassbare Klassifizierungskriterien Anwendung finden.
Um die Vorteile des beschriebenen Verfahrens zu verdeutlichen, ist in Fig. 2 ein schematisches Flussdiagramm eines Verfahrens zum Klassifizieren eines Stoffgemischs nach dem Stand der Technik dargestellt. Hier erfolgt in Schritt S1 10 ebenfalls die Bereitstellung und gegebenenfalls Vorbereitung von Proben des Stoffgemischs. Schritt S1 10 entspricht dabei Schritt S10 des in Fig. 1 dargestellten Ausführungsbeispiels.
In den folgenden Schritten S1 12, S1 14 und S1 16 werden analog zu den Schritten S12 - S18 mehrere Messdatensätze der so bereitgestellten Proben aufgenommen. Dabei können ebenfalls die bereits geschilderten Messverfahren Anwendung finden.
Das in Fig. 2 gezeigte Verfahren nach dem Stand der Technik unterscheidet sich jedoch von dem in Fig. 1 dargestellten Ausführungsbeispiel der Erfindung wesentlich dadurch, dass kein dem Schritt S20 entsprechender
Verfahrensschritt vorgesehen ist. Es erfolgt also keine Kombination der in den Schritten S1 12 - S1 16 aufgenommenen Messdatensätze in einen kombinierten Messdatensatz.
Vielmehr wird stattdessen in den Schritten S1 18, S120 und S122 für jeden in den Schritten S1 12, S1 14 und S1 16 aufgenommenen Messdatensatz eine separate numerische, algebraische und/oder statistische Auswertung durchgeführt. Man erhält also für jeden Messdatensatz ein eigenes Ergebnis, insbesondere eine eigene Klassifizierung. Diese Ergebnisse müssen nun in einem weiteren Schritt S124 statistisch, insbesondere durch Kreuzkorrelation, zusammengefasst werden, bevor in Schritt S126 die endgültige Interpretation und damit Klassifizierung erfolgen kann.
Hierin liegt der wesentliche Nachteil des Standes der Technik. Die notwendige Kreuzkorrelation der Ergebnisse für die individuellen Messdatensätze ist ein zusätzlicher statistischer Schritt, der weitere Fehlerquellen in das Verfahren einführt und damit die Qualität der Klassifizierung verschlechtert.
Gegenüber der Auswertung der Daten jeder Methode für sich und einer nachfolgenden Korrelation der Resultate der einzelnen Messverfahren nach dem in Fig. 2 gezeigten Stand der Technik hat das in Fig. 1 beschriebene Ausführungsbeispiel somit den wesentlichen Vorteil, dass keine Abstraktion der Information und damit kein Informationsverlust durch Auswerteverfahren auf der Ebene der getrennten Messverfahren erfolgt.
Im Folgenden wird das Ausführungsbeispiel des Verfahrens nach Fig. 1 anhand der Klassifizierung von Speiseölen mittels einer Kombination aus NMR- und IR- Spektroskopie näher dargestellt.
Pflanzliche Speiseöle können chemisch nur mit erheblichem zeitlichen Aufwand hinsichtlich ihrer Qualität und Identität analysiert werden. Deutlich schneller als chemische Verfahren sind spektroskopische Methoden, die viele Eigenschaften der Öle gleichzeitig quantitativ erfassen können. Dies kann beispielsweise mittels IR-Spektroskopie und mittels NMR-Spektroskopie erfolgen. Beide Methoden beruhen auf gänzlich verschiedenen physikalischen Messprinzipien und haben unterschiedliche Vorteile:
Während bei der sogenannten ATR-IR-Spektroskopie die Proben ohne weitere Vorbereitung gemessen werden können, ist bei der NMR-Spektroskopie lediglich eine Verdünnung der Probe mit einem geeigneten Lösungsmittel erforderlich. Mit beiden Methoden kann in wenigen Minuten ein entsprechendes Spektrum der zu untersuchenden Probe erhalten werden, wobei Substanzen im Konzentrationsbereich von Prozent bis zu ppm (NMR) erfasst werden können.
Vor dem Hintergrund der rapide zunehmenden Zahl an Verfälschungen betreffend die Identität von Speiseölen, vor allem beim Olivenöl, sind
entsprechende schnelle, günstige und möglichst eindeutige
Unterscheidungsverfahren erforderlich.
Die Figuren 3 und 4 zeigen überlagerte eindimensionale Protonen-NMR- Spektren 10, 10' verschiedener Speiseöle. Der Übersichtlichkeit halber sind nicht alle Spektren einzeln bezeichnet. Aufgetragen ist jeweils die
Signalintensität (Ordinate) gegenüber der chemischen Verschiebung in ppm (Abszisse) In Fig. 4 ist dabei eine Ausschnittsvergrößerung der Fettsäureregion zwischen 6,5 und 8,5 ppm dargestellt, in der Signale sichtbar werden, die in der vollständigen Darstellung des Spektrums aus Skalierungsgründen nicht sichtbar sind. Fig. 5 zeigt eine Überlagerung von. IR-Spektren 12, 12', 12" verschiedener Speiseöle. Auch hier sind aus Übersichtsgründen nicht alle Spektren einzeln bezeichnet. Aufgetragen ist hier die Absorption (Ordinate) gegenüber der Wellenzahl (Abszisse). Obwohl mit Hilfe der NMR-Spektroskopie eine größere Zahl an Inhaltsstoffen über eine größere dynamische Bandbreite als bei der IR-Spektroskopie erfasst werden kann, erlaubt eine Hauptkomponentenanalyse der NMR-Spektren für sich genommen keine zufriedenstellende Unterscheidung der Öle. Vor allem Olivenöle und Haselnussöl, das bereits zur Verfälschung von Olivenöl verwendet wurde, lassen sich nicht eindeutig unterscheiden. Auch die IR- Spektroskopie allein zeigt zwar Unterschiede zwischen den Ölen, erlaubt jedoch keine hinreichende Unterscheidung. Um eine verbesserte Klassifizierung zu erhalten, wird daher, wie anhand Fig. 1 erläutert, ein NMR-Spektrum 10 und ein IR-Spektrum 12 eines zu
klassifizierenden Öls in einen kombinierten Messdatensatz 14, also ein
Pseudospektrum, zusammengefasst. Wie erläutert, werden dabei die
Messdaten der Messdatensätze 10 und 12 in eine gemeinsame
zweidimensionale Matrix aufgenommen, wobei die Abszissenwerte so skaliert werden, dass die ursprünglichen Messdatensätze 10, 12 sich im kombinierten Messdatensatz 14 nicht überlappen.
Ein solcher kombinierter Messdatensatz ist in Fig. 6 dargestellt. Die
Dimensionen von Abszisse und Ordinate werden dabei verworfen, so dass sich ein dimensionsloses Pseudospektrum 14 ergibt. Wie Fig. 7 zeigt, müssen die individuellen Spektren 10, 12 gegebenenfalls noch skaliert werden, um die Visualisierung zu erleichtern. So ist beispielsweise in der unskalierten
Darstellung in Fig. 6 eine Mehrzahl von Signalen des NMR-Spektrums 10 nicht zu erkennen. Diese Signale zeigen sich erst in der Ausschnittsvergrößerung in Fig. 7. Der kombinierte Messdatensatz 14 kann nun, wie bereits anhand von Fig. 1 erläutert, unter Zuhilfenahme einer Datenbank von Pseudospektren einer Mehrzahl von bekannten Ölen mittels statistischer Methoden klassifiziert werden.
In den Figuren 8 und 9 sind dabei zur Veranschaulichung der Vorteile des beschriebenen Verfahrens jeweils die Hauptkomponentenanalysen für eine Mehrzahl von Speiseölen bekannter Klassifikation dargestellt. Fig. 8 zeigt das Ergebnis einer Hauptkomponentenanalyse von NMR-Spektren einer Mehrzahl von Speiseölen. Wie zu erkennen ist, können die
unterschiedlichen Öle in eine Mehrzahl von Gruppen 101 bis 1 10 klassifiziert werden. Es ist jedoch insbesondere anhand der Überlappungen zwischen einzelnen Gruppen auch zu erkennen, dass allein die Daten aus den NMR- Spektren nicht genügen, um eine zuverlässige Klassifizierung zu ermöglichen. Deutlich zu erkennen sind beispielsweise Überlappungen zwischen den
Gruppen 101 und 102 sowie 106 und 107. Ferner ist zu erkennen, dass ein einzelnes NMR-Spektrum eines Speiseöls 104', von dem bekannt ist, dass es der Klassifikationsgruppe 104 zugehört, von der Hauptkomponentenanalyse nicht der Gruppe 104 zugeordnet werden kann.
In Fig. 9 ist das Ergebnis einer weiteren Hauptkomponentenanalyse gezeigt, die auf Grundlage von zu Pseudospektren 14 kombinierten NMR-Spektren 10 und IR-Spektren 12 der gleichen Speiseöle durchgeführt wurde. Es wird deutlich, dass durch die Verwendung der Pseudospektren 14 eine wesentlich
verbesserte Klassifizierung erreicht werden kann. Die Gruppen 101 bis 1 10 sind nun alle deutlich getrennt und alle der Gruppe 104 zugehörigen Öle werden durch den Klassifikator, hier die Hauptkomponentenanalyse, korrekt einem zusammenhängenden Cluster zugeordnet.
Eine weitere Erhöhung der Genauigkeit der Klassifizierung kann durch die Hinzunahme weiterer Messdatensätze erreicht werden. Dies ist in Fig. 10 wieder für eine Probe eines Öls demonstriert. Zusätzlich zu dem bereits gezeigten NMR-Messdatensatz 10 und IR-Messdatensatz 12 wurde hier zusätzlich ein Massenspektrums-Messdatensatz 16 erstellt und in den kombinierten Messdatensatz 14 integriert. Auch hier ist wieder eine Skalierung notwendig. Die weitere Auswertung kann mit den bereits beschriebenen
Methoden erfolgen.
Hierdurch wird insgesamt eine besonders zuverlässige und schnelle
Klassifizierung der Speiseöle ermöglicht, die, wie oben bereits erläutert, selbstverständlich auf beliebige andere Stoffgemische und
Klassifizierungskriterien übertragen werden kann.
Als Beispiel für ein weiteres Stoffgemisch ist in den Figuren 1 1 und 12 die Erstellung kombinierter Messdatensätze 14 für eine Probe eines Honigs demonstriert. Auch hier wurde ein NMR-Messdatensatz 10 und ein IR- Messdatensatz 12 in einen kombinierten Messdatensatz 14 zusammengefasst und, wie Fig. 12 zeigt, gegebenenfalls skaliert. Der wesentliche Unterschied zur Analyse von Speiseölen liegt hier in der Probenvorbereitung. Während für die Aufnahme der NMR-Spektren ein wässriger Extrakt des Honigs verwendet wird, kann für die Aufnahme der IR-Spektren der Honig im festen bzw. pastösen Zustand analysiert werden. Wie anhand der Speiseöle erläutert, kann die so untersuchte Probe dann anhand eines Trainingsdatensatzes von Honigen bekannter Klassifizierung weiter analysiert und klassifiziert werden. Bezugszeichenliste
S10 ... S24 Verfahrensschntte
S1 10 ... S126 Verfahrensschritte nach dem Stand der Technik
10, 10' NMR-Spektren
12, 12', 12" IR-Spektren
14 kombinierter Messdatensatz (Pseudospektrum)
16 Massenspektrum
101 ... 1 10 Gruppe

Claims

Ansprüche
Verfahren zum Klassifizieren eines Stoffgemischs anhand zumindest eines vorgegebenen Klassifizierungskriteriums, mit den Schritten:
a) Aufnehmen eines das Stoffgemisch betreffenden ersten
Messdatensatzes (10) mittels eines ersten Messverfahrens;
b) Aufnehmen zumindest eines das Stoffgemisch betreffenden, unabhängigen weiteren Messdatensatzes (12) mittels eines weiteren Messverfahrens;
c) zumindest teilweises Kombinieren des ersten (10) und des zumindest einen weiteren Messdatensatzes (12) zu einem kombinierten
Messdatensatz (14);
d) Klassifizieren des Stoffgemischs durch Vergleichen des kombinierten Messdatensatzes (14) in seiner Gesamtheit mit einer Datenbank umfassend bekannte kombinierte Messdatensätze für Stoffgemische mit bekannten Klassifikationen.
Verfahren nach Anspruch 1 ,
dadurch gekennzeichnet, d a s s das erste und/oder das zumindest eine weitere Messverfahren ausgewählt sind aus der Gruppe:
- Kernspinresonanzspektroskopie (NMR),
Elektronenspinresonanzspektroskopie (ESR);
- Absorptionsspektroskopie, insbesondere UVA/IS-Spektroskopie, Nahinfrarotspektroskopie, Mittel infrarotspektroskopie, chiroptische Methoden,
- Emissionsspektroskopie, insbesondere Fluoreszenzspektroskopie, Ramanspektroskopie,
- Massenspektrometrie
- Flüssigkeits- oder Gaschromatographie mit spektroskopischer, elektrochemischer, diffraktometrischer oder refraktometrischer Detektion,
- elektrophoretische Trennverfahren.
Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
d a s s das Stoffgemisch vor dem Aufnehmen des ersten (10) und/oder zumindest einen weiteren Messdatensatzes (12) einer
Probenvorbereitung, insbesondere einer Extraktion und/oder Pufferung und/oder Verdünnung und/oder Anreicherung und/oder Separation, unterzogen wird.
Verfahren nach Anspruch 3,
dadurch gekennzeichnet,
d a s s das das Stoffgemisch vor dem Aufnehmen des ersten
Messdatensatzes (10) einer anderen Probenvorbereitung unterzogen wird als vor dem Aufnehmen des zumindest einen weiteren
Messdatensatzes (12). Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet,
d a s s der erste Messdatensatz (10) und der zumindest eine weitere Messdatensatz (12) mit unterschiedlichen Messverfahren aufgenommen werden.
Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet,
d a s s der erste (10) und/oder der wenigstens eine weitere
Messdatensatz (12) vor Schritt c) einer mathematischen Transformation unterzogen wird, insbesondere durch Fourier-Transformation, Glättung,
Differenzierung, Integration, Skalierung, Basislinienkorrektur,
Phasenkorrektur, Null-Füllung, Binning und/oder Bucketing.
Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
d a s s der der erste (10), der wenigstens eine weitere (12) und der kombinierte Messdatensatz (14) jeweils als Menge aus geordneten Paaren von jeweils einer Messgröße und einem zugeordneten Messwert repräsentiert werden.
Verfahren nach einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet,
da ss zum Kombinieren des ersten (10) und zumindest einen weiteren Messdatensatzes (12) jeweils die vollständigen Messdatensätze (10, 12) oder zusammenhängende oder nichtzusammenhängende Teilmengen der jeweiligen Messdatensätze (10, 12) verwendet werden. Verfahren nach einem der Ansprüche 1 bis 8,
dadurch gekennzeichnet,
da ss zum Vergleichen des kombinierten Messdatensatzes (14) mit der Datenbank die in der Datenbank enthaltenen bekannten kombinierten Messdatensätze mittels eines statistischen Verfahrens, insbesondere mittels Hauptkomponentenanalyse (principal component analysis, PCA), Methode der kleinsten Fehlerquadrate (partial least Square regression, PLS), neuronaler Netzwerke, SIMCA-Klassifizierung (soft independent modelling of class analogies), random-forest-Methode und/oder
Stützvektormaschinen (support vector machine, SVM), in Gruppen von bekannten kombinierten Messdatensätzen jeweils gleicher bekannter Klassifikation geordnet werden, und der kombinierte Messdatensatz (14) derjenigen Gruppe zugeordnet wird, zu welcher er den geringsten statistischen Abstand aufweist.
Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
da ss das zumindest eine Klassifizierungskriterium eine geographische Herkunft, eine Reinheit, eine Sortenzugehörigkeit, eine Verarbeitungs-, Lagerungs- und/oder Alterungshistorie, eine genetische,
transkriptomische und/oder proteomische Information und/oder eine medizinische oder veterinärmedizinische Diagnose betrifft.
11. Verfahren nach einem der Ansprüche 1 bis 10,
dadurch gekennzeichnet,
da ss das Stoffgemisch künstlichen oder natürlichen Ursprungs, insbesondere ein Nahrungsmittel, ein Genussmittel, eine Probe menschlichen, tierischen, pflanzlichen oder mikrobiellen Ursprungs oder ein Extrakt davon oder eine Kombination davon ist.
PCT/EP2015/064433 2014-06-25 2015-06-25 Verfahren zum klassifizieren eines stoffgemischs WO2015197781A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102014009154.6 2014-06-25
DE102014009154.6A DE102014009154A1 (de) 2014-06-25 2014-06-25 Verfahren zum Klassifizieren eines Stoffgemischs

Publications (1)

Publication Number Publication Date
WO2015197781A1 true WO2015197781A1 (de) 2015-12-30

Family

ID=53673897

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2015/064433 WO2015197781A1 (de) 2014-06-25 2015-06-25 Verfahren zum klassifizieren eines stoffgemischs

Country Status (2)

Country Link
DE (1) DE102014009154A1 (de)
WO (1) WO2015197781A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017108120A1 (de) * 2017-04-13 2018-10-18 Laser-Laboratorium Göttingen e.V. Analysevorrichtung
DE102021104855A1 (de) 2021-03-01 2022-09-01 Universität Augsburg, Körperschaft des öffentlichen Rechts Materialprüfverfahren und Materialprüfvorrichtung

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291422A (en) * 1992-01-28 1994-03-01 Sgi International Broadband instrument for nondestructive measurement of material properties
WO2001057495A2 (en) * 2000-02-01 2001-08-09 The Government Of The United States Of America As Represented By The Secretary, Department Of Health & Human Services Methods for predicting the biological, chemical, and physical properties of molecules from their spectral properties
DE10108712A1 (de) * 2001-02-23 2002-09-12 Warsteiner Brauerei Haus Crame Verfahren zur analytischen Untersuchung einer Bierprobe
DE102010011936B4 (de) * 2010-03-12 2015-09-24 Technische Universität Braunschweig Verfahren und Einrichtung zur Bestimmung von geometrischen, magnetischen und/oder elektrischen Eigenschaften magnetischer, dielektrischer und/oder elektrisch leitfähiger Partikel in einer Probe

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CAROLINA V. DI ANIBAL ET AL: "1H NMR and UV-visible data fusion for determining Sudan dyes in culinary spices", TALANTA, vol. 84, no. 3, 24 February 2011 (2011-02-24), pages 829 - 833, XP055215751, ISSN: 0039-9140, DOI: 10.1016/j.talanta.2011.02.014 *
CASALE M ET AL: "The potential of coupling information using three analytical techniques for identifying the geographical origin of Liguria extra virgin olive oil", FOOD CHEMISTRY, ELSEVIER LTD, NL, vol. 118, no. 1, 4 May 2009 (2009-05-04), pages 163 - 170, XP026460583, ISSN: 0308-8146, [retrieved on 20090503], DOI: 10.1016/J.FOODCHEM.2009.04.091 *
DE PEINDER P ET AL: "Partial least squares modeling of combined infrared, <1>H NMR and <13>C NMR spectra to predict long residue properties of crude oils", VIBRATIONAL SPECTROSCOPY, ELSEVIER SCIENCE, AMSTERDAM, NL, vol. 51, no. 2, 7 May 2009 (2009-05-07), pages 205 - 212, XP026710059, ISSN: 0924-2031, [retrieved on 20090507], DOI: 10.1016/J.VIBSPEC.2009.04.009 *
KESSLER, W.: "Bio-und Prozessanalytik", 2007, WILEY-VCH VERLAG, article "Multivariate Datenanalyse für die Pharma", pages: 1 - 20
LU XU ET AL: "Automatic Discrimination of the Geographical Origins of Milks by Excitation-Emission Fluorescence Spectrometry and Chemometrics", JOURNAL OF AUTOMATED METHODS AND MANAGEMENT IN CHEMISTRY, vol. 11, no. 1, 2011, pages 137 - 6, XP055215782, ISSN: 1463-9246, DOI: 10.1016/j.csda.2008.05.027 *

Also Published As

Publication number Publication date
DE102014009154A1 (de) 2015-12-31

Similar Documents

Publication Publication Date Title
DE60201684T2 (de) Verfahren zum sortieren von aus einem organischen material bestehenden gegenständen
DE102010038014A1 (de) Verfahren zur Charakterisierung einer Probe und eines Systems
DE10124917B4 (de) Verfahren zur Klassifizierung von Wein und Kaffee
DE60308864T2 (de) Verfahren der Resonanz-Spektroskopie für die Analyse von statistischen Eigenschaften von Proben
EP3159681B1 (de) Verfahren und vorrichtung zur automatisierbaren ermittlung der bestimmungsgrenze und des relativen fehlers bei der quantifizierung der konzentration einer zu untersuchenden substanz in einer messprobe
CH708057A2 (de) Nahinfrarot-Verfahren zur Bestimmung von Inhaltsstoffen der Lotuswurzel.
DE10051806A1 (de) Verfahren zur Charakterisierung, Identifizierung und Kennzeichnung von mikrobiellen Mischungen
DE102018205561A1 (de) Vorrichtung zur Klassifizierung von Signalen
WO2015197781A1 (de) Verfahren zum klassifizieren eines stoffgemischs
DE102013200058B3 (de) Automatisierte Auswertung der Rohdaten eines MR-Spektrums
DE10026195A1 (de) Verfahren und Vorrichtung zum Identifizieren chemischer Substanzen
EP3707496B1 (de) Identifizierung eines oder mehrerer spektraler merkmale in einem spektrum einer probe für eine inhaltsstoffanalyse
WO2023148692A1 (de) Verfahren und vorrichtung zur bestimmung, ob eine ölfrucht, eine nuss, insbesondere eine haselnuss oder ein samen faulig ist
DD229218A5 (de) Verfahren zum kontinuierlichen und automatischen identifizieren, sortieren und zaehlen von teilchen kleiner abmessungen
EP3612835B1 (de) Verfahren zur detektion der ranzigkeit von ölfrüchten, samen und nüssen
EP2635882B1 (de) Verfahren zur bestimmung von chemischen bestandteilen von festen oder flüssigen stoffen mithilfe von thz-spektroskopie
DE102008039836B4 (de) Vorrichtung und Verfahren zur Bestimmung des Säuregehalts
DE102014012367B3 (de) Verfahren zum Bestimmen der Konzentration von Glucoraphanin und/oder von Sulforaphan in einer Pflanze
DE102011116839A1 (de) Verfahren zur Ermittlung von Qualitätsmerkmalen in Honig mittels magnetischer Kernresonanz Spektroskopie
DE102020002256A1 (de) Prozesssteuerung/-regelung auf Basis einer spektroskopischen Bestimmung unbestimmter Substanzkonzentrationen
DE102007019790B4 (de) Verfahren und Vorrichtung zur Charakterisierung einer Pflanzenprobe
WO2024110291A1 (de) Bestimmung der stabilität eines stoffs oder stoffgemischs
DE10119641C1 (de) Verfahren und Vorrichtung zur automatischen Bestimmung von Kenngrößen aus Einzelspektren eines Spektrenkollektivs und Spektrometer
EP1687756B9 (de) Verfahren zur klassifikation von messwerten in der medizinischen und biochemischen analytik
DE4409211A1 (de) Verfahren zum Verarbeiten von Densitogrammen elektrophoretischer Bilder

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15738852

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15738852

Country of ref document: EP

Kind code of ref document: A1