WO2006134011A1 - Verfahren zur rechnergestützten verarbeitung von digitalen daten - Google Patents

Verfahren zur rechnergestützten verarbeitung von digitalen daten Download PDF

Info

Publication number
WO2006134011A1
WO2006134011A1 PCT/EP2006/062351 EP2006062351W WO2006134011A1 WO 2006134011 A1 WO2006134011 A1 WO 2006134011A1 EP 2006062351 W EP2006062351 W EP 2006062351W WO 2006134011 A1 WO2006134011 A1 WO 2006134011A1
Authority
WO
WIPO (PCT)
Prior art keywords
vectors
digital data
projection
projected
feature
Prior art date
Application number
PCT/EP2006/062351
Other languages
English (en)
French (fr)
Inventor
Kai Yu
Shipeng Yu
Volker Tresp
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2006134011A1 publication Critical patent/WO2006134011A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Definitions

  • the invention relates to a method for computer-aided processing of digital data, which is used in particular for use in a method for machine learning.
  • Machine learning methods are typically trained with training data ⁇ comprising the characte by feature vectors ⁇ linearized objects, which are in turn associated output vectors.
  • a trained method can then predict output vectors of new objects or missing data entries in output vectors of known objects.
  • the feature vectors of the objects are usually in a pre-projected into a new space, the compact, noise-free and should be informative ⁇ strong.
  • This space is referred to below as a latent vector space.
  • methods by which such a projection is performed are the PCA (Principal Component Analysis) method, the LDA (Linear Discriminant Analysis) method, the CCA
  • CCA Canonical Correlation Analysis
  • PLS Partial Least Squares
  • a projection is calculated as a latent vector space, which depends a reconstruction ⁇ error measure optimized by the difference between the output vectors and the output vectors projected by the projection and then reconstructed.
  • the method uses the calculated projection, the method then projects feature vectors of known and / or new objects into the latent vector space, which takes into account the dependencies of the output vectors. As tests have shown Kings ⁇ thereby nen predictions are achieved with very high accuracy.
  • the reconstruction error measure for calculating the projection takes into account not only the difference between the output vectors and the projection vectors projected and subsequently reconstructed output vectors, but also the difference between the feature vectors and the feature vectors projected with the projection and subsequently reconstructed.
  • the dimension of the latent vector space is smaller than the dimension of the vector space of the feature vectors and / or the number of objects.
  • V r V I (I is the unit matrix) ;
  • X 1 is the ith feature vector of dimension M
  • V 1 is the ith output vector of dimension L
  • A, B are the charge matrices for X and Y, respectively;
  • N is the number of objects
  • K is the dimension of the latent vector space
  • this optimization problem is converted into the following optimization problem:
  • vi to v ⁇ are the eigenvectors of K with corresponding eigenvalues sorted in descending order, the optimization being recursive for each v- by maximizing the expression v r Kv with the constraint 1 and v -L SPaWJv 1 , > v 7 -il is solved.
  • an imaging function is used for the projection, which contains the digital data entries of the feature vectors as variables, these variables being projected into the latent vector space by the mapping function.
  • the mapping function can be as follows or depend on the following expression:
  • W 1 , ...., w ⁇ e9 ⁇ M are the eigenvectors with the largest K eigenvalues ⁇ i ⁇ > ⁇ ⁇ of the following eigenvalue problem:
  • mapping function can be defined via kernel functions that are well known in machine learning.
  • the mapping function is then or depends on the following expression:
  • Al s kernel functions can be: B. Gaussian RBF kernels are used, which are defined as follows:
  • the mapping function can be a linear or a non-linear mapping of the feature vectors.
  • the inventive method can be applied, if necessary, also on the feature vectors ⁇ , which are each assigned a plurality of types of output vectors.
  • the reconstruction error measure takes into account the difference between the output vectors and the projection-projected and then reconstructed output vectors of each type of output vectors.
  • the method according to the invention is preferably used in a method for machine learning, in which: i) the feature vectors are projected into a latent vector space with the method according to the invention; ii) a machine learning method is trained on the basis of the projected feature vectors determined in step i), in order subsequently to determine predictions via output vectors of known and / or new objects.
  • the machine learning process is preferably based on Sup ⁇ port vector machines and used in particular for pattern recognition and / or data extraction, especially for the extraction of categories of data in the objects.
  • a further application of the inventive method is its USAGE ⁇ dung in a method of collaborative filtering (engl. "Collaborative filtering"). In this method well known in the art, the rating of a known object by a user is predicted based on reviews from other users.
  • the invention also includes a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention when the program product runs on a computer.
  • Fig. 2 shows the sequence of another embodiment form of the method according to the invention.
  • Fig. 3 is diagrams illustrating the prediction of a quality ma ⁇ ski tional learning method using the method according to the invention, the learning procedure is used to predict user preferences show;
  • Fig. 4 diagrams a ma ⁇ ski tional learning method, show the prediction quality using the ER inventive method wherein the learning process is used for the prediction of categories of documents and images.
  • each object i is described by a M-dimensional feature vector X 1 e9 ⁇ M , where each
  • Feature vector an L-dimensional output vector y ; e $ R L is assigned.
  • the methods described below are used to solve prediction problems in which, for known or new objects, their corresponding output vectors are to be predicted.
  • the methods of the invention are in this case used as a preprocessing step in which the feature ⁇ vectors first into a latent K-dimensional vector cavities are projected, said vector space a Hilfsvek- is the goal area, whose dimension than that is preferably smaller of the vector space of the feature vectors.
  • the data projected into the latent vector space can be called Training data of a machine learning method are used and finally can be made with the trained method predictions.
  • Embodiments of the invention described below have in common that they perform a so-called supervised projection into the latent vector space, wherein the data entries of the output vectors are taken into account in a monitored projection.
  • Demge ⁇ genüber is the PCA algorithm PCA (Principal Component Analysis), only ei ⁇ ne called.
  • Unsupervised projection are performed (unsupervised projection), considered in only the data entries of Merkmalsvekto- reindeer with known projection method, for example.
  • the reconstruction error is defined such that it deviation from the ⁇ takes into account the projected reconstructed output vectors from the original output vectors.
  • V 7 V I, where V e $ ⁇ NxK the K-dimensional projections of both the feature vectors Xe9? WxM and the output vectors Y e3H NxL and Ae9 ⁇ ⁇ xM , Be9 ⁇ xL are the charge matrices . 0 ⁇ /? ⁇ L is an adjustment parameter that determines how much the projections should be affected by the output vectors.
  • V [v 1 , ...., v ⁇ ,] R, where R is any K x K orthogonal rotation matrix;
  • problem (3) provides only the eigenvector V 1 of K.
  • the full optimization ⁇ problem is solved by recursive calculation of V maxi by the expression v mieren Kv with the restriction and V-Lsp ⁇ nlV j , > v 7 -i ⁇ solved.
  • the equation (3) was called sim- plicity's sake from club ⁇ and because you Lagrangian mechanics di- rectly leads to the eigenvalue problem.
  • the solution of the problem (3) using the eigenvalue determination of K represents an embodiment of the invention, which can always be used when predicting data entries of the corresponding output vector as a function of data entries of output vectors of other known objects for known objects.
  • Such a problem is also solved in the collaborative filtering ("Collaborative Filtering").
  • a linear mapping function ⁇ (x) for the vector space projection is used
  • Feature vectors are used in the latent vector space, where x represents a feature vector with the data entries as variables.
  • V XW
  • the learned maps may be unstable when due to a small number of objects or a dependence of the data entries of the feature vectors a lower ⁇ ren rank as 9 ⁇ M has.
  • changes of interference with any w w * _L span ⁇ x ⁇ , ..., x N ⁇ ⁇ not optimization function according to equation (6), as (w + w *) r x, r w x, ,
  • this disturbance can have a significant influence on the projections of feature vectors outside of sp ⁇ n ⁇ x lv .., x ⁇ .
  • the Sta ⁇ bility to improve is limited w.
  • Theorem 3 proves that the regularization term
  • Figure 1 shows a summary of the sequence of just beschrie ⁇ surrounded method in which the projection in the latent vector space using a mapping function is performed, which is a linear mapping of the feature vectors.
  • Xe9? WxM and Ye SR ⁇ 1 are the dimension K of the latent vector space and a value for ⁇ (which is greater than 0 and less than or equal to 1) and a value for ⁇ (which is greater than or equal to 0).
  • step S3 the following generalized eigenvalue problem is solved:
  • step S4 the projection function in the latent vector space is then determined in step S4 as follows:
  • can be calculated with the kernel matrix as follows:
  • the matrix K can thus be defined using kernels:
  • the first K eigenvectors are used to generate the mapping functions.
  • O 1 , ..., ⁇ are the K eigenvectors with the largest eigenvalues A 1 ⁇ ...> ⁇ ⁇ .
  • the nonlinear mapping ⁇ x e9 ⁇ M -> ⁇ ⁇ x) eF is defined, which maps a feature vector x into a high-dimensional or even infinite-dimensional vector space F.
  • the matrix X is chosen as [ ⁇ (X 1 ), ..., ⁇ (x N )] ⁇ .
  • the kernel function is defined as:
  • the ned in claim 10 defi ⁇ Gaussian RBF kernel may be used.
  • a kernel matrix K y for the vector space of the output vectors can analogously to K 1 by a non-linear mapping ⁇ ⁇ -) de ⁇ finiert.
  • Figure 2 shows a summary of kernel functions carried out the sequence of just beschrie ⁇ surrounded method in which the projection in the latent vector space by using, in particular to allow a non-linear mapping of the feature vectors in the latent vector space.
  • step Sl 1 for given feature vectors and output vectors XeS ⁇ and YeS ⁇ * 1, the dimension K of the latent vector space and a value for ⁇ (which is greater than 0 and less than or equal to 1) and a value for ⁇ (the greater than or equal to 0).
  • step S2 ' the kernel matrices (K) become. , and x ⁇ , J
  • step S3 the following generalized eigenvalue problem is solved:
  • step S4 the projection function in the latent vector space is then determined in step S4 'as follows:
  • MORP Multi-Output Regularized Projection
  • the first example concerns an experiment for predicting the preferences of users.
  • paintings were considered, each painting being characterized by a 491-dimensional feature vector.
  • the feature vectors each comprise a color histogram (216-dimensional), a correlogram (256-dimensional), first and second color moments (9-dimensional) and a pyramid wavelet structure (10-dimensional).
  • the ratings of a total of 190 users for 642 paintings were collected.
  • Each user could choose between the two appraisals "Fallen” and "Not Fallen” for a number of randomly selected paintings.
  • the assessments 190 of each user thus represent the data items of output vectors, each Ausga ⁇ bevektor a feature vector (ie painting) is assigned.
  • each user judged 89 paintings so that data entries in the output vectors are missing. It is therefore a typical classification problem with multiple editions, since a large number of user assessments must be predicted for each painting.
  • a machine learning method based on support vector machines was used, wherein in a preprocessing step by means of the MORP method the 491-dimensional feature vectors were projected into a 20-dimensional latent vector space.
  • SVM support vector machines
  • an embodiment of the MORP method was used, which has an RBF kernel function for K and a linear kernel x
  • MORP and CCA techniques were used to compute the projection of the 190-dimensional output vectors, with missing entries padded with zeros.
  • the first metric used to assess the predictive quality was the so-called Top-N-Accuracy, which represents the ratio of the paintings actually rated in the category "Fallen” to the N best-rated paintings the proportion of known paintings counted in the category "Favor” was counted. This size is smaller than the actual top N accuracy.
  • the zumer ⁇ celled selection does not change the behavior of the considered process.
  • the second metric is the so-called.
  • ROC curves are set in in depen ⁇ pending on a specified classification criterion is whether a painting is considered to be good or bad (this criterion to can about how many of the rated best picture category).
  • the sensitivity ie that a good painting is recommended by the system
  • (1-specificity) is plotted against (1-specificity), where the specificity reflects the likelihood that a bad painting will be rejected by the system Area under the ROC curve, the better the quality of the algorithm.
  • Fig. 3 shows in the left diagram the comparison of the top N accuracies of the MORP method and the o.g. Conciliation. It can be seen that the MORP method provides much better accuracies than the other methods.
  • the right diagram shows the ROC curves for the MORP method and the o.g. Conciliation. Again, it can be seen that the MORP algorithm gives the best results since its area is the largest under the ROC curve.
  • the second example concerns the classification of objects using two object records.
  • the first dataset concerns documents from the Reuters text collection.
  • the second record relates to images from the Corel Image database, which is also known to those skilled in the art.
  • the images were manually assigned categories.
  • the SVM learning method was combined with the MORP method as well as with comparison methods (kernel PCA and the method with the original feature vectors).
  • the objects that is, the documents or images
  • Sl S2 the Whether ⁇ projects in S2 in the calculation of the projection in MORP- method were not used.
  • FIG. 4 shows four diagrams which reproduce the accuracies of the classifications predicted by the method as a function of the number of training data.
  • the upper two diagrams relating to the results for the Reuters documents and the lower diagrams show the Resul ⁇ tate for Corel image database.
  • the two left-hand diagrams relate to the data group S1 and the right-hand diagrams relate to the data group S2. It can be seen that the MORP method in many cases provides better results than the other methods, in particular for the images of the Corel Image database.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (Xi) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (Xi) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (Yi) mit digitalen Dateneinträgen zugeordnet ist, bei dem: a) eine Projektion berechnet wird, mit der die Merkmalsvektoren (Xi) und die Ausgabevektoren (Yi) in einen latenten Vektorraum projiziert werden, wobei die Projektion ein Rekonstruktionsfehlermaß optimiert, welches von dem Unterschied zwischen den Ausgabevektoren (Yi) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt; b) mit der in Schritt a) berechneten Projektion Merkmalsvektoren (Xi) in den latenten Vektorraum projiziert werden, wodurch modifizierte digitale Daten erhalten werden.

Description

Beschreibung
Verfahren zur rechnergestützten Verarbeitung von digitalen Daten
Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, welches insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen dient.
Auf dem Gebiet der Informationstechnologie gibt es eine Viel¬ zahl von Verfahren zum maschinellen Lernen, mit denen rechnergestützt ein System aus Objekten, welche in der Form von digitalen Daten vorliegen, verarbeitet wird, um hierdurch Gesetzmäßigkeiten in den Objekten zu erkennen, so dass auch die Eigenschaften neuer Objekte in dem System beurteilt werden können. Ein typischer Anwendungsbereich des maschinellen Lernens ist die Mustererkennung in digitalen Daten, beispielsweise die Extraktion von Merkmalen aus digitalisierten Dokumenten oder Bildern.
Maschinelle Lernverfahren werden üblicherweise mit Trainings¬ daten trainiert, welche die durch Merkmalsvektoren charakte¬ risierten Objekte umfassen, denen wiederum Ausgabevektoren zugeordnet sind. Ein trainiertes Verfahren kann dann Ausgabe- vektoren von neuen Objekten oder fehlende Dateneinträge in Ausgabevektoren von bekannten Objekten vorhersagen.
In maschinellen Lernverfahren werden meist in einem Vorverarbeitungsschritt die Merkmalsvektoren der Objekte in einen neuen Raum projiziert, der kompakt, rauschfrei und aussage¬ kräftig sein sollte. Dieser Raum wird im folgenden als latenter Vektorraum bezeichnet. Beispiele von Verfahren, mit denen eine solche Projektion durchgeführt wird, sind das PCA- Verfahren (PCA = Principal Component Analysis), das LDA- Verfahren (LDA = Linear Discriminant Analysis), das CCA-
Verfahren (CCA = Canonical Correlation Analysis) und das PLS- Verfahren (PLS = Partial Least Squares) . Aufgabe der Erfindung ist es, ein verbessertes Projektions¬ verfahren für die Merkmalsvektoren von Objekten zu schaffen, welches eine höhere Genauigkeit bei der Vorhersage von Ob¬ jekteigenschaften ermöglicht.
Diese Aufgabe wird durch die unabhängigen Patentansprüche ge¬ löst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
In dem erfindungsgemäßen Verfahren wird eine Projektion in einen latenten Vektorraum berechnet, die ein Rekonstruktions¬ fehlermaß optimiert, das von dem Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt. Mithil- fe der berechneten Projektion projiziert das Verfahrnen anschließend Merkmalsvektoren von bekannten und/oder neuen Objekten in den latenten Vektorraum, der die Abhängigkeiten der Ausgabevektoren berücksichtigt. Wie Tests gezeigt haben, kön¬ nen hierdurch Vorhersagen mit sehr hoher Genauigkeit erreicht werden.
In einer bevorzugten Ausführungsform berücksichtigt das Rekonstruktionsfehlermaß zur Berechnung der Projektion nicht nur den Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren, sondern auch den Unterschied zwischen den Merkmalsvektoren und den mit der Projektion projizierten und anschließend rekonstruierten Merkmalsvektoren.
Vorzugsweise ist in dem erfindungsgemäßen Verfahren die Dimension des latenten Vektorraums kleiner als die Dimension des Vektorraums der Merkmalsvektoren und/oder die Anzahl von Objekten.
In einer weiteren bevorzugten Variante der Erfindung wird zur Berechnung der Projektion folgendes Optimierungsproblem gelöst: min (1-£)|X-VA|2+£||Y-VB|2
A,B,V
wobei V e 9Tx\ Xε rM , A ε 5RM , Y e ^ ,
BerxL
wobei VrV = I (I ist die Einheitsmatrix) ;
wobei
Figure imgf000004_0001
] ;
wobei X1 der i-te Merkmalsvektor mit der Dimension M ist;
wobei Y = [yx; ;yw] •
wobei V1 der i-te Ausgabevektor mit der Dimension L ist;
wobei A, B die Ladungsmatrizen für X bzw. Y sind;
wobei N die Anzahl an Objekten ist;
wobei K die Dimension des latenten Vektorraums ist; und
wobei ß eine positive reelle Zahl kleiner oder gleich 1 ist, insbesondere /? = 0,5 oder /? = 0,96 oder /? = 1.
Dieses Optimierungsproblem wird in einer weiteren Variante der Erfindung in folgendes Optimierungsproblem umgewandelt:
max vrKv
wobei V V = I,
wobei K=(I-ß)XXT +J3YYT ,
wobei die Lösung dieser Optimierung gegeben ist durch V=[V1,...^], A=V7X, B=V7Y
wobei vi bis vκ die Eigenvektoren von K mit entsprechenden, in absteigender Reihenfolge sortierten Eigenwerten sind, wobei die Optimierung rekursiv für jedes v-, durch Maximieren des Ausdrucks vrKv mit der Einschränkung
Figure imgf000005_0001
1 und v -L SPaWJv1, > v 7-il gelöst wird.
Um die Ausgabevektoren von neuen, im System noch unbekannten Objekten vorherzusagen, wird in einer bevorzugten Ausführungsform der Erfindung für die Projektion eine Abbildungsfunktion verwendet, welche die digitalen Dateneinträge der Merkmalsvektoren als Variablen enthält, wobei diese Variablen durch die Abbildungsfunktion in den latenten Vektorraum projiziert werden. Die Abbildungsfunktion kann wie folgt lauten oder von folgendem Ausdruck abhängen:
Figure imgf000005_0002
wobei W1,....,wλ e9ϊM die Eigenvektoren mit den größten K Eigenwerten λi≥ > λκ des folgenden Eigenwertproblems sind:
XrXw = A[X7K-1X + ;I]w
wobei K = (l-/?)XXr +/?YYrund γ > 0, insbesondere γ = 1, gilt.
Alternativ kann die Abbildungsfunktion über Kernel-Funktionen definiert werden, die im Bereich des maschinellen Lernens hinlänglich bekannt sind. Die Abbildungsfunktion lautet dann bzw. hängt dann von folgendem Ausdruck ab:
J=1,...,K
Figure imgf000005_0003
wobei gilt (K )..=k (x.,X .) und (K ).. =k (y.,V .) ;
wobei (K ). . eine N x N Kernel-Matrix für eine Kernel- x ι,J
Funktion k (x.,X .) ist und (K ). . eine N x N Kernel-Matrix x i J y ij für eine Kernel-Funktion k (y.,y •) ist;
wobei K = (I-^)Kx-HyOK
wobei 0[,....,O1 eSR die Eigenvektoren mit den größten K Eigenwerten λi > > λκ des folgenden Eigenwertproblem sind:
K X 2α = ;t[K X K-1K X +γ1KX ]α
wobei γ > 0 , insbes ondere γ = 1 , gilt .
Al s Kernel-Funktionen können z . B . Gauß s che RBF-Kernel s verwendet werden , wel che wie folgt definiert s ind :
Figure imgf000006_0001
Die Abbildungsfunktion kann eine lineare oder eine nichtlineare Abbildung der Merkmalsvektoren sein.
Das erfindungsgemäße Verfahren kann ggf. auch auf Merkmals¬ vektoren angewandt werden, denen jeweils mehrere Typen von Ausgabevektoren zugeordnet sind. In diesem Fall berücksichtigt das Rekonstruktionsfehlermaß den Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren von jedem Typ von Ausgabevektoren. Das erfindungsgemäße Verfahren wird vorzugsweise in einem Verfahren zum maschinellen Lernen eingesetzt, bei dem: i) mit dem erfindungsgemäßen Verfahren die Merkmalsvektoren in einen latenten Vektorraum projiziert werden; ii) auf der Basis der in Schritt i) ermittelten projizierten Merkmalsvektoren ein maschinelles Lernverfahren trainiert wird, um anschließend Vorhersagen über Ausgabevektoren von bekannten und/oder neuen Objekten zu ermit- teln.
Das maschinelle Lernverfahren basiert vorzugsweise auf Sup¬ port-Vektor-Maschinen und dient insbesondere zur Mustererkennung und/oder Datenextraktion, insbesondere zur Extraktion von Datenkategorien, in den Objekten. Ein weiterer Anwendungsfall des erfindungsgemäßen Verfahrens ist seine Verwen¬ dung in einem Verfahren zum kollaborativen Filtern (engl. "Collaborative Filtering") . Bei diesem hinlänglich aus dem Stand der Technik bekannten Verfahren wird die Bewertung ei- nes bekannten Objekts durch einen Benutzer auf der Basis von Bewertungen von anderen Nutzern vorhergesagt.
Neben den erfindungsgemäßen Verfahren umfasst die Erfindung auch ein Computerprogrammprodukt mit einem auf einem maschi- nenlesbaren Träger gespeicherten Programmcode zur Durchführung der erfindungsgemäßen Verfahren, wenn das Programmprodukt auf einem Rechner abläuft.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren erläutert.
Es zeigen:
Fig. 1 den Ablauf einer Ausführungsform des erfindungsge- mäßen Verfahrens;
Fig. 2 den Ablauf einer anderen Ausführungs form des erfindungsgemäßen Verfahrens. Fig. 3 Diagramme, welche die Vorhersagequalität eines ma¬ schinellen Lernverfahrens unter Verwendung des erfindungsgemäßen Verfahrens zeigen, wobei das Lern- verfahren zur Vorhersage von Benutzerpräferenzen verwendet wird; und
Fig. 4 Diagramme, welche die Vorhersagequalität eines ma¬ schinellen Lernverfahrens unter Verwendung des er- findungsgemäßen Verfahrens zeigen, wobei das Lernverfahren zur Vorhersage von Kategorien von Dokumenten und Bildern verwendet wird.
Bevor auf die detaillierte Beschreibung von bevorzugten Aus- führungs formen eingegangen wird, werden zunächst folgende Notationen festgelegt, die für die nachfolgende Beschreibung und auch für die Ansprüche gültig sind:
Es werden digitale Daten betrachtet, die N Objekte umfassen. Für i=l, ,N wird jedes Objekt i durch einen M- dimensionalen Merkmalsvektor X1 e9ϊM beschrieben, wobei jedem
Merkmalsvektor ein L-dimensionaler Ausgabevektor y; e$RL zugeordnet ist. Die digitalen Dateneinträge der Merkmalsvektoren werden als Matrix X = [X1; ;xw]r e9*WxM dargestellt und die di- gitalen Dateneinträge der Ausgabevektoren werden als Matrix Y = Ey1; ',yNf e$lNxL dargestellt, wobei [-]r das Transponierte der Matrix darstellt.
Die nachfolgend beschriebenen Verfahren werden zur Lösung von Vorhersage-Problemen verwendet, bei denen für bekannte oder neue Objekte deren entsprechende Ausgabevektoren vorhergesagt werden sollen. Die erfindungsgemäßen Verfahren werden hierbei als Vorverarbeitungsschritt eingesetzt, in dem die Merkmals¬ vektoren zunächst in einen latenten K-dimensionalen Vektor- räum projiziert werden, wobei dieser Vektorraum ein Hilfsvek- torraum ist, dessen Dimension vorzugsweise kleiner als die des Vektorraums der Merkmalsvektoren ist. Nach der Projektion können die in den latenten Vektorraum projizierten Daten als Trainingsdaten eines maschinellen Lernverfahrens eingesetzt werden und schließlich können mit dem trainierten Verfahren Vorhersagen getroffen werden.
Im folgenden bezeichnen fettgedruckte kleine lateinische
Buchstaben Spaltenvektoren und fettgedruckte große lateinische Buchstaben bezeichnen Matrizen. Der Ausdruck ||| bezeichnet die Frobeniusnorm für Matrizen und die 2-Norm für Vektoren. Ferner bezeichnet 7V[-] die Spur für Matrizen.
Die im folgenden beschriebenen Ausführungsformen der Erfindung haben gemeinsam, dass sie eine sogenannte überwachte Projektion (supervised projection) in den latenten Vektorraum durchführen, wobei bei einer überwachten Projektion die Da- teneinträge der Ausgabevektoren berücksichtigt werden. Demge¬ genüber wird bei bekannten Projektionsverfahren, wie z.B. dem PCA-Algorithmus (PCA = Principal Component Analysis), nur ei¬ ne sog. unüberwachte Projektion durchgeführt (unsupervised projection) , bei der nur die Dateneinträge der Merkmalsvekto- ren berücksichtigt werden.
Zur Durchführung der überwachten Projektion wird in allen Ausführungsformen des erfindungsgemäßen Verfahrens eine Optimierung des Rekonstruktionsfehlers durchgeführt, wobei der Rekonstruktionsfehler derart definiert ist, dass er die Ab¬ weichung der rekonstruierten projizierten Ausgabevektoren von den ursprünglichen Ausgabevektoren berücksichtigt.
Mathematisch lässt sich das durch die nachfolgend beschriebe- nen Ausführungsformen gelöste Optimierungsproblem wie folgt formulieren:
min (1-/?)|X-VA|2+/?|Y-VB|2 (D
A,B,V
mit V7V = I, wobei V e ${NxK die K-dimensionalen Projektionen sowohl der Merkmalsvektoren Xe9?WxMals auch der Ausgabevektoren Y e3HNxL darstellen und Ae9ϊ^xM, Be9?^xL die Ladungsmatrizen sind. 0</?<l ist ein Einstellparameter, der bestimmt, wie stark die Projektionen durch die Ausgabevektoren beeinflusst werden sollen. Durch die Bedingung V TV = I wird sichergestellt, dass die Variablen im latenten Vektorraum linear unabhängig sind.
Zur Berechnung des obigen Optimierungsproblems (1) macht man sich folgenden Satz 1 zunutze, der von den Erfindern bewiesen wurde :
Satz 1: Falls V, A und B die optimalen Lösungen des Opti- mmiieerruungsproblems (1) sind und falls K = (1 - /?)XX + ßVY , dann gilt:
Figure imgf000010_0001
(ii) Beim Optimum entspricht die Optimierungs funktion gemäß Gleichung (1) Tr[K]-Tr[V71KV].
Da der Ausdruck Tr[K] fest ist, kann gemäß Satz 1 das Optimierungsproblem laut (1) als ein Optimierungsproblem nur in Bezug auf V betrachtet werden:
max Tr[V7KV] ( 2 :
wobei V7V = I.
Aus den Gleichungen (1) und (2) ergibt sich die Unbestimmt¬ heit, dass, falls V eine Lösung ist, auch V = VR eine Lö¬ sung ist, wobei R eine beliebige Rotationsmatrix ist. Der folgende Satz 2, der von den Erfindern bewiesen wurde, trägt diesem Umstand Rechnung: Satz 2: Es wird angenommen, dass [V1,...., YN] die Eigenvektoren der Matrix K sind und λi > > λN die entsprechenden Eigenwerte. Falls V die Gleichung (2) löst, gilt:
(i) V = [v1,....,vΛ,]R , wobei R eine beliebige K x K orthogonale Rotationsmatrix ist;
(ii) Das Maximum der Optimierungsfunktion gemäß Gleichung (2)
Figure imgf000011_0001
Dieser Satz sagt aus, dass die Eigenvektoren von K eine Lösung des Optimierungsproblems (1) darstellen und jede belie¬ bige Rotation das Optimum nicht verändert. Um die o. g. Unbe¬ stimmtheit zu entfernern, werden Lösungen betrachtet, welche den Eigenvektoren von K entsprechen, d. h.
Figure imgf000011_0002
.
Deshalb kann das Optimierungsproblem gemäß Gleichung (1) auch wie folgt formuliert werden:
maχVrKv (3)
wobei V7V = 1.
Es sei hierbei angemerkt, das die Lösung des Problems (3) nur den Eigenvektor V1 von K liefert. Das volle Optimierungs¬ problem wird durch rekursive Berechnung von v durch Maxi- mieren des Ausdrucks v Kv mit der Einschränkung
Figure imgf000011_0003
und V-LspαnlVj, > v 7-i} gelöst. Die Gleichung (3) wurde aus Verein¬ fachungsgründen genannt und weil ihr Lagrange-Formalismus di- rekt zu dem Eigenwertproblem führt.
Indem die Lagrange-Ableitung auf Null gesetzt wird, erhält man das Eigenwertproblem KV = λv . Es wird angenommen, dass V1, ,YN die Eigenvektoren von K mit in absteigender Reihen- folge sortierten Eigenwerten sind. Unter der Verwendung der ersten K Eigenvektoren wird das Optimierungsproblem (1) ge- löst durch:
V = [V1,....,vj, A = VrX und B = VrY .
Die Lösung des Problems (3) mithilfe der Eigenwertbestimmung von K stellt eine Ausführungsform der Erfindung dar, welche immer dann eingesetzt werden kann, wenn für bekannte Objekte Vorhersagen über Dateneinträge des entsprechenden Ausgabevektors in Abhängigkeit von Dateneinträgen von Ausgabevektoren von anderen bekannten Objekten getroffen werden sollen. Ein derartige Problemstellung wird auch bei dem kollaborativen Filtern (engl. "Collaborative Filtering") gelöst.
Um die vorliegende Erfindung auch zur Vorhersage von Ausgabe- vektoren von neuen Objekten zu verwenden, wird gemäß einer bevorzugten Ausführungsform der Erfindung eine lineare Abbildungsfunktion Ψ(x) für die Projektion vom Vektorraum der
Merkmalsvektoren in den latenten Vektorraum verwendet, wobei x einen Merkmalsvektor mit den Dateneinträgen als Variablen darstellt.
Es wird hierbei folgende lineare Abbildung definiert:
V=XW
Somit gilt v, = Xw, für i=l, .... , K mit W = [W1,...,wj e9ϊMx* . Durch Einsetzen von V = Xw in Gleichung (3) erhält man folgendes Optimierungsproblem für w :
max w ^X7KXw we9lM
wobei wrXrXw=l
Indem die Ableitung des Lagrange-Formalismus in Bezug auf w auf Null gesetzt wird, erhält man folgendes verallgemeinertes Eigenwertproblern: XτKXw =λXτXw (5)
Hierdurch werden M verallgemeinerte Eigenvektoren W1,...,wM sowie die Eigenwerte λi≥ >. λM ermittelt . Die ersten K Ei¬ genvektoren werden zur Bildung der folgenden Abbildungsfunk- tion verwendet:
Figure imgf000013_0001
Somit erhält man als Ergebnis ψ(x) = [^1(x), ,ψΛx)] T , wo¬ durch x in den K-dimensionalen latenten Vektorraum abgebildet wird.
Jedoch können - ähnlich wie bei anderen linearen Systemen - die gelernten Abbildungen instabil sein, wenn
Figure imgf000013_0002
aufgrund einer geringen Anzahl von Objekten oder einer Abhängigkeit der Dateneinträge der Merkmalsvektoren einen geringe¬ ren Rang als 9ΪM aufweist. Folglich ändert eine Störung von w mit einem beliebigen w* _L span{xλ,...,xN} nicht die Optimierungs¬ funktion gemäß Gleichung (6), da (w + w*)rx, =wrx, . Jedoch kann diese Störung erheblichen Einfluss auf die Projektionen von Merkmalsvektoren außerhalb von spαn{xlv..,x^} haben. Um die Sta¬ bilität zu verbessern, wird w beschränkt.
Unter der Annahme, dass rang (K) = N, ist die Gleichung (3) äquivalent zur Minimierung des Ausdrucks V7K-1V. Durch Ein¬ führung der aus dem Stand der Technik bekannten Tikhonov- Regularisierung in das Problem gemäß Gleichung (4) erhält man:
min W7X7K-1Xw -H zIwI2 ( 7 )
mit wrXrXw = 1 . Hierbei ist |w| = wrw ein Strafterm, der in der aus dem Stand der Technik bekannten Ridge-Regression verwendet wurde, und γ ist ein Einstellparameter.
Das entsprechende verallgemeinerte Eigenwertproblem lautet dann wie folgt:
-
Figure imgf000014_0001
= λ ΪXΛTTι Xw ( 8 )
Hierdurch erhält man verallgemeinerte Eigenvektoren W1,..., wM mit Eigenwerten λι≤...≤λM. Diese Eigenwerte sind in aufstei¬ gender Reihenfolge sortiert, da für die Abbildungsfunktion die K Eigenvektoren mit den kleinsten Eigenwerten verwendet werden.
Der folgende, von den Erfindern bewiesene Satz 3 zeigt, dass der Regularisierungsterm |w| die Unbestimmtheit der Abbil¬ dungsfunktionen entfernt, indem w auf den Raum spa«{x1;...,xw} eingeschränkt wird und hierdurch die Stabilität der Abbil- dungsfunktionen verbessert wird.
Satz 3: Falls w ein Eigenvektor des verallgemeinerten Eigenwertproblems gemäß Gleichung (8) ist, muss w eine Linearkom¬ bination aus X1, i= l,....i\7, sein, nämlich:
Figure imgf000014_0002
wobei a≡^{N .
In dem Problem (8) wird nach Eigenvektoren mit den kleinsten Eigenwerten gesucht, wobei deren Berechnung der instabilste Teil der Lösung des Eigenwertproblems ist. Deshalb wird das Problem (8) in folgendes Problem umformuliert, wobei λ=\lλ:
X7XW=A[X1 K-1X+^]W (9) Es wird somit nach den K Eigenvektoren mit den größten Eigenwerten gesucht.
Figur 1 zeigt zusammenfassend den Ablauf des soeben beschrie¬ benen Verfahrens, bei dem die Projektion in den latenten Vektorraum mithilfe einer Abbildungsfunktion erfolgt, welche eine lineare Abbildung der Merkmalsvektoren ist.
Zunächst wird in Schritt Sl für vorgegebene Merkmalsvektoren und Ausgabevektoren Xe9?WxM und Ye SR^1 die Dimension K des latenten Vektorraums sowie ein Wert für ß (der größer als 0 und kleiner bzw. gleich 1 ist) sowie ein Wert für γ (der größer bzw. gleich 0 ist) festgelegt.
In Schritt S2 wird dann die Matrix K wie folgt berechnet: K = (l-/?)XXr+/?YYr
Schließlich wird im Schritt S3 folgendes verallgemeinerte Ei- genwertproblem gelöst:
XrXw=^[X7K-1X+^]w
Hierdurch werden Eigenvektoren W1,...,Wx mit den größten K Ei- genwerten \≥ ...≥ λκ erhalten.
Hieraus wird dann im Schritt S4 die Projektionsfunktion in den latenten Vektorraum wie folgt ermittelt:
Figure imgf000015_0001
Im Vorangegangenen wurden lineare Abbildungsfunktionen betrachtet, um die Merkmalsvektoren x in einen latenten Vektorraum zu projizieren. Jedoch impliziert der Satz 3 auch die Verwendung einer nicht-linearen Abbildungsfunktion. Hierzu werden sog. Kernels betrachtet. Hierbei handelt es sich um eine auf dem Gebiet des maschinellen Lernens hinlänglich bekannte Gruppe von Funktionen, welche ein Skalarprodukt in einem hochdimensionalen Raum darstellen und auf einer Da- tenmenge eine positiv-semidefinite Kernel-Matrix mit Eigen¬ werten größer bzw. gleich 0 erzeugen.
Im folgenden wird eine Kernel-Funktion k (•,•) betrachtet, wel- che das innere Produkt im Vektorraum der Merkmalsvektoren ist, d.h. k (x.,x .) = (x.,x .) = xι τx] .
Mithilfe von Satz 3 ergibt sich dann:
Figure imgf000016_0001
wobei K^ die N x N Kernel-Matrix ist, welche folgende Bedin¬ gung erfüllt:
(K X)l.,J.=kX(xI.,xJ.).
|w| kann mit der Kernel-Matrix wie folgt berechnet werden:
|w|2 =wrw = αrXXrα = αrKχα .
Analog kann eine Kernel-Funktion für das innere Produkt im Vektorraum der Ausgabevektoren mit entsprechender Kernel- Matrix K ,= YYr definiert werden. Die Matrix K kann somit unter Verwendung von Kernels definiert werden:
Figure imgf000016_0002
Die Gleichung (7) kann somit wie folgt formuliert werden:
min αrK K-1K α + 7urK α (H ) αdR^V x x r x wobei
Figure imgf000017_0001
Hieraus ergibt sich folgendes verallgemeinertes Eigenwert¬ problem:
Figure imgf000017_0002
Die Gleichung (12) kann wie folgt umgeschrieben werden, wobei λ = \lλ gilt:
K2α=;t[K K-1K +γK ]α :i3)
Die ersten K Eigenvektoren werden zur Erzeugung der Abbildungsfunktionen verwendet. Die j-te Abbildungsfunktion (j=l,...,K) lautet dann wie folgt:
Figure imgf000017_0003
wobei O1,...,^ die K Eigenvektoren mit den größten Eigenwerten A1 ≥ ... > λκ sind.
Bis hierhin wurde die zuvor beschriebene Lösung des Optimie¬ rungsproblems mit einer linearen Abbildungsfunktion lediglich umformuliert. Durch eine Verallgemeinerung der Kernel- Funktionen auf nicht-lineare Abbildungen kann jedoch auch ei- ne nicht-lineare Abbildungsfunktion zur Projektion in den latenten Vektorraum erhalten werden. Hierzu wird die nichtlineare Abbildung φ: x e9ϊM —>φ{x) eF definiert, welche einen Merkmalsvektor x in einen hochdimensionalen oder sogar unend- lich-dimensionalen Vektorraum F abbildet. Die Matrix X wird gewählt als [^(X1),..., φ(xN)]τ . Somit wird die Kernel- Funktion definiert als:
kχ(x.,x )=(φ(x.),φ(x ) Da weiterhin K^=XXr gilt, können direkt die Kernel- Funktionen k (x.,x .) verwendet werden, ohne dass φ{-) explizit x i j bekannt ist. Beispielsweise können die in Anspruch 10 defi¬ nierten Gaußschen RBF-Kernels verwendet werden.
Eine Kernel-Matrix Ky für den Vektorraum der Ausgabevektoren kann analog zu K1 durch eine nicht-lineare Abbildung φ{-) de¬ finiert werden.
Figur 2 zeigt zusammenfassend den Ablauf des soeben beschrie¬ benen Verfahrens, bei dem die Projektion in den latenten Vektorraum mithilfe von Kernel-Funktionen erfolgt, um insbesondere eine nicht-lineare Abbildung der Merkmalsvektoren in den latenten Vektorraum zu ermöglichen.
Zunächst wird in Schritt Sl1 für vorgegebene Merkmalsvektoren und Ausgabevektoren XeS^^ und YeS^*1 die Dimension K des latenten Vektorraums sowie ein Wert für ß (der größer als 0 und kleiner bzw. gleich 1 ist) sowie ein Wert für γ (der größer bzw. gleich 0 ist) festgelegt.
In Schritt S2 ' werden die Kernel-Matrizen (K ). . und x ι,J
(K ). .zu vorgegebenen Kernel-Funktionen k (x.,x .) bzw. y ι,j x i j k (y.,y .) bestimmt und anschließend wird die Matrix K wie folgt berechnet:
Figure imgf000018_0001
Sollten Dateneinträge in der Matrix Y fehlen, wird die Matrix K wie folgt approximiert:
K =Y -^Y7Y.r, wobei N; die Anzahl von nicht fehlenden Einträgen in der 1- ten Spalte von Y ist und Y; die 1-te Spalte von Y ist, wo¬ bei die fehlenden Einträge mit 0 aufgefüllt wurden. Schließlich wird im Schritt S31 folgendes verallgemeinerte Eigenwertproblem gelöst:
Figure imgf000019_0001
Hierdurch werden die Eigenvektoren O1,...,O^ mit den größten K Eigenwerten \≥...≥λκ erhalten.
Hieraus wird dann im Schritt S4 ' die Projektionsfunktion in den latenten Vektorraum wie folgt ermittelt:
Figure imgf000019_0002
Nachfolgend werden zwei Beispiele erläutert, in denen das er- findungsgemäße Verfahren in einem Verfahren zum maschinellen Lernen eingesetzt wird. Das erfindungsgemäße Verfahren wird nachfolgend als MORP-Verfahren (MORP = Multi-Output Regulari- zed Projection) bezeichnet.
Das erste Beispiel betrifft ein Experiment zur Vorhersage der Präferenzen von Benutzern. Es wurden hierbei Gemälde betrachtet, wobei jedes Gemälde durch einen 491-dimensionalen Merkmalsvektor charakterisiert ist. Die Merkmalsvektoren umfassen hierbei jeweils ein Farb-Histogramm (216-dimensional) , ein Korrelogramm (256-dimensional) , erste und zweite Farb-Momente (9-dimensional) und eine Pyramiden-Wavelet-Struktur (10- dimensional) . Es wurden die Beurteilungen von insgesamt 190 Benutzern für 642 Gemälde gesammelt. Jeder Benutzer konnte zwischen den beiden Beurteilungen "Gefallen" und "Nichtgefal- len" für eine Anzahl von zufällig ausgewählten Gemälden wählen. Die 190 Beurteilungen von jedem Benutzer stellen somit die Dateneinträge von Ausgabevektoren dar, wobei jeder Ausga¬ bevektor einem Merkmalsvektor (d. h. Gemälde) zugeordnet ist. Durchschnittlich hatte jeder Benutzer 89 Gemälde beurteilt, so dass Dateneinträge in den Ausgabevektoren fehlen. Es handelt sich somit um ein typisches Klassifikationsproblem mit mehreren Ausgaben, da für jedes Gemälde eine Vielzahl von Beurteilungen der Benutzer vorhergesagt werden muss.
Zur Lösung dieses Problems wurde eine maschinelle Lernmethode basierend auf Support-Vektor-Maschinen (SVM) verwendet, wobei in einem Vorverarbeitungsschritt mittels des MORP-Verfahrens die 491-dimensionalen Merkmalsvektoren in einen 20-dimensio- nalen latenten Vektorraum projiziert wurden. Es wurde hierbei eine Ausführungsform des MORP-Verfahrens eingesetzt, welche eine RBF-Kernel-Funktion für K und eine lineare Kernel- x
Funktion für K verwendet. Es wurde /7 = 0,5 und ;r = 0,001 ge¬ wählt. Der Wert von γ ist für das Verfahren unkritisch, solange er sehr klein ist. Das MORP-Verfahren wurde hierbei mit einem Kernel-PCA-Verfahren, einem Kernel-CCA-Verfahren sowie einem Verfahren, das die ursprünglichen Merkmalsvektoren verwendet, verglichen.
Zum Trainieren des SVM-Verfahrens wurden für eine Anzahl von Test-Nutzer jeweils 20 Beurteilungen verwendet und anschlie- ßend wurden die restlichen Beurteilungen vorhergesagt. Im
MORP- und CCA-Verfahren wurden zur Berechnung der Projektion die 190-dimensionalean Ausgabevektoren verwendet, wobei fehlende Einträge mit Nullen aufgefüllt wurden.
Als erste Metrik zur Beurteilung der Vorhersagequalität wurde die sog. Top-N-Genauigkeit verwendet, welche das Verhältnis der tatsächlich in die Kategorie „Gefallen" eingestuften Gemälde zu den N am besten bewerteten Gemälden wiedergibt. Da im Vektorraum der Ausgabevektoren Dateneinträge fehlen, wurde nur der Anteil an bekannten, in der Kategorie „Gefallen" eingestuften Gemälden gezählt. Diese Größe ist kleiner als die tatsächliche Top-N-Genauigkeit. Im vorliegenden Experiment ist die Auswahl der Gemälde, die den Benutzern vorgestellt wurden, zufällig, so dass die Verteilungen von beurteil- ten/nicht beurteilten Gemälden auch zufällig ist. Die zufäl¬ lige Auswahl verändert nicht die Verhaltensweisen der betrachteten Verfahren. Die zweite Metrik ist die sog. ROC-Kurve, bei der in Abhän¬ gigkeit von einem festgelegten Einstufungskriterium, ob ein Gemälde als gut oder schlecht angesehen wird (dieses Kriteri- um kann darüber festgelegt werden, wie viele der am besten bewerteten Gemälde der Kategorie „gutes Gemälde" zugeordnet werden), die Sensitivität (d.h. dass ein gutes Gemälde durch das System empfohlen wird) gegen (1-Spezifität ) aufgetragen ist, wobei die Spezifität die Wahrscheinlichkeit wiedergibt, dass ein schlechtes Gemälde vom System zurückgewiesen wird. Je größer die Fläche unter der ROC-Kurve, desto besser ist die Qualität des Algorithmus.
Fig. 3 zeigt im linken Diagramm den Vergleich der Top-N- Genauigkeiten des MORP-Verfahrens und der o.g. Vergleichsverfahren. Man erkennt, dass das MORP-Verfahren wesentlich bessere Genauigkeiten als die anderen Verfahren liefert. Das rechte Diagramm zeigt die ROC-Kurven für das MORP-Verfahren und die o.g. Vergleichsverfahren. Auch hier erkennt man, dass der MORP-Algorithmus die besten Ergebnisse liefert, da seine Fläche unter der ROC-Kurve am größten ist.
Das zweite Beispiel betrifft die Klassifikation von Objekten, wobei zwei Objektdatensätze verwendet wurden. Der erste Da- tensatz betrifft Dokumente aus der Textsammlung Reuters-
21578, die Fachleuten hinlänglich bekannt ist und in der den Dokumenten eine Vielzahl von Kategorien zugewiesen sind. Der zweite Datensatz betrifft Bilder aus der Corel-Image- Datenbank, die Fachleuten ebenfalls bekannt ist. Den Bildern wurden hierbei manuell Kategorien zugewiesen. In diesem zweiten Beispiel wurde wiederum das SVM-Lernverfahren mit dem MORP-Verfahren sowie mit Vergleichsverfahren (Kernel-PCA und dem Verfahren mit den ursprünglichen Merkmalsvektoren) kombiniert. Die Objekte (d.h. die Dokumente bzw. die Bilder) wur- den in zwei Datengruppen Sl und S2 aufgeteilt, wobei die Ob¬ jekte in S2 bei der Berechnung der Projektion im MORP- Verfahren nicht verwendet wurden. Ferner wurde das MORP- Verfahren für /? = 0,96 und /? = 1 getestet. Im MORP-Verfahren wurde im Falle der Dokumente der Textsammlung eine lineare Kernel-Funktion verwendet, wohingegen bei den Bildern der Co- rel-Image-Datenbank eine RBF-Kernel-Funktion (mit σ = 25) eingesetzt wurde. Ferner wurde in den MORP-Verfahren in einem 50-dimensionalen latenten Vektorraum projiziert und γ wurde auf 1 gesetzt.
Figur 4 zeigt vier Diagramme, welche die Genauigkeiten der mit den Verfahren vorhergesagten Klassifikationen in Abhän- gigkeit von der Anzahl der Trainigsdaten wiedergeben. Hierbei betreffen die oberen beiden Diagramme die Ergebnisse für die Reuters-Dokumente und die unteren Diagramme zeigen die Resul¬ tate für die Corel-Image-Datenbank. Ferner beziehen sich die beiden linken Diagramme auf die Datengruppe Sl und die rech- ten Diagramme betreffen die Datengruppe S2. Man erkennt, dass das MORP-Verfahrn in vielen Fällen bessere Ergebnisse als die anderen Verfahren liefert, insbesondere für die Bilder der Corel-Image-Datenbank .

Claims

Patentansprüche
1. Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, insbesondere zur Verwendung in einem Verfahren zum ma- schinellen Lernen, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensiona¬ len Merkmalsvektor (X1) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (X1) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (V1) mit digitalen Datenein- trägen zugeordnet ist, bei dem: a) eine Projektion berechnet wird, mit der die Merkmalsvek¬ toren (X1) und die Ausgabevektoren (V1) in einen latenten Vektorraum projiziert werden, wobei die Projektion ein Rekonstruktionsfehlermaß optimiert und insbesondere mini- miert, welches von dem Unterschied zwischen den Ausgabe¬ vektoren (Y1) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt; b) mit der in Schritt a) berechneten Projektion Merkmalsvektoren (X1) von neuen und/oder bekannten Objekten in den latenten Vektorraum projiziert werden, wodurch modifizierte digitale Daten erhalten werden.
2. Verfahren nach Anspruch 1, bei dem das Rekonstruktionsfehlermaß ferner von dem Unterschied zwischen den Merkmalsvekto- ren (X1) und den mit der Projektion projizierten und anschließend rekonstruierten Merkmalsvektoren abhängt.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Dimension des latenten Vektorraums kleiner als die Dimension des Vek- torraums der Merkmalsvektoren (X1) und/oder die Anzahl von Objekten.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Optimierung des Rekonstruktionsfehlermaßes zur Berechnung der Projektion wie folgt lautet:
min (1-/?)|X-VA|2+/?|Y-VB|2
A,B,V wobei VeSR"**, Xe9TxM, A≡SRKxM r Ye^, BerxL
wobei V7V = I;
wobei
Figure imgf000024_0001
] ;
wobei X1 der i-te Merkmalsvektor mit der Dimension M ist;
wobei Y = Ly1J '^Nf }
wobei V1 der i-te Ausgabevektor mit der Dimension L ist;
wobei A, B die Ladungsmatrizen für X bzw. Y sind;
wobei N die Anzahl an Objekten ist;
wobei K die Dimension des latenten Vektorraums ist; und
wobei ß eine positive reelle Zahl kleiner oder gleich 1 ist, insbesondere /? = 0,5 oder /? = 0,96 oder /? = 1.
5. Verfahren nach Anspruch 4, bei dem die Optimierung des Rekonstruktionsfehlermaßes in folgende Optimierung umgewandelt wird:
max vrKv
wobei V V = I,
wobei K = (l-ß)XXT+ßYYT ,
wobei die Lösung dieser Optimierung gegeben ist durch
V=[V1,...,^], A = VrX, B = VrY wobei vi bis vκ die Eigenvektoren von K mit entsprechenden, in absteigender Reihenfolge sortierten Eigenwerten sind, wobei die Optimierung rekursiv für jedes v-, durch Maximieren des Ausdrucks vrKv mit der Einschränkung V7V = 1 und v -L SPaWJv1, > v 7-i} gelöst wird.
6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Abbildungsfunktion (^;(x)) für die Projektion verwendet wird, welche die digitalen Dateneinträge der Merkmalsvektoren als Variablen enthält, wobei diese Variablen durch die Abbil¬ dungsfunktion in den latenten Vektorraum projiziert werden.
7. Verfahren nach Anspruch 6 in Kombination mit Anspruch 4 oder 5, bei dem die Abbildungsfunktion (ψ^x)) wie folgt lau- tet oder von folgendem Ausdruck abhängt:
Figure imgf000025_0001
wobei W1,....,wt e 9ΪM die Eigenvektoren mit den größten K Eigen- werten λi≥ > λκ des folgenden Eigenwertproblems sind:
XrXw = A[X1K-1X + γl]w
wobei K = (I-ß)XXT +/?YYrund γ > 0, insbesondere γ = 1, gilt.
8. Verfahren nach Anspruch 6 in Kombination mit Anspruch 4 oder 5, bei dem die Abbildungsfunktion (ψ}(x)) wie folgt lautet oder von folgendem Ausdruck abhängt:
Figure imgf000025_0002
j=l,..,K wobei gilt (K )..=k (x.,X .) Und (K )..=k (\.,\.)
wobei (K ). . eine N x N Kernel-Matrix für eine Kernel- x ι,J
Funktion k (x.,X .) ist und (K ). . eine N x N Kernel-Matrix x i J y ij für eine Kernel-Funktion k (y.,y •) ist;
wobei K = (I-^)Kx-HyOK
wobei a1,....,ak ≡9Ϊ die Eigenvektoren mit den größten K Eigen- werten λi > > λκ des folgenden Eigenwertproblem sind:
Figure imgf000026_0001
wobei γ > 0, insbesondere γ = 1, gilt.
9. Verfahren nach Anspruch 8, bei dem die Kernel-Funktionen k (X.,X .) und k (y.,y .) Gaußsche RBF-Kernels sind, welche wie folgt definiert sind:
Figure imgf000026_0002
10. Verfahren nach Anspruch 6 oder 7, bei dem die Abbildungs- funktion (ψ (x) ) eine lineare Abbildung der Merkmalsvektoren (X1) ist.
11. Verfahren nach Anspruch 8 oder 9, bei dem die Abbildungsfunktion (ψ}(x)) eine nichtlineare Abbildung der Merkmalsvek- toren (X1) ist.
12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem jedem Merkmalsvektor (X1) mehrere Typen von Ausgabevektoren (V1) zugeordnet sind, wobei das Rekonstruktionsfehlermaß den Unterschied zwischen den Ausgabevektoren (V1) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren von jedem Typ von Ausgabevektoren (V1) berücksichtigt .
13. Verfahren zum maschinellen Lernen auf der Basis von digitalen Daten, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (X1) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (X1) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (V1) mit digitalen Dateneinträgen zugeordnet ist, bei dem: i) mit einem Verfahren nach einem der vorhergehenden Ansprüche die Merkmalsvektoren (X1) in einen latenten Vektorraum projiziert werden; ii) auf der Basis der in Schritt i) ermittelten projizierten Merkmalsvektoren (X1) ein maschinelles Lernverfahren trainiert wird, um anschließend Vorhersagen über Ausga¬ bevektoren (Y1) von bekannten und/oder neuen Objekten zu ermitteln .
14. Verfahren nach Anspruch 13, bei dem das maschinelle Lernverfahren auf Support-Vektor-Maschinen basiert.
15. Verfahren nach Anspruch 13 oder 14, wobei das Verfahren zur Mustererkennung und/oder Datenextraktion, insbesondere zur Extraktion von Datenkategorien, in den Objekten eingesetzt wird.
16. Verfahren nach Anspruch 13 oder 14, wobei das Verfahren zum kollaborativen Filtern eingesetzt wird.
17. Computerprogrammprodukt, mit einem auf einem maschinen¬ lesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programmprodukt auf einem Rechner abläuft.
PCT/EP2006/062351 2005-06-17 2006-05-16 Verfahren zur rechnergestützten verarbeitung von digitalen daten WO2006134011A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005028252A DE102005028252A1 (de) 2005-06-17 2005-06-17 Verfahren zur rechnergestützten Verarbeitung von digitalen Daten
DE102005028252.0 2005-06-17

Publications (1)

Publication Number Publication Date
WO2006134011A1 true WO2006134011A1 (de) 2006-12-21

Family

ID=36794925

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/062351 WO2006134011A1 (de) 2005-06-17 2006-05-16 Verfahren zur rechnergestützten verarbeitung von digitalen daten

Country Status (2)

Country Link
DE (1) DE102005028252A1 (de)
WO (1) WO2006134011A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009586A (zh) * 2017-12-04 2018-05-08 江苏理工学院 封顶概念分解方法及图像聚类方法
CN109063725A (zh) * 2018-06-13 2018-12-21 江苏理工学院 面向多视图聚类的多图正则化深度矩阵分解方法
CN109325515A (zh) * 2018-08-10 2019-02-12 江苏理工学院 基于局部学习正则化的深度矩阵分解方法及图像聚类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188776B1 (en) * 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188776B1 (en) * 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DATABASE INSPEC [online] THE INSTITUTION OF ELECTRICAL ENGINEERS, STEVENAGE, GB; 1999, HOFMANN T: "Probabilistic latent semantic indexing", XP002397300, Database accession no. 6565753 *
JOLLIFFE, I. T.: "Principal component analysis, Chapter 2", 2002, SPRINGER VERLAG, NEW YORK, ISBN: 0-387-95442-2, XP002396332, 280820 *
KAI YU ET AL: "Multi-Output Regularized Projection", COMPUTER VISION AND PATTERN RECOGNITION, 2005. CVPR 2005. IEEE COMPUTER SOCIETY CONFERENCE ON SAN DIEGO, CA, USA 20-26 JUNE 2005, PISCATAWAY, NJ, USA,IEEE, 20 June 2005 (2005-06-20), pages 597 - 602, XP010817654, ISBN: 0-7695-2372-2 *
PROCEEDINGS OF 22ND INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL AUG. 1999 BERKELEY, CA, USA, 1999, Proceedings of SIGIR '99. 22nd International Conference on Research and Development in Information Retrieval ACM New York, NY, USA, pages 50 - 57, ISBN: 1-58113-096-1 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009586A (zh) * 2017-12-04 2018-05-08 江苏理工学院 封顶概念分解方法及图像聚类方法
CN108009586B (zh) * 2017-12-04 2021-09-24 江苏理工学院 封顶概念分解方法及图像聚类方法
CN109063725A (zh) * 2018-06-13 2018-12-21 江苏理工学院 面向多视图聚类的多图正则化深度矩阵分解方法
CN109063725B (zh) * 2018-06-13 2021-09-28 江苏理工学院 面向多视图聚类的多图正则化深度矩阵分解方法
CN109325515A (zh) * 2018-08-10 2019-02-12 江苏理工学院 基于局部学习正则化的深度矩阵分解方法及图像聚类方法
CN109325515B (zh) * 2018-08-10 2021-09-28 江苏理工学院 基于局部学习正则化的深度矩阵分解方法及图像聚类方法

Also Published As

Publication number Publication date
DE102005028252A1 (de) 2006-12-28

Similar Documents

Publication Publication Date Title
DE60019786T2 (de) Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern
DE102018109835A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Netzkonfiguration eines neuronalen Netzes
DE102017218889A1 (de) Unscharf parametriertes KI-Modul sowie Verfahren zum Betreiben
EP3736817A1 (de) Überprüfung und/oder verbesserung der konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
WO2019211497A2 (de) Computer implementiertes verfahren zur bewertung der integrität von neuronalen netzen
EP1021793A2 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
WO2006134011A1 (de) Verfahren zur rechnergestützten verarbeitung von digitalen daten
DE102018220701A1 (de) Diskretisierung von Zahlenwerten mit adaptiver Genauigkeit
WO2012052106A1 (de) Verfahren zur klassifizierung von mustern in bilddatensätzen
EP3857455A1 (de) Maschinelles lernsystem, sowie ein verfahren, ein computerprogramm und eine vorrichtung zum erstellen des maschinellen lernsystems
WO2009015655A2 (de) Verfahren und vorrichtung zur automatischen mustererkennung
WO2021175783A1 (de) Computerimplementiertes verfahren und system zum erzeugen synthetischer sensordaten und trainingsverfahren
WO1998007100A1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
EP1889754A1 (de) Verfahren und Vorrichtung zur Ansteuerung von Personenschutzmitteln und Computerprogrammprodukt
WO1999048020A2 (de) Verfahren und anordnung zur rechnergestützten ermittlung einer abbildungsvorschrift
DE19824353A1 (de) Vorrichtung zur Verifizierung von Signalen
DE102016113310A1 (de) Verfahren zur Bewertung von Aussagen einer Mehrzahl von Quellen zu einer Mehrzahl von Fakten
WO2023016859A1 (de) Training von neuronalen netzwerken auf äquivarianz oder invarianz gegenüber änderungen des eingabe-bildes
DE102022208083A1 (de) Trainieren eines neuronalen Netzwerks mit Hilfe von Wissensgraphen
EP4075344A1 (de) Computerimplementiertes verfahren zum sortieren einer liste von datenobjekten, datenverarbeitungsanlage, servereinheit, und computerprogrammprodukt
DE102019213458A1 (de) Verfahren zum Komprimieren eines Neuronalen Netzes
EP4078433A1 (de) Verfahren und vorrichtung zum erzeugen und bereitstellen einer datenbank mit darin hinterlegten sensordatenpatches zur verwendung beim quilting
DE102020208151A1 (de) Verfahren zur Steuerung der Herstellung eines Blechbauteils und Verfahren zum Herstellen eines Blechbauteils bzw. mehrerer unterschiedlicher Blechbauteile
DE202023102037U1 (de) Vorrichtung zum Optimieren eines Hyperparameterraumes mit mindestens zwei Hyperparametern eines Algorithmus des maschinellen Lernens

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06755215

Country of ref document: EP

Kind code of ref document: A1