WO2006134011A1

WO2006134011A1 - Verfahren zur rechnergestützten verarbeitung von digitalen daten

Info

Publication number: WO2006134011A1
Application number: PCT/EP2006/062351
Authority: WO
Inventors: Kai Yu; Shipeng Yu; Volker Tresp
Original assignee: Siemens Aktiengesellschaft
Priority date: 2005-06-17
Filing date: 2006-05-16
Publication date: 2006-12-21
Also published as: DE102005028252A1

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (Xi) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (Xi) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (Yi) mit digitalen Dateneinträgen zugeordnet ist, bei dem: a) eine Projektion berechnet wird, mit der die Merkmalsvektoren (Xi) und die Ausgabevektoren (Yi) in einen latenten Vektorraum projiziert werden, wobei die Projektion ein Rekonstruktionsfehlermaß optimiert, welches von dem Unterschied zwischen den Ausgabevektoren (Yi) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt; b) mit der in Schritt a) berechneten Projektion Merkmalsvektoren (Xi) in den latenten Vektorraum projiziert werden, wodurch modifizierte digitale Daten erhalten werden.

Description

Beschreibung

Verfahren zur rechnergestützten Verarbeitung von digitalen Daten

Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, welches insbesondere zur Verwendung in einem Verfahren zum maschinellen Lernen dient.

Auf dem Gebiet der Informationstechnologie gibt es eine Viel^¬ zahl von Verfahren zum maschinellen Lernen, mit denen rechnergestützt ein System aus Objekten, welche in der Form von digitalen Daten vorliegen, verarbeitet wird, um hierdurch Gesetzmäßigkeiten in den Objekten zu erkennen, so dass auch die Eigenschaften neuer Objekte in dem System beurteilt werden können. Ein typischer Anwendungsbereich des maschinellen Lernens ist die Mustererkennung in digitalen Daten, beispielsweise die Extraktion von Merkmalen aus digitalisierten Dokumenten oder Bildern.

Maschinelle Lernverfahren werden üblicherweise mit Trainings^¬ daten trainiert, welche die durch Merkmalsvektoren charakte^¬ risierten Objekte umfassen, denen wiederum Ausgabevektoren zugeordnet sind. Ein trainiertes Verfahren kann dann Ausgabe- vektoren von neuen Objekten oder fehlende Dateneinträge in Ausgabevektoren von bekannten Objekten vorhersagen.

In maschinellen Lernverfahren werden meist in einem Vorverarbeitungsschritt die Merkmalsvektoren der Objekte in einen neuen Raum projiziert, der kompakt, rauschfrei und aussage^¬ kräftig sein sollte. Dieser Raum wird im folgenden als latenter Vektorraum bezeichnet. Beispiele von Verfahren, mit denen eine solche Projektion durchgeführt wird, sind das PCA- Verfahren (PCA = Principal Component Analysis), das LDA- Verfahren (LDA = Linear Discriminant Analysis), das CCA-

Verfahren (CCA = Canonical Correlation Analysis) und das PLS- Verfahren (PLS = Partial Least Squares) . Aufgabe der Erfindung ist es, ein verbessertes Projektions^¬ verfahren für die Merkmalsvektoren von Objekten zu schaffen, welches eine höhere Genauigkeit bei der Vorhersage von Ob^¬ jekteigenschaften ermöglicht.

Diese Aufgabe wird durch die unabhängigen Patentansprüche ge^¬ löst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.

In dem erfindungsgemäßen Verfahren wird eine Projektion in einen latenten Vektorraum berechnet, die ein Rekonstruktions^¬ fehlermaß optimiert, das von dem Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt. Mithil- fe der berechneten Projektion projiziert das Verfahrnen anschließend Merkmalsvektoren von bekannten und/oder neuen Objekten in den latenten Vektorraum, der die Abhängigkeiten der Ausgabevektoren berücksichtigt. Wie Tests gezeigt haben, kön^¬ nen hierdurch Vorhersagen mit sehr hoher Genauigkeit erreicht werden.

In einer bevorzugten Ausführungsform berücksichtigt das Rekonstruktionsfehlermaß zur Berechnung der Projektion nicht nur den Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren, sondern auch den Unterschied zwischen den Merkmalsvektoren und den mit der Projektion projizierten und anschließend rekonstruierten Merkmalsvektoren.

Vorzugsweise ist in dem erfindungsgemäßen Verfahren die Dimension des latenten Vektorraums kleiner als die Dimension des Vektorraums der Merkmalsvektoren und/oder die Anzahl von Objekten.

In einer weiteren bevorzugten Variante der Erfindung wird zur Berechnung der Projektion folgendes Optimierungsproblem gelöst: min (1-£)|X-VA|²+£||Y-VB|²

A,B,V

wobei V e 9T^x\ Xε r^M , A ε 5R^M , Y e ^ ,

Ber^xL

wobei V^rV = I (I ist die Einheitsmatrix) _;

wobei

] ;

wobei X₁ der i-te Merkmalsvektor mit der Dimension M ist;

wobei Y = [y_x; ;y_w] •

wobei V₁ der i-te Ausgabevektor mit der Dimension L ist;

wobei A, B die Ladungsmatrizen für X bzw. Y sind;

wobei N die Anzahl an Objekten ist;

wobei K die Dimension des latenten Vektorraums ist; und

wobei ß eine positive reelle Zahl kleiner oder gleich 1 ist, insbesondere /? = 0,5 oder /? = 0,96 oder /? = 1.

Dieses Optimierungsproblem wird in einer weiteren Variante der Erfindung in folgendes Optimierungsproblem umgewandelt:

max v^rKv

wobei V V = I,

wobei K=(I-ß)XX^T +J3YY^T ,

wobei die Lösung dieser Optimierung gegeben ist durch V=[V₁,...^], A=V⁷X, B=V⁷Y

wobei vi bis v_κ die Eigenvektoren von K mit entsprechenden, in absteigender Reihenfolge sortierten Eigenwerten sind, wobei die Optimierung rekursiv für jedes v-, durch Maximieren des Ausdrucks v^rKv mit der Einschränkung

1 und v -L SPaWJv₁, _> ^v ₇-il gelöst wird.

Um die Ausgabevektoren von neuen, im System noch unbekannten Objekten vorherzusagen, wird in einer bevorzugten Ausführungsform der Erfindung für die Projektion eine Abbildungsfunktion verwendet, welche die digitalen Dateneinträge der Merkmalsvektoren als Variablen enthält, wobei diese Variablen durch die Abbildungsfunktion in den latenten Vektorraum projiziert werden. Die Abbildungsfunktion kann wie folgt lauten oder von folgendem Ausdruck abhängen:

wobei W₁,....,w_λ e9ϊ^M die Eigenvektoren mit den größten K Eigenwerten λi≥ > λ_κ des folgenden Eigenwertproblems sind:

X^rXw = A[X⁷K-¹X + ;I]w

wobei K = (l-/?)XX^r +/?YY^rund γ > 0, insbesondere γ = 1, gilt.

Alternativ kann die Abbildungsfunktion über Kernel-Funktionen definiert werden, die im Bereich des maschinellen Lernens hinlänglich bekannt sind. Die Abbildungsfunktion lautet dann bzw. hängt dann von folgendem Ausdruck ab:

J=1,...,K

wobei gilt (K )..=k (x.,X .) und (K ).. =k (y.,V .) ;

wobei (K ). . eine N x N Kernel-Matrix für eine Kernel- x ι,J

Funktion k (x.,X .) ist und (K ). . eine N x N Kernel-Matrix x i J y ij für eine Kernel-Funktion k (y.,y •) ist;

wobei K = (I-^)K_x-HyOK

wobei 0_[,....,O₁ eSR die Eigenvektoren mit den größten K Eigenwerten λi > > λ_κ des folgenden Eigenwertproblem sind:

K X ²α = ;t[K X K-¹K X +γ¹KX ]α

wobei γ > 0 , insbes ondere γ = 1 , gilt .

Al s Kernel-Funktionen können z . B . Gauß s che RBF-Kernel s verwendet werden , wel che wie folgt definiert s ind :

Die Abbildungsfunktion kann eine lineare oder eine nichtlineare Abbildung der Merkmalsvektoren sein.

Das erfindungsgemäße Verfahren kann ggf. auch auf Merkmals^¬ vektoren angewandt werden, denen jeweils mehrere Typen von Ausgabevektoren zugeordnet sind. In diesem Fall berücksichtigt das Rekonstruktionsfehlermaß den Unterschied zwischen den Ausgabevektoren und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren von jedem Typ von Ausgabevektoren. Das erfindungsgemäße Verfahren wird vorzugsweise in einem Verfahren zum maschinellen Lernen eingesetzt, bei dem: i) mit dem erfindungsgemäßen Verfahren die Merkmalsvektoren in einen latenten Vektorraum projiziert werden; ii) auf der Basis der in Schritt i) ermittelten projizierten Merkmalsvektoren ein maschinelles Lernverfahren trainiert wird, um anschließend Vorhersagen über Ausgabevektoren von bekannten und/oder neuen Objekten zu ermit- teln.

Das maschinelle Lernverfahren basiert vorzugsweise auf Sup^¬ port-Vektor-Maschinen und dient insbesondere zur Mustererkennung und/oder Datenextraktion, insbesondere zur Extraktion von Datenkategorien, in den Objekten. Ein weiterer Anwendungsfall des erfindungsgemäßen Verfahrens ist seine Verwen^¬ dung in einem Verfahren zum kollaborativen Filtern (engl. "Collaborative Filtering") . Bei diesem hinlänglich aus dem Stand der Technik bekannten Verfahren wird die Bewertung ei- nes bekannten Objekts durch einen Benutzer auf der Basis von Bewertungen von anderen Nutzern vorhergesagt.

Neben den erfindungsgemäßen Verfahren umfasst die Erfindung auch ein Computerprogrammprodukt mit einem auf einem maschi- nenlesbaren Träger gespeicherten Programmcode zur Durchführung der erfindungsgemäßen Verfahren, wenn das Programmprodukt auf einem Rechner abläuft.

Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren erläutert.

Es zeigen:

Fig. 1 den Ablauf einer Ausführungsform des erfindungsge- mäßen Verfahrens;

Fig. 2 den Ablauf einer anderen Ausführungs form des erfindungsgemäßen Verfahrens. Fig. 3 Diagramme, welche die Vorhersagequalität eines ma^¬ schinellen Lernverfahrens unter Verwendung des erfindungsgemäßen Verfahrens zeigen, wobei das Lern- verfahren zur Vorhersage von Benutzerpräferenzen verwendet wird; und

Fig. 4 Diagramme, welche die Vorhersagequalität eines ma^¬ schinellen Lernverfahrens unter Verwendung des er- findungsgemäßen Verfahrens zeigen, wobei das Lernverfahren zur Vorhersage von Kategorien von Dokumenten und Bildern verwendet wird.

Bevor auf die detaillierte Beschreibung von bevorzugten Aus- führungs formen eingegangen wird, werden zunächst folgende Notationen festgelegt, die für die nachfolgende Beschreibung und auch für die Ansprüche gültig sind:

Es werden digitale Daten betrachtet, die N Objekte umfassen. Für i=l, ,N wird jedes Objekt i durch einen M- dimensionalen Merkmalsvektor X₁ e9ϊ^M beschrieben, wobei jedem

Merkmalsvektor ein L-dimensionaler Ausgabevektor y_; e$R^L zugeordnet ist. Die digitalen Dateneinträge der Merkmalsvektoren werden als Matrix X = [X₁; ;x_w]^r e9*^WxM dargestellt und die di- gitalen Dateneinträge der Ausgabevektoren werden als Matrix Y = Ey₁; ',y_Nf e$l^NxL dargestellt, wobei [-]^r das Transponierte der Matrix darstellt.

Die nachfolgend beschriebenen Verfahren werden zur Lösung von Vorhersage-Problemen verwendet, bei denen für bekannte oder neue Objekte deren entsprechende Ausgabevektoren vorhergesagt werden sollen. Die erfindungsgemäßen Verfahren werden hierbei als Vorverarbeitungsschritt eingesetzt, in dem die Merkmals^¬ vektoren zunächst in einen latenten K-dimensionalen Vektor- räum projiziert werden, wobei dieser Vektorraum ein Hilfsvek- torraum ist, dessen Dimension vorzugsweise kleiner als die des Vektorraums der Merkmalsvektoren ist. Nach der Projektion können die in den latenten Vektorraum projizierten Daten als Trainingsdaten eines maschinellen Lernverfahrens eingesetzt werden und schließlich können mit dem trainierten Verfahren Vorhersagen getroffen werden.

Im folgenden bezeichnen fettgedruckte kleine lateinische

Buchstaben Spaltenvektoren und fettgedruckte große lateinische Buchstaben bezeichnen Matrizen. Der Ausdruck ||| bezeichnet die Frobeniusnorm für Matrizen und die 2-Norm für Vektoren. Ferner bezeichnet 7V[-] die Spur für Matrizen.

Die im folgenden beschriebenen Ausführungsformen der Erfindung haben gemeinsam, dass sie eine sogenannte überwachte Projektion (supervised projection) in den latenten Vektorraum durchführen, wobei bei einer überwachten Projektion die Da- teneinträge der Ausgabevektoren berücksichtigt werden. Demge^¬ genüber wird bei bekannten Projektionsverfahren, wie z.B. dem PCA-Algorithmus (PCA = Principal Component Analysis), nur ei^¬ ne sog. unüberwachte Projektion durchgeführt (unsupervised projection) , bei der nur die Dateneinträge der Merkmalsvekto- ren berücksichtigt werden.

Zur Durchführung der überwachten Projektion wird in allen Ausführungsformen des erfindungsgemäßen Verfahrens eine Optimierung des Rekonstruktionsfehlers durchgeführt, wobei der Rekonstruktionsfehler derart definiert ist, dass er die Ab^¬ weichung der rekonstruierten projizierten Ausgabevektoren von den ursprünglichen Ausgabevektoren berücksichtigt.

Mathematisch lässt sich das durch die nachfolgend beschriebe- nen Ausführungsformen gelöste Optimierungsproblem wie folgt formulieren:

_min (1-/?)|X-VA|²+/?|Y-VB|^{2 (}D

A,B,V

mit V⁷V = I, wobei V e ${^NxK die K-dimensionalen Projektionen sowohl der Merkmalsvektoren Xe9?^WxMals auch der Ausgabevektoren Y e3H^NxL darstellen und Ae9ϊ^^xM, Be9?^^xL die Ladungsmatrizen sind. 0</?<l ist ein Einstellparameter, der bestimmt, wie stark die Projektionen durch die Ausgabevektoren beeinflusst werden sollen. Durch die Bedingung V TV = I wird sichergestellt, dass die Variablen im latenten Vektorraum linear unabhängig sind.

Zur Berechnung des obigen Optimierungsproblems (1) macht man sich folgenden Satz 1 zunutze, der von den Erfindern bewiesen wurde :

Satz 1: Falls V, A und B die optimalen Lösungen des Opti- mmiieerruungsproblems (1) sind und falls K = (1 - /?)XX + ßVY , dann gilt:

(ii) Beim Optimum entspricht die Optimierungs funktion gemäß Gleichung (1) Tr[K]-Tr[V⁷¹KV].

Da der Ausdruck Tr[K] fest ist, kann gemäß Satz 1 das Optimierungsproblem laut (1) als ein Optimierungsproblem nur in Bezug auf V betrachtet werden:

_max Tr[V⁷KV] ^{( 2} :

wobei V⁷V = I.

Aus den Gleichungen (1) und (2) ergibt sich die Unbestimmt^¬ heit, dass, falls V eine Lösung ist, auch V = VR eine Lö^¬ sung ist, wobei R eine beliebige Rotationsmatrix ist. Der folgende Satz 2, der von den Erfindern bewiesen wurde, trägt diesem Umstand Rechnung: Satz 2: Es wird angenommen, dass [V₁,...., Y_N] die Eigenvektoren der Matrix K sind und λi > > λ_N die entsprechenden Eigenwerte. Falls V die Gleichung (2) löst, gilt:

(i) V = [v₁,....,v_Λ,]R , wobei R eine beliebige K x K orthogonale Rotationsmatrix ist;

(ii) Das Maximum der Optimierungsfunktion gemäß Gleichung (2)

Dieser Satz sagt aus, dass die Eigenvektoren von K eine Lösung des Optimierungsproblems (1) darstellen und jede belie^¬ bige Rotation das Optimum nicht verändert. Um die o. g. Unbe^¬ stimmtheit zu entfernern, werden Lösungen betrachtet, welche den Eigenvektoren von K entsprechen, d. h.

.

Deshalb kann das Optimierungsproblem gemäß Gleichung (1) auch wie folgt formuliert werden:

maχV^rKv ⁽³⁾

wobei V⁷V = 1.

Es sei hierbei angemerkt, das die Lösung des Problems (3) nur den Eigenvektor V₁ von K liefert. Das volle Optimierungs^¬ problem wird durch rekursive Berechnung von v durch Maxi- mieren des Ausdrucks v Kv mit der Einschränkung

und V-LspαnlV_j, _> ^v ₇-i} gelöst. Die Gleichung (3) wurde aus Verein^¬ fachungsgründen genannt und weil ihr Lagrange-Formalismus di- rekt zu dem Eigenwertproblem führt.

Indem die Lagrange-Ableitung auf Null gesetzt wird, erhält man das Eigenwertproblem KV = λv . Es wird angenommen, dass V₁, ,Y_N die Eigenvektoren von K mit in absteigender Reihen- folge sortierten Eigenwerten sind. Unter der Verwendung der ersten K Eigenvektoren wird das Optimierungsproblem (1) ge- löst durch:

V = [V₁,....,vj, A = V^rX und B = V^rY .

Die Lösung des Problems (3) mithilfe der Eigenwertbestimmung von K stellt eine Ausführungsform der Erfindung dar, welche immer dann eingesetzt werden kann, wenn für bekannte Objekte Vorhersagen über Dateneinträge des entsprechenden Ausgabevektors in Abhängigkeit von Dateneinträgen von Ausgabevektoren von anderen bekannten Objekten getroffen werden sollen. Ein derartige Problemstellung wird auch bei dem kollaborativen Filtern (engl. "Collaborative Filtering") gelöst.

Um die vorliegende Erfindung auch zur Vorhersage von Ausgabe- vektoren von neuen Objekten zu verwenden, wird gemäß einer bevorzugten Ausführungsform der Erfindung eine lineare Abbildungsfunktion Ψ(x) für die Projektion vom Vektorraum der

Merkmalsvektoren in den latenten Vektorraum verwendet, wobei x einen Merkmalsvektor mit den Dateneinträgen als Variablen darstellt.

Es wird hierbei folgende lineare Abbildung definiert:

V=XW

Somit gilt v, = Xw, für i=l, .... , K mit W = [W₁,...,wj e9ϊ^Mx* . Durch Einsetzen von V = Xw in Gleichung (3) erhält man folgendes Optimierungsproblem für w :

max ^w ^{^}X⁷KXw we9l^M

wobei w^rX^rXw=l

Indem die Ableitung des Lagrange-Formalismus in Bezug auf w auf Null gesetzt wird, erhält man folgendes verallgemeinertes Eigenwertproblern: X^τKXw =λX^τXw (5)

Hierdurch werden M verallgemeinerte Eigenvektoren W₁,...,w_M sowie die Eigenwerte λi≥ >. λ_M ermittelt . Die ersten K Ei^¬ genvektoren werden zur Bildung der folgenden Abbildungsfunk- tion verwendet:

Somit erhält man als Ergebnis ψ(x) = [^₁(x), ,ψΛx)] T , wo^¬ durch x in den K-dimensionalen latenten Vektorraum abgebildet wird.

Jedoch können - ähnlich wie bei anderen linearen Systemen - die gelernten Abbildungen instabil sein, wenn

aufgrund einer geringen Anzahl von Objekten oder einer Abhängigkeit der Dateneinträge der Merkmalsvektoren einen geringe^¬ ren Rang als 9Ϊ^M aufweist. Folglich ändert eine Störung von w mit einem beliebigen w^* _L span{x_λ,...,x_N} nicht die Optimierungs^¬ funktion gemäß Gleichung (6), da (w + w^*)^rx, =w^rx, . Jedoch kann diese Störung erheblichen Einfluss auf die Projektionen von Merkmalsvektoren außerhalb von spαn{x_lv..,x^} haben. Um die Sta^¬ bilität zu verbessern, wird w beschränkt.

Unter der Annahme, dass rang (K) = N, ist die Gleichung (3) äquivalent zur Minimierung des Ausdrucks V⁷K^-1V. Durch Ein^¬ führung der aus dem Stand der Technik bekannten Tikhonov- Regularisierung in das Problem gemäß Gleichung (4) erhält man:

min W⁷X⁷K-¹Xw -H zIwI² ( 7 )

mit w^rX^rXw = 1 . Hierbei ist |w| = w^rw ein Strafterm, der in der aus dem Stand der Technik bekannten Ridge-Regression verwendet wurde, und γ ist ein Einstellparameter.

Das entsprechende verallgemeinerte Eigenwertproblem lautet dann wie folgt:

-

= λ ΪXΛTT^ι Xw ( 8 )

Hierdurch erhält man verallgemeinerte Eigenvektoren W₁,..., w_M mit Eigenwerten λ_ι≤...≤λ_M. Diese Eigenwerte sind in aufstei^¬ gender Reihenfolge sortiert, da für die Abbildungsfunktion die K Eigenvektoren mit den kleinsten Eigenwerten verwendet werden.

Der folgende, von den Erfindern bewiesene Satz 3 zeigt, dass der Regularisierungsterm |w| die Unbestimmtheit der Abbil^¬ dungsfunktionen entfernt, indem w auf den Raum spa«{x_1;...,x_w} eingeschränkt wird und hierdurch die Stabilität der Abbil- dungsfunktionen verbessert wird.

Satz 3: Falls w ein Eigenvektor des verallgemeinerten Eigenwertproblems gemäß Gleichung (8) ist, muss w eine Linearkom^¬ bination aus X₁, i= l,....i\7, sein, nämlich:

wobei a≡^{^N .

In dem Problem (8) wird nach Eigenvektoren mit den kleinsten Eigenwerten gesucht, wobei deren Berechnung der instabilste Teil der Lösung des Eigenwertproblems ist. Deshalb wird das Problem (8) in folgendes Problem umformuliert, wobei λ=\lλ:

X⁷XW=A[X¹ K-¹X+^]W (9) Es wird somit nach den K Eigenvektoren mit den größten Eigenwerten gesucht.

Figur 1 zeigt zusammenfassend den Ablauf des soeben beschrie^¬ benen Verfahrens, bei dem die Projektion in den latenten Vektorraum mithilfe einer Abbildungsfunktion erfolgt, welche eine lineare Abbildung der Merkmalsvektoren ist.

Zunächst wird in Schritt Sl für vorgegebene Merkmalsvektoren und Ausgabevektoren Xe9?^WxM und Ye SR^¹ die Dimension K des latenten Vektorraums sowie ein Wert für ß (der größer als 0 und kleiner bzw. gleich 1 ist) sowie ein Wert für γ (der größer bzw. gleich 0 ist) festgelegt.

In Schritt S2 wird dann die Matrix K wie folgt berechnet: K = (l-/?)XX^r+/?YY^r

Schließlich wird im Schritt S3 folgendes verallgemeinerte Ei- genwertproblem gelöst:

X^rXw=^[X⁷K-¹X+^]w

Hierdurch werden Eigenvektoren W₁,...,W_x mit den größten K Ei- genwerten \≥ ...≥ λ_κ erhalten.

Hieraus wird dann im Schritt S4 die Projektionsfunktion in den latenten Vektorraum wie folgt ermittelt:

Im Vorangegangenen wurden lineare Abbildungsfunktionen betrachtet, um die Merkmalsvektoren x in einen latenten Vektorraum zu projizieren. Jedoch impliziert der Satz 3 auch die Verwendung einer nicht-linearen Abbildungsfunktion. Hierzu werden sog. Kernels betrachtet. Hierbei handelt es sich um eine auf dem Gebiet des maschinellen Lernens hinlänglich bekannte Gruppe von Funktionen, welche ein Skalarprodukt in einem hochdimensionalen Raum darstellen und auf einer Da- tenmenge eine positiv-semidefinite Kernel-Matrix mit Eigen^¬ werten größer bzw. gleich 0 erzeugen.

Im folgenden wird eine Kernel-Funktion k (•,•) betrachtet, wel- che das innere Produkt im Vektorraum der Merkmalsvektoren ist, d.h. k (x.,x .) = (x.,x .) = x_ι ^τx_] .

Mithilfe von Satz 3 ergibt sich dann:

wobei K_^ die N x N Kernel-Matrix ist, welche folgende Bedin^¬ gung erfüllt:

(K X)l.,J.=kX(xI.,xJ.).

|w| kann mit der Kernel-Matrix wie folgt berechnet werden:

|w|² =w^rw = α^rXX^rα = α^rK_χα .

Analog kann eine Kernel-Funktion für das innere Produkt im Vektorraum der Ausgabevektoren mit entsprechender Kernel- Matrix K ,= YY^r definiert werden. Die Matrix K kann somit unter Verwendung von Kernels definiert werden:

Die Gleichung (7) kann somit wie folgt formuliert werden:

min α^rK K^-1K α + 7u^rK α (H ) αdR^V x x ^r x wobei

Hieraus ergibt sich folgendes verallgemeinertes Eigenwert^¬ problem:

Die Gleichung (12) kann wie folgt umgeschrieben werden, wobei λ = \lλ gilt:

K²α=;t[K K-¹K +γK ]α :i3)

Die ersten K Eigenvektoren werden zur Erzeugung der Abbildungsfunktionen verwendet. Die j-te Abbildungsfunktion (j=l,...,K) lautet dann wie folgt:

wobei O₁,...,^ die K Eigenvektoren mit den größten Eigenwerten A₁ ≥ ... > λ_κ sind.

Bis hierhin wurde die zuvor beschriebene Lösung des Optimie^¬ rungsproblems mit einer linearen Abbildungsfunktion lediglich umformuliert. Durch eine Verallgemeinerung der Kernel- Funktionen auf nicht-lineare Abbildungen kann jedoch auch ei- ne nicht-lineare Abbildungsfunktion zur Projektion in den latenten Vektorraum erhalten werden. Hierzu wird die nichtlineare Abbildung φ: x e9ϊ^M —>φ{x) eF definiert, welche einen Merkmalsvektor x in einen hochdimensionalen oder sogar unend- lich-dimensionalen Vektorraum F abbildet. Die Matrix X wird gewählt als [^(X₁),..., φ(x_N)]^τ . Somit wird die Kernel- Funktion definiert als:

k_χ(x.,x )=(φ(x.),φ(x ) Da weiterhin K_^=XX^r gilt, können direkt die Kernel- Funktionen k (x.,x .) verwendet werden, ohne dass φ{-) explizit x i j bekannt ist. Beispielsweise können die in Anspruch 10 defi^¬ nierten Gaußschen RBF-Kernels verwendet werden.

Eine Kernel-Matrix K_y für den Vektorraum der Ausgabevektoren kann analog zu K₁ durch eine nicht-lineare Abbildung φ{-) de^¬ finiert werden.

Figur 2 zeigt zusammenfassend den Ablauf des soeben beschrie^¬ benen Verfahrens, bei dem die Projektion in den latenten Vektorraum mithilfe von Kernel-Funktionen erfolgt, um insbesondere eine nicht-lineare Abbildung der Merkmalsvektoren in den latenten Vektorraum zu ermöglichen.

Zunächst wird in Schritt Sl¹ für vorgegebene Merkmalsvektoren und Ausgabevektoren XeS^^ und YeS^^*1 die Dimension K des latenten Vektorraums sowie ein Wert für ß (der größer als 0 und kleiner bzw. gleich 1 ist) sowie ein Wert für γ (der größer bzw. gleich 0 ist) festgelegt.

In Schritt S2 ' werden die Kernel-Matrizen (K ). . und x ι,J

(K ). .zu vorgegebenen Kernel-Funktionen k (x.,x .) bzw. y ι,j x i j k (y.,y .) bestimmt und anschließend wird die Matrix K wie folgt berechnet:

Sollten Dateneinträge in der Matrix Y fehlen, wird die Matrix K wie folgt approximiert:

K =Y -^Y₇Y.^r, wobei N_; die Anzahl von nicht fehlenden Einträgen in der 1- ten Spalte von Y ist und Y_; die 1-te Spalte von Y ist, wo^¬ bei die fehlenden Einträge mit 0 aufgefüllt wurden. Schließlich wird im Schritt S3¹ folgendes verallgemeinerte Eigenwertproblem gelöst:

Hierdurch werden die Eigenvektoren O₁,...,O^ mit den größten K Eigenwerten \≥...≥λ_κ erhalten.

Hieraus wird dann im Schritt S4 ' die Projektionsfunktion in den latenten Vektorraum wie folgt ermittelt:

Nachfolgend werden zwei Beispiele erläutert, in denen das er- findungsgemäße Verfahren in einem Verfahren zum maschinellen Lernen eingesetzt wird. Das erfindungsgemäße Verfahren wird nachfolgend als MORP-Verfahren (MORP = Multi-Output Regulari- zed Projection) bezeichnet.

Das erste Beispiel betrifft ein Experiment zur Vorhersage der Präferenzen von Benutzern. Es wurden hierbei Gemälde betrachtet, wobei jedes Gemälde durch einen 491-dimensionalen Merkmalsvektor charakterisiert ist. Die Merkmalsvektoren umfassen hierbei jeweils ein Farb-Histogramm (216-dimensional) , ein Korrelogramm (256-dimensional) , erste und zweite Farb-Momente (9-dimensional) und eine Pyramiden-Wavelet-Struktur (10- dimensional) . Es wurden die Beurteilungen von insgesamt 190 Benutzern für 642 Gemälde gesammelt. Jeder Benutzer konnte zwischen den beiden Beurteilungen "Gefallen" und "Nichtgefal- len" für eine Anzahl von zufällig ausgewählten Gemälden wählen. Die 190 Beurteilungen von jedem Benutzer stellen somit die Dateneinträge von Ausgabevektoren dar, wobei jeder Ausga^¬ bevektor einem Merkmalsvektor (d. h. Gemälde) zugeordnet ist. Durchschnittlich hatte jeder Benutzer 89 Gemälde beurteilt, so dass Dateneinträge in den Ausgabevektoren fehlen. Es handelt sich somit um ein typisches Klassifikationsproblem mit mehreren Ausgaben, da für jedes Gemälde eine Vielzahl von Beurteilungen der Benutzer vorhergesagt werden muss.

Zur Lösung dieses Problems wurde eine maschinelle Lernmethode basierend auf Support-Vektor-Maschinen (SVM) verwendet, wobei in einem Vorverarbeitungsschritt mittels des MORP-Verfahrens die 491-dimensionalen Merkmalsvektoren in einen 20-dimensio- nalen latenten Vektorraum projiziert wurden. Es wurde hierbei eine Ausführungsform des MORP-Verfahrens eingesetzt, welche eine RBF-Kernel-Funktion für K und eine lineare Kernel- x

Funktion für K verwendet. Es wurde /7 = 0,5 und ;r = 0,001 ge^¬ wählt. Der Wert von γ ist für das Verfahren unkritisch, solange er sehr klein ist. Das MORP-Verfahren wurde hierbei mit einem Kernel-PCA-Verfahren, einem Kernel-CCA-Verfahren sowie einem Verfahren, das die ursprünglichen Merkmalsvektoren verwendet, verglichen.

Zum Trainieren des SVM-Verfahrens wurden für eine Anzahl von Test-Nutzer jeweils 20 Beurteilungen verwendet und anschlie- ßend wurden die restlichen Beurteilungen vorhergesagt. Im

MORP- und CCA-Verfahren wurden zur Berechnung der Projektion die 190-dimensionalean Ausgabevektoren verwendet, wobei fehlende Einträge mit Nullen aufgefüllt wurden.

Als erste Metrik zur Beurteilung der Vorhersagequalität wurde die sog. Top-N-Genauigkeit verwendet, welche das Verhältnis der tatsächlich in die Kategorie „Gefallen" eingestuften Gemälde zu den N am besten bewerteten Gemälden wiedergibt. Da im Vektorraum der Ausgabevektoren Dateneinträge fehlen, wurde nur der Anteil an bekannten, in der Kategorie „Gefallen" eingestuften Gemälden gezählt. Diese Größe ist kleiner als die tatsächliche Top-N-Genauigkeit. Im vorliegenden Experiment ist die Auswahl der Gemälde, die den Benutzern vorgestellt wurden, zufällig, so dass die Verteilungen von beurteil- ten/nicht beurteilten Gemälden auch zufällig ist. Die zufäl^¬ lige Auswahl verändert nicht die Verhaltensweisen der betrachteten Verfahren. Die zweite Metrik ist die sog. ROC-Kurve, bei der in Abhän^¬ gigkeit von einem festgelegten Einstufungskriterium, ob ein Gemälde als gut oder schlecht angesehen wird (dieses Kriteri- um kann darüber festgelegt werden, wie viele der am besten bewerteten Gemälde der Kategorie „gutes Gemälde" zugeordnet werden), die Sensitivität (d.h. dass ein gutes Gemälde durch das System empfohlen wird) gegen (1-Spezifität ) aufgetragen ist, wobei die Spezifität die Wahrscheinlichkeit wiedergibt, dass ein schlechtes Gemälde vom System zurückgewiesen wird. Je größer die Fläche unter der ROC-Kurve, desto besser ist die Qualität des Algorithmus.

Fig. 3 zeigt im linken Diagramm den Vergleich der Top-N- Genauigkeiten des MORP-Verfahrens und der o.g. Vergleichsverfahren. Man erkennt, dass das MORP-Verfahren wesentlich bessere Genauigkeiten als die anderen Verfahren liefert. Das rechte Diagramm zeigt die ROC-Kurven für das MORP-Verfahren und die o.g. Vergleichsverfahren. Auch hier erkennt man, dass der MORP-Algorithmus die besten Ergebnisse liefert, da seine Fläche unter der ROC-Kurve am größten ist.

Das zweite Beispiel betrifft die Klassifikation von Objekten, wobei zwei Objektdatensätze verwendet wurden. Der erste Da- tensatz betrifft Dokumente aus der Textsammlung Reuters-

21578, die Fachleuten hinlänglich bekannt ist und in der den Dokumenten eine Vielzahl von Kategorien zugewiesen sind. Der zweite Datensatz betrifft Bilder aus der Corel-Image- Datenbank, die Fachleuten ebenfalls bekannt ist. Den Bildern wurden hierbei manuell Kategorien zugewiesen. In diesem zweiten Beispiel wurde wiederum das SVM-Lernverfahren mit dem MORP-Verfahren sowie mit Vergleichsverfahren (Kernel-PCA und dem Verfahren mit den ursprünglichen Merkmalsvektoren) kombiniert. Die Objekte (d.h. die Dokumente bzw. die Bilder) wur- den in zwei Datengruppen Sl und S2 aufgeteilt, wobei die Ob^¬ jekte in S2 bei der Berechnung der Projektion im MORP- Verfahren nicht verwendet wurden. Ferner wurde das MORP- Verfahren für /? = 0,96 und /? = 1 getestet. Im MORP-Verfahren wurde im Falle der Dokumente der Textsammlung eine lineare Kernel-Funktion verwendet, wohingegen bei den Bildern der Co- rel-Image-Datenbank eine RBF-Kernel-Funktion (mit σ = 25) eingesetzt wurde. Ferner wurde in den MORP-Verfahren in einem 50-dimensionalen latenten Vektorraum projiziert und γ wurde auf 1 gesetzt.

Figur 4 zeigt vier Diagramme, welche die Genauigkeiten der mit den Verfahren vorhergesagten Klassifikationen in Abhän- gigkeit von der Anzahl der Trainigsdaten wiedergeben. Hierbei betreffen die oberen beiden Diagramme die Ergebnisse für die Reuters-Dokumente und die unteren Diagramme zeigen die Resul^¬ tate für die Corel-Image-Datenbank. Ferner beziehen sich die beiden linken Diagramme auf die Datengruppe Sl und die rech- ten Diagramme betreffen die Datengruppe S2. Man erkennt, dass das MORP-Verfahrn in vielen Fällen bessere Ergebnisse als die anderen Verfahren liefert, insbesondere für die Bilder der Corel-Image-Datenbank .

Claims

Patentansprüche

1. Verfahren zur rechnergestützten Verarbeitung von digitalen Daten, insbesondere zur Verwendung in einem Verfahren zum ma- schinellen Lernen, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensiona^¬ len Merkmalsvektor (X₁) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (X₁) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (V₁) mit digitalen Datenein- trägen zugeordnet ist, bei dem: a) eine Projektion berechnet wird, mit der die Merkmalsvek^¬ toren (X₁) und die Ausgabevektoren (V₁) in einen latenten Vektorraum projiziert werden, wobei die Projektion ein Rekonstruktionsfehlermaß optimiert und insbesondere mini- miert, welches von dem Unterschied zwischen den Ausgabe^¬ vektoren (Y₁) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren abhängt; b) mit der in Schritt a) berechneten Projektion Merkmalsvektoren (X₁) von neuen und/oder bekannten Objekten in den latenten Vektorraum projiziert werden, wodurch modifizierte digitale Daten erhalten werden.

2. Verfahren nach Anspruch 1, bei dem das Rekonstruktionsfehlermaß ferner von dem Unterschied zwischen den Merkmalsvekto- ren (X₁) und den mit der Projektion projizierten und anschließend rekonstruierten Merkmalsvektoren abhängt.

3. Verfahren nach Anspruch 1 oder 2, bei dem die Dimension des latenten Vektorraums kleiner als die Dimension des Vek- torraums der Merkmalsvektoren (X₁) und/oder die Anzahl von Objekten.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Optimierung des Rekonstruktionsfehlermaßes zur Berechnung der Projektion wie folgt lautet:

min (1-/?)|X-VA|²+/?|Y-VB|²

A,B,V wobei VeSR"^**, Xe9T^xM, A≡SR^KxM _r Ye^, Ber^xL

wobei V⁷V = I;

wobei

] ;

wobei X₁ der i-te Merkmalsvektor mit der Dimension M ist;

wobei Y = Ly₁J ^'^_Nf }

wobei V₁ der i-te Ausgabevektor mit der Dimension L ist;

wobei A, B die Ladungsmatrizen für X bzw. Y sind;

wobei N die Anzahl an Objekten ist;

wobei K die Dimension des latenten Vektorraums ist; und

5. Verfahren nach Anspruch 4, bei dem die Optimierung des Rekonstruktionsfehlermaßes in folgende Optimierung umgewandelt wird:

max v^rKv

wobei V V = I,

wobei K = (l-ß)XX^T+ßYY^T ,

wobei die Lösung dieser Optimierung gegeben ist durch

V=[V₁,...,^], A = V^rX, B = V^rY wobei vi bis v_κ die Eigenvektoren von K mit entsprechenden, in absteigender Reihenfolge sortierten Eigenwerten sind, wobei die Optimierung rekursiv für jedes v-, durch Maximieren des Ausdrucks v^rKv mit der Einschränkung V⁷V = 1 und v -L SPaWJv₁, _> ^v ₇-i} gelöst wird.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Abbildungsfunktion (^_;(x)) für die Projektion verwendet wird, welche die digitalen Dateneinträge der Merkmalsvektoren als Variablen enthält, wobei diese Variablen durch die Abbil^¬ dungsfunktion in den latenten Vektorraum projiziert werden.

7. Verfahren nach Anspruch 6 in Kombination mit Anspruch 4 oder 5, bei dem die Abbildungsfunktion (ψ^x)) wie folgt lau- tet oder von folgendem Ausdruck abhängt:

wobei W₁,....,w_t e 9Ϊ^M die Eigenvektoren mit den größten K Eigen- werten λi≥ > λ_κ des folgenden Eigenwertproblems sind:

X^rXw = A[X¹K-¹X + γl]w

wobei K = (I-ß)XX^T +/?YY^rund γ > 0, insbesondere γ = 1, gilt.

8. Verfahren nach Anspruch 6 in Kombination mit Anspruch 4 oder 5, bei dem die Abbildungsfunktion (ψ_}(x)) wie folgt lautet oder von folgendem Ausdruck abhängt:

j=l,..,K wobei gilt (K )..=k (x.,X .) Und (K )..=k (\.,\.)

wobei (K ). . eine N x N Kernel-Matrix für eine Kernel- x ι,J

wobei K = (I-^)K_x-HyOK

wobei a₁,....,a_k ≡9Ϊ die Eigenvektoren mit den größten K Eigen- werten λi > > λ_κ des folgenden Eigenwertproblem sind:

wobei γ > 0, insbesondere γ = 1, gilt.

9. Verfahren nach Anspruch 8, bei dem die Kernel-Funktionen k (X.,X .) und k (y.,y .) Gaußsche RBF-Kernels sind, welche wie folgt definiert sind:

10. Verfahren nach Anspruch 6 oder 7, bei dem die Abbildungs- funktion (ψ (x) ) eine lineare Abbildung der Merkmalsvektoren (X₁) ist.

11. Verfahren nach Anspruch 8 oder 9, bei dem die Abbildungsfunktion (ψ_}(x)) eine nichtlineare Abbildung der Merkmalsvek- toren (X₁) ist.

12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem jedem Merkmalsvektor (X₁) mehrere Typen von Ausgabevektoren (V₁) zugeordnet sind, wobei das Rekonstruktionsfehlermaß den Unterschied zwischen den Ausgabevektoren (V₁) und den mit der Projektion projizierten und anschließend rekonstruierten Ausgabevektoren von jedem Typ von Ausgabevektoren (V₁) berücksichtigt .

13. Verfahren zum maschinellen Lernen auf der Basis von digitalen Daten, wobei die digitalen Daten eine Anzahl von Objekten beinhalten, wobei jedes Objekt einen mehrdimensionalen Merkmalsvektor (X₁) mit digitalen Dateneinträgen umfasst und wobei jedem Merkmalsvektor (X₁) wenigstens ein ein- oder mehrdimensionaler Ausgabevektor (V₁) mit digitalen Dateneinträgen zugeordnet ist, bei dem: i) mit einem Verfahren nach einem der vorhergehenden Ansprüche die Merkmalsvektoren (X₁) in einen latenten Vektorraum projiziert werden; ii) auf der Basis der in Schritt i) ermittelten projizierten Merkmalsvektoren (X₁) ein maschinelles Lernverfahren trainiert wird, um anschließend Vorhersagen über Ausga^¬ bevektoren (Y₁) von bekannten und/oder neuen Objekten zu ermitteln .

14. Verfahren nach Anspruch 13, bei dem das maschinelle Lernverfahren auf Support-Vektor-Maschinen basiert.

15. Verfahren nach Anspruch 13 oder 14, wobei das Verfahren zur Mustererkennung und/oder Datenextraktion, insbesondere zur Extraktion von Datenkategorien, in den Objekten eingesetzt wird.

16. Verfahren nach Anspruch 13 oder 14, wobei das Verfahren zum kollaborativen Filtern eingesetzt wird.

17. Computerprogrammprodukt, mit einem auf einem maschinen^¬ lesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programmprodukt auf einem Rechner abläuft.