Beschreibungdescription
Verfahren zur Gliederung eines auf mindestens einem Speicher¬ medium gespeicherten DatenbestandesMethod for structuring a data stored on at least one Speicher¬ medium
Die vorliegende Erfindung betrifft ein Verfahren und ein Com¬ puterprogrammprodukt zur Gliederung eines auf mindestens ei¬ nem Speichermedium gespeicherten Datenbestandes.The present invention relates to a method and a computer program product for the structuring of a data stock stored on at least one storage medium.
Riesige Datenmengen entstehen heute in Unternehmen, in For¬ schungsprojekten, in Verwaltungen oder im Internet. Data- Mining ermöglicht das automatische Auswerten solcher Datenbe¬ stände mit Hilfe von statistischen Verfahren. Ziel dabei ist das Aufspüren von Regeln bzw. statistischen Auffälligkeiten. Darunter versteht man das systematische (in der Regel automa¬ tisierte oder halbautomatische) Entdecken und Extrahieren un¬ bekannter Informationen aus großen Mengen von Daten. Hierzu werden die Datenbestände nach Regelmäßigkeiten, Mustern und Strukturen, Abweichungen und jeglicher Art von Beziehungen und gegenseitigen Beeinflussungen untersucht. Der Prozess der Mustererkennung und Wissensextraktion wird auch 'Knowledge Discovery in Databases' (KDD) genannt.Huge amounts of data are generated today in companies, in research projects, in administrations or on the Internet. Data Mining allows the automatic evaluation of such Datenbe¬ states by means of statistical methods. The goal here is the detection of rules or statistical abnormalities. This refers to the systematic (usually automated or semi-automatic) detection and extraction of unknown information from large amounts of data. For this purpose, the databases are examined for regularities, patterns and structures, deviations and any kind of relationships and mutual influences. The process of pattern recognition and knowledge extraction is also called Knowledge Discovery in Databases (KDD).
Wir betrachten das Problem der Modellierung eines großen Kor- pus von diskreten Datensätzen mit einer hohen Dimension. Wir nehmen an, dass ein Datensatz durch latente Faktoren model¬ liert werden kann, die für das Auftreten von Elementen in ei¬ nem Datensatz stehen. Für eine Vertiefung der Diskussion wer¬ den wir im Folgenden Datensätze mit Dokumenten, latente Fak- toren mit (latenten) Themen und Elemente mit Wörtern identi¬ fizieren. PLSI [7] stellt einen der ersten Versuche eines probabilistischen Ansatzes zur Modellierung von Textdokumen¬ ten als Zusammensetzungen aus latenten Themen dar. LDA [4] generalisiert PLSI, insoweit es die Themenmischungsparameter (d. h. ein Multinomial über Themen) als Variablen betrachtet, die aus einer Dirichlet-Verteilung gewonnen werden. Seine Bayessche Interpretation vermeidet Overfitting, und das Mo¬ dell ist auf neue Daten generalisierbar (letzteres ist für
PLSI problematisch) . Die parametrische Dirichlet-Verteilung kann jedoch eine Begrenzung für Anwendungen darstellen, die eine reichere Struktur aufweisen. Man betrachte als Beispiel dazu Figur 1 (a) , die die empirische Verteilung von drei The- men zeigt. Wir sehen, dass die Wahrscheinlichkeit, dass alle drei Themen in einem Text vorhanden sind (entspricht der Mit¬ te der Zeichnung), nahezu null ist. Im Gegensatz dazu würde eine Dirichlet-Verteilung über den Daten (Figur 1 (b) ) die höchste Wahrscheinlichkeitsdichte für eben diesen Fall vor- hersagen. Dies liegt in der begrenzten Expressivität einer einfachen Dirichlet-Verteilung begründet.We consider the problem of modeling a large corpus of discrete data sets with a high dimension. We assume that a dataset can be modeled by latent factors that represent the occurrence of elements in a dataset. To deepen the discussion, we will identify data sets with documents, latent factors with (latent) topics, and elements with words. PLSI [7] is one of the first attempts of a probabilistic approach to the modeling of text documents as compositions of latent topics. LDA [4] generalizes PLSI to the extent that it considers the topic mix parameters (ie a multinomial over topics) as variables consisting of a Dirichlet distribution will be won. His Bayesian interpretation avoids overfitting, and the model is generalizable to new data (the latter is for PLSI problematic). However, the parametric Dirichlet distribution can be a limitation for applications that have a richer structure. For example, consider Figure 1 (a), which shows the empirical distribution of three topics. We see that the probability that all three topics are in one text (equivalent to the middle of the drawing) is close to zero. In contrast, a Dirichlet distribution over the data (Figure 1 (b)) would predict the highest probability density for this case. This is due to the limited expressivity of a simple Dirichlet distribution.
Somit liegt der vorliegenden Erfindung die Aufgabe zugrunde, ein Verfahren zur Identifizierung von Themenschwerpunkten und/oder Themengruppen in einem auf mindestens einem Spei¬ chermedium gespeicherten Datenbestand anzugeben, welches we¬ sentlich flexibler als die aus dem Stand der Technik bisher bekannten Verfahren ist und somit auch eine Identifizierung von Themengruppen bzw. eine Clusterung von Dokumenten ermög- licht.The present invention is therefore based on the object of specifying a method for identifying topics and / or topic groups in a database stored on at least one storage medium, which is considerably more flexible than the methods hitherto known from the prior art and thus also identification of topic groups or clustering of documents.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren und ein Computerprogrammprodukt mit den in Anspruch 1 und An¬ spruch 13 angegebenen Merkmalen gelöst. Vorteilhafte Weiter- bildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention, this object is achieved by a method and a computer program product having the features specified in claim 1 and claim 13. Advantageous further developments of the present invention are specified in the dependent claims.
Entsprechend der vorliegenden Erfindung wird in einem Ver¬ fahren zur Gliederung eines auf mindestens einem Speicherme- dium gespeicherten Datenbestandes als statistisches Modell zur Modellierung des Datenbestandes eine Dirichlet-Verteilung mit beliebig vielen Zuständen verwendet. In einem iterativen Prozess werden Variablen des statistischen Modells an den Da¬ tenbestand angepasst. Der Datenbestand wird anhand der Zu- stände des angepassten statistischen Modells gegliedert.According to the present invention, in a method for structuring a data stock stored on at least one storage medium, a Dirichlet distribution with any number of states is used as the statistical model for modeling the data. In an iterative process, variables of the statistical model are adapted to the data stock. The database is structured according to the status of the adapted statistical model.
Nach einer bevorzugten Ausführungsvariante des erfindungsge¬ mäßen Verfahrens wird das statistische Modell zur Modellie-
rung des Datenbestandes als Dirichlet-Prozess und der itera¬ tive Prozess als Mean-Field Algorithmus basierend auf einer finiten Näherung ausgestaltet. Dieses Modell zur Dirichlet- erweiterten latenzsemantischen Analyse behält in vorteilhaf- ter Weise die Leistungsfähigkeit früherer Ansätze beim Auf¬ finden der latenten Themen bei, und führt zudem eine zusätz¬ liche Modellierungsflexibilität ein, um Dokumentencluster zu untersuchen. Bei der Inferenz wird von einer variationalen Mittlungsfeldapproximation ausgegangen, die auf einer finiten Approximation für DP (Dirichlet Prozess) basiert.According to a preferred embodiment of the method according to the invention, the statistical model for modeling tion of the data stock as a Dirichlet process and the iterative process designed as a mean-field algorithm based on a finite approximation. This model for Dirichlet-extended latency semantic analysis advantageously retains the performance of earlier approaches to finding the latent themes, and also introduces additional modeling flexibility to examine document clusters. The inference assumes a variational averaging field approximation based on a finite approximation for DP (Dirichlet process).
Nach einer weiteren vorteilhaften Ausführungsvariante der vorliegenden Erfindung wird der gegliederte Datenbestand und/oder Informationen über den gegliederten Datenbestand auf einem Speichermedium abgespeichert. Da Daten über die vorge¬ nommene Gliederung in dem Speichermedium sehr schnell gefun¬ den werden können, hat dies die vorteilhafte Wirkung, dass ein schneller Zugriff auf die Daten gewährleistet wird.According to a further advantageous embodiment of the present invention, the articulated data and / or information about the structured database is stored on a storage medium. Since data about the structure in the storage medium can be found very quickly, this has the advantageous effect of ensuring fast access to the data.
Ohne Beschränkung der Allgemeinheit dieses Begriffs umfasst das Speichermedium flüchtige, permanente und semi-permanente Speichermedien, wobei die Speicherung beispielsweise auf elektronischen, magnetischen, optischen und magneto-optischen Medien erfolgen kann.Without limiting the generality of this term, the storage medium comprises volatile, permanent and semi-permanent storage media, wherein the storage can be done for example on electronic, magnetic, optical and magneto-optical media.
Bei der Ausführung des erfindungsgemäßen Computerprogrammpro¬ dukts wird durch die Programmablaufsteuerungseinrichtung zur Gliederung eines auf mindestens einem Speichermedium gespei¬ cherten Datenbestandes als statistisches Modell zur Modellie- rung des Datenbestandes eine Dirichlet-Verteilung mit belie¬ big vielen Zuständen verwendet. In einem iterativen Prozess werden Variablen des statistischen Modells an den Datenbe¬ stand angepasst. Der Datenbestand wird anhand der Zustände des angepassten statistischen Modells gegliedert.In the execution of the computer program product according to the invention, the program sequence control device uses a Dirichlet distribution with a large number of states as the statistical model for modeling the data stock for structuring a data stock stored on at least one storage medium. In an iterative process, variables of the statistical model are adapted to the data content. The database is structured according to the states of the adapted statistical model.
Die vorliegende Erfindung wird nachfolgend an einem Ausfüh¬ rungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigt
die Figur 1 einen 2-dimensionalen Simplex, der drei Themen repräsentiert (die Summe der drei Wahrschein¬ lichkeiten muss dabei 1 ergeben) : a) die Wahr- scheinlichkeitsverteilung von Themen in Dokumen¬ ten, die eine ringförmige Verteilung bildet. Dunkle Gebiete stellen dabei eine niedrige Dich¬ te dar; (b) die 3-dimensionale Dirichlet- Verteilung, die die Likelihood-Wahrschein- lichkeit der Stichproben maximiert,The present invention will be explained in more detail below with reference to an exemplary embodiment with reference to the drawings. It shows FIG. 1 shows a 2-dimensional simplex which represents three topics (the sum of the three probabilities has to be 1): a) the probability distribution of topics in documents, which forms an annular distribution. Dark areas represent a low density. (b) the 3-dimensional Dirichlet distribution, which maximizes the likelihood probabilities of the samples,
die Figur 2 (a) eine Latenzsemantische Analyse mit DP-Prior; (b) eine äquivalente Repräsentation, wobei cd die Indikatorvariable ist, die anzeigt, welches Cluster d aus der infiniten Menge von durch DP induzierten Clustern genommen wird; (c) eine La¬ tenzsemantische Analyse mit einer finiten Alter¬ native von DP (s. Abschnitt 2),Figure 2 (a) is a latency semantic analysis with DP Prior; (b) an equivalent representation, where cd is the indicator variable indicating which cluster d is taken from the infinite set of DP-induced clusters; (c) a latent semantic analysis with a finite alternative of DP (see Section 2),
die Figur 3 experimentelle Ergebnisse für ein Spielproblem;Figure 3 shows experimental results for a game problem;
(a) Initiale zufällige Dokument-Cluster- Zuweisung φd,l; (b) Dokument-Cluster-Zuweisung nach einem EM-Schritt; (c) Dokument-Cluster- Zuweisung nach fünf Schritten; (d) Das ursprüng- liehe ß; (e) Das geschätzte ß; (f) Die gelernte(a) Initial random document cluster assignment φd, l; (b) document cluster assignment after an EM step; (c) document cluster assignment after five steps; (d) The original ß; (e) The esteemed ß; (f) The learned
Clusterzahl im Hinblick auf die tatsächliche Zahl mit Mittelwert und Fehlerintervall,Cluster number in terms of the actual number with mean and error interval,
Die Figur 4 (a) und (b) : Perplexity-Ergebnisse für Reuters- 21578 und 20-newsgroups für DELSA, PLSI und LDA;Figures 4 (a) and (b): perplexity results for Reuters 21578 and 20 newsgroups for DELSA, PLSI, and LDA;
(c) : Clusterbildungsergebnis auf der Datenmenge 20-newsgroups.(c): clustering result on the dataset 20 newsgroups.
In diesem Ausführungsbeispiel wird ein allgemeinerer nicht- parametrischer Bayesscher Ansatz entwickelt, mit dem nicht nur latente Themen und ihre Wahrscheinlichkeiten untersucht werden können, sondern auch komplexe Abhängigkeiten, die bei¬ spielsweise als eine komplexe Clusterstruktur ausgedrückt
werden können. Die wesentliche Neuerung ist, dass die para¬ metrische a-priori-Dirichlet-Verteilung in LDA durch eine flexible nicht-parametrische Verteilung G(-) ersetzt wird, eine Stichprobe, die aus einem Dirichlet-Prozess (DP) erzeugt wird, in dem die Dirichlet-Verteilung der LDA die Basisver¬ teilung wird. In diesem durch Dirichlet-Prozess erweiterten Modell konvergiert die a-posteriori-Verteilung der Themenmi¬ schung für ein neues Dokument gegen ein flexibles infinites Mischungsmodell, in dem sowohl die Mischungsgewichte als auch die Mischungsparameter aus den Daten gelernt werden können. So ist die a-posteriori-Verteilung in der Lage, die Vertei¬ lung von Themen wahrheitsgetreuer darzustellen. Nach dem Kon¬ vergieren der Lernprozedur bleiben typischerweise nur noch wenige Komponenten mit nicht vernachlässigbaren Gewichten üb- rig; das Modell ist also in der Lage, Cluster von Dokumenten in natürlicher Weise auszugeben.In this embodiment, a more general non-parametric Bayesian approach is developed that can be used to study not only latent topics and their probabilities, but also complex dependencies, for example, expressed as a complex cluster structure can be. The main innovation is that the parametric a priori Dirichlet distribution in LDA is replaced by a flexible non-parametric distribution G (-), a sample generated from a Dirichlet process (DP) in which the Dirichlet distribution of the LDA becomes the basic distribution. In this model, which is expanded by Dirichlet's process, the a posteriori distribution of the topic mixture for a new document converges to a flexible infinite mixture model in which both the mixture weights and the mixing parameters can be learned from the data. Thus, the a posteriori distribution is able to represent the distribution of topics more truthfully. After the learning procedure has been changed, only a few components with negligible weights typically remain otherwise; the model is thus able to output clusters of documents in a natural way.
Nicht-parametrische Bayessche Modellierung hat in der Lern- Community eine beachtliche Anerkennung gefunden (z. B. [1, 11, 2, 3, 12]) . Ein potenzielles Problem bei dieser Klasse von Modellen ist, dass Inferenzen typischerweise auf MCMC- Approximationen angewiesen sind. Das kann aber beim Umgang mit der großen Sammlung von Dokumenten zu einer unzulässigen Verlangsamung führen. Zusätzlich zur Präsentation eines Di- richlet-erweiterten LDA-Modells wird in diesem Ausführungs¬ beispiel eine variationale Mittlungsfeldinferenz als eine fi- nite Approximation für nicht-parametrische Bayessche Model¬ lierung vorgeschlagen.Non-parametric Bayesian modeling has gained considerable recognition in the learning community (eg [1, 11, 2, 3, 12]). A potential problem with this class of models is that inferences typically rely on MCMC approximations. However, this can lead to an inadmissible slowdown in dealing with the large collection of documents. In addition to the presentation of a richlet-extended LDA model, a variational averaging field inference is proposed in this exemplary embodiment as a finite approximation for non-parametric Bayesian modeling.
Das Ausführungsbeispiel ist wie folgt aufgebaut. Im ersten Abschnitt wird eine Dirichlet-erweiterte latenzsemantische Analyse eingeführt. Im zweiten Abschnitt werden Inferenz und Lernalgorithmen präsentiert, die aus der variationalen Appro¬ ximation entspringen. Danach werden im dritten Abschnitt ex- perimentelle Ergebnisse unter Verwendung einer Spieldatenmen¬ ge und zweier Dokumentendatenmengen vorgestellt. Im letzten Abschnitt werden Schlussfolgerungen aus dem Dargestellten ge¬ zogen.
1 Dirichlet-erweiterte latenzsemantische AnalyseThe embodiment is constructed as follows. The first section introduces a Dirichlet-extended latency semantic analysis. In the second section, inference and learning algorithms are presented, which originate from the variational approximation. Thereafter, in the third section, experimental results are presented using a game data set and two document data sets. In the last section, conclusions are drawn from what has been said. 1 Dirichlet-extended latency semantic analysis
Wir verwenden die Notation aus [4] und betrachten einen Kor¬ pus D, der D Dokumente enthält. Jedes Dokument d ist eine endliche Folge aus Nd Wörtern, die durch wd = {Wd,i,..., Wd,Nd} be¬ zeichnet wird, wobei Wd,n eine Variable für das n-te Word in wd ist und den Index des entsprechenden Wortes im Vokabular V bezeichnet. Man beachte, dass das gleiche Wort in der Folge Wd mehrfach auftreten kann.We use the notation from [4] and consider a corpus D containing D documents. Each document d is a finite sequence of N d words, denoted by w d = {Wd, i, ..., Wd, Nd}, where W d , n is a variable for the nth word in w d is the index of the corresponding word in the vocabulary V. Note that the same word can occur multiple times in the sequence W d .
1.1 Das vorgeschlagene Modell1.1 The proposed model
Wir nehmen an, dass jedes Dokument eine Mischung aus k laten¬ ten Themen ist, und dass die Wörter in jedem Dokument dadurch erzeugt werden, dass wiederholt Stichproben von Themen und Wörtern gezogen werden, und zwar unter Verwendung der folgen¬ den Verteilungen:We assume that each document is a mixture of latent topics, and that the words in each document are generated by repeated sampling of topics and words, using the following distributions:
wd,n I Zd,n,ß ~ Multinomial (wd,n\ zd,n,ß) (1)
~ Multinomial (zd,nI θd) (2)w d , n I Zd, n, β ~ multinomial (w d , n \ z d , n, β) (1) ~ Multinomial (z d , n I θ d ) (2)
wd,n wird erzeugt durch sein latentes Thema zd,n, das Werte {!,...,k) annimmt, ß ist eine k x [V] -Matrix der Multinomialpa- rameter, ∑j ßlrD = 1, wobei die ßz,w(d,n> die Wahrscheinlichkeit angeben, dass bei gegebenem Thema z das Wort wd,n erzeugt wird, θd bezeichnet die Parameter einer Multinomialverteilung von Dokument d über den Themen für Wd, die der Gleichung θd,! ≥ 0,
θd,! = 1 genügen.w d , n is generated by its latent theme z d , n , which takes values {!, ..., k), β is a kx [V] matrix of the multinomial parameters, Σ j β lrD = 1, where the β z , w (d, n> indicate the probability that the word w d , n is generated for a given topic z, θ d denotes the parameters of a multinomial distribution of document d over the topics for W d corresponding to the equation θ d ,! ≥ 0, θ d ,! = 1 suffice.
Im LDA-Modell wird θd aus einer £-dimensionalen Dirichlet- Verteilung GQ (θ) = Dir(θ|λ) erzeugt, mit Parametern λ e Rk κ x. In unserem Dirichlet-erweiterten Modell nehmen wir an, dass θd aus einer Verteilung G(θ) erzeugt wird, die selbst eine durch einen Dirichlet-Prozess (DP)In the LDA model, θ d is generated from a £ -dimensional Dirichlet distribution GQ (θ) = Dir (θ | λ), with parameters λ e R k κ x . In our Dirichlet-extended model, we assume that θ d is generated from a distribution G (θ) that itself is one through a Dirichlet process (DP)
G\GOlao ~ DP (G0,α0) (3)
erzeugte zufällige Stichprobe ist, bei der die nichtnegative skalare Größe α0 der Präzisionsparameter ist, und Go (θ) die Basisverteilung ist, die identisch zur Dirichlet-Verteilung in LDA ist. Es zeigt sich, dass die aus einem DP gezogene Verteilung G(θ) alsG \ G Ol a o ~ DP (G 0 , α 0 ) (3) is the random sample generated, in which the non-negative scalar quantity α 0 is the precision parameter, and Go (θ) is the base distribution that is identical to the Dirichlet distribution in LDA. It turns out that the distribution G (θ) drawn from a DP
G = ∑"i=i U1Oe*(D (4)G = Σ " i = i U 1 Oe * (D (4)
geschrieben werden kann, wobei ∑°°i U1 = 1; δe sind in θ kon¬ zentrierte Punktmassenverteilungen, und θ*i sind abzählbar unendlich viele Variablen, die unabhängig identisch verteilt (iid) aus G0 gezogen werden. Die Wahrscheinlichkeitsgewichte U1 sind von α0 lediglich über einen Stick-Breaking-Prozess abhängig, wie er im nächsten Unterabschnitt definiert wird. Das in Figur 2 (a) zusammengefasste Erzeugungsmodell ist auf (k x I V| + k + 1) Parameter, d. h. ß, λ und α0, konditio¬ niert.can be written, where Σ °° i U 1 = 1; δe are point center distributions centered in θ, and θ * i are countably infinite variables that are independently drawn identically distributed (iid) from G 0 . The probability weights U 1 are dependent on α 0 only via a stick-breaking process, as defined in the next subsection. The generation model summarized in FIG. 2 (a) is conditioned on (kx IV | + k + 1) parameters, ie, β, λ and α 0 .
1.2 Stick-Breaking und Dirichlet-Erweiterung1.2 Stick-Breaking and Dirichlet extension
Die Repräsentation einer Stichprobe aus dem DP-Prior in Gl. (4) wird in dem Stick-Breaking-Prozess erzeugt, in dem eine unendliche Anzahl von Paaren (^,6*^ erzeugt wird. θ* 1 wird unabhängig aus Go gezogen, und 1I1 ist definiert alsThe representation of a sample from the DP prior in Eq. (4) is generated in the stick-breaking process in which an infinite number of pairs (^, 6 * ^ are generated.) Θ * 1 is independently drawn from Go, and 1I 1 is defined as
πi = B1, Ti1 = B1
,1-I) (I-B3),πi = B 1 , Ti 1 = B 1 , 1-I) (IB 3 ),
wobei die B1 unabhängig identisch verteilt aus der Betaver- teilung Beta (1, α0) gezogen werden. Mit einem kleinen α0 sind die ersten "Sticks" 1I1 groß, und für die verbleibenden Sticks bleibt nur noch wenig übrig. Ist andererseits α0 groß, sind die ersten Sticks Ti1 und alle nachfolgenden Sticks klein, und die Ti1 sind gleichmäßiger verteilt. In der Konsequenz be- stimmt die Basisverteilung die Orte der Punktmassen, und α0 bestimmt die Verteilung von Wahrscheinlichkeitsgewichten, was zu einer geclusterten Lösung führt, wenn α0 klein gewählt wird. Man beachte, dass sowohl die Orte als auch die Gewichte
nicht fixiert sind und immer dann neue Werte annehmen, wenn eine neue Stichprobe von G erzeugt wird. Da anfänglich E(G) = Go, entspricht der Prior dem Prior, der in LDA ange¬ wendet wird. Wenn sich in der Trainingsdatenmenge viele Doku- mente befinden, erhalten die Orte θ* lr die mit den Daten übereinstimmen, ein hohes Gewicht. Wenn ein kleines α0 ge¬ wählt wird, bilden die Parameter Cluster, wohingegen sich bei großem α0 viele repräsentative Parameter ergeben. Die Dirich- let-Erweiterung erfüllt also zwei Aufgaben: sie erhöht die Flexibilität der Darstellung der a-posteriori-Verteilung von gemischten Gewichten und begünstigt eine geclusterte Lösung, die einen Einblick in den Dokumentenkorpus ermöglicht.whereby the B 1 are independently distributed identically distributed from the beta distribution beta (1, α 0 ). With a small α 0 , the first "Sticks" 1I 1 are big, and the remaining sticks are left with little. On the other hand, when α 0 is large, the first sticks Ti 1 and all subsequent sticks are small, and the Ti 1 are more evenly distributed. As a consequence, the base distribution determines the locations of the point masses, and α 0 determines the distribution of probability weights, resulting in a clustered solution if α 0 is chosen to be small. Note that both the places and the weights are not fixed and accept new values whenever a new sample of G is generated. Since E (G) = Go initially, the Prior corresponds to the Prior, which is used in LDA. If there are many documents in the training data set, the locations θ * lr that agree with the data are given high weight. If a small α 0 is chosen, the parameters form clusters, whereas at large α 0 many representative parameters result. The Dirichlet extension thus fulfills two tasks: it increases the flexibility of the representation of the a posteriori distribution of mixed weights and favors a clustered solution that allows an insight into the document corpus.
Der DP-Prior bietet zwei Vorteile gegenüber den üblichen Me- thoden zur Clusterbildung von Dokumenten. Zum Ersten muss die Clusteranzahl nicht angegeben werden. Die am Ende resultie¬ rende Clusterstruktur wird durch den DP-Prior beschränkt, aber auch an die empirischen Beobachtungen angepasst. Zum Zweiten ist die Clusteranzahl nicht fixiert. Obwohl a0 ein Steuerparameter ist, mit dem die Clusterbildungstendenz be- einflusst werden kann, erlaubt der DP-Prior die Erstellung neuer Cluster, wenn das aktuelle Modell die anstehenden Daten nicht sehr gut erklären kann, was besonders bei unserer Vor¬ gabe der Fall sein kann, da das Wörterbuch fixiert ist, aber die Dokumente wachsen können.The DP Prior offers two advantages over the usual methods of clustering documents. First, the number of clusters need not be specified. The resulting final cluster structure is limited by the DP Prior, but also adapted to the empirical observations. Second, the number of clusters is not fixed. Although a 0 is a control parameter that can be used to influence the clustering tendency, the DP prior allows new clusters to be created if the current model can not very well explain the pending data, which is especially the case with our prediction can, because the dictionary is fixed, but the documents can grow.
Durch die Anwendung der Stick-Breaking-Repräsentation erhält unser Modell die äquivalente Darstellung in Figur 2 (b) . Eine unendliche Anzahl von θ*i wird aus der Basisverteilung er- zeugt, und die neue Indikatorvariable Cd zeigt an, welches Dokument welchem θ* ± zugeordnet wird. Wenn einem θ* ± mehr als ein Dokument zugeordnet wird, bilden sich Cluster, π = {πi, ,π„} ist ein Vektor von Wahrscheinlichkeitsgewichten, erzeugt aus dem Stick-Breaking-Prozess.By applying the stick-breaking representation, our model obtains the equivalent representation in Figure 2 (b). An infinite number of θ * i is generated from the base distribution, and the new indicator variable Cd indicates which document is assigned to which θ * ± . If more than one document is assigned to a θ * ± , clusters form, π = {πi,, π "} is a vector of probability weights generated from the stick-breaking process.
Unser Modell ist eine Generalisierung von LDA. Wenn α0 → ∞, wird das Modell identisch zu LDA, da die Stichprobe G iden¬ tisch zur finiten Dirichlet-Basisverteilung GQ wird. In die-
sem Extremfall sind Dokumente bei gegebenem Go paarweise un¬ abhängig, da die θd unabhängig identisch verteilt aus G0 ge¬ zogen werden. Wenn Go selbst nicht hinreichend expressiv ist, kann das Modell die Abhängigkeit zwischen den Dokumenten nicht erfassen. Die DP-Erweiterung löst dieses Problem auf eine elegante Weise. Mit einem moderaten α0 erlaubt das Mo¬ dell, dass G von Go wegdriften kann, was eine flexiblere Mo¬ dellierung ermöglicht, um die reichere Datenstruktur zu un¬ tersuchen. Die Austauschbarkeit muss nicht in der gesamten Sammlung bestehen, aber zwischen Gruppen von Dokumenten, de¬ ren entsprechende atomare θ*i aus Go gezogen wurden. Anderer¬ seits führt die gesteigerte Flexibilität nicht zu einem Over- fitting, da Inferenz und Lernen in einer Bayesschen Einstel¬ lung erfolgen, wobei die durchschnittlichen Anzahlen von Mi- schungskomponenten und Zustände der latenten Variablen ermit¬ telt werden.Our model is a generalization of LDA. If α 0 → ∞, the model becomes identical to LDA, since the sample G becomes identical to the finite Dirichlet basis distribution GQ. In the- In the extreme case, documents are pairwise unrelated for a given Go, since the θ d are drawn identically distributed from G 0 independently. If Go itself is not sufficiently expressive, the model can not capture the dependency between the documents. The DP extension solves this problem in an elegant way. With a moderate α 0 , the model allows G to drift away from Go, allowing more flexible modeling to explore the richer data structure. The interchangeability does not have to exist throughout the collection, but between groups of documents whose corresponding atomic θ * i have been drawn from Go. On the other hand, the increased flexibility does not lead to an overfitting, since inference and learning take place in a Bayesian setting, whereby the average numbers of mixture components and states of the latent variables are determined.
2 Inferenz und Lernen2 inference and learning
Trotz dieser attraktiven Eigenschaften ist eine Inferenz mit dem infiniten Modell in hohem Maße auf MCMC-Approximationen angewiesen, wie beispielsweise Gibbs-Sampler, die die θd di¬ rekt unter Verwendung eines Ploya-URL-Schemas ziehen und den Schwierigkeiten einer Stichprobe aus dem unendlich- dimensionalen G aus dem Wege gehen [5] . Eine andere Möglich¬ keit ist, eine finite Approximation vorzunehmen, wie z. B. trunkierte DP (TDP) [8] oder Dirichlet-multinomiale Allokati- on (DMA) [6], und danach eine finite Version von G zu ziehen. Da die Stichprobennahme mit unseren Einstellungen sehr lang- sam sein kann, empfehlen wir eine effiziente variationale In¬ ferenz auf der Grundlage der DMA. Wir sind uns der jüngst in [3] vorgeschlagenen Alternative auf der Grundlage von TDP be- wusst. In diesem Artikel wird jedoch kein Vergleich zwischen beiden Methoden gezogen.
2.1 Dirichlet-multinomiale AllokationDespite these attractive features, an inference with the infinite model relies heavily on MCMC approximations, such as Gibbs samplers, which draw the θ d directly using a Ploya URL scheme, and the difficulty of random sampling - avoid dimensional G [5]. Another possibility is to make a finite approximation, such as. For example, truncated DP (TDP) [8] or Dirichlet multinomial allo- cation (DMA) [6], followed by a finite version of G can be deduced. Since the sampling with our settings can be very slow, we recommend an efficient variational inference on the basis of the DMA. We are aware of the recently proposed alternative based on TDP. However, this article does not compare the two methods. 2.1 Dirichlet multinomial allocation
Zunächst approximieren wir die Stick-Breaking-Verteilung aus Gl. (4) durch eine endliche Summe. Die Dirichlet-multinomiale Allokation OPN aus [6] wurde oft als eine finite Approximati¬ on für DP in Bayesschen Statistiken angewendet (siehe [6, 8]), die die Form GN = ΣWi=i π1δe*(i> annimmt, wobei π = {πi,...,πw} ein N-Vektor von Wahrscheinlichkeitsgewichten ist, die einmal aus einem Dirichlet-Prior Dir (αo/N,..., αo/N) gezogen wurden, und θ*i, 1 = 1,...,N, werden unabhängig iden¬ tisch verteilt aus der Basisverteilung Go gezogen. Es wurde gezeigt, dass DP der begrenzende Fall von DPW ist [6, 8, 10] sowie, was noch wichtiger ist, dass DPW ein ähnliches Stick- Breaking zeigt, was zu einem Clusterbildungseffekt führt [6] . Wenn N im Verhältnis zur Stichprobengröße D hinreichend groß ist, liefert DPW eine gute Approximation für DP. Die flache Darstellung unseres Modells unter DPW wird in Figur 2 (c) ver¬ anschaulicht. Die Likelihood-Wahrscheinlichkeit der vollstän¬ digen Sammlung D istFirst, we approximate the stick-breaking distribution from Eq. (4) by a finite sum. The Dirichlet allocation multinomial OP N [6] has often been applied in on Bayesian statistics as a finite Approximati¬ for DP (see [6, 8]), the Form G N = Σ W i = i π 1 .DELTA.E * ( i>, where π = {πi, ..., π w } is an N vector of probability weights drawn once from a Dirichlet prior Dir (α o / N, ..., α o / N) , and θ * i, 1 = 1, ..., N, are independently drawn identically distributed from the basic distribution Go. It has been shown that DP is the limiting case of DP W [6, 8, 10] and, more importantly, DP W shows similar stick-breaking, leading to a clustering effect. [6] If N is sufficiently large in relation to sample size D, DP W provides a good approximation for DP DP W is illustrated in Figure 2 (c) The likelihood probability of the complete collection D is
wobei Cd eine Indikatorvariable ist, die anzeigt, welchen eindeutigen Wert θ*i Dokument Wd annimmt; zd,n wird aus Gründen der Vereinfachung herausintegriert. Die Inferenz muss die verknüpfte a-posteriori-Verteilung latenter Variablen p (π, θ*i, c, zI D, QΌ,λ, ß) ) berechnen, was eine Berechnung von Gl. (5) erforderlich macht, deren Integral allerdings analy¬ tisch nicht ermittelbar ist.where Cd is an indicator variable indicating which unique value θ * i assumes document W d ; z d , n is integrated out for reasons of simplification. The inference must compute the associated a posteriori distribution of latent variables p (π, θ * i, c, zI D, QΌ, λ, β)), which implies a calculation of Eq. (5), whose integral, however, can not be determined analytically.
2.2 Variationale Inferenz und Parameterschätzung2.2 Variation inference and parameter estimation
Die Idee einer variationalen Mittlungsfeldinferenz ist, eine verknüpfte Verteilung Q(n,θ*,c,z) vorzuschlagen, die über ei- nige freie Parameter konditioniert ist, und mit diesem Q dann durch eine Minimierung der KL-Divergenz DKL(Q\ Ip (π, θ*, c, zID, O1 O,λ, ß) die interessierenden a-posteriori-
Verteilungen im Hinblick auf diese freien Parameter zu appro¬ ximieren. Wir schlagen also eine variationale Verteilung Q über latenten Variablen wie folgt vorThe idea of a variational averaging field inference is to propose a linked distribution Q (n, θ * , c, z) that is conditioned over some free parameters, and then with this Q by minimizing the KL divergence D KL (Q \ Ip (π, θ * , c, zID, O 1 O , λ, β) the a-posteriori Appropriating distributions with regard to these free parameters. So we propose a variational distribution Q over latent variables as follows
wobei η, γ, φ, φ variationale Parameter sind, mit denen der variationale Vorschlag auf die Eigenschaften jeder latenten Variable zugeschnitten wird. Im Speziellen gibt η die N- dimensionale Dirichlet-Verteilung für π an, γλ gibt die k- dimensionale Dirichlet-Verteilung für verschiedene θ* ± an, ψa gibt ein iV-dimensionales Multinomial für den Indikator Cd für Dokument d an, und φd,n gibt ein A:-dimensionales Multinomial über latenten Themen für Wort Wd,Ω an. Es zeigt sich, dass die Minimierung der KL-Divergenz äquivalent ist zur Maximierung einer unteren Schranke für In p(D|αO,λ, ß) , die durch Anwen¬ dung der Jensenschen Ungleichung abgeleitet werden kann [9] . Wir überspringen die Details der Standardableitung und geben die untere Schranke direkt an alswhere η, γ, φ, φ are variational parameters that are used to tailor the variational proposal to the properties of each latent variable. Specifically, η indicates the N-dimensional Dirichlet distribution for π, γ λ indicates the k-dimensional Dirichlet distribution for various θ * ± , ψa indicates an iV-dimensional multinomial for the indicator C d for document d, and φd, n specifies an A: -dimensional multinomial on latent topics for word W d , Ω . It turns out that minimizing the KL divergence is equivalent to maximizing a lower bound for In p (D | αO, λ, β), which can be deduced by applying Jensen's inequality [9]. We skip the details of the standard derivation and specify the lower bound directly as
Die Maximierung wird durchgeführt, indem die partiellen Ab¬ leitungen im Hinblick auf jeden Parameter auf Null gesetzt werden, was zu folgenden Aktualisierungen führt
The maximization is performed by setting the partial derivatives to zero with respect to each parameter, resulting in subsequent updates
«Vu c « Vu c
^ = Σ ^ + ^ (11)^ = Σ ^ + ^ (11)
wobei Ψ(#) die Digamma-Funktion ist, die erste Ableitung der log Gamma-Funktion. Wir überspringen die Details der Ablei- tung der oben aufgeführten Aktualisierungen, in der wir wie¬ derholt die erwarteten hinreichenden Statistiken der in [4] gegebenen Dirichlet-Verteilung anwenden. Wir finden, dass die Aktualisierungen gut interpretierbar sind. Beispielsweise ist η in Gl. (11) der Austausch zwischen empirischen Antworten in θ*i und dem durch α0 angegebenen Prior. Schließlich wird, auf¬ grund der Kopplung der Parameter, die variationale Inferenz durchgeführt, indem Gl. (8) auf Gl. (11) iterativ so lange angewendet wird, bis Konvergenz eintritt. Die Konvexität des Problems garantiert ein globales Maximum von L.where Ψ ( # ) is the Digamma function, the first derivative of the log gamma function. We skip the details of the derivation of the above-mentioned updates, in which we repeatedly apply the expected sufficient statistics of the Dirichlet distribution given in [4]. We find that the updates are well interpretable. For example, η in Eq. (11) the exchange between empirical answers in θ * i and the prior given by α 0. Finally, due to the coupling of the parameters, the variational inference is performed by Eq. (8) to Eq. (11) iteratively applied until convergence occurs. The convexity of the problem guarantees a global maximum of L.
Wir folgen dem Bayesschen Rahmen und schätzen die Hyperpara- meter α0, λ und ß durch eine Maximierung der unteren Grenze L im Hinblick zunächst auf die variationalen Parameter (wie in Gl. (8) -Gl. (11) beschrieben) sowie auf die Modellparameter ab, während die anderen fixiert werden. Das wird oft als va- riationales EM bezeichnet [9] . Es ist einfach, die Aktuali¬ sierung für ß abzuleiten:We follow the Bayesian framework and estimate the hyperparameters α 0 , λ and β by maximizing the lower limit L with respect first to the variational parameters (as described in Eq. (8) - (11)) and to the Model parameters while the others are fixed. This is often referred to as a national EM [9]. It is easy to derive the update for β:
wobei δj(wd,n) = 1 für Wd,n = J, und 0 sonst. Für die übrigen Parameter schreiben wir zunächst die Teile von L in Gl. (7) nieder, die α0 und λ enthalten:
£|ani = Jn r(α.) - N In T(ψ) + {% - !) ^1 [*(,) - *(££, ^)]where δj (wd, n) = 1 for Wd, n = J, and 0 otherwise. For the remaining parameters we first write the parts of L in Eq. (7), which contain α 0 and λ: £ | ani = Jn r (α.) - N In T (ψ) + {% -!) ^ 1 [* (,) - * (££, ^ ) ]
Man kann Standardoptimierungsmethoden verwenden, wie z. B. die in [4] angewendete Newton-Raphson-Methode, um die Ab- Schätzungen für α0 und λ durch eine Maximierung der oben auf¬ geführten Objekte einzeln herzuleiten.You can use standard optimization methods, such as: For example, the Newton-Raphson method used in [4] is used to derive the estimates for α 0 and λ individually by maximizing the objects listed above.
3 Empirische Studie3 Empirical study
3.1 Spieldaten3.1 Game data
Wir wenden das Modell zunächst auf ein Spielproblem mit k = 5 latenten Themen und einem Wörterbuch mit 200 Wörtern an. Die Wahrscheinlichkeit, dass aus diesen Themen Wörter erzeugt werden, also der Parameter ß, ist in Figur 3 (d) dargestellt. Dabei entspricht jede farbige Linie einem Thema und weist ei¬ ner Menge von Wörtern eine Wahrscheinlichkeit zu, die ver¬ schieden von Null ist. Für jeden Lauf erzeugen wir die Daten mit den folgenden Schritten: (1) eine Clusterzahl M wird zwi- sehen 5 und 12 gewählt; (2) es werden M Dokumentencluster er¬ zeugt, von denen jedes durch eine Kombination von Themen de¬ finiert ist; (3) jedes Dokument d, d = l,...,100, wird erzeugt, indem zunächst zufällig ein Cluster ausgewählt wird und dannWe first apply the model to a game problem with k = 5 latent themes and a dictionary of 200 words. The probability that words are generated from these topics, ie the parameter β, is shown in FIG. 3 (d). Each colored line corresponds to a topic and assigns to a set of words a probability that is different from zero. For each run, we generate the data with the following steps: (1) a cluster number M is chosen between 5 and 12; (2) M document clusters are produced, each of which is defined by a combination of topics; (3) Each document d, d = 1, ..., 100 is generated by first randomly selecting a cluster and then
40 Wörter entsprechend den jeweiligen Themenkombinationen er- zeugt werden. DPW wird mit N = 100 gesetzt, und wir möchten die Leistungsfähigkeit bei der Entdeckung der latenten Themen und der Dokumentclusterstruktur untersuchen.40 words according to the respective topic combinations. DP W is set at N = 100, and we want to examine the performance of detecting the latent topics and the document cluster structure.
In Figur 3 (a) - (c) veranschaulichen wir den Clusterbil- dungsprozess für Dokumente über EM-Iterationen mit einem Lauf, der 6 Dokumentencluster enthält. In Figur 3 (a) zeigen wir die initiale zufällige Zuordnung φdfl von jedem Dokument d zu einem Cluster 1. Nach einem EM-Schritt beginnen die Doku¬ mente, sich in einer verringerten Anzahl von Clustern zusam- menzuballen (Figur 3 (b) ) , und konvergieren nach 5 Schritten zu exakt 6 Clustern (Figur 3 (c) ) . Die gelernte Wortverteilung
von Themen ß wird in Figur 3 (e) gezeigt; sie ist sehr ähnlich zur tatsächlichen Verteilung. Indem wir M, die tatsächliche Anzahl von Dokumentenclustern, variieren, können wir überprü¬ fen, ob unser Modell das richtige M finden kann. Für jeden Wert für M im Bereich 5 bis 12 werden die Daten für 20 Versu¬ che randomisiert, und wir erhalten die Kurve in Figur 3(f), die die durchschnittliche Leistung und die Varianz zeigt. In 37% der Läufe erhalten wir perfekte Ergebnisse, und in weite¬ ren 43% der Läufe weichen die gelernten von den tatsächlichen Werten nur um eins ab. Wir sehen jedoch auch, dass das Modell dazu neigt, für große M geringfügig weniger als M Cluster zu erhalten. Das kann darin liegen, dass gerade mal 100 Dokumen¬ te nicht ausreichen, um eine große Zahl von M Clustern zu lernen.In Figures 3 (a) - (c) we illustrate the clustering process for documents about EM iterations with a run containing 6 document clusters. In FIG. 3 (a), we show the initial random assignment φ dfl of each document d to a cluster 1. After an EM step, the documents begin to converge in a reduced number of clusters (FIG. 3 (b)). ), and after 5 steps converge to exactly 6 clusters (Figure 3 (c)). The learned word distribution of topics β is shown in Figure 3 (e); it is very similar to the actual distribution. By varying M, the actual number of document clusters, we can verify that our model can find the right M. For each value of M in the range 5 to 12, the data is randomized for 20 trials, and we obtain the graph in Figure 3 (f) which shows the average power and the variance. In 37% of the runs, we get perfect results, and in 43% of the runs, the learned deviate from the actual values by only one. However, we also see that the model tends to get slightly less than M clusters for large M's. This may be because just 100 documents are not sufficient to learn a large number of M clusters.
3.2 Dokumentenmodellierung3.2 Document modeling
Wir vergleichen das vorgeschlagene Modell mit PLSI und LDA an zwei Textdatenmengen. Die erste ist eine Teilmenge der Daten¬ menge Reuters-21578, die 3000 Dokumente und 20334 Wörter ent¬ hält. Die zweite wird aus der Datenmenge 20-newsgroups gezo¬ gen und hat 2000 Dokumente mit 8014 Wörtern. Die Vergleichs¬ metrik ist perplexity, die üblicherweise bei Sprachmodellie- rungen verwendet wird. Für eine Testdokumentenmenge ist sie formal definiert zu: Perplexity(Dtest) = exp(- In p (Dtest) /∑dl
) • Wir folgen der Formel in [4], um die Per¬ plexity für PLSI auszurechnen. In unserem Algorithmus steht N für die Anzahl von Trainingsdokumenten. Die Figuren 4 (a) und 4 (b) zeigen die Ergebnisse des Vergleichs mit einer unter¬ schiedlichen Anzahl k von latenten Themen. Unser Modell über¬ trifft PLSI und LDA in allen Läufen. Das heißt, dass die durch DP-Erweiterung hereingebrachte Flexibilität kein Over- fitting zur Folge hat und zu einer besseren Generalisierungs- leistung führt.
3.3 ClusterbildungWe compare the proposed model with PLSI and LDA on two sets of textual data. The first is a subset of the data set Reuters-21578, which contains 3000 documents and 20334 words ent. The second is taken from the data set of 20 newsgroups and has 2000 documents with 8014 words. The comparison metric is perplexity, which is usually used in language modeling. For a set of test documents, it is formally defined as: Perplexity (D te st) = exp (- In p (Dtest) / Σdl ) • We follow the formula in [4] to calculate the perlexity for PLSI. In our algorithm, N stands for the number of training documents. FIGS. 4 (a) and 4 (b) show the results of the comparison with a different number k of latent topics. Our model overcomes PLSI and LDA in all runs. This means that the flexibility introduced by DP expansion does not result in over-fitting and leads to better generalization performance. 3.3 Clustering
In unserem letzten Experiment zeigen wir, dass unser Ansatz geeignet ist, um Dokumentencluster zu finden. Wir wählen aus der Datenmenge 20-newsgroups vier Kategorien autos, motorcyc- les, baseball und hockey mit 446 Dokumenten in jedem Thema aus. Figur 4 (c) zeigt ein Clusterbildungsergebnis, in dem wir die Themenanzahl auf k = 5 gesetzt und dabei 6 Dokumentenc¬ luster gefunden haben. In der Figur werden die Dokumente ent- sprechend ihren tatsächlichen Kategorielabels indiziert. So können wir deutlich sehen, dass das Ergebnis durchaus sinn¬ voll ist. Dokumente aus einer Kategorie zeigen ähnliche Zuge¬ hörigkeiten zu den gelernten Clustern, verschiedenartige Ka¬ tegorien können einfach voneinander unterschieden werden. Die ersten beiden Kategorien sind nicht klar voneinander ge¬ trennt, da beide Fahrzeuge zum Thema haben und viele Terme gemeinsam verwenden. Die beiden anderen Kategorien, Baseball und Hockey, sind ideal gefunden worden.In our last experiment we show that our approach is suitable for finding document clusters. We select four categories of cars, motorcycles, baseball and hockey from the dataset 20 newsgroups with 446 documents in each topic. FIG. 4 (c) shows a clustering result in which we set the number of topics to k = 5 and found 6 document chandeliers. In the figure, the documents are indexed according to their actual category labels. So we can clearly see that the result is quite meaningful. Documents from one category show similar accessions to the learned clusters, different categories can be easily distinguished from one another. The first two categories are not clearly separated from each other, since both vehicles have the topic and use many terms together. The other two categories, baseball and hockey, have been found to be ideal.
4 Schlussfolgerungen4 conclusions
In diesem Ausführungsbeispiel wird ein Modell zur Dirichlet- erweiterten latenzsemantischen Analyse vorgeschlagen, das die Leistungsfähigkeit früherer Ansätze beim Auffinden der laten- ten Themen beibehält, aber außerdem eine zusätzliche Model¬ lierungsflexibilität einführt, um Dokumentencluster zu unter¬ suchen. Bei der Inferenz wird von einer variationalen Mitt- lungsfeldapproximation ausgegangen, die auf einer finiten Ap¬ proximation für DP (Dirichlet Prozess) basiert. Die Experi- mente mit Spieldaten und zwei Textdatenmengen zeigen, dass unser Modell sowohl die latente Semantik, als auch eine sinn¬ volle Clusterstruktur erkennen kann.
LiteraturverzeichnisIn this embodiment, a model for Dirichlet-extended latency semantic analysis is proposed, which retains the capability of previous approaches to finding the latent themes, but also introduces additional modeling flexibility to examine document clusters. The inference is based on a variational mean-field approximation based on a finite approximation for DP (Dirichlet process). The experiments with performance data and two text data sets show that our model can recognize both the latent semantics and a reasonable cluster structure. bibliography
[I] Beal, M. J., Ghahramani, Z. und C. E. Rasmussen: "The in¬ finite hidden markov model" in Advances in Neural Infor- mation Processing Systems (NIPS), 14.2002[I] Beal, M.J., Ghahramani, Z. and C.E. Rasmussen: "The Infinite Hidden Markov Model" in Advances in Neural Information Processing Systems (NIPS), 14.2002
[2] Blei, D., Griffiths, T. L., Jordan, M. I. und J. B. Tenenbaum: "Hierarchical topic modeis and the nested Chi¬ nese restaurant process" in Advances in Neural Informa¬ tion Processing Systems 16, MIT Press, 2004 [3] Blei, D. und M. Jordan: "Variational methods for the Dirichlet process", 2004; erscheint in Proceedings of the 21st International Conference on Machine Learning [4] Blei, D., Ng, A. und M. Jordan: "Latent Dirichlet Alloca- tion" in Journal of Machine Learning Research, 3:993- 1022, 2003[2] Blei, D., Griffiths, TL, Jordan, MI, and JB Tenenbaum: "Hierarchical topic mode and the nested Chinese restaurant process" in Advances in Neural Information Processing Systems 16, MIT Press, 2004 [3] Blei, D. and M. Jordan: "Variational methods for the Dirichlet process", 2004; appears in Proceedings of the 21st International Conference on Machine Learning [4] Blei, D., Ng, A. and M. Jordan: "Latent Dirichlet Allocation" in Journal of Machine Learning Research, 3: 993-1022, 2003
[5] Escobar, M. D. und M. West: "Bayesian density estimation and inference using mixtures" in Journal of the American Statistical Association, 90(430) , 1995[5] Escobar, M.D., and M. West: "Bayesian density estimation and inference using mixtures" in Journal of the American Statistical Association, 90 (430), 1995
[6] Green, P. J. und S. Richardson: "Modelling heterogeneity with and without the Dirichlet process", 2000, nicht veröffentlicht[6] Green, P.J. and S. Richardson: "Modeling heterogeneity with and without the Dirichlet process", 2000, unpublished
[7] Hofmann, T. : "Probabilistic Latent Semantic Indexing" in Proceedings of the 22nd Annual ACM SIGIR Conference, S.50-57, Berkeley, CA, 1999 [8] Ishwaran, H. und M. Zarepour: "Exact and approximate sum- representations for the Dirichlet process" in Can . J. Statist 30:269-283, 2002[7] Hofmann, T.: "Probabilistic Latent Semantic Indexing" in Proceedings of the 22nd Annual ACM SIGIR Conference, p.50-57, Berkeley, CA, 1999 [8] Ishwaran, H. and M. Zarepour: "Exact and approximate summations for the Dirichlet process "in Can. J. Statist. 30: 269-283, 2002
[9] Jordan, M. I., Ghahramani, Z., Jaakkola, T. und L. K: Saul: "An introduction to variational methods for graphi- cal modeis" in Machine Learning 37 (2) : 183-233, 1999[9] Jordan, M.I., Ghahramani, Z., Jaakkola, T., and L.K. Saul: "An Introduction to Variational Methods for Graphical Mode" in Machine Learning 37 (2): 183-233, 1999
[10] Neal, R. M. : "Markov chain sampling methods for Dirichlet process mixture modeis" in Journal of Computa- tional and Graphical Statistics, 9:249-265, 2000[10] Neal, R.M .: Markov chain sampling methods for Dirichlet process mixture modeis, in the Journal of Computational and Graphical Statistics, 9: 249-265, 2000
[II] Rasmussen, C. E. und Z. Ghahramani: "Infinite mixtures auf gaussian process experts" in Advances in Neural In¬ formation Processing Systems 14, 2002
[12] Yu, K., Tresp, V. und S. Yu: "A nonparametric hierarchi- cal Bayesian framework for Information filtering" in Pro- ceedings of the 27th Annual ACM SIGIR Conference, 2004
[II] Rasmussen, CE and Z. Ghahramani: "Infinite mixtures on gaussian process experts" in Advances in Neural Information Processing Systems 14, 2002 [12] Yu, K., Tresp, V., and S. Yu: "A Nonparametric Hierarchical Bayesian Framework for Information Filtering" in Pro- grams of the 27th Annual ACM SIGIR Conference, 2004