WO2006037747A2 - Method for structuring a data stock that is stored on at least one storage medium - Google Patents

Method for structuring a data stock that is stored on at least one storage medium Download PDF

Info

Publication number
WO2006037747A2
WO2006037747A2 PCT/EP2005/054891 EP2005054891W WO2006037747A2 WO 2006037747 A2 WO2006037747 A2 WO 2006037747A2 EP 2005054891 W EP2005054891 W EP 2005054891W WO 2006037747 A2 WO2006037747 A2 WO 2006037747A2
Authority
WO
WIPO (PCT)
Prior art keywords
data
statistical model
dirichlet
model
database
Prior art date
Application number
PCT/EP2005/054891
Other languages
German (de)
French (fr)
Other versions
WO2006037747A3 (en
Inventor
Volker Tresp
Kai Yu
Shipeng Yu
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2006037747A2 publication Critical patent/WO2006037747A2/en
Publication of WO2006037747A3 publication Critical patent/WO2006037747A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Definitions

  • the present invention relates to a method and a computer program product for the structuring of a data stock stored on at least one storage medium.
  • KDD Knowledge Discovery in Databases
  • the present invention is therefore based on the object of specifying a method for identifying topics and / or topic groups in a database stored on at least one storage medium, which is considerably more flexible than the methods hitherto known from the prior art and thus also identification of topic groups or clustering of documents.
  • a Dirichlet distribution with any number of states is used as the statistical model for modeling the data.
  • variables of the statistical model are adapted to the data stock.
  • the database is structured according to the status of the adapted statistical model.
  • the statistical model for modeling tion of the data stock as a Dirichlet process and the iterative process designed as a mean-field algorithm based on a finite approximation advantageously retains the performance of earlier approaches to finding the latent themes, and also introduces additional modeling flexibility to examine document clusters.
  • the inference assumes a variational averaging field approximation based on a finite approximation for DP (Dirichlet process).
  • the articulated data and / or information about the structured database is stored on a storage medium. Since data about the structure in the storage medium can be found very quickly, this has the advantageous effect of ensuring fast access to the data.
  • the storage medium comprises volatile, permanent and semi-permanent storage media, wherein the storage can be done for example on electronic, magnetic, optical and magneto-optical media.
  • the program sequence control device uses a Dirichlet distribution with a large number of states as the statistical model for modeling the data stock for structuring a data stock stored on at least one storage medium.
  • variables of the statistical model are adapted to the data content.
  • the database is structured according to the states of the adapted statistical model.
  • FIG. 1 shows a 2-dimensional simplex which represents three topics (the sum of the three probabilities has to be 1): a) the probability distribution of topics in documents, which forms an annular distribution. Dark areas represent a low density. (b) the 3-dimensional Dirichlet distribution, which maximizes the likelihood probabilities of the samples,
  • Figure 2 (a) is a latency semantic analysis with DP Prior; (b) an equivalent representation, where cd is the indicator variable indicating which cluster d is taken from the infinite set of DP-induced clusters; (c) a latent semantic analysis with a finite alternative of DP (see Section 2),
  • Figure 3 shows experimental results for a game problem
  • a more general non-parametric Bayesian approach is developed that can be used to study not only latent topics and their probabilities, but also complex dependencies, for example, expressed as a complex cluster structure can be.
  • the main innovation is that the parametric a priori Dirichlet distribution in LDA is replaced by a flexible non-parametric distribution G (-), a sample generated from a Dirichlet process (DP) in which the Dirichlet distribution of the LDA becomes the basic distribution.
  • G non-parametric distribution
  • DP Dirichlet process
  • the a posteriori distribution of the topic mixture for a new document converges to a flexible infinite mixture model in which both the mixture weights and the mixing parameters can be learned from the data.
  • the a posteriori distribution is able to represent the distribution of topics more truthfully.
  • the model is thus able to output clusters of documents in a natural way.
  • Non-parametric Bayesian modeling has gained considerable recognition in the learning community (eg [1, 11, 2, 3, 12]).
  • a potential problem with this class of models is that inferences typically rely on MCMC approximations. However, this can lead to an inadmissible slowdown in dealing with the large collection of documents.
  • a variational averaging field inference is proposed in this exemplary embodiment as a finite approximation for non-parametric Bayesian modeling.
  • the embodiment is constructed as follows.
  • the first section introduces a Dirichlet-extended latency semantic analysis.
  • inference and learning algorithms are presented, which originate from the variational approximation.
  • experimental results are presented using a game data set and two document data sets.
  • conclusions are drawn from what has been said. 1 Dirichlet-extended latency semantic analysis
  • each document is a mixture of latent topics, and that the words in each document are generated by repeated sampling of topics and words, using the following distributions:
  • GQ ( ⁇ ) Dir ( ⁇
  • DP Dirichlet process
  • G ⁇ G Ol a o ⁇ DP (G 0 , ⁇ 0 ) (3) is the random sample generated, in which the non-negative scalar quantity ⁇ 0 is the precision parameter, and Go ( ⁇ ) is the base distribution that is identical to the Dirichlet distribution in LDA. It turns out that the distribution G ( ⁇ ) drawn from a DP
  • the DP Prior offers two advantages over the usual methods of clustering documents. First, the number of clusters need not be specified. The resulting final cluster structure is limited by the DP Prior, but also adapted to the empirical observations. Second, the number of clusters is not fixed. Although a 0 is a control parameter that can be used to influence the clustering tendency, the DP prior allows new clusters to be created if the current model can not very well explain the pending data, which is especially the case with our prediction can, because the dictionary is fixed, but the documents can grow.
  • Cd is an indicator variable indicating which unique value ⁇ * i assumes document W d ; z d , n is integrated out for reasons of simplification.
  • the inference must compute the associated a posteriori distribution of latent variables p ( ⁇ , ⁇ * i, c, zI D, Q ⁇ , ⁇ , ⁇ )), which implies a calculation of Eq. (5), whose integral, however, can not be determined analytically.
  • a variational averaging field inference is to propose a linked distribution Q (n, ⁇ * , c, z) that is conditioned over some free parameters, and then with this Q by minimizing the KL divergence D KL (Q ⁇ Ip ( ⁇ , ⁇ * , c, zID, O 1 O , ⁇ , ⁇ ) the a-posteriori Appropriating distributions with regard to these free parameters.
  • Q KL
  • ⁇ , ⁇ , ⁇ , ⁇ are variational parameters that are used to tailor the variational proposal to the properties of each latent variable.
  • indicates the N-dimensional Dirichlet distribution for ⁇
  • ⁇ ⁇ indicates the k-dimensional Dirichlet distribution for various ⁇ * ⁇
  • ⁇ a indicates an iV-dimensional multinomial for the indicator C d for document d
  • ⁇ d, n specifies an A: -dimensional multinomial on latent topics for word W d , ⁇ . It turns out that minimizing the KL divergence is equivalent to maximizing a lower bound for In p (D
  • the maximization is performed by setting the partial derivatives to zero with respect to each parameter, resulting in subsequent updates
  • FIG. 3 (a) - (c) we illustrate the clustering process for documents about EM iterations with a run containing 6 document clusters.
  • FIG. 3 (a) we show the initial random assignment ⁇ dfl of each document d to a cluster 1.
  • FIG. 3 (b) we show the initial random assignment ⁇ dfl of each document d to a cluster 1.
  • the documents begin to converge in a reduced number of clusters (FIG. 3 (b)).
  • Figure 3 (c) The learned word distribution of topics ⁇ is shown in Figure 3 (e); it is very similar to the actual distribution.
  • M the actual number of document clusters, we can verify that our model can find the right M.
  • the documents are indexed according to their actual category labels. So we can clearly see that the result is quite meaningful.
  • Documents from one category show similar accessions to the learned clusters, different categories can be easily distinguished from one another. The first two categories are not clearly separated from each other, since both vehicles have the topic and use many terms together. The other two categories, baseball and hockey, have been found to be ideal.
  • Neal, R.M . Markov chain sampling methods for Dirichlet process mixture modeis, in the Journal of Computational and Graphical Statistics, 9: 249-265, 2000

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

The invention relates to a non-parametric Bayes method for analysing data records, in which elements occur with a specific frequency. The installed model retains the size of earlier extensions, in which latent factors of each data record (e.g. themes of documents) were investigated, whilst at the same time permitting the investigation of the cluster structures of data records, which reflect the statistical dependency of the latent factors. Compared to parametric Bayes modelling, the non-parametric model that is induced by a Dirichlet process (DP) is sufficiently flexible to reveal the data structure. Instead of having to use the Markov chain Monte Carlo (MCMC), which is slow with our specifications, the inventive method introduces an efficient variational inference, which is based on a finite, highly-dimensioned approximation of (DP).

Description

Beschreibungdescription
Verfahren zur Gliederung eines auf mindestens einem Speicher¬ medium gespeicherten DatenbestandesMethod for structuring a data stored on at least one Speicher¬ medium
Die vorliegende Erfindung betrifft ein Verfahren und ein Com¬ puterprogrammprodukt zur Gliederung eines auf mindestens ei¬ nem Speichermedium gespeicherten Datenbestandes.The present invention relates to a method and a computer program product for the structuring of a data stock stored on at least one storage medium.
Riesige Datenmengen entstehen heute in Unternehmen, in For¬ schungsprojekten, in Verwaltungen oder im Internet. Data- Mining ermöglicht das automatische Auswerten solcher Datenbe¬ stände mit Hilfe von statistischen Verfahren. Ziel dabei ist das Aufspüren von Regeln bzw. statistischen Auffälligkeiten. Darunter versteht man das systematische (in der Regel automa¬ tisierte oder halbautomatische) Entdecken und Extrahieren un¬ bekannter Informationen aus großen Mengen von Daten. Hierzu werden die Datenbestände nach Regelmäßigkeiten, Mustern und Strukturen, Abweichungen und jeglicher Art von Beziehungen und gegenseitigen Beeinflussungen untersucht. Der Prozess der Mustererkennung und Wissensextraktion wird auch 'Knowledge Discovery in Databases' (KDD) genannt.Huge amounts of data are generated today in companies, in research projects, in administrations or on the Internet. Data Mining allows the automatic evaluation of such Datenbe¬ states by means of statistical methods. The goal here is the detection of rules or statistical abnormalities. This refers to the systematic (usually automated or semi-automatic) detection and extraction of unknown information from large amounts of data. For this purpose, the databases are examined for regularities, patterns and structures, deviations and any kind of relationships and mutual influences. The process of pattern recognition and knowledge extraction is also called Knowledge Discovery in Databases (KDD).
Wir betrachten das Problem der Modellierung eines großen Kor- pus von diskreten Datensätzen mit einer hohen Dimension. Wir nehmen an, dass ein Datensatz durch latente Faktoren model¬ liert werden kann, die für das Auftreten von Elementen in ei¬ nem Datensatz stehen. Für eine Vertiefung der Diskussion wer¬ den wir im Folgenden Datensätze mit Dokumenten, latente Fak- toren mit (latenten) Themen und Elemente mit Wörtern identi¬ fizieren. PLSI [7] stellt einen der ersten Versuche eines probabilistischen Ansatzes zur Modellierung von Textdokumen¬ ten als Zusammensetzungen aus latenten Themen dar. LDA [4] generalisiert PLSI, insoweit es die Themenmischungsparameter (d. h. ein Multinomial über Themen) als Variablen betrachtet, die aus einer Dirichlet-Verteilung gewonnen werden. Seine Bayessche Interpretation vermeidet Overfitting, und das Mo¬ dell ist auf neue Daten generalisierbar (letzteres ist für PLSI problematisch) . Die parametrische Dirichlet-Verteilung kann jedoch eine Begrenzung für Anwendungen darstellen, die eine reichere Struktur aufweisen. Man betrachte als Beispiel dazu Figur 1 (a) , die die empirische Verteilung von drei The- men zeigt. Wir sehen, dass die Wahrscheinlichkeit, dass alle drei Themen in einem Text vorhanden sind (entspricht der Mit¬ te der Zeichnung), nahezu null ist. Im Gegensatz dazu würde eine Dirichlet-Verteilung über den Daten (Figur 1 (b) ) die höchste Wahrscheinlichkeitsdichte für eben diesen Fall vor- hersagen. Dies liegt in der begrenzten Expressivität einer einfachen Dirichlet-Verteilung begründet.We consider the problem of modeling a large corpus of discrete data sets with a high dimension. We assume that a dataset can be modeled by latent factors that represent the occurrence of elements in a dataset. To deepen the discussion, we will identify data sets with documents, latent factors with (latent) topics, and elements with words. PLSI [7] is one of the first attempts of a probabilistic approach to the modeling of text documents as compositions of latent topics. LDA [4] generalizes PLSI to the extent that it considers the topic mix parameters (ie a multinomial over topics) as variables consisting of a Dirichlet distribution will be won. His Bayesian interpretation avoids overfitting, and the model is generalizable to new data (the latter is for PLSI problematic). However, the parametric Dirichlet distribution can be a limitation for applications that have a richer structure. For example, consider Figure 1 (a), which shows the empirical distribution of three topics. We see that the probability that all three topics are in one text (equivalent to the middle of the drawing) is close to zero. In contrast, a Dirichlet distribution over the data (Figure 1 (b)) would predict the highest probability density for this case. This is due to the limited expressivity of a simple Dirichlet distribution.
Somit liegt der vorliegenden Erfindung die Aufgabe zugrunde, ein Verfahren zur Identifizierung von Themenschwerpunkten und/oder Themengruppen in einem auf mindestens einem Spei¬ chermedium gespeicherten Datenbestand anzugeben, welches we¬ sentlich flexibler als die aus dem Stand der Technik bisher bekannten Verfahren ist und somit auch eine Identifizierung von Themengruppen bzw. eine Clusterung von Dokumenten ermög- licht.The present invention is therefore based on the object of specifying a method for identifying topics and / or topic groups in a database stored on at least one storage medium, which is considerably more flexible than the methods hitherto known from the prior art and thus also identification of topic groups or clustering of documents.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren und ein Computerprogrammprodukt mit den in Anspruch 1 und An¬ spruch 13 angegebenen Merkmalen gelöst. Vorteilhafte Weiter- bildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention, this object is achieved by a method and a computer program product having the features specified in claim 1 and claim 13. Advantageous further developments of the present invention are specified in the dependent claims.
Entsprechend der vorliegenden Erfindung wird in einem Ver¬ fahren zur Gliederung eines auf mindestens einem Speicherme- dium gespeicherten Datenbestandes als statistisches Modell zur Modellierung des Datenbestandes eine Dirichlet-Verteilung mit beliebig vielen Zuständen verwendet. In einem iterativen Prozess werden Variablen des statistischen Modells an den Da¬ tenbestand angepasst. Der Datenbestand wird anhand der Zu- stände des angepassten statistischen Modells gegliedert.According to the present invention, in a method for structuring a data stock stored on at least one storage medium, a Dirichlet distribution with any number of states is used as the statistical model for modeling the data. In an iterative process, variables of the statistical model are adapted to the data stock. The database is structured according to the status of the adapted statistical model.
Nach einer bevorzugten Ausführungsvariante des erfindungsge¬ mäßen Verfahrens wird das statistische Modell zur Modellie- rung des Datenbestandes als Dirichlet-Prozess und der itera¬ tive Prozess als Mean-Field Algorithmus basierend auf einer finiten Näherung ausgestaltet. Dieses Modell zur Dirichlet- erweiterten latenzsemantischen Analyse behält in vorteilhaf- ter Weise die Leistungsfähigkeit früherer Ansätze beim Auf¬ finden der latenten Themen bei, und führt zudem eine zusätz¬ liche Modellierungsflexibilität ein, um Dokumentencluster zu untersuchen. Bei der Inferenz wird von einer variationalen Mittlungsfeldapproximation ausgegangen, die auf einer finiten Approximation für DP (Dirichlet Prozess) basiert.According to a preferred embodiment of the method according to the invention, the statistical model for modeling tion of the data stock as a Dirichlet process and the iterative process designed as a mean-field algorithm based on a finite approximation. This model for Dirichlet-extended latency semantic analysis advantageously retains the performance of earlier approaches to finding the latent themes, and also introduces additional modeling flexibility to examine document clusters. The inference assumes a variational averaging field approximation based on a finite approximation for DP (Dirichlet process).
Nach einer weiteren vorteilhaften Ausführungsvariante der vorliegenden Erfindung wird der gegliederte Datenbestand und/oder Informationen über den gegliederten Datenbestand auf einem Speichermedium abgespeichert. Da Daten über die vorge¬ nommene Gliederung in dem Speichermedium sehr schnell gefun¬ den werden können, hat dies die vorteilhafte Wirkung, dass ein schneller Zugriff auf die Daten gewährleistet wird.According to a further advantageous embodiment of the present invention, the articulated data and / or information about the structured database is stored on a storage medium. Since data about the structure in the storage medium can be found very quickly, this has the advantageous effect of ensuring fast access to the data.
Ohne Beschränkung der Allgemeinheit dieses Begriffs umfasst das Speichermedium flüchtige, permanente und semi-permanente Speichermedien, wobei die Speicherung beispielsweise auf elektronischen, magnetischen, optischen und magneto-optischen Medien erfolgen kann.Without limiting the generality of this term, the storage medium comprises volatile, permanent and semi-permanent storage media, wherein the storage can be done for example on electronic, magnetic, optical and magneto-optical media.
Bei der Ausführung des erfindungsgemäßen Computerprogrammpro¬ dukts wird durch die Programmablaufsteuerungseinrichtung zur Gliederung eines auf mindestens einem Speichermedium gespei¬ cherten Datenbestandes als statistisches Modell zur Modellie- rung des Datenbestandes eine Dirichlet-Verteilung mit belie¬ big vielen Zuständen verwendet. In einem iterativen Prozess werden Variablen des statistischen Modells an den Datenbe¬ stand angepasst. Der Datenbestand wird anhand der Zustände des angepassten statistischen Modells gegliedert.In the execution of the computer program product according to the invention, the program sequence control device uses a Dirichlet distribution with a large number of states as the statistical model for modeling the data stock for structuring a data stock stored on at least one storage medium. In an iterative process, variables of the statistical model are adapted to the data content. The database is structured according to the states of the adapted statistical model.
Die vorliegende Erfindung wird nachfolgend an einem Ausfüh¬ rungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigt die Figur 1 einen 2-dimensionalen Simplex, der drei Themen repräsentiert (die Summe der drei Wahrschein¬ lichkeiten muss dabei 1 ergeben) : a) die Wahr- scheinlichkeitsverteilung von Themen in Dokumen¬ ten, die eine ringförmige Verteilung bildet. Dunkle Gebiete stellen dabei eine niedrige Dich¬ te dar; (b) die 3-dimensionale Dirichlet- Verteilung, die die Likelihood-Wahrschein- lichkeit der Stichproben maximiert,The present invention will be explained in more detail below with reference to an exemplary embodiment with reference to the drawings. It shows FIG. 1 shows a 2-dimensional simplex which represents three topics (the sum of the three probabilities has to be 1): a) the probability distribution of topics in documents, which forms an annular distribution. Dark areas represent a low density. (b) the 3-dimensional Dirichlet distribution, which maximizes the likelihood probabilities of the samples,
die Figur 2 (a) eine Latenzsemantische Analyse mit DP-Prior; (b) eine äquivalente Repräsentation, wobei cd die Indikatorvariable ist, die anzeigt, welches Cluster d aus der infiniten Menge von durch DP induzierten Clustern genommen wird; (c) eine La¬ tenzsemantische Analyse mit einer finiten Alter¬ native von DP (s. Abschnitt 2),Figure 2 (a) is a latency semantic analysis with DP Prior; (b) an equivalent representation, where cd is the indicator variable indicating which cluster d is taken from the infinite set of DP-induced clusters; (c) a latent semantic analysis with a finite alternative of DP (see Section 2),
die Figur 3 experimentelle Ergebnisse für ein Spielproblem;Figure 3 shows experimental results for a game problem;
(a) Initiale zufällige Dokument-Cluster- Zuweisung φd,l; (b) Dokument-Cluster-Zuweisung nach einem EM-Schritt; (c) Dokument-Cluster- Zuweisung nach fünf Schritten; (d) Das ursprüng- liehe ß; (e) Das geschätzte ß; (f) Die gelernte(a) Initial random document cluster assignment φd, l; (b) document cluster assignment after an EM step; (c) document cluster assignment after five steps; (d) The original ß; (e) The esteemed ß; (f) The learned
Clusterzahl im Hinblick auf die tatsächliche Zahl mit Mittelwert und Fehlerintervall,Cluster number in terms of the actual number with mean and error interval,
Die Figur 4 (a) und (b) : Perplexity-Ergebnisse für Reuters- 21578 und 20-newsgroups für DELSA, PLSI und LDA;Figures 4 (a) and (b): perplexity results for Reuters 21578 and 20 newsgroups for DELSA, PLSI, and LDA;
(c) : Clusterbildungsergebnis auf der Datenmenge 20-newsgroups.(c): clustering result on the dataset 20 newsgroups.
In diesem Ausführungsbeispiel wird ein allgemeinerer nicht- parametrischer Bayesscher Ansatz entwickelt, mit dem nicht nur latente Themen und ihre Wahrscheinlichkeiten untersucht werden können, sondern auch komplexe Abhängigkeiten, die bei¬ spielsweise als eine komplexe Clusterstruktur ausgedrückt werden können. Die wesentliche Neuerung ist, dass die para¬ metrische a-priori-Dirichlet-Verteilung in LDA durch eine flexible nicht-parametrische Verteilung G(-) ersetzt wird, eine Stichprobe, die aus einem Dirichlet-Prozess (DP) erzeugt wird, in dem die Dirichlet-Verteilung der LDA die Basisver¬ teilung wird. In diesem durch Dirichlet-Prozess erweiterten Modell konvergiert die a-posteriori-Verteilung der Themenmi¬ schung für ein neues Dokument gegen ein flexibles infinites Mischungsmodell, in dem sowohl die Mischungsgewichte als auch die Mischungsparameter aus den Daten gelernt werden können. So ist die a-posteriori-Verteilung in der Lage, die Vertei¬ lung von Themen wahrheitsgetreuer darzustellen. Nach dem Kon¬ vergieren der Lernprozedur bleiben typischerweise nur noch wenige Komponenten mit nicht vernachlässigbaren Gewichten üb- rig; das Modell ist also in der Lage, Cluster von Dokumenten in natürlicher Weise auszugeben.In this embodiment, a more general non-parametric Bayesian approach is developed that can be used to study not only latent topics and their probabilities, but also complex dependencies, for example, expressed as a complex cluster structure can be. The main innovation is that the parametric a priori Dirichlet distribution in LDA is replaced by a flexible non-parametric distribution G (-), a sample generated from a Dirichlet process (DP) in which the Dirichlet distribution of the LDA becomes the basic distribution. In this model, which is expanded by Dirichlet's process, the a posteriori distribution of the topic mixture for a new document converges to a flexible infinite mixture model in which both the mixture weights and the mixing parameters can be learned from the data. Thus, the a posteriori distribution is able to represent the distribution of topics more truthfully. After the learning procedure has been changed, only a few components with negligible weights typically remain otherwise; the model is thus able to output clusters of documents in a natural way.
Nicht-parametrische Bayessche Modellierung hat in der Lern- Community eine beachtliche Anerkennung gefunden (z. B. [1, 11, 2, 3, 12]) . Ein potenzielles Problem bei dieser Klasse von Modellen ist, dass Inferenzen typischerweise auf MCMC- Approximationen angewiesen sind. Das kann aber beim Umgang mit der großen Sammlung von Dokumenten zu einer unzulässigen Verlangsamung führen. Zusätzlich zur Präsentation eines Di- richlet-erweiterten LDA-Modells wird in diesem Ausführungs¬ beispiel eine variationale Mittlungsfeldinferenz als eine fi- nite Approximation für nicht-parametrische Bayessche Model¬ lierung vorgeschlagen.Non-parametric Bayesian modeling has gained considerable recognition in the learning community (eg [1, 11, 2, 3, 12]). A potential problem with this class of models is that inferences typically rely on MCMC approximations. However, this can lead to an inadmissible slowdown in dealing with the large collection of documents. In addition to the presentation of a richlet-extended LDA model, a variational averaging field inference is proposed in this exemplary embodiment as a finite approximation for non-parametric Bayesian modeling.
Das Ausführungsbeispiel ist wie folgt aufgebaut. Im ersten Abschnitt wird eine Dirichlet-erweiterte latenzsemantische Analyse eingeführt. Im zweiten Abschnitt werden Inferenz und Lernalgorithmen präsentiert, die aus der variationalen Appro¬ ximation entspringen. Danach werden im dritten Abschnitt ex- perimentelle Ergebnisse unter Verwendung einer Spieldatenmen¬ ge und zweier Dokumentendatenmengen vorgestellt. Im letzten Abschnitt werden Schlussfolgerungen aus dem Dargestellten ge¬ zogen. 1 Dirichlet-erweiterte latenzsemantische AnalyseThe embodiment is constructed as follows. The first section introduces a Dirichlet-extended latency semantic analysis. In the second section, inference and learning algorithms are presented, which originate from the variational approximation. Thereafter, in the third section, experimental results are presented using a game data set and two document data sets. In the last section, conclusions are drawn from what has been said. 1 Dirichlet-extended latency semantic analysis
Wir verwenden die Notation aus [4] und betrachten einen Kor¬ pus D, der D Dokumente enthält. Jedes Dokument d ist eine endliche Folge aus Nd Wörtern, die durch wd = {Wd,i,..., Wd,Nd} be¬ zeichnet wird, wobei Wd,n eine Variable für das n-te Word in wd ist und den Index des entsprechenden Wortes im Vokabular V bezeichnet. Man beachte, dass das gleiche Wort in der Folge Wd mehrfach auftreten kann.We use the notation from [4] and consider a corpus D containing D documents. Each document d is a finite sequence of N d words, denoted by w d = {Wd, i, ..., Wd, Nd}, where W d , n is a variable for the nth word in w d is the index of the corresponding word in the vocabulary V. Note that the same word can occur multiple times in the sequence W d .
1.1 Das vorgeschlagene Modell1.1 The proposed model
Wir nehmen an, dass jedes Dokument eine Mischung aus k laten¬ ten Themen ist, und dass die Wörter in jedem Dokument dadurch erzeugt werden, dass wiederholt Stichproben von Themen und Wörtern gezogen werden, und zwar unter Verwendung der folgen¬ den Verteilungen:We assume that each document is a mixture of latent topics, and that the words in each document are generated by repeated sampling of topics and words, using the following distributions:
wd,n I Zd,n,ß ~ Multinomial (wd,n\ zd,n,ß) (1)
Figure imgf000008_0001
~ Multinomial (zd,nI θd) (2)
w d , n I Zd, n, β ~ multinomial (w d , n \ z d , n, β) (1)
Figure imgf000008_0001
~ Multinomial (z d , n I θ d ) (2)
wd,n wird erzeugt durch sein latentes Thema zd,n, das Werte {!,...,k) annimmt, ß ist eine k x [V] -Matrix der Multinomialpa- rameter, ∑j ßlrD = 1, wobei die ßz,w(d,n> die Wahrscheinlichkeit angeben, dass bei gegebenem Thema z das Wort wd,n erzeugt wird, θd bezeichnet die Parameter einer Multinomialverteilung von Dokument d über den Themen für Wd, die der Gleichung θd,! ≥ 0,
Figure imgf000008_0002
θd,! = 1 genügen.
w d , n is generated by its latent theme z d , n , which takes values {!, ..., k), β is a kx [V] matrix of the multinomial parameters, Σ j β lrD = 1, where the β z , w (d, n> indicate the probability that the word w d , n is generated for a given topic z, θ d denotes the parameters of a multinomial distribution of document d over the topics for W d corresponding to the equation θ d ,! ≥ 0,
Figure imgf000008_0002
θ d ,! = 1 suffice.
Im LDA-Modell wird θd aus einer £-dimensionalen Dirichlet- Verteilung GQ (θ) = Dir(θ|λ) erzeugt, mit Parametern λ e Rk κ x. In unserem Dirichlet-erweiterten Modell nehmen wir an, dass θd aus einer Verteilung G(θ) erzeugt wird, die selbst eine durch einen Dirichlet-Prozess (DP)In the LDA model, θ d is generated from a £ -dimensional Dirichlet distribution GQ (θ) = Dir (θ | λ), with parameters λ e R k κ x . In our Dirichlet-extended model, we assume that θ d is generated from a distribution G (θ) that itself is one through a Dirichlet process (DP)
G\GOlao ~ DP (G00) (3) erzeugte zufällige Stichprobe ist, bei der die nichtnegative skalare Größe α0 der Präzisionsparameter ist, und Go (θ) die Basisverteilung ist, die identisch zur Dirichlet-Verteilung in LDA ist. Es zeigt sich, dass die aus einem DP gezogene Verteilung G(θ) alsG \ G Ol a o ~ DP (G 0 , α 0 ) (3) is the random sample generated, in which the non-negative scalar quantity α 0 is the precision parameter, and Go (θ) is the base distribution that is identical to the Dirichlet distribution in LDA. It turns out that the distribution G (θ) drawn from a DP
G = ∑"i=i U1Oe*(D (4)G = Σ " i = i U 1 Oe * (D (4)
geschrieben werden kann, wobei ∑°°i U1 = 1; δe sind in θ kon¬ zentrierte Punktmassenverteilungen, und θ*i sind abzählbar unendlich viele Variablen, die unabhängig identisch verteilt (iid) aus G0 gezogen werden. Die Wahrscheinlichkeitsgewichte U1 sind von α0 lediglich über einen Stick-Breaking-Prozess abhängig, wie er im nächsten Unterabschnitt definiert wird. Das in Figur 2 (a) zusammengefasste Erzeugungsmodell ist auf (k x I V| + k + 1) Parameter, d. h. ß, λ und α0, konditio¬ niert.can be written, where Σ °° i U 1 = 1; δe are point center distributions centered in θ, and θ * i are countably infinite variables that are independently drawn identically distributed (iid) from G 0 . The probability weights U 1 are dependent on α 0 only via a stick-breaking process, as defined in the next subsection. The generation model summarized in FIG. 2 (a) is conditioned on (kx IV | + k + 1) parameters, ie, β, λ and α 0 .
1.2 Stick-Breaking und Dirichlet-Erweiterung1.2 Stick-Breaking and Dirichlet extension
Die Repräsentation einer Stichprobe aus dem DP-Prior in Gl. (4) wird in dem Stick-Breaking-Prozess erzeugt, in dem eine unendliche Anzahl von Paaren (^,6*^ erzeugt wird. θ* 1 wird unabhängig aus Go gezogen, und 1I1 ist definiert alsThe representation of a sample from the DP prior in Eq. (4) is generated in the stick-breaking process in which an infinite number of pairs (^, 6 * ^ are generated.) Θ * 1 is independently drawn from Go, and 1I 1 is defined as
πi = B1, Ti1 = B1
Figure imgf000009_0001
,1-I) (I-B3),
πi = B 1 , Ti 1 = B 1
Figure imgf000009_0001
, 1-I) (IB 3 ),
wobei die B1 unabhängig identisch verteilt aus der Betaver- teilung Beta (1, α0) gezogen werden. Mit einem kleinen α0 sind die ersten "Sticks" 1I1 groß, und für die verbleibenden Sticks bleibt nur noch wenig übrig. Ist andererseits α0 groß, sind die ersten Sticks Ti1 und alle nachfolgenden Sticks klein, und die Ti1 sind gleichmäßiger verteilt. In der Konsequenz be- stimmt die Basisverteilung die Orte der Punktmassen, und α0 bestimmt die Verteilung von Wahrscheinlichkeitsgewichten, was zu einer geclusterten Lösung führt, wenn α0 klein gewählt wird. Man beachte, dass sowohl die Orte als auch die Gewichte nicht fixiert sind und immer dann neue Werte annehmen, wenn eine neue Stichprobe von G erzeugt wird. Da anfänglich E(G) = Go, entspricht der Prior dem Prior, der in LDA ange¬ wendet wird. Wenn sich in der Trainingsdatenmenge viele Doku- mente befinden, erhalten die Orte θ* lr die mit den Daten übereinstimmen, ein hohes Gewicht. Wenn ein kleines α0 ge¬ wählt wird, bilden die Parameter Cluster, wohingegen sich bei großem α0 viele repräsentative Parameter ergeben. Die Dirich- let-Erweiterung erfüllt also zwei Aufgaben: sie erhöht die Flexibilität der Darstellung der a-posteriori-Verteilung von gemischten Gewichten und begünstigt eine geclusterte Lösung, die einen Einblick in den Dokumentenkorpus ermöglicht.whereby the B 1 are independently distributed identically distributed from the beta distribution beta (1, α 0 ). With a small α 0 , the first "Sticks" 1I 1 are big, and the remaining sticks are left with little. On the other hand, when α 0 is large, the first sticks Ti 1 and all subsequent sticks are small, and the Ti 1 are more evenly distributed. As a consequence, the base distribution determines the locations of the point masses, and α 0 determines the distribution of probability weights, resulting in a clustered solution if α 0 is chosen to be small. Note that both the places and the weights are not fixed and accept new values whenever a new sample of G is generated. Since E (G) = Go initially, the Prior corresponds to the Prior, which is used in LDA. If there are many documents in the training data set, the locations θ * lr that agree with the data are given high weight. If a small α 0 is chosen, the parameters form clusters, whereas at large α 0 many representative parameters result. The Dirichlet extension thus fulfills two tasks: it increases the flexibility of the representation of the a posteriori distribution of mixed weights and favors a clustered solution that allows an insight into the document corpus.
Der DP-Prior bietet zwei Vorteile gegenüber den üblichen Me- thoden zur Clusterbildung von Dokumenten. Zum Ersten muss die Clusteranzahl nicht angegeben werden. Die am Ende resultie¬ rende Clusterstruktur wird durch den DP-Prior beschränkt, aber auch an die empirischen Beobachtungen angepasst. Zum Zweiten ist die Clusteranzahl nicht fixiert. Obwohl a0 ein Steuerparameter ist, mit dem die Clusterbildungstendenz be- einflusst werden kann, erlaubt der DP-Prior die Erstellung neuer Cluster, wenn das aktuelle Modell die anstehenden Daten nicht sehr gut erklären kann, was besonders bei unserer Vor¬ gabe der Fall sein kann, da das Wörterbuch fixiert ist, aber die Dokumente wachsen können.The DP Prior offers two advantages over the usual methods of clustering documents. First, the number of clusters need not be specified. The resulting final cluster structure is limited by the DP Prior, but also adapted to the empirical observations. Second, the number of clusters is not fixed. Although a 0 is a control parameter that can be used to influence the clustering tendency, the DP prior allows new clusters to be created if the current model can not very well explain the pending data, which is especially the case with our prediction can, because the dictionary is fixed, but the documents can grow.
Durch die Anwendung der Stick-Breaking-Repräsentation erhält unser Modell die äquivalente Darstellung in Figur 2 (b) . Eine unendliche Anzahl von θ*i wird aus der Basisverteilung er- zeugt, und die neue Indikatorvariable Cd zeigt an, welches Dokument welchem θ* ± zugeordnet wird. Wenn einem θ* ± mehr als ein Dokument zugeordnet wird, bilden sich Cluster, π = {πi, ,π„} ist ein Vektor von Wahrscheinlichkeitsgewichten, erzeugt aus dem Stick-Breaking-Prozess.By applying the stick-breaking representation, our model obtains the equivalent representation in Figure 2 (b). An infinite number of θ * i is generated from the base distribution, and the new indicator variable Cd indicates which document is assigned to which θ * ± . If more than one document is assigned to a θ * ± , clusters form, π = {πi,, π "} is a vector of probability weights generated from the stick-breaking process.
Unser Modell ist eine Generalisierung von LDA. Wenn α0 → ∞, wird das Modell identisch zu LDA, da die Stichprobe G iden¬ tisch zur finiten Dirichlet-Basisverteilung GQ wird. In die- sem Extremfall sind Dokumente bei gegebenem Go paarweise un¬ abhängig, da die θd unabhängig identisch verteilt aus G0 ge¬ zogen werden. Wenn Go selbst nicht hinreichend expressiv ist, kann das Modell die Abhängigkeit zwischen den Dokumenten nicht erfassen. Die DP-Erweiterung löst dieses Problem auf eine elegante Weise. Mit einem moderaten α0 erlaubt das Mo¬ dell, dass G von Go wegdriften kann, was eine flexiblere Mo¬ dellierung ermöglicht, um die reichere Datenstruktur zu un¬ tersuchen. Die Austauschbarkeit muss nicht in der gesamten Sammlung bestehen, aber zwischen Gruppen von Dokumenten, de¬ ren entsprechende atomare θ*i aus Go gezogen wurden. Anderer¬ seits führt die gesteigerte Flexibilität nicht zu einem Over- fitting, da Inferenz und Lernen in einer Bayesschen Einstel¬ lung erfolgen, wobei die durchschnittlichen Anzahlen von Mi- schungskomponenten und Zustände der latenten Variablen ermit¬ telt werden.Our model is a generalization of LDA. If α 0 → ∞, the model becomes identical to LDA, since the sample G becomes identical to the finite Dirichlet basis distribution GQ. In the- In the extreme case, documents are pairwise unrelated for a given Go, since the θ d are drawn identically distributed from G 0 independently. If Go itself is not sufficiently expressive, the model can not capture the dependency between the documents. The DP extension solves this problem in an elegant way. With a moderate α 0 , the model allows G to drift away from Go, allowing more flexible modeling to explore the richer data structure. The interchangeability does not have to exist throughout the collection, but between groups of documents whose corresponding atomic θ * i have been drawn from Go. On the other hand, the increased flexibility does not lead to an overfitting, since inference and learning take place in a Bayesian setting, whereby the average numbers of mixture components and states of the latent variables are determined.
2 Inferenz und Lernen2 inference and learning
Trotz dieser attraktiven Eigenschaften ist eine Inferenz mit dem infiniten Modell in hohem Maße auf MCMC-Approximationen angewiesen, wie beispielsweise Gibbs-Sampler, die die θd di¬ rekt unter Verwendung eines Ploya-URL-Schemas ziehen und den Schwierigkeiten einer Stichprobe aus dem unendlich- dimensionalen G aus dem Wege gehen [5] . Eine andere Möglich¬ keit ist, eine finite Approximation vorzunehmen, wie z. B. trunkierte DP (TDP) [8] oder Dirichlet-multinomiale Allokati- on (DMA) [6], und danach eine finite Version von G zu ziehen. Da die Stichprobennahme mit unseren Einstellungen sehr lang- sam sein kann, empfehlen wir eine effiziente variationale In¬ ferenz auf der Grundlage der DMA. Wir sind uns der jüngst in [3] vorgeschlagenen Alternative auf der Grundlage von TDP be- wusst. In diesem Artikel wird jedoch kein Vergleich zwischen beiden Methoden gezogen. 2.1 Dirichlet-multinomiale AllokationDespite these attractive features, an inference with the infinite model relies heavily on MCMC approximations, such as Gibbs samplers, which draw the θ d directly using a Ploya URL scheme, and the difficulty of random sampling - avoid dimensional G [5]. Another possibility is to make a finite approximation, such as. For example, truncated DP (TDP) [8] or Dirichlet multinomial allo- cation (DMA) [6], followed by a finite version of G can be deduced. Since the sampling with our settings can be very slow, we recommend an efficient variational inference on the basis of the DMA. We are aware of the recently proposed alternative based on TDP. However, this article does not compare the two methods. 2.1 Dirichlet multinomial allocation
Zunächst approximieren wir die Stick-Breaking-Verteilung aus Gl. (4) durch eine endliche Summe. Die Dirichlet-multinomiale Allokation OPN aus [6] wurde oft als eine finite Approximati¬ on für DP in Bayesschen Statistiken angewendet (siehe [6, 8]), die die Form GN = ΣWi=i π1δe*(i> annimmt, wobei π = {πi,...,πw} ein N-Vektor von Wahrscheinlichkeitsgewichten ist, die einmal aus einem Dirichlet-Prior Dir (αo/N,..., αo/N) gezogen wurden, und θ*i, 1 = 1,...,N, werden unabhängig iden¬ tisch verteilt aus der Basisverteilung Go gezogen. Es wurde gezeigt, dass DP der begrenzende Fall von DPW ist [6, 8, 10] sowie, was noch wichtiger ist, dass DPW ein ähnliches Stick- Breaking zeigt, was zu einem Clusterbildungseffekt führt [6] . Wenn N im Verhältnis zur Stichprobengröße D hinreichend groß ist, liefert DPW eine gute Approximation für DP. Die flache Darstellung unseres Modells unter DPW wird in Figur 2 (c) ver¬ anschaulicht. Die Likelihood-Wahrscheinlichkeit der vollstän¬ digen Sammlung D istFirst, we approximate the stick-breaking distribution from Eq. (4) by a finite sum. The Dirichlet allocation multinomial OP N [6] has often been applied in on Bayesian statistics as a finite Approximati¬ for DP (see [6, 8]), the Form G N = Σ W i = i π 1 .DELTA.E * ( i>, where π = {πi, ..., π w } is an N vector of probability weights drawn once from a Dirichlet prior Dir (α o / N, ..., α o / N) , and θ * i, 1 = 1, ..., N, are independently drawn identically distributed from the basic distribution Go. It has been shown that DP is the limiting case of DP W [6, 8, 10] and, more importantly, DP W shows similar stick-breaking, leading to a clustering effect. [6] If N is sufficiently large in relation to sample size D, DP W provides a good approximation for DP DP W is illustrated in Figure 2 (c) The likelihood probability of the complete collection D is
Figure imgf000012_0001
Figure imgf000012_0001
wobei Cd eine Indikatorvariable ist, die anzeigt, welchen eindeutigen Wert θ*i Dokument Wd annimmt; zd,n wird aus Gründen der Vereinfachung herausintegriert. Die Inferenz muss die verknüpfte a-posteriori-Verteilung latenter Variablen p (π, θ*i, c, zI D, QΌ,λ, ß) ) berechnen, was eine Berechnung von Gl. (5) erforderlich macht, deren Integral allerdings analy¬ tisch nicht ermittelbar ist.where Cd is an indicator variable indicating which unique value θ * i assumes document W d ; z d , n is integrated out for reasons of simplification. The inference must compute the associated a posteriori distribution of latent variables p (π, θ * i, c, zI D, QΌ, λ, β)), which implies a calculation of Eq. (5), whose integral, however, can not be determined analytically.
2.2 Variationale Inferenz und Parameterschätzung2.2 Variation inference and parameter estimation
Die Idee einer variationalen Mittlungsfeldinferenz ist, eine verknüpfte Verteilung Q(n,θ*,c,z) vorzuschlagen, die über ei- nige freie Parameter konditioniert ist, und mit diesem Q dann durch eine Minimierung der KL-Divergenz DKL(Q\ Ip (π, θ*, c, zID, O1 O,λ, ß) die interessierenden a-posteriori- Verteilungen im Hinblick auf diese freien Parameter zu appro¬ ximieren. Wir schlagen also eine variationale Verteilung Q über latenten Variablen wie folgt vorThe idea of a variational averaging field inference is to propose a linked distribution Q (n, θ * , c, z) that is conditioned over some free parameters, and then with this Q by minimizing the KL divergence D KL (Q \ Ip (π, θ * , c, zID, O 1 O , λ, β) the a-posteriori Appropriating distributions with regard to these free parameters. So we propose a variational distribution Q over latent variables as follows
(6)
Figure imgf000013_0001
(6)
Figure imgf000013_0001
wobei η, γ, φ, φ variationale Parameter sind, mit denen der variationale Vorschlag auf die Eigenschaften jeder latenten Variable zugeschnitten wird. Im Speziellen gibt η die N- dimensionale Dirichlet-Verteilung für π an, γλ gibt die k- dimensionale Dirichlet-Verteilung für verschiedene θ* ± an, ψa gibt ein iV-dimensionales Multinomial für den Indikator Cd für Dokument d an, und φd,n gibt ein A:-dimensionales Multinomial über latenten Themen für Wort Wd,Ω an. Es zeigt sich, dass die Minimierung der KL-Divergenz äquivalent ist zur Maximierung einer unteren Schranke für In p(D|αO,λ, ß) , die durch Anwen¬ dung der Jensenschen Ungleichung abgeleitet werden kann [9] . Wir überspringen die Details der Standardableitung und geben die untere Schranke direkt an alswhere η, γ, φ, φ are variational parameters that are used to tailor the variational proposal to the properties of each latent variable. Specifically, η indicates the N-dimensional Dirichlet distribution for π, γ λ indicates the k-dimensional Dirichlet distribution for various θ * ± , ψa indicates an iV-dimensional multinomial for the indicator C d for document d, and φd, n specifies an A: -dimensional multinomial on latent topics for word W d , Ω . It turns out that minimizing the KL divergence is equivalent to maximizing a lower bound for In p (D | αO, λ, β), which can be deduced by applying Jensen's inequality [9]. We skip the details of the standard derivation and specify the lower bound directly as
Figure imgf000013_0002
Figure imgf000013_0002
Die Maximierung wird durchgeführt, indem die partiellen Ab¬ leitungen im Hinblick auf jeden Parameter auf Null gesetzt werden, was zu folgenden Aktualisierungen führt The maximization is performed by setting the partial derivatives to zero with respect to each parameter, resulting in subsequent updates
«Vu c « Vu c
Figure imgf000014_0001
ö
Figure imgf000014_0001
ö
^ = Σ ^ + ^ (11)^ = Σ ^ + ^ (11)
wobei Ψ(#) die Digamma-Funktion ist, die erste Ableitung der log Gamma-Funktion. Wir überspringen die Details der Ablei- tung der oben aufgeführten Aktualisierungen, in der wir wie¬ derholt die erwarteten hinreichenden Statistiken der in [4] gegebenen Dirichlet-Verteilung anwenden. Wir finden, dass die Aktualisierungen gut interpretierbar sind. Beispielsweise ist η in Gl. (11) der Austausch zwischen empirischen Antworten in θ*i und dem durch α0 angegebenen Prior. Schließlich wird, auf¬ grund der Kopplung der Parameter, die variationale Inferenz durchgeführt, indem Gl. (8) auf Gl. (11) iterativ so lange angewendet wird, bis Konvergenz eintritt. Die Konvexität des Problems garantiert ein globales Maximum von L.where Ψ ( # ) is the Digamma function, the first derivative of the log gamma function. We skip the details of the derivation of the above-mentioned updates, in which we repeatedly apply the expected sufficient statistics of the Dirichlet distribution given in [4]. We find that the updates are well interpretable. For example, η in Eq. (11) the exchange between empirical answers in θ * i and the prior given by α 0. Finally, due to the coupling of the parameters, the variational inference is performed by Eq. (8) to Eq. (11) iteratively applied until convergence occurs. The convexity of the problem guarantees a global maximum of L.
Wir folgen dem Bayesschen Rahmen und schätzen die Hyperpara- meter α0, λ und ß durch eine Maximierung der unteren Grenze L im Hinblick zunächst auf die variationalen Parameter (wie in Gl. (8) -Gl. (11) beschrieben) sowie auf die Modellparameter ab, während die anderen fixiert werden. Das wird oft als va- riationales EM bezeichnet [9] . Es ist einfach, die Aktuali¬ sierung für ß abzuleiten:We follow the Bayesian framework and estimate the hyperparameters α 0 , λ and β by maximizing the lower limit L with respect first to the variational parameters (as described in Eq. (8) - (11)) and to the Model parameters while the others are fixed. This is often referred to as a national EM [9]. It is easy to derive the update for β:
Figure imgf000014_0002
Figure imgf000014_0002
wobei δj(wd,n) = 1 für Wd,n = J, und 0 sonst. Für die übrigen Parameter schreiben wir zunächst die Teile von L in Gl. (7) nieder, die α0 und λ enthalten: £|ani = Jn r(α.) - N In T(ψ) + {% - !) ^1 [*(,) - *(££, ^)]where δj (wd, n) = 1 for Wd, n = J, and 0 otherwise. For the remaining parameters we first write the parts of L in Eq. (7), which contain α 0 and λ: £ | ani = Jn r (α.) - N In T (ψ) + {% -!) ^ 1 [* (,) - * (££, ^ ) ]
Man kann Standardoptimierungsmethoden verwenden, wie z. B. die in [4] angewendete Newton-Raphson-Methode, um die Ab- Schätzungen für α0 und λ durch eine Maximierung der oben auf¬ geführten Objekte einzeln herzuleiten.You can use standard optimization methods, such as: For example, the Newton-Raphson method used in [4] is used to derive the estimates for α 0 and λ individually by maximizing the objects listed above.
3 Empirische Studie3 Empirical study
3.1 Spieldaten3.1 Game data
Wir wenden das Modell zunächst auf ein Spielproblem mit k = 5 latenten Themen und einem Wörterbuch mit 200 Wörtern an. Die Wahrscheinlichkeit, dass aus diesen Themen Wörter erzeugt werden, also der Parameter ß, ist in Figur 3 (d) dargestellt. Dabei entspricht jede farbige Linie einem Thema und weist ei¬ ner Menge von Wörtern eine Wahrscheinlichkeit zu, die ver¬ schieden von Null ist. Für jeden Lauf erzeugen wir die Daten mit den folgenden Schritten: (1) eine Clusterzahl M wird zwi- sehen 5 und 12 gewählt; (2) es werden M Dokumentencluster er¬ zeugt, von denen jedes durch eine Kombination von Themen de¬ finiert ist; (3) jedes Dokument d, d = l,...,100, wird erzeugt, indem zunächst zufällig ein Cluster ausgewählt wird und dannWe first apply the model to a game problem with k = 5 latent themes and a dictionary of 200 words. The probability that words are generated from these topics, ie the parameter β, is shown in FIG. 3 (d). Each colored line corresponds to a topic and assigns to a set of words a probability that is different from zero. For each run, we generate the data with the following steps: (1) a cluster number M is chosen between 5 and 12; (2) M document clusters are produced, each of which is defined by a combination of topics; (3) Each document d, d = 1, ..., 100 is generated by first randomly selecting a cluster and then
40 Wörter entsprechend den jeweiligen Themenkombinationen er- zeugt werden. DPW wird mit N = 100 gesetzt, und wir möchten die Leistungsfähigkeit bei der Entdeckung der latenten Themen und der Dokumentclusterstruktur untersuchen.40 words according to the respective topic combinations. DP W is set at N = 100, and we want to examine the performance of detecting the latent topics and the document cluster structure.
In Figur 3 (a) - (c) veranschaulichen wir den Clusterbil- dungsprozess für Dokumente über EM-Iterationen mit einem Lauf, der 6 Dokumentencluster enthält. In Figur 3 (a) zeigen wir die initiale zufällige Zuordnung φdfl von jedem Dokument d zu einem Cluster 1. Nach einem EM-Schritt beginnen die Doku¬ mente, sich in einer verringerten Anzahl von Clustern zusam- menzuballen (Figur 3 (b) ) , und konvergieren nach 5 Schritten zu exakt 6 Clustern (Figur 3 (c) ) . Die gelernte Wortverteilung von Themen ß wird in Figur 3 (e) gezeigt; sie ist sehr ähnlich zur tatsächlichen Verteilung. Indem wir M, die tatsächliche Anzahl von Dokumentenclustern, variieren, können wir überprü¬ fen, ob unser Modell das richtige M finden kann. Für jeden Wert für M im Bereich 5 bis 12 werden die Daten für 20 Versu¬ che randomisiert, und wir erhalten die Kurve in Figur 3(f), die die durchschnittliche Leistung und die Varianz zeigt. In 37% der Läufe erhalten wir perfekte Ergebnisse, und in weite¬ ren 43% der Läufe weichen die gelernten von den tatsächlichen Werten nur um eins ab. Wir sehen jedoch auch, dass das Modell dazu neigt, für große M geringfügig weniger als M Cluster zu erhalten. Das kann darin liegen, dass gerade mal 100 Dokumen¬ te nicht ausreichen, um eine große Zahl von M Clustern zu lernen.In Figures 3 (a) - (c) we illustrate the clustering process for documents about EM iterations with a run containing 6 document clusters. In FIG. 3 (a), we show the initial random assignment φ dfl of each document d to a cluster 1. After an EM step, the documents begin to converge in a reduced number of clusters (FIG. 3 (b)). ), and after 5 steps converge to exactly 6 clusters (Figure 3 (c)). The learned word distribution of topics β is shown in Figure 3 (e); it is very similar to the actual distribution. By varying M, the actual number of document clusters, we can verify that our model can find the right M. For each value of M in the range 5 to 12, the data is randomized for 20 trials, and we obtain the graph in Figure 3 (f) which shows the average power and the variance. In 37% of the runs, we get perfect results, and in 43% of the runs, the learned deviate from the actual values by only one. However, we also see that the model tends to get slightly less than M clusters for large M's. This may be because just 100 documents are not sufficient to learn a large number of M clusters.
3.2 Dokumentenmodellierung3.2 Document modeling
Wir vergleichen das vorgeschlagene Modell mit PLSI und LDA an zwei Textdatenmengen. Die erste ist eine Teilmenge der Daten¬ menge Reuters-21578, die 3000 Dokumente und 20334 Wörter ent¬ hält. Die zweite wird aus der Datenmenge 20-newsgroups gezo¬ gen und hat 2000 Dokumente mit 8014 Wörtern. Die Vergleichs¬ metrik ist perplexity, die üblicherweise bei Sprachmodellie- rungen verwendet wird. Für eine Testdokumentenmenge ist sie formal definiert zu: Perplexity(Dtest) = exp(- In p (Dtest) /∑dl
Figure imgf000016_0001
) • Wir folgen der Formel in [4], um die Per¬ plexity für PLSI auszurechnen. In unserem Algorithmus steht N für die Anzahl von Trainingsdokumenten. Die Figuren 4 (a) und 4 (b) zeigen die Ergebnisse des Vergleichs mit einer unter¬ schiedlichen Anzahl k von latenten Themen. Unser Modell über¬ trifft PLSI und LDA in allen Läufen. Das heißt, dass die durch DP-Erweiterung hereingebrachte Flexibilität kein Over- fitting zur Folge hat und zu einer besseren Generalisierungs- leistung führt. 3.3 Clusterbildung
We compare the proposed model with PLSI and LDA on two sets of textual data. The first is a subset of the data set Reuters-21578, which contains 3000 documents and 20334 words ent. The second is taken from the data set of 20 newsgroups and has 2000 documents with 8014 words. The comparison metric is perplexity, which is usually used in language modeling. For a set of test documents, it is formally defined as: Perplexity (D te st) = exp (- In p (Dtest) / Σdl
Figure imgf000016_0001
) • We follow the formula in [4] to calculate the perlexity for PLSI. In our algorithm, N stands for the number of training documents. FIGS. 4 (a) and 4 (b) show the results of the comparison with a different number k of latent topics. Our model overcomes PLSI and LDA in all runs. This means that the flexibility introduced by DP expansion does not result in over-fitting and leads to better generalization performance. 3.3 Clustering
In unserem letzten Experiment zeigen wir, dass unser Ansatz geeignet ist, um Dokumentencluster zu finden. Wir wählen aus der Datenmenge 20-newsgroups vier Kategorien autos, motorcyc- les, baseball und hockey mit 446 Dokumenten in jedem Thema aus. Figur 4 (c) zeigt ein Clusterbildungsergebnis, in dem wir die Themenanzahl auf k = 5 gesetzt und dabei 6 Dokumentenc¬ luster gefunden haben. In der Figur werden die Dokumente ent- sprechend ihren tatsächlichen Kategorielabels indiziert. So können wir deutlich sehen, dass das Ergebnis durchaus sinn¬ voll ist. Dokumente aus einer Kategorie zeigen ähnliche Zuge¬ hörigkeiten zu den gelernten Clustern, verschiedenartige Ka¬ tegorien können einfach voneinander unterschieden werden. Die ersten beiden Kategorien sind nicht klar voneinander ge¬ trennt, da beide Fahrzeuge zum Thema haben und viele Terme gemeinsam verwenden. Die beiden anderen Kategorien, Baseball und Hockey, sind ideal gefunden worden.In our last experiment we show that our approach is suitable for finding document clusters. We select four categories of cars, motorcycles, baseball and hockey from the dataset 20 newsgroups with 446 documents in each topic. FIG. 4 (c) shows a clustering result in which we set the number of topics to k = 5 and found 6 document chandeliers. In the figure, the documents are indexed according to their actual category labels. So we can clearly see that the result is quite meaningful. Documents from one category show similar accessions to the learned clusters, different categories can be easily distinguished from one another. The first two categories are not clearly separated from each other, since both vehicles have the topic and use many terms together. The other two categories, baseball and hockey, have been found to be ideal.
4 Schlussfolgerungen4 conclusions
In diesem Ausführungsbeispiel wird ein Modell zur Dirichlet- erweiterten latenzsemantischen Analyse vorgeschlagen, das die Leistungsfähigkeit früherer Ansätze beim Auffinden der laten- ten Themen beibehält, aber außerdem eine zusätzliche Model¬ lierungsflexibilität einführt, um Dokumentencluster zu unter¬ suchen. Bei der Inferenz wird von einer variationalen Mitt- lungsfeldapproximation ausgegangen, die auf einer finiten Ap¬ proximation für DP (Dirichlet Prozess) basiert. Die Experi- mente mit Spieldaten und zwei Textdatenmengen zeigen, dass unser Modell sowohl die latente Semantik, als auch eine sinn¬ volle Clusterstruktur erkennen kann. LiteraturverzeichnisIn this embodiment, a model for Dirichlet-extended latency semantic analysis is proposed, which retains the capability of previous approaches to finding the latent themes, but also introduces additional modeling flexibility to examine document clusters. The inference is based on a variational mean-field approximation based on a finite approximation for DP (Dirichlet process). The experiments with performance data and two text data sets show that our model can recognize both the latent semantics and a reasonable cluster structure. bibliography
[I] Beal, M. J., Ghahramani, Z. und C. E. Rasmussen: "The in¬ finite hidden markov model" in Advances in Neural Infor- mation Processing Systems (NIPS), 14.2002[I] Beal, M.J., Ghahramani, Z. and C.E. Rasmussen: "The Infinite Hidden Markov Model" in Advances in Neural Information Processing Systems (NIPS), 14.2002
[2] Blei, D., Griffiths, T. L., Jordan, M. I. und J. B. Tenenbaum: "Hierarchical topic modeis and the nested Chi¬ nese restaurant process" in Advances in Neural Informa¬ tion Processing Systems 16, MIT Press, 2004 [3] Blei, D. und M. Jordan: "Variational methods for the Dirichlet process", 2004; erscheint in Proceedings of the 21st International Conference on Machine Learning [4] Blei, D., Ng, A. und M. Jordan: "Latent Dirichlet Alloca- tion" in Journal of Machine Learning Research, 3:993- 1022, 2003[2] Blei, D., Griffiths, TL, Jordan, MI, and JB Tenenbaum: "Hierarchical topic mode and the nested Chinese restaurant process" in Advances in Neural Information Processing Systems 16, MIT Press, 2004 [3] Blei, D. and M. Jordan: "Variational methods for the Dirichlet process", 2004; appears in Proceedings of the 21st International Conference on Machine Learning [4] Blei, D., Ng, A. and M. Jordan: "Latent Dirichlet Allocation" in Journal of Machine Learning Research, 3: 993-1022, 2003
[5] Escobar, M. D. und M. West: "Bayesian density estimation and inference using mixtures" in Journal of the American Statistical Association, 90(430) , 1995[5] Escobar, M.D., and M. West: "Bayesian density estimation and inference using mixtures" in Journal of the American Statistical Association, 90 (430), 1995
[6] Green, P. J. und S. Richardson: "Modelling heterogeneity with and without the Dirichlet process", 2000, nicht veröffentlicht[6] Green, P.J. and S. Richardson: "Modeling heterogeneity with and without the Dirichlet process", 2000, unpublished
[7] Hofmann, T. : "Probabilistic Latent Semantic Indexing" in Proceedings of the 22nd Annual ACM SIGIR Conference, S.50-57, Berkeley, CA, 1999 [8] Ishwaran, H. und M. Zarepour: "Exact and approximate sum- representations for the Dirichlet process" in Can . J. Statist 30:269-283, 2002[7] Hofmann, T.: "Probabilistic Latent Semantic Indexing" in Proceedings of the 22nd Annual ACM SIGIR Conference, p.50-57, Berkeley, CA, 1999 [8] Ishwaran, H. and M. Zarepour: "Exact and approximate summations for the Dirichlet process "in Can. J. Statist. 30: 269-283, 2002
[9] Jordan, M. I., Ghahramani, Z., Jaakkola, T. und L. K: Saul: "An introduction to variational methods for graphi- cal modeis" in Machine Learning 37 (2) : 183-233, 1999[9] Jordan, M.I., Ghahramani, Z., Jaakkola, T., and L.K. Saul: "An Introduction to Variational Methods for Graphical Mode" in Machine Learning 37 (2): 183-233, 1999
[10] Neal, R. M. : "Markov chain sampling methods for Dirichlet process mixture modeis" in Journal of Computa- tional and Graphical Statistics, 9:249-265, 2000[10] Neal, R.M .: Markov chain sampling methods for Dirichlet process mixture modeis, in the Journal of Computational and Graphical Statistics, 9: 249-265, 2000
[II] Rasmussen, C. E. und Z. Ghahramani: "Infinite mixtures auf gaussian process experts" in Advances in Neural In¬ formation Processing Systems 14, 2002 [12] Yu, K., Tresp, V. und S. Yu: "A nonparametric hierarchi- cal Bayesian framework for Information filtering" in Pro- ceedings of the 27th Annual ACM SIGIR Conference, 2004 [II] Rasmussen, CE and Z. Ghahramani: "Infinite mixtures on gaussian process experts" in Advances in Neural Information Processing Systems 14, 2002 [12] Yu, K., Tresp, V., and S. Yu: "A Nonparametric Hierarchical Bayesian Framework for Information Filtering" in Pro- grams of the 27th Annual ACM SIGIR Conference, 2004

Claims

Patentansprüche claims
1. Verfahren zur Gliederung eines auf mindestens einem Spei¬ chermedium gespeicherten Datenbestandes, wobei - als statistisches Modell zur Modellierung des Datenbestan¬ des eine Dirichlet-Verteilung mit beliebig vielen Zuständen verwendet wird,1. A method for structuring a data stored on at least one SpeI¬ chermedium database, wherein - is used as a statistical model for modeling the Datenbestan¬ of a Dirichlet distribution with any number of states,
- in einem iterativen Prozess Variablen des statistischen Mo¬ dells an den Datenbestand angepasst werden, - der Datenbestand anhand der Zustände des angepassten sta¬ tistischen Modells gegliedert wird.- variables of the statistical model are adapted to the data stock in an iterative process, - the database is structured on the basis of the states of the adapted statistical model.
2. Verfahren nach Anspruch 1, wobei anhand der Zustände des angepassten statistischen Modells Themenschwerpunkte und/oder Themengruppen des Datenbestandes identifizierbar sind.2. The method of claim 1, wherein based on the states of the adapted statistical model topics and / or topic groups of the data are identifiable.
3. Verfahren nach mindestens einem der Ansprüche 1 und 2, wo¬ bei das statistische Modell zur Modellierung des Datensatzes als Dirichlet-Prozess ausgestaltet ist.3. The method according to at least one of claims 1 and 2, wherein the statistical model for modeling the data set is designed as a Dirichlet process.
4. Verfahren nach Anspruch 3, wobei der Dirichlet Prozess durch ein finites statistisches Modell approximiert wird.4. The method of claim 3, wherein the Dirichlet process is approximated by a finite statistical model.
5. Verfahren nach mindestens einem der Ansprüche 1 bis 4, wo¬ bei in dem iterativen Prozess Variablen und Parameter des statis- tischen Modells an den Datenbestand angepasst werden.5. The method according to at least one of claims 1 to 4, wherein in the iterative process variables and parameters of the statistical model are adapted to the data stock.
6. Verfahren nach mindestens einem der Ansprüche 1 bis 5, wo¬ bei der iterative Prozess als Mean-Field Algorithmus ausgestaltet ist.6. The method according to at least one of claims 1 to 5, wherein the iterative process is designed as a mean-field algorithm.
7. Verfahren nach mindestens einem der Ansprüche 1 bis 6, wo¬ bei der iterative Prozess als Mean-Field Algorithmus basierend auf einer finiten Näherung ausgestaltet ist.7. The method according to at least one of claims 1 to 6, wo¬ in the iterative process is designed as a mean-field algorithm based on a finite approximation.
8. Verfahren nach mindestens einem der Ansprüche 1 bis 7, wo- bei der iterative Prozess als Markov-Chain-Monte-Carlo (MCMC) Verfahren ausgestaltet ist.8. The method according to at least one of claims 1 to 7, wherein the iterative process as Markov chain Monte Carlo (MCMC) method is configured.
9. Verfahren nach mindestens einem der Ansprüche 1 bis 8, wo- bei der gegliederte Datenbestand und/oder Informationen über den gegliederten Datenbestand auf zumindest einem Speichermedium abgespeichert werden.9. The method according to at least one of claims 1 to 8, wherein the articulated data and / or information about the structured data stored on at least one storage medium.
10. Verfahren nach mindestens einem der Ansprüche 1 bis 9, wobei der gegliederte Datenbestand und/oder Informationen über den gegliederten Datenbestand zugreifbar gemacht werden.10. The method according to at least one of claims 1 to 9, wherein the structured data and / or information on the structured data is made accessible.
11. Verfahren nach mindestens einem der Ansprüche 1 bis 10, wobei der Datenbestand ein Text-Dokument oder eine Menge von Text- Dokumenten umfasst.11. The method according to at least one of claims 1 to 10, wherein the database comprises a text document or a set of text documents.
12. Verfahren nach mindestens einem der Ansprüche 1 bis 11, wobei der Datenbestand eine Datenbank und/oder das Internet um¬ fasst.12. The method according to at least one of claims 1 to 11, wherein the database comprises a database and / or the Internet um¬ sums.
13. Computerprogrammprodukt, das in einen Arbeitsspeicher ei¬ ner Programmablaufsteuerungseinrichtung ladbar ist und zumin¬ dest einen Codeabschnitt aufweist, bei dessen Ausführung zur Gliederung eines auf mindestens einem Speichermedium ge¬ speicherten Datenbestandes - als statistisches Modell zur Modellierung des Datenbestan¬ des eine Dirichlet-Verteilung mit beliebig vielen Zuständen verwendet wird, - in einem iterativen Prozess Variablen des statistischen Mo¬ dells an den Datenbestand angepasst werden,13. Computer program product, which is loadable into a main memory of a program sequence control device and at least has a code section, in its execution for structuring a data stored on at least one storage medium - as a statistical model for modeling the data inventory of a Dirichlet distribution is used with any number of states, - variables of the statistical model are adapted to the data stock in an iterative process,
- der Datenbestand anhand der Zustände des angepassten sta¬ tistischen Modells gegliedert wird, wenn das Computerprogrammprodukt in der Programmablaufsteue¬ rungseinrichtung abläuft. - The database is structured on the basis of the states of the adapted statistic model when the computer program product runs in the program execution control device.
PCT/EP2005/054891 2004-10-04 2005-09-28 Method for structuring a data stock that is stored on at least one storage medium WO2006037747A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004048272.1 2004-10-04
DE102004048272 2004-10-04

Publications (2)

Publication Number Publication Date
WO2006037747A2 true WO2006037747A2 (en) 2006-04-13
WO2006037747A3 WO2006037747A3 (en) 2007-05-31

Family

ID=35985416

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2005/054891 WO2006037747A2 (en) 2004-10-04 2005-09-28 Method for structuring a data stock that is stored on at least one storage medium

Country Status (1)

Country Link
WO (1) WO2006037747A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426647A (en) * 2016-01-18 2016-03-23 中国人民解放军国防科学技术大学 Reliability apriori information fusion-based estimation method for reliability of cold standby system

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BLEI D M ET AL: "Hierarchical topic models and the nested Chinese restaurant process" ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS (NIPS) 16 (THRUN S ET AL EDITORS), 2004, XP002427365 Cambridge, MA, MIT Press Gefunden im Internet: URL:http://www.cs.princeton.edu/~blei/pape rs/BleiGriffithsJordanTenenbaum2003.pdf> [gefunden am 2007-03-29] in der Anmeldung erwähnt *
BLEI D M ET AL: "Latent Dirichlet Allocation" JOURNAL OF MACHINE LEARNING RESEARCH, Bd. 3, Januar 2003 (2003-01), Seiten 993-1022, XP002427366 Gefunden im Internet: URL:http://portal.acm.org/citation.cfm?id= 944937&dl=GUIDE,> [gefunden am 2007-03-29] in der Anmeldung erwähnt *
BLEI D M ET AL: "Variational methods for the Dirichlet process" 21ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML 2004), 4-8 JULY 2004, BANFF, CANADA, 4. Juli 2004 (2004-07-04), XP002427364 Gefunden im Internet: URL:http://portal.acm.org/citation.cfm?id= 1015330.1015439> [gefunden am 2007-03-29] in der Anmeldung erwähnt *
YU K ET AL: "Dirichlet enhanced latent semantic analysis" 10TH INTERNATIONAL WORKSHOP ON ARTIFICIAL INTELLIGENCE AND STATISTICS (AISTATS-05), 6-8 JANUARY 2005, BARBADOS, 6. Januar 2005 (2005-01-06), XP002427363 Gefunden im Internet: URL:http://www.dbs.informatik.uni-muenchen .de/~yu_k/aistat2005l.pdf> [gefunden am 2007-03-29] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426647A (en) * 2016-01-18 2016-03-23 中国人民解放军国防科学技术大学 Reliability apriori information fusion-based estimation method for reliability of cold standby system
CN105426647B (en) * 2016-01-18 2018-08-07 中国人民解放军国防科学技术大学 Cold stand-by systems reliablity estimation method based on the fusion of reliability prior information

Also Published As

Publication number Publication date
WO2006037747A3 (en) 2007-05-31

Similar Documents

Publication Publication Date Title
DE69938339T2 (en) A SCALABLE SYSTEM FOR GROUPING LARGE DATA BENCHES
DE102018009243A1 (en) Abstracting long documents using deep-learning structured documents
DE69933187T2 (en) Document Search and Service
DE102016223193A1 (en) Method and apparatus for completing a knowledge graph
DE10134899A1 (en) Subject-based system and procedure for classifying documentation units
EP1779271A2 (en) Speech and textual analysis device and corresponding method
DE112010000947T5 (en) Method for completely modifiable framework data distribution in the data warehouse, taking into account the preliminary etymological separation of said data
DE112013001740T5 (en) Word processing method for building a text model
EP3736817A1 (en) Checking and / or improvement in the consistency of data codes in medical image processing
DE102021004562A1 (en) Modification of scene graphs based on natural language commands
DE60032258T2 (en) DETERMINE WHETHER A VARIABLE NUMERIC OR NOT NUMERIC IS
DE10356399A1 (en) Data processing system
DE112016007411T5 (en) FUZZY INPUT FOR AUTOENCODER
DE102012025349B4 (en) Determination of a similarity measure and processing of documents
DE112020002892T5 (en) ACTIVE LEARNING FOR DATA MATCHING
DE10320419A1 (en) Database query system and method for computer-aided query of a database
EP1264253B1 (en) Method and arrangement for modelling a system
WO2006037747A2 (en) Method for structuring a data stock that is stored on at least one storage medium
DE19963123B4 (en) Analytical information system
DE202022105338U1 (en) A neural network system for music genre classification based on evolutionary stochastic hyperparameter selection
DE102014116117A1 (en) Method and system for mining patterns in a data set
EP3901713B1 (en) Method and device for operating a technical system with optimal model
DE102007044380A1 (en) Computer-aided studying of probabilistic network from data record of measured, experimentally determined and/or empirical values, comprises studying structure of non-directed graphs having nodes and non-directed edges from the data record
DE102005013868A1 (en) Process for the analysis and organisation of digital memory data uses a statistical model using a Dirichlet distribution
EP3905097A1 (en) Device and method for determining a knowledge graph

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase