WO2011044864A1 - Method and system for classifying objects - Google Patents
Method and system for classifying objects Download PDFInfo
- Publication number
- WO2011044864A1 WO2011044864A1 PCT/DE2009/001420 DE2009001420W WO2011044864A1 WO 2011044864 A1 WO2011044864 A1 WO 2011044864A1 DE 2009001420 W DE2009001420 W DE 2009001420W WO 2011044864 A1 WO2011044864 A1 WO 2011044864A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data structure
- tree data
- word
- nodes
- weighting
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
Definitions
- the invention relates to a method and a system for classifying objects which are referenced by at least one tree data structure or which are related to at least one tree data structure.
- Objects such as music or images are often "tagged” or tagged, ie users assign keywords so that the objects can be searched for using the keywords.
- the disadvantage here is that objects that are not tagged are not found or are not searched for them can.
- expert search engines are known which can be used to search for persons with specific knowledge. To do this, the system needs to know which areas a person knows or knows very well. In known methods, users can register their knowledge in a database. However, this is very complex and often very inaccurate, for example, if people enter not existing knowledge in the database. Automated methods are also known in which emails or other written documents of the persons are analyzed. However, e-mails often contain much irrelevant information, so that the quality of the classification of persons is usually very low.
- the object of the present invention is to provide a method and a system with which objects can be classified reliably and with high quality, without having the disadvantages known from the prior art.
- a method of classifying at least one object wherein the object is related to at least one tree data structure, the at least one tree data structure having a number of nodes connected by edges, wherein one node of the at least one tree data structure comprises at least one text, comprising a number of words, and wherein the at least one at least one tree data structure can be stored in a memory device, and wherein the method comprises at least the following steps:
- Weighting of the texts wherein for each word of a text a weighting value is generated which is assigned to the word of the text, whereby for a word which occurs in different texts different weighting values can be generated;
- each classification value being represented by a triple consisting of an object identification identifying object, a word, and a weighting value (object identification, word, weighting value) associated with the word.
- the data source for classifying objects is a tree data structure in which the objects are referenced or with which an object is related.
- An example of a relationship between an object and a tree data structure is an author who has created the tree data structure. The author is then related to the tree data structure.
- tree data structure or tree data structures is abbreviated BDS.
- the terms "referencing” and “linking” or the terms “reference” and “link” are used synonymously below. Tree structures can be used to extract information that can significantly improve search engines (for example, search for documents, people, ).
- tree data structures can be: directory structures (eg file systems), mind maps or other hierarchical structures which are suitable for storing references to objects.
- a tree data structure may also be a computer network where the objects are stored on different computers and where the objects are in a hierarchical relationship.
- an object is an electronic file in a directory of a directory structure or a document which is referenced or linked from a Mind Map.
- BDS An important advantage of BDS is that it can be analyzed directly and quickly without having to access the content of the objects to be classified. The moment a BDS is created by a user, it can be analyzed immediately. Another advantage is that the classification of objects can be determined in near real-time, which is particularly advantageous when, for example, a user moves a document from one directory to another directory, which can result in reclassification of the moved object. Another advantage is that the storage space required to perform an efficient search for documents can be significantly reduced, compared to the methods known from the prior art, since for documents the words of the document content can be disregarded, since only the Words of the tree data structure are included in the classification.
- the relationship of the object to the at least one tree data structure may be formed by at least one node, which represents a reference to the object, of the tree data structure.
- the weighting value of a word can be generated from the number of edges between the node referencing the object and the node to which the text of the word is assigned. It is advantageous if the weighting value of a word is generated according to the calculation rule 1 / ((number of edges between object and word) + 1).
- those texts associated with those nodes located in the tree data structure on the path between a root node and the node referencing the object may be taken into account.
- those texts may be used which are associated with such nodes that are sibling nodes of those nodes that are on the path between a root node and the node referencing the object.
- the weight values of identical words may be combined to produce a total weight value for the word.
- the combining of the weighting values may include at least adding the weighting values.
- the relationship of the object to the at least one tree data structure may be formed by an association of the object with the at least one tree data structure.
- the number of occurrences of each word and / or each compound word in the tree data structure can be determined.
- the number of nodes included in a partial tree data structure may be taken into account, wherein the root of the partial tree data structure is formed by the node containing the word.
- the weighting value of a word can be calculated according to the calculation rule be generated.
- the weighting value of a word can also be calculated according to the calculation rule be generated.
- a total weighting value can be generated, which follows the calculation rule
- Melirere tree data structures can also be combined into a single tree data structure.
- the texts Before weighting the texts, the texts can be subjected to a text transformation in order to generate a transformed text from the texts.
- the text transformation may include at least one of word stemming and stopword filtering.
- the classification values may be stored in a memory device.
- the objects may also be stored in a memory device and related to the classification values in the memory device.
- a step of reducing the tree data structure may be performed before reading out the nodes of the at least one tree data structure.
- the determination or determination of similarity values between objects can be accelerated, which is advantageous in particular when a very large number of BDSs have to be analyzed.
- the reduction can further increase the quality of the classification, since the reduction removes nodes that are irrelevant to the classification.
- the tree data structure may be transmitted over a communication network from a client device to a server device, wherein the transfer may be performed prior to reading out the nodes of the tree data structure.
- the normalized tree data structure format can be a tree data structure in XML format.
- An object can be at least one of document, image, music, movie, website, electronically storable file, and author.
- An object can also be a physical object, eg a book, which is referenced by a BDS on the basis of eg the title.
- FIGS. 1 to 3 show examples of tree data structures in non-reduced form and reduced form
- Figs. 4 to 6 are examples of tree data structure for explaining the weighting; and Fig. 7 shows an example of a tree data structure for classifying words to each other.
- objects eg, web pages, people, documents, pictures, music, movies, words, etc.
- the classification of the objects is based on data obtained from tree data structures, such as mind maps or file systems, where the objects are linked or referenced from the BDS or are related to the BDS.
- objects which are linked from a BDS are classified with the words which are in the vicinity of the link or the reference.
- words connected by edges in the BDS are also related to one another.
- the method of classifying objects may be implemented by software, e.g. may include client software and / or server software.
- a user may install client software to perform the method of the invention.
- the software identifies all relevant BDS on the user's computer.
- a BDS is e.g. identified via the file extension or via the header of files or by being explicitly selected by the user.
- the software either starts automatically in the background when booting up the computer, by explicitly starting it by the user or by calling a third application.
- the software can scan all storage media (hard disk, DVDs, network, etc.) or only pay attention to the main memory, i. Only analyze the BDS that are currently open or otherwise processed.
- the BDS are filtered as needed by factors, e.g.
- the factors can be set arbitrarily or combined with each other. For example, only BDSs created in the last 2 months could be considered, but at least 10 links to objects are missing in the last 3 days were changed more and were explicitly marked by the user to be transferred to the server. If necessary, the BDSs are converted to another format. For example, proprietary Mind Map files could be converted to XML.
- the BDS are then transmitted to a server, the server software can possibly run on the computer of the user on which the BDS are located.
- the BDSs are converted to another format (for example, from a proprietary format to XML).
- the server stores the data on disk, in memory, in a database or other suitable medium. Possibly. the BDS are filtered again according to already mentioned factors.
- FIG. 1 shows on the left a BDS in non-reduced form and on the right a BDS in reduced form, in which all end nodes which do not contain any links to objects have been deleted.
- Certain branches can be selected in the BDS that should (not) be analyzed. This is especially important with file systems, so that the user can e.g. can choose to scan only directories and files in c: ⁇ my files ⁇ and not c: ⁇ windows ⁇ .
- the BDS searches for those nodes that link to an object or that reference an object. For example, hyperlinks, file names and / or paths, links, and / or indirect references to objects such as BibTeX keys, file numbers, and similar unique keys or document names (or titles) are searched for. Once all the nodes that link to or reference objects are found, these objects must be identified to make it clear what it is. This can be done in one embodiment as follows: a. Was a hyperlink can be found
- the title is read from the linked website (the text between the tags ⁇ title> and ⁇ / title>)
- the object type is identified by the file extension or the header of the file. Depending on the file type, other methods can then be used. For example,
- Reading the file metadata (title or author, if available), depending on the operating system and file type.
- ii. in the case of a formatted text document eg Word document or PDF: read the title by the text with the largest font on the first page in the upper third is determined and goes over less than four lines. This text is then adopted as a title (the numerical values here can of course be exchanged freely, so that, for example, not in the upper third but in the upper quarter is searched).
- iv. otherwise generate a hash value (for example MD5) or file name and path of the file.
- a hash value for example MD5
- the data (e.g., title, hash, ...) that has been determined can be matched against existing data in a database (knowledge base). For example, was an item extracted from the document title "The Tree Proximity Index - what is it good for?" And an object titled “The Tree Proximity Index: what is it good for?” Is already in the database. present, it is probably the same object despite the small difference.
- the classification of the identified and determined objects is carried out as follows:
- each node is read out of the BDS and processed by popular text mining methods, e.g. Stemming (reducing the words to their root) or Stop Word Filtering (filtering conjunctions, prepositions, and other less meaningful words such as “and", “or”, “the”, “how”, etc.).
- Stemming reducing the words to their root
- Stop Word Filtering filtering conjunctions, prepositions, and other less meaningful words such as "and", "or”, “the”, “how”, etc.
- Each object is classified by the text of its node, its parent node and parent node, etc., as well as the child node and its child node, etc.
- an object After an object has been identified and classified, its metadata (title, author, URL, hash value, etc.) is stored in a database.
- the classification of the object is also stored in the database.
- the stored object is related to the stored classification.
- Identifying the author the name of the author (creator / owner of the BDS) is determined
- the root node thus has the highest weighting value.
- node contains multiple words, they are considered individually and treated as separate nodes. In the example, the following weighting would be generated from the "How to make Mind Maps best?" Node:
- the total weighting or the total weighting value is calculated from the sum of the highest value plus the root of the smaller values, ie
- the inventive method can also be used to determine the context of words in a BDS. This may be done as described with reference to FIG. 7 as follows:
- the word combinations are not yet available in the system, they are stored in a database. In addition, it is also saved from which author the BDS originates, from which the data was extracted. If the word combination has just been newly entered, the counter combination 1 is assigned to this word combination. If the word combination already exists, the counter is incremented by 1. However, if the current BDS is used by an author who has already used one (or more) other BDSs for the calculation, the counter is only incremented by 0.1 (or some other value).
- the inventive method can be used together in a search system (or independently as a search system). Based on a search term suitable authors and / or objects can be found and related search terms can be proposed. This can be done as follows:
- a user visits a website (or desktop software).
- the process according to the invention can be carried out by known methods, e.g. Full-text analysis of documents, full-text search, etc. can be combined.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
The invention relates to a method and a system for classifying at least one object, wherein the object is related to at least one tree data structure, wherein the tree data structure has a number of nodes, wherein at least one text, comprising a number of words, is associated with a node of the tree data structure, wherein the method comprises at least the following steps and the system is designed to perform at least the following steps: reading out the texts associated with the nodes of the tree data structure; weighting the texts, wherein for each word of a text, a weighting value is generated and is associated with the word of the text, wherein different weighting values can be generated for a word that occurs in different texts; and generating a number of classification values, wherein each classification value is represented by a triplet, comprising an object identification that identifies the object, a word, and a weighting value associated with the word (object identification, word, weighting value).
Description
Verfahren und System zum Klassifizieren von Objekten Method and system for classifying objects
Gebiet der Erfindung Field of the invention
Die Erfindung betrifft ein Verfahren und ein System zum Klassifizieren von Objekten, welche von zumindest einer Baumdatenstruktur referenziert werden oder welche mit zumindest einer Baumdatenstruktur in Beziehung stehen. The invention relates to a method and a system for classifying objects which are referenced by at least one tree data structure or which are related to at least one tree data structure.
Stand der Technik State of the art
Es sind Verfahren bekannt, mit denen Objekte, z.B. Dokumente klassifiziert werden können. Bei Dokumenten wird zum Beispiel der Dokumententext analysiert. Hierbei wird angenommen, dass die Wörter, welche am häufigsten im Dokument vorkommen das Dokument vermutlich am besten beschreiben. Hierzu gibt es zahlreiche Algorithmen wie z.B. TF-IDF, BM25. Problematisch hierbei ist, dass nicht immer der Volltext verfügbar ist und die Autoren häufig keine strikte Terminologie verwenden, sodass die Dokumente später nicht gefunden werden, wenn etwa mit Synonymen gesucht wird. Weiter nachteilig ist, dass nicht in dem Dokument vorkommende Wörter, welche das Dokument aber besser beschreiben würden, nicht verwendet werden können, um nach dem Dokument zu recherchieren, da diese Wörter von den bekannten Klassifizierungsverfahren nicht berücksichtigt werden. Methods are known by which objects, e.g. Documents can be classified. For example, for documents, the document text is analyzed. It is assumed that the words most commonly found in the document are probably best used to describe the document. There are numerous algorithms for this, such as TF-IDF, BM25. The problem here is that not always the full text is available and the authors often do not use strict terminology, so that the documents are not found later, when looking for synonyms. A further disadvantage is that words that do not appear in the document but would better describe the document can not be used to search for the document since these words are not taken into account by the known classification methods.
Objekte, wie etwa Musik oder Bilder werden häufig„getaggt" bzw. verschlagwortet, d.h. Anwender vergeben Stichworte, sodass anhand der Stichworte nach den Objekten recherchiert werden kann. Nachteilig hierbei ist, dass nicht verschlagwortete Objekte nicht gefunden werden bzw. nicht nach ihnen recherchiert werden kann.
Des Weiteren sind Expertensuchmaschinen bekannt, mit welchen nach Person mit bestimmten Kenntnissen recherchiert werden kann. Hierzu muss das System wissen, in welchen Gebieten sich eine Person auskennt bzw. besonders gut auskennt. Bei bekannten Verfahren können Anwender ihre Kenntnisse in eine Datenbank eintragen. Dies ist allerdings sehr aufwendig und oft auch sehr ungenau, wenn etwa Personen nicht vorhandene Kenntnis in die Datenbank eintragen. Bekannt sind auch automatisierte Verfahren bei denen Emails oder andere geschriebene Dokumente der Personen analysiert werden. E- Mails enthalten allerdings oft viel irrelevante Information, sodass die Qualität der Klassifizierung von Personen meist sehr gering ist. Objects such as music or images are often "tagged" or tagged, ie users assign keywords so that the objects can be searched for using the keywords.The disadvantage here is that objects that are not tagged are not found or are not searched for them can. Furthermore, expert search engines are known which can be used to search for persons with specific knowledge. To do this, the system needs to know which areas a person knows or knows very well. In known methods, users can register their knowledge in a database. However, this is very complex and often very inaccurate, for example, if people enter not existing knowledge in the database. Automated methods are also known in which emails or other written documents of the persons are analyzed. However, e-mails often contain much irrelevant information, so that the quality of the classification of persons is usually very low.
Aufgabe der Erfindung Object of the invention
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und ein System bereitzustellen, mit welchen Objekte zuverlässig und mit hoher Qualität klassifiziert werden können, ohne die aus dem Stand der Technik bekannten Nachteile aufzuweisen. The object of the present invention is to provide a method and a system with which objects can be classified reliably and with high quality, without having the disadvantages known from the prior art.
Erfindungsgemäße Lösung Inventive solution
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruches 1 und ein System mit den Merkmalen des Anspruches 28 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung sowie den weiteren Ansprüchen angegeben. This object is achieved by a method having the features of claim 1 and a system having the features of claim 28. Advantageous embodiments of the invention are specified in the following description and the other claims.
Demnach wird ein Verfahren zum Klassifizieren mindestens eines Objektes bereitgestellt, wobei das Objekt mit zumindest einer Baumdatenstruktur in Beziehung steht, wobei die zumindest eine Baumdatenstruktur eine Anzahl von Knoten aufweist, welche durch Kanten verbunden sind, wobei einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist, und wobei die zumin-
dest eine Baumdatenstruktur in einer Speichereinrichtung speicherbar ist, und wobei das Verfahren zumindest folgende Schritte umfasst: Accordingly, there is provided a method of classifying at least one object, wherein the object is related to at least one tree data structure, the at least one tree data structure having a number of nodes connected by edges, wherein one node of the at least one tree data structure comprises at least one text, comprising a number of words, and wherein the at least one at least one tree data structure can be stored in a memory device, and wherein the method comprises at least the following steps:
- Auslesen der den Knoten der zumindest einen Baumdatenstruktur zugeordneten Texte; - reading the texts associated with the nodes of the at least one tree data structure;
- Gewichten der Texte, wobei für jedes Wort eines Textes ein Gewichtungswert erzeugt wird, welcher dem Wort des Textes zugeordnet wird, wobei für ein Wort, welches in unterschiedlichen Texten vorkommt unterschiedliche Gewichtungswerte erzeugt werden können; und Weighting of the texts, wherein for each word of a text a weighting value is generated which is assigned to the word of the text, whereby for a word which occurs in different texts different weighting values can be generated; and
- Erzeugen einer Anzahl von Klassifizierungswerte, wobei jeder Klassifizierungswert durch ein Tripel, bestehend aus einer das Objekt identifizierenden Objektidentifikation, einem Wort und einem dem Wort zugeordneten Gewichtungswert (Objektidentifikation, Wort, Gewichtungswert), repräsentiert wird. Generating a number of classification values, each classification value being represented by a triple consisting of an object identification identifying object, a word, and a weighting value (object identification, word, weighting value) associated with the word.
Als Datenquelle für das Klassifizieren von Objekten wird eine Baumdatenstruktur verwendet, in welcher die Objekte referenziert werden oder mit welcher ein Objekt in Beziehung steht. Ein Beispiel für eine Beziehung zwischen einem Objekt und einer Baumdatenstruktur ist ein Autor, welcher die Baumdatenstruktur erstellt hat. Der Autor steht dann in Beziehung zur Baumdatenstruktur. Im Folgenden wird der Begriff Baumdatenstruktur bzw. Baumdatenstrukturen verkürzt mit BDS bezeichnet. Die Begriffe "Referenzieren" und "Verlinken" bzw. die Begriffe "Referenz" und "Link" werden nachfolgend jeweils synonym verwendet. Aus Baumstrukturen können so Informationen extrahiert werden, mit denen Suchmaschinen (z.B. Suche nach Dokumente, Menschen, ...) deutliche verbessert werden können. The data source for classifying objects is a tree data structure in which the objects are referenced or with which an object is related. An example of a relationship between an object and a tree data structure is an author who has created the tree data structure. The author is then related to the tree data structure. In the following, the term tree data structure or tree data structures is abbreviated BDS. The terms "referencing" and "linking" or the terms "reference" and "link" are used synonymously below. Tree structures can be used to extract information that can significantly improve search engines (for example, search for documents, people, ...).
Gemäß der Erfindung können Baumdatenstrukturen sein: Verzeichnisstrukturen (z.B. Dateisysteme), Mind Maps oder sonstige hierarchische Strukturen, welche geeignet sind Referenzen zu Objekten zu speichern. Eine Baumdatenstruktur kann auch ein Computernetzwerk sein, wobei die Objekte auf unterschiedlichen Computern gespeichert sind und wobei die Objekte in einer hierarchischen Beziehung zueinander stehen. Als Objekt wir beispielsweise eine elektronische Datei in einem Verzeichnis einer Verzeichnisstruktur
bezeichnet oder ein Dokument welches aus einer Mind Map heraus referenziert oder verlinkt wird. According to the invention, tree data structures can be: directory structures (eg file systems), mind maps or other hierarchical structures which are suitable for storing references to objects. A tree data structure may also be a computer network where the objects are stored on different computers and where the objects are in a hierarchical relationship. For example, an object is an electronic file in a directory of a directory structure or a document which is referenced or linked from a Mind Map.
Ein Wesentlicher Vorteil von BDS ist, dass sie direkt und schnell analysiert werden können, ohne auf den Inhalt der zu klassifizierenden Objekte zugreifen zu müssen. In dem Moment, wo eine BDS bei einem Anwender erstellt wird, kann sie sofort analysiert werden. Ein weiterer Vorteil ist, dass die Klassifizierung von Objekten nahezu in Echtzeit ermittelt werden kann, was besonders dann vorteilhaft ist, wenn ein Benutzer beispielsweise ein Dokument aus einem Verzeichnis in ein anderes Verzeichnis verschiebt, was Umklassifizierung des verschobenen Objektes zur Folge haben kann. Ein weiterer Vorteil besteht darin, dass der Speicherplatzbedarf, um eine effiziente Recherche nach Dokumenten durchzuführen, erheblich reduziert werden kann, im Vergleich zu den aus dem Stand der Technik bekannten Verfahren, da etwa bei Dokumenten die Worte des Dokumentinhaltes unberücksichtigt bleiben können, da nur die Worte der Baumdatenstruktur in die Klassifizierung einfließen. An important advantage of BDS is that it can be analyzed directly and quickly without having to access the content of the objects to be classified. The moment a BDS is created by a user, it can be analyzed immediately. Another advantage is that the classification of objects can be determined in near real-time, which is particularly advantageous when, for example, a user moves a document from one directory to another directory, which can result in reclassification of the moved object. Another advantage is that the storage space required to perform an efficient search for documents can be significantly reduced, compared to the methods known from the prior art, since for documents the words of the document content can be disregarded, since only the Words of the tree data structure are included in the classification.
Die Beziehung des Objektes zu der zumindest einen Baumdatenstruktur kann durch zumindest ein Knoten, welcher eine Referenz auf das Objekt repräsentiert, der Baumdatenstruktur gebildet werden. The relationship of the object to the at least one tree data structure may be formed by at least one node, which represents a reference to the object, of the tree data structure.
Der Gewichtungswert eines Wortes kann aus der Anzahl der Kanten zwischen dem das Objekt referenzierenden Knoten und dem Knoten, welchem der Text des Wortes zugeordnet ist, erzeugt werden. Vorteilhaft ist es, wenn der Gewichtungswert eines Wortes nach der Berechnungsvorschrift 1/ ((Anzahl der Kanten zwischen Objekt und Wort)+ l) erzeugt wird. The weighting value of a word can be generated from the number of edges between the node referencing the object and the node to which the text of the word is assigned. It is advantageous if the weighting value of a word is generated according to the calculation rule 1 / ((number of edges between object and word) + 1).
Beim Erzeugen der Klassifizierungswerte können jene Texte berücksichtigt werden, welche solchen Knoten zugeordnet sind, die sich in der Baumdatenstruktur auf dem Pfad zwischen einem Wurzelknoten und dem das Objekt referenzierenden Knoten befinden. Beim Erzeugen der Klassifizierungswerte können alternativ oder zusätzlich jene Texte
berücksichtigt werden, welche solchen Knoten zugeordnet sind, die Geschwisterknoten jener Knoten sind, welche sich auf dem Pfad zwischen einem Wurzelknoten und dem das Objekt referenzierenden Knoten befinden. In generating the classification values, those texts associated with those nodes located in the tree data structure on the path between a root node and the node referencing the object may be taken into account. When generating the classification values, alternatively or additionally, those texts may be used which are associated with such nodes that are sibling nodes of those nodes that are on the path between a root node and the node referencing the object.
Bei einer Referenzierung eines Objektes durch Knoten mehrerer Baumdatenstrukturen können die Gewichtungswerte identischer Wörter miteinander kombiniert werden, um einen Gesamtgewichtungswert für das Wort zu erzeugen. Das Kombinieren der Gewichtungswerte kann zumindest ein Addieren der Gewichtungswerte umfasst. When referencing an object through nodes of multiple tree data structures, the weight values of identical words may be combined to produce a total weight value for the word. The combining of the weighting values may include at least adding the weighting values.
In einer weiteren Ausführungsform kann die Beziehung des Objektes zu der zumindest einen Baumdatenstruktur durch eine Zuordnung des Objektes zu der zumindest einen Baumdatenstruktur gebildet werden. In a further embodiment, the relationship of the object to the at least one tree data structure may be formed by an association of the object with the at least one tree data structure.
Nach dem Auslesen der Knoten kann die Anzahl der Vorkommnisse eines jeden Wortes und/oder eines jeden zusammengesetzten Wortes in der Baumdatenstruktur ermittelt werden. After reading out the nodes, the number of occurrences of each word and / or each compound word in the tree data structure can be determined.
Beim Erzeugen des Gewichtungswertes eines Wortes kann die Anzahl der Knoten berücksichtigt werden, welche in einer Teil-Baumdatenstruktur enthalten sind, wobei die Wurzel der Teil-Baumdatenstruktur durch jenen Knoten gebildet wird, welcher das Wort enthält. Der Gewichtungswert eines Wortes kann dabei nach der Berechnungsvorschrift
erzeugt werden. In generating the weighting value of a word, the number of nodes included in a partial tree data structure may be taken into account, wherein the root of the partial tree data structure is formed by the node containing the word. The weighting value of a word can be calculated according to the calculation rule be generated.
Der Gewichtungswert eines Wortes kann auch nach der Berechnungsvorschrift
erzeugt werden. The weighting value of a word can also be calculated according to the calculation rule be generated.
Für ein in einer Baumdatenstruktur mehrfach vorkommendes Wort kann ein Gesamtgewichtungswert erzeugt werden, welcher nach der BerechnungsvorschriftFor a word that occurs multiple times in a tree data structure, a total weighting value can be generated, which follows the calculation rule
^höchster Gewichtungswert + \ ΛΙ kleineren Gewichtungswerte I erzeugt werden kann.
Melirere Baumdatenstrukturen können auch zu einer einzigen Baumdatenstruktur zu- sammengefasst werden. ^ highest weighting value + \ Λ Ι smaller weighting values I can be generated. Melirere tree data structures can also be combined into a single tree data structure.
Vor dem Gewichten der Texte können die Texte einer Texttransformation unterzogen werden, um aus den Texten jeweils einen transformierten Text zu erzeugen. Die Texttransformation kann zumindest eines aus Wortstammbildung (Stemming) und Stoppwort- Filterung umfassen. Before weighting the texts, the texts can be subjected to a text transformation in order to generate a transformed text from the texts. The text transformation may include at least one of word stemming and stopword filtering.
Die Klassifizierungswerte können in einer Speichereinrichtung gespeichert werden. Die Objekte können ebenfalls in einer Speichereinrichtung gespeichert werden und in der Speichereinrichtung mit den Klassifizierungswerten in Bezug gesetzt werden. The classification values may be stored in a memory device. The objects may also be stored in a memory device and related to the classification values in the memory device.
Vor dem Auslesen der Knoten der mindestens einen Baumdatenstruktur kann ein Schritt zum Reduzieren der Baumdatenstruktur ausgeführt wird. Dadurch kann das Ermitteln bzw. Bestimmen von Ähnlichkeitswerten zwischen Objekten beschleunigt werden, was insbesondere dann vorteilhaft ist, wenn eine sehr große Anzahl von BDS analysiert werden muss. Zudem kann durch das Reduzieren die Qualität der Klassifizierung noch weiter erhöht werden, da durch das Reduzieren Knoten entfernt werden, die irrelevant für die Klassifizierung sind. Before reading out the nodes of the at least one tree data structure, a step of reducing the tree data structure may be performed. As a result, the determination or determination of similarity values between objects can be accelerated, which is advantageous in particular when a very large number of BDSs have to be analyzed. In addition, the reduction can further increase the quality of the classification, since the reduction removes nodes that are irrelevant to the classification.
Die Baumdatenstruktur kann über ein Kommunikationsnetzwerk von einer Clienteinrichtung an eine Servereinrichtung übertragen wird, wobei das Übertragen vor dem Auslesen der Knoten der Baumdatenstruktur ausgeführt werden kann. The tree data structure may be transmitted over a communication network from a client device to a server device, wherein the transfer may be performed prior to reading out the nodes of the tree data structure.
Vor dem Übertragen oder nach dem Übertragen kann die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert werden. Damit kann auf sämtliche BDS auf die gleiche Weise zugegriffen werden. Das normierte Baumdatenstruktur-Format kann dabei eine Baumdatenstruktur im XML-Format sein.
Ein Objekt kann zumindest eines aus Dokument, Bild, Musik, Film, Internetseite, elektronisch speicherbare Datei und Autor sein. Ein Objekt kann aber auch ein physisches Objekt, z.B. ein Buch sein, welches von einer BDS anhand z.B. des Titels referenziert wird. Before transferring or after transfer, the tree data structure may be converted to a normalized tree data structure format. This makes it possible to access all BDS in the same way. The normalized tree data structure format can be a tree data structure in XML format. An object can be at least one of document, image, music, movie, website, electronically storable file, and author. An object can also be a physical object, eg a book, which is referenced by a BDS on the basis of eg the title.
Bereitgestellt durch die Erfindung und zur Lösung der technischen Aufgabe wird auch ein System zum Bestimmen Klassifizieren von Objekten, wobei das System ausgestaltet ist, das erfindungsgemäße Verfahren auszuführen. Provided by the invention and to solve the technical problem is also a system for determining classifying objects, wherein the system is designed to carry out the method according to the invention.
Kurzbeschreibung der Figuren Brief description of the figures
Die weitere Erläuterung der Erfindung erfolgt anhand der Zeichnung. In der Zeichnung zeigt: The further explanation of the invention is based on the drawing. In the drawing shows:
Fig. 1 bis 3 Beispiele von Baumdatenstrukturen in Nicht-reduzierter Form und reduzierter Form; FIGS. 1 to 3 show examples of tree data structures in non-reduced form and reduced form;
Fig. 4 bis 6 Beispiele von Baumdatenstruktur zur Erläuterung der Gewichtung; und Fig. 7 ein Beispiel einer Baumdatenstruktur zur der Klassifizierung von Wörtern zueinander. Figs. 4 to 6 are examples of tree data structure for explaining the weighting; and Fig. 7 shows an example of a tree data structure for classifying words to each other.
Beschreibung einer bevorzugten Ausführungsform Description of a preferred embodiment
Gemäß der Erfindung werden Objekte (z.B. Webseiten, Personen, Dokumente, Bilder, Musik, Filme, Wörter, etc.) klassifiziert, um sie durch eine Stichwort basierte Suche auffindbar zu machen. Die Klassifizierung der Objekte basiert auf Daten, welche aus Baumdatenstrukturen, wie etwa Mind Maps oder Dateisystemen gewonnen werden, wobei die Objekte aus den BDS verlinkt bzw. referenziert werden oder mit der BDS in Beziehung stehen. Erfindungsgemäß werden Objekte die aus einer BDS verlinkt sind, mit den Worten klassifiziert, welche sich in der Nähe des Links bzw. der Referenz befinden. Erfindungsgemäß wird auch der Autor einer BDS mit den Worten der von ihm erstellten BDS
klassifiziert. Erfindungsgemäß werden auch Wörter, die durch Kanten in der BDS verbunden sind, zueinander in Beziehung gesetzt. According to the invention, objects (eg, web pages, people, documents, pictures, music, movies, words, etc.) are classified to make them searchable by keyword-based search. The classification of the objects is based on data obtained from tree data structures, such as mind maps or file systems, where the objects are linked or referenced from the BDS or are related to the BDS. According to the invention, objects which are linked from a BDS are classified with the words which are in the vicinity of the link or the reference. According to the invention, the author of a BDS with the words of the BDS created by him classified. According to the invention, words connected by edges in the BDS are also related to one another.
Das Verfahren zum Klassifizieren von Objekten kann durch eine Software implementiert werden, welche z.B. eine Client-Software und/oder eine Server-Software umfassen kann. The method of classifying objects may be implemented by software, e.g. may include client software and / or server software.
1. Softwareinstallation und Datenübertragung an Server 1. Software installation and data transfer to server
Ein Benutzer kann eine Client-Software installieren, um das erfindungsgemäße Verfahren auszuführen. Die Software identifiziert alle relevanten BDS auf dem Computer des Anwenders. Eine BDS wird z.B. über die Dateiendung identifiziert oder über den Header von Dateien oder indem sie explizit durch den Anwender ausgewählt wird. Die Software startet entweder automatisch im Hintergrund beim Hochfahren des Computers, durch explizites Starten durch den Anwender oder durch den Aufruf einer dritten Applikation. Die Software kann alle Speichermedien (Festplatte, DVDs, Netzwerk, etc.) durchsuchen oder nur den Arbeitsspeicher beachten, d.h. nur die BDS analysieren die gerade geöffnet sind oder anderweitig verarbeitet werden. A user may install client software to perform the method of the invention. The software identifies all relevant BDS on the user's computer. A BDS is e.g. identified via the file extension or via the header of files or by being explicitly selected by the user. The software either starts automatically in the background when booting up the computer, by explicitly starting it by the user or by calling a third application. The software can scan all storage media (hard disk, DVDs, network, etc.) or only pay attention to the main memory, i. Only analyze the BDS that are currently open or otherwise processed.
Die BDS werden bei Bedarf gefiltert nach Faktoren, z.B. The BDS are filtered as needed by factors, e.g.
Größe (Dateigröße, oder Anzahl der Knoten bzw. referenzierten Objekte in der BDS) Letztes Änderungsdatum oder Erstelldatum Size (file size, or number of nodes or referenced objects in the BDS) Last modified date or creation date
- Änderungsfrequenz (Anzahl Änderungen geteilt durch einen Zeitraum) - Change frequency (number of changes divided by a period)
- Anzahl der Links auf Objekte in einer BDS (z.B. dass eine Mind Map mindestens 20 Links zu Webseiten beinhalten muss, bevor sie berücksichtigt wird) - Number of links to objects in a BDS (for example, that a mind map must contain at least 20 links to web pages before being considered)
Speicherort (nur die BDS aus bestimmten Verzeichnissen) Location (only the BDSs from specific directories)
- BDS-Typ (nur Mind Maps einer bestimmten Software, oder nur das Dateisystem, etc). - BDS type (only mind maps of a specific software, or just the file system, etc).
Die Faktoren können beliebig eingestellt oder miteinander kombiniert werden. So könnten beispielsweise nur BDS berücksichtigt werden die in den letzten 2 Monaten erstellt wurden, mindestens 10 Links zu Objekten enthalten aber in den letzten 3 Tagen nicht
mehr geändert wurden und vom Benutzer explizit dafür gekennzeichnet wurden, an den Server übertragen zu werden. Bei Bedarf werden die BDS in ein anderes Format konvertiert. Zum Beispiel könnten proprietäre Mind Map Dateien in XML konvertiert werden. Die BDS werden dann an einen Server übermittelt, wobei die Server-Software ggf. auf dem Computer des Anwenders laufen kann auf dem sich auch die BDS befinden. The factors can be set arbitrarily or combined with each other. For example, only BDSs created in the last 2 months could be considered, but at least 10 links to objects are missing in the last 3 days were changed more and were explicitly marked by the user to be transferred to the server. If necessary, the BDSs are converted to another format. For example, proprietary Mind Map files could be converted to XML. The BDS are then transmitted to a server, the server software can possibly run on the computer of the user on which the BDS are located.
2. Speichern der Daten auf Server 2. Save the data to server
Bei Bedarf werden die BDS in ein anderes Format konvertiert (zum Beispiel von einem proprietären Format in XML). Der Server speichert die Daten auf der Festplatte, im Arbeitsspeicher, in einer Datenbank oder einem anderen geeigneten Medium. Ggf. werden die BDS wieder gefiltert nach bereits genannten Faktoren. If necessary, the BDSs are converted to another format (for example, from a proprietary format to XML). The server stores the data on disk, in memory, in a database or other suitable medium. Possibly. the BDS are filtered again according to already mentioned factors.
3. Reduzieren der Baumdatenstruktur 3. Reduce the tree data structure
In manchen Fällen ist es vorteilhaft, die BDS zu vereinfachen, bevor Klassifizierungen zu den Objekten ermittelt werden, welche in der BDS referenziert werden. Das Reduzieren der BDS kann wie folgt erfolgen: In some cases, it is advantageous to simplify the BDS before classifying the objects that are referenced in the BDS. Reducing the BDS can be done as follows:
- Löschen aller Endknoten die keine Links auf Objekte haben. Fig. 1 zeigt links eine BDS in Nicht-reduzierter Form und rechts eine BDS in reduzierter Form, bei der alle Endknoten, die keine Links auf Objekte enthalten, gelöscht worden sind. - Delete all end nodes that have no links to objects. FIG. 1 shows on the left a BDS in non-reduced form and on the right a BDS in reduced form, in which all end nodes which do not contain any links to objects have been deleted.
- Reduzieren der Linkknoten, die keine Geschwisterknoten haben auf die nächstmögliche Ebene, sodass Geschwister entstehen. Ein Beispiel hierfür ist in Fig. 2 angegeben. - Reduce the link nodes that have no sibling nodes to the next possible level, so that siblings arise. An example of this is given in FIG.
- Zusammenfassen von Knoten, die ein Objekt verlinken ohne aussagekräftige Beschreibung. In diesem Fall wird der Linkknoten mit dem Elternknoten zusammenge- fasst. Eine nicht aussagekräftige Beschreibung ist beispielsweise wenn der Knotenname gleich dem Dateinamen des verlinkten Objektes oder eine Zahl ist. Ein Beispiel hierfür ist in Fig. 3 angegeben. - Combine nodes that link to an object without meaningful description. In this case, the link node is merged with the parent node. An unintelligible description is, for example, if the node name is the same as the filename of the linked object or a number. An example of this is given in FIG.
- Filtern nach Benutzerangaben oder bestimmten Texten, etwa Knoten die in der BDS als„privat" oder ähnlichem gekennzeichnet sind, werden ignoriert und/oder Knoten (und Unterknoten), deren Elternknoten„temp",„todo",„noch einsortieren",„xxx" etc.
heißen werden ignoriert. Die Wörter können vom Nutzer oder dem Programmierer vorgegeben werden. - Filtering according to users or specific texts, such as nodes that are marked as "private" or similar in the BDS, are ignored and / or nodes (and subnodes) whose parent nodes "temp", "todo", "still sort", " xxx "etc. to be ignored. The words can be specified by the user or the programmer.
- Es können bestimmte Zweige in der BDS ausgewählt werden, die (nicht) analysiert werden sollen. Dies ist insbesondere bei Dateisystemen wichtig, sodass der Anwender z.B. auswählen kann, dass nur Verzeichnisse und Dateien in c:\meine dateien\ untersucht werden und nicht aus c:\windows\. - Certain branches can be selected in the BDS that should (not) be analyzed. This is especially important with file systems, so that the user can e.g. can choose to scan only directories and files in c: \ my files \ and not c: \ windows \.
- Kombination der vorstehenden Verfahren zum Reduzieren von BDS. Combination of the above methods to reduce BDS.
4. Klassifizierung 4. Classification
In der BDS werden jene Knoten gesucht, die auf ein Objekt verlinken bzw. die ein Objekt referenzieren. Zum Beispiel wird nach Hyperlinks, Dateinamen und/oder Pfade, Verknüpfungen und/oder nach indirekten Verweisen auf Objekte, wie etwa BibTeX Keys, Aktenzeichen, und ähnliche eindeutige Schlüssel oder Dokumentennamen (oder Titel) gesucht. Nachdem alle Knoten gefunden wurden, die auf Objekte verlinken bzw. referenzieren, müssen diese Objekte identifiziert werden, damit klar ist, worum es sich handelt. Dies kann in einer Ausführungsform wie folgt erfolgen: a. Wurde ein Hyperlink gefunden kann The BDS searches for those nodes that link to an object or that reference an object. For example, hyperlinks, file names and / or paths, links, and / or indirect references to objects such as BibTeX keys, file numbers, and similar unique keys or document names (or titles) are searched for. Once all the nodes that link to or reference objects are found, these objects must be identified to make it clear what it is. This can be done in one embodiment as follows: a. Was a hyperlink can be found
i. der Hyperlink selbst als Identifikator dienen i. the hyperlink itself serve as an identifier
ii. im Falle einer Webseite (z.B. im HTML bzw. xHTML Format) der Titel aus der verlinkten Webseite ausgelesen werden (Den Text zwischen den Tags <title> und </title> ) ii. in the case of a website (for example in HTML or xHTML format) the title is read from the linked website (the text between the tags <title> and </ title>)
iii. im Falle, dass eine Datei verlinkt wurde (PDF, Movie, ...) wie im nächsten Schritt verfahren werden iii. in case a file has been linked (PDF, Movie, ...) as in the next step
b. Wurde eine Datei verlinkt wird der Objekttyp über die Dateiendung oder den Header der Datei identifiziert. Je nach Dateityp können dann weitere Verfahren angewandt werden. Zum Beispiel b. If a file has been linked, the object type is identified by the file extension or the header of the file. Depending on the file type, other methods can then be used. For example
i. Auslesen der Dateimetadaten (Titel oder Autor, sofern vorhanden), abhängig vom Betriebssystem und Dateityp.
ii. im Falle eines formatierten Textdokumentes (z.B. Word Dokument oder PDF): Auslesen des Titels indem der Text mit der größten Schrift auf der ersten Seite im oberen Drittel bestimmt wird und der über weniger als vier Zeilen geht. Dieser Text wird dann als Titel angenommen (die Zahlenwerte hier können natürlich beliebig ausgetauscht werden, sodass z.B. nicht im oberen Drittel sondern im oberen Viertel gesucht wird). i. Reading the file metadata (title or author, if available), depending on the operating system and file type. ii. in the case of a formatted text document (eg Word document or PDF): read the title by the text with the largest font on the first page in the upper third is determined and goes over less than four lines. This text is then adopted as a title (the numerical values here can of course be exchanged freely, so that, for example, not in the upper third but in the upper quarter is searched).
iii. im Falle eines JPEG: Auslesen der EXIF oder IPTC Metadaten. iii. in the case of a JPEG: read the EXIF or IPTC metadata.
iv. sonst: Hashwert erzeugen (z.B. MD5) oder Dateiname und Pfad der Datei. iv. otherwise: generate a hash value (for example MD5) or file name and path of the file.
c. Wurde ein indirekter Verweis auf ein Objekt gefunden, zum Beispiel ein BibTeX key, wird auf allen zugänglichen Speichermedien nach der entsprechenden BibTeX Datei gesucht und dort die Metadaten des Objektes ausgelesen. c. If an indirect reference to an object has been found, for example a BibTeX key, all accessible storage media are searched for the corresponding BibTeX file and the metadata of the object is read there.
d. Die Daten (z.B. Titel, Hashwert,...) die bestimmt wurden, können mit vorhandenen Daten in einer Datenbank (Wissensbasis) abgeglichen werden. Wurde Beispielsweise aus einem Objekt als Dokumententitel„Der Tree Proximity Index - wofür ist er gut?" extrahiert und in der Datenbank ist bereits ein Objekt mit dem Titel„Der Tree Proximity Index: wofür ist er gut?" vorhanden, ist es vermutlich das gleiche Objekt trotz des kleinen Unterschiedes. d. The data (e.g., title, hash, ...) that has been determined can be matched against existing data in a database (knowledge base). For example, was an item extracted from the document title "The Tree Proximity Index - what is it good for?" And an object titled "The Tree Proximity Index: what is it good for?" Is already in the database. present, it is probably the same object despite the small difference.
Im nächsten Schritt wird die Klassifizierung der identifizierten und ermittelten Objekte wie folgt vorgenommen: In the next step, the classification of the identified and determined objects is carried out as follows:
a. Der Text eines jedes Knoten wird aus der BDS ausgelesen und mit gängigen Text Mining Verfahren bearbeitet, z.B. Stemming (Reduzieren der Wörter auf ihren Stamm) oder Stop Word Filtering (Filtern von Konjunktionen, Präpositionen und anderen wenig aussagekräftigen Wörtern wie„und",„oder",„der",„wie", etc.). a. The text of each node is read out of the BDS and processed by popular text mining methods, e.g. Stemming (reducing the words to their root) or Stop Word Filtering (filtering conjunctions, prepositions, and other less meaningful words such as "and", "or", "the", "how", etc.).
b. Jedes Objekt wird durch den Text seines Knoten, den seiner Elternknoten und deren Elternknoten etc. klassifiziert sowie der Kindknoten und deren Kindknoten, etc.. b. Each object is classified by the text of its node, its parent node and parent node, etc., as well as the child node and its child node, etc.
c. Dabei wird jedes Wort gewichtet, wie es mit Bezug auf Fig. 4 gezeigt wird: c. Each word is weighted as shown with respect to FIG. 4:
Das Dokument, welches vom Knoten„Aussage 1" verlinkt ist, wird hier mit folgenden Wörtern klassifiziert, wobei den Wörtern folgende Gewichtungen zugeordnet werden: Aussage 1 Gewichtung = 1
Zweig 1 Gewichtung = 1/2 The document linked by the node "Statement 1" is classified here with the following words, where the following weights are assigned to the words: Statement 1 Weighting = 1 Branch 1 weight = 1/2
Reduziert - Gewichtung = 1/3 Reduced - weighting = 1/3
In diesem Beispiel wird also die Vorschrift In this example, therefore, the rule
1/ ((Anzahl der Kanten zwischen Objekt und Wort)+ i) angewandt, um die Gewichtung der Wörter zu ermitteln. Andere Vorschriften können ebenso angewandt werden. Es können auch Wörter von Geschwisterknoten zu berücksichtigt werden. Wird ein Objekt in mehreren BDS verlinkt bzw. referenziert, in denen auch noch gleiche Wörter vorkommen, werden die Gewichtungen kombiniert, beispielsweise addiert. 1 / ((number of edges between object and word) + i) applied to determine the weighting of the words. Other regulations can also be applied. Words of sibling knots may also be considered. If an object is linked or referenced in several BDS, in which even the same words occur, the weights are combined, for example added.
Nachdem ein Objekt identifiziert und klassifiziert wurde, werden seine Metadaten (Titel, Autor, URL, Hashwert, etc.) in einer Datenbank gespeichert. Die Klassifizierung des Objektes wird ebenfalls in der Datenbank gespeichert. Vorzugsweise wird das gespeicherte Objekt mit der gespeicherten Klassifizierung in Bezug gesetzt. After an object has been identified and classified, its metadata (title, author, URL, hash value, etc.) is stored in a database. The classification of the object is also stored in the database. Preferably, the stored object is related to the stored classification.
5. Klassifizierung von Autoren 5. Classification of authors
Mit dem erfindungsgemäßen Verfahren können auch Autoren von BDS klassifiziert werden. Der Verfahrensablauf kann dabei folgender sein: Authors of BDS can also be classified by the method according to the invention. The procedure can be the following:
a. Identifizieren des Autors: der Name des Autors (Ersteller/Eigentümer der BDS) wird bestimmt a. Identifying the author: the name of the author (creator / owner of the BDS) is determined
i. über die Metadaten der BDS; und/oder i. about the metadata of the BDS; and or
ii. über einen Nutzernamen, den der Anwender in die Software eingibt bzw. mit dem der Anwender sich beim System angemeldet hat; und/oder ii. a user name entered by the user in the software or with which the user logged on to the system; and or
iii. indem schon bei der Installation der Software eine zufällige ID erzeugt wird, welche den Nutzer identifiziert (auch wenn man keine weiteren persönlichen Daten hat). iii. by creating a random ID during the installation of the software, which identifies the user (even if you have no further personal data).
b. Der Text eines jedes Knoten wird aus der BDS ausgelesen und mit gängigen Text Mining Verfahren bearbeitet, z.B. Stemming (Reduzieren der Wörter auf ihren Stamm) oder Stop Word Filtering (Filtern von Konjunktionen Präpositionen und anderen wenig aussagekräftigen Wörtern wie„und",„oder",„der",„wie", etc.).
c. Die Anzahl der einzigartigen Wörter und der zusammengesetzten Wörter wird ermittelt. b. The text of each node is read out of the BDS and processed using common text mining methods, eg Stemming (reducing the words to their root) or Stop Word Filtering (filtering conjunctions prepositions and other less meaningful words like "and", "or" , "The", "how", etc.). c. The number of unique words and compound words is determined.
d. Die Wörter werden nun gewichtet. Der Grundgedanke dabei ist, dass je mehr Kindknoten ein Knoten hat, desto aussagekräftiger bzgl. der Expertise des Autors ist dieser Knoten. Ein Beispiel: Der Autor der Mind Map, wie sie in Fig. 5 gezeigt ist, wird sich vermutlich recht gut mit„Mind Mapping" im Allgemeinen auskennen (Wurzelknoten). Er kennt einige Studien, weiß wofür Mind Maps genutzt werden und kennt hierzu einige Software Programme. Umgekehrt scheint er aber nicht mehr viel über die Software FreeMind zu wissen, außer wo sie herunter geladen werden kann. Der Wurzelknoten („Mind Mapping") wird daher am stärksten gewichtet. In diesem Beispiel wird als Gewichtung die Vorschrift {Kindknoten und Kindeskindknoten + 1) angenommen, d.h. die Wurzel von (Anzahl aller Kinder und Kindeskinderknoten +1). Andere Vorschriften können vorgesehen werden. Im Beispiel wäre die Gewichtung also: d. The words are now weighted. The basic idea is that the more child nodes have a node, the more meaningful in terms of the author's expertise is this node. An example: The author of the Mind Map, as shown in Fig. 5, will probably be quite familiar with "Mind Mapping" in general (root node), he knows some studies, knows what Mind Maps are used for and knows some of them Software programs, on the other hand, does not seem to know much about the FreeMind software except where it can be downloaded, so the "Mind Mapping" is most heavily weighted. In this example, the rule {child node and child child node + 1) is assumed as weighting, i. the root of (number of all children and children's nodes +1). Other regulations may be provided. In the example, the weight would be:
Mind Mapping = Wurzel (19) = 4,36 Mind mapping = root (19) = 4.36
Studien = Wurzel (7) = 2,65 Studies = root (7) = 2.65
Der Wurzelknoten hat also den höchsten Gewichtungswert. The root node thus has the highest weighting value.
e. Enthält ein Knoten mehrere Wörter, werden diese einzeln betrachtet und wie eigenständige Knoten behandelt. Im Beispiel würde aus dem Knoten„Wie erstellt man Mind Maps am besten?" die folgende Gewichtung erzeugt werden: e. If a node contains multiple words, they are considered individually and treated as separate nodes. In the example, the following weighting would be generated from the "How to make Mind Maps best?" Node:
Mind Maps = Wurzel(3) = 1,73 Mind Maps = Root (3) = 1.73
erstellt = Wurzel(3) = 1,73 created = root (3) = 1.73
Wörter wie„wie",„am",„man" würden gefiltert (Stop Word Filtering) werden. Words like "like", "am", "man" would be filtered (Stop Word Filtering).
f. Kommen Wörter mehrfach in einer Mind Map vor, errechnet sich die Gesamtgewich- tung bzw. der Gesamtgewichtungswert aus der Summe vom höchsten Wert plus die Wurzel der kleineren Werte, d.h. aus
f. If words occur several times in a mind map, the total weighting or the total weighting value is calculated from the sum of the highest value plus the root of the smaller values, ie
Im Beispiel: Würde man„Mind Map" und„Mind Mapping" als gleiches Wort betrachten, wäre der Gesamtgewichtungswert = 4,36 + Wurzel (1,73) = 5,68. In the example: If one considered "Mind Map" and "Mind Mapping" as the same word, the total weighting value would be = 4.36 + root (1.73) = 5.68.
g. Anstelle des Wurzelknotens kann auch ein anderer Knoten der BDS den höchsten Gewichtungswert annehmen, wie nun am Beispiel von Fig. 6 erläutert wird. In diesem
Fall würde sich der Autor zwar (vermutlich) recht gut mit„Citation Analysis" auskennen (Wurzelknoten), sein wirkliches Fachgebiet scheint aber bei„Citation Proximity analysis" zu liegen. Hier wird also der Knoten„Citation Proximity analysis" am stärksten gewichtet werden, d.h. dass etwa das Wort "Proximity" einen höheren Gewichtungswert erhalten wird als das Wort "Citation", obwohl "Citation" im Wurzelknoten vorhanden ist. In einer Ausführungsform kann also jener Knoten bzw. Wörter jenes Knoten am stärksten gewichtet werden, welcher insgesamt den größten Teilbaum aufweist. Die kann etwa jener Knoten der BDS sein, welche die meisten direkten Kindknoten hat. G. Instead of the root node, another node of the BDS can also assume the highest weighting value, as will now be explained using the example of FIG. 6. In this In this case, the author would (presumably) be well acquainted with "Citation Analysis" (root node), but his real field of expertise seems to lie in "Citation Proximity Analysis". Here, therefore, the node "Citation Proximity Analysis" will be most heavily weighted, ie, the word "proximity" will be given a higher weighting value than the word "citation", even though "citation" is present in the root node Nodes or words of the node which has the largest sub-tree in total, which may be approximately that node of the BDS which has the most direct child nodes.
h. Hat ein Autor mehrere Mind Maps erstellt, werden diese für die Berechnung der Klassifizierungswerte zu einer Mind Map zusammengefasst. H. If an author has created several mind maps, they are combined to form a classification map for the calculation of the classification values.
i. Abschließend werden alle Wörter mit ihren Häufigkeiten und dem Gewichtungswert in einer Datenbank oder einem anderen geeigneten Speichermedium gespeichert und dort dem Autor zugeordnet. i. Finally, all words with their frequencies and the weighting value are stored in a database or other suitable storage medium and assigned to the author there.
6. Klassifizierung von Wörtern zueinander 6. Classification of words to each other
Das erfindungsgemäße Verfahren kann auch verwendet werden, um den Zusammenhang von Wörtern in einer BDS zu ermitteln. Dies kann, wie mit Bezug auf Fg. 7 beschrieben wird, folgendermaßen erfolgen: The inventive method can also be used to determine the context of words in a BDS. This may be done as described with reference to FIG. 7 as follows:
a. Es werden alle möglichen Wortkombinationen aus der BDS extrahiert. Die Kombinationen werden in diesem Fall aus Eltern-/Kindknoten gebildet sowie aus Geschwisterknoten. In Fig. 7 wären das: a. All possible word combinations are extracted from the BDS. In this case, the combinations are made up of parent / child nodes and sibling nodes. In Fig. 7, this would be:
- Citation Analysis | Leistungsbestimmung - Citation Analysis | power determination
- Citation Analysis | Ähnlichkeitsberechnung - Citation Analysis | similarity calculation
- Leistungsbestimmung | Wissenschaftler - Performance determination | scientist
- Leistungsbestimmung | Journals - Performance determination | Journals
- Leistungsbestimmung Publikationen - Performance determination publications
- Wissenschaftler | Journals - Scientist | Journals
- etc.
b. Falls notwendig, werden auch hier Methoden wie Stemming und Stop Word Filtering eingesetzt. Falls nötig werden alle Knoten mit mehr als z.B. drei Wörtern ignoriert. c. Es können Knoten aufgesplittet werden. So könnte beispielsweise die Beschriftung „Vorteile von Research Paper Recommender Systemen" aufgeteilt werden in die drei Terme„Vorteile",„Research Paper Recommender" und„Systeme". Jeder Term wird dann als eigener Knoten betrachtet. - Etc. b. If necessary, methods such as stemming and stop word filtering are also used here. If necessary, all nodes with more than eg three words are ignored. c. Nodes can be split. For example, the caption "Benefits of Research Paper Recommender Systems" could be broken down into the three terms "benefits", "research paper recommender" and "systems". Each term is then considered as a separate node.
d. Sofern die Wortkombinationen noch nicht im System vorhanden ist, wird sie in einer Datenbank gespeichert. Zudem wird auch gespeichert, von welchem Autor die BDS stammt, aus welcher die Daten extrahiert wurden. Ist die Wortkombination gerade neu eingetragen worden, wird dieser Wortkombination der Zähler 1 zugewiesen. Ist die Wortkombination aber bereits vorhanden, wird der Zähler um 1 erhöht. Ist die aktuelle BDS allerdings von einem Autor von dem bereits eine (oder mehrere) andere BDS für die Berechnung genutzt wurden, wird der Zähler nur um 0,1 (oder einen anderen Wert) erhöht. d. If the word combinations are not yet available in the system, they are stored in a database. In addition, it is also saved from which author the BDS originates, from which the data was extracted. If the word combination has just been newly entered, the counter combination 1 is assigned to this word combination. If the word combination already exists, the counter is incremented by 1. However, if the current BDS is used by an author who has already used one (or more) other BDSs for the calculation, the counter is only incremented by 0.1 (or some other value).
Gewerbliche Anwendbarkeit der Erfindung Industrial Applicability of the Invention
Die erfindungsgemäßen Verfahren könne zusammen in einem Suchsystem (oder auch selbständig als Suchsystem) eingesetzt werden. Basierend auf einem Suchbegriff können passende Autoren und/oder Objekte gefunden werden sowie verwandte Suchbegriffe vorgeschlagen werden. Das kann etwa wie folgt geschehen: The inventive method can be used together in a search system (or independently as a search system). Based on a search term suitable authors and / or objects can be found and related search terms can be proposed. This can be done as follows:
51 Ein Anwender besucht eine Website (oder eine Desktop Software). 51 A user visits a website (or desktop software).
52 Dort kann er in eine Eingabemaske ein Suchwort eingeben. Er kann gezielt nur nach Autoren, nur nach Objekten oder nur nach verwandten Wörtern suchen oder nach Kombinationen hiervon. 52 There he can enter a search term in an input mask. He can search only for authors, only for objects or only for related words, or for combinations thereof.
53 Sucht er nach Autoren, werden ihm jene Autoren angezeigt die den höchsten Klassifizierungswert für das gesuchte Stichwort haben. If he searches for authors, those authors will be shown who have the highest classification value for the keyword you are looking for.
54 Sucht er nach Objekten, werden ihm jene Objekte angezeigt, die den höchsten Klassifizierungswert für das gesuchte Stichwort haben.
55 Sucht er nach ähnlichen Wörtern, werden ihm jene Wörter angezeigt, die den höchsten Klassifizierungswert für das gesuchte Stichwort haben. 54 If he searches for objects, he will be shown those objects that have the highest classification value for the searched keyword. If he searches for similar words, he will be shown the words that have the highest classification value for the keyword you are looking for.
56 Führt er eine kombinierte Suche durch, dann werden Autoren/Objekte/Wörter entsprechend der Kombination angezeigt (S3-S5). 56 If he carries out a combined search, authors / objects / words are displayed according to the combination (S3-S5).
Das erfindungsgemäße Verfahren kann mit bekannten Verfahren z.B. Volltextanalyse von Dokumenten, Volltextsuche, etc. kombiniert werden.
The process according to the invention can be carried out by known methods, e.g. Full-text analysis of documents, full-text search, etc. can be combined.
Claims
1. Computer-implementiertes Verfahren zum Klassifizieren mindestens eines Objektes, wobei das Objekt mit zumindest einer Baumdatenstruktur in Beziehung steht, wobei die zumindest eine Baumdatenstruktur eine Anzahl von Knoten aufweist, wobei einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist, und wobei die zumindest eine Baumdatenstruktur in einer Speichereinrichtung speicherbar ist, umfassend zumindest folgende Schritte: A computer-implemented method for classifying at least one object, wherein the object is related to at least one tree data structure, wherein the at least one tree data structure comprises a number of nodes, wherein a node of the at least one tree data structure comprises at least one text comprising a number of words , and wherein the at least one tree data structure can be stored in a memory device, comprising at least the following steps:
- Auslesen der den Knoten der zumindest einen Baumdatenstruktur zugeordneten Texte; - reading the texts associated with the nodes of the at least one tree data structure;
- Gewichten der Texte, wobei für jedes Wort oder Wortkombination eines Textes ein Gewichtungswert erzeugt wird, welcher dem Wort des Textes zugeordnet wird, wobei für ein Wort, welches in unterschiedlichen Texten vorkommt unterschiedliche Gewichtungswerte erzeugt werden können; und Weighting of the texts, wherein for each word or word combination of a text a weighting value is generated which is assigned to the word of the text, wherein for a word which occurs in different texts different weighting values can be generated; and
- Erzeugen einer Anzahl von Klassifizierungswerte, wobei jeder Klassifizierungswert durch ein Tripel, bestehend aus einer das Objekt identifizierenden Objektidentifikation, einem Wort und einem dem Wort zugeordneten Gewichtungswert (Objektidentifikation, Wort, Gewichtungswert), repräsentiert wird. Generating a number of classification values, each classification value being represented by a triple consisting of an object identification identifying object, a word, and a weighting value (object identification, word, weighting value) associated with the word.
2. Verfahren nach Anspruch 1, wobei die Beziehung des Objektes zu der zumindest einen Baumdatenstruktur durch zumindest ein Knoten, welcher eine Referenz auf das Objekt repräsentiert, der Baumdatenstruktur gebildet wird. 2. The method of claim 1, wherein the relationship of the object to the at least one tree data structure is formed by at least one node representing a reference to the object of the tree data structure.
3. Verfahren nach Anspruch 2, wobei der Gewichtungswert eines Wortes aus der Anzahl der Kanten zwischen dem das Objekt referenzierenden Knoten und dem Knoten, welchem der Text des Wortes zugeordnet ist, erzeugt wird. 3. The method of claim 2, wherein the weighting value of a word is generated from the number of edges between the object referencing node and the node to which the text of the word is associated.
4. Verfahren nach Anspruch 3, wobei der Gewichtungswert eines Wortes nach der Berechnungsvorschrift 4. The method of claim 3, wherein the weighting value of a word according to the calculation rule
1/ ({Anzahl der Kanten zwischen Objekt und Wort)+ l) erzeugt wird. 1 / ({number of edges between object and word) + l).
5. Verfahren nach einem der Ansprüche 2 bis 4, wobei beim Erzeugen der Klassifizierungswerte jene Texte berücksichtigt werden, welche Knoten zugeordnet sind, die sich in der Baumdatenstruktur auf dem Pfad zwischen einem Wurzelknoten und dem das Objekt referenzierenden Knoten befinden. Method according to one of claims 2 to 4, wherein in generating the classification values those texts are taken into account which are associated with nodes located in the tree data structure on the path between a root node and the node referencing the object.
6. Verfahren nach einem der Ansprüche 2 bis 5, wobei beim Erzeugen der Klassifizierungswerte jene Texte berücksichtigt werden, welche Knoten zugeordnet sind, die Geschwisterknoten jener Knoten sind, welche sich auf dem Pfad zwischen einem Wurzelknoten und dem das Objekt referenzierenden Knoten befinden. A method according to any one of claims 2 to 5, wherein in generating the classification values, account is taken of those texts associated with nodes which are sibling nodes of those nodes located on the path between a root node and the node referencing the object.
7. Verfahren nach einem der Ansprüche 2 bis 6, wobei bei einer Referenzierung eines Objektes durch Knoten mehrerer Baumdatenstrukturen die Gewichtungswerte identischer Wörter miteinander kombinierten werden, um einen Gesamtgewichtungswert für das Wort zu erzeugen. The method of any one of claims 2 to 6, wherein upon referencing an object by nodes of a plurality of tree data structures, the weighting values of identical words are combined together to produce an overall weighting value for the word.
8. Verfahren nach Anspruch 7, wobei das Kombinieren der Gewichtungswerte zumindest ein Addieren der Gewichtungswerte umfasst. 8. The method of claim 7, wherein combining the weighting values comprises at least adding the weighting values.
9. Verfahren nach Anspruch 1, wobei die Beziehung des Objektes zu der zumindest einen Baumdatenstruktur durch eine Zuordnung des Objektes zu der zumindest einen Baumdatenstruktur gebildet wird. 9. The method of claim 1, wherein the relationship of the object to the at least one tree data structure is formed by an association of the object to the at least one tree data structure.
10. Verfahren nach Anspruch 9, wobei nach dem Auslesen der Knoten die Anzahl der Vorkommnisse eines jeden Wortes und/oder eines jeden zusammengesetzten Wortes in der Baumdatenstruktur ermittelt wird. 10. The method of claim 9, wherein after reading the nodes, the number of occurrences of each word and / or each compound word in the tree data structure is determined.
11. Verfaliren nach einem der Ansprüche 9 oder 10, wobei beim Erzeugen des Gewichtungswertes eines Wortes die Anzahl der Knoten berücksichtigt werden, welche in einer Teil-Baumdatenstruktur enthalten sind, wobei die Wurzel der Teil- Baumdatenstruktur durch jenen Knoten gebildet wird, welcher das Wort enthält. 11. The method of claim 9, wherein in generating the weighting value of a word account is taken of the number of nodes contained in a partial tree data structure, wherein the root of the partial tree data structure is formed by the node containing the word contains.
12. Verfahren nach Anspruch 11, wobei der Gewichtungswert eines Wortes nach der Berechnungsvorschrift 12. The method of claim 11, wherein the weighting value of a word according to the calculation rule
erzeugt wird. is produced.
13. Verfahren nach Anspruch 11, wobei der Gewichtungswert eines Wortes nach der Berechnungsvorschrift 13. The method of claim 11, wherein the weighting value of a word according to the calculation rule
Anzahl der direkten Kindknoten Number of direct child nodes
erzeugt wird. is produced.
14. Verfahren nach einem der Ansprüche 9 bis 13, wobei für ein in einer Baumdatenstruktur mehrfach vorkommendes Wort ein Gesamtgewichtungswert erzeugt wird. 14. The method of claim 9, wherein a total weighting value is generated for a word that occurs multiple times in a tree data structure.
15. Verfahren nach Anspruch 14, wobei der Gesamtgewichtungswert für ein Wort nach der Berechnungsvorschrift 15. The method of claim 14, wherein the total weighting value for a word according to the calculation rule
erzeugt wird is produced
16. Verfahren nach einem der Ansprüche 9 bis 15, wobei mehrere Baumdatenstrukturen zu einer einzigen Baumdatenstruktur zusammengefasst werden. 16. The method according to any one of claims 9 to 15, wherein a plurality of tree data structures are combined into a single tree data structure.
17. Verfahren nach einem der vorhergehenden Ansprüche, wobei vor dem Gewichten der Texte die Texte einer Texttransformation unterzogen werden, um aus den Texten jeweils einen transformierten Text zu erzeugen. 17. The method according to any one of the preceding claims, wherein prior to weighting of the texts, the texts of a text transformation are subjected to each of the texts to produce a transformed text.
18. Verfahren nach Anspruch 17, wobei die Texttransformation zumindest eines aus Wortstammbildung (Stemming) und Stoppwort-Filterung umfasst. 18. The method of claim 17, wherein the text transformation comprises at least one of word stemming and stopword filtering.
19. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Klassifizierungswerte in einer Speichereinrichtung gespeichert werden. 19. The method according to any one of the preceding claims, wherein the classification values are stored in a memory device.
20. Verfahren nach Anspruch 19, wobei die Objekte in einer Speichereinrichtung gespeichert werden und in der Speichereinrichtung mit den Klassifizierungswerten in Bezug gesetzt werden. The method of claim 19, wherein the objects are stored in a storage device and related to the classification values in the storage device.
21. Verfahren nach einem der vorhergehenden Ansprüche, wobei vor dem Auslesen der Knoten der mindestens einen Baumdatenstruktur ein Schritt zum Reduzieren der Baumdatenstruktur ausgeführt wird. 21. The method of claim 1, wherein prior to reading the nodes of the at least one tree data structure, a step of reducing the tree data structure is performed.
22. Verfahren nach Anspruch 21, wobei das Reduzieren umfasst: 22. The method of claim 21, wherein the reducing comprises:
- Löschen von Endknoten, welche keine Referenz zu einem Objekt repräsentieren, und/oder Deleting end nodes which do not represent a reference to an object, and / or
- Reduzieren von Knoten, welche eine Referenz zu einem Objekt repräsentieren, auf die nächst höhere Ebene der Baumdatenstruktur, sodass jede Ebene der Baumdatenstruktur zumindest zwei Knoten aufweist, und/oder Reducing nodes representing a reference to an object to the next higher level of the tree data structure such that each level of the tree data structure has at least two nodes, and / or
- Filtern der Baumdatenstruktur nach vorherbestimmten Filterkriterien. Filter the tree data structure according to predetermined filter criteria.
23. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Baumdatenstruktur über ein Kommunikationsnetzwerk von einer Clienteinrichtung an eine Servereinrichtung übertragen wird, wobei das Übertragen vor dem Auslesen der Knoten der Baumdatenstruktur ausgeführt wird. 23. The method of claim 1, wherein the tree data structure is transmitted via a communication network from a client device to a server device, wherein the transmission is performed prior to reading out the nodes of the tree data structure.
24. Verfahren nach Anspruch 23, wobei vor dem Übertragen die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert wird. 24. The method of claim 23, wherein prior to transmitting, the tree data structure is converted to a normalized tree data structure format.
25. Verfahren nach Anspruch 23, wobei nach dem Übertragen die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert wird. 25. The method of claim 23, wherein after the transfer, the tree data structure is converted to a normalized tree data structure format.
26. Verfahren nach einem der Ansprüche 24 oder 25, wobei das normierte Baumdatenstruktur-Format die Baumdatenstruktur im XML-Format beschreibt. 26. The method of claim 24, wherein the normalized tree data structure format describes the tree data structure in XML format.
27. Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Objekt zumindest eines aus Dokument, Bild, Musik, Film, Internetseite und Autor einer Baumdatenstruktur ist. 27. A method according to any one of the preceding claims, wherein an object is at least one of document, image, music, movie, website and author of a tree data structure.
28. System zum Klassifizieren mindestens eines Objektes, wobei das Objekt mit zumindest einer Baumdatenstruktur in Beziehung steht, wobei die zumindest eine Baumdatenstruktur eine Anzahl von Knoten aufweist, wobei einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist, umfassend eine Speichereinrichtung zum Speichern der Baumdatenstruktur und eine Verarbeitungseinrichtung, welche mit der Speichereinrichtung gekoppelt ist und welche ausgestaltet ist ein Verfahren mit zumindest folgenden Schritten auszuführen: 28. A system for classifying at least one object, wherein the object is related to at least one tree data structure, the at least one tree data structure having a number of nodes, wherein one node of the at least one tree data structure is associated with at least one text comprising a number of words comprising memory means for storing the tree data structure and processing means coupled to the storage means and adapted to carry out a method comprising at least the following steps:
- Auslesen der den Knoten der zumindest einen Baumdatenstruktur zugeordneten Texte; - reading the texts associated with the nodes of the at least one tree data structure;
- Gewichten der Texte, wobei für jedes Wort eines Textes ein Gewichtungswert erzeugt wird, welcher dem Wort des Textes zugeordnet wird, wobei für ein Wort, welches in unterschiedlichen Texten vorkommt unterschiedliche Gewichtungswerte erzeugt werden können; und Weighting of the texts, wherein for each word of a text a weighting value is generated which is assigned to the word of the text, whereby for a word which occurs in different texts different weighting values can be generated; and
- Erzeugen einer Anzahl von Klassifizierungswerte, wobei jeder Klassifizierungswert durch ein Tripel, bestehend aus einer das Objekt identifizierenden Objekt- Identifikation, einem Wort und einem dem Wort zugeordneten Gewichtungswert (Objektidentifikation, Wort, Gewichtungswert), repräsentiert wird. Generating a number of classification values, each classification value being represented by a triple consisting of an object identifying the object Identification, a word, and a weighting value (object identification, word, weighting value) associated with the word.
29. Datenträgerprodukt mit einem darauf gespeicherten Programmcode, welcher in einen Computer und / oder in ein Computernetzwerk ladbar ist und ausgestaltet ist, ein Verfahren nach einem der Ansprüche 1 bis 27 auszuführen. 29. A data carrier product with a program code stored thereon, which is loadable into a computer and / or in a computer network and is configured to carry out a method according to one of claims 1 to 27.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/DE2009/001420 WO2011044864A1 (en) | 2009-10-12 | 2009-10-12 | Method and system for classifying objects |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/DE2009/001420 WO2011044864A1 (en) | 2009-10-12 | 2009-10-12 | Method and system for classifying objects |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011044864A1 true WO2011044864A1 (en) | 2011-04-21 |
Family
ID=42212231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/DE2009/001420 WO2011044864A1 (en) | 2009-10-12 | 2009-10-12 | Method and system for classifying objects |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2011044864A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191975A (en) * | 2019-11-29 | 2020-05-22 | 广东三扬网络科技有限公司 | Node reference method of thought guide graph, electronic device and storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040117448A1 (en) * | 2002-12-16 | 2004-06-17 | Palo Alto Research Center, Incorporated | Method and apparatus for clustering hierarchically related information |
EP1672544A2 (en) * | 2004-12-14 | 2006-06-21 | International Business Machines Corporation | Improving text search quality by exploiting organizational information |
-
2009
- 2009-10-12 WO PCT/DE2009/001420 patent/WO2011044864A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040117448A1 (en) * | 2002-12-16 | 2004-06-17 | Palo Alto Research Center, Incorporated | Method and apparatus for clustering hierarchically related information |
EP1672544A2 (en) * | 2004-12-14 | 2006-06-21 | International Business Machines Corporation | Improving text search quality by exploiting organizational information |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191975A (en) * | 2019-11-29 | 2020-05-22 | 广东三扬网络科技有限公司 | Node reference method of thought guide graph, electronic device and storage medium |
CN111191975B (en) * | 2019-11-29 | 2024-03-29 | 广东三扬网络科技有限公司 | Node reference method of mind map, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69811066T2 (en) | DATA SUMMARY DEVICE. | |
DE60120822T2 (en) | Meta-document and method for managing meta-documents | |
DE69900854T2 (en) | A SEARCH SYSTEM AND METHOD FOR RETURNING DATA AND USE IN A SEARCHER | |
DE60129652T2 (en) | Image retrieval system and method with semantic and property-based relevance feedback | |
DE102007037646B4 (en) | Computer storage system and method for indexing, searching and retrieving databases | |
EP1311989B1 (en) | Automatic search method | |
DE112007000053T5 (en) | System and method for intelligent information acquisition and processing | |
DE102013205737A1 (en) | Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed | |
DE102006040208A1 (en) | Patent-related search procedure and system | |
EP1779263A1 (en) | Speech and textual analysis device and corresponding method | |
DE112018002047T5 (en) | DOCUMENT ANALYSIS WITH SEVERAL FACTORS | |
DE102010020829A1 (en) | System and method for generating search terms | |
DE102018008188A1 (en) | Create content based on multi-sentence compression of source content | |
WO2011044865A1 (en) | Method for determining a similarity of objects | |
DE102016015536A1 (en) | Organizing electronically stored files using an automatically generated memory hierarchy | |
WO2011044864A1 (en) | Method and system for classifying objects | |
EP2193457A1 (en) | Detecting correlations between data representing information | |
EP1170678B1 (en) | Method and apparatus for automatically searching for relevant sets of images | |
WO2013075745A1 (en) | Method and system for creating user models | |
DE10025219A1 (en) | Method, computer program product and device for automatically linking data records from at least one data source and system for retrieving linked data records from at least one data source | |
EP4133384A1 (en) | Method and computer system for determining the relevance of a text | |
WO2011044866A1 (en) | Method and system for determining a similarity of persons | |
WO2011047644A1 (en) | Method and system for producing a summary for an object | |
Heyer et al. | Aiding Web Searches by Statistical Classification Tools | |
DE202022106616U1 (en) | A system for representing and classifying formulas for searching mathematical information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09776127 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 1120090053106 Country of ref document: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09776127 Country of ref document: EP Kind code of ref document: A1 |