WO2009135511A1 - Erstellung eines kategorienbaums über den inhalt eines datenbestandes - Google Patents

Erstellung eines kategorienbaums über den inhalt eines datenbestandes Download PDF

Info

Publication number
WO2009135511A1
WO2009135511A1 PCT/EP2008/003723 EP2008003723W WO2009135511A1 WO 2009135511 A1 WO2009135511 A1 WO 2009135511A1 EP 2008003723 W EP2008003723 W EP 2008003723W WO 2009135511 A1 WO2009135511 A1 WO 2009135511A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
words
database
word list
list
Prior art date
Application number
PCT/EP2008/003723
Other languages
English (en)
French (fr)
Inventor
Jörg Wurzer
Christian Magnus
Original Assignee
Iqser Ip Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iqser Ip Ag filed Critical Iqser Ip Ag
Priority to PCT/EP2008/003723 priority Critical patent/WO2009135511A1/de
Priority to EP08758423A priority patent/EP2277116A1/de
Publication of WO2009135511A1 publication Critical patent/WO2009135511A1/de
Priority to US12/941,818 priority patent/US8745069B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Definitions

  • Category tree on the content of an information objects comprehensive database the information objects of the database are indexed in an index.
  • the present invention relates to methods for automatically creating a category tree on the content of all the texts of a database.
  • the subject matter of the present invention is furthermore a data processing system with data representing information in at least one dataset accessible via at least one data source, which is designed and / or set up to at least partially execute a method according to the invention.
  • the subject of the present invention is furthermore a data processing device for the electronic processing of data, comprising a control and / or arithmetic unit, an input unit and an output unit, which is designed and / or configured to carry out a method according to the invention at least partially, preferably using at least one part a data processing system according to the invention.
  • Methods, data processing systems and / or data processing devices of the type mentioned above are used in the context of search applications or routines, for example by operating systems and / or by so-called search engines, as well as in the context of the organization, provision and / or delivery of information.
  • Methods, systems and devices for the electronic processing of data are known in the prior art in numerous embodiments, in particular from WO 2005/050471 A2, the disclosures of which are hereby explicitly referenced.
  • contents are processed as information representing data of a database by machine, in particular to be made available to users as a technical tool for solving tasks and / or serve.
  • data stocks are simple, universally usable, persistent information or data objects which contain, in particular, such as files and / or documents in operating systems or databases, structure, content and, as required, management information.
  • the dormers are a Döverarbeitverarbeitssystern and / or a
  • Data processing device usually via at least one data source, usually a present in a data processing system or connectable via a communication network or connectable data carrier, such as a hard disk or the like data recording means accessible.
  • the invention is based on the object of enabling a user or user of methods, data processing systems and / or data processing devices in a simple manner to have an overview of the contents of data files, in particular with regard to unstructured and / or poorly comprehensible data files ,
  • the present invention proposes a method for the automatic generation of a category tree via the content of a data object comprising information objects, wherein the information objects of the data are indexed in an index, which is characterized by the following method steps:
  • An index or database index in the sense of the present invention is an index structure separated from the data structure in a database or in a database.
  • the index advantageously accelerates the search and / or sorting for specific fields.
  • An index advantageously consists of a collection of pointers that define an ordering relation to one or more columns in a table. If an indexed column is used as the search criterion in a query, the database management system (DBMS) or similar systems generally searches for the desired data records on the basis of these pointers or references.
  • DBMS database management system
  • a list in the sense of the present invention is a dynamic data structure with a finite number of elements. In this case, a storage of a previously not determined number of interrelated values of simple and / or composite data types is made possible.
  • Stop words in the sense of the present invention are words which are ignored in the case of full-text indexing, since they occur very frequently and are generally of no relevance for capturing the content of a document.
  • Commonly used stop words in German-language documents are, for example, certain articles such as "der”, “die” and “das.” Stop words are distinguished in particular by the fact that they assume grammatical and / or syntactic functions in particular and therefore generally do not draw conclusions about the content
  • the search engine efficiency that is provided by the filtering out is to increase the efficiency of search engines: If you were to consider stop words in a search, the result set would include almost any document in the inventory.
  • a selection in the sense of the present invention is a selection of data objects from a data set, in particular in connection with relational databases or relational database systems.
  • An advantageous embodiment of the invention provides that in method step 3, when determining a significance value for each word in the word list, the significance value is determined from the quotient of the word frequency of the word within the information object and the word frequency of the word within the entire index.
  • a further embodiment of the invention provides that the predeterminable maximum number in method step 5 is limited to 50.
  • An advantageous embodiment of the invention provides that in method step 6, when storing the reduced word list in a table, words in the table are assigned to the significance value and in the case in which the significance value is higher than the significance value to an existing word, the higher significance value is used.
  • a further advantageous proposal of the invention provides that in method step 8, when storing the co-deposits in a database, the database comprises a table of co-occurrences (word 1 and word 2) with a frequency value in a table row and wherein the frequency value increases by a factor of 1 becomes if there is a co-competition (word 1 and word 2) in the table already.
  • the predefinable maximum number in method step 15 is limited to 20.
  • the created category tree is at least partially reproduced by a display device of a computer system, preferably in graphical form.
  • the present invention further proposes a method for the automatic generation of a category tree on the content of all texts of a data stock, which is characterized by the following method steps: 1. Creating word sets with a preferably predeterminable number of meaningful words for each text of the dataset;
  • a further embodiment of the invention provides that the word list created in method step 3 is at least partially reproduced by a display device of a computer system, preferably in graphical form.
  • a further advantageous embodiment of the invention is characterized in that the word list created in method step 3 is sorted in descending order according to the frequency of the respective words, so that the most important terms stand at the beginning of the word list.
  • a further advantageous embodiment of the invention provides that in step 5, when determining co-occurrences in the stored word list, each word in the word list is compared bit by bit with the words of each word set.
  • a further advantageous embodiment of the invention is characterized in that the word list stored in method step 6 is at least partially reproduced by a display device of a computer system, preferably in graphic form.
  • the category tree is consolidated for display by a display device, preferably with a similarity check.
  • a particularly advantageous proposal of the invention is characterized in that in the context of the similarity check words with different word endings but the same root word to the shortest possible variant (word version) are summarized.
  • two words of different length are respectively compared by shortening the longer word by two letters, then bringing the shorter word to the length of the other word and then checking the two words for a match.
  • a further advantageous embodiment of the invention is characterized in that, when determining co-competitions in method step 5 and / or in method step 8, a similarity check is carried out, whereby words with different word endings but the same word stem are combined to the shortest possible variant (word version).
  • a similarity check is carried out, whereby words with different word endings but the same word stem are combined to the shortest possible variant (word version).
  • two words of different length are respectively compared by shortening the longer word by two letters, then bringing the shorter word to the length of the other word and then checking the two words for a match.
  • the predetermined number in method step 1 is limited to up to 32.
  • the present invention further proposes a method for the automatic generation of a category tree on the content of all texts of a data stock, which is characterized by the following method steps:
  • Process step 3 created word list is at least partially reproduced by a display device of a computer system, preferably in graphical form.
  • the category tree for display by a display device is consolidated, preferably with a similarity check.
  • words with different word endings but the same root word are combined into the shortest possible variant (word version).
  • a further advantageous embodiment of the invention is characterized in that, in the context of the similarity check, two words of different length are respectively compared by shortening the longer word by two letters, then bringing the shorter word to the length of the other word and then the two words checked for a match.
  • the subject matter of the present invention is furthermore a data processing system with data representing information in at least one dataset accessible via at least one data source, which is designed and / or set up to at least partially execute a method according to the invention.
  • a further advantageous embodiment of the invention is characterized by a graphical user interface for inputting and / or reproducing word lists, links and / or at least one level of at least one category tree.
  • the graphical user interface continues to input, change and / or reproduction of information representing data in at least one database formed and / or set up.
  • the user interface advantageously provides a graphical user interface that enables action-oriented navigation.
  • the inventively created category tree is implemented in the user interface by a tree structure in the first reproduced or displayed the generic terms and the user can bring the associated sub-concepts for display by pointing to a provided for this purpose by the user interface button, which with the preamble displayed is selected or activated by so-called Ankück.
  • the user can advantageously also move or navigate in further levels of the category tree.
  • a search engine or a search engine system advantageously uses a full-text search via the index with all terms of the selected path in the category tree, for example a generic term whose sub-term and again its sub-concept. It is also advantageously possible to select only a generic term for the search.
  • the reproduction takes place at least partially in a selectable form, that is, the reproduced categories of inventively created category tree are, for example, itself as a menu item for action options and / or linked in the manner of a link, and by selection, for example by so-called "Click", usable accordingly.
  • the data processing system preferably in the context of running on a computer software, used for the dynamic organization of information and / or processes.
  • the data processing system according to the invention is part of a database application or at least usable together with a database application.
  • the present invention furthermore relates to a data processing device for the electronic processing of data, comprising a control and / or arithmetic unit, an input unit and an output unit, which is designed and / or A method according to the invention is set up at least partially, preferably using at least part of a data processing system according to the invention.
  • a data processing device for the electronic processing of data, with a control and / or computing unit, an input unit and an output unit, provided, which is characterized by a use of a data processing system according to the invention.
  • the data processing device is designed as a mobile terminal, preferably as a usable or operable in mobile networks mobile terminal. Particularly preferred is an embodiment of the data processing device as a mobile phone.
  • a category tree With a category tree according to the invention, the user gets an overview of the contents of a data stock, advantageously via unstructured data stocks, which otherwise can not be surveyed easily.
  • facts and / or relationships become transparent. For example, that the texts of one or more databases are about philosophy and that ethics is a discipline within philosophy.
  • it is according to the invention for example, in or out of a stock of philosophical publications, who published in the field of ethics and thus sometimes counts among the philosophers.
  • the result of an automatic analysis of the terms in a database is a category tree according to the invention. At the top of the list are generally terms that form upper categories. The respective upper categories are assigned to subcategories, these in turn to further subcategories.
  • the ramification of the category tree according to the invention can advantageously be continued arbitrarily until all significant terms from a database have experienced one or more assignments.
  • the user can now according to the invention select categories and subcategories in the tree and receives a corresponding selection of the data.
  • the selection is advantageously based on a search query that touches or affects the terms from the selected path of the category tree.
  • a taxonomy is advantageously created on the basis of co-occurrence, that is, the simultaneous occurrence of words.
  • FIG. 1 shows in a flowchart an embodiment of a creation of a category tree according to the invention over the content of a data stock
  • FIG. 2 shows in a flowchart a further embodiment of a creation of a category tree according to the invention over the content of a
  • FIG. 3 shows in a flow chart a further embodiment of a creation of a category tree according to the invention over the content of a data stock.
  • stop words are filtered out using a list and a word list is created. There is a significance value for each word. This results from the quotient of word frequency within the document and the word frequency in the entire index.
  • the word list is sorted by significance and reduced to the top 50.
  • This value 50 can be configured.
  • the top 50 are stored in a table. Words are assigned to the significance value. If the value is higher than an existing one, the higher value is taken.
  • the co-competitions are derived and stored in a database.
  • word 1 and word 2 There is a table of co-occurrences (word 1 and word 2) with a frequency value in a table line. If there is a co-occurrence already in the table, the frequency value is increased by 1.
  • the search is for words in the co-occurrence table that have the highest significance but do not form co-occurrence (among each other). They form the first level of the category tree. For all other levels of the category tree, the determined words of the first level are gradually iterated. For each word, the words are selected from the co-occurrence table, which stands with the word co-competition. From this, the words are selected that have an above-average frequency. This list is limited to 20 and sorted by frequency.
  • word sets with the 32 least significant words are created and stored in a database.
  • the word set is stored in a relational database in the form of a word list whose words are each linked to an ID for the word set. From these word sets, a word list is created which can be displayed. It forms the first level of the conceptual tree. It is possible to sort this list of words in descending order of frequency, so that the most important terms are at the beginning. It may happen that words with the same meaning but different case (case) or inflection (inflection) form separate categories. The term tree can therefore be subsequently consolidated for display. Words with different endings but the same root are combined to the shortest variant. Two words of different lengths are compared by shortening the longer word by two letters. The shorter word is then made the length of the other word and checked for a match.
  • the word combinations can again be selected as the starting point.
  • the 32 least words are extracted and stored in a database. From the word sets, a word list is extracted that corresponds to the first level of the category tree. As described in the first procedure, the list can be consolidated.
  • the word list is iterated and each word is compared with all words, in each case all word sets. If there are two words including the similarity check, a link with the weight 0.1 is made between the one word and all the others of the word set. If this link already exists, the weighting of the link is increased by 0.1. If the value exceeds 1, it is reset to 0.9 and all other links are reduced to a value of 90%.
  • the links that are linked to both the first and second terms are selected.
  • the links that are linked to both the first, second, and third terms are selected.
  • the illustrated in the figures of the drawing and in connection with the description of embodiments of the invention are only illustrative of the invention and are not limiting for this.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die vorliegende Erfindung betrifft Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt eines Datenbestandes, wobei eine Taxonomie des Datenbestandes aufgrund von Kookkurrenzen erstellt wird. Gegenstand der vorliegenden Erfindung ist ferner ein Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, welches ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen. Gegenstand der vorliegenden Erfindung ist darüber hinaus eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, welche ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines erfindungsgemäßen Datenverarbeitungssystems.

Description

Erstellung eines Kateqorienbaums über den Inhalt eines Datenbestandes
U/iö Vui lieytM lue [Zi i ii iuui iy υcmi i i cn i vci iαi ii cn z-uι CIUIVJI I ICIIIOOI ιcι ι ι_ι oιcιιuι ιy cn ico
Kategorienbaums über den Inhalt eines Informationsobjekte umfassenden Datenbestandes, wobei die Informationsobjekte des Datenbestandes in einem Index indiziert sind.
Ferner betrifft die vorliegende Erfindung Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes.
Gegenstand der vorliegenden Erfindung ist ferner ein Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, welches ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen.
Gegenstand der vorliegenden Erfindung ist darüber hinaus eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, welche ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines erfindungsgemäßen Datenverarbeitungssystems.
Verfahren, Datenverarbeitungssysteme und/oder Datenverarbeitungsvorrichtungen der eingangs genannten Art finden im Rahmen von Suchanwendungen beziehungsweise - routinen, beispielsweise seitens Betriebssystemen und/oder seitens sogenannter Suchmaschinen, sowie im Rahmen der Organisation, Bereitstellung und/oder Auslieferung von Informationen Verwendung. Verfahren, Systeme und Vorrichtungen zur elektronischen Verarbeitung von Daten sind im Stand der Technik in zahlreichen Ausgestaltungen bekannt, insbesondere aus der WO 2005/050471 A2, deren Offenbarungen hiermit explizit referenziert werden. Üblicherweise werden Inhalte als Informationen repräsentierende Daten eines Datenbestandes maschinell verarbeitet, insbesondere um Anwendern als technisches Hilfsmittel zur Lösung von Aufgaben zur Verfügung gestellt zu werden und/oder zu dienen. Datenbestände im Sinne der vorliegenden Erfindung sind einfache, universell nutzbare, persistente Informations- bzw. Datenobjekte die insbesondere wie Dateien und/oder Dokumente in Betriebssystemen oder Datenbanken, Struktur-, Inhalts- und bedarfsweise Verwaltungsinformationen enthalten.
Bei Datenverarbeitungssystemen und/oder Datenverarbeitungsvorrichtungen sind die Dälenbesiände einem Dätenverarbeitungssystern und/oder einer
Datenverarbeitungsvorrichtung üblicherweise über wenigstens eine Datenquelle, in der Regel einem in einem Datenverarbeitungssystem vorhandenen oder über ein Kommunikationsnetzwerk anschließbaren beziehungsweise verbindbaren Datenträger, beispielsweise einer Festplatte oder dergleichen Datenaufzeichnungsmittel, zugänglich.
Bei den bisher bekannten Verfahren, Datenverarbeitungssystemen und/oder Datenverarbeitungsvorrichtungen, ist die graphische Darstellung ermittelter Ergebnisse im Hinblick auf einen Überblick als Werkzeug für den Anwender bzw. Nutzer verbesserungsbedürftig, insbesondere hinsichtlich einer Übersicht bzw. eines Überblicks über den Inhalt eines Datenbestandes bei Suchanwendungen beziehungsweise -routinen, insbesondere Suchmaschinen.
Der Erfindung liegt in Anbetracht dieses Standes der Technik die Aufgabe zugrunde, einem Anwender bzw. Nutzer von Verfahren, Datenverarbeitungssystemen und/oder Datenverarbeitungsvorrichtungen auf einfache Art und Weise einen Überblick über den Inhalt von Datenbeständen zu ermöglichen, insbesondere hinsichtlich unstrukturierter und/oder schlecht überblickbarer Datenbestände.
Zur technischen Lösung wird mit der vorliegenden Erfindung ein Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt eines Informationsobjekte umfassenden Datenbestandes, wobei die Informationsobjekte des Datenbestandes in einem Index indiziert sind, vorgeschlagen, welches durch die folgenden Verfahrensschritte gekennzeichnet ist:
1. Herausfiltern von Stoppwörtern für jedes Informationsobjekt im Index anhand einer Liste; 2. Erstellen einer Wortliste in der herausgefilterte Stoppwörter nicht enthalten sind;
3. Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste;
4. Sortieren der Wortliste nach Signifikanz anhand des Signifikanzwertes;
5. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl;
6. Speichern der reduzierten Wortliste in einer Tabelle;
7. Ermitteln von Kookkurrenzen in der gespeicherten Wortliste;
8. Speichern der Kookkurrenzen in einer Datenbank;
9. Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) die die höchste Signifikanz haben, aber keine Kookkurrenzen untereinander bilden;
10. Selektion der ersten Ebene des Kategorienbaums aus den ermittelten Wörtern;
11. Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten Ebene die mit dem jeweils selektierten Wort der ersten Ebene in Kookkurrenz stehen;
12. Erstellen einer Wortliste aus den ermittelten Wörtern;
13. Ermitteln der Häufigkeit zu jedem Wort in der Wortliste;
14. Sortieren der Wortliste nach Häufigkeit;
15. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl, wobei die Wörter die eine überdurchschnittliche Häufigkeit aufweisen in der Wortliste verbleiben; 16. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Wörtern;
17. iterative Wiederholung der Verfahrensschritte 11. bis 16. für wenigstens eine weitere Ebene des Kategorienbaums, wobei in Verfahrensschritt 11. beim Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten und wenigstens einer weiteren Ebene die mit dem jeweils selektierten Wort der ersten und wenigstens einen weiteren Ebene in Kookkurrenz stehen ermittelt werden, ι_ :_ I i _ι __ :*.*_ Ii _ _ \ A /^ _i_ _ ~l _ :_u „. .11 :„± uia uie IViCi ιyc uci ei i uiuciici i vv unci yicioi i MUH ιoι.
Ein Index beziehungsweise Datenbankindex im Sinne der vorliegenden Erfindung ist eine von der Datenstruktur in einem Datenbestand beziehungsweise in einer Datenbank getrennte Indexstruktur. Der Index beschleunigt vorteilhafterweise die Suche und/oder das Sortieren nach bestimmten Feldern. Ein Index besteht vorteilhafterweise aus einer Ansammlung von Zeigern beziehungsweise Verweisen, die eine Ordnungsrelation auf eine oder mehrere Spalten in einer Tabelle definieren. Wird bei einer Abfrage eine indizierte Spalte als Suchkriterium herangezogen, sucht in der Regel das Datenbankmanagementsystem (DBMS) oder dergleichen Systeme die gewünschten Datensätze anhand dieser Zeiger beziehungsweise Verweise.
Eine Liste im Sinne der vorliegenden Erfindung ist eine dynamische Datenstruktur, mit einer endlichen Anzahl von Elementen. Dabei wird eine Speicherung von einer im Vorhinein nicht bestimmten Anzahl von miteinander in Beziehung stehenden Werten einfacher und/oder zusammengesetzter Datentypen ermöglicht.
Stoppwörter im Sinne der vorliegenden Erfindung sind Wörter, die bei einer Volltextindizierung nicht beachtet werden, da sie sehr häufig auftreten und in der Regel keine Relevanz für die Erfassung des Inhalts eines Dokuments besitzen. Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind beispielsweise bestimmte Artikel wie „der", „die" und „das". Stoppwörter zeichnen sich insbesondere dadurch aus, dass sie insbesondere grammatikalische und/oder syntaktische Funktionen übernehmen und daher in der Regel keine Rückschlüsse auf den Inhalt des Dokuments zulassen. Die durch das Herausfiltern gegebene nicht Berücksichtigung von Stoppwörtern dient insbesondere der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einer Suche beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Ein solches Suchergebnis wäre für den Anwender nutzlos. Eine Selektion im Sinne der vorliegenden Erfindung ist eine Auswahl von Datenobjekten aus einer Datenmenge, insbesondere im Zusammenhang mit relationalen Datenbanken beziehungsweise relationalen Datenbanksystemen.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in Verfahrensschritt 3. beim Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste der Signifikanzwert aus dem Quotienten der Worthäufigkeit des Wortes innerhalb des Informationsobjektes und der Worthäufigkeit des Wortes innerhalb des gesamten Indexes bestimmt wird.
Eine weitere Ausgestaltung der Erfindung sieht vor, dass die vorgebbare Maximalanzahl in Verfahrensschritt 5 auf bis zu 50 beschränkt ist.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in Verfahrensschritt 6. beim Speichern der reduzierten Wortliste in einer Tabelle Wörter in der Tabelle dem Signifikanzwert zugeordnet werden und in dem Fall, in dem der Signifikanzwert höher ist als der Signifikanzwert zu einem bestehenden Wort der höhere Signifikanzwert verwendet wird.
Ein weiterer vorteilhafter Vorschlag der Erfindung sieht vor, dass in Verfahrensschritt 8. beim Speichern der Kookkurrenzen in einer Datenbank die Datenbank eine Tabelle von Kookkurrenzen (Wort 1 und Wort 2) mit einem Häufigkeitswert in einer Tabellenzeile umfasst und wobei der Häufigkeitswert um den Faktor 1 erhöht wird, wenn es eine Kookkurrenz (Wort 1 und Wort 2) in der Tabelle bereits gibt.
Vorteilhafterweise ist die vorgebbare Maximalanzahl in Verfahrensschritt 15. auf bis zu 20 beschränkt.
Gemäß einem weiteren vorteilhaften Vorschlag der Erfindung wird der erstellte Kategorienbaum zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben, vorzugsweise in graphischer Form.
Zur technischen Lösung wird mit der vorliegenden Erfindung ferner ein Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes vorgeschlagen, welches durch die folgenden Verfahrensschritte gekennzeichnet ist: 1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Text des Datenbestandes;
2. Speichern der jeweiligen Wortmenge in einer relationalen Datenbank in Form einer Wortliste, wobei die Wörter jeweils mit einer Kennung für die jeweilige Wortmenge verknüpft werden;
3. Erstellen einer Wortliste aus den Wortmengen;
4. Selektion der ersten Ebene des Kateyorieπυäums aus den Wörtern der erstellten Wortliste;
5. Ermitteln von Kookkurrenzen für jedes Wort in der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;
6. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;
7. Selektion einer weiteren Ebene des Kategorienbaums aus den Wörtern der gespeicherten Wortliste;
8. Ermitteln von Kookkurrenzen für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kategorienbaums mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;
9. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;
10. iterative Wiederholung der Verfahrensschritte 7. bis 9. für wenigstens eine weitere Ebene des Kategorienbaums, bis die Menge der in Verfahrensschritt 8. ermittelten Wörter für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kategorienbaums mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen gleich null ist.
Eine weitere Ausgestaltung der Erfindung sieht vor, dass die in Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form. Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste nach Häufigkeit der jeweiligen Wörter absteigend sortiert wird, so dass die wichtigsten Begriffe gleich zu Anfang der Wortliste stehen.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in Verfahrensschritt 5. beim Ermitteln von Kookkurrenzen in der gespeicherten Wortliste jedes Wort in der Wortliste nach und nach mit den Wörtern einer jeden Wortmenge verglichen wird.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass die in Verfahrensschritt 6. gespeicherte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.
Vorteilhafterweise wird der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert wird, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.
Eine besonders vorteilhafter Vorschlag der Erfindung ist dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.
Vorteilhafterweise werden im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass beim Ermitteln von Kookkurrenzen in Verfahrensschritt 5. und/oder in Verfahrensschritt 8. eine Ähnlichkeitsüberprüfung erfolgt, wobei Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden. Vorteilhafterweise werden im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft. Vorteilhafterweise die vorgebbare Anzahl in Verfahrensschritt 1 auf bis zu 32 beschränkt.
Zur technischen Lösung wird mit der vorliegenden Erfindung ferner ein Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes vorgeschlagen, welches durch die folgenden Verfahrensschritte gekennzeichnet ist:
1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Texi des Datenbestandes;
2. Speichern der jeweiligen Wortmenge in einer relationalen Datenbank in Form einer Wortliste, wobei die Wörter jeweils mit einer Kennung für die jeweilige Wortmenge verknüpft werden;
3. Erstellen einer Wortliste aus den Wortmengen;
4. Selektion der ersten Ebene des Kategorienbaums aus den Wörtern der erstellten Wortliste;
5. Vergleichen von jedem Wort in der Wortliste mit jedem Wort innerhalb der in der Datenbank gespeicherten Wortmengen, wobei überprüft wird, ob zwei Wörter übereinstimmen und/oder eine gewisse Mindestähnlichkeit zueinander aufweisen und wobei bei Übereinstimmung und/oder gegebener Mindestähnlichkeit zwischen dem einen Wort und allen anderen Wörtern der Wortmengen eine gewichtete Verknüpfung mit der Gewichtung 0,1 hergestellt wird, wobei bei schon existierender Verknüpfung die Gewichtung der Verknüpfung um 0,1 angehoben wird und wobei bei Überschreitung einer Gewichtung von 1 ,0 die Gewichtung auf 0,9 zurückgesetzt und alle anderen Verknüpfungen auf einen Wert von 90 % herabgesetzt werden;
6. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste
7. Speichern der Verknüpfungen in einer Wortliste;
8. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Verknüpfungen und/oder der gespeicherten Wortliste; 9. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste und wenigstens einer gespeicherten Wortliste;
10. Speichern der Verknüpfungen in einer Wortliste;
11. iterative Wiederholung der Verfahrensschritte 8. bis 10. für wenigstens eine weitere Ebene des Kategorienbaums, bis die Menge der in Verfahrensschritt 9. ermittelten Verknüpfungen gleich null ist.
■ ■ i iσ vui ICIII laue nuoycoiαnui ιy uci ι_ι i n IUUI ιy ιoι uαuui υn ycrvoi n i^ciυi ιι ιcι, uαs. uiσ IM
Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.
Gemäß einem weiteren Vorschlag der Erfindung wird der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.
Vorteilhafterweise werden im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.
Gegenstand der vorliegenden Erfindung ist ferner ein Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, welches ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ist gekennzeichnet durch eine graphische Benutzerschnittstelle zur Eingabe und/oder Wiedergabe von Wortlisten, Verknüpfungen und/oder wenigstens einer Ebene wenigstens eines Kategorienbaums. Vorteilhafterweise ist die graphische Benutzerschnittstelle weiter zur Eingabe, Änderung und/oder Wiedergabe von Informationen repräsentierenden Daten in wenigstens einem Datenbestand ausgebildet und/oder eingerichtet.
Die Benutzerschnittstelle stellt vorteilhafterweise eine graphische Benutzeroberfläche bereit, die eine handlungsorientierte Navigation ermöglicht. Vorteilhafterweise wird der erfindungsgemäß erstellte Kategorienbaum in der Benutzeroberfläche umgesetzt durch eine Baumstruktur in der zunächst die Oberbegriffe wiedergegeben bzw. angezeigt werden und wobei der Anwender die zugehörigen Unterbegriffe zur Anzeige bringen kann, indem er auf eine dafür seitens der Benutzeroberfläche vorgesehene Schaltfläche, welche mit dem Oberbegriff angezeigt wird durch sogenanntes Ankücken auswählt bzw. aktiviert. Auf diese Weise kann der Anwender sich vorteilhafterweise auch in weiteren Ebenen des Kategorienbaumes bewegen bzw. navigieren. Wählt der Anwender nun einen Begriff aus, wird vorteilhafterweise mit einer Suchmaschine bzw. einem Suchmaschinensystem, vorzugsweise einem System gemäß der WO 2005/050471 A2, eine Volltextsuche über den Index mit allen Begriffen des ausgewählten Pfades im Kategorienbaum, zum Beispiel ein Oberbegriff, dessen Unterbegriff und wiederum dessen Unterbegriff, durchgeführt. Es ist vorteilhafterweise auch möglich lediglich einen Oberbegriff für die Suche auszuwählen.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung erfolgt die Wiedergabe zumindest teilweise in auswählbarer Form, das heißt die wiedergegebenen Kategorien des erfindungsgemäß erstellten Kategorienbaums sind beispielsweise selbst als Menüpunkt für Handlungsoptionen und/oder als Verknüpfung nach Art eines Links ausgebildet, und durch Auswahl, beispielsweise durch sogenanntes "Anklicken", entsprechend nutzbar.
In einer besonders bevorzugten Ausgestaltung der Erfindung wird das erfindungsgemäße Datenverarbeitungssystem, vorzugsweise im Rahmen einer auf einem Rechner laufenden Software, zur dynamischen Organisation von Informationen und/oder Prozessen eingesetzt.
Vorteilhafterweise ist das erfindungsgemäße Datenverarbeitungssystem Bestandteil einer Datenbankanwendung oder zumindest zusammen mit einer Datenbankanwendung nutzbar.
Gegenstand der vorliegenden Erfindung ist ferner eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, welche ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines erfindungsgemäßen Datenverarbeitungssystems.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung wird eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, bereitgestellt, die gekennzeichnet ist durch eine Nutzung eines erfindungsgemäßen Datenverarbeitungssystems.
In einer vorteilhaften Ausgestaltung der Erfindung ist die Datenverarbeitungsvorrichtung als mobiles Endgerät ausgebildet, vorzugsweise als ein in Mobilfunknetzen nutzbares beziehungsweise betreibbares mobiles Endgerät. Besonders bevorzugt ist eine Ausgestaltung der Datenverarbeitungsvorrichtung als Mobilfunktelefon.
Der Anwender bekommt mit einem erfindungsgemäßen Kategorienbaum einen Überblick über den Inhalt eines Datenbestandes, vorteilhafterweise über unstrukturierte Datenbestände, die sich ansonsten schlecht überblicken lassen. Darüber hinaus werden Sachverhalte und/oder Zusammenhänge transparent. Zum Beispiel dass es in den Texten eines oder mehrerer Datenbestände um Philosophie geht und die Ethik eine Disziplin innerhalb der Philosophie ist. Schließlich geht erfindungsgemäß, zum Beispiel in bzw. aus einem Bestand philosophischer Publikationen hervor, wer im Bereich der Ethik publiziert hat und damit mitunter auch zu den Philosophen zählt. Das Ergebnis einer automatischen Analyse der Begriffe in einem Datenbestand ist ein erfindungsgemäßer Kategorien- bzw. Begriffsbaum. An oberster Stelle stehen allgemein Begriffe, die Oberkategorien bilden. Den jeweiligen Oberkategorien sind Unterkategorien zugeordnet, diesen wiederum weiteren Unterkategorien. Die Verästelung des erfindungsgemäßen Kategorienbaumes kann vorteilhafterweise beliebig fortgesetzt werden bis alle signifikanten Begriffe aus einem Datenbestand eine oder mehrfache Zuordnungen erfahren haben. Der Anwender kann nun erfindungsgemäß Kategorien und Unterkategorien im Baum auswählen und erhält eine entsprechende Selektion des Datenbestandes. Die Selektion beruht auf vorteilhafterweise auf einer Suchanfrage, die die Begriffe aus dem selektierten Pfad des Kategorienbaumes berührt bzw. betrifft. Mit dem erfindungsgemäßen Kategorienbaum wird vorteilhafterweise eine Taxonomie aufgrund von Kookkurrenzen, das heißt dem gleichzeitigen Auftreten von Wörtern, erstellt. Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der Beschreibung der in den Figuren der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:
Fig. 1 in einem Flussdiagramm ein Ausführungsbeispiel einer erfindungsgemäßen Erstellung eines Kategorienbaums über den Inhalt eines Datenbestandes;
Fig. 2 in einem Flussdiagramm ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Erstellung eines Kategorienbaums über den Inhalt eines
L^cUCi ibθSidi idθS üfiu
Fig. 3 in einem Flussdiagramm ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Erstellung eines Kategorienbaums über den Inhalt eines Datenbestandes.
Bei dem in Fig. 1 dargestellten Ausführungsbeispiel erfolgt die Erstellung eines erfindungsgemäßen Kategorienbaums über den Inhalt eines Datenbestandes wie anhand des Flussdiagramms ersichtlich wie folgt:
Für jedes Informationsobjekt im Index werden Stoppwörter an Hand einer Liste herausgefiltert und es wird eine Wortliste erstellt. Zu jedem Wort gibt es einen Signifikanzwert. Dieser ergibt sich aus dem Quotient aus Worthäufigkeit innerhalb des Dokuments und der Worthäufigkeit im gesamten Index.
Die Wortliste wird nach Signifikanz sortiert und auf die Top 50 reduziert. Dieser Wert 50 kann konfiguriert werden. Die Top 50 werden in einer Tabelle gespeichert. Wörter werden da dem Signifikanzwert zugeordnet. Ist der Wert höher als zu einem bestehenden, wird der höhere Wert genommen.
Aus dieser Wortliste werden die Kookkurrenzen (das gleichzeitige Auftreten von Wörtern) abgeleitet und in einer Datenbank hinterlegt. Darin gibt es eine Tabelle von Kookkurrenzen (Wort 1 und Wort 2) mit einem Häufigkeitswert in einer Tabellenzeile. Wenn es eine Kookkurrenz bereits in der Tabelle gibt, wird der Häufigkeitswert um 1 erhöht.
Es werden nach Wörtern in der Kookkurrenztabelle gesucht, die die höchste Signifikanz haben aber keine Kookkurrenzen (untereinander) bilden. Sie bilden die erste Ebene des Kategorienbaumes. Für alle weiteren Ebenen des Kategorienbaumes werden nach und nach die ermittelten Wörter der ersten Ebene durchiteriert. Für jedes Wort werden die Wörter aus der Kookkurrenztabelle selektiert, die mit dem Wort Kookkurrenz stehen. Davon werden die Wörter selektiert, die eine überdurchschnittliche Häufigkeit haben. Diese Liste ist auf 20 begrenzt und nach Häufigkeit sortiert.
Für alle weiteren Ebenen werden analog ermittelt. Nur müssen auf der dritten Ebene die Kookkurrenzen zu beiden Wörtern bestehen, die im Kategorienbaum zur dritten Ebene führen.
Bei dem in Fig. 2 dargestellten Ausführungsbeispiel erfolgt die Erstellung eines erfindungsgemäßen Kategorienbaums über den Inhalt eines Datenbestandes wie anhand des Flussdiagramms ersichtlich wie folgt:
Aus allen Texten werden Wortmengen mit den 32 wenigsten Wörtern (die bedeutungstragenden) erstellt und jeweils in einer Datenbank hinterlegt. Dabei wird die Wortmenge in einer relationalen Datenbank in Form einer Wortliste abgespeichert, deren Wörter jeweils mit einer ID für die Wortmenge verknüpft sind. Aus diesen Wortmengen wird eine Wortliste erstellt, die angezeigt werden kann. Sie bildet die erste Ebene des Begriffsbaumes. Es ist möglich diese Wortliste nach Häufigkeit absteigend zu sortieren, so dass die wichtigsten Begriffe gleich zu Anfang stehen. Es kann vorkommen, dass Wörter mit gleicher Bedeutung aber unterschiedlichem Fall (Kasus) oder Beugung (Flexion) getrennte Kategorien bilden. Der Begriffsbaum kann daher im Anschluss für die Anzeige konsolidiert werden. Worte mit unterschiedlichen Endungen aber gleichen Stamm werden zu der kürzesten Variante zusammengefasst. Zwei Worte mit unterschiedlicher Länge werden jeweils verglichen, indem das längere Wort um zwei Buchstaben gekürzt wird. Das kürzere Wort wird dann auf die Länge des anderen Wortes gebracht und auf eine Übereinstimmung überprüft.
Es werden für jedes Wort der Wortliste Kookkurrenzen (gleichzeitiges Vorkommen) mit anderen Wörtern der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen zusammengestellt. Dazu werden die Worte der Wortliste durchiteriert. Jedes Wort wird mit den Wörtern einer jeden Wortmenge verglichen. Die Wortmengen werden ebenfalls durchiteriert. Beim Wort-für Wort-Vergleich werden auch Ähnlichkeiten wie oben beschrieben berücksichtigt. Stimmt eines der Worte überein, werden die übrigen Worte der Wortmenge zur Ergebnisliste hinzugefügt. Als Ergebnis entsteht für jedes Wort der ersten Wortliste eine weitere Wortliste, die wie oben beschrieben konsolidiert und als zweite Ebene des Baumes angezeigt werden kann. Es werden für jede Wort-Kombination innerhalb des Kategorienbaumes Kookkurrenzen mit anderen Worten der ersten Wortliste innerhalb von den Wortmengen zusammengestellt. In diesem Fall werden die Worte einer Wortmenge nur dann in einer Ergebnisliste übernommen, wenn beide Wörter in der beschriebenen Ähnlichkeit übereinstimmen. Die jeweiligen Ergebnisse bilden die dritte Ebene des Begriffsbaumes. Die Ergebnisliste kann wieder konsolidiert werden.
Für die vierte Ebene können die Wort-Kombinationen wieder als Ausgangspunkt gewählt werden.
Bei dem in Fig. 3 dargestellten Ausführungsbeispiel erfolgt die Erstellung eines erfindungsgemäßen Kategorienbaums über den Inhalt eines Datenbestandes wie anhand des Flussdiagramms ersichtlich wie folgt:
Aus jedem Text werden die 32 wenigsten Worte (die bedeutungstragenden) extrahiert und in einer Datenbank abgespeichert. Aus den Wortmengen wird eine Wortliste extrahiert, die die erste Ebene des Kategorienbaumes entspricht. Wie schon im ersten Verfahren beschrieben kann die Liste konsolidiert werden.
Im Anschluss wird die Wortliste durchiteriert und jedes Wort mit jeweils allen Wörtern, jeweils aller Wortmengen verglichen. Stimmen zwei Wörter einschließlich der Ähnlichkeitsüberprüfung überein, wird zwischen dem einen Wort und allen anderen der Wortmenge eine Verknüpfung mit der Gewichtung 0,1 hergestellt. Existiert diese Verknüpfung schon, wird die Gewichtung der Verknüpfung um 0,1 angehoben. Überschreitet der Wert 1 , wird er auf 0,9 zurückgesetzt und alle anderen Verknüpfungen auf einen Wert von 90 % herabgesetzt.
Für die zweite Ebene des Kategorienbaumes werden die Verknüpfungen selektiert, die zu einem Begriff der ersten Wortliste erstellt wurde. Diese Liste kann wieder nach Ähnlichkeit konsolidiert werden.
Für die dritte Ebene des Kategorienbaumes werden die Verknüpfungen selektiert, die sowohl mit dem ersten und zweiten Begriff verknüpft sind.
Für die vierte Ebene des Kategorienbaumes werden die Verknüpfungen selektiert, die sowohl mit dem ersten, zweiten und dritten Begriff verknüpft sind. Die in den Figuren der Zeichnung dargestellten und in Zusammenhang mit der Beschreibung erläuterten Ausführungsbeispiele der Erfindung dienen lediglich der Erläuterung der Erfindung und sind für diese nicht beschränkend.

Claims

Ansprüche: Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt eines Informationsobjekte umfassenden Datenbestandes, wobei die Informationsobjekte des Datenbestandes in einem Index indiziert sind, gekennzeichnet durch die folgenden Verfahrensschritte:
1. Herausfiltern von Stoppwörtern für jedes Informationsobjekt im Index anhand einer Liste;
2. Erstellen einer Wortliste in der herausgefilterte Stoppwörter nicht enthalten sind;
3. Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste;
4. Sortieren der Wortliste nach Signifikanz anhand des Signifikanzwertes;
5. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl (50);
6. Speichern der reduzierten Wortliste in einer Tabelle;
7. Ermitteln von Kookkurrenzen in der gespeicherten Wortliste;
8. Speichern der Kookkurrenzen in einer Datenbank;
9. Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) die die höchste Signifikanz haben, aber keine Kookkurrenzen untereinander bilden;
10. Selektion der ersten Ebene des Kategorienbaums aus den ermittelten Wörtern;
11. Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten Ebene die mit dem jeweils selektierten Wort der ersten Ebene in Kookkurrenz stehen;
12. Erstellen einer Wortliste aus den ermittelten Wörtern;
13. Ermitteln der Häufigkeit zu jedem Wort in der Wortliste;
14. Sortieren der Wortliste nach Häufigkeit;
15. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl (20), wobei die Wörter die eine überdurchschnittliche Häufigkeit aufweisen in der Wortliste verbleiben;
16. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Wörtern;
17. iterative Wiederholung der Verfahrensschritte 11. bis 16. für wenigstens eine weitere Ebene des Kategorienbaums, wobei in Verfahrensschritt 11. beim Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten und wenigstens einer weiteren Ebene die mit dem jeweils selektierten Wort der ersten und wenigstens einen weiteren Ebene in Kookkurrenz stehen ermittelt werden, bis die Menge der ermittelten Wörter gleich null ist.
2. Verfahren nach Anspruch 1 , wobei in Verfahrensschritt 3. beim Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste der Signifikanzwert aus dem Quotienten der Worthäufigkeit des Wortes innerhalb des Informationsobjektes und der Worthäufigkeit des Wortes innerhalb des gesamten Indexes bestimmt wird.
3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, dass die vorgebbare Maximaiäπzahi in Venahiensschritt 5 auf bis zu 50 beschränkt ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei in Verfahrensschritt 6. beim Speichern der reduzierten Wortliste in einer Tabelle Wörter in der Tabelle dem Signifikanzwert zugeordnet werden und in dem Fall, in dem der Signifikanzwert höher ist als der Signifikanzwert zu einem bestehenden Wort der höhere Signifikanzwert verwendet wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei in Verfahrensschritt 8. beim Speichern der Kookkurrenzen in einer Datenbank die Datenbank eine Tabelle von Kookkurrenzen (Wort 1 und Wort 2) mit einem Häufigkeitswert in einer Tabellenzeile umfasst und wobei der Häufigkeitswert um den Faktor 1 erhöht wird, wenn es eine Kookkurrenz (Wort 1 und Wort 2) in der Tabelle bereits gibt.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die vorgebbare Maximalanzahl in Verfahrensschritt 15. auf bis zu 20 beschränkt ist.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der erstellte Kategorienbaum zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.
8. Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes, gekennzeichnet durch die folgenden Verfahrensschritte:
1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Text des Datenbestandes;
2. Speichern der jeweiligen Wortmenge in einer relationalen Datenbank in Form einer Wortliste, wobei die Wörter jeweils mit einer Kennung für die jeweilige Wortmenge verknüpft werden;
3. Erstellen einer Wortliste aus den Wortmengen;
4. Selektion der ersten Ebene des Kategorienbaums aus den Wörtern der erstellten Wortliste;
5. Ermitteln von Kookkurrenzen für jedes Wort in der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;
6. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;
7. Selektion einer weiteren Ebene des Kategorienbaums aus den Wörtern der gespeicherten Wortliste;
8. Ermitteln von Kookkurrenzen für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kaiegυrieπbäurns mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;
9. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;
10. iterative Wiederholung der Verfahrensschritte 7. bis 9. für wenigstens eine weitere Ebene des Kategorienbaums, bis die Menge der in Verfahrensschritt 8. ermittelten Wörter für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kategorienbaums mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen gleich null ist.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.
10. Verfahren nach Anspruch 8 oder Anspruch 9, dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste nach Häufigkeit der jeweiligen Wörter absteigend sortiert wird.
11. Verfahren nach einem der Ansprüche 8 bis 10, wobei in Verfahrensschritt 5. beim Ermitteln von Kookkurrenzen in der gespeicherten Wortliste jedes Wort in der Wortliste nach und nach mit den Wörtern einer jeden Wortmenge verglichen wird.
12. Verfahren nach einem der Ansprüche 8 bis 11 , dadurch gekennzeichnet, dass die in Verfahrensschritt 6. gespeicherte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.
13. Verfahren nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, dass der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert wird, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.
14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.
15. Verfahren nach Anspruch 13 oder Anspruch 14, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.
16. Verfahren nach einem der Ansprüche 8 bis 15, dadurch gekennzeichnet, dass beim Ermitteln von Kookkurrenzen in Verfahrensschritt 5. und/oder in Verfahrensschritt 8. eine Ähnlichkeitsüberprüfung erfolgt, wobei Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.
17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.
18. Verfahren nach einem der Ansprüche 8 bis 17, dadurch gekennzeichnet, dass die vorgebbare Anzahl in Verfahrensschritt 1 auf bis zu 32 beschränkt ist.
19. Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes, gekennzeichnet durch die folgenden Verfahrensschritte:
1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Text des Datenbestandes;
2. Speichern der jeweiligen Wortmenge in einer relationalen Datenbank in Form einer Wortliste, wobei die Wörter jeweils mit einer Kennung für die jeweilige Wortmenge verknüpft werden;
3. Erstellen einer Wortliste aus den Wortmengen;
4. Selektion der ersten Ebene des Kategorienbaums aus den Wörtern der erstellten Wortliste;
5. Vergleichen von jedem Wort in der Wortliste mit jedem Wort innerhalb der in der Datenbank gespeicherten Wortmengen, wobei überprüft wird, ob zwei Wörter übereinstimmen und/oder eine gewisse Mindestähnlichkeit zueinander aufweisen und wobei bei Übereinstimmung und/oder gegebener Mindestähnlichkeit zwischen dem einen Wort und allen anderen Wörtern der Wortmengen eine gewichtetc Verknüpfung rr.it der Gewichtung 0,1 hergestellt wird, wobei bei schon existierender Verknüpfung die Gewichtung der Verknüpfung um 0,1 angehoben wird und wobei bei Überschreitung einer Gewichtung von 1 ,0 die Gewichtung auf 0,9 zurückgesetzt und alle anderen Verknüpfungen auf einen Wert von 90 % herabgesetzt werden;
6. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste
7. Speichern der Verknüpfungen in einer Wortliste;
8. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Verknüpfungen und/oder der gespeicherten Wortliste;
9. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste und wenigstens einer gespeicherten Wortliste;
10. Speichern der Verknüpfungen in einer Wortliste;
11. iterative Wiederholung der Verfahrensschritte 8. bis 10. für wenigstens eine weitere Ebene des Kategorienbaums, bis die Menge der in Verfahrensschritt 9. ermittelten Verknüpfungen gleich null ist.
20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.
21. Verfahren nach Anspruch 19 oder Anspruch 20, dadurch gekennzeichnet, dass der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert wird, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.
22. Verfahren nach Anspruch 21 , dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.
23. Verfahren nach Anspruch 21 oder Anspruch 22, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.
24. Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, dadurch gekennzeichnet, dass dieses ausgebildet und/oder eingerichtet ist ein Verfahren nach einem der Ansprüche 1 bis 23 zumindest teilweise auszuführen.
25. Datenverarbeitungssystem nach Anspruch 24, gekennzeichnet durch eine graphische Benutzerschnittstelle zur Eingabe und/oder Wiedergabe von Wortlisten, Verknüpfungen und/oder wenigstens einer Ebene wenigstens eines Kategorienbaums.
26. Datenverarbeitungssystem nach Anspruch 25, dadurch gekennzeichnet, dass die graphische Benutzerschnittstelle weiter zur Eingabe, Änderung und/oder Wiedergabe von Informationen repräsentierenden Daten in wenigstens einem Datenbestand ausgebildet und/oder eingerichtet ist.
27. Datenverarbeitungssystem nach einem der Ansprüche 24 bis 26, dadurch gekennzeichnet, dass die Wiedergabe zumindest teilweise in auswählbarer Form erfolgt.
28. Datenverarbeitungssystem nach einem der Ansprüche 24 bis 27, dadurch gekennzeichnet, dass dieses Bestandteil einer Datenbankanwendung ist oder zumindest zusammen mit einer Datenbankanwendung nutzbar ist.
29. Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, dadurch gekennzeichnet, dass diese ausgebildet und/oder eingerichtet ist ein Verfahren nach einem der Ansprüche 1 bis 23 zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines Datenverarbeitungssystems nach einem der Ansprüche 24 bis 28.
30. Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, gekennzeichnet durch eine zumindest teilweise gegebene Nutzung eines Datenverarbeitungssystems nach einem der Ansprüche 24 bis 28.
31. Datenverarbeitungsvorrichtung nach Anspruch 29 oder Anspruch 30, dadurch gekennzeichnet, dass diese als mobiles Endgerät ausgebildet ist, vorzugsweise als ein in Mobilfunknetzen nutzbares beziehungsweise betreibbares mobiles Endgerät, besonders bevorzugt als ein Mobilfunktelefon.
PCT/EP2008/003723 2008-05-08 2008-05-08 Erstellung eines kategorienbaums über den inhalt eines datenbestandes WO2009135511A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/EP2008/003723 WO2009135511A1 (de) 2008-05-08 2008-05-08 Erstellung eines kategorienbaums über den inhalt eines datenbestandes
EP08758423A EP2277116A1 (de) 2008-05-08 2008-05-08 Erstellung eines kategorienbaums über den inhalt eines datenbestandes
US12/941,818 US8745069B2 (en) 2008-05-08 2010-11-08 Creation of a category tree with respect to the contents of a data stock

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2008/003723 WO2009135511A1 (de) 2008-05-08 2008-05-08 Erstellung eines kategorienbaums über den inhalt eines datenbestandes

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/941,818 Continuation US8745069B2 (en) 2008-05-08 2010-11-08 Creation of a category tree with respect to the contents of a data stock

Publications (1)

Publication Number Publication Date
WO2009135511A1 true WO2009135511A1 (de) 2009-11-12

Family

ID=40010800

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2008/003723 WO2009135511A1 (de) 2008-05-08 2008-05-08 Erstellung eines kategorienbaums über den inhalt eines datenbestandes

Country Status (3)

Country Link
US (1) US8745069B2 (de)
EP (1) EP2277116A1 (de)
WO (1) WO2009135511A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012109096A1 (de) 2012-09-26 2014-03-27 Iqser Ip Ag Verfahren zur sequenziellen Bereitstellung von personalisierte Informationen repräsentierenden Daten, insbesondere in Form von Videos und dergleichen, insbesondere für ein personalisiertes Fernsehprogramm

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411962B1 (en) * 1999-11-29 2002-06-25 Xerox Corporation Systems and methods for organizing text

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999959B1 (en) * 1997-10-10 2006-02-14 Nec Laboratories America, Inc. Meta search engine
US7047242B1 (en) * 1999-03-31 2006-05-16 Verizon Laboratories Inc. Weighted term ranking for on-line query tool
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US7280957B2 (en) * 2002-12-16 2007-10-09 Palo Alto Research Center, Incorporated Method and apparatus for generating overview information for hierarchically related information
WO2005050471A2 (de) 2003-11-22 2005-06-02 Wurzer Joerg Datenverarbeitungssystem und -vorrichtung
US7337412B2 (en) * 2003-12-15 2008-02-26 International Business Machines Corporation Methods, systems and computer program products for providing multi-dimensional tree diagram graphical user interfaces
US7698267B2 (en) * 2004-08-27 2010-04-13 The Regents Of The University Of California Searching digital information and databases
US7865495B1 (en) * 2004-10-06 2011-01-04 Shopzilla, Inc. Word deletion for searches
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
WO2009030246A1 (de) * 2007-09-03 2009-03-12 Iqser Ip Ag Erfassung von zusammenhängen zwischen informationen repräsentierenden daten

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411962B1 (en) * 1999-11-29 2002-06-25 Xerox Corporation Systems and methods for organizing text

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2277116A1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012109096A1 (de) 2012-09-26 2014-03-27 Iqser Ip Ag Verfahren zur sequenziellen Bereitstellung von personalisierte Informationen repräsentierenden Daten, insbesondere in Form von Videos und dergleichen, insbesondere für ein personalisiertes Fernsehprogramm
WO2014049057A1 (de) 2012-09-26 2014-04-03 Iqser Ip Ag Verfahren und system zur sequenziellen bereitstellung von personalisierte informationen repräsentierenden daten, insbesondere in form von videos oder dergleichen, insbesondere für ein personalisiertes fernsehprogramm

Also Published As

Publication number Publication date
EP2277116A1 (de) 2011-01-26
US8745069B2 (en) 2014-06-03
US20110113043A1 (en) 2011-05-12

Similar Documents

Publication Publication Date Title
DE69433165T2 (de) Assoziatives textsuch- und wiederauffindungssystem
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
EP2188742A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
WO2006018041A1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
EP2193456A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
DE10028624A1 (de) Verfahren und Vorrichtung zur Dokumentenbeschaffung
EP2221735A2 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
EP2193455A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP1685505B1 (de) Datenverarbeitungssystem
WO2009135511A1 (de) Erstellung eines kategorienbaums über den inhalt eines datenbestandes
DE10218905A1 (de) Verfahren und Vorrichtung zur Zugriffssteuerung in Wissensnetzen
EP2193457A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP1412875A2 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
WO2005116867A1 (de) Verfahren und system zur automatisierten erzeugung von computergestützten steuerungs- und analysevorrichtungen
WO2012025439A1 (de) Verfahren zum suchen in einer vielzahl von datensätzen und suchmaschine
EP4133384A1 (de) Verfahren und computersystem zur bestimmung der relevanz eines textes
DE69132678T2 (de) Ein textverwaltungssystem
DE102006043158A1 (de) Verfahren zum Ermitteln von Elementen eines einer Suchanfrage zugeordneten Suchergebnisses in einer Reihenfolge und Suchmaschine
DE60106209T2 (de) Prozess zum Extrahieren von Schlüsselwörtern
DE10331817A1 (de) Computergestütztes Verfahren zur automatischen Abfrage von Informationen aus als sematisches Netz strukturierten Datenbanken
WO2011044864A1 (de) Verfahren und system zum klassifizieren von objekten
DE102009028601A1 (de) Elektronisches Recherchensystem
DE10229598A1 (de) Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08758423

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2008758423

Country of ref document: EP