WO1997004406A1

WO1997004406A1 - Verfahren zur erzeugung von deskriptoren für die klassifikation von texten

Info

Publication number: WO1997004406A1
Application number: PCT/EP1996/002620
Authority: WO
Inventors: Ingrid Renz
Original assignee: Daimler Benz Ag
Priority date: 1995-07-19
Filing date: 1996-06-18
Publication date: 1997-02-06
Also published as: DE19526264A1; US6038527A; CA2200334A1; EP0792492A1

Abstract

Das vorgeschlagene Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten sieht eine Zerlegung von komplexeren Wortformen durch Abgleich mit der Gesamtheit von innerhalb einer Trainingstext-Sammlung auftretenden Wortformen vor. Für die vorzugsweise zyklisch fortgesetzte Zerlegung ist ebenso wie für die begleitende Aufstellung von Stopwort-Präfix- und Suffixlisten keine morphologische oder linguistische Wissensbasis erforderlich. Einfaches morphologisches Wissen wird eingebracht durch Vorgabe von Mindestanforderungen an die Form von Deskriptoren und Textteilen. Das Verfahren ist besonders flexibel und leicht an neue Einsatzgebiete anpaßbar. Das Verfahren ist zudem sehr fehlertolerant und damit besonders geeignet für die Klassifikation von digitalisierten Texten, die mittels Zeichenerkennungsverfahren aus geschriebenen Texten oder mittels Spracherkennungsverfahren aus gesprochenen Texten gewonnen sind.

Description

Beschreibung

Verfahren zur Erzeugung von Deskriptoren für die Klassi¬ fikation von Texten

Die Erfindung betrifft ein Verfahren zur Erzeugung von De- skriptoren für die Klassifikation von natürlichsprachli- chen Texten .

Die Klassifikation eines Textes stellt eine Zuordnung zu einer bestimmten Textklasse dar und bildet einen wichtigen Vorverarbeitungsschritt für die automatische Weiterverar¬ beitung von Texten . Insbesondere für die automatische Tex¬ tinterpretation ist eine vorausgehende Klassifikation von erheblicher Bedeutung , da hierdurch der Aufwand für die bereitzuhaltende Wissenbasis , wie z . B . Lexikon-Speicher , syntaktische und semantische Struktur- definition, erheblich eingeschränkt und die Erkennungslei- stung stark erhöht werden kann.

Die Textklassifikation läßt sich grob in zwei Schritte, nämlich die Extraktion von Deskriptoren und die darauf ba¬ sierende Klassenzuordnung einteilen. Wesentliche Bedeutung kommt der Auswahl der Deskriptoren zu. Diese ist insbeson¬ dere bei natürlichsprachlichen Texten mit einer Vielfalt von Wortformen problematisch.

Für Texte in der eine geringe morphologische Variation zeigenden englischen Sprache ist in "Feature Selection and Feature Extraction for Text Categorization" von D. Lewis in Proc. of Speech and Natural Language Workshop 1992 die Verwendung vollständiger Wortformen oder Phrasen vorge¬ schlagen. Für Klassifikationsaufgaben in morphologisch reicheren Sprachen können Wortteile als Deskriptoren ver¬ wandt werden, wobei z.B. in "N-Gram-Based Text Categoriza¬ tion" von Canvar/Trenkle in Proc. of Int. Symp. on Docu- ment Analysis and Information Retrieval 1994 die Textzer¬ legung in n-Grame oder in "Using IR Techniques for Text Classification in Document Analysis" von R. Hoch in Proc. of SIGIR, 1994 eine Reduktion auf Grundformen vorgenommen wird.

Während die n-Gram-Zerlegung zu einer sehr hohen Zahl von Deskriptoren führt, erfordert die Reduktion auf Grundfor¬ men eine aufwendige Analyse zur Erstellung der benötigten Wissensbasis. Die bekannten Verfahren sind zudem anfällig gegen Fehler in den untersuchten Texten, wie Schreibfehler oder Erkennungsfehler bei der Zeichenerkennung oder Spracherkennung. Der vorliegenden Erfindung liegt die Aufgabe zugrunde , ein Verfahren zur Erzeugung von Deskriptoren anzugeben, wel¬ ches auf einfache Weise auf der Basis von Trainingstexten eine für die Klassifikation geeignete Menge von Deskripto¬ ren erzeugt.

Die Erfindung ist im Patentanspruch 1 beschrieben . Die Un¬ teransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung .

Der besondere Vorteil der Erfindung liegt darin, daß keine oder nur einfache Wissensvorgaben gebraucht werden und das Verfahren damit leicht in neuen Anwendungsgebieten ein- setzbar ist . Als einfache Wissensvorgabe sieht z .B. eine vorteilhafte Ausführung eine morphologisch basierte Ein¬ schränkung bezüglich bei der Zerlegung entstehender Wort¬ teile vor. Das erfindungsgemäße Verfahren berücksichtigt insbesondere auch signifikante Schreib- oder Erkennungs- fehler in relevanten Deskriptoren unter der Annahme, daß solche Fehler in den Trainingstexten und den später zu klassifizierenden Texten im gleichen Maße auftreten.

Vorzugsweise wird die Zerlegung wiederholt durchgeführt , wobei die in einem Belegungszyklus verbleibenden Wortteile im folgenden Zerlegungszyklus wie Wortformen behandelt werden. Die nach der ggf . mehrfachen Zerlegung vorliegen¬ den Wortformen und Wortteile können noch durch Flexion oder Affixe entstandene verschiedene Varianten von einfa- cheren Grundformen enthalten . Durch Abtrennen von Präfixen und Suffixen (einschließlich Flexiven) kann die Vielfalt der Wortformen weiter reduziert, d . h . die Anzahl der De- skriptoren verringert werden. Die Präfix und Suffixe wer¬ den vorzugsweise statistisch aus den Wortformen der Trai¬ ningstexte als häufig auftretende und damit unterschei¬ dungsschwache Wortanfänge und Wortenden definiert.

Von besonderem Vorteil ist auch eine Vorgabe sogenannter Stopwörter. Hierunter werden besonders häufig vorkommende unterscheidungsschwache Wortformen wie z.B. bestimmte und unbestimmte Artikel, Präpositionen, Pronomen, Bindewörter etc. verstanden. Solche Stopwörter werden vorzugsweise durch statistische Verfahren aus den Trainingstexten als besonders häufig auftretende Wortformen bestimmt. Alterna¬ tiv oder zusätzlich können die Stopwörter auch vollständig oder teilweise unabhängig von den Trainingstexten vorgege- ben werden. Die Stopwörter bleiben bei der Erzeugung der Deskriptoren von Anfang an unberücksichtigt, gelten also insbesondere bei der Zerlegung nicht als Wortformen.

Zur Vereinfachung des Klassifikators kann die Deskrip- torenliste auf die Deskriptoren eingeschränkt werden, de¬ ren Häufigkeit in den Trainingstexten eine vorgebbare Häufigkeitsschwelle überschreitet.

Die Texte sind vorteilhafterweise bereits auf Anwendungs- gebiete wie z.B. Geschäftsbriefe, Wirtschaftsmeldungen, wissenschaftliche Berichte etc. eingeschränkt. In dem An¬ wendungsgebiet Geschäftsbriefe können dann z.B. Text- klassen wie Bestellung, Angebot, Rechnung etc. differen¬ ziert werden.

Die Erfindung ist nachfolgend anhand von durch Abtasten geschriebener Dokumente mittels optischer Zeichenerken- nungssysteme (OCR) digitalisierten Texten noch weiter ver¬ anschaulicht .

Aus den Dokumenten einer Sammlung von z . B. 600 Training- stexten werden alle vorkommenden Wortformen einschließlich ihrer Häufigkeit in der Gesamtheit der Trainingstexte er¬ mittelt . Die am häuf igsten auftretenden Wortformen werden als Stopwörter in eine Stopwortliste aufgenommen . Bei¬ spielsweise wird die Stopwortliste mit den 100-300 Wort- formen aufgebaut , die am häufigsten in der Trainingstext¬ sammlung vertreten sind . Die so erzeugte Stopwortliste ist durch den rein statistschen Ansatz der Ableitung aus den Trainingεtexten spez ifisch für die Sprache und das Themen¬ gebiet der Trainingstexte . Sie enthält insbesondere auch OCR-typische Fehler als Stopwortvarianten wie z . B. "dio" neben "die" oder " fiir" neben "für" . Durch den statisti¬ schen Ansatz können auch sehr häufig auftretende aussage¬ kräftige Wortformen als Stopwörter ausgewiesen werden , die dann bei der Klassifikation nicht mehr zur Verfügung ste- hen. Anstelle der Vorgabe einer Anzahl von Stopwörtern zum Aufbau der Stopwortl iste kann daher auch eine Schwelle für eine relative Mindesthäufigkeit oder, vor allem für Trai- ningstext-Sammlungen kleineren Umfangs , eine obere Schranke , beispielsweise 1 , 5% aller in den Trainingstexten auftretenden Wortformen , für die Mächtigkeit der Stopwort¬ liste vorgegeben werden . Zusätzlich oder alternativ können auch Stopwörter , z . B . Artikel , Präpositionen etc . fest vorgegeben werden . Für die Weiterverarbeitung werden nur noch Wortformen berücksichtigt , die nicht in der Stopwor- tliste enthalten sind . Insbesondere durch Zeichenerkennungsfehler bei der Digita¬ lisierung von Texten können Zeichenkombinationen auftre¬ ten , die als Deskriptoren nicht geeignet sind . Sinnvoller¬ weise werden daher Mindestanforderungen an die Struktur von Deskriptoren vorgegeben . Vorteilhaft sind insbesondere Anforderungen wie ein Deskriptor muß mindestens 3 Buchstaben umfassen ein Deskriptor muß mindestens einen Vokal enthalten

wobei wiederum als ein Buchstabe in diesem Sinne auch ein Bindestrich und Zeichengruppen wie qu , ch , ie, ph gelten können.

Im Text vor oder nach Ausschluß der Stopwörter vorhandene Zeichengruppen , die diese Mindestanforderungen nicht er¬ füllen, können auch durch die nachfolgenden Verarbeitungs- schritte des erfindungsgemäßen Verfahrens nicht zu ge¬ eigneten Deskriptoren werden, könnten aber bei der Zerle¬ gung komplexer Wortformen zu unbrauchbaren Ergebnissen führen. Einzelzeichen oder Zeichengruppen im Text, die diese Mindestanforderungen nicht erfüllen , bleiben daher für die weitere Verarbeitung unberücksichtigt .

Aus den weiterzuverarbeitenden Wortformen werden mit sta- tistischen Methoden häufig auftretende Wortanfänge (Prä¬ fixe) und Wortenden (Suffixe) ermittelt und als kennzeich¬ nungsschwache Präfixe und Suffixe in Listen eingetragen . Die Ableitung solcher Präfixe und Suffixe ist Stand der Technik und z . B. aus "Experimentelle Morphologie in der Informationswissenschaft" , München 1977 , von R . Kuhlen be¬ kannt . In den Suffixen mit eingeschlossen sind hierbei auch Flexive . Auf der Grundlage der verbleibenden Textteile wird die er¬ findungswesentliche Zerlegung von Wortformen durchgeführt . Das Hauptziel ist die Gewinnung einer gegenüber der Anzahl der verschiedenen Wortformen verringerten Anzahl von für die Klassifikation aussagekräftigen Deskriptoren. Bei der Zerlegung wird überprüft , ob kürzere Wort formen in länge¬ ren Wortformen enthalten sind . Zutreffendenfalls wird eine längere Wortform zerlegt in die darin enthaltene kürzere Wortform und mindestens einen verbleibenden Wortteil . Vor¬ zugsweise wird zusätzlich überprüft , ob bei der Zerlegung ein Wortteil entsteht, der als Deskriptor nicht geeignet ist , beispielsweise unter Zugrundelegung derselben Min¬ destanforderungen wie vorstehend bereits genannt. Eine Zerlegung, die einen in diesem Sinne ungeeigneten Wortteil ergäbe , wird nicht durchgeführt , die längere Wortform wird beibehalten . Ein bei einer zulässigen Zerlegung verblei¬ bender Wortteil kann mit einer bereits vorhandenen Wort¬ form identisch sein oder wird als neue Wortform aufgenom- men und in den zyklisch fortgesetzten Abgleich der Wort¬ formen mit eingeschlossen. Der Abgleich wird vorzugsweise solange fortgeführt, bis keine weitere Zerlegung mehr mög¬ lich ist .

Von den nach der Zerlegung vorliegenden Wortformen und Wortteilen werden die in den Präfix- und Suffix-Listen enthaltenen Anfangs- bzw. End-Zeichenf olgen abgetrennt . Hierdurch können vor allem verschiedene Variationsformen von Stammwörtern auf ihren Wortstamm reduziert und in die- sem zusammengefaßt werden. Auch bei der Abtrennung von

Suffixen und Präfixen wird vorteilhafterweise ein Rahmen gesetzt für zulässige Abtrennungen durch Vorgabe von Min- destanforderungen an die nach der Abtrennung verbleibenden Wortteile , z . B . die beim anfanglichen Ausschluß ungeeigne¬ ter Zeichenfolgen genannten Einschränkungen für Deskripto¬ ren . Die nach Zerlegung und Abtrennung verbleibenden Zei- chenfolgen (Wortformen und Wortteile) werden als geeignete Deskriptoren betrachtet und weiterverwandt . Die Abtrennung von Präfixen und Suffixen muß nicht auf den Verfahrensab¬ schnitt nach Abschluß aller Zerlegungen beschrankt sein, sondern kann alternativ oder zusatzlich auch in Zwischen- Stadien vorgenommen werden . Die Reduktion der Wortformen durch Zerlegung oder Abtrennung erfordert kein oder mit der Vorgabe von Mindestanforderungen nur ein sehr einfa¬ ches morphologisches Wissen . Dies führt dazu , daß im gram¬ matischen Sinne falsche Zerlegungen und Abtrennungen zu- lässig sind und im Regelfall auch auftreten . In den ver¬ bleibenden Wortformen oder Wortteile ist daher häufig kein Wortstamm erkennbar. Sie können auch wieder die Form von anfanglich ausgeschlossenen Stopwörtern annehmen . Auch diese Wortrumpfe εind gleichwohl als Deskriptoren ge- eignet , da sie durch Ableitung aus den Trainingstexten als spezifisch für die die Trainingstexte bildenden Texttypen sind und sowohl beim Training des Klassifikators als auch bei der Klassifikation unbekannter Texte in gleicher Weise wirken .

Der Aufwand für den Klassifikator kann weiter deutlich verringert werden , indem für die in der beschriebenen Weise ermittelten Deskriptoren ein Schwellwert für die Häufigkeit ihres Auftretens vorgeben wird und nur solche Deskriptoren für den Klassifikator weiterverwandt werden, deren Auftretenshaufigkeit den Schwellwert erreicht oder überschreitet . Der Schwellwert kann fest , z . B . mit Häufig- keit 4, oder relativ vorgegeben werden oder durch die Maß¬ gabe, nur eine bestimmte Anzahl oder einen bestimmten Prozentsatz der in den Trainingstexten häufigsten Deskrip¬ toren auszuwählen, indirekt bestimmt sein.

Die Erfindung ist nicht auf die Ausführungen gemäß den vorstehenden detaillierten Erläuterungen beschränkt. Ab¬ wandlungen sind dem Fachmann durch sein Fachwissen im Rah¬ men der Erfindung möglich. Insbesondere sind die Parameter bei der statistischen Zusammenstellung der Stopwortliste und der Präfix- und Suffix-Listen sowie bei der Vorgabe der Mindestanforderungen an die Deskriptoren Veränderungen zugänglich und erlauben hierbei in begrenztem Umfang auch noch durch Einstellung dieser Parameter eine weitere Opti- mierung des Verfahrens nach den Bedingungen spezieller An¬ wendungen. Ferner ist die Erfindung auch in Verbindung mit bekannten Verfahren zur Erzeugung von Deskriptoren ein¬ setzbar. Die Texte müssen nicht als schriftliche Dokumente vorliegen, sondern können insbesondere auch gesprochene oder elektronisch übermittelte Texte sein.

Die Liste der weiterzuverwendenden Deskriptoren und die Stopwortliste bilden die Grundlage für die nachfolgende Textklassifikation sowohl in der Trainingsphase des Klas- sifikators als auch in der Klassifikation unbekannter

Texte. Klassifikatoren sind allgemein aus dem Stand der Technik bekannt.

Hierzu werden in den zu klassifizierenden Texten durch Ab- gleich mit der Stopwortliste alle Stopwörter gelöscht bzw. bleiben für das weitere Vorgehen unberücksichtigt. Der von Stopwörtern befreite Text wird mit der Deskriptorenliste verglichen. Dabei werden z . B . alle Wort formen, bei denen Deskriptoren als Wortteile vorkommen , durch die jeweiligen Deskriptoren ersetzt. Wort formen , die nicht durch Deskrip¬ toren ersetzt werden können , werden ebenfalls gelöscht . Daraus ergeben sich zwar für Menschen unlesbare, aber für den Klassifikator gut geeignete Deskriptorentexte . Diese Deskriptorentexte bzw. daraus gewonnene statistische Aus¬ sagen über das Auftreten von Deskriptoren werden zur ei¬ gentlichen Klassifikation benutzt .

Eine äquivalente Vorgehensweise nach dem Löschen der Stopwörter in dem zu klassifizierenden Text ist z . B. die Durchsuchung eines Textes auf der Basis der Deskriptoren- liste und die statistische Erfassung der Auftretenshäufig- keit oder allein das Vorhandensein einzelner Deskriptoren . Für den Klassifikator sind eine Vielzahl geeigneter Aus¬ bildungen aus dem Stand der Technik bekannt . Vorteilhaf¬ terweise eignen sich die nach der Erfindung erzeugten De¬ skriptoren besonders für die vergleichsweise aufwandsarmen statistischen Klassifikationsverf ahren .

Die Erfindung ist nachfolgend anhand zweier Beispiele noch weiter veranschaulicht . Für ein erstes , der Übersichtlich¬ keit halber konstruiertes Beispiel für eine Trainingstext- Sammlung geringen Umfangs , wird nach Löschen von Stopwör¬ tern und von Zeichenfolgen , die die bereits beispielhaft genannten Mindestanforderungen ( 1 Vokal , 3 Buchstaben ) nicht erfüllen von einer kurzen Liste in den Trainingstex¬ ten noch enthaltener Wortformen

glasf aser-lichtleitern rechnerkerns halbleitern halbleiters glaskerns rechner leiters ausgegangen. Aus diesen seien in an sich bekannter Weise keine Präfixe, aber Suffixe s, n, ter er abgeleitet, die in einer Suffixliste abgelegt werden.

In zyklisch wiederholten Zerlegungsschritten wird ein Ab¬ gleich innerhalb der gültigen Wortformliste dahingehend durchgeführt, daß eine längere Wortform, die eine (oder mehrere) kürzere Wortformen enthält, in diese kürzere Wortform und einen oder mehrere verbleibende Wortteile aufgespalten wird, sofern die verbleibenden Wortteile ebenfalls die Mindestanforderungen erfüllen. Diese ver¬ bleibenden Wortteile werden als neue Wortformen für die weiteren Verarbeitungsschritte behandelt. Nach dem 1. Zer¬ legungsschritt ergibt sich als neue Wortformliste;

glasfaser-lichtleitern halbleitern glaskerns leiters rechner kerns halb

Die Möglichkeit weiterer Zerlegung wird erneut geprüft und nach dem 2. Zerlegungsschritt ergibt sich die Wortformli¬ ste glasfaser-lichtleitern leitern leiters rechner kerns halb glas

In entsprechender Weise nach dem 3. Zerlegungsschritt

leitern leiters rechner faser kerns licht halb glas

Diese Wortformen sind nicht weiter durch Abgleich zerleg¬ bar, so daß die zyklische Zerlegung abgeschlossen ist. Von diesen Wortformen werden die in der Suffixliste abgelegten Suffixformen, wiederum unter Beachtung der genannten Min¬ destanforderungen, sukzessive abgetrennt, so daß als De- skriptoren lei (26) halb (18) rechn (2) fas (2) gla (2) ker (2) licht (1) verbleiben, wobei die Zahlen in Klammern die Häufigkeit der einzelnen Deskriptoren in der Gesamtheit der Training- εtexte angeben. Wenn als Mindesthäufigkeit für aussagekräftige Deskriptoren zweimaliges Auftreten vorge¬ geben sei, wird der nur einmal auftretende Deskriptor "licht" nicht weiter zur Klassifikation benutzt.

Für ein zweites einem realen Fall entnommenes Beispiel, welches die Reduktion eines unbekannten zu klassifizieren¬ den Textes anhand einer zuvor aus einer Trainingstext- Sammlung bestimmten Deskriptorliste zeigt, wird ausgegan¬ gen von einem Auszug aus einem mittels OCR digitalisierten Text eines wissenschaftlichen Kurzberichts:

Es werden Versuche beschrieben, durch Mischungen eines Bleiglase; mit Ti 02 in untersch ied 7 i chen Verhäl tn i ssen sowi e durch E i nsatz verscsSI i edener PbO-TiO-SiO-Al O-Systeme zu Siebdruckpasten mit auskristal tisierbaren z 2 2 3 dielektrischen Komponenten zu gelangen. Neben der Erprobung der

Der digitalisierte Text ist durchsetzt von bei der OCR- Verarbeitung entstandenen Erkennungsfehlern. In üblicher Weise werden zuerst die in einer Stopwortliste enthaltenen

Stopwörter (wie z.B. "es", "werden", "beschrieben", "durch", "eines", "mit" etc.) gelöscht. Die Löschung der die Mindestanforderung an Deskriptoren nicht erfüllenden Zeichenfolgen ist zweckmäßig, aber nicht zwingend. Danach wird durch einfachen Zeichenfolgenvergleich der Text auf die darin enthaltenen Deskriptoren reduziert. Die in die¬ sem realen Beispiel bestimmte Deskriptorenliste ist wegen ihres Umfangs und ihrer Unanschaulichkeit hier nicht im Detail angegeben.

Es ergibt sich ein Deskriptorentext

such misch blei las häl sen atz ssi tio sio ystem sieb pas kri tis bar diel tri mpo ent gel neb bun

der für einen menschlichen Betrachter keinen Sinn mehr er- gibt, für die automatische Klassifikation jedoch aus¬ reicht.

Während im ersten, konstruierten Beispiel der Anschaulich¬ keit halber in den Deskriptoren noch Ähnlichkeiten zu den zugrundeliegenden Wortstämmen zu erkennen sind, erscheinen im realen Fall die Deskriptoren häufig ohne Beziehung zu Begriffsinhalten zu sein. Dies verdeutlicht den Unter¬ schied der im wesentlichen statistischen und für die auto¬ matische Bearbeitung vorteilhaften Vorgehensweise gegen- über einer Textanalyse auf linguistischer Wissenbasis.

Die Fähigkeit, auch stark fehlerhafte Texte wie im gegebe¬ nen Beispiel zu klassifizieren, verdeutlicht die hohe Feh¬ lertoleranz des erfindungsgemaßen Verfahrens.

Claims

Patentansprüche

1. Verfahren zur Klassifikation eines natürlichsprachli- chen Textes anhand von Deskriptoren, die in einer Trai- ningsphase auf der Basis einer Mehrzahl von in Wörter seg- mentierten Trainingstexten gewonnen werden, dadurch ge- kennzeichnet, daß bei der Gewinnung der Deskriptoren eine Zerlegung von im Text auftretenden Wortformen in der Weise vorgenommen wird, daß längere Wortformen, die kürzere im Text auftretende Wortformen enthalten., in die kürzeren Wortformen und gegebenenfalls verbleibende Wortteile zer- legt werden, und daß die Deskriptoren aus den nach der

Zerlegung verbleibenden Wortformen und Wortteilen gebildet werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zerlegung wiederholt durchgeführt wird, wobei die in zurückliegenden Zerlegungszyklen gebildeten Wortteile wie im Text auftretende Wortformen behandelt werden, und daß die Deskriptoren aus den nach den letzten Zerlegungszyklus verbleibenden Wortformen und Wortteilen gebildet werden.

3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch ge¬ kennzeichnet, daß bei der Bildung der Deskriptoren aus den verbleibenden Wortformen und Wortteilen Suffixe und Prä¬ fixe von diesen abgetrennt werden.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Suffixe und Präfixe aus den in den Trainingstexten auftretenden Wortformen statistisch ermittelt werden.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß Mindestanforderungen an die Struktur von Deskriptoren vorgegeben werden und Zerlegungen und Ab¬ trennungen nicht vorgenommen werden, die zu Wortteilen führen, welche die Mindestanforderungen nicht erfüllen.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß eine Stopwortliste vorgegeben wird und darin enthaltene Wortformen im Text unberücksichtigt blei¬ ben.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Wortformen der Stopwortliste aus den Trainingstexten als die dort am häufigsten auftretenden Wortformen stati¬ stisch ermittelt werden.

8. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß für die Deskriptoren eine Hau- figkeitsschwelle vorgegeben wird und nur die Deskriptoren weiter verwandt werden, deren Häufigkeit in den Training- stexten die Schwelle übersteigt.