WO1997004406A1 - Verfahren zur erzeugung von deskriptoren für die klassifikation von texten - Google Patents

Verfahren zur erzeugung von deskriptoren für die klassifikation von texten Download PDF

Info

Publication number
WO1997004406A1
WO1997004406A1 PCT/EP1996/002620 EP9602620W WO9704406A1 WO 1997004406 A1 WO1997004406 A1 WO 1997004406A1 EP 9602620 W EP9602620 W EP 9602620W WO 9704406 A1 WO9704406 A1 WO 9704406A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
descriptors
text
word forms
forms
Prior art date
Application number
PCT/EP1996/002620
Other languages
English (en)
French (fr)
Inventor
Ingrid Renz
Original Assignee
Daimler Benz Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler Benz Ag filed Critical Daimler Benz Ag
Priority to US08/809,080 priority Critical patent/US6038527A/en
Priority to EP96922825A priority patent/EP0792492A1/de
Publication of WO1997004406A1 publication Critical patent/WO1997004406A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the invention relates to a method for generating descriptors for the classification of natural language texts.
  • the classification of a text represents an assignment to a specific text class and forms an important preprocessing step for the automatic further processing of texts.
  • a previous classification is of considerable importance, in particular for automatic text interpretation, since this means that the effort for the knowledge base to be kept available, such as B. Lexicon memory, syntactic and semantic structure definition, significantly restricted and the recognition performance can be increased significantly.
  • the text classification can be roughly divided into two steps, namely the extraction of descriptors and the class assignment based thereon.
  • the selection of the descriptors is of crucial importance. This is particularly problematic with natural language texts with a variety of word forms.
  • the present invention is based on the object of specifying a method for generating descriptors which, in a simple manner, generates a set of descriptors suitable for classification on the basis of training texts.
  • the particular advantage of the invention lies in the fact that no or only simple knowledge specifications are used and the method can thus be easily used in new fields of application.
  • an advantageous embodiment proposes a morphologically based restriction with regard to word parts that arise during the decomposition.
  • the method according to the invention also takes into account significant spelling or recognition errors in relevant descriptors, on the assumption that such errors occur to the same extent in the training texts and in the texts to be classified later.
  • the decomposition is preferably carried out repeatedly, the parts of the word remaining in an occupancy cycle being treated like word forms in the following decomposition cycle.
  • the after the Multiple decomposition of the word forms and parts of words that are present can also contain different variants of simple basic forms created by inflection or affixes.
  • prefixes and suffixes including flexives
  • the variety of word forms can be further reduced.
  • H the number of de- descriptors are reduced.
  • the prefixes and suffixes are preferably defined statistically from the word forms of the training texts as frequently occurring and thus poorly distinctive word beginnings and word endings.
  • stop words is also particularly advantageous. This includes particularly common word forms that are difficult to distinguish, such as understood certain and indefinite articles, prepositions, pronouns, connective words etc. Such stop words are preferably determined by statistical methods from the training texts as particularly common word forms. As an alternative or in addition, the stop words can also be specified completely or partially independently of the training texts. The stop words are disregarded from the start when generating the descriptors, so they are not considered word forms, particularly when they are broken down.
  • the list of descriptors can be restricted to the descriptors whose frequency in the training texts exceeds a predefinable frequency threshold.
  • the invention is based on documents written by scanning using optical character recognition systems (OCR) of digitized texts.
  • OCR optical character recognition systems
  • stop word list is built up with the 100-300 word forms which are most frequently represented in the training text collection.
  • the stop word list generated in this way is specific to the language and the subject area of the training texts due to the purely statistical approach of derivation from the training texts. In particular, it also contains OCR-typical errors as stop word variants such as e.g. B. "dio" next to "die” or "fiir” next to "for".
  • stop words By means of the statistical approach, very frequently occurring meaningful word forms can also be identified as stop words, which are then no longer available in the classification. Instead of specifying a number of stop words for the construction of the stop word list, a threshold for a relative minimum frequency or, especially for training text collections of a smaller scope, an upper limit, for example 1.5% of all word forms occurring in the training texts, can also be used. be specified for the thickness of the stop word list. Additionally or alternatively, stop words, e.g. B. Articles, prepositions etc. be fixed. Only word forms that are not included in the stop word list are considered for further processing. Character combinations which are not suitable as descriptors can occur, in particular due to character recognition errors in the digitization of texts. It therefore makes sense to specify minimum requirements for the structure of descriptors. Requirements such as a descriptor must have at least 3 letters are particularly advantageous. A descriptor must contain at least one vowel
  • word beginnings prefixes
  • word endings word endings which frequently occur are determined using statistical methods and entered in lists as prefixes and suffixes with poor identification.
  • the derivation of such prefixes and suffixes is state of the art and z. B. from "Experimental Morphology in Information Science", Kunststoff 1977, by R. Kuhlen known. Flexives are also included in the suffixes.
  • the essential decomposition of word forms is carried out. The main goal is to obtain a number of descriptors which are meaningful for the classification and which are smaller than the number of different word forms. During the decomposition it is checked whether shorter word forms are contained in longer word forms.
  • a longer word form is broken down into the shorter word form contained therein and at least one remaining part of the word.
  • it is preferably checked whether a part of the word that is not suitable as a descriptor is created during the decomposition, for example on the basis of the same minimum requirements as already mentioned above. A decomposition that would result in an unsuitable part of the word is not carried out, the longer word form is retained.
  • a part of the word remaining in the event of a permissible decomposition can be identical to an existing word form or is taken up as a new word form and included in the cyclically continued comparison of the word forms. The adjustment is preferably continued until no further disassembly is possible.
  • Suffixes and prefixes are advantageously set a framework for permissible separations by specifying minimum minimum requirements for the remaining parts of the word after separation, e.g. B. the restrictions for descriptors mentioned when unsuitable strings were initially excluded.
  • the character strings (word forms and parts of words) that remain after decomposition and separation are considered as suitable descriptors and used further.
  • the separation of prefixes and suffixes does not have to be limited to the process section after completion of all decompositions, but can alternatively or additionally also be carried out in intermediate stages. The reduction of the word forms by decomposition or separation requires no or, with the specification of minimum requirements, only very simple morphological knowledge.
  • the effort for the classifier can be significantly reduced further by specifying a threshold value for the frequency of their occurrence for the descriptors determined in the manner described and only using those descriptors for the classifier whose frequency of occurrence reaches or exceeds the threshold value.
  • the threshold can be fixed, e.g. B. with frequent 4, or relatively predetermined or indirectly determined by the requirement to select only a certain number or a certain percentage of the most common descriptors in the training texts.
  • the invention is not restricted to the explanations according to the above detailed explanations. Modifications are possible for the person skilled in the art through his specialist knowledge within the scope of the invention.
  • the parameters in the statistical compilation of the stop word list and the prefix and suffix lists as well as in the specification of the minimum requirements for the descriptors are accessible and, to a limited extent, also allow further optimization of the method according to the by setting these parameters Conditions of special applications.
  • the invention can also be used in conjunction with known methods for generating descriptors.
  • the texts do not have to be available as written documents, but can in particular also be spoken or electronically transmitted texts.
  • the list of descriptors to be used and the list of stop words form the basis for the subsequent text classification, both in the training phase of the classifier and in the classification of unknown ones
  • stop words are deleted from the texts to be classified by comparing them with the stop word list or are ignored for the further procedure.
  • the text freed from stop words is added to the descriptor list compared.
  • for. B Form all words in which descriptors appear as parts of words, replaced by the respective descriptors. Word forms that cannot be replaced by descriptors are also deleted. This results in descriptor texts that are illegible for humans, but are well suited for the classifier. These descriptor texts or statistical statements about the occurrence of descriptors obtained therefrom are used for the actual classification.
  • An equivalent procedure after deleting the stop words in the text to be classified is e.g. For example, searching a text based on the list of descriptors and the statistical recording of the frequency of occurrence, or simply the presence of individual descriptors.
  • searching a text based on the list of descriptors and the statistical recording of the frequency of occurrence, or simply the presence of individual descriptors are known from the prior art.
  • the descriptors generated according to the invention are particularly suitable for the comparatively inexpensive statistical classification methods.
  • fiber optic fiber optic core semiconductors semiconductors glass core computer conductor No prefixes are derived from these in a manner known per se, but suffixes s, n, ter er, which are stored in a suffix list.
  • a comparison is carried out within the valid word form list in such a way that a longer word form which contains one (or more) shorter word forms is split into this shorter word form and one or more remaining word parts, provided that the remaining word parts are also the same Meet minimum requirements. These remaining parts of the word are treated as new word forms for the further processing steps.
  • a new word form list results;
  • the digitized text is interspersed with recognition errors that arise during OCR processing. In the usual way, those contained in a stop word list are first
  • Stop words (such as “it”, “are”, “described”, “by”, “one”, “with” etc.) are deleted. Deleting strings that do not meet the minimum descriptor requirements is useful, but not mandatory. The text is then reduced to the descriptors it contains by simply comparing the strings. The descriptor list determined in this real example is because their scope and their lack of clarity are not specified here in detail.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Das vorgeschlagene Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten sieht eine Zerlegung von komplexeren Wortformen durch Abgleich mit der Gesamtheit von innerhalb einer Trainingstext-Sammlung auftretenden Wortformen vor. Für die vorzugsweise zyklisch fortgesetzte Zerlegung ist ebenso wie für die begleitende Aufstellung von Stopwort-Präfix- und Suffixlisten keine morphologische oder linguistische Wissensbasis erforderlich. Einfaches morphologisches Wissen wird eingebracht durch Vorgabe von Mindestanforderungen an die Form von Deskriptoren und Textteilen. Das Verfahren ist besonders flexibel und leicht an neue Einsatzgebiete anpaßbar. Das Verfahren ist zudem sehr fehlertolerant und damit besonders geeignet für die Klassifikation von digitalisierten Texten, die mittels Zeichenerkennungsverfahren aus geschriebenen Texten oder mittels Spracherkennungsverfahren aus gesprochenen Texten gewonnen sind.

Description

Beschreibung
Verfahren zur Erzeugung von Deskriptoren für die Klassi¬ fikation von Texten
Die Erfindung betrifft ein Verfahren zur Erzeugung von De- skriptoren für die Klassifikation von natürlichsprachli- chen Texten .
Die Klassifikation eines Textes stellt eine Zuordnung zu einer bestimmten Textklasse dar und bildet einen wichtigen Vorverarbeitungsschritt für die automatische Weiterverar¬ beitung von Texten . Insbesondere für die automatische Tex¬ tinterpretation ist eine vorausgehende Klassifikation von erheblicher Bedeutung , da hierdurch der Aufwand für die bereitzuhaltende Wissenbasis , wie z . B . Lexikon-Speicher , syntaktische und semantische Struktur- definition, erheblich eingeschränkt und die Erkennungslei- stung stark erhöht werden kann.
Die Textklassifikation läßt sich grob in zwei Schritte, nämlich die Extraktion von Deskriptoren und die darauf ba¬ sierende Klassenzuordnung einteilen. Wesentliche Bedeutung kommt der Auswahl der Deskriptoren zu. Diese ist insbeson¬ dere bei natürlichsprachlichen Texten mit einer Vielfalt von Wortformen problematisch.
Für Texte in der eine geringe morphologische Variation zeigenden englischen Sprache ist in "Feature Selection and Feature Extraction for Text Categorization" von D. Lewis in Proc. of Speech and Natural Language Workshop 1992 die Verwendung vollständiger Wortformen oder Phrasen vorge¬ schlagen. Für Klassifikationsaufgaben in morphologisch reicheren Sprachen können Wortteile als Deskriptoren ver¬ wandt werden, wobei z.B. in "N-Gram-Based Text Categoriza¬ tion" von Canvar/Trenkle in Proc. of Int. Symp. on Docu- ment Analysis and Information Retrieval 1994 die Textzer¬ legung in n-Grame oder in "Using IR Techniques for Text Classification in Document Analysis" von R. Hoch in Proc. of SIGIR, 1994 eine Reduktion auf Grundformen vorgenommen wird.
Während die n-Gram-Zerlegung zu einer sehr hohen Zahl von Deskriptoren führt, erfordert die Reduktion auf Grundfor¬ men eine aufwendige Analyse zur Erstellung der benötigten Wissensbasis. Die bekannten Verfahren sind zudem anfällig gegen Fehler in den untersuchten Texten, wie Schreibfehler oder Erkennungsfehler bei der Zeichenerkennung oder Spracherkennung. Der vorliegenden Erfindung liegt die Aufgabe zugrunde , ein Verfahren zur Erzeugung von Deskriptoren anzugeben, wel¬ ches auf einfache Weise auf der Basis von Trainingstexten eine für die Klassifikation geeignete Menge von Deskripto¬ ren erzeugt.
Die Erfindung ist im Patentanspruch 1 beschrieben . Die Un¬ teransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung .
Der besondere Vorteil der Erfindung liegt darin, daß keine oder nur einfache Wissensvorgaben gebraucht werden und das Verfahren damit leicht in neuen Anwendungsgebieten ein- setzbar ist . Als einfache Wissensvorgabe sieht z .B. eine vorteilhafte Ausführung eine morphologisch basierte Ein¬ schränkung bezüglich bei der Zerlegung entstehender Wort¬ teile vor. Das erfindungsgemäße Verfahren berücksichtigt insbesondere auch signifikante Schreib- oder Erkennungs- fehler in relevanten Deskriptoren unter der Annahme, daß solche Fehler in den Trainingstexten und den später zu klassifizierenden Texten im gleichen Maße auftreten.
Vorzugsweise wird die Zerlegung wiederholt durchgeführt , wobei die in einem Belegungszyklus verbleibenden Wortteile im folgenden Zerlegungszyklus wie Wortformen behandelt werden. Die nach der ggf . mehrfachen Zerlegung vorliegen¬ den Wortformen und Wortteile können noch durch Flexion oder Affixe entstandene verschiedene Varianten von einfa- cheren Grundformen enthalten . Durch Abtrennen von Präfixen und Suffixen (einschließlich Flexiven) kann die Vielfalt der Wortformen weiter reduziert, d . h . die Anzahl der De- skriptoren verringert werden. Die Präfix und Suffixe wer¬ den vorzugsweise statistisch aus den Wortformen der Trai¬ ningstexte als häufig auftretende und damit unterschei¬ dungsschwache Wortanfänge und Wortenden definiert.
Von besonderem Vorteil ist auch eine Vorgabe sogenannter Stopwörter. Hierunter werden besonders häufig vorkommende unterscheidungsschwache Wortformen wie z.B. bestimmte und unbestimmte Artikel, Präpositionen, Pronomen, Bindewörter etc. verstanden. Solche Stopwörter werden vorzugsweise durch statistische Verfahren aus den Trainingstexten als besonders häufig auftretende Wortformen bestimmt. Alterna¬ tiv oder zusätzlich können die Stopwörter auch vollständig oder teilweise unabhängig von den Trainingstexten vorgege- ben werden. Die Stopwörter bleiben bei der Erzeugung der Deskriptoren von Anfang an unberücksichtigt, gelten also insbesondere bei der Zerlegung nicht als Wortformen.
Zur Vereinfachung des Klassifikators kann die Deskrip- torenliste auf die Deskriptoren eingeschränkt werden, de¬ ren Häufigkeit in den Trainingstexten eine vorgebbare Häufigkeitsschwelle überschreitet.
Die Texte sind vorteilhafterweise bereits auf Anwendungs- gebiete wie z.B. Geschäftsbriefe, Wirtschaftsmeldungen, wissenschaftliche Berichte etc. eingeschränkt. In dem An¬ wendungsgebiet Geschäftsbriefe können dann z.B. Text- klassen wie Bestellung, Angebot, Rechnung etc. differen¬ ziert werden.
Die Erfindung ist nachfolgend anhand von durch Abtasten geschriebener Dokumente mittels optischer Zeichenerken- nungssysteme (OCR) digitalisierten Texten noch weiter ver¬ anschaulicht .
Aus den Dokumenten einer Sammlung von z . B. 600 Training- stexten werden alle vorkommenden Wortformen einschließlich ihrer Häufigkeit in der Gesamtheit der Trainingstexte er¬ mittelt . Die am häuf igsten auftretenden Wortformen werden als Stopwörter in eine Stopwortliste aufgenommen . Bei¬ spielsweise wird die Stopwortliste mit den 100-300 Wort- formen aufgebaut , die am häufigsten in der Trainingstext¬ sammlung vertreten sind . Die so erzeugte Stopwortliste ist durch den rein statistschen Ansatz der Ableitung aus den Trainingεtexten spez ifisch für die Sprache und das Themen¬ gebiet der Trainingstexte . Sie enthält insbesondere auch OCR-typische Fehler als Stopwortvarianten wie z . B. "dio" neben "die" oder " fiir" neben "für" . Durch den statisti¬ schen Ansatz können auch sehr häufig auftretende aussage¬ kräftige Wortformen als Stopwörter ausgewiesen werden , die dann bei der Klassifikation nicht mehr zur Verfügung ste- hen. Anstelle der Vorgabe einer Anzahl von Stopwörtern zum Aufbau der Stopwortl iste kann daher auch eine Schwelle für eine relative Mindesthäufigkeit oder, vor allem für Trai- ningstext-Sammlungen kleineren Umfangs , eine obere Schranke , beispielsweise 1 , 5% aller in den Trainingstexten auftretenden Wortformen , für die Mächtigkeit der Stopwort¬ liste vorgegeben werden . Zusätzlich oder alternativ können auch Stopwörter , z . B . Artikel , Präpositionen etc . fest vorgegeben werden . Für die Weiterverarbeitung werden nur noch Wortformen berücksichtigt , die nicht in der Stopwor- tliste enthalten sind . Insbesondere durch Zeichenerkennungsfehler bei der Digita¬ lisierung von Texten können Zeichenkombinationen auftre¬ ten , die als Deskriptoren nicht geeignet sind . Sinnvoller¬ weise werden daher Mindestanforderungen an die Struktur von Deskriptoren vorgegeben . Vorteilhaft sind insbesondere Anforderungen wie ein Deskriptor muß mindestens 3 Buchstaben umfassen ein Deskriptor muß mindestens einen Vokal enthalten
wobei wiederum als ein Buchstabe in diesem Sinne auch ein Bindestrich und Zeichengruppen wie qu , ch , ie, ph gelten können.
Im Text vor oder nach Ausschluß der Stopwörter vorhandene Zeichengruppen , die diese Mindestanforderungen nicht er¬ füllen, können auch durch die nachfolgenden Verarbeitungs- schritte des erfindungsgemäßen Verfahrens nicht zu ge¬ eigneten Deskriptoren werden, könnten aber bei der Zerle¬ gung komplexer Wortformen zu unbrauchbaren Ergebnissen führen. Einzelzeichen oder Zeichengruppen im Text, die diese Mindestanforderungen nicht erfüllen , bleiben daher für die weitere Verarbeitung unberücksichtigt .
Aus den weiterzuverarbeitenden Wortformen werden mit sta- tistischen Methoden häufig auftretende Wortanfänge (Prä¬ fixe) und Wortenden (Suffixe) ermittelt und als kennzeich¬ nungsschwache Präfixe und Suffixe in Listen eingetragen . Die Ableitung solcher Präfixe und Suffixe ist Stand der Technik und z . B. aus "Experimentelle Morphologie in der Informationswissenschaft" , München 1977 , von R . Kuhlen be¬ kannt . In den Suffixen mit eingeschlossen sind hierbei auch Flexive . Auf der Grundlage der verbleibenden Textteile wird die er¬ findungswesentliche Zerlegung von Wortformen durchgeführt . Das Hauptziel ist die Gewinnung einer gegenüber der Anzahl der verschiedenen Wortformen verringerten Anzahl von für die Klassifikation aussagekräftigen Deskriptoren. Bei der Zerlegung wird überprüft , ob kürzere Wort formen in länge¬ ren Wortformen enthalten sind . Zutreffendenfalls wird eine längere Wortform zerlegt in die darin enthaltene kürzere Wortform und mindestens einen verbleibenden Wortteil . Vor¬ zugsweise wird zusätzlich überprüft , ob bei der Zerlegung ein Wortteil entsteht, der als Deskriptor nicht geeignet ist , beispielsweise unter Zugrundelegung derselben Min¬ destanforderungen wie vorstehend bereits genannt. Eine Zerlegung, die einen in diesem Sinne ungeeigneten Wortteil ergäbe , wird nicht durchgeführt , die längere Wortform wird beibehalten . Ein bei einer zulässigen Zerlegung verblei¬ bender Wortteil kann mit einer bereits vorhandenen Wort¬ form identisch sein oder wird als neue Wortform aufgenom- men und in den zyklisch fortgesetzten Abgleich der Wort¬ formen mit eingeschlossen. Der Abgleich wird vorzugsweise solange fortgeführt, bis keine weitere Zerlegung mehr mög¬ lich ist .
Von den nach der Zerlegung vorliegenden Wortformen und Wortteilen werden die in den Präfix- und Suffix-Listen enthaltenen Anfangs- bzw. End-Zeichenf olgen abgetrennt . Hierdurch können vor allem verschiedene Variationsformen von Stammwörtern auf ihren Wortstamm reduziert und in die- sem zusammengefaßt werden. Auch bei der Abtrennung von
Suffixen und Präfixen wird vorteilhafterweise ein Rahmen gesetzt für zulässige Abtrennungen durch Vorgabe von Min- destanforderungen an die nach der Abtrennung verbleibenden Wortteile , z . B . die beim anfanglichen Ausschluß ungeeigne¬ ter Zeichenfolgen genannten Einschränkungen für Deskripto¬ ren . Die nach Zerlegung und Abtrennung verbleibenden Zei- chenfolgen (Wortformen und Wortteile) werden als geeignete Deskriptoren betrachtet und weiterverwandt . Die Abtrennung von Präfixen und Suffixen muß nicht auf den Verfahrensab¬ schnitt nach Abschluß aller Zerlegungen beschrankt sein, sondern kann alternativ oder zusatzlich auch in Zwischen- Stadien vorgenommen werden . Die Reduktion der Wortformen durch Zerlegung oder Abtrennung erfordert kein oder mit der Vorgabe von Mindestanforderungen nur ein sehr einfa¬ ches morphologisches Wissen . Dies führt dazu , daß im gram¬ matischen Sinne falsche Zerlegungen und Abtrennungen zu- lässig sind und im Regelfall auch auftreten . In den ver¬ bleibenden Wortformen oder Wortteile ist daher häufig kein Wortstamm erkennbar. Sie können auch wieder die Form von anfanglich ausgeschlossenen Stopwörtern annehmen . Auch diese Wortrumpfe εind gleichwohl als Deskriptoren ge- eignet , da sie durch Ableitung aus den Trainingstexten als spezifisch für die die Trainingstexte bildenden Texttypen sind und sowohl beim Training des Klassifikators als auch bei der Klassifikation unbekannter Texte in gleicher Weise wirken .
Der Aufwand für den Klassifikator kann weiter deutlich verringert werden , indem für die in der beschriebenen Weise ermittelten Deskriptoren ein Schwellwert für die Häufigkeit ihres Auftretens vorgeben wird und nur solche Deskriptoren für den Klassifikator weiterverwandt werden, deren Auftretenshaufigkeit den Schwellwert erreicht oder überschreitet . Der Schwellwert kann fest , z . B . mit Häufig- keit 4, oder relativ vorgegeben werden oder durch die Ma߬ gabe, nur eine bestimmte Anzahl oder einen bestimmten Prozentsatz der in den Trainingstexten häufigsten Deskrip¬ toren auszuwählen, indirekt bestimmt sein.
Die Erfindung ist nicht auf die Ausführungen gemäß den vorstehenden detaillierten Erläuterungen beschränkt. Ab¬ wandlungen sind dem Fachmann durch sein Fachwissen im Rah¬ men der Erfindung möglich. Insbesondere sind die Parameter bei der statistischen Zusammenstellung der Stopwortliste und der Präfix- und Suffix-Listen sowie bei der Vorgabe der Mindestanforderungen an die Deskriptoren Veränderungen zugänglich und erlauben hierbei in begrenztem Umfang auch noch durch Einstellung dieser Parameter eine weitere Opti- mierung des Verfahrens nach den Bedingungen spezieller An¬ wendungen. Ferner ist die Erfindung auch in Verbindung mit bekannten Verfahren zur Erzeugung von Deskriptoren ein¬ setzbar. Die Texte müssen nicht als schriftliche Dokumente vorliegen, sondern können insbesondere auch gesprochene oder elektronisch übermittelte Texte sein.
Die Liste der weiterzuverwendenden Deskriptoren und die Stopwortliste bilden die Grundlage für die nachfolgende Textklassifikation sowohl in der Trainingsphase des Klas- sifikators als auch in der Klassifikation unbekannter
Texte. Klassifikatoren sind allgemein aus dem Stand der Technik bekannt.
Hierzu werden in den zu klassifizierenden Texten durch Ab- gleich mit der Stopwortliste alle Stopwörter gelöscht bzw. bleiben für das weitere Vorgehen unberücksichtigt. Der von Stopwörtern befreite Text wird mit der Deskriptorenliste verglichen. Dabei werden z . B . alle Wort formen, bei denen Deskriptoren als Wortteile vorkommen , durch die jeweiligen Deskriptoren ersetzt. Wort formen , die nicht durch Deskrip¬ toren ersetzt werden können , werden ebenfalls gelöscht . Daraus ergeben sich zwar für Menschen unlesbare, aber für den Klassifikator gut geeignete Deskriptorentexte . Diese Deskriptorentexte bzw. daraus gewonnene statistische Aus¬ sagen über das Auftreten von Deskriptoren werden zur ei¬ gentlichen Klassifikation benutzt .
Eine äquivalente Vorgehensweise nach dem Löschen der Stopwörter in dem zu klassifizierenden Text ist z . B. die Durchsuchung eines Textes auf der Basis der Deskriptoren- liste und die statistische Erfassung der Auftretenshäufig- keit oder allein das Vorhandensein einzelner Deskriptoren . Für den Klassifikator sind eine Vielzahl geeigneter Aus¬ bildungen aus dem Stand der Technik bekannt . Vorteilhaf¬ terweise eignen sich die nach der Erfindung erzeugten De¬ skriptoren besonders für die vergleichsweise aufwandsarmen statistischen Klassifikationsverf ahren .
Die Erfindung ist nachfolgend anhand zweier Beispiele noch weiter veranschaulicht . Für ein erstes , der Übersichtlich¬ keit halber konstruiertes Beispiel für eine Trainingstext- Sammlung geringen Umfangs , wird nach Löschen von Stopwör¬ tern und von Zeichenfolgen , die die bereits beispielhaft genannten Mindestanforderungen ( 1 Vokal , 3 Buchstaben ) nicht erfüllen von einer kurzen Liste in den Trainingstex¬ ten noch enthaltener Wortformen
glasf aser-lichtleitern rechnerkerns halbleitern halbleiters glaskerns rechner leiters ausgegangen. Aus diesen seien in an sich bekannter Weise keine Präfixe, aber Suffixe s, n, ter er abgeleitet, die in einer Suffixliste abgelegt werden.
In zyklisch wiederholten Zerlegungsschritten wird ein Ab¬ gleich innerhalb der gültigen Wortformliste dahingehend durchgeführt, daß eine längere Wortform, die eine (oder mehrere) kürzere Wortformen enthält, in diese kürzere Wortform und einen oder mehrere verbleibende Wortteile aufgespalten wird, sofern die verbleibenden Wortteile ebenfalls die Mindestanforderungen erfüllen. Diese ver¬ bleibenden Wortteile werden als neue Wortformen für die weiteren Verarbeitungsschritte behandelt. Nach dem 1. Zer¬ legungsschritt ergibt sich als neue Wortformliste;
glasfaser-lichtleitern halbleitern glaskerns leiters rechner kerns halb
Die Möglichkeit weiterer Zerlegung wird erneut geprüft und nach dem 2. Zerlegungsschritt ergibt sich die Wortformli¬ ste glasfaser-lichtleitern leitern leiters rechner kerns halb glas
In entsprechender Weise nach dem 3. Zerlegungsschritt
leitern leiters rechner faser kerns licht halb glas
Diese Wortformen sind nicht weiter durch Abgleich zerleg¬ bar, so daß die zyklische Zerlegung abgeschlossen ist. Von diesen Wortformen werden die in der Suffixliste abgelegten Suffixformen, wiederum unter Beachtung der genannten Min¬ destanforderungen, sukzessive abgetrennt, so daß als De- skriptoren lei (26) halb (18) rechn (2) fas (2) gla (2) ker (2) licht (1) verbleiben, wobei die Zahlen in Klammern die Häufigkeit der einzelnen Deskriptoren in der Gesamtheit der Training- εtexte angeben. Wenn als Mindesthäufigkeit für aussagekräftige Deskriptoren zweimaliges Auftreten vorge¬ geben sei, wird der nur einmal auftretende Deskriptor "licht" nicht weiter zur Klassifikation benutzt.
Für ein zweites einem realen Fall entnommenes Beispiel, welches die Reduktion eines unbekannten zu klassifizieren¬ den Textes anhand einer zuvor aus einer Trainingstext- Sammlung bestimmten Deskriptorliste zeigt, wird ausgegan¬ gen von einem Auszug aus einem mittels OCR digitalisierten Text eines wissenschaftlichen Kurzberichts:
Es werden Versuche beschrieben, durch Mischungen eines Bleiglase; mit Ti 02 in untersch ied 7 i chen Verhäl tn i ssen sowi e durch E i nsatz verscsSI i edener PbO-TiO-SiO-Al O-Systeme zu Siebdruckpasten mit auskristal tisierbaren z 2 2 3 dielektrischen Komponenten zu gelangen. Neben der Erprobung der
Der digitalisierte Text ist durchsetzt von bei der OCR- Verarbeitung entstandenen Erkennungsfehlern. In üblicher Weise werden zuerst die in einer Stopwortliste enthaltenen
Stopwörter (wie z.B. "es", "werden", "beschrieben", "durch", "eines", "mit" etc.) gelöscht. Die Löschung der die Mindestanforderung an Deskriptoren nicht erfüllenden Zeichenfolgen ist zweckmäßig, aber nicht zwingend. Danach wird durch einfachen Zeichenfolgenvergleich der Text auf die darin enthaltenen Deskriptoren reduziert. Die in die¬ sem realen Beispiel bestimmte Deskriptorenliste ist wegen ihres Umfangs und ihrer Unanschaulichkeit hier nicht im Detail angegeben.
Es ergibt sich ein Deskriptorentext
such misch blei las häl sen atz ssi tio sio ystem sieb pas kri tis bar diel tri mpo ent gel neb bun
der für einen menschlichen Betrachter keinen Sinn mehr er- gibt, für die automatische Klassifikation jedoch aus¬ reicht.
Während im ersten, konstruierten Beispiel der Anschaulich¬ keit halber in den Deskriptoren noch Ähnlichkeiten zu den zugrundeliegenden Wortstämmen zu erkennen sind, erscheinen im realen Fall die Deskriptoren häufig ohne Beziehung zu Begriffsinhalten zu sein. Dies verdeutlicht den Unter¬ schied der im wesentlichen statistischen und für die auto¬ matische Bearbeitung vorteilhaften Vorgehensweise gegen- über einer Textanalyse auf linguistischer Wissenbasis.
Die Fähigkeit, auch stark fehlerhafte Texte wie im gegebe¬ nen Beispiel zu klassifizieren, verdeutlicht die hohe Feh¬ lertoleranz des erfindungsgemaßen Verfahrens.

Claims

Patentansprüche
1. Verfahren zur Klassifikation eines natürlichsprachli- chen Textes anhand von Deskriptoren, die in einer Trai- ningsphase auf der Basis einer Mehrzahl von in Wörter seg- mentierten Trainingstexten gewonnen werden, dadurch ge- kennzeichnet, daß bei der Gewinnung der Deskriptoren eine Zerlegung von im Text auftretenden Wortformen in der Weise vorgenommen wird, daß längere Wortformen, die kürzere im Text auftretende Wortformen enthalten., in die kürzeren Wortformen und gegebenenfalls verbleibende Wortteile zer- legt werden, und daß die Deskriptoren aus den nach der
Zerlegung verbleibenden Wortformen und Wortteilen gebildet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zerlegung wiederholt durchgeführt wird, wobei die in zurückliegenden Zerlegungszyklen gebildeten Wortteile wie im Text auftretende Wortformen behandelt werden, und daß die Deskriptoren aus den nach den letzten Zerlegungszyklus verbleibenden Wortformen und Wortteilen gebildet werden.
3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch ge¬ kennzeichnet, daß bei der Bildung der Deskriptoren aus den verbleibenden Wortformen und Wortteilen Suffixe und Prä¬ fixe von diesen abgetrennt werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Suffixe und Präfixe aus den in den Trainingstexten auftretenden Wortformen statistisch ermittelt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß Mindestanforderungen an die Struktur von Deskriptoren vorgegeben werden und Zerlegungen und Ab¬ trennungen nicht vorgenommen werden, die zu Wortteilen führen, welche die Mindestanforderungen nicht erfüllen.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß eine Stopwortliste vorgegeben wird und darin enthaltene Wortformen im Text unberücksichtigt blei¬ ben.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Wortformen der Stopwortliste aus den Trainingstexten als die dort am häufigsten auftretenden Wortformen stati¬ stisch ermittelt werden.
8. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß für die Deskriptoren eine Hau- figkeitsschwelle vorgegeben wird und nur die Deskriptoren weiter verwandt werden, deren Häufigkeit in den Training- stexten die Schwelle übersteigt.
PCT/EP1996/002620 1995-07-19 1996-06-18 Verfahren zur erzeugung von deskriptoren für die klassifikation von texten WO1997004406A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US08/809,080 US6038527A (en) 1995-07-19 1996-06-18 Method for generating descriptors for the classification of texts
EP96922825A EP0792492A1 (de) 1995-07-19 1996-06-18 Verfahren zur erzeugung von deskriptoren für die klassifikation von texten

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19526264A DE19526264A1 (de) 1995-07-19 1995-07-19 Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
DE19526264.6 1995-07-19

Publications (1)

Publication Number Publication Date
WO1997004406A1 true WO1997004406A1 (de) 1997-02-06

Family

ID=7767183

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP1996/002620 WO1997004406A1 (de) 1995-07-19 1996-06-18 Verfahren zur erzeugung von deskriptoren für die klassifikation von texten

Country Status (5)

Country Link
US (1) US6038527A (de)
EP (1) EP0792492A1 (de)
CA (1) CA2200334A1 (de)
DE (1) DE19526264A1 (de)
WO (1) WO1997004406A1 (de)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
EP1236354A4 (de) 1999-11-10 2009-04-22 Yahoo Inc Internetradio und rundfunkverfahren
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US8352331B2 (en) 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US7251665B1 (en) 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
WO2002005140A1 (en) * 2000-07-11 2002-01-17 Launch Media, Inc. Online playback system with community bias
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
US6798912B2 (en) * 2000-12-18 2004-09-28 Koninklijke Philips Electronics N.V. Apparatus and method of program classification based on syntax of transcript information
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
WO2002073451A2 (en) * 2001-03-13 2002-09-19 Intelligate Ltd. Dynamic natural language understanding
US7574513B2 (en) 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
US7106905B2 (en) * 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
US7412453B2 (en) * 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
US7720781B2 (en) * 2003-01-29 2010-05-18 Hewlett-Packard Development Company, L.P. Feature selection method and apparatus
US20040148267A1 (en) * 2003-01-29 2004-07-29 Forman George Henry Evaluation methodology and apparatus
EP1664997A4 (de) * 2003-09-10 2007-12-19 Yahoo Inc Musikkauf- und abspielsystem und -verfahren
US20050203899A1 (en) * 2003-12-31 2005-09-15 Anderson Steven B. Systems, methods, software and interfaces for integration of case law with legal briefs, litigation documents, and/or other litigation-support documents
FR2867845B1 (fr) 2004-03-16 2007-04-20 Valeo Climatisation Tubes d'echangeur de chaleur favorisant le drainage des condensats
US7409334B1 (en) * 2004-07-22 2008-08-05 The United States Of America As Represented By The Director, National Security Agency Method of text processing
US7840573B2 (en) * 2005-02-22 2010-11-23 Trusted Computer Solutions Trusted file relabeler
US7333965B2 (en) * 2006-02-23 2008-02-19 Microsoft Corporation Classifying text in a code editor using multiple classifiers
US9158983B2 (en) * 2010-07-08 2015-10-13 E-Image Data Corporation Microform word search method and apparatus
US8606010B2 (en) 2011-03-18 2013-12-10 Seiko Epson Corporation Identifying text pixels in scanned images
US8731296B2 (en) 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US9302921B2 (en) 2012-08-29 2016-04-05 Northwestern University Water detoxification by a substrate-bound catecholamine adsorbent
US9330087B2 (en) 2013-04-11 2016-05-03 Microsoft Technology Licensing, Llc Word breaker from cross-lingual phrase table
US20160104052A1 (en) * 2014-10-10 2016-04-14 Qualcomm Incorporated Text-based thumbnail generation
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0281742A2 (de) * 1987-03-12 1988-09-14 International Business Machines Corporation Verfahren zur Prüfung der Rechtschreibung zusammengesetzter Wörter
EP0566848A2 (de) * 1992-04-22 1993-10-27 International Business Machines Corporation System zur automatischen Analyse von Zusammengesetzten Wörtern

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771401A (en) * 1983-02-18 1988-09-13 Houghton Mifflin Company Apparatus and method for linguistic expression processing
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0281742A2 (de) * 1987-03-12 1988-09-14 International Business Machines Corporation Verfahren zur Prüfung der Rechtschreibung zusammengesetzter Wörter
EP0566848A2 (de) * 1992-04-22 1993-10-27 International Business Machines Corporation System zur automatischen Analyse von Zusammengesetzten Wörtern

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BARTH W: "Volltextsuche mit sinnentsprechender Wortzerlegung", WIRTSCHAFTSINFORMATIK, OCT. 1990, GERMANY, vol. 32, no. 5, ISSN 0937-6429, pages 467 - 471, XP000605125 *
HOCH R: "Using IR techniques for text classification in document analysis", SIGIR '94. PROCEEDINGS OF THE SEVENTEENTH ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, PROCEEDINGS OF 17TH INTERNATIONAL CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL. SIGIR 94, DUB, ISBN 3-540-19889-X, 1994, BERLIN, GERMANY, SPRINGER-VERLAG, GERMANY, pages 31 - 40, XP000475312 *
KOTZIAS K: "How to respond to different language particularities by indexing texts using automatic text analysis", ONLINE INFORMATION 90. 14TH INTERNATIONAL ONLINE INFORMATION MEETING. PROCEEDINGS, LONDON, UK, 11-13 DEC. 1990, ISBN 0-904933-75-X, 1990, OXFORD, UK, LEARNED INFORMATION, UK, pages 61 - 68, XP000603915 *

Also Published As

Publication number Publication date
DE19526264A1 (de) 1997-04-10
US6038527A (en) 2000-03-14
CA2200334A1 (en) 1997-02-06
EP0792492A1 (de) 1997-09-03

Similar Documents

Publication Publication Date Title
WO1997004406A1 (de) Verfahren zur erzeugung von deskriptoren für die klassifikation von texten
DE3853894T2 (de) Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen.
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69229204T2 (de) Iteratives Verfahren zum Suchen von Satzteilen und Informationsauffindungssystem, welches dieses benützt
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE69331209T2 (de) Umformung von verwandten Wortformen für Textindexierung und Wiederauffindung mittels endlicher Automaten
DE69424350T2 (de) Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch
DE69427848T2 (de) Unterstützungssystem zur Herstellung von Wörterbüchern
DE68923981T2 (de) Verfahren zur Bestimmung von Textteilen und Verwendung.
DE69032712T2 (de) Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
DE69513369T2 (de) Verfahren und vorrichtung zur zusammenfassung statischer prozesse in eine auf regeln basierende grammatikalisch definierte natuerliche sprache
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE69331044T2 (de) Vorrichtung und Verfahren zur syntaktischen Signalanalyse
DE69722085T2 (de) Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE69519229T2 (de) Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten
DE112021006602T5 (de) Verfeinern von abfrage-erzeugungsmustern
DE69229583T2 (de) Verfahren zur Flektieren von Wörtern und Datenverarbeitungseinheit zur Durchführung des Verfahrens
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE102007014405B4 (de) Verfahren zur Worterkennung in Zeichensequenzen
DE3853045T2 (de) Verfahren zur Beseitigung von enklitischen Endungen aus Verben in romanischen Sprachen.
DE10348920A1 (de) Computersystem und Verfahren zur mehrsprachigen assoziativen Suche
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1996922825

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 08809080

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2200334

Country of ref document: CA

Ref country code: CA

Ref document number: 2200334

Kind code of ref document: A

Format of ref document f/p: F

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1996922825

Country of ref document: EP

WWR Wipo information: refused in national office

Ref document number: 1996922825

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1996922825

Country of ref document: EP