WO2022122061A1

WO2022122061A1 - Vorrichtung zum syntaktischen parsing natürlicher sprachen

Info

Publication number: WO2022122061A1
Application number: PCT/DE2020/000329
Authority: WO
Inventors: Matthias DELLIT; Evita GIARDINELLI
Original assignee: VAN SPRANG, Lowie
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-16
Also published as: EP4260206A1; US20240028825A1

Abstract

Die Erfindung betrifft eine Vorrichtung zur Analyse natürlicher Sprache in Form mindestens einer Zeichen kette (10), umfassend - eine Einlesevorrichtung (1) eines Computersystems (20) zum Einlesen und Bereitstellen der mindestens einen Zeichenkette (10), - eine Wörterbuch Vorrichtung (2) des Computersystems (20), welche dazu ausgelegt ist, die von der Einlesevorrichtung (1) bereitgestellte mindestens eine Zeichenkette (10) in mehrere lexikalische Elemente (11) zu zerlegen, gekennzeichnet durch - eine Syntaxvorrichtung (3) des Computersystems (20), welche dazu ausgelegt ist, jedem lexikalischen Element (11) der minestens einen Zeichenkette (10) zumindest eine grammatische Kategorie / syntaktisches Element (12) zuzuordnen und - eine Verifikationsvorrichtung (4) des Computersystems (20), welche dazu ausgelegt ist, für syntaktische Elemente (11) in einem Rahmen (F) mit einer vorbestimmten Anzahl (W) lexikalischer Elemente (11) der mindestens einen Zeichenkette (10) automatisch anhand von vorab in einer Datenbank (5) gespeicherten Grammatik- / Syntaxmustern einer natürlichen Sprache für grammatische Kategorien (12) der lexikalischen Elemente (11) festzustellen, welche der Anordnungen der syntaktischen Elemente (12) im Rahmen (F) richtig, und welche falsch sind und - eine Korrektur und Ergänzungsvorrichtung (6), welche dazu ausgelegt ist, bei Auslassungen von, bzw. Fehlern in lexikalischen Elementen (11) automatisch Veränderungen der mindestens einen Zeichenkette (10) zu erzeugen, die selbst von der Verifikationsvorrichtung (4) als korrekt erkannt werden.

Description

Vorrichtung zum syntaktischen Parsing natürlicher Sprache

Bei der maschinellen Bearbeitung natürlicher Sprache, wie z.B. im Rahmen von automatischen Übersetzungsprogrammen oder Interpretation von Befehlen in der Mensch-Maschine-Schnittstelle, stoßen computerbedingte Vorrichtungen und Verfahren immer wieder auf Schwierigkeiten, da sich bestimmte Fragestellungen nur aus dem Sinn des Satzes erschließen, der sich wiederum nur genau bestimmen lässt, wenn die syntaktische Information jedes Wortes bekannt ist: Wie Wortart (Substantiv, Verb, Pronomen, Adjektiv), mit Kasus, Genus, Numerus, bzw. Zeitform (z.B. Präsens, Perfekt) oder Person (z.B. erste Person Singular, dritte Person Plural), die einem natürlichen Sprecher der Sprache intuitiv zwar bekannt sind, maschinell aber -bislang- keine Verfahren bekannt sind, welche die Syntax eines Satzes durchgängig, vollständig, präzise und schnell, automatisch determinieren können.

Bekannte, syntaktische Parsingverfahren nutzen i.d.R. statistische Methoden und Parsing-Trees. Da aber natürliche Sprache in ihrer kognitiven Basis vom Gehirn -nicht- statistisch verarbeitet wird, scheitern diese Methoden bei höheren Ansprüchen an Erkennung grammatischer Fehler und Feinheit der syntaktischen Auflösung des Parsings. Die genaue Bestimmung von logischen und semantischen Relationen, Akteuren, Eigennamen, usw., der Wörter im Gesamtkontext, ist durch Verfahren nach dem Stand der Technik begrenzt, was wiederum Sprach-Kl Anwendungen unnötig erschwert, und die umfassende Verarbeitung von Wissen in unstrukturierten Texten / Aussagen bislang empfindlich einschränkt, bzw. mangels Rückverfolgbarkeit, die Anwendung von Sprach-Kl in sicherheitsrelevanten Anwendungen der Mensch-Maschine-Schnittstelle verhindert.

Da Wörter z.T. eine sehr hohe Variantenvielfalt an syntaktischen Formen haben, -z.B. weist jedes deutsche Adjektive i.d.R. 147 unterschiedliche syntaktische Formen auf, wenn man Deklinations- Stärke, Kasus, Genus und Komparativ berücksichtigt - ist es üblich das bereits normale Sätze Millionen bis Milliarden theoretischer möglicher syntaktischer Zuordnungs-Kombinationen haben, mit der Folge sehr großer Rechenzeiten, will man hohe Determinationsgenauigkeit erreichen, ohne den ungenauen, statistischen Stand der Technik zu verwenden. Will man also genauere Verfahren als Statistik zum Parsing anwenden, muss gleichzeitig das Problem der Rechenzeiten gelöst sein.

Es besteht daher die Aufgabe, Vorrichtungen und Verfahren zu entwickeln, die es erlauben, die Syntax einer Zeichenkette natürlicher Sprache automatisch mit einem weit höheren Genauigkeitsgrad zu determinieren, bei gleichzeitig kurzen Prozesszeiten im 1 Sekunden-Bereich, auf Standard- Computern / Smartphones, als wie es der Stand der Technik bislang erlaubt.

Diese Aufgaben werden durch eine Vorrichtung mit den Merkmalen des Anspruchs 1 gelöst.

Die Vorrichtung weist eine Einlesevorrichtung zum Einlesen und Bereitstellen mindestens einer Zeichenkette auf. Des Weiteren weist die Vorrichtung eine Wörterbuchvorrichtung auf, welche dazu ausgelegt ist, die von der Einlesevorrichtung bereitgestellte mindestens eine Zeichenkette in automatisch verarbeitbare, numerisch kategorisierbare, syntaktische und lexikalische Elemente des vorliegenden Textes zu zerlegen.

Dafür weist die Vorrichtung eine Syntaxvorrichtung auf, welche dazu ausgelegt ist, jedem syntaktischen und lexikalischen Element in seiner Grundform zumindest eine ihrer numerisch verarbeitbaren grammatischen Kategorien der Sprache zuzuordnen, die meistens aus mehr als nur einer einzigen Möglichkeit bestehen. Z.B. sind im Deutschen massiv deklinationsbedingte Varianten zu berücksichtigen: Wein: der Wein, dem Wein, des Weines, den Wein, den Weinen, der Weine, die Weine; Im Englischen hingegen oft mehrere unterschiedliche Kategorien je Wort: z.B. „round“ = Substantiv, Adjektiv, Verb, Adverb.

Im Endergebnis ist die Identifikation des Wortstammes / Grundform jedes einzelnen lexikalischen Elementes / Wortes und dafür die grammatische Kategorie automatisch zu bestimmen, welche jedes Wort im analysierten Satz tatsächlich führt.

BeispieH: Annotiert ist die einzige Syntax-Lösung für den Input Satz „Komplexen Weinen werden oft Barriquearomen zugesetzt. "

Numerus: Plural | Plural | Plural | | Plural

Flexion: stark

Genus: mask | mask | | neut

Kasus: Dat | Dat I I Nominativ

Konjugation: I 3. Pers I | Partiz.Perf

£Var je Kat: 26 | 8 | 4 | 1 | 8 | 5 ft all Kat Varianten = 26*8*4*1*8*5 = 33.280

Z.B. hier Gelöste technische Aufgabe: finde die einzige korrekte Lösung in den 33.280 Möglichkeiten. (Bei 1/100 Sekunde Rechenzeit je Variante, wird eine Maschine, welche die Erfindung nicht benutzt, und nicht statistisch arbeitet, ca. 5 Minuten benötigen. )

Bei holistischer Betrachtung hat dieser einfache Satz bereits insgesamt 26*8*4*1*8*5 = 33.280 theoretische Kombinationsmöglichkeiten an grammatischen Kategorien, die seine lexikalischen Elemente jedes für sich, in der Form des Inputs, einzeln, theoretisch annehmen können. Die beanspruchte Vorrichtung enthält eine Verifikationsvorrichtung, welche dazu ausgelegt ist, für grammatisch- / syntaktische Elemente, der mindestens einen Zeichenkette automatisch anhand von vorab in einer Datenbank gespeicherten Grammatik- / Syntaxmustern der natürlichen Sprache für grammatische Kategorien und Grundformen der lexikalischen Elemente in wenigen 1/10-Sekunden auf einem handelsüblichen portablen Computer / Smartphone festzustellen, welche, der hier z.B. über 33-tausend möglichen Auswahl-Sequenzen der grammatischen / syntaktischen Kategorien im Satz die einzige richtige ist.

Die Untersuchung einer Zeichenkette kann effizient erfolgen, bei systematischer Verarbeitung mehrerer konsekutiver, z.B. 5 Wörter / lexikalischen Elementen gleichzeitig, und Wort für Wort in natürlicher Leserichtung, weitergeschoben, zu wiederholen. Sozusagen über ein virtuelles „Schiebefenster“ F mit der Weite „W“, (s. auch Fig. 1 und 2) ähnlich dem „wandernden Augen-Fixations-Fenster“ beim Lesen eines Textes durch einen Menschen. Es ist effizient, aber nicht Bedingung, die Position um den Wert +1 von Schritt zu Schritt zu verändern, es müssen aber im Laufe des Verfahrens alle Positionen mindestens einmal eingenommen werden, es sei denn, für Wörter mit nur einer grammatischen Kategorie.

Dabei werden die Kombinationsmöglichkeiten der möglichen grammatischen Kategorien der mehreren, konsekutiv, gleichzeitig erfassten Wörter als Feld verarbeitet (s. auch Fig. 1 und 2), und die kombinatorischen Einzelergebnisse jedes Feldes mit allen anderen Feldern aller anderen Spalten des reduzierten Feldes bzw. Matrix, mit in einem Speicher abrufbaren Grammatik- / Syntaxmustern der Sprache zu vergleichen, die mit den Grundformen der lexikalischen Elemente gekoppelt sind.

Falsche Kombinationen werden in ihrer jeweils zugewiesenen Spalte für jeden Schritt aus der Matrix entfernt. Wahre werden behalten. Bei falschen werden die entsprechenden Kategorien bei jedem Wort entfernt, was das Lösungsfeld schnell, zusätzlich ausdünnt. Das Vorgehen wird so lange sequenziell, Wort für Wort wiederholt, bis bei jedem Wort nur noch 1 einzige Kategorie übrigbleibt. Dies ist bei korrekt formulierten Sätzen und ausreichend hoher, kohärenter Anzahl verfügbarer Grammatik- / Syntaxmustern der Fall. Hochsprachen sind mit ca. 4000 -bis- 10.000 Wahr bzw. Falsch Grammatik- / Syntaxmustern, je nach Sprachgebrauch (einfach, mit kurzen Sätzen < 13 Wörter -bis- hochwissenschaftlich / künstlerisch / figurativ) gut abgedeckt. Bei syntaktisch inkorrekt formulierten Sätzen, oder syntaktisch uneindeutigen (ambigen) Sätzen (s. Beispiel 3.) bleibt mindestens bei 1 Wort des Satzes mehr als ein einziges grammatisch- / syntaktisches Element für eines der lexikalischen Elemente übrig. Bleiben in einem Verarbeitungs-Durchgang mehr als 1 Kategorie bei einem lexikalischen Element übrig, wird der Vorgang wiederholt, so lange, bis sich die Anzahl zugewiesener Kategorien nach einem Durchlauf, bezüglich der Anzahl Kategorien, wenn er beginnt, nicht ändert.

Grammatik-ZSyntaxmuster können folgende Formen aufweisen. Beispiel 2. Typische sequentielle, lexikalisch dargestellte Grammatik-ZSyntaxmuster einer Sprache mit Numerusflektierenden Artikeln + Substantiven, Pronomen, mit Wahr / Falsch Mustern.

| Artikel | Objekt-Pronomen | Substantiv | = falsch (Musterlänge=3)

| Artikel. Singular | Substantiv.Singular | = richtig (Musterlänge =2)

| Artikel. Singular | Substantiv. Plural | = falsch (Musterlänge =2)

Diese Muster können effizient aus den Möglichkeiten extrahiert werden, die korrekte Sätze aufweisen: Im Beispiel von Fig. 1 , beim lexikalischen Element „it“ sind „Falsch“ Muster im Englsichen z.B.

| pro.obj 3s n | v.pres.3s. f | = Falsch

| pro.obj.3s n | v.pres.3s. m | = Falsch

| beg.0. | pro.obj.3s n | = falsch

Für das zweite lexikalische Element „is“ sind „Falsch Muster“ z.B.

So kann man für jede Sprache, nach manueller Bearbeitung von ca. 5000 unterschiedlichen - grammatisch k o r r e k t e n Sätzen ausreichend hoher morphologischer Varianz die Wahr / Falsch Grammatik- / Syntaxmuster erhalten, welche zum Einsatz des Verfahrens erforderlich sind.

Es ist zu berücksichtigen, dass nur mit Wahr-Mustern eine Funktion des Verfahrens nicht auf einfachere Art hergestellt werden kann, als wie mit der Kombination von Wahr und Falsch.

Für die einzige übrigbleibende Variante muss nicht zwingenderweise ein „Wahr“-Muster vorliegen, zumindest aber kein „Falsch“.

Es ist zu berücksichtigen, dass diese manuelle Arbeit der Muster-Auswahl ausschließlich mit 100% korrekten Sätzen bezüglich Punktuation, Rechtschreibung und Syntax durchgeführt wird. Ansonsten entsteht kein in sich kohärentes Gesamt-System von Grammatik- / Syntaxmustern.

Besonderheiten von Sprachen, wie z.B. die Kollokation von Verbpartikeln von Kompositaverben im Deutschen, lässt sich mit dem Verfahren auch erfolgreich lösen, da die Muster des Auftretens z.B. von Verbpartikeln, an Stellen geschehen, in welchen Präpositionen ein Falsch-Muster ergeben und mit dem Systemwörterbuch abgeglichen werden können.

Das vorgestellte Lösungsprinzip ist für jede Sprache geeignet, welche sich wiederholende Grammatik- / Syntaxmuster beim Sprechen, oder Schreiben aufweist. Egal ob natürliche Sprache oder nicht. Die Zeichen bzw. Signale auf die Bezug genommen wird, können beliebig sein, (auch Morse, Flaggenführung durch Signalgast, etc.) Es genügen Musterlängen (Muster-Kategoriesequenzen) über i.d.R. 2-5 Wörter / Lexikalische Einheiten, entsprechend dem Augen-Fixations-Fenster beim visuellen Interpretieren von Mitteilungen, bzw. entsprechend ca. 15-20 „lexikalischen Einzelsignalen“ pro Sekunde, beim Hören von akustischen Sequenzen.. Es gibt aber keine Limitation für die betrachteten Musterlängen durch das Verfahren an sich.

Als lexikalische Elemente können auch Satzzeichen, bzw. Satzbeginn und Satzende in den Grammatik-/Syntaxmustern enthalten sein. Soweit erforderlich, können in Fließtext, lexikalische Elemente und ihre grammatische / syntaktische Information von Sätzen vor oder nach dem Analysierten berücksichtigt werden. Z.B. bei interrogativen oder interjektiven Zeichenketten. Insbesondere können der Anfang der mindestens einen Zeichenkette und das Ende der mindestens einen Zeichenkette, bzw. Kommas, Gedankenstriche, usw., in der Kette jeweils ein lexikalisches Element darstellen. Satzzeichen wie z.B. Semikolon oder Doppelpunkte, können i.d.R. für die Syntax wie Satzbeginne behandelt werden, in Leserichtung. Das führt dazu, dass auch die Punktuation von Sätzen mit dem Verfahren durch Muster erfasst werden können, und deshalb sehr effizient geprüft und korrigiert werden können, ohne klassische grammatische Regeln nach Lehrbuch aufstellen zu müssen. Das Gleiche gilt für Groß- und Kleinschreibung.

Das Verfahren ist somit auch für die Analyse von gesprochenen Zeichenketten (lexikalisierter Phonemketten aus „Voice To Text" Maschinen) geeignet, welche ja weder mit Satzzeichen, noch mit Groß- / Kleinschreibung beim Sprechen entstehen.

In einer weiteren Ausführungsform der Vorrichtung ist eine Verifikationsvorrichtung derart ausgelegt, dass rahmenweise (Rahmen F mit Weite W) ermittelte korrekte grammatikalische Kategorien der lexikalischen Elemente identifiziert werden.

Ergibt ein Analyse-Lauf mit der Vorrichtung keine eindeutige Lösung, hingegen aber z.B. bei automatischem Einsetzen zusätzlicher Kommas, oder Groß-Kleinschreibung an bestimmten Stellen im Satz, dann kann damit eine automatische Kommasetzung, oder Rechtschreibkorrektur über eine Korrektur- und Ergänzungsvorrichtung erfolgen. In solchen Fällen kann zur Zeitersparnis eine parallele Verarbeitung von alternativen Schreibweisen der mindestens einen Zeichenkette in der Maschine erfolgen.

In einer weiteren Ausführungsform sind demnach mit der Verifikationsvorrichtung syntaktische Fehler in der mindestens einen Zeichenkette detektierbar, wobei ein syntaktischer Fehler dann vorliegt, wenn die Verifikationsvorrichtung nach Abschluss der Analyse aller Kombinationsmöglichkeiten, für zumindest ein lexikalisches Element nicht nur eine einzige erlaubte grammatische Kategorie detektiert hat.

Auch ist es möglich, dass die Verifikationsvorrichtung, die mindestens eine Zeichenkette als syntaktisch korrekt und eindeutig validiert, wenn zu jedem lexikalischen Element genau eine erlaubte grammatische Kategorie ermittelbar ist.

Es ist auch möglich, dass die Korrektheit jedes lexikalischen Elementes verifizierbar ist, indem jedes syntaktische Element gegen ein Wörterbuch der Wörterbuchvorrichtung abgeglichen wird.

Die Vorrichtung kann in einer Ausführungsform eine Korrekturvorrichtung zur automatischen Korrektur syntaktischer Fehler in der mindestens einen Zeichenkette aufweisen. Die Erfindung wird anhand von Ausführungsbeispielen und anhand von Figuren erläutert. Dabei zeigt: Fig. 1 ein erster Beispielsatz, anhand dem erläutert wird, wie eine Zeichenkette in syntaktische Elemente zerlegbar ist und wie den lexikalischen Elementen eine grammatische Kategorie zuordenbar ist;

Fig. 2 die Zeichenkette nach Fig. 1 bei einem Bearbeitungsschritt (im Beispiel Schritt 6 nach dem ersten Komma) zur Ermittlung möglicher grammatischer Kategorien;

Fig. 3 die Zeichenkette nach Fig. 1 und 2 nach Beendigung des Abgleichs;

Fig. 4 eine schematische Darstellung eines Computersystems mit einer Ausführungsform der Vorrichtung.

Zunächst soll die grundsätzliche Funktion einer Ausführungsform anhand der Analyse einer Zeichenkette 10 erläutert werden.

In Fig. 1 ist der Satz „It is a shame, the kids are not in focus in any of your photos" (auf Deutsch: "Es ist schade, dass die Kinder auf keinem deiner Fotos scharf abgebildet sind”) in Form einer Zeichenkette 10 dargestellt. Hier wird das Vorgehen aus Gründen der Übersichtlichkeit nur an einem Satz als Zeichenkette 10 beschrieben. Grundsätzlich können auch mehr als ein Satz, d.h. längerer Text, untersucht werden.

Die Zeichenkette 10 in Fig. 1 ist der englischen Sprache entlehnt, wobei es für die im Folgenden beschriebenen Ausführungsformen grundsätzlich nicht darauf ankommt, welcher Sprache die Zeichenkette 10 entlehnt ist. Wichtig ist lediglich, dass die natürliche Sprache bestimmte, kohärente grammatische Strukturen aufweist, die sich in allen korrekt geschriebenen Wörtern und Satzzeichen (hier zusammenfassend als lexikalische Elemente 11 bezeichnet) syntaxabhängig, bestimmte grammatische Kategorien 12 wiederholbar zuordenbar sind. In der rechten Spalte der folgenden Tabelle werden einige mögliche Beispiele für grammatische Kategorien 12 der deutschen Sprache angegeben.¹

Tabelle 1 : Beispiele für grammatische Kategorien der deutschen Sprache

¹ Anmerkung: in der Liste sind grammatische Kategorien enthalten, welche in der klassischen Lehrgrammatik nicht unbedingt existieren, jedoch für eine informatisch-stringente Logikstruktur einer Maschine unabdingbar sind.

In der rechten Spalte der folgenden Tabelle werden einige mögliche Beispiele für grammatische Kategorien 12 der englischen Sprache angegeben (z.B. kein Genus über den Artikel, Konjugation der Personen nur in 2 Formen, usw. usf.):

Tabelle 2: Beispiele für grammatische Kategorien der englischen Sprache

Diese beispielhafte Einteilung der grammatischen Kategorien 12 ist nicht abschließend. Wichtig ist, dass es eine in sich konsistente Zuordnung grammatischer Kategorien 12 zu einzelnen lexikalischen Elementen 11 der Zeichenkette 10 gibt. Die Führung des Kasus in allen Sprachen ist für die Präzision des Analyseergebnisses und folgende Auswertungen des Ergebnisses relevant, auch wenn dies für den angelsächsischen Sprachgebrauch außer dem Genitiv ungewohnt ist.

Die Zeichenkette 10 gemäß Fig. 1 weist 17 syntaktische Entitäten auf: 15 Wörter + 2 Satzzeichen. Wenn eine Einlesevorrichtung 1 eines Computersystems 20 (siehe Fig. 4) eine solche Zeichenkette 10 bereitstellt, zerlegt eine Wörterbuch Vorrichtung 2 des Computersystems 4 die Zeichenkette 10 in die einzelnen lexikalischen Elemente 11. Dazu weist die Wörterbuchvorrichtung 2, Wörterlisten und deren Grundformen auf, die dann in der Zeichenkette 10 ermittelt werden können. Bei Wörtern die mehr als nur eine einzige Grundform zulassen, werden alle Möglichkeiten berücksichtig. Ist die Sprache bezüglich dieser Dopplungen kohärent gegliedert, löst sie das vorgestellte Verfahren ebenfalls.

Eine Syntaxvorrichtung 3 auf dem Computersystem 20 ermittelt nun, welche möglichen grammatischen Kategorien 12 den einzelnen lexikalischen Elementen 11 , bzw. ihren Grundformen zugeordnet werden können. Dabei greift die Syntaxvorrichtung 3 auf eine Datenbank 5 zu, die z.B. die Informationen in den obigen Tabellen 1 und 2 aufweist.

In dem Fall, der in Fig. 1 dargestellt ist, werden dem ersten lexikalischen Element 11 „it“ die grammatischen Kategorien 12 „Pronomen, dritte Person, neutrum“ und „pro.obj.“ (Objektpronomen), dritte Person neutrum“ zugeordnet. Dem zweiten lexikalischen Element 11 „is“ werden acht grammatische Kategorien 12 zugeordnet.

Die vollständige Liste der im Beispiel der Fig. 1 verwendeten grammatischen Kategorien 12 ist in der Tabelle 1 wiedergegeben (geklammerte Ausdrücke).

In der Fig. 1 ist auch jeweils die Anzahl der grammatischen Kategorien 12 pro syntaktischem Element 11 angegeben. Das Hilfsverb „are“ hat z.B. in dieser Zeichenkette 10 zwölf verschiedene mögliche grammatische Kategorien 12. (siehe Zeile X Var per kat)

Damit ergeben sich in Figur 1 grundsätzlich 0,165 Billionen (siehe Zeile n all kat) verschiedene Möglichkeiten, die grammatischen Kategorien 12 der Zeichenkette 10 miteinander zu kombinieren, wenn die gesamte Länge der Zeichenkette 10 analysiert wird, und davon ist die einzig richtige zu finden, in einer Zeit um 1 Sekunde, auf portablen Computern / Smartphones.

Im Folgenden wird nun dargestellt, wie eine Verifikationsvorrichtung 4 des Computersystems 20 dazu zu verwendet wird, Kombinationen der grammatischen Kategorien 12 zu ermitteln, die gleichzeitig der Zeichenkette 10 automatisch eine grammatische Kategorie zuordnet.

Dazu wird in der hier beschriebenen Ausführungsform ein Rahmen F verwendet, der jeweils fünf syntaktische Elemente 11 auf einmal betrachten kann. Dieser Rahmen F wird nun nach und nach, jeweils ein lexikalisches Element 11 vorrückend, über die Zeichenkette 10 geführt. (Siehe auch Tabelle 3)

Die oben erwähnten Kombinationen der grammatischen Kategorien 12 werden somit nicht über die ganze Zeichenkette 10 durchgeführt, sondern jeweils nur für die grammatischen Kategorien 12 der lexikalischen Elemente 11 , die von dem Rahmen F erfasst werden. Durch die Verwendung des Rahmens F, der nur eine Teilmenge der syntaktischen Einheiten 11 abdeckt, ergibt sich eine sehr große Reduktion der abzugleichenden Kombinations-Möglichkeiten.

Z.B. bei einem 5er Rahmen wird immer die zentrierte Position als richtig oder falsch bewertet unter Einbezug „2links, 2 rechts“. Bei Satzbeginn ist die Position 2-li leer; 1-li = „begin". Am Ende der Zeichenkette 10 ist re-1 = „end“ und re-2 ist leer. Am Satzbeginn und Satzende werden hier also 4 lexikalische Positionen auf deren Grammatik-ZSyntaxmuster verglichen. Wenn z.B. der Rahmen F mit W=5 das erste lexikalische Element 11 (hier „it“) bis zum dritten (2 links,

2 rechts) lexikalischen Element 11 (hier „a“) abdeckt, ergeben sich 2 x 8 x 8 = 128 mögliche Kombination der grammatischen Kategorien 12 (siehe Zeile Var per kat) bei „It".

Wird der Rahmen F ein lexikalisches Element 11 in der Zeichenkette 10 weitergeschoben (d.h. nun z.B. auf „is“), dann ergeben sich (2 links 2 rechts) 2 x 8 x 8 x 5 = 640 Möglichkeiten.

Die Anzahl W der lexikalischen Elemente 11 pro Rahmen F muss natürlich kleiner, als die Gesamtzahl der lexikalischen Elemente 11 der Zeichenkette 10 sein. Wie gesagt ist es effizienter mit W im Bereich

3 bzw. 5 zu arbeiten. Mit der Rahmenweite steigt die Anzahl erforderlicher Vergleiche exponentiell.

Normale Sprache ist mit Fixationsweiten um 3 bis 5 für Menschen verständlich , bzw. wird so überall „gesprochen“.

Mit Einsatz des Rahmens F mit einer vorbestimmten Weite W=5 möglicher lexikalischer Elemente 11 und sozusagen ein „dynamisches Verschieben“ des Fensters von links nach rechts, in Leserichtung, können in jeder Position von F bereits Kombinationen der nächsten Schritte vorab reduziert werden. Damit sinken die tatsächlich zu prüfenden gesamten Kombinationsmöglichkeiten nochmals sehr signifikant.(siehe Beispiel 3c)

In Fig. 1 sind alle Stellungen des Rahmens „F“ fmit Weite „W“= 5 bis Position 8 treppenförmig dargestellt.

Beispiel 3:

Kombinationen und Verarbeitungszeiten - 1 - für die syntaktische Analyse des Satzes von Fig.1 bei einem Zeitaufwand je Mustervergleich (1 in 10.000 F/W Muster) = 1/100 Sek.

Siehe auch Tabelle 3

#Varianten : t= Berechnungszeit a) maximale (theoretische) Anzahl von Kombinationen Satz — > 165.622.579.200: t = 52,2 Jahre b) theor. Anzahl Kombinationen durch Einsatz eines Fensters F W=5 -> 121.276: t = 20,2 Min c) Gesamt- Kombinationen mit allen vorab Falschmustern in 16 Schritten ->1.284: t = 1 ,3 Sek

In Fig. 2 ist die Analyse des Satzes aus Fig. 1 im sechsten Abfolgeschritt dargestellt.

Durch die bereits erfolgte Reduzierung von möglichen Kategorien durch Falschmuster vorab, in den Feldern 1 ,2,3,4 und 5 des Schiebefensters F mit W=5 durch die vorhergehenden 5 Berechnungen in den Fensterpositionen davor, beträgt die Anzahl verbliebener Varianten für Schritt 6, die noch zu berechnen sind, bereits nur noch 108 und nicht 1920 wie sich aus der vollen Anzahl Varianten zu Anfang, ohne Verwendung eines Schiebefensters ergibt (s. Fig. 1).

Die zu berechnenden Kombinationen von grammatischen Kombinationen die zu der finalen Zahl 1.284 führt, zeigt Tabelle 3. Nachdem alle Abgleiche durchgeführt sind, ergibt sich eine eindeutige Zuordnung aller grammatischen Kategorien 12 zu der Zeichenkette 10, die in Fig. 3 dargestellt ist. In Fig. 4 ist schematisch eine Ausführungsform unter Verwendung des Computersystems 20 dargestellt. Hier sind die Einlesevorrichtung 1 für die Zeichenkette 10, die Wörterbuchvorrichtung 2, die Syntaxvorrichtung 3, die Verifikationsvorrichtung 4 und die Datenbank 5 sowie die Korrektur- und Ergänzungsvorrichtung 6 einer Einheit angeordnet. Es ist grundsätzlich möglich, dass die Elemente ganz oder teilweise auf mehrere Computer oder auch mobile Endgeräte verteilt sind.

Tabelle 3: Verbleibende Kombinationen von grammatischen Kategorien, bei Verwendung eines Schiebefensteres / Rahmen F mit Weite W = 5 für den Satz in Figuren 1 ,2 und 3

Auf der linken Seite der Fig. 4 ist dargestellt, wie die Zeichenkette 10 nach und nach durch die Einlesevorrichtung 1 für die Zeichenkette 10, die Wörterbuchvorrichtung 2, die Syntaxvorrichtung 3, die Verifikationsvorrichtung 4 und die Datenbank 5 bearbeitet werden.

Die Wörterbuchvorrichtung 2 unterteilt die Zeichenkette 10 in einzelne syntaktische Elemente 11. Die Syntaxvorrichtung 3 ordnet den einzelnen lexikalischen Elementen 11 jeweils mindestens eine grammatische Kategorie 12 zu. Die Verifikationsvorrichtung 4 verwendet dann einen Rahmen F, um die möglichen Kombinationsmöglichkeiten der grammatischen Kategorien 12 der lexikalischen Elemente 11 zu erfassen, soweit sie von dem Rahmen F abgedeckt sind.

Die Ergänzungs- und Korrekturvorrichtung 6 korrigiert und ändert bei Bedarf so, dass ein korrekter syntaktischer Output entsteht oder ggf. Hinweise an den Benutzer automatisch erzeugt werden.

Bezugszeichenliste

1 Einiesevorrichtung

2 Wörterbuchvorrichtung

3 Syntaxvorrichtung

4 Verifikationsvorrichtung

5 Datenbank

6 Korrektur- und Ergänzungsvorrichtung

10 Zeichenkette

11 lexikalisches Element einer Zeichenkette

12 grammatische Kategorie/syntaktisches Element eines lexikalischen Elements

20 Computersystem

W Anzahl der lexikalischen Elemente in einem Rahmen (Width)

F Rahmen (Field)

Claims

Patentansprüche

1. Vorrichtung zur Analyse natürlicher Sprache in Form mindestens einer Zeichenkette (10), umfassend

- eine Einlesevorrichtung (1) eines Computersystems (20) zum Einlesen und Bereitstellen der mindestens einen Zeichenkette (10),

- eine Wörterbuchvorrichtung

(2) des Computersystems (20), welche dazu ausgelegt ist, die von der Einlesevorrichtung (1 ) bereitgestellte mindestens eine Zeichenkette (10) in mehrere syntaktische Elemente (11) zu zerlegen, gekennzeichnet durch

- eine Syntaxvorrichtung

(3) des Computersystems (20), welche dazu ausgelegt ist, jedem lexikalischen Element (11) zumindest eine grammatische Kategorie (12) zuzuordnen und

- eine Verifikationsvorrichtung (4) des Computersystems (20), welche dazu ausgelegt ist, für syntaktische Elemente (11) in einem Rahmen (F) mit einer vorbestimmten Anzahl (W) lexikalischer Elemente (11 ) der mindestens einen Zeichenkette (10) automatisch anhand von vorab in einer Datenbank (5) gespeicherten Grammatik- bzw. Syntaxmustern der natürlichen Sprache für grammatische Kategorien (12) der lexikalischen Elemente (11) festzustellen, welche der Anordnungen der lexikalischen Elemente (11) im Rahmen (F) richtig ist und welche falsch ist und

- eine Korrektur- und Ergänzungsvorrichtung (6), welche dazu ausgelegt ist, in der mindestens einen Zeichenkette (10) und den lexikalischen Elementen (11 ) zugeordneten grammatischen Kategorien (12), systematisch, auch nach Versuch und Irrtum-Strategien, Veränderungen in mindestens einem lexikalischen Element (11 ) der mindestens einen Zeichenkette (10), oder durch Hinzufügen lexikalischer Elemente (11 ) mit geeigneten grammatischen Kategorien (12) zu erreichen, dass die Verifikationsvorrichtung (4) die mindestens eine Zeichenkette (10), nach der mindestens einen eingebrachten Veränderung in der mindestens einen Zeichenkette (10) durch erneuten Mustervergleich als korrekt erkennt. . Vorrichtung nach Anspruch 1 , dadurch gekennzeichnet, dass der Rahmen (F) durch die Verifikationseinreichung (4) nacheinander über jedes syntaktische Element (11) der mindestens einen Zeichenkette (10) überlagerbar ist, wobei für jede Position des Rahmens (F) anhand der Grammatik- bzw. Syntaxmustern (12) alle Variationsmöglichkeiten der möglichen richtigen und falschen Anordnungen der lexikalischen Elemente (11) erfasst werden können. . Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass ein lexikalisches Element (11 ) ein Wort oder ein Satzzeichen aufweist oder aus einem Wort oder einem Satzzeichen besteht.

4. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Anfang der mindestens einen Zeichenkette (10) und das Ende der mindestens einen Zeichenkette (10) jeweils ein lexikalisches Element (11 ) darstellen.

5. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Satzzeichen, insbesondere Komma, Semikolon, Doppelpunkt, Fragezeichen, Ausrufezeichen, Hochkomma, Gänsefüßchen (direkte Rede) oder Punkt, jeweils ein lexikalisches Element (11 ) darstellen.

6. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verifikationsvorrichtung (4) weiterhin derart ausgelegt ist, die rahmenweise ermittelten korrekten grammatikalischen Kategorien (12) der lexikalischen Elemente (11 ) zu identifizieren.

7. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verifikationsvorrichtung (4) die mindestens eine Zeichenkette (10) als syntaktisch korrekt und eindeutig validiert, wenn zu jedem lexikalischen Element (11) genau eine erlaubte grammatische Kategorie (12) ermittelbar ist.

8. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mit der Verifikationsvorrichtung (4) syntaktische Fehler in der mindestens einen Zeichenkette (10) detektierbar sind, wobei ein syntaktischer Fehler dann vorliegt, wenn die Verifikationsvorrichtung (4) für zumindest ein lexikalisches Element (11) nicht nur eine einzige grammatische Kategorie (12) behält oder gar keine erlaubte grammatische Kategorie (12) ermittelt hat.

9. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Korrektheit jedes lexikalischen Elementes (11 ) verifizierbar ist, indem jedes syntaktische Element (11) gegen ein Wörterbuch der Wörterbuchvorrichtung (1) abgeglichen wird.

10. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, gekennzeichnet durch eine Korrekturvorrichtung (6) zur automatischen Korrektur syntaktischer Fehler die in der mindestens einen Zeichenkette (10) enthalten sind.

11 . Verfahren zur Analyse natürlicher Sprache in Form mindestens einer Zeichenkette (10), wobei a) mindestens eine Zeichenkette (10) mit einer Einlesevorrichtung (1 ) in ein Computersystem (20) eingelesen und bereitgestellt wird, b) eine Wörterbuchvorrichtung (2) die bereitgestellte mindestens eine Zeichenkette (10) in mehrere syntaktische Elemente (11 ) zerlegt, c) eine Syntaxvorrichtung (3) jedem lexikalischen Element (11) zumindest eine grammatische

Kategorie (12) zuordnet, und d) eine Verifikationsvorrichtung (4) die lexikalischen Elemente (11) in einem Rahmen (F) mit einer vorbestimmten Anzahl (W) für die lexikalischen Elemente (11) der mindestens einen Zeichenkette (10) automatisch anhand von vorab in einer Datenbank (5) gespeicherten Grammatikregeln der natürlichen Sprache für grammatischen Kategorien (12) der lexikalischen Elemente (11) analysiert und feststellt, welche der Anordnungen der lexikalischen Elemente (11) im Rahmen (F) richtig ist und welche falsch ist.

12. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass deren syntaktische Elemente (12) für Umformulierungen der Zeichenkette (10) bezüglich Zeitform, Numerus, Genus, Kasus, Gendern verwendet werden können, und automatisch so durchgeführt werden, dass sie von der Verifikationsvorrichtung (4) als korrekt erkannt werden.

13. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Verifikationsvorrichtung (4) lexikalische Elemente (11 ) automatisch identifiziert, deren syntaktische Elemente (12) für Zwecke der Zusammenfassung oder der Identifikation von Aktionsoder Begebenheits-Szenarien im Kontext geeignet sind, effizienterweise, aber nicht ausschließlich über den Kasus : wer macht was, mit wem, womit, in wessen Besitz, über Temporaladverbien bzw. andere zeitdarstellende Wörter : wann , bis wann, über Konjunktionen und deren verbundenen Satzteile : warum, für wen, über Quantitätsadverbien oder Zahlen und deren Dimensionen: wie viel, wovon, über Ortsadverbien, Eigennamen : wo, wer, was, bei wem, über besondere Satzzeichen, wie Doppelpunkt, direkte Rede, Ausdrücke eingeschlossen in Gedankenstrichen oder Klammern .

14. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Interpretations- und Ergänzungsvorrichtung (6) bei Zeichenketten (10) die von der Verifikationsvorrichtung (4) als nicht eindeutig detektiert werden, Rückfragen als Zeichenketten (10) automatisch generiert, - unter Einbezug der identifizierten, verbliebenen syntaktischen Elemente (12) -, die selbst, von der Verifikationsvorrichtung (4) als korrekt erkannt werden, um diese online oder offline einem Benutzer oder Folgeprogramm über visuelle, taktil /sensorielle oder auditive Zeichen oder Signale mitteilen zu können.

15. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Korrektur- und Ergänzungsvorrichtung (6), Informationen die aus einer Vorrichtung zur automatischen Spracherkennung als Text vorliegen, zu mindestens einer Zeichenkette (10) zusammenfügt, welche selbst von der Verifikationsvorrichtung (4) als korrekt erkannt werden, die als maschinenausführbare Anweisungen verwendet werden können, in einer beliebigen Mensch-

15 Maschine-Schnittstelle. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine eine Korrektur- und Ergänzungsvorrichtung (6), Informationen die aus mindestens einer Vorrichtung zur automatischen Bildverarbeitung als Text vorliegen, zu mindestens einer Zeichenkette (10) zusammenfügt werden, welche selbst von der Verifikationsvorrichtung (4) als korrekt erkannt werden, die als ausführbare Maschinen-Anweisungen verwendet werden können. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Korrektur- und Ergänzungsvorrichtung (6) bei Zeichenketten (10) die von der Verifikationsvorrichtung (4) als nicht eindeutig detektiert werden, Kommas bei Leerzeichen der Zeichenkette (10) automatisch einfügt, bis die Verifikationsvorrichtung (4) die modifizierte Zeichenkette (10) als korrekt erkennt. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ablauf-Entscheidungen die zu den Berechnungsergebnissen der Syntaxvorrichtung (3) und / oder Verifikationsvorrichtung (4) und / oder Korrektur- und Ergänzungsvorrichtung (6) von maschinenausführbaren Anweisungen kausal, deterministisch dokumentierbar sind, um die Rückverfolgbarkeit einer Mensch-Maschine-Schnittstelle bezüglich ihres Inputs und der daraus resultierenden Aktionen in denen diese maschinenausführbaren Anweisungen angewendet wurden. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aufgrund formeller Vorgaben für Texte, wie Verständlichkeit der Satzstrukur (Subjekt, Prädikat, Objekt Abfolge) oder formell logische Kohärenz, aber nicht ausschließlich, Bewertungen der formellen Struktur, bezüglich Länge, Typ und Sequenz morphologischer Komponenten der Zeichenkette (10) automatisch erfolgen, um diese online oder offline einem Benutzer oder Folgeprogramm über visuelle, taktil /sensorielle oder auditive Zeichen oder Signale mitteilen zu können.

16