WO2022122061A1 - Vorrichtung zum syntaktischen parsing natürlicher sprachen - Google Patents

Vorrichtung zum syntaktischen parsing natürlicher sprachen Download PDF

Info

Publication number
WO2022122061A1
WO2022122061A1 PCT/DE2020/000329 DE2020000329W WO2022122061A1 WO 2022122061 A1 WO2022122061 A1 WO 2022122061A1 DE 2020000329 W DE2020000329 W DE 2020000329W WO 2022122061 A1 WO2022122061 A1 WO 2022122061A1
Authority
WO
WIPO (PCT)
Prior art keywords
character string
lexical
elements
correct
grammatical
Prior art date
Application number
PCT/DE2020/000329
Other languages
English (en)
French (fr)
Inventor
Matthias DELLIT
Evita GIARDINELLI
Original Assignee
VAN SPRANG, Lowie
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VAN SPRANG, Lowie filed Critical VAN SPRANG, Lowie
Priority to PCT/DE2020/000329 priority Critical patent/WO2022122061A1/de
Priority to EP20845379.5A priority patent/EP4260206A1/de
Priority to US18/256,912 priority patent/US20240028825A1/en
Publication of WO2022122061A1 publication Critical patent/WO2022122061A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Definitions

  • syntactic parsing methods usually use statistical methods and parsing trees.
  • these methods fail when there are higher demands on the recognition of grammatical errors and the fineness of the syntactic resolution of the parsing.
  • the precise determination of logical and semantic relations, actors, proper names, etc., of the words in the overall context is limited by state-of-the-art methods, which in turn unnecessarily complicates language-AI applications, and the comprehensive processing of knowledge in unstructured texts / Statements have so far been sensitively restricted, or due to a lack of traceability, the use of voice Kl in safety-relevant applications of the human-machine interface has been prevented.
  • the task is therefore to develop devices and methods that allow the syntax of a character string in natural language to be determined automatically with a much higher degree of accuracy, while at the same time short process times in the 1 second range on standard computers / smartphones than how the state of the art has so far allowed it.
  • the device has a reading device for reading in and providing at least one character string. Furthermore, the device has a dictionary device, which is designed to convert the at least one character string provided by the reading device into automatically processable, numerically categorizable, syntactic and lexical elements of the present text.
  • the device has a syntax device which is designed to assign each syntactic and lexical element in its basic form to at least one of its numerically processable grammatical categories of the language, which usually consist of more than just a single option.
  • a syntax device which is designed to assign each syntactic and lexical element in its basic form to at least one of its numerically processable grammatical categories of the language, which usually consist of more than just a single option.
  • the end result is the identification of the word stem / basic form of each individual lexical element / word and the grammatical category that actually leads to each word in the analyzed sentence.
  • the claimed device contains a verification device which is designed for grammatical/syntactical elements of at least one character string automatically based on grammar/syntactical patterns of the natural language stored in a database beforehand for grammatical categories and basic forms of the lexical elements in a few 1/ 10 seconds on a commercially available portable computer / smartphone to determine which of the over 33 thousand possible selection sequences of the grammatical / syntactical categories in the sentence is the only correct one.
  • the examination of a character string can be carried out efficiently by systematically processing several consecutive, e.g. 5 words / lexical elements at the same time, and repeating them word for word in the natural reading direction, shifted further. So to speak via a virtual "sliding window" F with the width "W” (see also Fig. 1 and 2) similar to the "wandering eye fixation window” when a person reads a text. It is efficient but not required to change the position by the value +1 from step to step, but all positions must be taken at least once in the course of the procedure, unless for words with only one grammatical category.
  • Grammar Zsyntax patterns can take the following forms.
  • Example 2 Typical sequential, lexically represented grammar-syntax patterns of a language with number-inflecting articles + nouns, pronouns, with true/false patterns.
  • Pattern lengths Pattern category sequences
  • lexical units are sufficient, in accordance with the eye fixation Window when interpreting messages visually, or corresponding to approx. 15-20 "lexical individual signals" per second when listening to acoustic sequences.
  • sample lengths considered by the method itself.
  • Punctuation marks or the beginning and end of sentences can also be contained in the grammar/syntax patterns as lexical elements. If necessary, continuous text, lexical elements and their grammatical/syntactical information of sentences before or after the analyzed can be taken into account. E.g. with interrogative or interjective character strings. In particular, the beginning of the at least one character string and the end of the at least one character string, or commas, dashes, etc., in the string can each represent a lexical element. Punctuation marks such as semicolons or colons can usually be treated as sentence beginnings for the syntax, in reading direction. As a result, the punctuation of sentences can also be recorded with the method using patterns, and can therefore be checked and corrected very efficiently without having to set up classic grammatical rules from a textbook. The same applies to upper and lower case letters.
  • the method is therefore also suitable for the analysis of spoken character strings (lexicalized phoneme strings from "Voice To Text” machines), which are created neither with punctuation marks nor with upper and lower case letters when speaking.
  • a verification device is designed in such a way that correct grammatical categories of the lexical elements determined frame by frame (frame F with width W) are identified.
  • an automatic comma or spelling correction can be carried out using a correction and supplement device.
  • alternative spellings of the at least one character string can be processed in parallel in the machine to save time.
  • the verification device can therefore be used to detect syntactic errors in the at least one character string, with a syntactic error being present if the verification device has not only detected a single permitted grammatical category for at least one lexical element after the analysis of all possible combinations has been completed.
  • the verification device which validates at least one character string as syntactically correct and unambiguous, if precisely one permitted grammatical category can be determined for each lexical element.
  • each lexical element is verifiable by comparing each syntactic element against a dictionary of the dictionary device.
  • the device can have a correction device for automatically correcting syntactic errors in the at least one character string.
  • a correction device for automatically correcting syntactic errors in the at least one character string.
  • FIG. 2 shows the character string according to FIG. 1 in a processing step (in the example step 6 after the first comma) for determining possible grammatical categories;
  • FIGS. 1 and 2 shows the character string according to FIGS. 1 and 2 after completion of the comparison
  • FIG. 4 shows a schematic representation of a computer system with an embodiment of the device.
  • the character string 10 in FIG. 1 is borrowed from the English language, it not being important for the embodiments described below which language the character string 10 is borrowed from. It is only important that the natural language has specific, coherent grammatical structures that can be repeatedly assigned to specific grammatical categories 12 in all correctly written words and punctuation marks (referred to collectively as lexical elements 11 here) depending on the syntax. Some possible examples of grammatical categories 12 in the German language are given in the right-hand column of the following table. 1
  • Table 2 Examples of English language grammatical categories
  • This exemplary classification of the grammatical categories 12 is not final. It is important that there is a consistent assignment of grammatical categories 12 to individual lexical elements 11 of the character string 10 .
  • the use of the case in all languages is relevant for the precision of the analysis result and the subsequent evaluation of the result, even if this is unusual for Anglo-Saxon language use apart from the genitive.
  • the string 10 of Figure 1 has 17 syntactic entities: 15 words + 2 punctuation marks. If a reading device 1 of a computer system 20 (see Fig. 4) provides such a character string 10, a dictionary device 2 of the computer system 4 breaks down the character string 10 into the individual lexical elements 11 can then be determined in the character string 10. For words that are more than allow only a single basic form, all possibilities are taken into account. If the language is structured coherently with regard to these duplications, the method presented also solves it.
  • a syntax device 3 on the computer system 20 now determines which possible grammatical categories 12 can be assigned to the individual lexical elements 11 or their basic forms. In doing so, the syntax device 3 accesses a database 5 which, for example, contains the information in Tables 1 and 2 above.
  • the grammatical categories 12 “pronoun, third person, neuter” and “pro.obj.” (object pronoun), third person neuter” are assigned to the first lexical element 11 “it”.
  • Eight grammatical categories 12 are assigned to the second lexical element 11 “is”.
  • a frame F is used in the embodiment described here, which can consider five syntactic elements 11 at a time. This frame F is now gradually guided over the character string 10, each time advancing a lexical element 11. (See also Table 3)
  • the centered position is always evaluated as correct or incorrect, including "2 left, 2 right”.
  • the number W of lexical elements 11 per frame F must be smaller than the total number of lexical elements 11 in the character string 10 . As said it is more efficient with W in range
  • FIG. 2 shows the analysis of the sentence from FIG. 1 in the sixth sequential step.
  • the number of variants left for step 6 is which are still to be calculated, already only 108 and not 1920 as can be seen from the full number of variants at the beginning, without using a sliding window (see Fig. 1).
  • Table 3 shows the combinations of grammatical combinations to be calculated that lead to the final number 1,284. After all comparisons have been carried out, all grammatical categories 12 are unambiguously assigned to the character string 10 shown in FIG.
  • An embodiment using the computer system 20 is shown schematically in FIG. 4 .
  • the reading device 1 for the character string 10, the dictionary device 2, the syntax device 3, the verification device 4 and the database 5 as well as the correction and supplement device 6 of a unit are arranged here. In principle, it is possible for the elements to be distributed in whole or in part to several computers or mobile devices.
  • FIG. 4 shows how the character string 10 is successively processed by the character string 10 reading device 1 , the dictionary device 2 , the syntax device 3 , the verification device 4 and the database 5 .
  • the dictionary device 2 divides the character string 10 into individual syntactic elements 11.
  • the syntax device 3 assigns the individual lexical elements 11 to at least one grammatical category 12 in each case.
  • the verification device 4 then uses a frame F to to capture the possible combinations of the grammatical categories 12 of the lexical elements 11, insofar as they are covered by the framework F.
  • the supplementing and correcting device 6 corrects and, if necessary, changes in such a way that a correct syntactical output is produced or, if necessary, information for the user is automatically generated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft eine Vorrichtung zur Analyse natürlicher Sprache in Form mindestens einer Zeichen kette (10), umfassend - eine Einlesevorrichtung (1) eines Computersystems (20) zum Einlesen und Bereitstellen der mindestens einen Zeichenkette (10), - eine Wörterbuch Vorrichtung (2) des Computersystems (20), welche dazu ausgelegt ist, die von der Einlesevorrichtung (1) bereitgestellte mindestens eine Zeichenkette (10) in mehrere lexikalische Elemente (11) zu zerlegen, gekennzeichnet durch - eine Syntaxvorrichtung (3) des Computersystems (20), welche dazu ausgelegt ist, jedem lexikalischen Element (11) der minestens einen Zeichenkette (10) zumindest eine grammatische Kategorie / syntaktisches Element (12) zuzuordnen und - eine Verifikationsvorrichtung (4) des Computersystems (20), welche dazu ausgelegt ist, für syntaktische Elemente (11) in einem Rahmen (F) mit einer vorbestimmten Anzahl (W) lexikalischer Elemente (11) der mindestens einen Zeichenkette (10) automatisch anhand von vorab in einer Datenbank (5) gespeicherten Grammatik- / Syntaxmustern einer natürlichen Sprache für grammatische Kategorien (12) der lexikalischen Elemente (11) festzustellen, welche der Anordnungen der syntaktischen Elemente (12) im Rahmen (F) richtig, und welche falsch sind und - eine Korrektur und Ergänzungsvorrichtung (6), welche dazu ausgelegt ist, bei Auslassungen von, bzw. Fehlern in lexikalischen Elementen (11) automatisch Veränderungen der mindestens einen Zeichenkette (10) zu erzeugen, die selbst von der Verifikationsvorrichtung (4) als korrekt erkannt werden.

Description

Vorrichtung zum syntaktischen Parsing natürlicher Sprache
Bei der maschinellen Bearbeitung natürlicher Sprache, wie z.B. im Rahmen von automatischen Übersetzungsprogrammen oder Interpretation von Befehlen in der Mensch-Maschine-Schnittstelle, stoßen computerbedingte Vorrichtungen und Verfahren immer wieder auf Schwierigkeiten, da sich bestimmte Fragestellungen nur aus dem Sinn des Satzes erschließen, der sich wiederum nur genau bestimmen lässt, wenn die syntaktische Information jedes Wortes bekannt ist: Wie Wortart (Substantiv, Verb, Pronomen, Adjektiv), mit Kasus, Genus, Numerus, bzw. Zeitform (z.B. Präsens, Perfekt) oder Person (z.B. erste Person Singular, dritte Person Plural), die einem natürlichen Sprecher der Sprache intuitiv zwar bekannt sind, maschinell aber -bislang- keine Verfahren bekannt sind, welche die Syntax eines Satzes durchgängig, vollständig, präzise und schnell, automatisch determinieren können.
Bekannte, syntaktische Parsingverfahren nutzen i.d.R. statistische Methoden und Parsing-Trees. Da aber natürliche Sprache in ihrer kognitiven Basis vom Gehirn -nicht- statistisch verarbeitet wird, scheitern diese Methoden bei höheren Ansprüchen an Erkennung grammatischer Fehler und Feinheit der syntaktischen Auflösung des Parsings. Die genaue Bestimmung von logischen und semantischen Relationen, Akteuren, Eigennamen, usw., der Wörter im Gesamtkontext, ist durch Verfahren nach dem Stand der Technik begrenzt, was wiederum Sprach-Kl Anwendungen unnötig erschwert, und die umfassende Verarbeitung von Wissen in unstrukturierten Texten / Aussagen bislang empfindlich einschränkt, bzw. mangels Rückverfolgbarkeit, die Anwendung von Sprach-Kl in sicherheitsrelevanten Anwendungen der Mensch-Maschine-Schnittstelle verhindert.
Da Wörter z.T. eine sehr hohe Variantenvielfalt an syntaktischen Formen haben, -z.B. weist jedes deutsche Adjektive i.d.R. 147 unterschiedliche syntaktische Formen auf, wenn man Deklinations- Stärke, Kasus, Genus und Komparativ berücksichtigt - ist es üblich das bereits normale Sätze Millionen bis Milliarden theoretischer möglicher syntaktischer Zuordnungs-Kombinationen haben, mit der Folge sehr großer Rechenzeiten, will man hohe Determinationsgenauigkeit erreichen, ohne den ungenauen, statistischen Stand der Technik zu verwenden. Will man also genauere Verfahren als Statistik zum Parsing anwenden, muss gleichzeitig das Problem der Rechenzeiten gelöst sein.
Es besteht daher die Aufgabe, Vorrichtungen und Verfahren zu entwickeln, die es erlauben, die Syntax einer Zeichenkette natürlicher Sprache automatisch mit einem weit höheren Genauigkeitsgrad zu determinieren, bei gleichzeitig kurzen Prozesszeiten im 1 Sekunden-Bereich, auf Standard- Computern / Smartphones, als wie es der Stand der Technik bislang erlaubt.
Diese Aufgaben werden durch eine Vorrichtung mit den Merkmalen des Anspruchs 1 gelöst.
Die Vorrichtung weist eine Einlesevorrichtung zum Einlesen und Bereitstellen mindestens einer Zeichenkette auf. Des Weiteren weist die Vorrichtung eine Wörterbuchvorrichtung auf, welche dazu ausgelegt ist, die von der Einlesevorrichtung bereitgestellte mindestens eine Zeichenkette in automatisch verarbeitbare, numerisch kategorisierbare, syntaktische und lexikalische Elemente des vorliegenden Textes zu zerlegen.
Dafür weist die Vorrichtung eine Syntaxvorrichtung auf, welche dazu ausgelegt ist, jedem syntaktischen und lexikalischen Element in seiner Grundform zumindest eine ihrer numerisch verarbeitbaren grammatischen Kategorien der Sprache zuzuordnen, die meistens aus mehr als nur einer einzigen Möglichkeit bestehen. Z.B. sind im Deutschen massiv deklinationsbedingte Varianten zu berücksichtigen: Wein: der Wein, dem Wein, des Weines, den Wein, den Weinen, der Weine, die Weine; Im Englischen hingegen oft mehrere unterschiedliche Kategorien je Wort: z.B. „round“ = Substantiv, Adjektiv, Verb, Adverb.
Im Endergebnis ist die Identifikation des Wortstammes / Grundform jedes einzelnen lexikalischen Elementes / Wortes und dafür die grammatische Kategorie automatisch zu bestimmen, welche jedes Wort im analysierten Satz tatsächlich führt.
BeispieH: Annotiert ist die einzige Syntax-Lösung für den Input Satz „Komplexen Weinen werden oft Barriquearomen zugesetzt. "
Inputsatz Komplexen | Weinen | werden | oft | Barriquearomen | zugesetzt.
Grundform: komplex | Wein | werden | oft | Barriquearoma | zusetzen
Kategorie: Adj | Subst | Verb | Adv | Subst | Verb
Numerus: Plural | Plural | Plural | | Plural
Flexion: stark
Genus: mask | mask | | neut
Kasus: Dat | Dat I I Nominativ
Konjugation: I 3. Pers I | Partiz.Perf
£Var je Kat: 26 | 8 | 4 | 1 | 8 | 5 ft all Kat Varianten = 26*8*4*1*8*5 = 33.280
Z.B. hier Gelöste technische Aufgabe: finde die einzige korrekte Lösung in den 33.280 Möglichkeiten. (Bei 1/100 Sekunde Rechenzeit je Variante, wird eine Maschine, welche die Erfindung nicht benutzt, und nicht statistisch arbeitet, ca. 5 Minuten benötigen. )
Bei holistischer Betrachtung hat dieser einfache Satz bereits insgesamt 26*8*4*1*8*5 = 33.280 theoretische Kombinationsmöglichkeiten an grammatischen Kategorien, die seine lexikalischen Elemente jedes für sich, in der Form des Inputs, einzeln, theoretisch annehmen können. Die beanspruchte Vorrichtung enthält eine Verifikationsvorrichtung, welche dazu ausgelegt ist, für grammatisch- / syntaktische Elemente, der mindestens einen Zeichenkette automatisch anhand von vorab in einer Datenbank gespeicherten Grammatik- / Syntaxmustern der natürlichen Sprache für grammatische Kategorien und Grundformen der lexikalischen Elemente in wenigen 1/10-Sekunden auf einem handelsüblichen portablen Computer / Smartphone festzustellen, welche, der hier z.B. über 33-tausend möglichen Auswahl-Sequenzen der grammatischen / syntaktischen Kategorien im Satz die einzige richtige ist.
Die Untersuchung einer Zeichenkette kann effizient erfolgen, bei systematischer Verarbeitung mehrerer konsekutiver, z.B. 5 Wörter / lexikalischen Elementen gleichzeitig, und Wort für Wort in natürlicher Leserichtung, weitergeschoben, zu wiederholen. Sozusagen über ein virtuelles „Schiebefenster“ F mit der Weite „W“, (s. auch Fig. 1 und 2) ähnlich dem „wandernden Augen-Fixations-Fenster“ beim Lesen eines Textes durch einen Menschen. Es ist effizient, aber nicht Bedingung, die Position um den Wert +1 von Schritt zu Schritt zu verändern, es müssen aber im Laufe des Verfahrens alle Positionen mindestens einmal eingenommen werden, es sei denn, für Wörter mit nur einer grammatischen Kategorie.
Dabei werden die Kombinationsmöglichkeiten der möglichen grammatischen Kategorien der mehreren, konsekutiv, gleichzeitig erfassten Wörter als Feld verarbeitet (s. auch Fig. 1 und 2), und die kombinatorischen Einzelergebnisse jedes Feldes mit allen anderen Feldern aller anderen Spalten des reduzierten Feldes bzw. Matrix, mit in einem Speicher abrufbaren Grammatik- / Syntaxmustern der Sprache zu vergleichen, die mit den Grundformen der lexikalischen Elemente gekoppelt sind.
Falsche Kombinationen werden in ihrer jeweils zugewiesenen Spalte für jeden Schritt aus der Matrix entfernt. Wahre werden behalten. Bei falschen werden die entsprechenden Kategorien bei jedem Wort entfernt, was das Lösungsfeld schnell, zusätzlich ausdünnt. Das Vorgehen wird so lange sequenziell, Wort für Wort wiederholt, bis bei jedem Wort nur noch 1 einzige Kategorie übrigbleibt. Dies ist bei korrekt formulierten Sätzen und ausreichend hoher, kohärenter Anzahl verfügbarer Grammatik- / Syntaxmustern der Fall. Hochsprachen sind mit ca. 4000 -bis- 10.000 Wahr bzw. Falsch Grammatik- / Syntaxmustern, je nach Sprachgebrauch (einfach, mit kurzen Sätzen < 13 Wörter -bis- hochwissenschaftlich / künstlerisch / figurativ) gut abgedeckt. Bei syntaktisch inkorrekt formulierten Sätzen, oder syntaktisch uneindeutigen (ambigen) Sätzen (s. Beispiel 3.) bleibt mindestens bei 1 Wort des Satzes mehr als ein einziges grammatisch- / syntaktisches Element für eines der lexikalischen Elemente übrig. Bleiben in einem Verarbeitungs-Durchgang mehr als 1 Kategorie bei einem lexikalischen Element übrig, wird der Vorgang wiederholt, so lange, bis sich die Anzahl zugewiesener Kategorien nach einem Durchlauf, bezüglich der Anzahl Kategorien, wenn er beginnt, nicht ändert.
Grammatik-ZSyntaxmuster können folgende Formen aufweisen. Beispiel 2. Typische sequentielle, lexikalisch dargestellte Grammatik-ZSyntaxmuster einer Sprache mit Numerusflektierenden Artikeln + Substantiven, Pronomen, mit Wahr / Falsch Mustern.
| Artikel | Objekt-Pronomen | Substantiv | = falsch (Musterlänge=3)
| Artikel. Singular | Substantiv.Singular | = richtig (Musterlänge =2)
| Artikel. Singular | Substantiv. Plural | = falsch (Musterlänge =2)
| Personal Pronomen | Verb Konjugiert | Objekt-Pronomen. Dat | Verb.inf | = richtig (Musterlänge =4)
| Objekt-Pronomen. Dat | Verb Konjugiert | Personal Pronomen | Verb.inf | = falsch (Musterlänge =4)
Diese Muster können effizient aus den Möglichkeiten extrahiert werden, die korrekte Sätze aufweisen: Im Beispiel von Fig. 1 , beim lexikalischen Element „it“ sind „Falsch“ Muster im Englsichen z.B.
| pro.obj 3s n | v.pres.3s. f | = Falsch
| pro.obj.3s n | v.pres.3s. m | = Falsch
| beg.0. | pro.obj.3s n | = falsch
Für das zweite lexikalische Element „is“ sind „Falsch Muster“ z.B.
| v.pres.cont.| art. | v.inf. | = falsch | v.pres.cont prep. | s.Nom |= falsch
So kann man für jede Sprache, nach manueller Bearbeitung von ca. 5000 unterschiedlichen - grammatisch k o r r e k t e n Sätzen ausreichend hoher morphologischer Varianz die Wahr / Falsch Grammatik- / Syntaxmuster erhalten, welche zum Einsatz des Verfahrens erforderlich sind.
Es ist zu berücksichtigen, dass nur mit Wahr-Mustern eine Funktion des Verfahrens nicht auf einfachere Art hergestellt werden kann, als wie mit der Kombination von Wahr und Falsch.
Für die einzige übrigbleibende Variante muss nicht zwingenderweise ein „Wahr“-Muster vorliegen, zumindest aber kein „Falsch“.
Es ist zu berücksichtigen, dass diese manuelle Arbeit der Muster-Auswahl ausschließlich mit 100% korrekten Sätzen bezüglich Punktuation, Rechtschreibung und Syntax durchgeführt wird. Ansonsten entsteht kein in sich kohärentes Gesamt-System von Grammatik- / Syntaxmustern.
Besonderheiten von Sprachen, wie z.B. die Kollokation von Verbpartikeln von Kompositaverben im Deutschen, lässt sich mit dem Verfahren auch erfolgreich lösen, da die Muster des Auftretens z.B. von Verbpartikeln, an Stellen geschehen, in welchen Präpositionen ein Falsch-Muster ergeben und mit dem Systemwörterbuch abgeglichen werden können.
Das vorgestellte Lösungsprinzip ist für jede Sprache geeignet, welche sich wiederholende Grammatik- / Syntaxmuster beim Sprechen, oder Schreiben aufweist. Egal ob natürliche Sprache oder nicht. Die Zeichen bzw. Signale auf die Bezug genommen wird, können beliebig sein, (auch Morse, Flaggenführung durch Signalgast, etc.) Es genügen Musterlängen (Muster-Kategoriesequenzen) über i.d.R. 2-5 Wörter / Lexikalische Einheiten, entsprechend dem Augen-Fixations-Fenster beim visuellen Interpretieren von Mitteilungen, bzw. entsprechend ca. 15-20 „lexikalischen Einzelsignalen“ pro Sekunde, beim Hören von akustischen Sequenzen.. Es gibt aber keine Limitation für die betrachteten Musterlängen durch das Verfahren an sich.
Als lexikalische Elemente können auch Satzzeichen, bzw. Satzbeginn und Satzende in den Grammatik-/Syntaxmustern enthalten sein. Soweit erforderlich, können in Fließtext, lexikalische Elemente und ihre grammatische / syntaktische Information von Sätzen vor oder nach dem Analysierten berücksichtigt werden. Z.B. bei interrogativen oder interjektiven Zeichenketten. Insbesondere können der Anfang der mindestens einen Zeichenkette und das Ende der mindestens einen Zeichenkette, bzw. Kommas, Gedankenstriche, usw., in der Kette jeweils ein lexikalisches Element darstellen. Satzzeichen wie z.B. Semikolon oder Doppelpunkte, können i.d.R. für die Syntax wie Satzbeginne behandelt werden, in Leserichtung. Das führt dazu, dass auch die Punktuation von Sätzen mit dem Verfahren durch Muster erfasst werden können, und deshalb sehr effizient geprüft und korrigiert werden können, ohne klassische grammatische Regeln nach Lehrbuch aufstellen zu müssen. Das Gleiche gilt für Groß- und Kleinschreibung.
Das Verfahren ist somit auch für die Analyse von gesprochenen Zeichenketten (lexikalisierter Phonemketten aus „Voice To Text" Maschinen) geeignet, welche ja weder mit Satzzeichen, noch mit Groß- / Kleinschreibung beim Sprechen entstehen.
In einer weiteren Ausführungsform der Vorrichtung ist eine Verifikationsvorrichtung derart ausgelegt, dass rahmenweise (Rahmen F mit Weite W) ermittelte korrekte grammatikalische Kategorien der lexikalischen Elemente identifiziert werden.
Ergibt ein Analyse-Lauf mit der Vorrichtung keine eindeutige Lösung, hingegen aber z.B. bei automatischem Einsetzen zusätzlicher Kommas, oder Groß-Kleinschreibung an bestimmten Stellen im Satz, dann kann damit eine automatische Kommasetzung, oder Rechtschreibkorrektur über eine Korrektur- und Ergänzungsvorrichtung erfolgen. In solchen Fällen kann zur Zeitersparnis eine parallele Verarbeitung von alternativen Schreibweisen der mindestens einen Zeichenkette in der Maschine erfolgen.
In einer weiteren Ausführungsform sind demnach mit der Verifikationsvorrichtung syntaktische Fehler in der mindestens einen Zeichenkette detektierbar, wobei ein syntaktischer Fehler dann vorliegt, wenn die Verifikationsvorrichtung nach Abschluss der Analyse aller Kombinationsmöglichkeiten, für zumindest ein lexikalisches Element nicht nur eine einzige erlaubte grammatische Kategorie detektiert hat.
Auch ist es möglich, dass die Verifikationsvorrichtung, die mindestens eine Zeichenkette als syntaktisch korrekt und eindeutig validiert, wenn zu jedem lexikalischen Element genau eine erlaubte grammatische Kategorie ermittelbar ist.
Es ist auch möglich, dass die Korrektheit jedes lexikalischen Elementes verifizierbar ist, indem jedes syntaktische Element gegen ein Wörterbuch der Wörterbuchvorrichtung abgeglichen wird.
Die Vorrichtung kann in einer Ausführungsform eine Korrekturvorrichtung zur automatischen Korrektur syntaktischer Fehler in der mindestens einen Zeichenkette aufweisen. Die Erfindung wird anhand von Ausführungsbeispielen und anhand von Figuren erläutert. Dabei zeigt: Fig. 1 ein erster Beispielsatz, anhand dem erläutert wird, wie eine Zeichenkette in syntaktische Elemente zerlegbar ist und wie den lexikalischen Elementen eine grammatische Kategorie zuordenbar ist;
Fig. 2 die Zeichenkette nach Fig. 1 bei einem Bearbeitungsschritt (im Beispiel Schritt 6 nach dem ersten Komma) zur Ermittlung möglicher grammatischer Kategorien;
Fig. 3 die Zeichenkette nach Fig. 1 und 2 nach Beendigung des Abgleichs;
Fig. 4 eine schematische Darstellung eines Computersystems mit einer Ausführungsform der Vorrichtung.
Zunächst soll die grundsätzliche Funktion einer Ausführungsform anhand der Analyse einer Zeichenkette 10 erläutert werden.
In Fig. 1 ist der Satz „It is a shame, the kids are not in focus in any of your photos" (auf Deutsch: "Es ist schade, dass die Kinder auf keinem deiner Fotos scharf abgebildet sind”) in Form einer Zeichenkette 10 dargestellt. Hier wird das Vorgehen aus Gründen der Übersichtlichkeit nur an einem Satz als Zeichenkette 10 beschrieben. Grundsätzlich können auch mehr als ein Satz, d.h. längerer Text, untersucht werden.
Die Zeichenkette 10 in Fig. 1 ist der englischen Sprache entlehnt, wobei es für die im Folgenden beschriebenen Ausführungsformen grundsätzlich nicht darauf ankommt, welcher Sprache die Zeichenkette 10 entlehnt ist. Wichtig ist lediglich, dass die natürliche Sprache bestimmte, kohärente grammatische Strukturen aufweist, die sich in allen korrekt geschriebenen Wörtern und Satzzeichen (hier zusammenfassend als lexikalische Elemente 11 bezeichnet) syntaxabhängig, bestimmte grammatische Kategorien 12 wiederholbar zuordenbar sind. In der rechten Spalte der folgenden Tabelle werden einige mögliche Beispiele für grammatische Kategorien 12 der deutschen Sprache angegeben.1
Tabelle 1 : Beispiele für grammatische Kategorien der deutschen Sprache
Figure imgf000008_0001
1 Anmerkung: in der Liste sind grammatische Kategorien enthalten, welche in der klassischen Lehrgrammatik nicht unbedingt existieren, jedoch für eine informatisch-stringente Logikstruktur einer Maschine unabdingbar sind.
Figure imgf000009_0001
In der rechten Spalte der folgenden Tabelle werden einige mögliche Beispiele für grammatische Kategorien 12 der englischen Sprache angegeben (z.B. kein Genus über den Artikel, Konjugation der Personen nur in 2 Formen, usw. usf.):
Tabelle 2: Beispiele für grammatische Kategorien der englischen Sprache
Figure imgf000009_0002
Diese beispielhafte Einteilung der grammatischen Kategorien 12 ist nicht abschließend. Wichtig ist, dass es eine in sich konsistente Zuordnung grammatischer Kategorien 12 zu einzelnen lexikalischen Elementen 11 der Zeichenkette 10 gibt. Die Führung des Kasus in allen Sprachen ist für die Präzision des Analyseergebnisses und folgende Auswertungen des Ergebnisses relevant, auch wenn dies für den angelsächsischen Sprachgebrauch außer dem Genitiv ungewohnt ist.
Die Zeichenkette 10 gemäß Fig. 1 weist 17 syntaktische Entitäten auf: 15 Wörter + 2 Satzzeichen. Wenn eine Einlesevorrichtung 1 eines Computersystems 20 (siehe Fig. 4) eine solche Zeichenkette 10 bereitstellt, zerlegt eine Wörterbuch Vorrichtung 2 des Computersystems 4 die Zeichenkette 10 in die einzelnen lexikalischen Elemente 11. Dazu weist die Wörterbuchvorrichtung 2, Wörterlisten und deren Grundformen auf, die dann in der Zeichenkette 10 ermittelt werden können. Bei Wörtern die mehr als nur eine einzige Grundform zulassen, werden alle Möglichkeiten berücksichtig. Ist die Sprache bezüglich dieser Dopplungen kohärent gegliedert, löst sie das vorgestellte Verfahren ebenfalls.
Eine Syntaxvorrichtung 3 auf dem Computersystem 20 ermittelt nun, welche möglichen grammatischen Kategorien 12 den einzelnen lexikalischen Elementen 11 , bzw. ihren Grundformen zugeordnet werden können. Dabei greift die Syntaxvorrichtung 3 auf eine Datenbank 5 zu, die z.B. die Informationen in den obigen Tabellen 1 und 2 aufweist.
In dem Fall, der in Fig. 1 dargestellt ist, werden dem ersten lexikalischen Element 11 „it“ die grammatischen Kategorien 12 „Pronomen, dritte Person, neutrum“ und „pro.obj.“ (Objektpronomen), dritte Person neutrum“ zugeordnet. Dem zweiten lexikalischen Element 11 „is“ werden acht grammatische Kategorien 12 zugeordnet.
Die vollständige Liste der im Beispiel der Fig. 1 verwendeten grammatischen Kategorien 12 ist in der Tabelle 1 wiedergegeben (geklammerte Ausdrücke).
In der Fig. 1 ist auch jeweils die Anzahl der grammatischen Kategorien 12 pro syntaktischem Element 11 angegeben. Das Hilfsverb „are“ hat z.B. in dieser Zeichenkette 10 zwölf verschiedene mögliche grammatische Kategorien 12. (siehe Zeile X Var per kat)
Damit ergeben sich in Figur 1 grundsätzlich 0,165 Billionen (siehe Zeile n all kat) verschiedene Möglichkeiten, die grammatischen Kategorien 12 der Zeichenkette 10 miteinander zu kombinieren, wenn die gesamte Länge der Zeichenkette 10 analysiert wird, und davon ist die einzig richtige zu finden, in einer Zeit um 1 Sekunde, auf portablen Computern / Smartphones.
Im Folgenden wird nun dargestellt, wie eine Verifikationsvorrichtung 4 des Computersystems 20 dazu zu verwendet wird, Kombinationen der grammatischen Kategorien 12 zu ermitteln, die gleichzeitig der Zeichenkette 10 automatisch eine grammatische Kategorie zuordnet.
Dazu wird in der hier beschriebenen Ausführungsform ein Rahmen F verwendet, der jeweils fünf syntaktische Elemente 11 auf einmal betrachten kann. Dieser Rahmen F wird nun nach und nach, jeweils ein lexikalisches Element 11 vorrückend, über die Zeichenkette 10 geführt. (Siehe auch Tabelle 3)
Die oben erwähnten Kombinationen der grammatischen Kategorien 12 werden somit nicht über die ganze Zeichenkette 10 durchgeführt, sondern jeweils nur für die grammatischen Kategorien 12 der lexikalischen Elemente 11 , die von dem Rahmen F erfasst werden. Durch die Verwendung des Rahmens F, der nur eine Teilmenge der syntaktischen Einheiten 11 abdeckt, ergibt sich eine sehr große Reduktion der abzugleichenden Kombinations-Möglichkeiten.
Z.B. bei einem 5er Rahmen wird immer die zentrierte Position als richtig oder falsch bewertet unter Einbezug „2links, 2 rechts“. Bei Satzbeginn ist die Position 2-li leer; 1-li = „begin". Am Ende der Zeichenkette 10 ist re-1 = „end“ und re-2 ist leer. Am Satzbeginn und Satzende werden hier also 4 lexikalische Positionen auf deren Grammatik-ZSyntaxmuster verglichen. Wenn z.B. der Rahmen F mit W=5 das erste lexikalische Element 11 (hier „it“) bis zum dritten (2 links,
2 rechts) lexikalischen Element 11 (hier „a“) abdeckt, ergeben sich 2 x 8 x 8 = 128 mögliche Kombination der grammatischen Kategorien 12 (siehe Zeile Var per kat) bei „It".
Wird der Rahmen F ein lexikalisches Element 11 in der Zeichenkette 10 weitergeschoben (d.h. nun z.B. auf „is“), dann ergeben sich (2 links 2 rechts) 2 x 8 x 8 x 5 = 640 Möglichkeiten.
Die Anzahl W der lexikalischen Elemente 11 pro Rahmen F muss natürlich kleiner, als die Gesamtzahl der lexikalischen Elemente 11 der Zeichenkette 10 sein. Wie gesagt ist es effizienter mit W im Bereich
3 bzw. 5 zu arbeiten. Mit der Rahmenweite steigt die Anzahl erforderlicher Vergleiche exponentiell.
Normale Sprache ist mit Fixationsweiten um 3 bis 5 für Menschen verständlich , bzw. wird so überall „gesprochen“.
Mit Einsatz des Rahmens F mit einer vorbestimmten Weite W=5 möglicher lexikalischer Elemente 11 und sozusagen ein „dynamisches Verschieben“ des Fensters von links nach rechts, in Leserichtung, können in jeder Position von F bereits Kombinationen der nächsten Schritte vorab reduziert werden. Damit sinken die tatsächlich zu prüfenden gesamten Kombinationsmöglichkeiten nochmals sehr signifikant.(siehe Beispiel 3c)
In Fig. 1 sind alle Stellungen des Rahmens „F“ fmit Weite „W“= 5 bis Position 8 treppenförmig dargestellt.
Beispiel 3:
Kombinationen und Verarbeitungszeiten - 1 - für die syntaktische Analyse des Satzes von Fig.1 bei einem Zeitaufwand je Mustervergleich (1 in 10.000 F/W Muster) = 1/100 Sek.
Siehe auch Tabelle 3
#Varianten : t= Berechnungszeit a) maximale (theoretische) Anzahl von Kombinationen Satz — > 165.622.579.200: t = 52,2 Jahre b) theor. Anzahl Kombinationen durch Einsatz eines Fensters F W=5 -> 121.276: t = 20,2 Min c) Gesamt- Kombinationen mit allen vorab Falschmustern in 16 Schritten ->1.284: t = 1 ,3 Sek
In Fig. 2 ist die Analyse des Satzes aus Fig. 1 im sechsten Abfolgeschritt dargestellt.
Durch die bereits erfolgte Reduzierung von möglichen Kategorien durch Falschmuster vorab, in den Feldern 1 ,2,3,4 und 5 des Schiebefensters F mit W=5 durch die vorhergehenden 5 Berechnungen in den Fensterpositionen davor, beträgt die Anzahl verbliebener Varianten für Schritt 6, die noch zu berechnen sind, bereits nur noch 108 und nicht 1920 wie sich aus der vollen Anzahl Varianten zu Anfang, ohne Verwendung eines Schiebefensters ergibt (s. Fig. 1).
Die zu berechnenden Kombinationen von grammatischen Kombinationen die zu der finalen Zahl 1.284 führt, zeigt Tabelle 3. Nachdem alle Abgleiche durchgeführt sind, ergibt sich eine eindeutige Zuordnung aller grammatischen Kategorien 12 zu der Zeichenkette 10, die in Fig. 3 dargestellt ist. In Fig. 4 ist schematisch eine Ausführungsform unter Verwendung des Computersystems 20 dargestellt. Hier sind die Einlesevorrichtung 1 für die Zeichenkette 10, die Wörterbuchvorrichtung 2, die Syntaxvorrichtung 3, die Verifikationsvorrichtung 4 und die Datenbank 5 sowie die Korrektur- und Ergänzungsvorrichtung 6 einer Einheit angeordnet. Es ist grundsätzlich möglich, dass die Elemente ganz oder teilweise auf mehrere Computer oder auch mobile Endgeräte verteilt sind.
Tabelle 3: Verbleibende Kombinationen von grammatischen Kategorien, bei Verwendung eines Schiebefensteres / Rahmen F mit Weite W = 5 für den Satz in Figuren 1 ,2 und 3
Figure imgf000012_0001
Auf der linken Seite der Fig. 4 ist dargestellt, wie die Zeichenkette 10 nach und nach durch die Einlesevorrichtung 1 für die Zeichenkette 10, die Wörterbuchvorrichtung 2, die Syntaxvorrichtung 3, die Verifikationsvorrichtung 4 und die Datenbank 5 bearbeitet werden.
Die Wörterbuchvorrichtung 2 unterteilt die Zeichenkette 10 in einzelne syntaktische Elemente 11. Die Syntaxvorrichtung 3 ordnet den einzelnen lexikalischen Elementen 11 jeweils mindestens eine grammatische Kategorie 12 zu. Die Verifikationsvorrichtung 4 verwendet dann einen Rahmen F, um die möglichen Kombinationsmöglichkeiten der grammatischen Kategorien 12 der lexikalischen Elemente 11 zu erfassen, soweit sie von dem Rahmen F abgedeckt sind.
Die Ergänzungs- und Korrekturvorrichtung 6 korrigiert und ändert bei Bedarf so, dass ein korrekter syntaktischer Output entsteht oder ggf. Hinweise an den Benutzer automatisch erzeugt werden.
Bezugszeichenliste
1 Einiesevorrichtung
2 Wörterbuchvorrichtung
3 Syntaxvorrichtung
4 Verifikationsvorrichtung
5 Datenbank
6 Korrektur- und Ergänzungsvorrichtung
10 Zeichenkette
11 lexikalisches Element einer Zeichenkette
12 grammatische Kategorie/syntaktisches Element eines lexikalischen Elements
20 Computersystem
W Anzahl der lexikalischen Elemente in einem Rahmen (Width)
F Rahmen (Field)

Claims

Patentansprüche
1. Vorrichtung zur Analyse natürlicher Sprache in Form mindestens einer Zeichenkette (10), umfassend
- eine Einlesevorrichtung (1) eines Computersystems (20) zum Einlesen und Bereitstellen der mindestens einen Zeichenkette (10),
- eine Wörterbuchvorrichtung
(2) des Computersystems (20), welche dazu ausgelegt ist, die von der Einlesevorrichtung (1 ) bereitgestellte mindestens eine Zeichenkette (10) in mehrere syntaktische Elemente (11) zu zerlegen, gekennzeichnet durch
- eine Syntaxvorrichtung
(3) des Computersystems (20), welche dazu ausgelegt ist, jedem lexikalischen Element (11) zumindest eine grammatische Kategorie (12) zuzuordnen und
- eine Verifikationsvorrichtung (4) des Computersystems (20), welche dazu ausgelegt ist, für syntaktische Elemente (11) in einem Rahmen (F) mit einer vorbestimmten Anzahl (W) lexikalischer Elemente (11 ) der mindestens einen Zeichenkette (10) automatisch anhand von vorab in einer Datenbank (5) gespeicherten Grammatik- bzw. Syntaxmustern der natürlichen Sprache für grammatische Kategorien (12) der lexikalischen Elemente (11) festzustellen, welche der Anordnungen der lexikalischen Elemente (11) im Rahmen (F) richtig ist und welche falsch ist und
- eine Korrektur- und Ergänzungsvorrichtung (6), welche dazu ausgelegt ist, in der mindestens einen Zeichenkette (10) und den lexikalischen Elementen (11 ) zugeordneten grammatischen Kategorien (12), systematisch, auch nach Versuch und Irrtum-Strategien, Veränderungen in mindestens einem lexikalischen Element (11 ) der mindestens einen Zeichenkette (10), oder durch Hinzufügen lexikalischer Elemente (11 ) mit geeigneten grammatischen Kategorien (12) zu erreichen, dass die Verifikationsvorrichtung (4) die mindestens eine Zeichenkette (10), nach der mindestens einen eingebrachten Veränderung in der mindestens einen Zeichenkette (10) durch erneuten Mustervergleich als korrekt erkennt. . Vorrichtung nach Anspruch 1 , dadurch gekennzeichnet, dass der Rahmen (F) durch die Verifikationseinreichung (4) nacheinander über jedes syntaktische Element (11) der mindestens einen Zeichenkette (10) überlagerbar ist, wobei für jede Position des Rahmens (F) anhand der Grammatik- bzw. Syntaxmustern (12) alle Variationsmöglichkeiten der möglichen richtigen und falschen Anordnungen der lexikalischen Elemente (11) erfasst werden können. . Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass ein lexikalisches Element (11 ) ein Wort oder ein Satzzeichen aufweist oder aus einem Wort oder einem Satzzeichen besteht.
4. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Anfang der mindestens einen Zeichenkette (10) und das Ende der mindestens einen Zeichenkette (10) jeweils ein lexikalisches Element (11 ) darstellen.
5. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Satzzeichen, insbesondere Komma, Semikolon, Doppelpunkt, Fragezeichen, Ausrufezeichen, Hochkomma, Gänsefüßchen (direkte Rede) oder Punkt, jeweils ein lexikalisches Element (11 ) darstellen.
6. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verifikationsvorrichtung (4) weiterhin derart ausgelegt ist, die rahmenweise ermittelten korrekten grammatikalischen Kategorien (12) der lexikalischen Elemente (11 ) zu identifizieren.
7. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verifikationsvorrichtung (4) die mindestens eine Zeichenkette (10) als syntaktisch korrekt und eindeutig validiert, wenn zu jedem lexikalischen Element (11) genau eine erlaubte grammatische Kategorie (12) ermittelbar ist.
8. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mit der Verifikationsvorrichtung (4) syntaktische Fehler in der mindestens einen Zeichenkette (10) detektierbar sind, wobei ein syntaktischer Fehler dann vorliegt, wenn die Verifikationsvorrichtung (4) für zumindest ein lexikalisches Element (11) nicht nur eine einzige grammatische Kategorie (12) behält oder gar keine erlaubte grammatische Kategorie (12) ermittelt hat.
9. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Korrektheit jedes lexikalischen Elementes (11 ) verifizierbar ist, indem jedes syntaktische Element (11) gegen ein Wörterbuch der Wörterbuchvorrichtung (1) abgeglichen wird.
10. Vorrichtung nach mindestens einem der vorhergehenden Ansprüche, gekennzeichnet durch eine Korrekturvorrichtung (6) zur automatischen Korrektur syntaktischer Fehler die in der mindestens einen Zeichenkette (10) enthalten sind.
11 . Verfahren zur Analyse natürlicher Sprache in Form mindestens einer Zeichenkette (10), wobei a) mindestens eine Zeichenkette (10) mit einer Einlesevorrichtung (1 ) in ein Computersystem (20) eingelesen und bereitgestellt wird, b) eine Wörterbuchvorrichtung (2) die bereitgestellte mindestens eine Zeichenkette (10) in mehrere syntaktische Elemente (11 ) zerlegt, c) eine Syntaxvorrichtung (3) jedem lexikalischen Element (11) zumindest eine grammatische
Kategorie (12) zuordnet, und d) eine Verifikationsvorrichtung (4) die lexikalischen Elemente (11) in einem Rahmen (F) mit einer vorbestimmten Anzahl (W) für die lexikalischen Elemente (11) der mindestens einen Zeichenkette (10) automatisch anhand von vorab in einer Datenbank (5) gespeicherten Grammatikregeln der natürlichen Sprache für grammatischen Kategorien (12) der lexikalischen Elemente (11) analysiert und feststellt, welche der Anordnungen der lexikalischen Elemente (11) im Rahmen (F) richtig ist und welche falsch ist.
12. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass deren syntaktische Elemente (12) für Umformulierungen der Zeichenkette (10) bezüglich Zeitform, Numerus, Genus, Kasus, Gendern verwendet werden können, und automatisch so durchgeführt werden, dass sie von der Verifikationsvorrichtung (4) als korrekt erkannt werden.
13. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Verifikationsvorrichtung (4) lexikalische Elemente (11 ) automatisch identifiziert, deren syntaktische Elemente (12) für Zwecke der Zusammenfassung oder der Identifikation von Aktionsoder Begebenheits-Szenarien im Kontext geeignet sind, effizienterweise, aber nicht ausschließlich über den Kasus : wer macht was, mit wem, womit, in wessen Besitz, über Temporaladverbien bzw. andere zeitdarstellende Wörter : wann , bis wann, über Konjunktionen und deren verbundenen Satzteile : warum, für wen, über Quantitätsadverbien oder Zahlen und deren Dimensionen: wie viel, wovon, über Ortsadverbien, Eigennamen : wo, wer, was, bei wem, über besondere Satzzeichen, wie Doppelpunkt, direkte Rede, Ausdrücke eingeschlossen in Gedankenstrichen oder Klammern .
14. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Interpretations- und Ergänzungsvorrichtung (6) bei Zeichenketten (10) die von der Verifikationsvorrichtung (4) als nicht eindeutig detektiert werden, Rückfragen als Zeichenketten (10) automatisch generiert, - unter Einbezug der identifizierten, verbliebenen syntaktischen Elemente (12) -, die selbst, von der Verifikationsvorrichtung (4) als korrekt erkannt werden, um diese online oder offline einem Benutzer oder Folgeprogramm über visuelle, taktil /sensorielle oder auditive Zeichen oder Signale mitteilen zu können.
15. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Korrektur- und Ergänzungsvorrichtung (6), Informationen die aus einer Vorrichtung zur automatischen Spracherkennung als Text vorliegen, zu mindestens einer Zeichenkette (10) zusammenfügt, welche selbst von der Verifikationsvorrichtung (4) als korrekt erkannt werden, die als maschinenausführbare Anweisungen verwendet werden können, in einer beliebigen Mensch-
15 Maschine-Schnittstelle. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine eine Korrektur- und Ergänzungsvorrichtung (6), Informationen die aus mindestens einer Vorrichtung zur automatischen Bildverarbeitung als Text vorliegen, zu mindestens einer Zeichenkette (10) zusammenfügt werden, welche selbst von der Verifikationsvorrichtung (4) als korrekt erkannt werden, die als ausführbare Maschinen-Anweisungen verwendet werden können. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Korrektur- und Ergänzungsvorrichtung (6) bei Zeichenketten (10) die von der Verifikationsvorrichtung (4) als nicht eindeutig detektiert werden, Kommas bei Leerzeichen der Zeichenkette (10) automatisch einfügt, bis die Verifikationsvorrichtung (4) die modifizierte Zeichenkette (10) als korrekt erkennt. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Ablauf-Entscheidungen die zu den Berechnungsergebnissen der Syntaxvorrichtung (3) und / oder Verifikationsvorrichtung (4) und / oder Korrektur- und Ergänzungsvorrichtung (6) von maschinenausführbaren Anweisungen kausal, deterministisch dokumentierbar sind, um die Rückverfolgbarkeit einer Mensch-Maschine-Schnittstelle bezüglich ihres Inputs und der daraus resultierenden Aktionen in denen diese maschinenausführbaren Anweisungen angewendet wurden. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aufgrund formeller Vorgaben für Texte, wie Verständlichkeit der Satzstrukur (Subjekt, Prädikat, Objekt Abfolge) oder formell logische Kohärenz, aber nicht ausschließlich, Bewertungen der formellen Struktur, bezüglich Länge, Typ und Sequenz morphologischer Komponenten der Zeichenkette (10) automatisch erfolgen, um diese online oder offline einem Benutzer oder Folgeprogramm über visuelle, taktil /sensorielle oder auditive Zeichen oder Signale mitteilen zu können.
16
PCT/DE2020/000329 2020-12-09 2020-12-09 Vorrichtung zum syntaktischen parsing natürlicher sprachen WO2022122061A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/DE2020/000329 WO2022122061A1 (de) 2020-12-09 2020-12-09 Vorrichtung zum syntaktischen parsing natürlicher sprachen
EP20845379.5A EP4260206A1 (de) 2020-12-09 2020-12-09 Vorrichtung zum syntaktischen parsing natürlicher sprachen
US18/256,912 US20240028825A1 (en) 2020-12-09 2020-12-09 Device for syntactic parsing of natural language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/DE2020/000329 WO2022122061A1 (de) 2020-12-09 2020-12-09 Vorrichtung zum syntaktischen parsing natürlicher sprachen

Publications (1)

Publication Number Publication Date
WO2022122061A1 true WO2022122061A1 (de) 2022-06-16

Family

ID=74205569

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2020/000329 WO2022122061A1 (de) 2020-12-09 2020-12-09 Vorrichtung zum syntaktischen parsing natürlicher sprachen

Country Status (3)

Country Link
US (1) US20240028825A1 (de)
EP (1) EP4260206A1 (de)
WO (1) WO2022122061A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998011523A1 (en) * 1996-09-13 1998-03-19 British Telecommunications Public Limited Company Training apparatus and method
US20090228263A1 (en) * 2008-03-07 2009-09-10 Kabushiki Kaisha Toshiba Machine translating apparatus, method, and computer program product

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998011523A1 (en) * 1996-09-13 1998-03-19 British Telecommunications Public Limited Company Training apparatus and method
US20090228263A1 (en) * 2008-03-07 2009-09-10 Kabushiki Kaisha Toshiba Machine translating apparatus, method, and computer program product

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIM COWIE ET AL: "Lexical disambiguation using simulated annealing", SPEECH AND NATURAL LANGUAGE, ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, N. EIGHT STREET, STROUDSBURG, PA, 18360 07960-1961 USA, 23 February 1992 (1992-02-23), pages 238 - 242, XP058158364, ISBN: 978-1-55860-272-4, DOI: 10.3115/1075527.1075580 *

Also Published As

Publication number Publication date
EP4260206A1 (de) 2023-10-18
US20240028825A1 (en) 2024-01-25

Similar Documents

Publication Publication Date Title
Hoffmann Preposition placement in English: A usage-based approach
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE112012003640B4 (de) Erzeugen eines rhythmischen Passworts und Durchführen einer Authentifizierung auf der Grundlage rhythmischen Passworts
EP3100174A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
Rowland et al. The incidence of error in young children's wh-questions
DE3789073T2 (de) System zur maschinellen Übersetzung.
DE112022002081T5 (de) Linguistisch gesteuerte automatische textformatierung
Kauschke et al. Acquisition of German noun plurals in typically developing children and children with specific language impairment
DE102009030304A1 (de) System zur Speicherung von Symptominformationen der Traditonellen Chinesischen Medizin (TCM) sowie Verfahren zur Speicherung von TCM-Symptominformationen
Hajnal Induktive versus abduktive Rekonstruktion
Szmrecsanyi An analytic-synthetic spiral in the history of English
EP1917588A2 (de) Verfahren und vorrichtung zur störungsbehebung einer datenverarbeitungseinrichtung
Moxey et al. Complement set reference and quantifiers
Stefanowitsch Distinctive collexeme analysis and diachrony: A comment
WO2022122061A1 (de) Vorrichtung zum syntaktischen parsing natürlicher sprachen
EP2492838A1 (de) Verfahren zum Schutz vor maschinengenerierten Zugriffen auf eine zu schützende Resource einer Rechnereinheit
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE4209280C2 (de) Verfahren und Computersystem zur automatisierten Analyse von Texten
DE4015939C2 (de) Vorrichtung zum beschleunigten Fixieren eines über eine Tastatur einzugebenden Textes in Buchstaben
Gulgowski et al. Stroop-like interference of grammatical and visual number: Experimental evidence from Polish speakers
DE10015859C2 (de) Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE3732849A1 (de) System-architektur fuer ein akustisches mensch/maschine-dialogsystem
WO2010091674A2 (de) Verfahren und ein system zum übersetzen eines textes aus einer ersten sprache in zumindest eine weitere sprache sowie ein computer-programm-produkt
Li An Investigation into the Influence of Chinese Topic-prominent Features on Chinese EFL Learners' Acquisition of Passive Voice

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20845379

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18256912

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2020845379

Country of ref document: EP

Effective date: 20230710