Beschreibung
Verfahren zur Spracherkennunα
Die Erfindung betrifft ein Verfahren zur Spracherkennung nach dem Oberbegriff des Patentanspruchs 1.
Bei der Erkennung gebundener Sprache, die eine beliebige Kombination aller Wörter zuläßt, steigt die Fehlerrate im Vergleich zur Einzelworterkennung erheblich an. Um dem entgegenzuwirken, kann beispielsweise Wissen über zuläs- sige Wortfolgen in sogenannten Sprachmodellen gespeichert und bei der Erkennung verwertet werden. Die Anzahl zuläs¬ siger Sätze kann dadurch erheblich eingeschränkt werden.
Sprachmodelle werden gebräuchlich als N-gram Modelle
definiert, wobei N als Tiefe des Modells bezeichnet wird und die Anzahl aufeinanderfolgender Wörter innerhalb einer Wortfolge angibt, die bei der aktuellen Bewertung einer Wortfolgenhypothese berücksichtigt werden. Wegen des mit zunehmenden N schnell steigenden Aufwands im Erkennungs¬ prozeß wird bevorzugt das mit N=2 besonders einfache Bi¬ gram-Modell angewandt, welches nur Zweierkombinationen von Wörtern berücksichtigt. Die Sprachmodelle können weiter vereinfacht werden durch die Zusammenfassung von Wörtern, die im gleichen Kontext auftreten, ohne aber unbedingt dieselbe Bedeutung haben zu müssen, zu Wortgruppen (z .B. alle Wochentage) . Statt einzelner Wortübergänge kann in den Sprachmodellen der Übergang von einer Wortgruppe zur anderen betrachtet werden.
In Informatik Forsch. Entw. (1992) 7 , S . 83-97 , sind Grundprobleme der automatischen Erkennung fließender Spra¬ che eingehend behandelt und Lösungsansätze aus der Sicht der statistischen Entscheidungstheorie beschrieben. Im Vordergrund steht die stochastische Modellierung von Wis¬ sensquellen für Akustik und Linguistik z .B. in Form von Phonem-Modellen, Aussprache-Lexikon und Sprachmodell .
Aus "The HA PY Speach Understanding System" in Readings in Speech recognition, 1990, Morgan Kaufmann Publishers Inc. ist ein Spracherkennungssystem mit stark eingeschränkter Anzahl zulässiger Sätze bekannt. Die die Zulässigkeit be¬ stimmenden syntaktischen und semantischen Einschränkungen können in Grammatik-Gleichungen formuliert und als Graph dargestellt werden. Um von der vollständigen, aber mit großem Verarbeitungsaufwand verbundenen Grammatik-Defini¬ tion zu einem kompakten Sprachmodell mit vertretbarem Ver-
ERSÄTZBLAΓΓ (REGEL 26)
arbeitungsaufwand zu gelangen, werden einige Vereinfachun¬ gen eingeführt.
Solche Vereinfachungen sind aber teilweise nur möglich, wenn für das Sprachmodell in Kauf genommen wird, daß in der ursprünglichen Grammatik-Definition unzulässige Wort¬ folgen wieder als zulässig erscheinen. Bei dem HARPY-Sy- stem werden schließlich die Wörter durch ihre phonetischen Definitionen ersetzt und so ein phonetisches Modell für einen Ganzsatzerkenner geschaffen.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Spracherkennung anzugeben, daß bei geringem Verarbei¬ tungsaufwand eine hohe Erkennungsleistung aufweist.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Un¬ teransprüche enthalten vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
Die Erfindung ermöglicht durch die unterschiedbare Kenn¬ zeichnung mehrfach in der Grammatik der Menge der zulässi¬ gen Sätze auftretender Wörter im Sprachmodell die zulässi¬ gen Vorläufer eines bestimmten Wortes an bestimmter Satzposition implizit vollständig zu erfassen, ohne daß explizit alle zulässigen vorangegangenen Obergänge zu die¬ sem Wort gespeichert werden müssen. Dies entspricht einem N-gram-Sprachmodell mit von der jeweiligen Wortposition abhängigem variablem N. Die unterscheidbare Kennzeichnung mehrfach auftretender gleicher Wörter sei im folgenden als Indizieren der Wörter bezeichnet.
CTSA77BLA7T (HEGEL 26)
Vorzugsweise kann die Syntaxinformation in einem Bigram- Sprachmodell integriert werden. Der Erkennungsprozeß, der vorzugsweise ein HMM(Hidden Markov Model ) -Erkennungsprozeß ist, kann in gleicher Weise ablaufen wie ohne die In- tegration der Syntax in das Sprachmodell .
Eine wesentliche Erweiterung eines für die akustische Wor¬ terkennung herangezogenen gebräuchlichen Aussprachelexi¬ kons ist nicht notwendig, da allen im Sprachmodell unter- schiedlich indizierten Exemplaren des gleichen Wortes ein und derselbe Lexikoneintrag zugeordnet werden kann. Die Bigram-Syntaxinformation kann dann vorteilhafterweise da¬ durch berücksichtigt werden, daß dem aus einer Folge von Wortuntereinheiten bestehenden Lexikoneintrag entsprechend dem mehrfachen Auftreten im Sprachmodell mehrere Worten¬ deknoten zugewiesen werden.
Bei der Spracherkennung nach dem erfindungsgemäßen Verfah¬ ren werden eingegebene Sprachsignale immer syntaktisch richtigen Sätzen zugewiesen. Vorzugsweise ist daher die
Möglichkeit vorgesehen, daß das Erkennungssystem eine Ein¬ gabe zurückweist. Vorteilhaft hierfür ist die Zuweisung eines Wahrscheinlichkeitswerts an erkannte Sätze und Ver¬ gleich der Wahrscheinlichkeitswerte mit einer vorgebbaren Ruckweisungsschwelle. Die globale Satzwahrscheinlichkeit, normiert auf die Satzlänge, bildet ein gut geeignetes Maß für die Zuweisung der Wahrscheinlichkeitswerte. In die globale Satzwahrscheinlichkeit werden insbesondere die Wahrscheinlichkeiten bei der akustischen Erkennung der einzelnen Wörter einbezogen. Berücksichtigt werden können darüberhinaus auch Wahrscheinlichkeiten aus statistischen
Verteilungen von Wortfolgen im Sprachmodell oder Häufig¬ keiten von Sätzen in Trainingsmengen.
Die Wahrscheinlichkeitsbewertung wird vorzugsweise auch während des laufenden Erkennungsprozesses durchgeführt und als Grundlage für ein Ausblenden von Pfaden mit zu gerin¬ ger Wahrscheinlichkeit herangezogen.
Die Erfindung ist nachfolgend unter Bezugnahme auf die Ab- bildungen noch eingehend veranschaulicht.
Die FIG. la zeigt ein einfaches Beispiel eines Netzwerk- Graphen für ein Sprachmodell , welches aus den Wörtern wl bis w6 zwischen dem Satzanfang Start und dem Satzende Ende die Wortfolgen wlw3w6 , wlw4w6, w2w3wl, w2w5wl als Sätze zuläßt. Die aus dem Graphen ableitbare Bigram-Information über die zulässigen Nachfolger zu jedem Wort wl bis w6 ist als Tabelle in FIG . lb angegeben. In einem auf diese Bi¬ gram-Information gestützten Sprachmodell erscheinen aber nicht zulässige Sätze wie z . B. wlw3wlw4w6 als zulässig.
Die demgegenüber wesentliche Änderung gemäß der Erfindung ist aus FIG. 2a und FIG . 2b ersichtlich. Die durch den Netzwerk-Graphen nach FIG. la festgelegte Menge der zuläs- sigen Sätze enthält die Wörter wl und w3 jeweils in zwei syntaktisch verschiedenen Positionen. Diese mehrfach vor¬ kommenden Wörter sind nunmehr in FIG. 2a als voneinander unterscheidbare Exemplare durch Indizierung gekennzeich¬ net, wobei der Index _m mit m als ganzzahliger Laufzahl innerhalb des Graphen in an sich beliebiger Reihenfolge auf die Mehrfach-Exemplare eines Wortes vergeben werden kann. Wichtig ist, daß durch die Indizierung Wörter in
ERSÄΓZBLATT (REGEL 26)
syntaktischen Positionen, die nicht ohne Änderung der Zu- läsigkeit aller Sätze vertauscht werden können, eindeutig gekennzeichnet werden. Zur Vereinheitlichung der Notation sind auch alle einmalig auftretenden Wörter mit einem In- dex _1 versehen. Die Bigram-Informationstabelle in FIG. 2b zu dem Graphen von FIG. 2a zeigt sich gegenüber der Ta¬ belle in FIG. lb um die Mehrfach-Exemplare erweitert, gibt aber nunmehr eine dem Graphen exakt gleiche Vorschrift über alle zulässigen Sätze wieder und weist einen geringe- ren mittleren Verzweigungsgrad auf .
Da die phonetischen Repräsentanten für alle Mehrfach-Exem¬ plare desselben Wortes identisch sind, braucht das diese phonetischen Repräsentanten enthaltende Aussprache-Lexikon nicht im gleichen Maße erweitert werden. Es kann für alle Mehrfach-Exemplare desselben Wortes auf denselben Lexikon- Eintrag zurückgegriffen werden , wobei lediglich am Wortende wieder eine eindeutige Zuordnung zu den jeweils zulässigen Nachfolgern ermöglicht werden muß. Hierfür kön- nen vorteilhafterweise zu einem betroffenen Lexikon-Ein¬ trag mehrere Wortendeknoten vorgesehen sein, welche die unterschiedlichen Syntax-Einschränkungen der durch Indi¬ zierung unterscheidbaren Wortpositionen berücksichtigen.
Bei der vorteilhaften Zusammenfassung von Wörtern zu Wort¬ gruppen treten an die Stelle der Wörter wl_l bis w6_l im Netzwerk-Graph und in den Bigram-Tabellen jeweils Wort¬ gruppen, die unterscheidbar indiziert sind . Die Mitglieder einer Wortgruppe sind entsprechend durch Indizieren ein- deutig zu kennzeichnen.
ERSÄTZBLATT (REGEL 26)
FIG. 3 veranschaulicht die Abfolge des Erkennungsprozesses für eine im Beispiel nach FIG. 2a, 2b als Satz zulässige Wortfolge w2w3wl . Ausgehend von einem Satzanfangsknoten Start sind als erstes Wort nur wl oder w2 zulässig. Der Beginn eines Sprachsignals wird daher auf mögliche Über¬ einstimmung mit wl und/ oder w2 überprüft. Hierzu wird auf die in einem Aussprachelexikon L abgelegten sprachlichen Charakter ist ika dieser beiden Wörter zurückgegriffen. Ge¬ bräuchlicherweise enthalten die Lexikoneinträge zu jedem Wort mehrere Wortuntereinheiten mit Vorschriften über de¬ ren zulässige Aufeinanderfolge. Die Vorgehensweise bei der Worterkennung kann beispielsweise wie bei dem erwähnten Harpy-System durch Durchlaufen einer bäumartigen Suchpfad¬ struktur erfolgen mit fortlaufender Bewertung der einzel- nen untersuchten Pfade und Ausblenden von niedrig bewerte¬ ten Pfaden.
In FIG. 3 ist für die Suchstruktur vereinfacht eine linare Kette mehrerer Wortuntereinheiten WU (Kreise) eingetragen.
Die Lexikoneinträge umfassen wie bereits erwähnt auch Wort endeknoten WE (Quadrate in FIG. 3) , wobei für mehrfach an verschiedener Position im Graphen der FIG. 2a auftre¬ tende gleiche Wörter entsprechend deren Indizierung ein Lexikoneintrag mehrere Wortendeknoten aufweist, die je¬ weils einem der indizierten Exemplare desselben Worts durch den übereinstimmenden Index zuordenbar sind und die zulässigen Nachfolgewörter festlegen. Der Index eines Wor¬ tes wird beim Zugriff auf das Lexikon in der Weise berück- sichtigt, daß mittels des Index die richtige Auswahl unter dem ggf. mehreren Wortendeknoten getroffen wird.
Bei dem in FIG. 3 skizzierten Beispiel ist angenommen, daß das Sprachsignal keine ausreichende phonetische Überein¬ stimmung mit dem Lexikoneintrag zum Wort wl zeigt und die¬ ser Teil des Suchpfads abgebrochen wird, noch bevor das Wortende von wl erreicht ist . Hingegen zeige das Sprachsi¬ gnal eine gute Übereinstimmung mit dem Lexikoneintrag zum Wort w2 , so daß dieser Suchpfad weiterverfolgt wird. Da w2 im Sprachmodell nur an einer Position auftritt, existiert nur ein Wortendeknoten, von dem aus sich die Suche ver- zweigt auf die Überprüfung der Wörter w3 und w5 als zuläs¬ sige Nachfolger, die erfindungsgemäß durch Indizieren als w3_2 und w5_l eindeutig gemacht sind. Für w5 sei wieder mangelnde phonetische Übereinstimmung mit dem fortgesetz¬ ten Sprachsignal und Abbruch dieses Teils des Suchpfads angenommen, wogegen der Suchpfad über w3 bis zur Verzwei¬ gung auf die beiden Wortendeknoten mit Indizes _1 und _2 weiterverfolgt werde . Mittels des Index _2 aus dem indizierten Zugriff auf den Lexikoneintrag w3 wird der gleich indizierte Wortendeknoten für die Weiterführung des Suchpfads ausgewählt, woraus sich wl_2 als einziges zuläs¬ siges Nachfolgewort ergibt . Dessen Lexikoneintrag wird wieder mit dem fortgesetzten Sprachsignal verglichen. Bei ausreichender Übereinstimmung wird der Suchpfad über den mit _2 indizierten Wortendeknoten zum Satzende weiter ge- führt.
Im Realfall werden vorzugsweise mehrere Suchpfade voll¬ ständig bis zum Satzende verfolgt und danach einer weite¬ ren Auswahl unterzogen, bei der beispielsweise durch Schwellwertsetzung und/oder Vergleich der globalen Satz¬ wahrscheinlichkeiten oder anderer an sich bekannter Bewer¬ tungsgrößen einer der erkannten Sätze als bester Satz aus-
gewählt und weiter verarbeitet wird, z.B. als auszuführen¬ des Kommando.