WO2015043802A1

WO2015043802A1 - Verfahren zum phonetisieren von textenthaltenden datensätzen mit mehreren datensatzteilen und sprachgesteuerte benutzerschnittstelle

Info

Publication number: WO2015043802A1
Application number: PCT/EP2014/066498
Authority: WO
Inventors: Jens Walther
Original assignee: Continental Automotive Gmbh
Priority date: 2013-09-30
Filing date: 2014-07-31
Publication date: 2015-04-02
Also published as: DE102013219828A1; DE102013219828B4

Abstract

Es wird ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen beschrieben, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden. Dabei ist vorgesehen, dass der gesamte Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung (6) in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung (7) Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung (6) gebildeten zusammenhängenden Phonemkette (7) befinden. Ferner wird eine entsprechend eingerichtete, sprachgesteuerte Benutzerschnittstelle beschrieben.

Description

Beschreibung

Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzer- schnittstelle

Die Erfindung betrifft ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze in Phoneme konvertiert und als Phonemkette, teilweise auch als Phonem^¬ kette bezeichnet, abgespeichert werden. Bei den Datensatztei^¬ len handelt es sich typischer Weise um Worte.

Für sprachgesteuerte Benutzerschnittstellen ist es notwendig, meist in Datenbanken vorliegende Datensätze, beispielsweise in Form von Textlisten, zu phonetisieren, um den Inhalt der Datensätze einer Sprachsteuerung zuzuführen, bei der ein Benutzer durch Sprechen der Inhalte der Datensätze in der Benutzerschnittstelle den Datensatz auswählen und eine defi- nierte Aktion auslösen kann.

Ein typisches Anwendungsfeld, auf welches sich die Erfindung auch bevorzugt bezieht, ist die Verwendung einer sprachge^¬ steuerten Benutzerschnittstelle in einer Multimedia-Einheit eines Kraftfahrzeugs, die als sprachgesteuerte Benutzer^¬ schnittstelle insbesondere u. a. ein Autotelefon und/oder ei^¬ ne Freisprecheinrichtung eines Kraftfahrzeugs aufweisen kann, so dass der Fahrer des Kraftfahrzeugs durch Angabe eines Kon^¬ taktnamens des Telefons die sprachgesteuerte Benut zerschnitt- stelle für das Aufbauen und Führen eines Telefonats nutzen kann. Natürlich kann die Sprachsteuerung auch zur Steuerung weiterer Funktionen der Multimedia-Einheit genutzt werden, beispielsweise durch Auswahl von Musiktitel, Interpret oder Album zur Wiedergabe durch die Multimediaeinheit.

Grundsätzlich lässt sich die Erfindung bevorzugt bei sprachgesteuerten Schnittstellen nutzen, bei denen textbasierte Da- teneinträge umsortierbar sind. Auch wenn die vorbeschriebenen Anwendungen einen bevorzugten Anwendungsfall der Erfindung darstellt, ist diese jedoch nicht auf genau diese Funktion beschränkt, sondern auch allgemein für sprachgesteuerte Be- nut zerschnittstellen anwendbar, in denen eine in Textform vorliegende Datenliste (Textliste) als textenthaltender Da^¬ tensatz zur Erkennung durch die Sprachsteuerung phonetisiert werden soll, wobei jeder Listeneintrag der Textliste vorzugs^¬ weise mindestens zwei Datensatzteile aufweist.

Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buch^¬ stabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als Phonem^¬ kette, also phonetisierte Datensätze beispielsweise in einer phonetisierten Datenliste, gespeichert.

Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeu^¬ tungsunterscheidende Einheit bildet, d. h. eine distinktive Funktion aufweist. Der Begriff "Phoneme" wird in dem vorlie^¬ genden Text insbesondere als Folge mehrerer einzelner Pho^¬ nem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer

Schrift definiert.

Wie es bei derartigen sprachgesteuerten Benutzerschnittstel^¬ len bereits üblich ist, sollen Listeneinträge der Datensätze der sprachgesteuerten Benutzerschnittstelle für die Spracher- kennung zur Verfügung gestellt werden, um bestimmte Listeneinträge aus gesprochenen Befehlen des Benutzers identifizie^¬ ren zu können. Bei einem dazu notwendigen Verfahren zum Pho- netisieren der Datensätze wird ein als Grapheme, d. h. eine Folge einzelner Graphem-Symbole bzw. Textzeichen, welche in beispielsweise der Buchstabendarstellung oder einer standardisierten Buchstabenstellung entsprechen können, vorliegender Datensatz in Phoneme konvertiert und als Phonemkette, d. h. eine Folge einzelner Phonem-Symbole, abgespeichert.

Diese als Phoneme, d. h. als Folge einzelner Phonem-Symbole bzw. Phonemkette, vorliegenden phonetisierten Datensätze kön- nen bei der Spracherkennung in der sprachgesteuerten Benutzerschnittstelle dazu verwendet werden, das durch den Benut^¬ zer gesprochene Wort mit einem textenthaltenden Listeneintrag aus dem Datensatz in Verbindung zu bringen und so die entsprechend vorgegebenen Funktionen auszuführen. Üblicherweise werden in dieser phonetisierten Datenliste Phoneme als zusammenhängende Phonemkette gespeichert und insbesondere der Spracherkennung bzw. deren Spracherkenner in der sprachgesteuerten Benutzerschnittstelle zur Verfügung gestellt, so dass diese einfach auf die phonetisierte Datenliste zugreifen kann.

Die Datenlisten bzw. -sätze können aus mehreren Worten bzw. Datensatzteilen bestehen, Akronyme enthalten und sind mitunter auch multilingual. Um eine möglichst einfache, natürliche Eingabe von beispielsweise Telefonbuchkontakten zu ermögli^¬ chen, werden der Spracherkennung viele mögliche Kombinationen aus Vor-, Nachnamen sowie Teilelemente (Mittelname) derselben angeboten, d. h. allgemein verschiedene Kombinationen der verschiedenen Datensatzteile. Weiterhin gibt es Anforderun- gen, wie die Expansion von Titeln (Dr.) und Verkettung von häufigen Teilworten (z. B. "de la" im mexikanischen Spanisch) .

Die Bereitstellung vieler Kombinationen von Vor- und Nachna- men sowie deren Unterelementen, d. h. allgemein vieler Kombinationen von Datensatzteilen, kann beispielsweise in einer in der sprachgesteuerten Benutzerschnittstelle vorhandenen

Spracherkennung bzw. dem Spracherkenner erfolgen.

Bei den bisherigen Systemen wurde das Neuerstellen der Pho- nemketteen bzw. der sprachgesteuerten Datenliste durch eine Neuphonetisierung der umgestellten Datensätze realisiert. Um eine Teildatensatzerkennung zu realisieren, werden Teilworte aus den Datensätzen bzw. Datenlisten nach bestimmten Regeln ermittelt und neu kombiniert. So werden beispielsweise bei Kontaktdaten bestehend aus Vorname, Mittelname und Nachname alle Permutationen erstellt. So entstehen fünf Textvarianten.

Bei einer noch größeren Anzahl von Datensatzteilen steigt die Anzahl der Textvarianten exponentiell . Zusätzlich müssen noch Duplikate ermittelt und bestimmte Akronyme (wie beispielswei^¬ se "Dr.") expandiert werden.

Bei bisher bekannten Lösungen wird die so erzeugte Vielzahl von Textvarianten anschließend mit einer Graphem-zu-Phonem- Konvertierung in verschiedene Phonemketten umgewandelt. So werden mehrere Varianten von phonetisierten Datensätzen erzeugt und beispielsweise in die sprachgesteuerte Benutzer^¬ schnittstelle zur Spracherkennung eingefügt. Die Prozessorlast und der Speicherbedarf für diesen Prozess sind erheblich. Da die Phonetisierung sehr rechen- und damit ressourcenaufwendig ist, kommt es bei der Neuphonetisierung einer größeren Datenliste und deren Varianten für den Benutzer zu einer spürbaren Latenz bzw. Wartezeit, bis die sprachgesteu^¬ erte Benutzerschnittstelle zur Erkennung von Namen aus der Datenliste bzw. allgemeiner von Listeneinträgen verwendet werden kann.

Ein ähnliches Verfahren ist aus der EP 1 798 723 AI bekannt, bei der einem auswählbaren Listeneintrag (in dem Beispiel ei- nem Radiosender) mehrere Phonemketten (Sprachmuster) zugeordnet werden. Dies ist insbesondere deshalb nachteilig, weil ein Benutzer daran gewöhnt ist, die in mobilen Datengeräten mit Datenbankfunktion, beispielsweise Mobiltelefonen mit einer Kontaktdatenbank, gespeicherten Daten direkt nach Start des Infotain- ment-Systems bzw. Verbindung der Freisprecheinrichtung zur Verfügung stehen. Die Phonetisierung vieler verschiedenere Textvarianten erfordert jedoch eine zu große Rechenzeit.

Zur Vermeidung dieser Problematik wurde bereits vorgeschla- gen, dass in dem Text eines Listeneintrags, beispielsweise zwischen Vor- und Nachnamen, ein Trennzeichen zwischen den jeweiligen Datenfeldern des Listeneintrags eingefügt, mit in die Phonemkette konvertiert und dort als Phonem-Symbol (ein^¬ zelnes Phonem) in der den phonetisierten Datensatz bildenden Phonemkette abgespeichert wird. Bei dem Erzeugen des phone- tisierten Datensatzes in der Spracherkennung bleibt das das Trennzeichen in dem Text des Listeneintrags symbolisierende Phonem-Symbol dagegen unberücksichtigt, d. h. es wird nicht in die Phoneme eines Listeneintrags integriert. Hierdurch wird vermieden, dass das das Trennzeichen symbolisierende

Phonem-Symbol mit gesprochen werden muss, damit der gespro^¬ chene Text erkannt werden kann.

Auch dies ist jedoch umständlich, da in dem System Phoneme identifiziert werden müssen, die für eine Spracherkennung unberücksichtigt bleiben. Dies führt auch dazu, dass sich die erzeugte Phonemkette nicht universell zur Spracherkennung in beliebigen Geräten nutzen lässt, weil in Geräten die Phonem- Symbole, welche bei der Spracherkennung unberücksichtigt bleiben sollen, nicht unbedingt kennen und diese Phoneme in den Befehlen so mit gesprochen werden müssten. Außerdem müssen die Grapheme zuvor durch Ergänzung von speziellen Zeichen verändert werden, um eine Art Indexierung zu erzeugen. Aufgabe der Erfindung ist es, eine einfachere und insgesamt wenig Latenzzeit erfordernde Möglichkeit vorzuschlagen, mit der textenthaltende Datensätze insbesondere für eine sprach- gesteuerte Benutzerschnittstelle phonetisiert werden können und bei der einzelne Datensatzteile in der Phonemkette umge^¬ stellt werden können. Diese Aufgabe wird erfindungsgemäß mit den Merkmalen des An^¬ spruchs 1 gelöst.

Dazu ist bei einem Verfahren der eingangs genannten Art insbesondere vorgesehen, dass jeweils ein gesamter Datensatz mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-

Konvertierung eine zusammenhängend Phonemkette konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung, insbesondere durch einen Phonetik-Postprozessor, Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten, zusammenhängenden Phonemkette befinden. Dadurch wird nur einmal für den vollständigen Datensatz eine Graphem- zu-Phonem-Konvertierung durchgeführt. Dies ist anders als im Stand der Technik nicht für jeden Teildatensatz, d. h. die einzelnen Datensatzteile des textenthaltenden Datensatzes, und deren Kombinationen notwendig. Vielmehr liegt sofort eine vollständige Phonemkette zu dem als Graphem gespeicherten Da^¬ tensatz vor, die unmittelbar in einer Spracherkennung verwendet werden kann. Für je nach Datensatz speziell ausgewählte Kriterien, beispielsweise Pausen zwischen den einzelnen Datenworten oder der Erkennung von Textelementen oder Zahlen oder dergleichen, werden dann aus der Phonemkette Metadaten ermittelt, die die Position der einzelnen ermittelten Datensatzteile in der zusammenhängenden Phonemkette anzeigt. Dies erlaubt einen gezielten Zugriff auf bestimmte Positionen in der Phonemkette, so dass es nicht notwendig ist, verschiedene Sortierungen der einzelnen Datensatzteile in jeweils eigenständige Phonemketten zu wandeln oder in der Phonemkette selbst als Phonem gespeicherte Ordnungskennzeichen vorzuse- hen, die von den Geräten entsprechend erkannt und verarbeitet werden müssen. Gemäß einer bevorzugten Ausführungsform können die Metadaten zusammen mit der Phonemkette abgespeichert werden, d. h. ins^¬ besondere in dem Phonetik-Datensatz selbst oder einem damit verbundenen Datensatz, so dass der Bezug der Metadaten zu der Position in der Phonemkette einfach und ohne große Prozessorleistung zuordenbar ist.

Dazu kann beispielsweise vorgesehen werden, dass die Metada^¬ ten einen Zeiger auf die Position in der Phonemkette aufwei- sen, die jeweils dem durch die Metadaten gekennzeichneten Datensatzteil entspricht. Dies kann entweder durch eine Kenn^¬ zeichnung des Speicherorts des Phonems erfolgen, das den Be^¬ ginn des gekennzeichneten Datensatzteils anzeigt. Dies ermög^¬ licht einen besonders einfachen Zugriff.

Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die Metadaten zusätzlich eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen, so dass durch die Kennung die Datensatz- teile identifizierbar sind, auf die sich die Metadaten beziehen. Dies kann beispielsweise durch eine Verlinkung zwischen dem Datensatzteil in der Graphem-Darstellung des Datensatzes und dem entsprechenden Eintrag in den Metadaten erfolgen. Damit kann aus dem Datensatzteil des Datensatzes direkt auf die Metadaten zugegriffen werden.

Eine erfindungsgemäß vorgeschlagene Weiterentwicklung kann für eine neue Phonemkette kann, dass die neue Phonemkette durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination Datensatzteilen erzeugt wird. In diesem Fall muss keine neue Phonemfolge gespeichert werden, sondern lediglich eine Folge von Zeigern, die die einzelnen Datensatzteile in ihrer neuen Wortfolge zusammensetzt. Dies ist durch die Verwendung von Metadaten, die insbesondere als Zeiger ausgebildet sind, besonders einfach möglich. Die ein^¬ zelnen Bereiche in der Phonemkette werden dann jeweils durch einen Zeiger bzw. Pointer angesprochen, um die dem jeweiligen Datensatzteil entsprechende Phonemkette auszuwählen.

Sobald der dem Datensatzteil entsprechende Bereich aus der Phonemkette abgearbeitet ist, springt der die Metadaten dar^¬ stellende Zeiger auf den nächsten Datensatzteil. Dies redu^¬ ziert den Speicherbedarf, wenn verschiedene Sortierungen der Phonemkette im Rahmen der sprachgesteuerten Benutzerschnittstelle zur Identifikation des Sprachbefehls verglichen werden müssen. Außerdem lässt sich die Reihenfolge der Zeiger in einer neuen Zeigerdatei so schnell speichern, dass der Benutzer bei einer Phonetisierung der textenthaltenden Datensätze keine Latenz mehr feststellt. Gemäß einer erfindungsgemäß vorgeschlagenen Variante können die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden, insbesondere indem die Grapheme sprachde^¬ finiert und/oder benutzerdefiniert aufbereitet werden. Dabei können u.a. Akronyme für eine Phonetisierung vorbereitet und Sprachen der Datensatzteile erkannt werden, um die Phoneti- sierung in der gewünschten Sprache durchzuführen.

Es ist besonders bevorzugt, die soeben angesprochene Prä- prozessierung der Grapheme, die Graphem-zu-Phonem-Konver- tierung und die Phonetik-Nachbearbeitung zur Ermittlung der

Metadaten, wie sie erfindungsgemäß nun vorgesehen ist, paral^¬ lel für verschiedene Datensätze vorzunehmen. Durch diese pa^¬ rallele Prozessierung können mehrere Datensätze parallel ver^¬ arbeitet werden, so dass die Bearbeitungszeit für die Phone- tisierung einschließlich der Aufbereitung der phonetisierten Datensätze mittels Metadaten schnell erfolgen kann.

Die Erfindung bezieht sich auch auf eine sprachgesteuerte Be^¬ nutzerschnittstelle mit einer Spracherkennung, einer Daten- schnittstelle zum Anbinden an textenthaltende Datensätze und eine Recheneinheit zur Steuerung der Benutzerschnittstelle, wobei die Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet ist.

Die Erfindung betrifft auch ein Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittstelle zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon, wenn die Programmcodemittel von einem Prozessor der Recheneinheit ausgeführt werden.

Weitere Vorteile, Merkmale oder Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeich^¬ nung. Dabei bilden alle beschriebenen und/oder bildlich dar- gestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezü- gen . Die einzige Fig. 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zum Phonetisieren textenthaltender Datensätze mit mehreren Wortbestandteilen . Danach ist eine sprachgesteuerte Benutzerschnittstelle mit einer Einrichtung zum Phonetisieren oder eine Einreichung zum Phonetisieren 1 vorgesehen, die zur Phonetisierung der textenthaltenden Datensätze 2 eingerichtet ist. Diese textenthal^¬ tenden Datensätze 2 erhält die sprachgesteuerte Benutzer- schnittstelle respektive die Einrichtung zum Phonet isieren 1 über eine Datenschnittstelle 3, über die die Datensätze 2 in die sprachgesteuerte Benutzerschnittstelle bzw. Einrichtung 1 eingelesen werden können. Die Datensätze 2 liegen als Grapheme vor und werden in einer in der Benutzerschnittstelle 1 vorgesehenen Recheneinrichtung 4 in Phoneme konvertiert. Dieser Aspekt der Recheneinrichtung 4 ist in Fig.l der Deutlichkeit halber neben der sprachgesteuerten Benutzerschnittstelle bzw. Einrichtung 1 dargestellt, obwohl diese Recheneinheit 4 Teil der Benutzerschnittstelle bzw. allgemeiner der Einrichtung 1 zur Phonetisierung von Datensätzen 2 ist.

Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5, eine zweite Recheneinheit 6 und eine dritte Recheneinheit 7 auf, die erfindungsgemäß zur parallelen, voneinander unabhän- gigen Abarbeitung von Daten und Abläufen geeignet sind.

Es wird darauf hingewiesen, dass die in Fig. 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung wieder- gibt und nicht sämtliche, auf der Recheneinrichtung 4 bzw. in den Recheneinheiten 5, 6, 7 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren.

Die erste Recheneinheit 5 ist zur Präprozessierung der Gra- pheme, die zweite Recheneinheit 6 zur Konvertierung der Gra^¬ pheme in Phoneme und die dritte Recheneinheit 7 zur Phonetik- Nachbearbeitung bzw. -Postprozessierung eingerichtet. Die zweite Recheneinheit 6 zur Konvertierung kann vorzugsweise auch einen Spracherkenner aufweisen, der durch eine sprachge- steuerte Benutzerschnittstelle verwendet wird und auf die ge^¬ speicherte Phonemkette 9 (phonetisierter Datensatz) zugreift.

Das erfindungsgemäß vorgeschlagene Verfahren zur Phoneti- sierung läuft gemäß einer bevorzugten Ausführungsform wie nachfolgend beschrieben ab:

Nach dem Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung zum Phonetisieren 1 (bzw. die sprachgesteuerte Benutzerschnittstelle) werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, op^¬ tional zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. -Einheiten zerlegt. Dies ist durch den Pfeil 8 dargestellt, der in Fig. 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 8 in einer (ggf. auch zusätzlichen) Recheneinheit 5, 6, 7 der Recheneinrichtung 4 statt- findet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann.

Anschließend wird die Graphem-Teilfolge der ersten Rechenein^¬ heit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert wer^¬ den, beispielsweise durch Ersetzen von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen, Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind, und/oder dergleichen.

Die in der ersten Recheneinheit 5 implementierte Präprozes^¬ sierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprache- Varianten umfasst, wobei ggf. unterschiedliche Sprachen be^¬ rücksichtigt werden könne. Außerdem werden in der in der ersten Recheneinheit 5 implementieren Präprozessierung von durch das akustische Modell von Graphem-zu-Phonem-Konvert ierung nicht unterstütze Zeichen in durch das akustische Modell un- terstütze Graphem-Symbole konvertiert.

Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Rechen^¬ einheit 6 zugeführt, in welcher die eigentliche Graphem-zu- Phonem-Konvertierung stattfindet. Dieses Verfahren ist allge^¬ mein bekannt und muss daher an dieser Stelle nicht näher be^¬ schrieben werden.

Als Ergebnis der Graphem-zu-Phonem-Konvertierung liegt in der zweiten Recheneinheit 6 eine Phonemkette 9 im Sinne eines phonetisierten Datensatzes vor, der dem gesamten textenthaltenden Datensatz 2 entspricht. Gegebenenfalls werden hierfür Graphem-Teilfolgen, die in der Zerlegung 8 erzeugt wurden, wieder zusammengeführt. Im Ergebnis ist also der gesamte Da^¬ tensatz 2 mit den mehreren Datensatzteilen in eine zusammenhängende Phonemkette 9 konvertiert.

Diese zusammenhängende Phonemkette 9 wird dann der dritten Recheneinheit 7 zugeleitet, in welcher eine Phonetik-Post- prozessierung bzw. -Nachbearbeitung stattfindet. Ziel dieser Nachbearbeitung ist es, Metadaten zu ermitteln, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der

Graphem-zu-Phonem- Konvertierung gebildeten zusammenhängenden Phonemkette 9 befinden.

Dazu werden die einzelnen Phoneme der Phonemkette untersucht. Hierbei ist es z. B. möglich, durch die zwischen einzelnen Worten der Graphem-Darstellung eingefügten Phonem-Pausen unabhängige Wörter (Datensatzteile) zu identifizieren.

Nach der Erkennung der unabhängigen Worte werden diese be- stimmten Regeln folgend, die sich aus der Gesamtzahl der Worte sowie der Zahl der Worte in Teilelementen des Datensatzes ergeben können, neu zusammengefügt und als Alternativen in der Phonemliste gespeichert. Konkret am Beispiel von Kontakt^¬ daten werden z. B. Vor-, Mittel- und Nachname in allen Rei- henfolgenpermutationen erzeugt, ohne dass dafür eine weitere Graphem-zu-Phonem-Konvertierung (6) verwendet werden muss. Durch diese effiziente Erzeugung der Varianten lässt sich die textbasierte Liste schneller verwenden, als wenn diese Kombi^¬ nationen bereits auf Graphembasis erzeugt wurden. Grund für die Reduktion an Latenzzeit ist der Verzicht auf die Phoneti- sierung der Varianten für einen Datensatz, der in Recheneinheit 6 erfolgt.

Eine andere Möglichkeit zur Phonemkette-Nachbearbeitung liegt darin, dass zu erkennende Wortanfänge in dem textenthaltenden Datensatz erneut und temporär in Phoneme, vorzugsweise eine Folge von ein bis drei Phonemen, konvertiert werden, und die- se Phoneme bzw. Phonemfolge in der Phonemkette 9 gesucht wer^¬ den. Sobald eine Folge übereinstimmt, wird als Metadaten ein Zeiger auf den Speicherort dieser Phonemfolge in der Phonemkette 9 gelegt, beispielsweise durch Identifizierung des Speicherplatzes.

Die vorbeschriebenen Maßnahmen stellen besonders bevorzugte Möglichkeiten zur Phonetik-Nachbearbeitung gemäß der Erfindung dar, ohne dass die Erfindung jedoch auf diese konkreten Möglichkeiten beschränkt wäre.

Die Metadaten werden zusammen mit der Phonemkette 9 in einem geeigneten Speicher gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle auf diese mit Metadaten versehene Phonemkette zugreifen kann, um aus dem Text enthaltenden Datensätze abgeleitete Sprachbefehle zu identifizieren, auch wenn die Datensatzteile der Text enthaltenden Datensätze in den Sprachbefehlen vertauscht wurden. Durch das parallele Prozessieren der Präprozessierung, der Konvertierung und der Postprozessierung der Datensätze wird eine zeitökonomische Bearbeitung der Graphem-zu-Phonem- Konvertierung ohne Übergebühr große Latenzzeiten erreicht, wobei gleichzeitig eine einfache Such- und Sortiermöglichkeit der phonetisierten Datensätze 9 erhalten bleibt.

Claims

Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konver^¬ tiert und als Phonemkette (9) abgespeichert werden, d a d u r c h g e k e n n z e i c h n e t , dass der ge^¬ samte Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung (6) in eine zusammenhängende Phonemkette (9) konvertiert wird und an^¬ schließend in einer Phonetik-Nachbearbeitung (7) Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Pho^¬ nem-Konvertierung (6) gebildeten zusammenhängenden Phonemkette (7) befinden.

Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t , dass die Metadaten zusammen mit der Phonemkette (9) abgespeichert werden.

Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t , dass die Metadaten einen Zeiger auf die Position in der Phonemkette (9) aufweisen, die dem durch die Metadaten gekennzeichneten Datensatzteil entspricht .

Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Me^¬ tadaten eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen.

Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Me^¬ tadaten genutzt werden, um mindestens eine neue Phonem^¬ kette (9) mit anderer Sortierung der Datensatzteile zu erzeugen Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die neue Phonemkette (9) durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination von Datensat zteilWorten erzeugt wird.

Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Gra^¬ pheme in einer Präprozessierung (5) für das Phoneti- sieren aufbereitet werden, insbesondere indem die Gra^¬ pheme sprachdefiniert und/oder benutzerdefiniert aufbe^¬ reitet werden.

Verfahren nach Anspruch 7, d a d u r c h g e k e n n z e i c h n e t , dass die Präprozessierung (5) der Gra^¬ pheme, die Graphem-zu-Phonem-Konvertierung (6) und die Phonetik-Nachbearbeitung (7) zur Ermittlung der Metadaten parallel für verschiedenene textenthaltende Daten^¬ sätze (2) erfolgen.

Sprachgesteuerte Benutzerschnittstelle mit einer Sprach^¬ erkennung, einer Datenschnittstelle (3) zum Anbinden von textenthaltenden Datensätzen und einer Recheneinheit (4) zur Steuerung der Benutzerschnittstelle (1), d a ^¬ d u r c h g e k e n n z e i c h n e t , dass die Rechen^¬ einheit zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 eingerichtet ist.

Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittschelle (1) zur Durchführung eines Ver^¬ fahrens nach einem der Ansprüche 1 bis 8.