WO2015043802A1 - Verfahren zum phonetisieren von textenthaltenden datensätzen mit mehreren datensatzteilen und sprachgesteuerte benutzerschnittstelle - Google Patents

Verfahren zum phonetisieren von textenthaltenden datensätzen mit mehreren datensatzteilen und sprachgesteuerte benutzerschnittstelle Download PDF

Info

Publication number
WO2015043802A1
WO2015043802A1 PCT/EP2014/066498 EP2014066498W WO2015043802A1 WO 2015043802 A1 WO2015043802 A1 WO 2015043802A1 EP 2014066498 W EP2014066498 W EP 2014066498W WO 2015043802 A1 WO2015043802 A1 WO 2015043802A1
Authority
WO
WIPO (PCT)
Prior art keywords
phoneme
data
metadata
user interface
text
Prior art date
Application number
PCT/EP2014/066498
Other languages
English (en)
French (fr)
Inventor
Jens Walther
Original Assignee
Continental Automotive Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Gmbh filed Critical Continental Automotive Gmbh
Publication of WO2015043802A1 publication Critical patent/WO2015043802A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the invention relates to a method for Phonet images of text containing data records with multiple data record portions, in which the converted present as graphemes into phonemes and records referred to as the phoneme string, partly also as a phoneme ⁇ chain, stored.
  • the data sets are typically words.
  • a typical field of application to which the invention also preferably relates to the use of a symmetricge ⁇ controlled user interface in a multimedia unit of a motor vehicle which may inter alia comprise a voice-controlled user ⁇ interface, in particular a car telephone and / or egg ⁇ ne handsfree a motor vehicle can be used for building and running a call so that the driver of the vehicle put zer songs- voice-activated Benut by specifying a con ⁇ tact called the phone.
  • the voice control can also be used to control other functions of the multimedia unit, for example, by selecting a song, artist or album for playback by the multimedia unit.
  • the invention can preferably be used in voice-controlled interfaces in which text-based data ten entries are re-sortable.
  • voice-controlled interfaces in which text-based data ten entries are re-sortable.
  • the above-described applications represent a preferred application of the invention, this is not limited to precisely this function, but also generally applicable for voice-controlled user interface, in which a data list in text form (text list) as a text-containing Da ⁇ tensatz for recognition should be phonetized by the voice control, each list entry of the text list preferably ⁇ has at least two data record parts.
  • a phoneme According to the usual definition of a phoneme is a phonetic representation, which is the smallest signified ⁇ tung discriminating unit in a language that has a distinctive feature.
  • phonemes is understood in particular as a result of multiple individual Pho ⁇ nem icons in the vorlie ⁇ constricting text.
  • grapheme Similar to a phoneme, a grapheme (Graphem symbol) represents the smallest meaning-discriminating unit in the graphical representation of a text, and is often represented by the letters one
  • list entries are the records of the voice-controlled user interface forticianr- certain list entries from spoken commands the user iden ⁇ ren to detection are provided.
  • the records is a grapheme, ie a sequence of individual grapheme symbols or text characters, which may correspond, for example, the letter representation or a standardized letter position, existing record converted into phonemes and stored as a phoneme string, ie a sequence of individual phoneme symbols.
  • phonemes NEN ie as a result of individual phoneme symbols or phoneme chain
  • phonetarran- in speech recognition in the speech-controlled user interface to the to by the Benut ⁇ zer spoken word with a text containing list entry from the data in connection bring and so perform the corresponding predetermined functions.
  • phonetized data list phonemes are stored as a contiguous phoneme string and in particular the speech recognition or their speech recognizer provided in the voice-controlled user interface, so that they can easily access the phonetized data list.
  • the data lists or sentences may consist of several words or data record parts, contain acronyms and may also be multilingual.
  • a simple, natural as possible input for example, phone book contacts to ermögli ⁇ chen, speech recognition are many possible combinations of name, last name, as well as sub-elements (middle name) offered the same, that is, in general, various combinations of the different record parts.
  • Speech recognition or the speech recognizer done.
  • the plurality of text variants generated in this way is subsequently converted into different phoneme chains with a grapheme-to-phoneme conversion.
  • several variants of phonetized data records are generated and inserted, for example, in the voice-controlled user ⁇ interface for speech recognition.
  • the processor load and memory requirements for this process are significant. Since the phonetization is very computationally and resource-consuming, it comes in Neuphonetmaschine a larger data list and their variants for the user to a noticeable latency or wait until the pronouncedgesteu ⁇ erte user interface for recognition of names from the data list, and more generally of List entries can be used.
  • Phoneme symbol needs to be spoken to in order for the GESPRO ⁇ chene text can be detected.
  • the object of the invention is to propose a simpler possibility requiring less latency, with the text-containing data records in particular for a speech controlled user interface can be phonetized and in the individual record parts in the phoneme chain vice ⁇ can be set. This object is achieved with the features of claim 1. An ⁇ .
  • Conversion a contiguous phoneme string is converted and then in a phonetics post-processing, in particular by a phonetic post-processor, metadata are determined which indicate where are the individual of the several parts of the data in the contiguous phoneme chain formed by the grapheme-to-phoneme conversion ,
  • a grapheme to phoneme conversion is performed only once for the complete data set. Unlike the prior art, this is not necessary for every partial data record, ie the individual data record parts of the text-containing data record, and their combinations. Rather, once a complete phoneme prior to the stored as grapheme Since ⁇ record which can be used directly in a speech recognition.
  • Metadata are then determined from the phoneme chain, which indicates the position of the individual determined data record parts in the contiguous phoneme string. This allows a targeted access to certain positions in the phoneme string, so that it is not necessary to convert different sorts of the individual parts of the data into separate phoneme strings or even in the phoneme chain itself as a phoneme stored order identifiers hen recognized by the devices accordingly and must be processed.
  • the metadata can be stored together with the phoneme, ie, so that the terms of the metadata can be assigned to the position in the phoneme easily and without much processing power into ⁇ special in the phonetic data itself or a related record.
  • Metada ⁇ th to the position in the phoneme string sen aufwei- a pointer, each of which corresponds to the data set part indicated by the metadata. This can be done either by a characteristic ⁇ drawing of the location of the phoneme indicating the Be ⁇ beginning of the data set part indicated. This made ⁇ light a particularly easy access.
  • the metadata can additionally have an identifier for the data record parts relating to the respective metadata, so that the data record parts to which the metadata relate can be identified by the identifier. This can be done for example by linking between the record part in the graphem representation of the record and the corresponding entry in the metadata. This makes it possible to access the metadata directly from the record part of the data record.
  • a further development proposed according to the invention can, for a new phoneme string, generate the new phoneme string by stringing together pointers in the order of a selected combination of record parts.
  • the a ⁇ individual areas in the phoneme string are then respectively a pointer is addressed to select the phoneme string corresponding to each record part.
  • Metadata as it is now provided according to the invention, paral ⁇ lel make for different data sets.
  • pa ⁇ rallele processing multiple data sets can be ver ⁇ operates in parallel, so that the processing time for the phone- mation can including the processing of the records by means of metadata phonetometeren done quickly.
  • the invention also relates to a voice-controlled Be ⁇ user interface with a speech recognition, a data interface for connecting to text containing data sets and a computer unit for controlling the user interface, wherein the arithmetic unit is arranged to carry out the above-described method or parts thereof.
  • the invention also relates to a computer program product with program code means for the establishment of a processing unit of a voice-controlled user interface for carrying out the above-described method or parts thereof when the program code means are executed by a processor of the processing unit.
  • FIGURE 1 shows schematically an embodiment of the proposed device with the procedure of the method for phonetizing text-containing data records with a plurality of word components. Thereafter, a voice-controlled user interface with a device for phonetizing or a submission for phonetizing 1 is provided, which is set up to phonetize the text-containing data records 2.
  • This text thal ⁇ Tenden records 2 receives the voice-controlled user interface, respectively, said means for Phonet ize 1 via a data interface 3 by which the records can be read into the speech user interface or device 1.
  • the data sets 2 are available as graphemes and are converted into phonemes in a computing device 4 provided in the user interface 1. This aspect of the computing device 4 is shown in FIG. 1 for the sake of clarity next to the voice-controlled user interface or device 1, although this computing unit 4 is part of the user interface or, more generally, the device 1 for phononizing data records 2.
  • This computation device 4 has a first arithmetic unit 5, a second arithmetic unit 6 and a third arithmetic unit 7, which according to the invention are suitable for the parallel, mutually independent processing of data and sequences.
  • computing device 4 shown in FIG. 1 only reproduces the functions of the inventive solution to be described in more detail below and not all of them that run on the computing device 4 or in the computing units 5, 6, 7 of the computing device 4 Processes and procedures.
  • the first calculation unit 5 is pheme for preprocessing of the graphite, which set up the second calculating unit 6 for converting Gra ⁇ pheme into phonemes and the third computing unit 7 for finishing or phonetic -Postluitician.
  • the second arithmetic unit 6 for conversion may also preferably include a speech recognizer, which is used by a voice-controlled user interface, and to the ge ⁇ stored phoneme string 9 (phonetengineer record) accesses.
  • the grapheme After reading the text-containing data records 2 via the data interface 3 in the device for phonetizing 1 (or the voice-controlled user interface), the grapheme, ie the sequence of individual grapheme symbols, op ⁇ tional initially in grapheme subsequences of a given length of, for example 50 grapheme symbols or units disassembled.
  • This is illustrated by the arrow 8, which is shown in FIG. 1 outside the computing device 4, although the process of decomposition 8 takes place in a (possibly also additional) arithmetic unit 5, 6, 7 of the computing device 4 and, for example, as first process step of preprocessing can be understood.
  • the grapheme subsequence of the first Rechenein ⁇ unit 5 is fed, which takes over the preprocessing of the grapheme.
  • the graphemes to said defined each grapheme-part sequence and / or user-defined modified ⁇ to, for example, by replacing abbreviations, recognizing foreign language texts, omission of prefixes, expansion of acronyms, offer voice variants that are selectable by the user, and / or like.
  • the implemented in the first arithmetic unit 5 recuperzes ⁇ tion preferably comprises a grammar based parser, which rules for the text modification and / or in pronunciation includes variants, optionally wherein different languages can be be taken into ⁇ .
  • a grammar based parser which rules for the text modification and / or in pronunciation includes variants, optionally wherein different languages can be be taken into ⁇ .
  • characters not supported by the acoustic model of grapheme-to-phoneme conversion are converted into grapheme symbols supported by the acoustic model.
  • the (pre-processed) grapheme subsequence is fed to the second arithmetic unit 6, in which the actual grapheme-to-phoneme conversion takes place.
  • This process is known general ⁇ mine and therefore need not be closer ⁇ enrolled at this point.
  • This contiguous phoneme string 9 is then forwarded to the third arithmetic unit 7, in which phonetics post-processing takes place.
  • the goal of this post-processing is to determine metadata that indicates where each of the several parts of the data set in the
  • the individual phonemes of the phoneme chain are examined. This is z. For example, it is possible to identify independent words (record parts) through the phoneme pauses inserted between individual words of the grapheme representation.
  • phoneme chain post-processing Another possibility for phoneme chain post-processing is that word beginnings to be recognized in the text-containing data record are converted again and temporarily into phonemes, preferably a sequence of one to three phonemes, and the se phonemes or phoneme sequence in the phoneme chain 9 sought ⁇ the. As soon as a sequence matches, a pointer to the memory location of this phoneme sequence in the phoneme string 9 is set as metadata, for example by identifying the memory location.
  • the metadata is stored together with the phoneme string 9 in suitable memory so that a voice-driven user interface can access this metadata-driven phoneme string to identify voice commands derived from the text-containing data sets, even if the record portions of the text-containing data records are in the voice commands were swapped.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Es wird ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen beschrieben, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als Phonemkette (9) abgespeichert werden. Dabei ist vorgesehen, dass der gesamte Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung (6) in eine zusammenhängende Phonemkette (9) konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung (7) Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung (6) gebildeten zusammenhängenden Phonemkette (7) befinden. Ferner wird eine entsprechend eingerichtete, sprachgesteuerte Benutzerschnittstelle beschrieben.

Description

Beschreibung
Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzer- schnittstelle
Die Erfindung betrifft ein Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze in Phoneme konvertiert und als Phonemkette, teilweise auch als Phonem¬ kette bezeichnet, abgespeichert werden. Bei den Datensatztei¬ len handelt es sich typischer Weise um Worte.
Für sprachgesteuerte Benutzerschnittstellen ist es notwendig, meist in Datenbanken vorliegende Datensätze, beispielsweise in Form von Textlisten, zu phonetisieren, um den Inhalt der Datensätze einer Sprachsteuerung zuzuführen, bei der ein Benutzer durch Sprechen der Inhalte der Datensätze in der Benutzerschnittstelle den Datensatz auswählen und eine defi- nierte Aktion auslösen kann.
Ein typisches Anwendungsfeld, auf welches sich die Erfindung auch bevorzugt bezieht, ist die Verwendung einer sprachge¬ steuerten Benutzerschnittstelle in einer Multimedia-Einheit eines Kraftfahrzeugs, die als sprachgesteuerte Benutzer¬ schnittstelle insbesondere u. a. ein Autotelefon und/oder ei¬ ne Freisprecheinrichtung eines Kraftfahrzeugs aufweisen kann, so dass der Fahrer des Kraftfahrzeugs durch Angabe eines Kon¬ taktnamens des Telefons die sprachgesteuerte Benut zerschnitt- stelle für das Aufbauen und Führen eines Telefonats nutzen kann. Natürlich kann die Sprachsteuerung auch zur Steuerung weiterer Funktionen der Multimedia-Einheit genutzt werden, beispielsweise durch Auswahl von Musiktitel, Interpret oder Album zur Wiedergabe durch die Multimediaeinheit.
Grundsätzlich lässt sich die Erfindung bevorzugt bei sprachgesteuerten Schnittstellen nutzen, bei denen textbasierte Da- teneinträge umsortierbar sind. Auch wenn die vorbeschriebenen Anwendungen einen bevorzugten Anwendungsfall der Erfindung darstellt, ist diese jedoch nicht auf genau diese Funktion beschränkt, sondern auch allgemein für sprachgesteuerte Be- nut zerschnittstellen anwendbar, in denen eine in Textform vorliegende Datenliste (Textliste) als textenthaltender Da¬ tensatz zur Erkennung durch die Sprachsteuerung phonetisiert werden soll, wobei jeder Listeneintrag der Textliste vorzugs¬ weise mindestens zwei Datensatzteile aufweist.
Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buch¬ stabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als Phonem¬ kette, also phonetisierte Datensätze beispielsweise in einer phonetisierten Datenliste, gespeichert.
Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeu¬ tungsunterscheidende Einheit bildet, d. h. eine distinktive Funktion aufweist. Der Begriff "Phoneme" wird in dem vorlie¬ genden Text insbesondere als Folge mehrerer einzelner Pho¬ nem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer
Schrift definiert.
Wie es bei derartigen sprachgesteuerten Benutzerschnittstel¬ len bereits üblich ist, sollen Listeneinträge der Datensätze der sprachgesteuerten Benutzerschnittstelle für die Spracher- kennung zur Verfügung gestellt werden, um bestimmte Listeneinträge aus gesprochenen Befehlen des Benutzers identifizie¬ ren zu können. Bei einem dazu notwendigen Verfahren zum Pho- netisieren der Datensätze wird ein als Grapheme, d. h. eine Folge einzelner Graphem-Symbole bzw. Textzeichen, welche in beispielsweise der Buchstabendarstellung oder einer standardisierten Buchstabenstellung entsprechen können, vorliegender Datensatz in Phoneme konvertiert und als Phonemkette, d. h. eine Folge einzelner Phonem-Symbole, abgespeichert.
Diese als Phoneme, d. h. als Folge einzelner Phonem-Symbole bzw. Phonemkette, vorliegenden phonetisierten Datensätze kön- nen bei der Spracherkennung in der sprachgesteuerten Benutzerschnittstelle dazu verwendet werden, das durch den Benut¬ zer gesprochene Wort mit einem textenthaltenden Listeneintrag aus dem Datensatz in Verbindung zu bringen und so die entsprechend vorgegebenen Funktionen auszuführen. Üblicherweise werden in dieser phonetisierten Datenliste Phoneme als zusammenhängende Phonemkette gespeichert und insbesondere der Spracherkennung bzw. deren Spracherkenner in der sprachgesteuerten Benutzerschnittstelle zur Verfügung gestellt, so dass diese einfach auf die phonetisierte Datenliste zugreifen kann.
Die Datenlisten bzw. -sätze können aus mehreren Worten bzw. Datensatzteilen bestehen, Akronyme enthalten und sind mitunter auch multilingual. Um eine möglichst einfache, natürliche Eingabe von beispielsweise Telefonbuchkontakten zu ermögli¬ chen, werden der Spracherkennung viele mögliche Kombinationen aus Vor-, Nachnamen sowie Teilelemente (Mittelname) derselben angeboten, d. h. allgemein verschiedene Kombinationen der verschiedenen Datensatzteile. Weiterhin gibt es Anforderun- gen, wie die Expansion von Titeln (Dr.) und Verkettung von häufigen Teilworten (z. B. "de la" im mexikanischen Spanisch) .
Die Bereitstellung vieler Kombinationen von Vor- und Nachna- men sowie deren Unterelementen, d. h. allgemein vieler Kombinationen von Datensatzteilen, kann beispielsweise in einer in der sprachgesteuerten Benutzerschnittstelle vorhandenen
Spracherkennung bzw. dem Spracherkenner erfolgen.
Bei den bisherigen Systemen wurde das Neuerstellen der Pho- nemketteen bzw. der sprachgesteuerten Datenliste durch eine Neuphonetisierung der umgestellten Datensätze realisiert. Um eine Teildatensatzerkennung zu realisieren, werden Teilworte aus den Datensätzen bzw. Datenlisten nach bestimmten Regeln ermittelt und neu kombiniert. So werden beispielsweise bei Kontaktdaten bestehend aus Vorname, Mittelname und Nachname alle Permutationen erstellt. So entstehen fünf Textvarianten.
Bei einer noch größeren Anzahl von Datensatzteilen steigt die Anzahl der Textvarianten exponentiell . Zusätzlich müssen noch Duplikate ermittelt und bestimmte Akronyme (wie beispielswei¬ se "Dr.") expandiert werden.
Bei bisher bekannten Lösungen wird die so erzeugte Vielzahl von Textvarianten anschließend mit einer Graphem-zu-Phonem- Konvertierung in verschiedene Phonemketten umgewandelt. So werden mehrere Varianten von phonetisierten Datensätzen erzeugt und beispielsweise in die sprachgesteuerte Benutzer¬ schnittstelle zur Spracherkennung eingefügt. Die Prozessorlast und der Speicherbedarf für diesen Prozess sind erheblich. Da die Phonetisierung sehr rechen- und damit ressourcenaufwendig ist, kommt es bei der Neuphonetisierung einer größeren Datenliste und deren Varianten für den Benutzer zu einer spürbaren Latenz bzw. Wartezeit, bis die sprachgesteu¬ erte Benutzerschnittstelle zur Erkennung von Namen aus der Datenliste bzw. allgemeiner von Listeneinträgen verwendet werden kann.
Ein ähnliches Verfahren ist aus der EP 1 798 723 AI bekannt, bei der einem auswählbaren Listeneintrag (in dem Beispiel ei- nem Radiosender) mehrere Phonemketten (Sprachmuster) zugeordnet werden. Dies ist insbesondere deshalb nachteilig, weil ein Benutzer daran gewöhnt ist, die in mobilen Datengeräten mit Datenbankfunktion, beispielsweise Mobiltelefonen mit einer Kontaktdatenbank, gespeicherten Daten direkt nach Start des Infotain- ment-Systems bzw. Verbindung der Freisprecheinrichtung zur Verfügung stehen. Die Phonetisierung vieler verschiedenere Textvarianten erfordert jedoch eine zu große Rechenzeit.
Zur Vermeidung dieser Problematik wurde bereits vorgeschla- gen, dass in dem Text eines Listeneintrags, beispielsweise zwischen Vor- und Nachnamen, ein Trennzeichen zwischen den jeweiligen Datenfeldern des Listeneintrags eingefügt, mit in die Phonemkette konvertiert und dort als Phonem-Symbol (ein¬ zelnes Phonem) in der den phonetisierten Datensatz bildenden Phonemkette abgespeichert wird. Bei dem Erzeugen des phone- tisierten Datensatzes in der Spracherkennung bleibt das das Trennzeichen in dem Text des Listeneintrags symbolisierende Phonem-Symbol dagegen unberücksichtigt, d. h. es wird nicht in die Phoneme eines Listeneintrags integriert. Hierdurch wird vermieden, dass das das Trennzeichen symbolisierende
Phonem-Symbol mit gesprochen werden muss, damit der gespro¬ chene Text erkannt werden kann.
Auch dies ist jedoch umständlich, da in dem System Phoneme identifiziert werden müssen, die für eine Spracherkennung unberücksichtigt bleiben. Dies führt auch dazu, dass sich die erzeugte Phonemkette nicht universell zur Spracherkennung in beliebigen Geräten nutzen lässt, weil in Geräten die Phonem- Symbole, welche bei der Spracherkennung unberücksichtigt bleiben sollen, nicht unbedingt kennen und diese Phoneme in den Befehlen so mit gesprochen werden müssten. Außerdem müssen die Grapheme zuvor durch Ergänzung von speziellen Zeichen verändert werden, um eine Art Indexierung zu erzeugen. Aufgabe der Erfindung ist es, eine einfachere und insgesamt wenig Latenzzeit erfordernde Möglichkeit vorzuschlagen, mit der textenthaltende Datensätze insbesondere für eine sprach- gesteuerte Benutzerschnittstelle phonetisiert werden können und bei der einzelne Datensatzteile in der Phonemkette umge¬ stellt werden können. Diese Aufgabe wird erfindungsgemäß mit den Merkmalen des An¬ spruchs 1 gelöst.
Dazu ist bei einem Verfahren der eingangs genannten Art insbesondere vorgesehen, dass jeweils ein gesamter Datensatz mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-
Konvertierung eine zusammenhängend Phonemkette konvertiert wird und anschließend in einer Phonetik-Nachbearbeitung, insbesondere durch einen Phonetik-Postprozessor, Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Phonem-Konvertierung gebildeten, zusammenhängenden Phonemkette befinden. Dadurch wird nur einmal für den vollständigen Datensatz eine Graphem- zu-Phonem-Konvertierung durchgeführt. Dies ist anders als im Stand der Technik nicht für jeden Teildatensatz, d. h. die einzelnen Datensatzteile des textenthaltenden Datensatzes, und deren Kombinationen notwendig. Vielmehr liegt sofort eine vollständige Phonemkette zu dem als Graphem gespeicherten Da¬ tensatz vor, die unmittelbar in einer Spracherkennung verwendet werden kann. Für je nach Datensatz speziell ausgewählte Kriterien, beispielsweise Pausen zwischen den einzelnen Datenworten oder der Erkennung von Textelementen oder Zahlen oder dergleichen, werden dann aus der Phonemkette Metadaten ermittelt, die die Position der einzelnen ermittelten Datensatzteile in der zusammenhängenden Phonemkette anzeigt. Dies erlaubt einen gezielten Zugriff auf bestimmte Positionen in der Phonemkette, so dass es nicht notwendig ist, verschiedene Sortierungen der einzelnen Datensatzteile in jeweils eigenständige Phonemketten zu wandeln oder in der Phonemkette selbst als Phonem gespeicherte Ordnungskennzeichen vorzuse- hen, die von den Geräten entsprechend erkannt und verarbeitet werden müssen. Gemäß einer bevorzugten Ausführungsform können die Metadaten zusammen mit der Phonemkette abgespeichert werden, d. h. ins¬ besondere in dem Phonetik-Datensatz selbst oder einem damit verbundenen Datensatz, so dass der Bezug der Metadaten zu der Position in der Phonemkette einfach und ohne große Prozessorleistung zuordenbar ist.
Dazu kann beispielsweise vorgesehen werden, dass die Metada¬ ten einen Zeiger auf die Position in der Phonemkette aufwei- sen, die jeweils dem durch die Metadaten gekennzeichneten Datensatzteil entspricht. Dies kann entweder durch eine Kenn¬ zeichnung des Speicherorts des Phonems erfolgen, das den Be¬ ginn des gekennzeichneten Datensatzteils anzeigt. Dies ermög¬ licht einen besonders einfachen Zugriff.
Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die Metadaten zusätzlich eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen, so dass durch die Kennung die Datensatz- teile identifizierbar sind, auf die sich die Metadaten beziehen. Dies kann beispielsweise durch eine Verlinkung zwischen dem Datensatzteil in der Graphem-Darstellung des Datensatzes und dem entsprechenden Eintrag in den Metadaten erfolgen. Damit kann aus dem Datensatzteil des Datensatzes direkt auf die Metadaten zugegriffen werden.
Eine erfindungsgemäß vorgeschlagene Weiterentwicklung kann für eine neue Phonemkette kann, dass die neue Phonemkette durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination Datensatzteilen erzeugt wird. In diesem Fall muss keine neue Phonemfolge gespeichert werden, sondern lediglich eine Folge von Zeigern, die die einzelnen Datensatzteile in ihrer neuen Wortfolge zusammensetzt. Dies ist durch die Verwendung von Metadaten, die insbesondere als Zeiger ausgebildet sind, besonders einfach möglich. Die ein¬ zelnen Bereiche in der Phonemkette werden dann jeweils durch einen Zeiger bzw. Pointer angesprochen, um die dem jeweiligen Datensatzteil entsprechende Phonemkette auszuwählen.
Sobald der dem Datensatzteil entsprechende Bereich aus der Phonemkette abgearbeitet ist, springt der die Metadaten dar¬ stellende Zeiger auf den nächsten Datensatzteil. Dies redu¬ ziert den Speicherbedarf, wenn verschiedene Sortierungen der Phonemkette im Rahmen der sprachgesteuerten Benutzerschnittstelle zur Identifikation des Sprachbefehls verglichen werden müssen. Außerdem lässt sich die Reihenfolge der Zeiger in einer neuen Zeigerdatei so schnell speichern, dass der Benutzer bei einer Phonetisierung der textenthaltenden Datensätze keine Latenz mehr feststellt. Gemäß einer erfindungsgemäß vorgeschlagenen Variante können die Grapheme in einer Präprozessierung für das Phonetisieren aufbereitet werden, insbesondere indem die Grapheme sprachde¬ finiert und/oder benutzerdefiniert aufbereitet werden. Dabei können u.a. Akronyme für eine Phonetisierung vorbereitet und Sprachen der Datensatzteile erkannt werden, um die Phoneti- sierung in der gewünschten Sprache durchzuführen.
Es ist besonders bevorzugt, die soeben angesprochene Prä- prozessierung der Grapheme, die Graphem-zu-Phonem-Konver- tierung und die Phonetik-Nachbearbeitung zur Ermittlung der
Metadaten, wie sie erfindungsgemäß nun vorgesehen ist, paral¬ lel für verschiedene Datensätze vorzunehmen. Durch diese pa¬ rallele Prozessierung können mehrere Datensätze parallel ver¬ arbeitet werden, so dass die Bearbeitungszeit für die Phone- tisierung einschließlich der Aufbereitung der phonetisierten Datensätze mittels Metadaten schnell erfolgen kann.
Die Erfindung bezieht sich auch auf eine sprachgesteuerte Be¬ nutzerschnittstelle mit einer Spracherkennung, einer Daten- schnittstelle zum Anbinden an textenthaltende Datensätze und eine Recheneinheit zur Steuerung der Benutzerschnittstelle, wobei die Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet ist.
Die Erfindung betrifft auch ein Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittstelle zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon, wenn die Programmcodemittel von einem Prozessor der Recheneinheit ausgeführt werden.
Weitere Vorteile, Merkmale oder Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeich¬ nung. Dabei bilden alle beschriebenen und/oder bildlich dar- gestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezü- gen . Die einzige Fig. 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zum Phonetisieren textenthaltender Datensätze mit mehreren Wortbestandteilen . Danach ist eine sprachgesteuerte Benutzerschnittstelle mit einer Einrichtung zum Phonetisieren oder eine Einreichung zum Phonetisieren 1 vorgesehen, die zur Phonetisierung der textenthaltenden Datensätze 2 eingerichtet ist. Diese textenthal¬ tenden Datensätze 2 erhält die sprachgesteuerte Benutzer- schnittstelle respektive die Einrichtung zum Phonet isieren 1 über eine Datenschnittstelle 3, über die die Datensätze 2 in die sprachgesteuerte Benutzerschnittstelle bzw. Einrichtung 1 eingelesen werden können. Die Datensätze 2 liegen als Grapheme vor und werden in einer in der Benutzerschnittstelle 1 vorgesehenen Recheneinrichtung 4 in Phoneme konvertiert. Dieser Aspekt der Recheneinrichtung 4 ist in Fig.l der Deutlichkeit halber neben der sprachgesteuerten Benutzerschnittstelle bzw. Einrichtung 1 dargestellt, obwohl diese Recheneinheit 4 Teil der Benutzerschnittstelle bzw. allgemeiner der Einrichtung 1 zur Phonetisierung von Datensätzen 2 ist.
Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5, eine zweite Recheneinheit 6 und eine dritte Recheneinheit 7 auf, die erfindungsgemäß zur parallelen, voneinander unabhän- gigen Abarbeitung von Daten und Abläufen geeignet sind.
Es wird darauf hingewiesen, dass die in Fig. 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung wieder- gibt und nicht sämtliche, auf der Recheneinrichtung 4 bzw. in den Recheneinheiten 5, 6, 7 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren.
Die erste Recheneinheit 5 ist zur Präprozessierung der Gra- pheme, die zweite Recheneinheit 6 zur Konvertierung der Gra¬ pheme in Phoneme und die dritte Recheneinheit 7 zur Phonetik- Nachbearbeitung bzw. -Postprozessierung eingerichtet. Die zweite Recheneinheit 6 zur Konvertierung kann vorzugsweise auch einen Spracherkenner aufweisen, der durch eine sprachge- steuerte Benutzerschnittstelle verwendet wird und auf die ge¬ speicherte Phonemkette 9 (phonetisierter Datensatz) zugreift.
Das erfindungsgemäß vorgeschlagene Verfahren zur Phoneti- sierung läuft gemäß einer bevorzugten Ausführungsform wie nachfolgend beschrieben ab:
Nach dem Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung zum Phonetisieren 1 (bzw. die sprachgesteuerte Benutzerschnittstelle) werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, op¬ tional zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. -Einheiten zerlegt. Dies ist durch den Pfeil 8 dargestellt, der in Fig. 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 8 in einer (ggf. auch zusätzlichen) Recheneinheit 5, 6, 7 der Recheneinrichtung 4 statt- findet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann.
Anschließend wird die Graphem-Teilfolge der ersten Rechenein¬ heit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert wer¬ den, beispielsweise durch Ersetzen von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen, Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind, und/oder dergleichen.
Die in der ersten Recheneinheit 5 implementierte Präprozes¬ sierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprache- Varianten umfasst, wobei ggf. unterschiedliche Sprachen be¬ rücksichtigt werden könne. Außerdem werden in der in der ersten Recheneinheit 5 implementieren Präprozessierung von durch das akustische Modell von Graphem-zu-Phonem-Konvert ierung nicht unterstütze Zeichen in durch das akustische Modell un- terstütze Graphem-Symbole konvertiert.
Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Rechen¬ einheit 6 zugeführt, in welcher die eigentliche Graphem-zu- Phonem-Konvertierung stattfindet. Dieses Verfahren ist allge¬ mein bekannt und muss daher an dieser Stelle nicht näher be¬ schrieben werden.
Als Ergebnis der Graphem-zu-Phonem-Konvertierung liegt in der zweiten Recheneinheit 6 eine Phonemkette 9 im Sinne eines phonetisierten Datensatzes vor, der dem gesamten textenthaltenden Datensatz 2 entspricht. Gegebenenfalls werden hierfür Graphem-Teilfolgen, die in der Zerlegung 8 erzeugt wurden, wieder zusammengeführt. Im Ergebnis ist also der gesamte Da¬ tensatz 2 mit den mehreren Datensatzteilen in eine zusammenhängende Phonemkette 9 konvertiert.
Diese zusammenhängende Phonemkette 9 wird dann der dritten Recheneinheit 7 zugeleitet, in welcher eine Phonetik-Post- prozessierung bzw. -Nachbearbeitung stattfindet. Ziel dieser Nachbearbeitung ist es, Metadaten zu ermitteln, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der
Graphem-zu-Phonem- Konvertierung gebildeten zusammenhängenden Phonemkette 9 befinden.
Dazu werden die einzelnen Phoneme der Phonemkette untersucht. Hierbei ist es z. B. möglich, durch die zwischen einzelnen Worten der Graphem-Darstellung eingefügten Phonem-Pausen unabhängige Wörter (Datensatzteile) zu identifizieren.
Nach der Erkennung der unabhängigen Worte werden diese be- stimmten Regeln folgend, die sich aus der Gesamtzahl der Worte sowie der Zahl der Worte in Teilelementen des Datensatzes ergeben können, neu zusammengefügt und als Alternativen in der Phonemliste gespeichert. Konkret am Beispiel von Kontakt¬ daten werden z. B. Vor-, Mittel- und Nachname in allen Rei- henfolgenpermutationen erzeugt, ohne dass dafür eine weitere Graphem-zu-Phonem-Konvertierung (6) verwendet werden muss. Durch diese effiziente Erzeugung der Varianten lässt sich die textbasierte Liste schneller verwenden, als wenn diese Kombi¬ nationen bereits auf Graphembasis erzeugt wurden. Grund für die Reduktion an Latenzzeit ist der Verzicht auf die Phoneti- sierung der Varianten für einen Datensatz, der in Recheneinheit 6 erfolgt.
Eine andere Möglichkeit zur Phonemkette-Nachbearbeitung liegt darin, dass zu erkennende Wortanfänge in dem textenthaltenden Datensatz erneut und temporär in Phoneme, vorzugsweise eine Folge von ein bis drei Phonemen, konvertiert werden, und die- se Phoneme bzw. Phonemfolge in der Phonemkette 9 gesucht wer¬ den. Sobald eine Folge übereinstimmt, wird als Metadaten ein Zeiger auf den Speicherort dieser Phonemfolge in der Phonemkette 9 gelegt, beispielsweise durch Identifizierung des Speicherplatzes.
Die vorbeschriebenen Maßnahmen stellen besonders bevorzugte Möglichkeiten zur Phonetik-Nachbearbeitung gemäß der Erfindung dar, ohne dass die Erfindung jedoch auf diese konkreten Möglichkeiten beschränkt wäre.
Die Metadaten werden zusammen mit der Phonemkette 9 in einem geeigneten Speicher gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle auf diese mit Metadaten versehene Phonemkette zugreifen kann, um aus dem Text enthaltenden Datensätze abgeleitete Sprachbefehle zu identifizieren, auch wenn die Datensatzteile der Text enthaltenden Datensätze in den Sprachbefehlen vertauscht wurden. Durch das parallele Prozessieren der Präprozessierung, der Konvertierung und der Postprozessierung der Datensätze wird eine zeitökonomische Bearbeitung der Graphem-zu-Phonem- Konvertierung ohne Übergebühr große Latenzzeiten erreicht, wobei gleichzeitig eine einfache Such- und Sortiermöglichkeit der phonetisierten Datensätze 9 erhalten bleibt.

Claims

Verfahren zum Phonetisieren von textenthaltenden Datensätzen (2) mit mehreren Datensatzteilen, bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konver¬ tiert und als Phonemkette (9) abgespeichert werden, d a d u r c h g e k e n n z e i c h n e t , dass der ge¬ samte Datensatz (2) mit den mehreren Datensatzteilen in einer Graphem-zu-Phonem-Konvertierung (6) in eine zusammenhängende Phonemkette (9) konvertiert wird und an¬ schließend in einer Phonetik-Nachbearbeitung (7) Metadaten ermittelt werden, die angeben, wo sich einzelne der mehreren Datensatzteile in der von der Graphem-zu-Pho¬ nem-Konvertierung (6) gebildeten zusammenhängenden Phonemkette (7) befinden.
Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t , dass die Metadaten zusammen mit der Phonemkette (9) abgespeichert werden.
Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t , dass die Metadaten einen Zeiger auf die Position in der Phonemkette (9) aufweisen, die dem durch die Metadaten gekennzeichneten Datensatzteil entspricht .
Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Me¬ tadaten eine Kennung für die auf die jeweiligen Metadaten bezogenen Datensatzteile aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Me¬ tadaten genutzt werden, um mindestens eine neue Phonem¬ kette (9) mit anderer Sortierung der Datensatzteile zu erzeugen Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die neue Phonemkette (9) durch Aneinanderreihen von Zeigern in der Reihenfolge einer ausgewählten Kombination von Datensat zteilWorten erzeugt wird.
Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Gra¬ pheme in einer Präprozessierung (5) für das Phoneti- sieren aufbereitet werden, insbesondere indem die Gra¬ pheme sprachdefiniert und/oder benutzerdefiniert aufbe¬ reitet werden.
Verfahren nach Anspruch 7, d a d u r c h g e k e n n z e i c h n e t , dass die Präprozessierung (5) der Gra¬ pheme, die Graphem-zu-Phonem-Konvertierung (6) und die Phonetik-Nachbearbeitung (7) zur Ermittlung der Metadaten parallel für verschiedenene textenthaltende Daten¬ sätze (2) erfolgen.
Sprachgesteuerte Benutzerschnittstelle mit einer Sprach¬ erkennung, einer Datenschnittstelle (3) zum Anbinden von textenthaltenden Datensätzen und einer Recheneinheit (4) zur Steuerung der Benutzerschnittstelle (1), d a ¬ d u r c h g e k e n n z e i c h n e t , dass die Rechen¬ einheit zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 eingerichtet ist.
Computerprogrammprodukt mit Programmcodemitteln für die Einrichtung einer Recheneinheit einer sprachgesteuerten Benutzerschnittschelle (1) zur Durchführung eines Ver¬ fahrens nach einem der Ansprüche 1 bis 8.
PCT/EP2014/066498 2013-09-30 2014-07-31 Verfahren zum phonetisieren von textenthaltenden datensätzen mit mehreren datensatzteilen und sprachgesteuerte benutzerschnittstelle WO2015043802A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102013219828.0 2013-09-30
DE102013219828.0A DE102013219828B4 (de) 2013-09-30 2013-09-30 Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle

Publications (1)

Publication Number Publication Date
WO2015043802A1 true WO2015043802A1 (de) 2015-04-02

Family

ID=51292951

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2014/066498 WO2015043802A1 (de) 2013-09-30 2014-07-31 Verfahren zum phonetisieren von textenthaltenden datensätzen mit mehreren datensatzteilen und sprachgesteuerte benutzerschnittstelle

Country Status (2)

Country Link
DE (1) DE102013219828B4 (de)
WO (1) WO2015043802A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
DE102007016887B3 (de) * 2007-04-10 2008-07-31 Siemens Ag Verfahren und Vorrichtung zum Betreiben eines Navigationssystems
WO2013120796A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren zum phonetisieren einer datenliste und sprachgesteuerte benutzerschnittstelle
WO2013120794A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und einrichtung zur phonetisierung von textenthaltenden datensätzen

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
DE19610019C2 (de) 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
DE19939947C2 (de) * 1999-08-23 2002-01-24 Data Software Ag G Digitales Sprachsyntheseverfahren mit Intonationsnachbildung
EP1554715B1 (de) * 2002-09-23 2010-04-14 Infineon Technologies AG Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
DE102005059630A1 (de) 2005-12-14 2007-06-21 Bayerische Motoren Werke Ag Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl
GB0715369D0 (en) * 2007-08-07 2007-09-19 Aurix Ltd Methods and apparatus relating to searching of spoken audio data
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
DE102007016887B3 (de) * 2007-04-10 2008-07-31 Siemens Ag Verfahren und Vorrichtung zum Betreiben eines Navigationssystems
WO2013120796A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren zum phonetisieren einer datenliste und sprachgesteuerte benutzerschnittstelle
WO2013120794A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und einrichtung zur phonetisierung von textenthaltenden datensätzen

Also Published As

Publication number Publication date
DE102013219828A1 (de) 2015-04-02
DE102013219828B4 (de) 2019-05-02

Similar Documents

Publication Publication Date Title
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE602005004503T2 (de) Multilinguale Spracherkennung
DE102012202407B4 (de) Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
WO2004111869A1 (en) Exceptional pronunciation dictionary generation method for the automatic pronunciation generation in korean
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102006034192A1 (de) Spracherkennungsverfahren, -system und -vorrichtung
DE102007014405B4 (de) Verfahren zur Worterkennung in Zeichensequenzen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2013120794A1 (de) Verfahren und einrichtung zur phonetisierung von textenthaltenden datensätzen
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
EP2006835B1 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
DE102004055230B3 (de) Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
DE102013219828B4 (de) Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
DE102014010315B4 (de) Computer-implementiertes Verfahren und Vorrichtung zur Verarbeitung von Spracheingaben
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
DE10309948A1 (de) Verfahren zur Eingabe von Zielen in ein Navigationssystem
DE19754957A1 (de) Verfahren zur Spracherkennung
Rosyidin et al. Implementation Of System Comparative Linguistics: An Overview In Language Learning
Ebel et al. Developing the German Pronunciation Database (DAD)-an online dictionary for spoken German
Samlowski The syllable as a processing unit in speech production: evidence from frequency effects on coarticulation
EP2012303B1 (de) Verfahren zur Erkennung eines Sprachsignals

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14747914

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14747914

Country of ref document: EP

Kind code of ref document: A1