WO2006111230A1 - Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem - Google Patents

Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem Download PDF

Info

Publication number
WO2006111230A1
WO2006111230A1 PCT/EP2006/002489 EP2006002489W WO2006111230A1 WO 2006111230 A1 WO2006111230 A1 WO 2006111230A1 EP 2006002489 W EP2006002489 W EP 2006002489W WO 2006111230 A1 WO2006111230 A1 WO 2006111230A1
Authority
WO
WIPO (PCT)
Prior art keywords
hypotheses
data field
user
ambiguous
input
Prior art date
Application number
PCT/EP2006/002489
Other languages
English (en)
French (fr)
Inventor
Andre Berton
Udo Haiber
Paul Heisterkamp
Peter Brietzmann
Original Assignee
Daimlerchrysler Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimlerchrysler Ag filed Critical Daimlerchrysler Ag
Publication of WO2006111230A1 publication Critical patent/WO2006111230A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition

Definitions

  • the invention relates to a method for the targeted determination of a complete input data set with a plurality of necessary and additional data fields for a user in a speech dialogue system.
  • Speech inputs are becoming increasingly important in the operation of services and devices.
  • Complex inputs or input data sets eg. B. destination inputs in navigation systems and information and reservation requests for flights or restaurants, consist of several categories or data fields such as city, street, house number or the like. In known systems, the categories are entered individually and must each be confirmed. The permanent confirmations lead to unnecessarily long dialogues and are thus usually uncomfortable for the users.
  • Results of speech recognition can be as ambiguous as database entries, e.g.
  • the voice recognition system may output several likely city names in the user input of "Berlin", such as “Berlin” and "Beilin”.
  • Germany there are several cities in Germany called Berlin, so the orthographic representation of the name in the database or database is already ambiguous.
  • Such ambiguities are particularly evident in a large vocabulary of the speech recognition system.
  • Germany there are more than 70,000 city names, so that phonetic and orthographic similarities are unavoidable.
  • Speech-operated systems are already known from the prior art, which can handle large vocabulary (dictation systems in office environments, usually speaker-dependent).
  • the existing solutions often do not provide satisfactory / successful dialogues in difficult situations due to the very difficult noise conditions prevailing there and the need for speaker independence.
  • solutions were mostly implemented in which the user had to spell (at least the first 5 letters), after which a matching algorithm took the appropriate entries from a large list.
  • spelling is an unnatural and relatively uncomfortable process for the user.
  • WO 02/103678 A1 describes a method for speech recognition of speech utterances of a user for selecting a desired list element from a complete list of list elements.
  • DE 199 33 524 A1 discloses a method for entering data into a system, in particular in a navigation system installed in a vehicle.
  • a navigation system installed in a vehicle.
  • one or more to this input as closely as possible matching terms are determined as recognized terms that each of these recognized terms a reliability value is determined and that the one Input associated terms are treated considering their reliability values.
  • DE 100 12 572 C2 relates to a device for voice input of a destination by means of a defined input dialog in a route guidance system in real-time operation with means by which an input speech of a user detected by means of a speech recognition device, compared with stored speech utterances and classified according to their recognition probability and by which the stored speech utterance with the greatest recognition probability is recognized as the input speech utterance.
  • the stored speech utterances associated with a destination are composed at least of the destination name and at least one regionally restrictive additional information uniquely identifying the destination name.
  • DE 199 37 490 A1 describes a method by means of which a user can enter an input sentence comprising several data fields (command attributes) as a command input into a speech dialogue system. If there is an ambiguity in the speech recognition of the input, the user will be prompted to enter data on additional data fields until the recognition result is unambiguous. In this case, the user is made no specification regarding the next data field to be selected for supplementation, so that it is at his discretion to extend his input sentence by a data field suitable for resolving the ambiguity.
  • the method described in DE 198 09 518 C1 calls for the resolution of ambiguities of an input data set supplied to a speech dialogue system to the user on the basis of a fixed sequence of queries to supplement the input data record stepwise by data to further data fields.
  • a shortening of the speech dialogue is achieved by checking, before interrogating an input to another data field, whether the data for this data field can be meaningfully used to resolve the ambiguity.
  • the present invention has for its object to provide a method of the type mentioned above, which avoids the disadvantages of the prior art and increases the ease of use, in particular, the duration of the speech dialogues should be shortened and the recognition accuracy to be improved.
  • the dialog duration can be significantly reduced in comparison to known systems, which are based solely on spelling inputs or whole-word entries with constant user confirmation. All that remains to be confirmed is the overall result or large parts of the overall result.
  • the problem of low recognition accuracy in large Erkennervokabularien is significantly reduced by optimal additional information or additional categories or additional data fields are queried in ambiguous recognition results by the Erkennervokabular or the Hypothesenraum dynamically adjusted, in particular can be reduced and thus due to a possible redetection of the stored Speech signal sufficiently good recognition is achieved.
  • the dialogue success rate is increased because a higher recognition accuracy (due to the adapted word lists) has a direct effect on the dialogue success.
  • the proportion of unsuccessful dialogue requests is significantly reduced for specific applications.
  • Ease of use is enhanced by avoiding constant confirmation questions for each attribute value pair; successive dialog steps (loops) with a large Kennervokabular be avoided.
  • the information is summarized, so to speak, incrementally.
  • the method according to the invention (also referred to below as disambiguation) is carried out on a hypothesis space which has the ambiguous results of the speech utterances of the user inputs and their relationships with one another.
  • the disambiguation strategy is based on reliability values (also known as ratings, confidence or confidence measures) and optional additional categories or data fields.
  • Each hypothesis in the hypothesis space has a definite, unique type of representation (eg, orthographic, syntactic, or semantic) and a reliability value that estimates the reliability of the correctness of the hypothesis. This reliability value is available for the individual hypotheses and can also be combined by combining several data fields or categories of a complex input data record or entry.
  • the correct function of the method according to the invention is independent of whether the hypotheses to be sorted according to their reliability values are derived from the entire or the partial input sentence.
  • the adaptation of the hypothesis space is carried out by a successive reduction of the lists of recognized ambiguous hypotheses, since, as already mentioned above, the recognition accuracy can be increased.
  • the method according to the invention not only allows large hypothesis spaces to be restricted with the help of additional information, so to speak forward, but also to expand small hypothesis spaces or to completely revise them by means of additional information queries and subsequent new recognition
  • the next additional category or data field to be interrogated may be determined by a weighting or weighting strategy, for example, on a standard query order with preference weights and a number of different values of the additional category for the given hypotheses (so-called disambiguation strength ).
  • the preference weights can be determined and made available for example on the basis of a user survey with regard to the knowledge of the category values.
  • the weighting strategy can be adaptive in that, during the user interaction, the user-specific knowledge of the categories or data fields is stored and then the strategy for resolving the ambiguities or the ambiguity strategy, ie. H. the ambiguity resolution strategy is adjusted.
  • a database is provided for receiving the necessary and additional data fields. If the Further, if the database is application-specific, it can advantageously be adapted precisely to a specific application.
  • the user's voice inputs in particular confirmations, rejections and knowledge of the additional data fields are stored.
  • the weighting strategy can be adapted dynamically.
  • This procedure makes it possible to dispense with the recognition of very large lists by performing a simple or multiple new recognition (re-cognition) of a stored speech input with different vocabularies (lists). As recognition quality increases with decreasing vocabulary size, this method may assume more trustworthy results. Based on the reliability values (also known as ratings, confidence or confidence measures) the method decides for the best candidate or possibly revises the previous best result.
  • reliability values also known as ratings, confidence or confidence measures
  • the invention is illustrated below by way of example with reference to a speech dialogue system of a route guidance or navigation application.
  • a speech dialogue system of a route guidance or navigation application.
  • the voice dialogue system can serve as part of the phone, the address book or to play music.
  • the application-specific database and configuration are also advantageous for this purpose.
  • a method 1 for the specific determination of a complete input data set with several necessary data fields for a user in a speech dialogue system receives from a hypothesis list of several recognized by an automatic speech recognition system (not shown), ambiguous hypotheses, which are each provided with reliability values. Only the complete input data set is confirmed by the user. The hypotheses are sorted by their reliability values. To complete the partial input data sets, the optimal data field required for user query is determined which best resolves the existing ambiguous hypotheses. In order to resolve ambiguities of complete input data sets, the optimal or an additional data field that is necessary for the user query is determined which best resolves the existing ambiguous hypotheses. The hypothesis space is dynamically adjusted.
  • the input data sets or hypotheses have several necessary data fields or categories, namely "city”, “state”, “district”, “street”, together with their respective reliability values combined from the individual data fields (eg Berlin, Berlin , Mitte, Torstrasse, 0.87).
  • the method 1 accesses an application-specific database which contains all data fields (necessary and additional) as well as their values and relations or dependencies. What is needed are data fields that contain the complete input data set, i. H. define the navigation destination. Additional data fields serve to better resolve ambiguities. In the figure are provided as additional data fields or categories "district” and "postcode”. Furthermore, in a navigation application, for example, the names of regions, rivers, lakes, nearby cities, license plates or telephone area codes are conceivable.
  • the general functionality of the method 1 is adapted to specific applications, in the present embodiment, a navigation system.
  • a navigation system In addition to the adaptation parameters, at least the following points are defined in the configuration:
  • the method 1 receives the results from the preceding processing stages, ie the speech recognition by a speech recognition system or speech recognition. in the present case in the form of attribute or data field value pairs, which are provided with reliability values (probabilities, confidence measures). Furthermore, it is given which data fields are unknown to the user, in FIG. 1 this is the data field "postal code", which data fields were confirmed, in this case the data field "state” with the value "Berlin” and which were rejected, in this case the data field " County "with the value” Segeberg ". In addition, a reset command or resetting of the method / hypothesis space and the lists can also be obtained.
  • a next action to be performed or a suggestion for a next action to be performed is passed to the speech dialogue system as a function of the current hypothesis space, i. H. a decision or a proposed decision for the action to be performed in the dialog system taking into account the application-specific knowledge.
  • the other output parameters are used depending on the proposed follow-up action, such. For example, the next category, its dynamic word list to reload the recognizer vocabulary, the complete result data set, and the input mode, that is, whole words input or spelling.
  • All input information is retained and updated after each new entry.
  • speech signals all entered data fields or categories and their values are stored with their associated reliability values.
  • the method employs a learning or adaptation algorithm that stores which information or sub-information has already been acknowledged or rejected and which data fields are unknown to the user.
  • a database query is generated, which represents the relationships of the data fields in order to obtain as complete data records as possible and to generate a hypothesis space.
  • the hypothesis space contains all related datasets, information about their uniqueness and the associated reliability values, which are assembled for each dataset from the individual datafields.
  • a search algorithm is implemented on the hypothesis space, which sorts the hypotheses based on their reliability values and searches for complete data sets. If several complete data records exist, the additional category or data field is searched for, with the help of which the ambiguities can best be resolved.
  • a weighting formula can be applied from a notoriety of the data fields and the disambiguability (how many of the different data seats can be distinguished by the additional category, ie an evaluation with regard to the resolution of the ambiguous hypotheses). If there is not yet a complete data record, the next necessary category will be determined on the basis of the default order. ge queried. If information (a record) is rejected, then either the correctness of the next best record (highest confidence measure or highest reliability value) can be inquired or the user is asked to spell the value for a category. After the listmatch that follows the spell, there is definitely only one value left for this category.

Abstract

Die Erfindung betrifft ein Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen Datenfeldern für einen Benutzer in einem Sprachdialogsystem aus einer in einem Hypothesenraum abgelegten Liste mehrerer, von einem automatischen Spracherkennungssystem erkannter, mehrdeutiger Hypothesen, welche jeweils mit Zuverlässigkeitswerten versehen sind. Lediglich der vollständige Eingabedatensatz wird durch den Benutzer bestätigt. Die Hypothesen werden anhand ihrer Zuverlässigkeitswerte sortiert . Zur Vervollständigung der partiellen Eingabedatensätze wird dasjenige optimale notwendige Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Zur Auflösung von Mehrdeutigkeiten vollständiger Eingabedatensätze wird dasjenige optimale notwendige oder ein optimales zusätzliches Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Der Hypothesenraum wird dynamisch angepasst.

Description

Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialogsystem
Die Erfindung betrifft ein Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen und zusätzlichen Datenfeldern für einen Benutzer in einem Sprachdialogsystem.
Spracheingaben gewinnen bei der Bedienung von Diensten und Geräten zunehmend an Bedeutung. Komplexe Eingaben oder Eingabedatensätze, z. B. Zieleingaben bei Navigationssystemen sowie Informations- und Reservierungsanfragen für Flüge oder Restaurants, bestehen aus mehreren Kategorien bzw. Datenfeldern wie Ort, Straße, Hausnummer oder dergleichen. In bekannten Systemen werden die Kategorien einzeln eingegeben und müssen jeweils bestätigt werden. Die permanenten Bestätigungen führen zu unnötig langen Dialogen und sind somit für die Benutzer meist unkomfortabel.
Ergebnisse der Spracherkennung können ebenso mehrdeutig sein wie Datenbankeinträge, z. B. kann das Spracherkennungssystem bei der Benutzereingabe von "Berlin" mehrere wahrscheinliche Städtenamen ausgeben, wie etwa "Berlin" und "Beilin" . Außerdem gibt es in Deutschland mehrere Städte mit dem Namen Berlin, daher ist die orthografische Repräsentation des Namens in der Datenbank bzw. Datenbasis bereits mehrdeutig. Derartige Mehrdeutigkeiten treten besonders bei einem großen Vokabular des Spracherkennungssystems auf . In Deutschland gibt es mehr als 70.000 Städtenamen, so dass phonetische und ortho- grafische Ähnlichkeiten unvermeidbar sind.
Aus dem Stand der Technik sind bereits sprachbediente Systeme bekannt, die mit großem Vokabular umgehen können (Diktiersysteme in Büroumgebungen, zumeist sprecherabhängig) . In Fahrzeugen liefern die existierenden Lösungen aufgrund der dort herrschenden sehr schwierigen Geräuschbedingungen und der erforderlichen Unabhängigkeit vom Sprecher, in schwierigen Situationen oft keine zufriedenstellenden/erfolgreichen Dialoge. Bisher wurden meist Lösungen realisiert, bei denen der Benutzer (zumindest die ersten 5 Buchstaben) buchstabieren musste, worauf ein Matching-Algorithmus die passenden Einträge einer großen Liste entnahm. Das Buchstabieren ist jedoch für den Benutzer ein unnatürlicher und relativ unkomfortabler Vorgang .
In der WO 02/103678 Al ist ein Verfahren zur Spracherkennung von Sprachäußerungen eines Benutzers zur Auswahl eines gewünschten Listenelements aus einer Gesamtliste von Listenelementen beschrieben.
Aus der DE 199 33 524 Al ist ein Verfahren zur Eingabe von Daten in ein System, insbesondere in ein in einem Fahrzeug installierten Navigationssystem bekannt . Um die Eingabe von Daten für Benutzer zu erleichtern, ist vorgesehen, dass auf eine Eingabe eines Benutzers hin ein oder mehrere zu dieser Eingabe möglichst genau passende Begriffe als erkannte Begriffe ermittelt werden, dass zu jedem dieser erkannten Begriffe ein Zuverlässigkeitswert festgestellt wird und dass die einer Eingabe zugeordneten Begriffe unter Berücksichtigung ihrer Zuverlässigkeitswerte behandelt werden.
Die DE 100 12 572 C2 betrifft eine Vorrichtung zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem im Echtzeitbetrieb mit Mitteln, durch die eine eingegebene Sprachäußerung eines Benut- zers mittels einer Spracherkennungseinrichtung erfasst, mit gespeicherten Sprachäußerungen verglichen sowie gemäß ihrer Erkennungswahrscheinlichkeit klassifiziert wird und durch die die gespeicherte Sprachäußerung mit der größten Erkennungs- wahrscheinlichkeit als die eingegebene Sprachäußerung erkannt wird. Die einem Zielort zugeordneten gespeicherten Sprachäußerungen sind zumindest aus dem Zielortnamen und mindestens einer den Zielortnamen eindeutig identifizierenden, regional einschränkenden Zusatzinformation zusammengesetzt.
In der DE 199 37 490 Al wird ein Verfahren beschrieben, mittels welchem ein Benutzer einen mehrere Datenfelder (Befehlsattribute) umfassenden Eingabesatz als Befehlseingabe in ein Sprachdialogsystem eingeben kann. Ergibt sich bei der Spracherkennung der Eingabe eine Mehrdeutigkeit, so wird der Benutzer so lange zur Eingabe von Daten zu weiteren Datenfelder aufgefordert, bis das Erkennungsergebnis eindeutig ist. Hierbei wird dem Benutzer hinsichtlich des nächsten zur Ergänzung auszuwählenden Datenfeldes keinerlei Vorgabe gemacht, so dass es in seinem Ermessen liegt, seinen Eingabesatz um ein zu Auflösung der Mehrdeutigkeit geeignetes Datenfeld zu erweitern.
Das in der DE 198 09 518 Cl beschriebene Verfahren fordert zur Auflösung von Mehrdeutigkeiten eines einem Sprachdialogsystem zugeführten Eingabedatensatz den Benutzer anhand einer festgelegten Abfolge von Abfragen dazu auf, den Eingabedatensatz schrittweise um Daten zu weiteren Datenfelder zu ergänzen. Eine Verkürzung des Sprachdialoges wird dadurch erreicht, dass vor der Abfrage einer Eingabe zu einem weiteren Datenfeld geprüft wird, ob sich die Daten zu diesem Datenfeld sinnvoll für die Auflösung der Mehrdeutigkeit heranziehen lassen. Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs erwähnten Art zu schaffen, welches die Nachteile des Standes der Technik vermeidet und die Benutzerfreundlichkeit erhöht, wobei insbesondere die Dauer der Sprachdialoge verkürzt und die Erkennungsgenauigkeit verbessert werden sollen.
Diese Aufgabe wird erfindungsgemäß durch Anspruch 1 gelöst .
Durch die erfindungsgemäßen Maßnahmen kann die Dialogdauer im Vergleich zu bekannten Systemen, welche nur auf Buchstabiereingaben oder Ganzworteingaben mit ständiger Benutzerbestätigung beruhen, in vorteilhafter Weise signifikant reduziert werden. Es müssen lediglich noch das Gesamtergebnis oder große Teile des Gesamtergebnisses bestätigt werden. Das Problem der geringen Erkennungsgenauigkeit bei großen Erkennervokabularien wird deutlich verringert, indem bei mehrdeutigen Erkennungsergebnissen optimale Zusatzinformationen bzw. Zusatzkategorien oder zusätzliche Datenfelder abgefragt werden, durch die das Erkennervokabular bzw. der Hypothesenraum dynamisch angepasst, insbesondere verkleinert werden kann und somit aufgrund einer möglichen Neuerkennung des gespeicherten Sprachsignals eine hinreichend gute Erkennung erzielt wird. Die Dialogerfolgsrate wird erhöht, da sich eine höhere Erkennungsgenauigkeit (aufgrund der angepassten Wortlisten) unmittelbar auf den Dialogerfolg auswirkt . Der Anteil erfolgloser Dialoganfragen wird anwendungsspezifisch deutlich reduziert.
Die Benutzerfreundlichkeit wird durch die Vermeidung ständiger Bestätigungsfragen für jedes Attribut-Wertpaar erhöht; aufeinanderfolgende Dialogschritte (Schleifen) mit großem Er- kennervokabular werden vermieden. Die Informationen werden sozusagen inkrementell verdichtet.
Das erfindungsgemäße Verfahren (im folgenden auch als Disam- biguierung bezeichnet) wird auf einem Hypothesenraum durchgeführt, welcher die mehrdeutigen Ergebnisse der Sprachäußerungen der Benutzereingaben und deren Beziehungen untereinander aufweist. Die Disambiguierungsstrategie basiert auf Zuverlässigkeitswerten (auch als Bewertungen, Vertrauens- oder Konfidenzmaße bezeichnet) und optionalen zusätzlichen Kategorien bzw. Datenfeldern. Jede Hypothese im Hypothesenraum besitzt eine bestimmte, eindeutige Art der Repräsentation (z. B. orthografisch, syntaktisch oder semantisch) und einen Zuverlässigkeitswert, der die Zuverlässigkeit der Korrektheit der Hypothese schätzt. Dieser Zuverlässigkeitswert steht für die einzelnen Hypothesen zur Verfügung und kann durch Kombination mehrerer Datenfelder bzw. Kategorien eines komplexen Eingabedatensatzes oder Eintrags ebenfalls kombiniert werden. In besonders vorteilhafter Weise ist die korrekte Funktion des erfindungsgemäßen Verfahrens unabhängig davon ob die nach ihren Zuverlässigkeitswerten zu sortierenden Hypothesen von dem gesamten oder dem partiellen Eingabesatz abgeleitet werden.
Vorteilhaft ist es, wenn die Anpassung des Hypothesenraums durch eine sukzessive Verkleinerung der Listen der erkannten mehrdeutigen Hypothesen erfolgt, da wie vorstehend bereits erwähnt, die Erkennungsgenauigkeit erhöht werden kann. Jedoch erlaubt das erfindungsgemäße Verfahren nicht nur große Hypothesenräume mit Hilfe von Zusatzinformationen, sozusagen vorwärts einzuschränken, sondern auch kleine Hypothesenräume zu erweitern oder mittels Zusatzinformationsabfragen und anschließender Neuerkennung komplett zu revidieren
Erfindungsgemäß kann ferner vorgesehen sein, dass das optimale zu wählende zusätzliche Datenfeld über eine Gewichtungsformel aus einem Bekanntheitsgrad des zusätzlichen Datenfelds und einer Bewertung hinsichtlich der Auflösung der mehrdeutigen Hypothesen ermittelt wird. Vorteilhaft ist außerdem, wenn der Bekanntheitsgrad der zusätzlichen Datenfelder über eine Benutzerbefragung oder einer vorliegenden Statistik (beispielsweise aus dem Internet) ermittelt wird oder, wenn die Gewichtungsformel adaptiv, während der Benutzerinteraktion auf die Kenntnisse des jeweiligen Benutzers angepasst wird. In besonders vorteilhafter Weise kann vorgesehen werden, dass insbesondere dann, wenn sich durch Inferenz schon eine Eindeutigkeit des Gesamtsatzes ergibt, nicht alle notwendigen Datenfelder im Rahmen einer Benutzerabfrage nachgefragt werden müssen.
Die nächste abzufragende zusätzliche Kategorie bzw. das nächste abzufragende zusätzliche Datenfeld kann durch ein Gewichtungsverfahren bzw. eine Gewichtungsstrategie ermittelt werden, das bzw. die beispielsweise auf einer Standard- Abfragereihenfolge mit Präferenzgewichten und einer Anzahl verschiedener Werte der zusätzlichen Kategorie für die gegebenen Hypothesen (sogenannte Disambiguierungsstärke) basiert. Die Präferenzgewichte können beispielsweise auf Basis einer Benutzerbefragung hinsichtlich der Kenntnis der Kategoriewerte ermittelt und zur Verfügung gestellt werden. Die Gewichtungsstrategie kann dabei adaptiv sein, indem während der Benutzerinteraktion, die benutzerspezifischen Kenntnisse der Kategorien bzw. Datenfelder gespeichert werden und daraufhin die Strategie zur Auflösung der Mehrdeutigkeiten bzw. die Di- sambiguierungsStrategie, d. h. die Strategie zur Auflösung von Mehrdeutigkeiten angepasst wird.
Selbstverständlich können entsprechend der Verwendung einer Gewichtungsformel auch andere Optimierungskriterien zur Anwendung kommen/ so beispielsweise bereits aus Internetanwen- dungen bekannte Zugriffsstatistiken.
Vorteilhaft ist, wenn eine Datenbank zur Aufnahme der notwendigen und zusätzlichen Datenfelder vorgesehen ist. Wenn die Datenbank des weiteren anwendungsspezifisch ist, kann sie in vorteilhafter Weise genau auf eine bestimmte Anwendung ange- passt werden.
In einer verfahrensmäßigen Ausgestaltung der Erfindung kann vorgesehen sein, dass die Spracheingaben des Benutzers, insbesondere Bestätigungen, Zurückweisungen und Kenntnisse hinsichtlich der zusätzlichen Datenfelder, gespeichert werden.
Sonach kann insbesondere die Gewichtungsstrategie dynamisch angepasst werden.
Ξrfindungsgemäß kann vorgesehen sein, dass weitere Spracherkennungen mittels des angepassten Hypothesenraums auf unterschiedlichen Vokabularien des Spracherkennungssystems durchgeführt werden .
Durch diese Vorgehensweise kann auf die Erkennung sehr großer Listen verzichtet werden, indem eine einfache oder mehrfache Neuerkennung (Rerecognition) einer gespeicherten Spracheingabe mit verschiedenen Vokabularien (Listen) durchgeführt wird. Da mit sinkender Vokabulargröße die Erkennungsgüte zunimmt, kann diese Methode von vertrauenswürdigeren Ergebnissen ausgehen. Aufgrund der Zuverlässigkeitswerte (auch als Bewertungen, Vertrauens- oder Konfidenzmaße bezeichnet) entscheidet sich die Methode für den besten Kandidaten oder revidiert eventuell das bisherige beste Ergebnis.
Vorteilhaft ist, wenn die Reihenfolge der abzufragenden notwendigen und zusätzlichen Datenfelder, insbesondere anwendungsspezifisch festgelegt wird.
Als Rückfallstrategie kann ein partielles Buchstabieren der Hypothesen durch den Benutzer mit Listenmatch zur Ermittlung des vollständigen Eingabedatensatzes eingesetzt werden. Dies ist insbesondere bei gering vertrauenswürdigen Informationen denkbar . Weitere vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den restlichen Unteransprüchen. Nachfolgend ist anhand der Zeichnung prinzipmäßig ein Ausführungsbeispiel der Erfindung beschrieben.
Die einzige Figur der Zeichnung zeigt eine vereinfachte schematische Darstellung eines erfindungsgemäßen Verfahrens.
Die Erfindung wird im folgenden exemplarisch anhand eines Sprachdialogsystems einer Zielführungs- bzw. Navigationsanwendung dargestellt. In anderen Ausführungsbeispielen könnten auch weitere beziehungsweise andere Sprachdialogsysteme vorgesehen sein; beispielsweise kann das Sprachdialogsystem als Teil des Telefons, des Adressbuches oder zum Abspielen von Musik dienen. Hierzu sind insbesondere auch die applikationsspezifische Datenbank und Konfiguration vorteilhaft.
Wie aus der Figur ersichtlich, erhält ein erfindungsgemäßes Verfahren 1 zur gezielten Ermittlung eines vollständigen Eingabedatensatzes mit mehreren notwendigen Datenfeldern für einen Benutzer in einem Sprachdialogsystem (nicht dargestellt) aus einer in einem Hypothesenraum abgelegten Liste mehrerer, von einem automatischen Spracherkennungssystem (nicht dargestellt) erkannter, mehrdeutiger Hypothesen, welche jeweils mit Zuverlässigkeitswerten versehen sind. Dabei wird lediglich der vollständige Eingabedatensatz durch den Benutzer bestätigt . Die Hypothesen werden anhand ihrer Zuverlässigkeitswerte sortiert. Zur Vervollständigung der partiellen Eingabedatensätze wird dasjenige optimale notwendige Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst. Zur Auflösung von Mehrdeutigkeiten vollständiger Eingabedatensätze wird dasjenige optimale notwendige oder ein optimales zusätzliches Datenfeld zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst . Der Hypothesenraum wird dynamisch angepasst . Die Eingabedatensätze bzw. Hypothesen weisen mehrere notwendige Datenfelder bzw. Kategorien, nämlich "Stadt", "Bundesland", "Stadtteil", "Strasse", zusammen mit deren jeweiligen aus den einzelnen Datenfeldern kombinierten Zuverlässigkeits- werten (z. B. Berlin, Berlin, Mitte, Torstraße, 0,87), auf.
Das Verfahren 1 greift auf eine applikationsspezifische Datenbank zu, welche alle Datenfelder (notwendige und zusätzliche) sowie deren Werte und Relationen bzw. Abhängigkeiten enthält. Notwendig sind Datenfelder, die den vollständigen Eingabedatensatz, d. h. das Navigationsziel definieren. Zusätzliche Datenfelder dienen der besseren Auflösung von Mehrdeutigkeiten. In der Figur sind als zusätzliche Datenfelder bzw. Kategorien "Landkreis" und "Postleitzahl" vorgesehen. Des weiteren sind bei einer Navigationsanwendung beispielsweise die Namen von Regionen, Flüssen, Seen, nahen Großstädten, Kfz-Kennzeichen oder Telefonvorwahlen denkbar.
Durch eine applikationsspezifische Konfiguration wird die allgemeine Funktionalität des Verfahrens 1 auf spezielle Anwendungen, im vorliegenden Ausführungsbeispiel ein Navigationssystem angepasst . In der Konfiguration werden neben den Adaptionsparametern wenigstens die folgenden Punkte festgelegt :
- welche Kategorien sind notwendig, in welcher Reihenfolge werden diese Kategorien standardmäßig abgefragt,
- welche zusätzlichen Kategorien sind zur Disambiguie- rung verfügbar,
- welchen Bekanntheitsgrad haben die zusätzlichen Kategorien bei den Benutzern und
- welche Größe ist für den Hypothesenraum verfügbar.
Als Eingabeparameter erhält das Verfahren 1 die Ergebnisse aus den vorangegangenen Verarbeitungsstufen, d. h. der Spracherkennung durch ein SpracherkennungsSystem oder Sprach- verstehen, vorliegend in Form von Attribut- bzw. Datenfeld- Wert-Paaren, die mit Zuverlässigkeitswerten (Wahrscheinlichkeiten, Konfidenzmaßen / Vertrauensmaßen) versehen sind. Des weiteren wird übergeben, welche Datenfelder dem Benutzer unbekannt sind, in Fig. 1 ist dies das Datenfeld "Postleitzahl", welche Datenfelder bestätigt wurden, vorliegend das Datenfeld "Bundesland" mit dem Wert "Berlin" und welche zurückgewiesen wurden, vorliegend das Datenfeld "Landkreis" mit dem Wert "Segeberg" . Darüber hinaus kann auch ein Resetbefehl bzw. Zurücksetzen des Verfahrens/des Hypothesenraums und der Listen erhalten werden.
Als Ausgabeparameter wird eine durchzuführende nächste Aktion oder ein Vorschlag für eine durchzuführende nächste Aktion an das Sprachdialogsystem in Abhängigkeit des aktuellen Hypothesenraums übergeben, d. h. eine Entscheidung oder ein Entscheidungsvorschlag für die auszuführende Aktion im Dialogsystem unter Berücksichtigung des applikationsspezifischen Wissens .
Folgende nächste Aktionen sind vorgesehen:
- Abfrage eines neuen Datenfelds (als Ganzworteingäbe oder Buchstabieren) , ein bereits eingegebenes Datenfeld durch eine weitere Spracherkennung auf einer dynamisch angepassten Vokabularliste des Spracherkennungssystems neu zu erkennen, da die Spracheingaben des' Benutzers gespeichert werden, um nach Eingabe weiterer Kategorien eine Neuerkennung zu ermöglichen, bei welcher die ursprünglich sehr großen Listen aufgrund der Datenbankrelationen weiter eingeschränkt werden,
- ein bereits eingegebenes Datenfeld zu bestätigen, den vollständigen Eingabedatensatz als notwendige finale Bestätigung zu bestätigen oder
- eine zuverlässigere Form der Eingabe, insbesondere Buchstabieren für ein Datenfeld zu wählen. Die weiteren Ausgabeparameter werden je nach vorgeschlagener Folgeaktion eingesetzt, so z. B.: die nächste Kategorie, deren dynamische Wortliste zum Nachladen des Erkennervokabulars, der komplette Ergebnisdatensatz und der Eingabemodus, also Ganzworteingäbe oder Buchstabieren.
Alle Eingabeinformationen werden aufbewahrt und nach jeder neuen Eingabe aktualisiert. Als Sprachsignale werden alle eingegebenen Datenfelder bzw. Kategorien und deren Werte mit deren zugehörigen Zuverlässigkeitswerten aufbewahrt . Außerdem wendet das Verfahren einen Lern- oder Adaptionsalgorithmus an, der speichert, welche Informationen oder Teilinformationen bereits bestätigt oder zurückgewiesen wurden und welche Datenfelder dem Benutzer unbekannt sind.
Aus den gespeicherten Informationen wird eine Datenbankabfrage generiert, welche die Zusammenhänge der Datenfelder repräsentiert, um möglichst vollständige Datensätze zu erhalten und einen Hypothesenraum zu generieren. Der Hypothesenraum enthält alle zusammengehörigen Datensätze, Informationen zu deren Eindeutigkeit und die zugehörigen Zuverlässigkeits~ werte, die für jeden Datensatz aus den einzelnen Datenfeldern zusammengesetzt werden. Auf dem Hypothesenraum wird ein Suchalgorithmus realisiert, der die Hypothesen anhand ihrer Zuverlässigkeitswerte sortiert und nach vollständigen Datensätzen sucht. Existieren mehrere vollständige Datensätze, so wird die zusätzliche Kategorie bzw. das zusätzliche Datenfeld gesucht, mit Hilfe derer bzw. dessen sich die Mehrdeutigkeiten am besten auflösen lassen.
Hierfür kann eine Gewichtungsformel aus einem Bekanntheits- grad der Datenfelder und der Disambiguierbarkeit (wie viele der verschiedenen Datensitze können durch die zusätzliche Kategorie unterschieden werden, d. h. eine Bewertung hinsichtlich der Auflösung der mehrdeutigen Hypothesen) angewendet werden. Liegt noch kein vollständiger Datensatz vor, so wird die nächste notwendige Kategorie anhand der Vorgabereihenfol- ge abgefragt. Werden Informationen (ein Datensatz) zurückgewiesen, so kann entweder die Korrektheit des nächstbesten Datensatzes (höchstes Vertrauensmaß bzw. höchster Zuverlässigkeitswert) nachgefragt werden, oder der Benutzer wird aufgefordert, den Wert für eine Kategorie zu buchstabieren. Nach dem Listenmatch, welches dem Buchstabieren folgt, existiert definitiv nur noch ein Wert für diese Kategorie.

Claims

Patentansprüche
1. Verfahren (1) zur gezielten Ermittlung eines eindeutigen Eingabedatensatzes bei der Spracheingabe durch einen Benutzer in ein Sprachdialogsystem, wobei der Eingabendatensatz aus mehreren Datenfeldern besteht, bei welchem dann, wenn sich für die Bedeutung eines durch das Sprachdialogsystem erkannten Eingabedatensatzes, bestehend aus wenigstens einem Datenfeld, mehrdeutige Hypothesen ergeben, diese mit Zuverlässigkeitswerten versehen und in einer Liste im Hypothesenraum abgelegten werden, bei welchem diese in mehrdeutigen Hypothesen resultierenden, partiellen Eingabedatensätze durch Benutzerabfrage um dasjenige optimale notwendige Datenfeld zur Vervollständigung erweitert werden, welches die vorhandenen mehrdeutigen Hypothesen am besten auflöst, wobei hierzu auf eine applikationsspezifische Datenbank zugegriffen wird, in welcher alle möglichen Datenfelder, sowie deren Werte und Relationen bzw. Abhängigkeiten enthalten sind, und bei welchem nach der Erweiterung sodann der Hypothesenraum dynamisch angepasst wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Anpassung des Hypothesenraums durch eine sukzessive Verkleinerung der Listen der erkannten mehrdeutigen Hypothesen erfolgt .
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das optimale zu wählende zusätzliche Datenfeld über eine Gewichtungsformel aus einem Bekanntheitsgrad des zusätzlichen Datenfelds und einer Bewertung hinsichtlich der Auflösung der mehrdeutigen Hypothesen ermittelt wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Bekanntheitsgrad der zusätzlichen Datenfelder über eine Benutzerbefragung oder eine vorliegende Statistik ermittelt wird.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die Gewichtungsformel adaptiv, während der Benutzerinteraktion auf die Kenntnisse des jeweiligen Benutzers angepasst wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass eine Datenbank zur Aufnahme der notwendigen und zusätzlichen Datenfelder vorgesehen ist.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Datenbank anwendungsspezifisch ist .
8.Verfahren nach einem der vorhergehenden Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Spracheingaben des Benutzers gespeichert werden.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass weitere Spracherkennungen mittels des angepassten Hypothesenraums auf unterschiedlichen Vokabularien des Spracherkennungssystems durchgeführt werden .
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die Reihenfolge der abzufragenden notwendigen und zusätzlichen Datenfelder festgelegt wird.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass das Sprachdialogsystem als Teil des Telefons, des Adressbuches, der Bedienung eines Navigationssystems oder zum Abspielen von Musik dient.
12.Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass als Rückfallstrategie ein partielles Buchstabieren der Hypothesen durch den Benutzer eingesetzt wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass als Eingabeparameter die Datenfeld- Wert-Paare mit den Zuverlässigkeitswerten, bestätigte Datenfeldwerte, zurückgewiesene Datenfeldwerte, unbekannte Datenfelder oder ein Resetbefehl erhalten werden.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass als Ausgabeparameter eine durchzuführende nächste Aktion oder ein Vorschlag für eine durchzuführende nächste Aktion an das Sprachdialogsystem in Abhängigkeit des aktuellen Hypothesenraums übergeben wird.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass folgende nächste Aktionen vorgesehen sind:
Abfrage eines neuen Datenfelds, ein bereits eingegebenes Datenfeld durch eine weitere Spracherkennung auf einer dynamischen Vokabularliste des Spracherkennungssystems neu zu erkennen, ein bereits eingegebenes Datenfeld zu bestätigen, den vollständigen Eingabedatensatz zu bestätigen oder eine zuverlässigere Form der Eingabe zu wählen.
PCT/EP2006/002489 2005-04-19 2006-03-17 Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem WO2006111230A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005018174.0 2005-04-19
DE200510018174 DE102005018174A1 (de) 2005-04-19 2005-04-19 Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11

Publications (1)

Publication Number Publication Date
WO2006111230A1 true WO2006111230A1 (de) 2006-10-26

Family

ID=36440904

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/002489 WO2006111230A1 (de) 2005-04-19 2006-03-17 Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem

Country Status (2)

Country Link
DE (1) DE102005018174A1 (de)
WO (1) WO2006111230A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010059525A1 (en) * 2008-11-19 2010-05-27 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008007698A1 (de) * 2008-02-06 2009-08-13 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem
DE102008028090A1 (de) * 2008-02-29 2009-09-10 Navigon Ag Verfahren zum Betrieb eines Navigationssystems
EP2096412A3 (de) 2008-02-29 2009-12-02 Navigon AG Verfahren zum Betrieb eines Navigationssystems
DE102008021954A1 (de) * 2008-02-29 2009-09-03 Navigon Ag Verfahren zum Betrieb eines elektronischen Assistenzsystems
DE102008062923A1 (de) * 2008-12-23 2010-06-24 Volkswagen Ag Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
US8099290B2 (en) * 2009-01-28 2012-01-17 Mitsubishi Electric Corporation Voice recognition device
GB2470357A (en) * 2009-05-18 2010-11-24 Denso Corp Disambiguation of location inputs to a navigation system
DE102009024693B4 (de) * 2009-06-12 2019-07-11 Volkswagen Ag Infotainmentsystem für ein Fahrzeug und Verfahren zum Darstellen von Informationen
DE102009025530B4 (de) * 2009-06-19 2019-05-23 Volkswagen Ag Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug
DE102017220266B3 (de) 2017-11-14 2018-12-13 Audi Ag Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19709518C1 (de) * 1997-03-10 1998-03-05 Daimler Benz Aerospace Ag Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
US20020087324A1 (en) * 1999-06-10 2002-07-04 Peter Schneider Voice recognition method and device
US6421672B1 (en) * 1999-07-27 2002-07-16 Verizon Services Corp. Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys
US20020196911A1 (en) * 2001-05-04 2002-12-26 International Business Machines Corporation Methods and apparatus for conversational name dialing systems
US20030004714A1 (en) * 1999-10-28 2003-01-02 Dimitri Kanevsky System and method for resolving decoding ambiguity via dialog

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933524A1 (de) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Verfahren zur Eingabe von Daten in ein System
DE19937490B4 (de) * 1999-08-07 2018-11-29 Volkswagen Ag Verfahren und Vorrichtung zur Eingabe von Steuerungsbefehlen für Komfortgeräte, insbesondere in Kraftfahrzeugen
DE10012572C2 (de) * 2000-03-15 2003-03-27 Bayerische Motoren Werke Ag Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem
DE10129005B4 (de) * 2001-06-15 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19709518C1 (de) * 1997-03-10 1998-03-05 Daimler Benz Aerospace Ag Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
US20020087324A1 (en) * 1999-06-10 2002-07-04 Peter Schneider Voice recognition method and device
US6421672B1 (en) * 1999-07-27 2002-07-16 Verizon Services Corp. Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys
US20030004714A1 (en) * 1999-10-28 2003-01-02 Dimitri Kanevsky System and method for resolving decoding ambiguity via dialog
US20020196911A1 (en) * 2001-05-04 2002-12-26 International Business Machines Corporation Methods and apparatus for conversational name dialing systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010059525A1 (en) * 2008-11-19 2010-05-27 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems
US8108214B2 (en) 2008-11-19 2012-01-31 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems

Also Published As

Publication number Publication date
DE102005018174A1 (de) 2006-11-02

Similar Documents

Publication Publication Date Title
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE102008017993B4 (de) Sprachsuchvorrichtung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP0925578A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
EP1812930B1 (de) Verfahren zur spracherkennung aus einem aufgeteilten vokabular
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2002046956A2 (de) Verfahren und vorrichtung zur automatischen auskunfterleitung mittels einer suchmaschine
DE60119643T2 (de) Homophonewahl in der Spracherkennung
DE102016125162B4 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
EP1179818B1 (de) Automatische Erkennung von Unternehmensnamen in sprachlichen Äusserungen
DE102019217751A1 (de) Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem
EP1038293A1 (de) Vefahren zur spracherkennung unter verwendung von einer grammatik
DE10131157C1 (de) Dynamisches Grammatikgewichtungsverfahren für Spracherkennungssysteme

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

NENP Non-entry into the national phase

Ref country code: RU

WWW Wipo information: withdrawn in national office

Country of ref document: RU

122 Ep: pct application non-entry in european phase

Ref document number: 06707599

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 6707599

Country of ref document: EP