WO2008000353A1 - Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung - Google Patents

Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung Download PDF

Info

Publication number
WO2008000353A1
WO2008000353A1 PCT/EP2007/005224 EP2007005224W WO2008000353A1 WO 2008000353 A1 WO2008000353 A1 WO 2008000353A1 EP 2007005224 W EP2007005224 W EP 2007005224W WO 2008000353 A1 WO2008000353 A1 WO 2008000353A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
speech
grammar
utterance
speech signal
Prior art date
Application number
PCT/EP2007/005224
Other languages
English (en)
French (fr)
Inventor
Ekkehard Hayn
Klaus-Dieter Liedtke
Guntbert Markefka
Original Assignee
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom Ag filed Critical Deutsche Telekom Ag
Priority to EP07764643A priority Critical patent/EP2036078A1/de
Priority to BRPI0713987-0A priority patent/BRPI0713987A2/pt
Priority to US12/306,350 priority patent/US9208787B2/en
Priority to CN2007800246599A priority patent/CN101484934B/zh
Priority to CA2656114A priority patent/CA2656114C/en
Publication of WO2008000353A1 publication Critical patent/WO2008000353A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the invention relates to a method and a device for natural language recognition of a speech utterance, in particular on the basis of a speech recognition system, which can be executed, for example, on an electronic data processing system.
  • Speech recognition systems are intended for use in a variety of applications. For example, speech recognition systems are used in conjunction with office applications to capture texts or in conjunction with technical devices for their control and command input. Speech recognition systems are also used to control information and communication devices, e.g. Radio, mobile phone and navigation systems used. Companies also use voice-dialogue systems for customer advice and information, which are also based on speech recognition systems. On these latter, the patent application is related.
  • the object of the invention is therefore to realize a speech recognition method and system with a large scope of recognition with a small amount of grammar.
  • the inventive method is based on the detection of a speech utterance of a person and conversion into a speech signal to be processed for a speech recognition device, the analysis of the speech signal in parallel or sequentially in several speech recognition branches of the speech recognition device using multiple grammars, and the successful termination of the recognition process, if the analysis the speech signal in at least one speech recognition branch delivers a positive recognition result.
  • a simultaneous analysis of the utterance by two or more independent grammars takes place.
  • the speech utterance of a person triggers two or more simultaneous recognition processes, which independently analyze and evaluate the utterance.
  • a comparatively small main grammar with a low recognition scope a more comprehensive secondary grammar with an extended scope of recognition is provided here. Both grammars are without common intersection.
  • a second embodiment of the invention relates to a grammar cascade.
  • different grammars are used in succession, ie sequentially. The moment a grammar provides a recognition result, the cascade is left and the recognition process is terminated. In this method, 100% of all utterances to be recognized are compared to the first grammar. Depending on the performance and design of this grammar, a share of, for example, 20% of unrecognized utterances to a second recognition level is passed on. In the event that a third recognition stage is installed, it can be assumed that a share of, for example, 5% of all incoming utterances reaches this third recognition stage.
  • Both methods of recognition are intended to cover a wide range of statements with several "smaller" grammars, which, in combination, nevertheless guarantee a high level of recognition security, which can be done as described above in the form of a simultaneous or a successive recognition procedure.
  • Figure 1 shows schematically a first embodiment of the speech recognition system with parallel-working speech recognition branches.
  • Figure 2 shows schematically a second embodiment of the speech recognition system with sequentially operating, cascaded speech recognition branches.
  • a speech utterance of a person present as speech signal 10 is simultaneously supplied to two speech recognition branches and analyzed by two grammars 12 and 14 (grammar A and grammar B).
  • the two grammars 12, 14 have no common intersection, that is, they are based on different sets of rules.
  • the parallel processing of the speech signal increases the analysis effort and thus the necessary computer load when using the method on a computer. However, this fact is outweighed by the faster recognition and significantly improved recognition security.
  • a comparison 16 of the speech signal with the grammar (A) 12 results in either a positive recognition result (Yes) or a negative recognition result (No).
  • a comparison 18 of the speech signal with the grammar (B) 14 results in either a positive recognition result (Yes) or a negative recognition result (No).
  • four possible recognition cases result, which can be evaluated by logic 20 with different methods.
  • the recognition cases 1 to 3 are unproblematic insofar as they provide clear results: Case 1 forces a non-recognition of the speech signal and thus a rejection, position 24. Cases 2 and 3 only provide a positive result and thus clearly show a recognition of the Voice signal on, position 22.
  • Figure 2 shows another preferred embodiment of the invention.
  • several grammars 12, 14 and 26 (grammars A, B and C) are sequentially linked together in a cascade. That is, in the grammar cascade, the various grammars 12, 14, and 26 are not addressed simultaneously, but successively.
  • the recognition process can be represented as follows: the moment a grammar yields a positive recognition result, the cascade is left and the recognition process ends, position 22.
  • the speech signal 10 is first supplied to a first grammar (A) 12 and analyzed there.
  • a comparison 16 of the speech signal with the grammar (A) 12 results in either a positive recognition result (Yes) at which the recognition process is successfully completed or a negative recognition result (No) at which the speech signal is analyzed for further analysis of a second grammar (B ) 14 is supplied.
  • a comparison 18 of the speech signal 10 with the second grammar (B) 14 results in either a positive recognition result (Yes) in which the recognition process is successfully completed or a negative recognition result (No) in which the speech signal is used for further analysis of a third grammar (C) 26 is supplied.
  • a comparison 28 of the speech signal with the third grammar (C) 26 results in either a positive recognition result (Yes), in which the recognition process is successfully terminated, or a negative recognition result (No), in which the speech signal is rejected as unrecognized, Position 24th

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung. Es wird eine Sprachäußerung einer Person erfasst und in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal umgewandelt. Danach erfolgt eine Analyse des Sprachsignals parallel oder sequentiell in mehreren Spracherkennungszweigen der Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken, wobei der Erkennungsprozess erfolgreich beendet wird, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert.

Description

Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer
Sprachäußerung
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung, insbesondere auf Basis eines Spracherkennungssystems, das beispielsweise auf einem elektronischen Datenverarbeitungssystem ausführbar ist.
Spracherkennungssysteme sind für den Einsatz in unterschiedlichen Anwendungsgebieten vorgesehen. Beispielsweise werden Spracherkennungssysteme in Verbindung mit Büroapplikationen zur Erfassung von Texten oder in Verbindung mit technischen Einrichtungen zu deren Steuerung und Befehlseingabe eingesetzt. Spracherkennungssysteme werden auch zur Steuerung von Informations- und Kommunikationsgeräten wie z.B. Radio, Mobiltelefon und Navigationssystemen eingesetzt. Firmen setzen außerdem Sprachdialogsysteme zur Kundenberatung und -information ein, die ebenfalls auf Spracherkennungssystemen basieren. Auf diese letzteren ist die Patentanmeldung bezogen.
Dabei werden bei der automatischen Spracherkennung zur Bewertung von Wortfolgen so genannte Sprachmodelle eingesetzt, die auf einem grammatischen Regelwerk, auch bezeichnet als Grammatik oder Grammar, basieren. Die Grammatiken definieren eindeutige Satzregeln. Auf Grammatiken basierende Spracherkennungssysteme weisen eine hohe Erkennungssicherheit auf.
Insbesondere bei der Kundenberatung im technischen Bereich, beispielsweise in Verbindung mit Mobiltelefonen und Tarifen, werden immer leistungsfähigere Spracherkennungssysteme gefordert. Um die zahlreichen Kundenäußerungen zu verstehen, bedarf es sehr großer Grammatiken, deren Umfang zu Lasten der Erkennungssicherheit geht. Jeder automatisierte Spracherkennungsprozess basiert auf dem Abgleich einer konkreten Anruferäußerung mit hinterlegten Wörtern oder Aussagen. Nur im Fall einer Übereinstimmung gilt eine Äußerung als erkannt und kann eine festgelegte Aktion auslösen. Hieraus ergibt sich jedoch ein „Grammar Dilemma": Kleine Grammatiken haben einen geringen Erkennungsumfang, dafür jedoch eine bessere Erkennungssicherheit. Große Grammatiken decken umgekehrt ein großes Aussagenspektrum ab, während die Erkennungssicherheit sinkt.
Die Aufgabe der Erfindung liegt deshalb darin, ein Spracherkennungsverfahren und -System mit einem großen Erkennungsumfang bei geringem Umfang der Grammatik zu realisieren. Gesucht ist mithin ein Grammatikmodell, das die positiven Aspekte von großen und kleinen Grammatiken nutzt, ohne deren negativen Aspekte zu implizieren.
Diese Aufgabe wird erfindungsgemäß durch eine Verfahren und eine Vorrichtung mit den Merkmalen der unabhängigen Patentansprüche gelöst.
Bevorzugte Ausgestaltungen und weitere vorteilhafte Merkmale der Erfindung ergeben sich aus den Unteransprüchen.
Das erfindungsgemäße Verfahren beruht auf der Erfassung einer Sprachäußerung einer Person und Umwandlung in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal, der Analyse des Sprachsignals parallel oder sequentiell in mehreren Spracherkennungszweigen der Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken, und dem erfolgreichen Beenden des Erkennungsprozesses, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert. In einer ersten Ausgestaltung der Erfindung erfolgt eine simultane Analyse der Sprachäußerung durch zwei oder mehrere unabhängige Grammatiken. In diesem Fall werden durch die Sprachäußerung einer Person zwei oder mehrere gleichzeitige Erkennungsprozesse angestoßen, welche die Sprachäußerung unabhängig voneinander analysieren und bewerten. Beispielsweise wird hier einer vergleichsweise kleinen Hauptgrammatik mit einem geringen Erkennungsumfang, eine umfassendere Nebengrammatik mit einem erweiterten Erkennungsumfang an die Seite gestellt. Beide Grammatiken sind ohne gemeinsame Schnittmenge.
Eine zweite Ausgestaltung der Erfindung betrifft eine Grammatikkaskade. Bei diesem Modell kommen unterschiedliche Grammatiken nacheinander, also sequentiell, zum Einsatz. In dem Moment, in dem eine Grammatik ein Erkennungsergebnis liefert, wird die Kaskade verlassen und der Erkennungsprozess beendet. Bei diesem Verfahren werden 100% aller zu erkennenden Äußerungen mit der ersten Grammatik verglichen. Je nach Leistungsfähigkeit und Gestaltung dieser Grammatik wird ein Anteil von beispielsweise 20% von nicht erkannten Äußerungen an eine zweite Erkennungsstufe weiter gereicht. Für den Fall dass eine dritte Erkennungsstufe eingebaut wird, kann davon ausgegangen werden, dass ein Anteil von beispielsweise 5% aller eingehenden Äußerungen diese dritte Erkennungsstufe erreicht.
Mit beiden Erkennungsverfahren soll ein umfangreiches Aussagenspektrum mit mehreren „kleineren" Grammatiken abgedeckt werden, die in Kombination dennoch eine große Erkennungssicherheit garantieren. Dieses kann wie oben beschrieben in Form eines simultanen oder eines sukzessiven Erkennungsverfahrens geschehen.
Die beiden bevorzugten Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnungen beschrieben. Figur 1 zeigt schematisch eine erste Ausgestaltung des Spracherkennungssystems mit parallel arbeitenden Spracherkennungszweigen.
Figur 2 zeigt schematisch eine zweite Ausgestaltung des Spracherkennungssystems mit sequentiell arbeitenden, kaskadierten Spracherkennungszweigen.
Gemäß Figur 1 wird ein Sprachäußerung einer Person, die als Sprachsignal 10 vorliegt, gleichzeitig zwei Spracherkennungszweigen zugeführt und durch zwei Grammatiken 12 und 14 (Grammatik A und Grammatik B) analysiert. Die beiden Grammatiken 12, 14 haben keine gemeinsame Schnittmenge, das heißt, sie basieren auf unterschiedlichen Regelwerken. Durch die parallele Verarbeitung des Sprachsignals erhöhen sich der Analyseaufwand und damit die notwendige Rechnerlast bei Anwendung des Verfahrens auf einem Computer. Dieser Umstand wird aber durch die schnellere Erkennung und wesentlich verbesserte Erkennungssicherheit aufgewogen.
Ein Vergleich 16 des Sprachsignals mit der Grammatik (A) 12 führt entweder zu einem positiven Erkennungsergebnis (Ja) oder einem negativen Erkennungsergebnis (Nein). Ebenso führt ein Vergleich 18 des Sprachsignals mit der Grammatik (B) 14 entweder zu einem positiven Erkennungsergebnis (Ja) oder einem negativen Erkennungsergebnis (Nein). Im Rahmen des Erkennungsprozesses mit den simultan arbeitenden Grammatiken 12, 14 ergeben sich vier mögliche Erkennungsfälle, die mit unterschiedlichen Verfahren durch eine Logik 20 ausgewertet werden können.
Figure imgf000007_0001
Die Erkennungsfälle 1 bis 3 sind insofern unproblematisch, als sie eindeutige Ergebnisse liefern: Fall 1 erzwingt ein Nicht-Erkennen des Sprachsignals und damit eine Zurückweisung, Position 24. Die Fälle 2 und 3 liefern nur jeweils ein positives Ergebnis und zeigen damit eindeutig ein Erkennen des Sprachsignals an, Position 22.
Für den Fall 4, bei dem beide Grammatiken 12, 14 das Sprachsignal 10 erkannt haben, muss demgegenüber eine spezielle Verfahrenslogik implementiert werden, da das Ergebnis nicht eindeutig ist. Diese kann starr zugunsten von Grammatik 12 entscheiden, an der Erkennungssicherheit (Confidence Level) orientiert sein oder eine Mischform aus beiden bilden (z.B.: Ergebnis aus Grammatik 14 wird nur verwendet, wenn Erkennungssicherheit um einen vorgegebenen Wert höher ist als bei Grammatik 12).
Anstelle von zwei parallelen Spracherkennungszweigen können erfindungsgemäß auch drei oder mehr parallel arbeitende Spracherkennungszweige vorgesehen sein. Figur 2 zeigt eine andere bevorzugte Ausgestaltung der Erfindung. Hier sind mehrere Grammatiken 12, 14 und 26 (Grammatiken A, B und C) sequentiell in Form einer Kaskade miteinander verbunden. Das heißt, bei der Grammatikkaskade werden die verschiedenen Grammatiken 12, 14 und 26 nicht simultan, sondern sukzessiv angesprochen. Schematisch lässt sich der Erkennungsvorgang wie folgt darstellen: In dem Moment, in dem eine Grammatik ein positives Erkennungsergebnis liefert, wird die Kaskade verlassen und der Erkennungsprozess beendet, Position 22.
Das Sprachsignal 10 wird zunächst einer ersten Grammatik (A) 12 zugeführt und dort analysiert. Ein Vergleich 16 des Sprachsignals mit der Grammatik (A) 12 führt entweder zu einem positiven Erkennungsergebnis (Ja), bei dem der Erkennungsprozess erfolgreich beendet wird, oder einem negativen Erkennungsergebnis (Nein), bei dem das Sprachsignal zur weiteren Analyse einer zweiten Grammatik (B) 14 zugeführt wird. Ein Vergleich 18 des Sprachsignals 10 mit der zweiten Grammatik (B) 14 führt entweder zu einem positiven Erkennungsergebnis (Ja), bei dem der Erkennungsprozess erfolgreich beendet wird, oder einem negativen Erkennungsergebnis (Nein), bei dem das Sprachsignal zur weiteren Analyse einer dritten Grammatik (C) 26 zugeführt wird. Ein Vergleich 28 des Sprachsignals mit der dritten Grammatik (C) 26 führt entweder zu einem positiven Erkennungsergebnis (Ja), bei dem der Erkennungsprozess erfolgreich beendet wird, oder einem negativen Erkennungsergebnis (Nein), bei dem das Sprachsignal als nicht erkannt zurückgewiesen wird, Position 24.
Bei diesen Verfahren werden zunächst 100% aller eingehenden Sprachsignale 10 mit der ersten Grammatik 12 verglichen. Je nach Leistungsfähigkeit und Gestaltung dieser Grammatik, wird ein Teil der Sprachäußerungen nicht erkannt. Diese nicht erkannten Sprachsignale werden daraufhin an die zweite Erkennungsstufe weiter gereicht. Je nach Leistungsfähigkeit und Gestaltung der zweiten Erkennungsstufe, wird Sprachsignale werden daraufhin an die dritte Erkennungsstufe weiter gereicht.
Der Vorzug der Grammatikkaskade gegenüber dem Verfahren der simultanen Erkennung durch mehrere Grammatiken liegt darin, dass es keine zusätzliche Rechnerlast gibt, da das Sprachsignal 10 zu jedem Zeitpunkt nur mit einer Grammatik abgeglichen wird. Durch die sukzessive Erkennung wird es jedoch notwendigerweise zu einer Steigerung der Latenzzeiten im System kommen.
Anstelle von drei kaskadierten Spracherkennungszweigen können erfindungsgemäß auch vier oder mehr sequentiell arbeitende Spracherkennungszweige vorgesehen sein.
Liste der Bezugszeichen
10 Sprachsignal
12 Grammatik A
14 Grammatik B
18 Verzweigung A
20 Verzeigung B
22 Erkennung erfolgreiche 4 Erkennung nicht erfolgreich 6 Grammatik C 8 Verzweigung C

Claims

Ansprüche
1. Verfahren zur natürlichsprachlichen Erkennung einer Sprachäußerung, mit den Schritten:
- Erfassen der Sprachäußerung und Umwandeln in ein für eine Spracherkennungseinrichtung zu verarbeitendes Sprachsignal (10),
- Analysieren des Sprachsignals (10) parallel oder sequentiell in mehreren Spracherkennungszweigen der Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken (12, 14, 26), und
- erfolgreiches Beenden des Erkennungsprozesses der Sprachäußerung, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert.
2. Verfahren nach Anspruch 1 , gekennzeichnet durch die Schritte: a) Zuführen des Sprachsignals(10) zu mindestens einem ersten Spracherkennungszweig umfassend eine erste Grammatik (12) zur Analyse des Sprachsignals, und gleichzeitig zu einem zweiten Spracherkennungszweig umfassend eine zweite Grammatik (14) zur Analyse des Sprachsignals, b) Analyse des Sprachsignals durch die erste Grammatik (12), wobei im Fall einer Erkennung der Sprachäußerung ein positives erstes Erkennungsergebnis und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives erstes Erkennungsergebnis erzeugt wird,
(c) Analyse des Sprachsignals durch die zweite Grammatik (14), wobei im Fall einer Erkennung der Sprachäußerung ein positives zweites Erkennungsergebnis und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives zweites Erkennungsergebnis erzeugt wird, (d) Treffen einer Entscheidung über die erfolgreiche Erkennung der Sprachäußerung anhand einer Auswertung des ersten und des zweiten Erkennungsergebnisses.
3. Verfahren nach Anspruch 1 , gekennzeichnet durch die Schritte:
(a) Zuführen des Sprachsignals (10) zu einem ersten Spracherkennungszweig umfassend eine erste Grammatik (12) zur Analyse des Sprachsignals,
(b) Analyse des Sprachsignals (10) durch die erste Grammatik (12), wobei im Fall einer Erkennung der Sprachäußerung ein positives erstes Erkennungsergebnis erzeugt wird und der Erkennungsprozess beendet wird, und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives erstes Erkennungsergebnis erzeugt wird,
(c) wobei im Fall eines negativen Erkennungsergebnisses, das Sprachsignals einem weiteren Spracherkennungszweig umfassend eine weitere Grammatik (14) zugeführt wird,
(d) Analyse des Sprachsignals (10) durch die weitere Grammatik (14), wobei im Fall einer Erkennung der Sprachäußerung ein positives Erkennungsergebnis erzeugt wird und der Erkennungsprozess beendet wird, und im Fall einer Nicht-Erkennung der Sprachäußerung ein negatives Erkennungsergebnis erzeugt wird,
(e) wobei im Fall eines negativen Erkennungsergebnisses, mit Schritt (c) fortgefahren wird, solange bis die Grammatiken (26) aller vorhandenen Spracherkennungszweige durchlaufen wurden.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Regelwerke der Grammatiken (12, 14, 26) keine gemeinsame Schnittmenge aufweisen.
5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Regelwerke der Grammatiken (12, 14, 26)
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass eine erste Grammatik (12) häufig vorkommende Sprachäußerungen, eine zweite Grammatik (14) weniger häufig vorkommende Sprachäußerungen, und jede weitere Grammatik (26) noch weniger häufig vorkommende Sprachäußerungen analysiert.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass wenn sowohl das erste als auch das zweite Erkennungsergebnis positiv ist, das von der ersten Grammatik (12) gelieferte Erkennungsergebnis verwendet wird.
8. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass wenn sowohl das erste als auch das zweite Erkennungsergebnis positiv ist, dasjenige Erkennungsergebnis verwendet wird, dessen Erkennungssicherheit am größten ist.
9. Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung, welche umfasst:
Mittel (10) zur Erfassung der Sprachäußerung und zum Umwandeln in ein für eine Spracherkennungseinrichtung zu verarbeitendes
Sprachsignal, eine Spracherkennungseinrichtung mit mehreren
Spracherkennungszweigen, wobei jeder Spracherkennungszweig eine
Grammatik (12; 14; 26) zur Analyse des Sprachsignals (10) aufweist, wobei das Sprachsignal den Spracherkennungszweigen parallel oder sequentiell zugeführt wird, und
Mittel (20; 22, 24) zur Steuerung und Auswertung des
Erkennungsprozesses, in Abhängigkeit des Erkennungsergebnisses von mindestens einem Spracherkennungszweig.
10. Computerprogramm mit einem Programmcode, der auf einem Computer ausgeführt ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.
11. Computerprogrammprodukt, das einen auf einem Computer ausführbaren Programmcode zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 umfasst.
PCT/EP2007/005224 2006-06-27 2007-06-14 Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung WO2008000353A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP07764643A EP2036078A1 (de) 2006-06-27 2007-06-14 Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung
BRPI0713987-0A BRPI0713987A2 (pt) 2006-06-27 2007-06-14 processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz
US12/306,350 US9208787B2 (en) 2006-06-27 2007-06-14 Method and device for the natural-language recognition of a vocal expression
CN2007800246599A CN101484934B (zh) 2006-06-27 2007-06-14 语言表达的自然语言识别方法和装置
CA2656114A CA2656114C (en) 2006-06-27 2007-06-14 Method and device for the natural language recognition of a vocal expression

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006029755A DE102006029755A1 (de) 2006-06-27 2006-06-27 Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
DE102006029755.5 2006-06-27

Publications (1)

Publication Number Publication Date
WO2008000353A1 true WO2008000353A1 (de) 2008-01-03

Family

ID=38543007

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2007/005224 WO2008000353A1 (de) 2006-06-27 2007-06-14 Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung

Country Status (9)

Country Link
US (1) US9208787B2 (de)
EP (1) EP2036078A1 (de)
KR (1) KR20090033459A (de)
CN (1) CN101484934B (de)
BR (1) BRPI0713987A2 (de)
CA (1) CA2656114C (de)
DE (1) DE102006029755A1 (de)
RU (1) RU2432623C2 (de)
WO (1) WO2008000353A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4790024B2 (ja) * 2006-12-15 2011-10-12 三菱電機株式会社 音声認識装置
DE102008025532B4 (de) * 2008-05-28 2014-01-09 Audi Ag Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
DE102010049869B4 (de) * 2010-10-28 2023-03-16 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
EP3232436A3 (de) * 2012-11-16 2017-10-25 2236008 Ontario Inc. Anwendungsdienst-schnittstelle zu asr
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
KR101370539B1 (ko) 2013-03-15 2014-03-06 포항공과대학교 산학협력단 지시 표현 처리에 기반한 대화 처리 방법 및 장치
US10186262B2 (en) 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
EP2851896A1 (de) 2013-09-19 2015-03-25 Maluuba Inc. Spracherkennung unter Verwendung von Phonemanpassung
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US9552817B2 (en) 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN113259736B (zh) * 2021-05-08 2022-08-09 深圳市康意数码科技有限公司 一种语音控制电视机的方法及电视机

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000014727A1 (en) * 1998-09-09 2000-03-16 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
WO2000058945A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Recognition engines with complementary language models
US20020055845A1 (en) * 2000-10-11 2002-05-09 Takaya Ueda Voice processing apparatus, voice processing method and memory medium
US20020133346A1 (en) * 2001-03-16 2002-09-19 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US20030182131A1 (en) * 2002-03-25 2003-09-25 Arnold James F. Method and apparatus for providing speech-driven routing between spoken language applications

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249761B1 (en) * 1997-09-30 2001-06-19 At&T Corp. Assigning and processing states and arcs of a speech recognition model in parallel processors
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU2001251354A1 (en) * 2000-04-06 2001-10-23 One Voice Technologies, Inc. Natural language and dialogue generation processing
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US7464033B2 (en) * 2000-07-31 2008-12-09 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
US6964020B1 (en) * 2001-02-22 2005-11-08 Sprint Communications Company L.P. Method and system for facilitating construction of a canned message in a microbrowser environment
FR2832524A1 (fr) * 2001-11-22 2003-05-23 Cegetel Groupe Procede de gestion d'un document principal
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
DE602004011753T2 (de) * 2003-03-01 2009-02-05 Coifman, Robert E. Verfahren und Vorrichtung zum Verbessern der Transkriptionsgenauigkeit bei der Spracherkennung
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US7647645B2 (en) * 2003-07-23 2010-01-12 Omon Ayodele Edeki System and method for securing computer system against unauthorized access
CA2573002A1 (en) * 2004-06-04 2005-12-22 Benjamin Firooz Ghassabian Systems to enhance data entry in mobile and fixed environment
JP4574390B2 (ja) * 2005-02-22 2010-11-04 キヤノン株式会社 音声認識方法
DE102005030967B4 (de) * 2005-06-30 2007-08-09 Daimlerchrysler Ag Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000014727A1 (en) * 1998-09-09 2000-03-16 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
WO2000058945A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Recognition engines with complementary language models
US20020055845A1 (en) * 2000-10-11 2002-05-09 Takaya Ueda Voice processing apparatus, voice processing method and memory medium
US20020133346A1 (en) * 2001-03-16 2002-09-19 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US20030182131A1 (en) * 2002-03-25 2003-09-25 Arnold James F. Method and apparatus for providing speech-driven routing between spoken language applications

Also Published As

Publication number Publication date
KR20090033459A (ko) 2009-04-03
US9208787B2 (en) 2015-12-08
CN101484934B (zh) 2013-01-02
CA2656114C (en) 2016-02-09
CN101484934A (zh) 2009-07-15
US20100114577A1 (en) 2010-05-06
CA2656114A1 (en) 2008-01-03
BRPI0713987A2 (pt) 2012-11-20
RU2432623C2 (ru) 2011-10-27
RU2009102507A (ru) 2010-08-10
DE102006029755A1 (de) 2008-01-03
EP2036078A1 (de) 2009-03-18

Similar Documents

Publication Publication Date Title
EP2036078A1 (de) Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE2953262C2 (de)
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
WO2002045076A1 (de) Verfahren und system zur multilingualen spracherkennung
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE102013101871A1 (de) Wortwahlbasierte Sprachanalyse und Sprachanalyseeinrichtung
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE60217313T2 (de) Verfahren zur durchführung der spracherkennung dynamischer äusserungen
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
AT414283B (de) Verfahren zur optimierung von spracherkennungsprozessen
EP0962914B1 (de) Verfahren und Vorrichtung zum Ermitteln eines Zuverlässigkeitsmasses für die Spracherkennung
EP1391877B1 (de) Spracherkennungsverfahren
DE102022110355A1 (de) Verfahren und Vorrichtung zur maschinellen Unterstützung eines Konstrukteurs
EP1302928A1 (de) Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner
EP1326231B1 (de) Sprachidentifizierung
EP4040433A1 (de) Dynamische generierung einer kette von funktionsmodulen eines virtuellen assistenten

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780024659.9

Country of ref document: CN

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07764643

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2656114

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 10717/DELNP/2008

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2007764643

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2009102507

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020097001732

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 12306350

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0713987

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20081226