WO2002005263A1 - Verfahren zur spracheingabe und -erkennung - Google Patents
Verfahren zur spracheingabe und -erkennung Download PDFInfo
- Publication number
- WO2002005263A1 WO2002005263A1 PCT/DE2001/002343 DE0102343W WO0205263A1 WO 2002005263 A1 WO2002005263 A1 WO 2002005263A1 DE 0102343 W DE0102343 W DE 0102343W WO 0205263 A1 WO0205263 A1 WO 0205263A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- vocabulary
- input
- alphabetically
- keyboard
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 239000002775 capsule Substances 0.000 claims description 4
- 230000004044 response Effects 0.000 claims 4
- 230000004913 activation Effects 0.000 claims 3
- 229920001690 polydopamine Polymers 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000007334 memory performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
Definitions
- the invention relates to a method for voice input and recognition according to the preamble of claim 1 as well as a com unikations- or data terminal and an operating unit for controlling a technical device that use such a method.
- Speech recognition systems are increasingly becoming a standard component of high-performance computers, right down to PCs and notebooks in the middle and lower price segments.
- the invention is based on the object of specifying an improved method for voice input and recognition of the generic type, which manages with relatively low processor power and memory capacity and can therefore also be implemented on smaller technical devices without a data connection to a powerful computer.
- This object is achieved by a method with the features of claim 1.
- the invention includes the basic idea that is necessary for sufficiently comfortable and powerful speech recognition in everyday use (in particular for control commands and text messages of low to medium complexity) to divide the required total vocabulary into individually addressable and manageable partial vocabulary for the individual elements of a text entered by speech. It also includes the idea of making this division word by word, based on the first letters of the words of the text to be recognized. Ultimately, the invention includes the consideration of carrying out this classification, which results in an extraction of a partial vocabulary for individual recognition steps in each case by actuating an input keyboard. (In the context of the invention, the term “input keyboard *” should also include structured input fields on a touch screen, membrane key fields or the like.)
- Speech recognition step to processed vocabulary and thus the need for processor power and memory capacity significantly. This makes speech recognition useful even for small end devices with reduced processor and memory configurations and can, for example, make the annoying letter-by-letter entry of a short message using the multiple-use numeric keypad of a cell phone or the hardly less cumbersome entry of names, addresses and telephone numbers into a PDA using its small alphanumeric Replace keyboard.
- the total vocabulary is subdivided into partial vocabulary by entering the first letter or by marking the area of the alphabet in which the first letter is located using a numeric keypad with additional alphabetical assignment.
- Such keyboards are common in mobile phones, but also have Fixed or cordless phones have become increasingly popular in recent years.
- a simplified handling compared to normal text input via a numerical keyboard is advantageously possible: Instead of pressing a specific number key to select a specific letter, a predetermined number of times can be pressed - Because a single print is sufficient to specify the associated range of letters.
- the user of the speech recognition therefore, before speaking in each individual word of his text or his control instruction or his file entry, determines by pressing a key on the numerical keyboard, in which group of initial letters the following word falls.
- the first letter group is understood to mean the standardized assignment of the keys of a numeric keyboard to a specific group of letters. In the case of the assignments customary for telephones, e.g. entering the number "2 * the first letter group" A, B,
- Word activates the speech recognition system (for example, from a power-saving standby state) and the start of the speech input is defined in time (“push-to-talk ⁇ principle).
- the user is forced to enter word sequences in the sense of the dictation of a text to speak each word individually.
- a button operation is associated with a significant loss of comfort compared to established speech recognition systems for powerful computers.
- this has the great advantage that the speech recognition system does not have to carry out continuous speech recognition or word segmentation.
- the single-word recognition which is to be used from the start due to the proposed method requires considerably less computing power in comparison to the continuous recognition of a speech flow.
- special language models can be trained on the sequence of the initial letter groups, which can make recognition more reliable and faster.
- An important group of devices in which the proposed method can be used using a memory division unit for partially activating a partial area of the respective total vocabulary memory are small communication or data terminals, in particular mobile telephones, cordless telephones, landline telephones and PDAs ("Organizer *), Pocket translators etc.
- the input keyboard for the first-mentioned devices is usually an alphabetic numeric keyboard
- the devices of the latter group have a real alphanumeric keyboard. This has no fundamental influence on the application of the method according to the invention, but rather makes it easier.
- the presence of letter keys makes the handling of multiple key assignments superfluous and enables the entire vocabulary to be subdivided into individual initial letters (instead of groups of letters, as would be preferred when using a numeric keyboard). The one with the
- Another important area of application is operating devices for control, in particular for wireless remote control, of technical devices, for example remote controls for
- Audio and video systems, lighting systems, kitchen and other household appliances or integrated systems for home or automotive electronics are used.
- numeric and function keyboards or alphanumeric keyboards are used, and the entire vocabulary is tailored to typical control functions and does not need to contain names, place names, etc. Its scope will tend to be less than that of the total vocabulary of the communication and data terminals mentioned above, so that a relatively rough subdivision into individual vocabularies will be sufficient for certain applications.
- This shows a functional block diagram of components of a mobile telephone essential for the implementation of the invention MS, which is designed for voice input of short messages.
- the mobile telephone MS has (in addition to some function keys, not specifically described here) a numeric keypad 1, a speech capsule 3 and a multi-cell alphanumeric liquid crystal display field 5.
- the speech capsule 3 is connected to a signal input of a speech recognition stage 7, whose output is connected to a text file memory 9 and the display field 5.
- the numeric keypad 1 is connected, in addition to the display field 5, to a trigger unit 11 for triggering or activating the speech recognition stage 7 via a control signal connection.
- the numerical keyboard 1 is connected to a memory addressing or dividing stage 13, which addresses a total vocabulary memory 15, which comprises a plurality of optionally addressable memory areas 15i corresponding to the number of letters of the alphabet. The memory content becomes one in each case by means of the memory addressing or dividing stage 13
- Memory area 15i loaded into a vocabulary memory 17, which cooperates with the speech recognition stage 7 as a working memory during a speech recognition step.
- Speech recognition stage 7 and the memory addressing or division stage transfers the memory content of the memory area 15i of the total vocabulary memory 15 to the
- the initial letter "P * belongs to the working vocabulary memory 17.
- the speech recognition now runs exclusively in relation to words with the initial letter” P * and results in the word "Patent * in text form, which is transferred to the text file memory 9, in which the components of a short message are successively saved.
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
Verfahren zur Spracheingabe und -erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes unter Einsatz einer alphabe-tischen oder alphabetisch belegten Eingabetastatur, wobei die Spracheingabe und -erkennung in Teilschritten erfolgt, die jeweils ein einzelnes Wort betreffen, und wobei vor dem Ein-sprechen jedes Wortes über die Eingabetastatur dessen An-fangsbuchstabe oder ein Bereich des Alphabets, der den An-fangsbuchstaben enthält, eingegeben, ein Teil-Wortschatz aus dem Gesamt-Wortschatz für eine Spracherkennung bereitgestellt und die Spracherkennung des eingesprochenen Wortes allein an-hand des Teil-Wortschatzes ausgeführt wird.
Description
Beschreibung
Verfahren zur Spracheingabe und -erkennung
Die Erfindung betrifft ein Verfahren zur Spracheingabe und -erkennung nach dem Oberbegriff des Anspruchs 1 sowie weiterhin ein Kom unikations- oder Datenendgerät und eine Bedieneinheit zur Steuerung eines technischen Gerätes, die ein solches Verfahren anwenden.
Spracherkennungssyste e werden mehr und mehr zu einer Standardkomponente leistungsfähiger Computer, bis hin zu PCs und Notebooks im mittleren und unteren Preissegment. Die Geschwindigkeit und Erkennungsleistung von auf Computern mit leistungsfähigen Prozessoren und Speicherstrukturen laufenden Spracherkennungsprogrammen genügen mittlerweile sogar professionellen Ansprüchen .
Im Zuge dieser Entwicklung wird zunehmend versucht, die Spracherkennung auch zur GebrauchswertSteigerung von technischen Geräten des täglichen Bedarfs einzusetzen, so unter anderem für Mobiltelefone, Schnurlostelefone, PDAs und Fernbedienungen für Audio- und Videosysteme etc.. Derartige Geräte verfügen zumeist über eine Eingabetastatur, die mindestens ein Ziffern-Eingabefeld und eine Reihe von Funktionstasten umfaßt. Da eine Eingabe von Texten oder auch nur von Namen oder längeren Steuerbefehlen mittels einer numerischen Tastatur gar nicht oder nur auf unkomfortable Weise möglich ist, wäre die Realisierung einer (hinreichend zuverlässigen) Spracherkennung bei derartigen Endgeräten aus Sicht des Nutzers tatsächlich höchst wünschenswert. Systeme mit sehr reduziertem Steuerbefehl-Wortschatz sind auch bereits realisiert worden und in praktischem Gebrauch.
Jedoch sind die genannten Geräte in der Regel nur mit einfacheren Mikroprozessoren, MikroControllern oder digitalen Signalprozessoren sowie mit Arbeitsspeichern beschränkter Kapa- zität ausgestattet, die aufgrund ihrer beschränkten Rechenbzw. Speicherleistung eine Einzelworterkennung nur für einen sehr begrenzten Wortschatz zulassen. Es gibt daher beispielsweise noch immer keine Mobiltelefone, bei denen die Eingabe einer Kurznachricht (short message = SMS) direkt durch Spracheingabe möglich wäre.
In einem anderen Kontext ist vorgeschlagen worden, die Rechenlast der Spracherkennung zwischen einem einfachen Endgerät und einem Server-Dienst aufzuteilen. Hierbei findet beim Endgerät nur eine Merkmalsextraktion statt, während alle folgenden Schritte der Spracherkennung auf einem mit leistungsfähiger Hardware ausgerüsteten Server stattfinden. Hier werden also anspruchsvolle Spracherkennungsprogramme auf höchst leistungsfähiger Hardware abgearbeitet; das System erfordert aber einen permanenten Serveranschluß des betreffenden technischen Gerätes.
Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zur Spracheingabe und -erkennung der gattungsgemä- ßen Art anzugeben, das mit relativ geringer Prozessorleistung und Arbeitsspeicherkapazität auskommt und daher auch auf kleineren technischen Geräten ohne Datenverbindung zu einem leistungsfähigen Rechner realisiert werden kann. Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
Die Erfindung schließt den grundlegenden Gedanken ein, den für eine hinreichend komfortable und leistungsfähige Spracherkennung im Alltagsgebrauch (insbesondere für Steuer-
befehle und Textnachrichten geringer bis mittlerer Komplexität) erforderlichen Gesamt-Wortschatz in einzeln adressier- und handhabbare Teil-Wortschätze für die einzelnen Elemente eines per Sprache eingegebenen Textes aufzuteilen. Sie schließt weiter den Gedanken ein, diese Aufteilung wortweise vorzunehmen, und zwar aufgrund der Anfangsbuchstaben der Worte des zu erkennenden Textes. Letztlich schließt die Erfindung die Überlegung ein, diese im Ergebnis zu einer Extraktion eines Teil-Wortschatzes für jeweils einzelne Erken- nungsschritte führende Klassifizierung durch Betätigung einer Eingabetastatur vorzunehmen. (Unter den Begriff „Eingabetastatur* sollen im Kontext der Erfindung auch gegliederte Eingabefelder eines Touch-Screen, Folientastenfelder o.a. fallen. )
Das vorgeschlagene Vorgehen reduziert den im einzelnen
Spracherkennungsschritt zu verarbeiteten Wortschatz und damit den Bedarf an Prozessorleistung und Arbeitsspeicherkapazität erheblich. Dadurch wird eine Spracherkennung auch bei kleinen Endgeräten mit reduzierten Prozessor- und Speicherkonfigurationen sinnvoll und kann beispielsweise die lästige buchstabenweise Eingabe einer Kurznachricht über die mehrfach belegte Zifferntastatur eines Handys oder die kaum weniger umständliche Eingabe von Namen, Adressen und Telefonnummern in einen PDA mittels dessen kleiner alphanumerischer Tastatur ersetzen.
In einer für eine Vielzahl praktischer Anwendungen bevorzugten Ausführung erfolgt die Unterteilung des Gesamt-Wortschat- zes in Teil-Wortschätze über die Eingabe des Anfangsbuchstabens oder die Kennzeichnung des Bereiches des Alphabets, in dem der Anfangsbuchstabe liegt, über eine Zifferntastatur mit zusätzlicher alphabetischer Belegung. Derartige Tastaturen sind bei Mobiltelefonen allgemein üblich, haben aber auch bei
Festnetz- oder Schnurlostelefonen in den letzten Jahren zunehmende Verbreitung gefunden.
Je nach konkreter Realisierungsform des Verfahrens und in Ab- hängigkeit vom Volumen des Gesamt-Wortschatzes ist dabei vorteilhafterweise eine gegenüber der normalen Texteingabe über Zifferntastatur vereinfachte Handhabung möglich: Statt eine bestimmte Zifferntaste zur Auswahl eines bestimmten Buchstabens eine vorgegebene Anzahl von Malen zu drücken, kann je- weils ein einmaliger Druck zur Spezifizierung des zugehörigen Bereiches von Buchstaben ausreichend sein. Der Nutzer der Spracherkennung legt also vor dem Einsprechen jedes einzelnen Wortes seines Textes bzw. seiner Steueranweisung oder seines Dateieintrages durch Drücken einer Taste auf der Ziffernta- statur fest, in welche Anfangsbuchstaben-Gruppe das darauffolgende Wort fällt. Unter Anfangsbuchstaben-Gruppe wird dabei die standardisierte Zuordnung der Tasten einer Zifferntastatur zu einer bestimmten Buchstabengruppe verstanden. So bedeutet bei den für Telefone üblichen Zuordnungen z.B. die Eingabe der Ziffer „2* die Anfangsbuchstaben-Gruppe „A, B,
C* , die Eingabe der Ziffer „3' die Buchstabengruppe „D, E, F usw..
In einer weiteren vorteilhaften Ausgestaltung wird durch das Drücken der entsprechenden Taste vor dem Einsprechen eines
Wortes das Spracherkennungssystem jeweils (beispielsweise aus einem stromsparenden Bereitschaftszustand) aktiviert und der Beginn der Spracheingabe zeitlich definiert („push-to-talkλ -Prinzip) .
Bei dem vorgeschlagenen Verfahren wird der Benutzer zur Eingabe von Wortfolgen im Sinne des Diktates eines Textes gezwungen, jedes Wort einzeln zu sprechen. Hiermit und mit der
zusätzlich erforderlichen Ausführung einer Tastenbetätigung ist gegenüber etablierten Spracherkennungssystemen für leistungsfähige Computer zwar eine deutliche Komforteinbuße verbunden. Mit Blick auf die vergleichsweise geringe Leistungs- fähigkeit der mit dem vorgeschlagenen Verfahren zu betreibenden „Kleingeräte* ergibt sich hieraus jedoch der große Vorteil, daß das Spracherkennungssystem keine kontinuierliche Spracherkennung oder Wortsegmentierung ausführen muß. Die aufgrund des vorgeschlagenen Verfahrens von vornherein anzu- wendende Einzelworterkennung benötigt im Vergleich zur kontinuierlichen Erkennung eines Sprachflusses erheblich weniger Rechenleistung. Des weiteren lassen sich spezielle Sprachmodelle auf die Folge der Anfangsbuchstaben-Gruppen trainieren, die die Erkennung sicherer und schneller machen können.
Eine wichtige Gruppe von Geräten, bei denen das vorgeschlagene Verfahren unter Einsatz einer Speicherteilungseinheit zur partiellen Aktivierung eines Teilbereiches des jeweiligen Gesamtwortschatz-Speichers angewandt werden kann, sind kleine Kommunikations- oder Datenendgeräte, insbesondere Mobiltelefone, Schnurlostelefone, Festnetztelefone und PDAs („Organizer*), Taschenübersetzer etc.. Während bei den erstgenannten Geräten die Eingabetastatur üblicherweise eine wahlweise alphabetisch belegbare Zifferntastatur ist, ist bei den Gerä- ten der letztgenannten Gruppe eine echte alphanumerische Tastatur vorhanden. Dies hat auf die Anwendung des erfindungsgemäßen Verfahrens keinen grundsätzlichen Einfluß, sondern erleichtert diese eher. Das Vorhandensein von Buchstabentasten macht die Handhabung von Mehrfach-Tastenbelegungen über- flüssig und ermöglicht von vornherein eine Unterteilung des Gesamt-Wortschatzes nach einzelnen Anfangsbuchstaben (statt nach Buchstabengruppen, wie es beim Einsatz einer Zifferntastatur bevorzugt wäre) .
Einen besonderen Gebrauchswertvorteil erbringt die mit der
Erfindung geschaffene Möglichkeit der Spracheingabe einer Kurznachricht (SMS) bei einem Mobiltelefon. Vorteilhaft ist aber auch die Möglichkeit der Spracheingabe von Namen in den Rufnummernspeieher eines Mobil- oder Festnetztelefons bzw. von Namen und Adressen in den Adressenspeicher eines PDA. Für die einzelnen Anwendungen werden jeweils spezifische Gesamt- Wortschätze (umgangssprachlicher Grundwortschatz bzw. spezifischer Namens- und Ortna ens-Wortschatz u.a.) gebildet und gespeichert und bei der Spracherkennung erfindungsgemäß unterteilt.
Ein weiteres wichtiges Anwendungsgebiet sind Bediengeräte zur Steuerung, insbesondere zur drahtlosen Fernsteuerung, von technischen Geräten, beispielsweise Fernbedienungen für
Audio- und Videoanlagen, Beleuchtungssysteme, Küchen- und andere Haushaltsgeräte oder auch integrierte Systeme der Heimoder Kraftfahrzeugelektronik. Hier kommen je nach konkreter Ausführung Ziffern- und Funktionstastaturen oder auch alpha- numerische Tastaturen zum Einsatz, und der Gesamt-Wortschatz ist auf typische Steuerfunktionen zugeschnitten und braucht keine Namen, Ortsnamen etc. zu enthalten. Sein Umfang wird tendenziell geringer als derjenige des Gesamt-Wortschatzes der oben erwähnten Kommunikations- und Datenendgeräte sein, so daß für bestimmte Anwendungen hier eine relativ grobe Unterteilung in Einzel-Wortschätze ausreichend sein wird.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den Unteransprüchen sowie der nachfolgenden Be- Schreibung eines Ausführungsbeispiels anhand der Figur. Diese zeigt ein Funktions-Blockschaltbild von für die Realisierung der Erfindung wesentlichen Komponenten eines Mobiltelefons
MS, das zur Spracheingabe von Kurznachrichten ausgebildet ist.
Das Mobiltelefon MS hat in üblicher Weise (neben einigen, hier nicht genauer bezeichneten Funktionstasten) eine Zifferntastatur 1, eine Sprechkapsel 3 und ein mehrzelliges alphanumerisches Flüssigkristall-Anzeigefeld 5. In einem Kurznachrichten-Eingabemodus ist die Sprechkapsel 3 mit einem Signaleingang einer Spracherkennungsstufe 7 verbunden, deren Ausgang mit einem Textdateispeicher 9 sowie dem Anzeigefeld 5 verbunden ist. Die Zifferntastatur 1 ist - neben dem Anzeigefeld 5 - zum einen mit einer Triggereinheit 11 zur Triggerung bzw. Aktivierung der Spracherkennungsstufe 7 über eine Steuersignalverbindung verbunden. Weiterhin ist die Zifferntasta- tur 1 mit einer Speicheradressier- bzw. -teilungsstufe 13 verbunden, welche einen Gesamtwortschatz-Speicher 15 adressiert, der eine der Anzahl der Buchstaben des Alphabets entsprechende Mehrzahl von wahlfrei adressierbaren Speicherbereichen 15i umfaßt. Durch die Speicheradressier- bzw. -teilungsstufe 13 wird der Speicherinhalt jeweils eines
Speicherbereiches 15i in einen Arbeitswortschatz-Speicher 17 geladen, der während eines Spracherkennungsschrittes mit der Spracherkennungsstufe 7 als Arbeitsspeicher zusammenwirkt.
Die Funktion der hier beschriebenen Anordnung ergibt sich ohne weiteres aus den obigen Erläuterungen zum Verfahren und muß daher nicht näher beschrieben werden. Lediglich illustrierend sei erwähnt, daß beispielsweise zur Eingabe des Wortes „Patent* der Nutzer zuerst die Taste mit der Ziffer 7 drückt. Die Triggereinheit 11 aktiviert umgehend die
Spracherkennungsstufe 7, und die Speicheradressier- bzw. -teilungsstufe überführt den Speicherinhalt des Speicherbereiches 15i des Gesamtwortschatz-Speichers 15, der zum
Anfangsbuchstaben „P* gehört, in den Arbeitswortschatz- Speicher 17. Die Spracherkennung läuft nun ausschließlich bezogen auf Worte mit dem Anfangsbuchstaxben „P* ab und ergibt das Wort „Patent* in Textform, welches in den Textda- teispeicher 9 übernommen wird, in dem sukzessive die Bestandteile einer Kurznachricht gespeichert werden.
Möchte der Nutzer den in seinem Rufnummernverzeichnis registrierten Geschäftspartner „Niemöller* anwählen, drückt er die Zifferntaste 6 und spricht den Namen aus. Der Ablauf ist derselbe wie bei der Spracheingabe des Begriffes „Patent*, da der Gesamtwortschatz-Speicher 15 zugleich als Namensspeicher ausgebildet ist. Allerdings wird der Name nicht in eine Textdatei übernommen, sondern zur Adressierung des Rufnummern- Speichers genutzt.
Das Diktieren der SMS „Komme heute abend um 9 Uhr* stellt sich als folgender Ablauf dar: Tastendruck „5* - Einsprechen „Komme*; Tastendruck „4* - Einsprechen „heute*; Tastendruck „2* - Einsprechen „abend*; Tastendruck „8* - Einsprechen
„um*; Tastendruck „6* - Einsprechen „9*; Tastendruck „8* - Einsprechen „Uhr* .
Die Ausführung der Erfindung ist nicht auf die angegebenen Beispiele und Anwendungsfälle beschränkt, sondern ebenso in einer Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handelns liegen.
Claims
1. Verfahren zur Spracheingabe und -erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes unter Einsatz einer alphabetischen oder alphabetisch belegten Eingabetastatur, d a d u r c h g e k e n n z e i c h n e t, daß die Spracheingabe und -erkennung in Teilschritten erfolgt, die jeweils ein einzelnes Wort betreffen, wobei vor dem Einsprechen jedes Wortes über die Eingabetastatur dessen An- fangsbuchstabe oder ein Bereich des Alphabets, der den Anfangsbuchstaben enthält, eingegeben, jeweils anhand des Anfangsbuchstabens oder Alphabet-Bereiches ein Teil-Wortschatz aus dem Gesamt-Wortschatz für eine Spracherkennung- bereitgestellt und die Spracherkennung des eingegebenen Wortes allein anhand des Teil-Wortschatzes ausgeführt wird.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß durch Betätigung der Eingabetastatur (1) jeweils eine Aktivierung eines Spracherkennungssystems (7) erfolgt.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß als Eingabetastatur (1) eine alphabetisch belegbare Ziffern- und/oder Funktionstastatur eingesetzt wird, wobei insbesondere durch jede Tastenbetätigung eine Gruppe von aufeinanderfolgenden Buchstaben des Alphabets spezifiziert wird.
4. Kommunikations- oder Datenendgerät (MS), insbesondere Mobiltelefon, Schnurlostelefon, Festnetztelefon oder PDA, mit einer Sprechkapsel (3) zur Spracheingabe und einem Spracher- kennungsSystem (7) zur Spracheingabe und -erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes, einer alphabetischen oder alphabetisch belegten Eingabetastatur (1) und einem dem Spracherkennungssystem zugeordneten Gesamtwortschatz-Speicher (15), g e k e n n z e i c h n e t d u r c h eine mit der Eingabetastatur verbundene Speicherteilungseinheit (13) zur partiellen Aktivierung eines Teilbereiches (15i) des Gesamtwortschatz-Speichers im Ansprechen auf eine Tastenbetätigung.
5. Kommunikations- oder Datenendgerät nach Anspruch 4, g e k e n n z e i c h n e t d u r c h eine mit der Eingabetastatur (1) verbundene Triggereinheit (11) zur Aktivierung des Spracherkennungssystems (7) im Ansprechen auf eine Tastenbetätigung.
6. Kommunikations- oder Datenendgerät nach Anspruch 4 oder 5, d a d u r c h g e k e n n z e i c h n e t, daß die Eingabetastatur (1). eine alphabetisch belegbare Ziffern- und/oder Funktionstastatur ist, bei der jede Taste insbesondere einem Buchstabenbereich des Alphabets zugeordnet ist.
7. Bedieneinheit zur Steuerung, insbesondere zur drahtlosen Fernsteuerung, eines technischen Gerätes, mit einer Sprechkapsel zur Spracheingabe und einem Spracherkennungssystem zur Spracheingabe und -erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes, einer alphabetischen oder alphabetisch belegten Eingabetastatur und einem dem Spracherkennungssystem zugeordneten Gesamtwortschatz-Speicher, g e k e n n z e i c h n e t d u r c h eine mit der Eingabetastatur verbundene Speicherteilungseinheit zur partiellen Aktivierung eines Teilbereiches des Ge- samtwortschatz-Speichers im Ansprechen auf eine Tastenbetätigung.
8. Bedieneinheit nach Anspruch 7, g e k e n n z e i c h n e t d u r c h eine mit der Eingabetastatur verbundene Triggereinheit zur Aktivierung des Spracherkennungssystems im Ansprechen auf eine Tastenbetätigung.
9. Bedieneinheit nach Anspruch 7 oder 8, d a d u r c h g e k e n n z e i c h n e t, daß die Eingabetastatur eine alphabetisch belegbare Ziffern- und/oder Funktionstastatur ist, bei der jede Taste insbesondere einem Buchstabenbereich des Alphabets zugeordnet ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10033131 | 2000-07-07 | ||
DE10033131.9 | 2000-07-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2002005263A1 true WO2002005263A1 (de) | 2002-01-17 |
Family
ID=7648179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/DE2001/002343 WO2002005263A1 (de) | 2000-07-07 | 2001-06-26 | Verfahren zur spracheingabe und -erkennung |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2002005263A1 (de) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1326234A2 (de) * | 2001-12-13 | 2003-07-09 | Matsushita Electric Industrial Co., Ltd. | Verfahren und System zur Spracherkennung mit Einschränkungen |
WO2004036939A1 (fr) * | 2002-10-18 | 2004-04-29 | Institute Of Acoustics Chinese Academy Of Sciences | Appareil de communication mobile numerique portable, procede de commande vocale et systeme |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
JP2005196140A (ja) * | 2003-12-30 | 2005-07-21 | Microsoft Corp | テキストを入力するための方法 |
GB2406476B (en) * | 2003-09-25 | 2008-04-30 | Canon Europa Nv | Cellular telephone |
US7392182B2 (en) * | 2002-12-18 | 2008-06-24 | Harman International Industries, Inc. | Speech recognition system |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
CN104135577A (zh) * | 2014-08-27 | 2014-11-05 | 陈包容 | 一种基于自定义语音实现快速查找联系人的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
WO1999000790A1 (en) * | 1997-06-27 | 1999-01-07 | M.H. Segan Limited Partnership | Speech recognition computer input and device |
EP0961263A2 (de) * | 1998-05-25 | 1999-12-01 | Nokia Mobile Phones Ltd. | Verfahren und Vorrichtung zur Spracherkennung |
-
2001
- 2001-06-26 WO PCT/DE2001/002343 patent/WO2002005263A1/de active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
WO1999000790A1 (en) * | 1997-06-27 | 1999-01-07 | M.H. Segan Limited Partnership | Speech recognition computer input and device |
EP0961263A2 (de) * | 1998-05-25 | 1999-12-01 | Nokia Mobile Phones Ltd. | Verfahren und Vorrichtung zur Spracherkennung |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1326234A3 (de) * | 2001-12-13 | 2004-12-22 | Matsushita Electric Industrial Co., Ltd. | Verfahren und System zur Spracherkennung mit Einschränkungen |
EP1326234A2 (de) * | 2001-12-13 | 2003-07-09 | Matsushita Electric Industrial Co., Ltd. | Verfahren und System zur Spracherkennung mit Einschränkungen |
US7124085B2 (en) | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
WO2004036939A1 (fr) * | 2002-10-18 | 2004-04-29 | Institute Of Acoustics Chinese Academy Of Sciences | Appareil de communication mobile numerique portable, procede de commande vocale et systeme |
US7392182B2 (en) * | 2002-12-18 | 2008-06-24 | Harman International Industries, Inc. | Speech recognition system |
US7840405B1 (en) | 2003-03-18 | 2010-11-23 | A9.Com, Inc. | Generation of speech recognition grammars for conducting searches |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US7630878B2 (en) | 2003-07-28 | 2009-12-08 | Svox Ag | Speech recognition with language-dependent model vectors |
GB2406476B (en) * | 2003-09-25 | 2008-04-30 | Canon Europa Nv | Cellular telephone |
US7363224B2 (en) | 2003-12-30 | 2008-04-22 | Microsoft Corporation | Method for entering text |
EP1550939A3 (de) * | 2003-12-30 | 2007-05-02 | Microsoft Corporation | Verfahren zur Texteingabe |
JP2005196140A (ja) * | 2003-12-30 | 2005-07-21 | Microsoft Corp | テキストを入力するための方法 |
CN104135577A (zh) * | 2014-08-27 | 2014-11-05 | 陈包容 | 一种基于自定义语音实现快速查找联系人的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60002252T2 (de) | Ein Kommunikationsendgerät zur Anwendung mit einem prädiktiven Editor | |
DE60035527T2 (de) | Ein Mobiltelefon mit vorhersagender Editor-Anwendung | |
DE10235548B4 (de) | Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe | |
DE112007000854B4 (de) | Tragbare elektronische Vorrichtung, die eine Lernfunktion vorsieht zur Erleichterung einer Korrektur einer fehlerhaften Texteingabe in einer Umgebung eines Textes, der mehrere sequentielle Betätigungen derselben Taste erfordert, und zugehöriges Verfahren | |
DE112006003659T5 (de) | Tragbare elektronische Vorrichtung und Verfahren zum Disambiguieren einer Texteingabe und Vorsehen eines Schreibweiseersatzes | |
DE112005001284B4 (de) | Tragbare elektronische Vorrichtung mit Textdisambiguierung | |
DE60304246T2 (de) | Einstellung der Betriebsartauswahl in Abhängigkeit von Sprachinformation | |
DE112007000847T5 (de) | Tragbare elektronische Vorrichtung und Verfahren zum Lernen von Kontextdaten während einer Disambiguierung einer Texteingabe | |
DE112005001283T5 (de) | Tragbare elektronische Vorrichtung mit Textdisambiguierung | |
DE112007000728B4 (de) | Tragbare elektronische Vorrichtung zum Vorsehen einer vorgeschlagenen korrigierten Eingabe als Reaktion auf eine fehlerhafte Texteingabe in einer Umgebung eines Textes, der mehrere sequentielle Betätigungen derselben Taste erfordert, und zugehöriges Verfahren | |
EP2815396A1 (de) | Verfahren zum phonetisieren einer datenliste und sprachgesteuerte benutzerschnittstelle | |
WO2002005263A1 (de) | Verfahren zur spracheingabe und -erkennung | |
DE112006003660T5 (de) | Tragbare elektronische Vorrichtung und Verfahren zur Disambiguierung einer Texteingabe, die/das künstliche Varianten vorsieht, die aus Zeichen in einem Kernalphabet bestehen | |
DE112005001314T5 (de) | Tragbare elektronische Vorrichtung mit Textdisambiguierung | |
DE112007000856B4 (de) | Tragbare elektronische Vorrichtung und Verfahren zum Verwenden von Kontextdaten zur Disambiguierung einer Texteingabe | |
DE112005002060T5 (de) | Tragbare elektronische Vorrichtung mit Textdisambiguierung | |
DE19741473C2 (de) | Verfahren zur Steuerung von Display-Bedienoberflächen systemgesteuerter Endgeräte eines Kommunikationssystems | |
EP1352388B1 (de) | Verfahren und anordnung zur spracherkennung für ein kleingerät | |
WO2006061266A1 (de) | Automatische spracheinstellung für die beantwortung einer empfangenen sms-nachricht | |
EP1414223B1 (de) | Texteingabe für ein Endgerät | |
DE102005062512B4 (de) | Verfahren zum Erzeugen und Abspeichern von Worten und/oder Wortbestandteilen in einem mobilen Endgerät sowie mobiles Endgerät | |
EP1218814A1 (de) | Verfahren und anordnung zur eingabe alphanumerischer zeichen | |
DE112005001313T5 (de) | Tragbare elektronische Vorrichtung mit Textdisambiguierung | |
EP1514399A1 (de) | Texteingabe f r ein mobilfunkger t | |
WO2006122591A1 (de) | Mobiles telefon mit einer ereignis- und einer inhaltsgesteurten datenbank, die miteinander verknüpft |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AK | Designated states |
Kind code of ref document: A1 Designated state(s): CN US |
|
AL | Designated countries for regional patents |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
122 | Ep: pct application non-entry in european phase |