WO2001001389A2 - Voice recognition method and device - Google Patents

Voice recognition method and device Download PDF

Info

Publication number
WO2001001389A2
WO2001001389A2 PCT/DE2000/001056 DE0001056W WO0101389A2 WO 2001001389 A2 WO2001001389 A2 WO 2001001389A2 DE 0001056 W DE0001056 W DE 0001056W WO 0101389 A2 WO0101389 A2 WO 0101389A2
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
speech recognition
recognition system
sequence
speech
Prior art date
Application number
PCT/DE2000/001056
Other languages
German (de)
French (fr)
Other versions
WO2001001389A3 (en
Inventor
Andreas Kipp
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to EP00929282A priority Critical patent/EP1190413A2/en
Publication of WO2001001389A2 publication Critical patent/WO2001001389A2/en
Publication of WO2001001389A3 publication Critical patent/WO2001001389A3/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • Voice control systems has been one of the main lines of development in computer technology for years. In the course of this development, considerable progress has been made and marketable voice recognition systems have been established that also prove themselves in practical use. Advanced systems of this type are also generally suitable for voice control of a computer or connected peripheral devices. Simple speech recognition systems, which, however, can only process a relatively small vocabulary, are also already being used in the areas of consumer electronics and automotive equipment, as well as in other areas in which acoustic control of devices is possible and sensible due to a limited vocabulary.
  • Keyword sequences mostly have a relatively strictly defined information structure, which, when processed appropriately, enables particularly simple and reliable recognition, and they are also often associated with voice control tasks, such as entering a number code, a telephone number, a time or one date.
  • voice control tasks such as entering a number code, a telephone number, a time or one date.
  • the processing of such sequences takes place according to the state of the art (and to a certain extent quite successfully) in Framework of conventional speech recognition systems, for example on the basis of the known hidden Markov modeling, whereby a step-by-step output of the recognition result is also possible - for example by means of the partial traceback method.
  • the invention is based on the object of specifying a method of the generic type and an apparatus for carrying out the method, which enable a more reliable, simpler and faster recognition of keyword sequences.
  • the invention includes the essential idea of solving the problem of recognizing a coherent keyword sequence better and more reliably by dividing the recognition process into two or more sub-steps, in each of which a specific speech recognition system is used. This idea is based on the realization that speech recognition systems with a relatively small vocabulary can work significantly faster and more safely than
  • Speech recognition systems with a large vocabulary It also proceeds from the idea that certain key word sequences that occur frequently and that are meaningful in everyday language use also have a relatively clearly defined information structure, so that conditional activation of several existing speech recognition systems, each with a specific vocabulary, in successive sub-steps depending on the acquisition result of the respective one preceding sub-step is advantageously applicable. Furthermore, the invention is based on the knowledge that, especially under adverse acoustic conditions (with loud ambient noise or relatively strong distortions), speech recognition systems small vocabulary provide much better accuracy than those with large vocabulary. The conditional use of several systems with a small vocabulary therefore increases the detection rate for keyword sequences as such and, on the other hand, reduces the rate of incorrect detections.
  • the interlinked speech recognition systems are successively activated and, after solving their specific recording task and storing a recorded keyword or part of a keyword sequence, are deactivated again, whereupon another system is activated to solve its assigned recording task, a detected further keyword or another Part of a keyword sequence is stored, etc. etc.
  • keyword sequences are put together in an orderly manner and output or transmitted to a corresponding control unit for the realization of a control task.
  • a time window is predetermined in the speech stream, within which a second (or further one) ) The result of the registration must be available.
  • this time window can be an absolute one
  • Time span or a time span related to actually incoming speech signals After the window has passed in the absence of a detection result, the system first used is reactivated.
  • Speech recognition systems enables a buffering of the speech data is provided.
  • a process that follows the FIFO (first-in, first-out) principle continuously stores a last section of the speech stream with a predetermined length as a buffer section.
  • the length of the buffer section depends on the detection speed of the first speech recognition system, which must be so long that the time period between the utterance of the keyword and its detection is buffered (with an additional security amount).
  • the speech stream is processed with a delay by this buffer section in the second acquisition step, which is triggered by the presence of the result of the first acquisition step.
  • a particularly important application of the invention is represented by key word sequences in which the first keyword or the first part is such that it is followed regularly by a section or part of the speech stream containing a number or numbers.
  • a system specially adapted to the recognition of numbers or combinations of numbers is used as the second speech recognition system.
  • the terms "number”, “telephone number”, “date”, “time” or the like can be used as the first keywords of a keyword sequence. occur, and these terms will be followed by strings of digits or certain combinations of digits / words, for the recognition of which a system with a correspondingly limited vocabulary can be activated.
  • Keyword sequences Another important field of application for the voice control of computers or computer peripherals is keyword sequences, in which the first key word is one Class of devices (eg "device"), while in other parts of the sequence special devices or devices are named that are to be activated in any way.
  • device Class of devices
  • special devices or devices are named that are to be activated in any way.
  • Voice control of other technical devices in the professional or private sector for example devices in the car or in the household (such as navigation systems, audio or video systems, household devices, telecommunications terminal devices, toys etc.) of great economic interest.
  • devices in the car or in the household such as navigation systems, audio or video systems, household devices, telecommunications terminal devices, toys etc.
  • FIG. 1 shows a schematic illustration of a simple embodiment of the invention in the form of a functional block diagram
  • Fig. 2 is a graphical representation to illustrate the
  • Fig. 3 is a schematic representation of a further embodiment in the form of a functional block diagram.
  • the speech stream S is at a branch point 101 divided into two (information-equal) speech streams Sl and S2.
  • the partial speech stream S1 arrives directly at the input of a first speech recognition unit 102, specifically at a first input of a first detection stage 102a, to the second input of which a first vocabulary memory 102b is connected.
  • the first detection stage 102a has a control output connected to a speech recognition sequence control 103 and a data output connected to a first keyword memory 104.
  • the second partial speech stream S2 arrives at the input of a ring speech buffer 105, in which the last section of the speech stream is temporarily stored and at whose output a partial speech stream S2 'delayed by the buffer speech stream section is thus output. This comes to
  • a second speech recognition unit 106 which - analogous to the first speech recognition unit 102 - consists of a second acquisition stage 106a and a second vocabulary memory 106b.
  • the data output of the second detection stage 106a is connected to a second keyword memory 107.
  • the outputs of both keyword memories 104, 107 are connected to inputs of a sequence memory 108, the output of which also represents the output of the device 100.
  • the speech recognition sequence control has two control outputs which are connected to control inputs of the first and second speech recognition units 102 and 106, respectively.
  • the speech stream S (in the form of the partial speech stream S1 carrying the entire information content) is checked in the first speech recognition unit 102, which is activated by the speech recognition sequence controller 103 at the start of the recognition process, to determine whether a word stored in the first vocabulary memory 102b occurs. If such a word occurs, this is registered in the first detection unit 102a and the word in question is transferred to the first keyword memory 104 and at the same time a control signal is output to the speech recognition sequence controller 103. This thereupon deactivates the first speech recognition unit 102 and activates the second - until then inactive - speech recognition unit 106.
  • the delayed partial speech stream S2 1 arrives at its input, and (like the partial speech stream S1 in the first detection unit 102) this is detected in the second detection unit 106 when a second keyword occurs of a set of words stored in the second vocabulary memory 106b.
  • a second keyword is detected by the second detection stage 106a, it is output to the second keyword memory 107.
  • a control signal is output to the speech recognition sequence controller 103, which then deactivates the second speech recognition unit 106 again and activates the first speech recognition unit 102 instead.
  • the speech recognition sequence controller 103 controls an output of the words stored in the first and second keyword memories 104, 107 to the sequence memory 106, where they are stored in an orderly manner and are provided for output from the device 100.
  • this completes the acquisition of a keyword sequence using two different speech recognition units with differentiated, respectively reduced vocabulary.
  • ⁇ device> an element from a finite set of devices, e.g. "Computer”
  • System time recognizer 5. System: detection of the individual device names from a predetermined supply.
  • System 1 must also provide information about the (time) end point of the recognized keyword sequence.
  • the recognition continues at this point, so buffering is necessary.
  • the detection systems have to keep pace at least.
  • FIG. 2 The function of buffering the last section of the speech stream for seamless processing by the second speech recognition unit (“System 2”) is outlined in FIG. 2.
  • System 1 the time of detection of a first keyword sequence "input telephone number" by the first speech recognition unit ("System 1")
  • t E the time end point of this first keyword sequence
  • P h the time end point of this first keyword sequence
  • P h the corresponding scanning position of the system 2 at the same time t 0 (at which it is currently being activated).
  • the buffering thus clearly ensures that the time which elapses through the processing time of the system 1 until the detection of the first keyword sequence, which of course corresponds to a section of the voice stream, does not lead to a loss of voice stream data. Without the buffering, the first two digits "4" and "6" would in principle be lost for the system 2 in the example shown here and would therefore no longer be accessible to a detection.
  • FIG. 3 shows a speech processing device 200 which is modified compared to the device from FIG. 1 and which is distinguished by a double cascading of speech recognition systems and a selection option for different systems in the second stage.
  • the first and second stages with the components 201 to 208 are essentially the same as in the device according to FIG. 1 and are designated with corresponding reference numerals, and these components are not explained again here.
  • the sequence memory 208 is designed here, as symbolized by the division with two dashed vertical lines, to accommodate a three-part keyword sequence.
  • the partial signal stream S2 'from (here: first) speech buffer 205 is branched at a branch point 209 on the one hand to the second detection stage 206a and on the other hand to a second speech buffer 210.
  • the third speech recognition unit 211 also contains a specific vocabulary memory 211b which is connected to a further input of the third detection stage 211a. Also analogous to the execution of the first and second Here too, the (third) detection stage is followed by a (third) keyword memory 212, which in turn is connected on the output side to the sequence memory 208.
  • the assemblies 210 to 212 implement, as can be easily derived from the above explanations for FIG. 1, a third step of recognizing a keyword sequence which also corresponds to a third hierarchical level of the method.
  • a selector stage 203S is connected to the output of the first detection stage (in addition to the first keyword memory 204), which is organized in the form of a lookup table and in each case assigns and records one of several available second speech recognition units to individually acquired first keywords outputs the corresponding selection signal to the speech recognition sequence control 203.
  • the dash-dotted arrows projecting upward from this indicate that, in addition to the second speech recognition unit 206 shown in the figure, other speech recognition units of the second level can optionally be controlled. Of course, these, too - like the second speech recognition unit 206 shown in the figure is assigned the third speech recognition unit 211 - can again be assigned speech recognition units of the third level.
  • a similar selector stage can also be provided between the second and third levels, so that a selected one of several third-party speech recognition units available is activated at this level as a function of the recognized second keyword or second part of a keyword sequence could be.
  • cascading is also possible with a single buffer, the delay time of which is then variable and which tends to have to be reduced in order to implement step-keeping processing.

Abstract

A voice recognition method wherein a section of a continuous speech flow consisting of spoken words is detected by means of comparison with stored models. In response to the detection of a first key word, said key word is stored, a first voice recognition system is deactivated and a second voice recognition system is activated. In a second detection step, the speech flow is checked by the second speech recognition system for the appearance of a predetermined, second key word or a second key word sequence.

Description

Beschreibungdescription
Verfahren und Vorrichtung zur SpracherkennungMethod and device for speech recognition
Die Entwicklung alltagstauglicher Spracherkennungs- undThe development of everyday speech recognition and
Sprachsteuersysteme stellt seit Jahren eine der Hauptentwicklungslinien der Computertechnik dar. Im Zuge dieser Entwicklung wurden erhebliche Fortschritte erreicht und marktfähige Spracherkennungssysteme etabliert, die sich im praktischen Einsatz auch bewähren. Fortgeschrittene Systeme dieser Art sind auch grundsätzlich zur Sprachsteuerung eines Computers bzw. von angeschlossenen Peripheriegeräten geeignet. Einfache Spracherkennungssysteme, die allerdings nur ein relativ geringes Vokabular verarbeiten können, werden auch bereits in den Bereichen Konsumelektronik und KFZ-Ausrüstung sowie weiteren Bereichen eingesetzt, in denen eine akustische Steuerung von Geräten aufgrund eines begrenzten Vokabulars möglich und sinnvoll ist.Voice control systems has been one of the main lines of development in computer technology for years. In the course of this development, considerable progress has been made and marketable voice recognition systems have been established that also prove themselves in practical use. Advanced systems of this type are also generally suitable for voice control of a computer or connected peripheral devices. Simple speech recognition systems, which, however, can only process a relatively small vocabulary, are also already being used in the areas of consumer electronics and automotive equipment, as well as in other areas in which acoustic control of devices is possible and sensible due to a limited vocabulary.
Gewisse Probleme bestehen noch hinsichtlich der Verarbeitungsgeschwindigkeit, d.h. des Schritthaltens mit schneller Sprache, sowie - bei den höher entwickelten Systemen - hinsichtlich der hohen Ansprüche an die Hardware-Basis sowie auch relativ hoher Anschaffungskosten.Certain problems still exist regarding processing speed, i.e. keeping up with fast speech, and - in the more sophisticated systems - with regard to the high demands on the hardware basis and also relatively high acquisition costs.
Besondere Aufmerksamkeit bei der Weiterentwicklung der Spracherkennungssysteme verdient das Problem der Erkennung von Schlüsselwortsequenzen in einem kontinuierlichen Strom von gesprochenen Wörtern. Derartige Schlüsselwortsequenzen haben zumeist eine relativ streng festgelegte Informationsstruktur, die bei einer geeigneten Verarbeitung eine besonders einfache und zuverlässige Erkennung ermöglicht, und zudem stehen sie vielfach in Verbindung mit Sprachsteuerungs- aufgaben, etwa der Eingabe eines Zahlencodes, einer Telefon- nummer, einer Uhrzeit oder eines Datums. Die Verarbeitung derartiger Sequenzen geschieht nach dem Stand der Technik (und bis zu einem gewissen Grade durchaus erfolgreich) im Rahmen üblicher Spracherkennungssysteme, beispielsweise auf der Grundlage der bekannten Hidden-Markov-Modellierung, wobei auch eine schritthaltende Ausgabe des Erkennungsergebnisses möglich ist - beispielsweise durch das Verfahren der partiel- len Rückverfolgung ("Partial Traceback").The problem of recognizing keyword sequences in a continuous stream of spoken words deserves special attention in the further development of speech recognition systems. Such keyword sequences mostly have a relatively strictly defined information structure, which, when processed appropriately, enables particularly simple and reliable recognition, and they are also often associated with voice control tasks, such as entering a number code, a telephone number, a time or one date. The processing of such sequences takes place according to the state of the art (and to a certain extent quite successfully) in Framework of conventional speech recognition systems, for example on the basis of the known hidden Markov modeling, whereby a step-by-step output of the recognition result is also possible - for example by means of the partial traceback method.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der gattungsgemäßen Art sowie eine Vorrichtung zur Durchführung des Verfahrens anzugeben, die eine zuverlässigere, einfachere und schnellere Erkennung von Schlüsselwortsequenzen ermöglichen.The invention is based on the object of specifying a method of the generic type and an apparatus for carrying out the method, which enable a more reliable, simpler and faster recognition of keyword sequences.
Diese Aufgabe wird hinsichtlich ihres Verfahrensaspektes durch ein Verfahren mit den Merkmalen des Anspruchs 1 und hinsichtlich ihres Vorrichtungsaspektes durch eine Vorrichtung mit den Merkmalen des Anspruchs 9 gelöst.This object is achieved in terms of its method aspect by a method with the features of claim 1 and in terms of its device aspect by a device with the features of claim 9.
Die Erfindung schließt den wesentlichen Gedanken ein, das Problem der Erkennung einer zusammenhängenden Schlüsselwort- sequenz durch Aufteilung des Erkennungsprozesses in zwei oder mehr Teilschritte, bei denen jeweils ein spezifisches Spracherkennungssystem zum Einsatz kommt, besser und sicherer zu lösen. Dieser Gedanke geht von der Erkenntnis aus, daß Spracherkennungssysteme mit einem relativ kleinen Vokabular entscheidend schneller und sicherer arbeiten können alsThe invention includes the essential idea of solving the problem of recognizing a coherent keyword sequence better and more reliably by dividing the recognition process into two or more sub-steps, in each of which a specific speech recognition system is used. This idea is based on the realization that speech recognition systems with a relatively small vocabulary can work significantly faster and more safely than
Spracherkennungssysteme mit einem großen Vokabular. Sie geht weiter von dem Gedanken aus, das bestimmte, im täglichen Sprachgebrauch häufig vorkommende und bedeutungsvolle Schlüsselwortsequenzen auch eine relativ klar festgelegte Informa- tionsstruktur haben, so daß eine bedingte Aktivierung mehrerer vorhandener Spracherkennungssysteme mit jeweils spezifischem Vokabular bei aufeinanderfolgenden Teilschritten in Abhängigkeit vom Erfassungsergebnis des jeweils vorangehenden Teilschrittes vorteilhaft anwendbar ist. Weiterhin beruht die Erfindung auf der Erkenntnis, daß insbesondere unter widrigen akustischen Bedingungen (bei lauten Umgebungsgeräuschen oder relativ starken Verzerrungen) Spracherkennungssysteme mit kleinem Vokabular eine wesentlich bessere Genauigkeit als solche mit großem Vokabular liefern. Der bedingte Einsatz von mehreren Systemen mit kleinem Vokabular erhöht daher die De- tektionsrate für Schlüsselwortsequenzen als solche und senkt auf der anderen Seite die Rate von Fehldetektionen.Speech recognition systems with a large vocabulary. It also proceeds from the idea that certain key word sequences that occur frequently and that are meaningful in everyday language use also have a relatively clearly defined information structure, so that conditional activation of several existing speech recognition systems, each with a specific vocabulary, in successive sub-steps depending on the acquisition result of the respective one preceding sub-step is advantageously applicable. Furthermore, the invention is based on the knowledge that, especially under adverse acoustic conditions (with loud ambient noise or relatively strong distortions), speech recognition systems small vocabulary provide much better accuracy than those with large vocabulary. The conditional use of several systems with a small vocabulary therefore increases the detection rate for keyword sequences as such and, on the other hand, reduces the rate of incorrect detections.
Erfindungsgemäß ist vorgesehen, daß die miteinander verknüpften Spracherkennungssysteme sukzessive aktiviert und nach Lösung ihrer spezifischen Erfassungsaufgabe und Speicherung eines erfaßten Schlüsselwortes bzw. eines Teils einer Schlüsselwortsequenz wieder deaktiviert werden, woraufhin ein anderes System zur Lösung seiner zugeordneten Erfassungsaufgabe aktiviert, ein erfaßtes weiteres Schlüsselwort oder ein weiterer Teil einer Schlüsselwortsequenz gespeichert wird usw. usf.. Die jeweils erfaßten Schlüsselworte bzw. Teile vonAccording to the invention, it is provided that the interlinked speech recognition systems are successively activated and, after solving their specific recording task and storing a recorded keyword or part of a keyword sequence, are deactivated again, whereupon another system is activated to solve its assigned recording task, a detected further keyword or another Part of a keyword sequence is stored, etc. etc. The keywords or parts of
Schlüsselwortsequenzen werden nach Abschluß des Erfassungsvorganges geordnet zusammengefügt und ausgegeben bzw. zur Realisierung einer Steuerungsaufgabe an eine entsprechende Steuereinheit übertragen.After the completion of the acquisition process, keyword sequences are put together in an orderly manner and output or transmitted to a corresponding control unit for the realization of a control task.
In einer bevorzugten Ausgestaltung des Verfahrens wird in Abhängigkeit von der Art des ersten erfaßten Schlüsselwortes oder Teiles einer Schlüsselwortsequenz von mehreren gewissermaßen in Bereitschaft gehaltenen Spracherkennungssystemen das aufgrund des ersten Erfassungs-Teilergebnisses als geeignet erscheinende ausgewählt und aktiviert.In a preferred embodiment of the method, depending on the type of the first detected keyword or part of a keyword sequence, several speech recognition systems that are, as it were, on standby are selected and activated based on the first partial detection result.
Gemäß einer weiteren bevorzugten Ausgestaltung wird nach Erfassung eines ersten Schlüsselwortes bzw. Teiles einer Schlüsselwortsequenz für die Erfassung eines zweiten Schlüsselwortes bzw. Teiles der Schlüsselwortsequenz (und analog für weitere Teile einer Sequenz) ein Zeitfenster im Sprachstrom vorbestimmt, innerhalb dessen ein zweites (bzw. weiteres) Erfassungsergebnis vorliegen muß. Dieses Zeitfenster kann, je nach konkreter Systemkonfiguration, eine absoluteAccording to a further preferred embodiment, after the acquisition of a first keyword or part of a keyword sequence for the acquisition of a second keyword or part of the keyword sequence (and analogously for further parts of a sequence), a time window is predetermined in the speech stream, within which a second (or further one) ) The result of the registration must be available. Depending on the specific system configuration, this time window can be an absolute one
Zeitspanne oder eine auf tatsächlich einlaufende Sprachsignale bezogene Zeitspanne sein. Nach Verstreichen des Fensters ohne Vorliegen eines Erfassungsergebnisses erfolgt insbesondere eine Reaktivierung des zuerst eingesetzten Systems.Time span or a time span related to actually incoming speech signals. After the window has passed in the absence of a detection result, the system first used is reactivated.
In einer weiteren vorteilhaften Ausfuhrung, die eine verlust- lose Umschaltung zwischen den einzelnen eingesetztenIn a further advantageous embodiment, the lossless switching between the individual used
Spracherkennungssystemen ermöglicht, ist eine Pufferung der Sprachdaten vorgesehen. Es wird also wahrend des ersten Erfassungsschrittes in einem dem FIFO (First-In-First-Out) - Prinzip folgenden Vorgang laufend ein jeweils letzter Abschnitt des Sprachstroms mit vorbestimmter Lange als Pufferabschnitt zwischengespeichert. Die Lange des Pufferabschnitts richtet sich nach der Erfassungsgeschwindigkeit des ersten Spracherkennungssystems, den er muß so lang sein, daß der zwischen dem Aussprechen des Schlüsselwortes und dessen Erfassung liegende Zeitabschnitt (mit einem zusätzlichen Sicherheitsbetrag) gepuffert wird. Der Sprachstrom wird mit Verzögerung um diesen Pufferabschnitt im zweiten Erfassungs- schπtt, der durch das Vorliegen des Ergebnisses des ersten Erfassungsschrittes getriggert wird, verarbeitet.Speech recognition systems enables a buffering of the speech data is provided. During the first detection step, a process that follows the FIFO (first-in, first-out) principle continuously stores a last section of the speech stream with a predetermined length as a buffer section. The length of the buffer section depends on the detection speed of the first speech recognition system, which must be so long that the time period between the utterance of the keyword and its detection is buffered (with an additional security amount). The speech stream is processed with a delay by this buffer section in the second acquisition step, which is triggered by the presence of the result of the first acquisition step.
Eine besonders wichtige Applikation der Erfindung stellen Schlusselwortsequenzen dar, bei denen das erste Schlüsselwort bzw. der erste Teil so geartet ist, daß darauf regelmäßig eine Ziffer oder ein Ziffern enthaltender Abschnitt des Sprachstromes folgt. In diesem Fall wird als zweites Spracherkennungssystem ein speziell an die Erkennung von Ziffern bzw. Ziffernkombinationen angepaßtes System verwendet. Beispielsweise können als erste Schlusselworte einer Schlussel- wortsequenz die Begriffe "Nummer", "Telefonnummer", "Datum", "Uhrzeit" o.a. auftreten, und auf diese Begriffe werden Ziffernketten oder bestimmte Ziffern/Wort-Kombinationen folgen, für deren Erkennung ein System mit entsprechend eingeschränktem Vokabular aktiviert werden kann.A particularly important application of the invention is represented by key word sequences in which the first keyword or the first part is such that it is followed regularly by a section or part of the speech stream containing a number or numbers. In this case, a system specially adapted to the recognition of numbers or combinations of numbers is used as the second speech recognition system. For example, the terms "number", "telephone number", "date", "time" or the like can be used as the first keywords of a keyword sequence. occur, and these terms will be followed by strings of digits or certain combinations of digits / words, for the recognition of which a system with a correspondingly limited vocabulary can be activated.
Ein f r die Sprachsteuerung von Computern bzw. einer Computerperipherie wichtiges weiteres Anwendungsfeld sind Schlusselwortsequenzen, m denen das erste Schlüsselwort eine Klasse von Vorrichtungen (z.B. "Gerat") bezeichnet, wahrend in weiteren Teilen der Sequenz spezielle Vorrichtungen bzw. Gerate benannt werden, die in irgendeiner Weise aktiviert werden sollen. Auch hier ist, wie leicht einzusehen ist, der miteinander verknüpfte Einsatz von einfachen Spracherken- nungssystemen mit ausgesprochen reduziertem Vokabular und damit sehr hoher Erkennungssicherheit möglich.Another important field of application for the voice control of computers or computer peripherals is keyword sequences, in which the first key word is one Class of devices (eg "device"), while in other parts of the sequence special devices or devices are named that are to be activated in any way. Here, too, it is easy to see that the interconnected use of simple speech recognition systems with an extremely reduced vocabulary and thus a very high level of recognition reliability is possible.
Neben der erwähnten wichtigen Anwendung der Sprachsteuerung eines Computers bzw. von Computerperipherie ist auch dieIn addition to the mentioned important application of the voice control of a computer or of computer peripherals is also the
Sprachsteuerung anderer technischer Gerate im professionellen oder privaten Bereich, beispielsweise von Geraten im Auto oder im Haushalt (etwa Navigationssystemen, Audio- oder Video-Systemen, Haushaltsgeraten, Telekommunikations-Endgera- ten, Spielzeug etc.), von großem wirtschaftlichem Interesse.Voice control of other technical devices in the professional or private sector, for example devices in the car or in the household (such as navigation systems, audio or video systems, household devices, telecommunications terminal devices, toys etc.) of great economic interest.
Die Vorrichtungsaspekte der vorgeschlagenen Losung ergeben sich im wesentlichen unmittelbar aus den Verfahrensaspekten; im übrigen ergeben sich Vorteile und Zweckmäßigkeiten der Erfindung aus den Unteranspruchen sowie der nachfolgenden Beschreibung bevorzugter Ausfuhrungsbeispiele anhand der Figuren. Von diesen zeigen:The device aspects of the proposed solution essentially result directly from the procedural aspects; for the rest, advantages and advantages of the invention result from the subclaims and the following description of preferred exemplary embodiments with reference to the figures. Of these show:
Fig. 1 eine schematische Darstellung einer einfachen Ausfuh- rungsfor der Erfindung in Form eines Funktions-Block- schaltbildes,1 shows a schematic illustration of a simple embodiment of the invention in the form of a functional block diagram,
Fig. 2 eine grafische Darstellung zur Verdeutlichung desFig. 2 is a graphical representation to illustrate the
Prinzips der Sprachstrompufferung gemäß einer vorteil- haften Ausgestaltung der Erfindung undPrinciple of voice stream buffering according to an advantageous embodiment of the invention and
Fig. 3 eine schematische Darstellung einer weiteren Ausfuhrungsform m Form eines Funktions-Blockschaltbildes.Fig. 3 is a schematic representation of a further embodiment in the form of a functional block diagram.
In Fig. 1 ist schematisch eine Spracherkennungsvorrichtung 100 zur Detektion von Schlusselwortsequenzen m einem kontinuierlichen Sprachstrom S dargestellt. Der Sprachstrom S wird an einem Verzweigungspunkt 101 in zwei (informationsgleiche) Sprachströme Sl und S2 aufgeteilt. Der Teil-Sprachstrom Sl gelangt unmittelbar zum Eingang einer ersten Spracherken- nungseinheit 102, und zwar zu einem ersten Eingang einer ersten Erfassungsstufe 102a, mit deren zweitem Eingang ein erster Vokabularspeicher 102b verbunden ist. Die erste Erfas- sungsstufe 102a hat einen mit einer Spracherkennungs-Ablauf- steuerung 103 verbundenen Steuerausgang und einen mit einem ersten Schlüsselwortspeicher 104 verbundenen Datenausgang.1 schematically shows a speech recognition device 100 for the detection of key word sequences in a continuous speech stream S. The speech stream S is at a branch point 101 divided into two (information-equal) speech streams Sl and S2. The partial speech stream S1 arrives directly at the input of a first speech recognition unit 102, specifically at a first input of a first detection stage 102a, to the second input of which a first vocabulary memory 102b is connected. The first detection stage 102a has a control output connected to a speech recognition sequence control 103 and a data output connected to a first keyword memory 104.
Der zweite Teil-Sprachstrom S2 gelangt zum Eingang eines Ring-Sprachpuffers 105, in dem der jeweils letzte Abschnitt des Sprachstromes zwischengespeichert wird und an dessen Ausgang somit ein um den Puffer-Sprachstromabschnitt verzögerter Teil-Sprachstrom S2 ' ausgegeben wird. Dieser gelangt zumThe second partial speech stream S2 arrives at the input of a ring speech buffer 105, in which the last section of the speech stream is temporarily stored and at whose output a partial speech stream S2 'delayed by the buffer speech stream section is thus output. This comes to
Eingang einer zweiten Spracherkennungseinheit 106, die - analog zur ersten Spracherkennungseinheit 102 - aus einer zweiten Erfassungsstufe 106a und einem zweiten Vokabularspeicher 106b besteht. Der Datenausgang der zweiten Erfassungsstufe 106a ist mit einem zweiten Schlüsselwortspeicher 107 verbunden. Die Ausgänge beider Schlüsselwortspeicher 104, 107 sind mit Eingängen eines Sequenzspeichers 108 verbunden, dessen Ausgang zugleich den Ausgang der Vorrichtung 100 darstellt. Die Spracherkennungs-AblaufSteuerung hat zwei Steuerausgänge, die mit Steuereingängen der ersten bzw. zweiten Spracherkennungseinheit 102 bzw. 106 verbunden sind.Input of a second speech recognition unit 106, which - analogous to the first speech recognition unit 102 - consists of a second acquisition stage 106a and a second vocabulary memory 106b. The data output of the second detection stage 106a is connected to a second keyword memory 107. The outputs of both keyword memories 104, 107 are connected to inputs of a sequence memory 108, the output of which also represents the output of the device 100. The speech recognition sequence control has two control outputs which are connected to control inputs of the first and second speech recognition units 102 and 106, respectively.
Der Sprachstrom S wird (in Gestalt des den gesamten Informationsgehalt tragenden Teil-Sprachstrom Sl) in der ersten Spracherkennungseinheit 102, die durch die Spracherkennungs- AblaufSteuerung 103 zu Beginn des Erkennungsvorgangs aktiviert wird, daraufhin geprüft, ob ein im ersten Vokabularspeicher 102b gespeichertes Wort auftritt. Kommt ein solches Wort vor, wird dies in der ersten Erfassungseinheit 102a re- gistriert und das betreffende Wort in den ersten Schlüsselwortspeicher 104 übernommen und zugleich ein Steuersignal an die Spracherkennungs-AblaufSteuerung 103 ausgegeben. Diese deaktiviert daraufhin die erste Spracherkennungseinheit 102 und aktiviert die zweite - bis dahin nicht aktive - Spracherkennungseinheit 106.The speech stream S (in the form of the partial speech stream S1 carrying the entire information content) is checked in the first speech recognition unit 102, which is activated by the speech recognition sequence controller 103 at the start of the recognition process, to determine whether a word stored in the first vocabulary memory 102b occurs. If such a word occurs, this is registered in the first detection unit 102a and the word in question is transferred to the first keyword memory 104 and at the same time a control signal is output to the speech recognition sequence controller 103. This thereupon deactivates the first speech recognition unit 102 and activates the second - until then inactive - speech recognition unit 106.
Zu deren Eingang gelangt nach Durchlaufen des Ring-Sprachpuffers 105 der verzögerte Teil-Sprachstrom S21, und dieser wird (ebenso wie der Teil-Sprachstrom Sl in der ersten Erfassungs- einheit 102) in der zweiten Erfassungseinheit 106 auf das Auftreten eines zweiten Schlüsselwortes aus einer Menge von im zweiten Vokabularspeicher 106b gespeicherten Worten geprüft. Bei Erfassung eines solchen zweiten Schlüsselwortes durch die zweite Erfassungsstufe 106a wird dieses an den zweiten Schlüsselwortspeicher 107 ausgegeben. Zugleich wird ein Steuersignal an die Spracherkennungs-AblaufSteuerung 103 ausgegeben, die daraufhin die zweite Spracherkennungseinheit 106 wieder deaktiviert und statt ihrer wieder die erste Spracherkennungseinheit 102 aktiviert.After passing through the ring speech buffer 105, the delayed partial speech stream S2 1 arrives at its input, and (like the partial speech stream S1 in the first detection unit 102) this is detected in the second detection unit 106 when a second keyword occurs of a set of words stored in the second vocabulary memory 106b. When such a second keyword is detected by the second detection stage 106a, it is output to the second keyword memory 107. At the same time, a control signal is output to the speech recognition sequence controller 103, which then deactivates the second speech recognition unit 106 again and activates the first speech recognition unit 102 instead.
Weiterhin steuert die Spracherkennungs-AblaufSteuerung 103 eine Ausgabe der im ersten und zweiten Schlüsselwortspeicher 104, 107 gespeicherten Worte an den Sequenzspeicher 106, wo diese geordnet abgelegt und zur Ausgabe aus der Vorrichtung 100 bereitgestellt werden. Damit ist in diesem einfachen Beispiel die Erfassung einer Schlüsselwortsequenz unter abge- stuftem Einsatz zweier unterschiedlicher Spracherkennungsein- heiten mit differierendem, jeweils reduziertem Vokabular abgeschlossen .Furthermore, the speech recognition sequence controller 103 controls an output of the words stored in the first and second keyword memories 104, 107 to the sequence memory 106, where they are stored in an orderly manner and are provided for output from the device 100. In this simple example, this completes the acquisition of a keyword sequence using two different speech recognition units with differentiated, respectively reduced vocabulary.
Die konkrete Anwendung des vorgeschlagenen Verfahrens und der oben skizzierten Vorrichtung soll an einem praktisch relevanten Anwendungsbeispiel etwas näher skizziert werden:The specific application of the proposed method and the device outlined above is to be outlined in more detail using a practically relevant application example:
Es sollen folgende Wortsequenzen erkannt werdenThe following word sequences should be recognized
- Eingabe Telefonnummer <Ziffernkette> - Eingabe Datum <Datum>- Enter phone number <string of digits> - Enter date <date>
- Eingabe Uhrzeit <Uhrzeit>- Enter the time <time>
- Abfrage Gerät <Gerät>, wobei die in spitzen Klammern stehenden Ausdrücke folgende Bedeutung haben sollen:- Query device <device>, where the expressions in angle brackets should have the following meaning:
<Ziffernkette>: kontinuierlich aufeinanderfolgende Ziffern <Datum>: ein Datumsausdruck, z.B. "2. November 99" <Uhrzeit>: ein Uhrzeitausdruck, z.B. "10 nach 9"<String of digits>: continuously consecutive digits <date>: a date printout, e.g. "November 2nd 99" <time>: a time printout, e.g. "10 to 9"
<Gerät>: ein Element aus einer endlichen Menge von Geräten, z.B. "Computer"<device>: an element from a finite set of devices, e.g. "Computer"
Es werden folgende Spracherkennungssysteme erstellt: 1. System: Detektion der Sequenzen: "Eingabe Telefonnummer", "Eingabe Datum", "Eingabe Uhrzeit", "Abfrage Gerät"The following speech recognition systems are created: 1. System: Detection of the sequences: "Enter telephone number", "Enter date", "Enter time", "Query device"
2. System: Ziffernkettenerkenner2. System: string recognizer
3. System: Datumserkenner3. System: date recognizer
4. System: Uhrzeiterkenner 5. System: Detektion der einzelnen Gerätenamen aus einem vorbestimmten Vorrat.4. System: time recognizer 5. System: detection of the individual device names from a predetermined supply.
Abhängig vom Ergebnis des Systems 1 wird eines der Systeme 2 bis 5 aktiviert. Das System 1 muß zusätzlich noch die Infor- mation über den (zeitlichen) Endpunkt der erkannten Ξchlüs- selwortsequenz liefern. Bei der Aktivierung eines der Systeme 2 bis 5 wird dann die Erkennung an diesem Punkt fortgesetzt, deshalb ist eine Pufferung notwendig. Weiterhin müssen die Erkennungssysteme mindestens schritthaltend arbeiten.Depending on the result of system 1, one of systems 2 to 5 is activated. System 1 must also provide information about the (time) end point of the recognized keyword sequence. When one of the systems 2 to 5 is activated, the recognition continues at this point, so buffering is necessary. Furthermore, the detection systems have to keep pace at least.
In Fig. 2 ist die Funktion der Pufferung des letzten Abschnitts des Sprachstromes zur lückenlosen Verarbeitung durch die zweite Spracherkennungseinheit ("System 2") skizziert. Mit to ist der Zeitpunkt der Detektion einer ersten Schlüsselwortsequenz "Eingabe Telefonnummer" durch die erste Spracherkennungseinheit ("System 1") bezeichnet, mit tE der zeitliche Endpunkt dieser ersten Schlüsselwortsequenz, mit Ph,ι eine Position im Puffer-System, zu der das System 1 zum Zeitpunkt t0 aktuell die Sprachdaten liest, und mit Ph,2 die entsprechende Abtastposition des Systems 2 zum gleichen Zeitpunkt t0 (zu dem es gerade aktiviert wird) . Durch die Pufferung wird also ersichtlich gewährleistet, daß die durch die Verarbeitungszeit des Systems 1 bis zur Detektion der ersten Schlüsselwortsequenz verstreichende Zeit, der natürlich ein Abschnitt des Sprachstromes entspricht, nicht zu einem Verlust an Sprachstromdaten führt. Ohne die Pufferungen wären im hier gezeigten Beispiel die beiden ersten Ziffern "4" und "6" für das System 2 prinzipiell verloren und damit insgesamt einer Detektion nicht mehr zugänglich.The function of buffering the last section of the speech stream for seamless processing by the second speech recognition unit (“System 2”) is outlined in FIG. 2. With to is the time of detection of a first keyword sequence "input telephone number" by the first speech recognition unit ("System 1"), with t E the time end point of this first keyword sequence, with P h , ι a position in the buffer system to which the system 1 currently reads the voice data at the time t 0 , and with P h , 2 the corresponding scanning position of the system 2 at the same time t 0 (at which it is currently being activated). The buffering thus clearly ensures that the time which elapses through the processing time of the system 1 until the detection of the first keyword sequence, which of course corresponds to a section of the voice stream, does not lead to a loss of voice stream data. Without the buffering, the first two digits "4" and "6" would in principle be lost for the system 2 in the example shown here and would therefore no longer be accessible to a detection.
In Fig. 3 ist eine gegenüber der Vorrichtung aus Fig. 1 modifizierte Sprachverarbeitungsvorrichtung 200 gezeigt, die sich durch eine zweifache Kaskadierung von Spracherkennungssyste- en sowie eine Auswahlmöglichkeit für verschiedene Systeme in der zweiten Stufe auszeichnet. Im übrigen sind die erste und zweite Stufe mit den Komponenten 201 bis 208 im wesentlichen dieselben wie bei der Vorrichtung nach Fig. 1 und mit einander entsprechenden Bezugsziffern bezeichnet, und diese Komponenten werden hier nicht nochmals erläutert.FIG. 3 shows a speech processing device 200 which is modified compared to the device from FIG. 1 and which is distinguished by a double cascading of speech recognition systems and a selection option for different systems in the second stage. Incidentally, the first and second stages with the components 201 to 208 are essentially the same as in the device according to FIG. 1 and are designated with corresponding reference numerals, and these components are not explained again here.
Der Sequenzspeicher 208 ist hier - wie durch die Unterteilung mit zwei gestrichelten vertikalen Linien symbolisiert ist - zur Aufnahme einer dreiteiligen Schlüsselwortsequenz ausgebildet. Der Teil-Signalstrom S2 ' vom (hier: ersten) Sprachpuffer 205 wird in einem Verzweigungspunkt 209 einerseits zur zweiten Erfassungsstufe 206a und andererseits zu einem zweiten Sprachpuffer 210 verzweigt. Dort findet eine weitere Pufferung bzw. Verzögerung des am Ausgang bereitstehenden (somit zweifach verzögerten) Teil-Sprachstroms S2.2'' statt. Dieser wird dem Eingang einer dritten Spracherkennungseinheit 211, und zwar konkret einer dritten Erfassungsstufe 211a, zugeführt.The sequence memory 208 is designed here, as symbolized by the division with two dashed vertical lines, to accommodate a three-part keyword sequence. The partial signal stream S2 'from (here: first) speech buffer 205 is branched at a branch point 209 on the one hand to the second detection stage 206a and on the other hand to a second speech buffer 210. There is a further buffering or delaying of the partial speech stream S2.2 ″ available at the output (thus twice delayed). This is fed to the input of a third speech recognition unit 211, specifically a third detection stage 211a.
Die dritte Spracherkennungseinheit 211 enthält ebenso wie die erste und zweite Spracherkennungseinheit 202 und 206 zudem einen spezifischen Vokabularspeicher 211b, der mit einem weiteren Eingang der dritten Erfassungsstufe 211a verbunden ist. Ebenfalls analog zur Ausführung der ersten und zweiten Spracherkennungseinheit ist auch hier der (dritten) Erfassungsstufe ein (dritter) Schlüsselwortspeicher 212 nachgeschaltet, der seinerseits ausgangsseitig mit dem Sequenzspeicher 208 verbunden ist. Die Baugruppen 210 bis 212 realisie- ren, wie sich ohne weiteres aus den obigen Erläuterungen zu Fig. 1 ableiten läßt, einen dritten Schritt der Erkennung einer Schlüsselwortsequenz, der auch einer dritten hierarchischen Ebene des Verfahrens entspricht.Like the first and second speech recognition units 202 and 206, the third speech recognition unit 211 also contains a specific vocabulary memory 211b which is connected to a further input of the third detection stage 211a. Also analogous to the execution of the first and second Here too, the (third) detection stage is followed by a (third) keyword memory 212, which in turn is connected on the output side to the sequence memory 208. The assemblies 210 to 212 implement, as can be easily derived from the above explanations for FIG. 1, a third step of recognizing a keyword sequence which also corresponds to a third hierarchical level of the method.
Es ist noch darauf hinzuweisen, daß mit dem Ausgang der ersten Erfassungsstufe (neben dem ersten Schlüsselwortspeicher 204) eine Selektorstufe 203S verbunden ist, welche in Form eines Lookup-Table organisiert ist und einzeln erfaßten ersten Schlüsselworten jeweils eine von mehreren verfügbaren zweiten Spracherkennungseinheiten zuordnet und ein entsprechendes Auswahlsignal an die Spracherkennungs-Ablaufsteuerung 203 ausgibt. Durch die von dieser nach oben ragenden strichpunktierten Pfeile ist angedeutet, daß außer der in der Figur gezeigten zweiten Spracherkennungseinheit 206 wahlweise andere Spracherkennungseinheiten der zweiten Ebene angesteuert werden können. Auch diesen können natürlich - wie der in der Figur gezeigten zweiten Spracherkennungseinheit 206 die dritte Spracherkennungseinheit 211 zugeordnet ist - wiederum Spracherkennungseinheiten der dritten Ebene zugeordnet sein. Weiterhin kann, wie sich leicht einsehen läßt, auch zwischen der zweiten und dritten Ebene eine ähnliche Selek- torstufe vorgesehen sein, so daß auch auf dieser Ebene in Abhängigkeit vom erkannten zweiten Schlüsselwort bzw. zweiten Teil einer Schlüsselwortsequenz eine ausgewählte von mehreren bereitstehenden dritten Spracherkennungseinheiten aktiviert werden könnte. Schließlich ist eine Kaskadierung auch mit einem einzigen Puffer möglich, dessen Verzögerungszeit dann variabel ist und zur Realisierung einer schritthaltenden Verarbeitung tendenziell verringert werden muß.It should also be pointed out that a selector stage 203S is connected to the output of the first detection stage (in addition to the first keyword memory 204), which is organized in the form of a lookup table and in each case assigns and records one of several available second speech recognition units to individually acquired first keywords outputs the corresponding selection signal to the speech recognition sequence control 203. The dash-dotted arrows projecting upward from this indicate that, in addition to the second speech recognition unit 206 shown in the figure, other speech recognition units of the second level can optionally be controlled. Of course, these, too - like the second speech recognition unit 206 shown in the figure is assigned the third speech recognition unit 211 - can again be assigned speech recognition units of the third level. Furthermore, as can be easily seen, a similar selector stage can also be provided between the second and third levels, so that a selected one of several third-party speech recognition units available is activated at this level as a function of the recognized second keyword or second part of a keyword sequence could be. Finally, cascading is also possible with a single buffer, the delay time of which is then variable and which tends to have to be reduced in order to implement step-keeping processing.
Auch in übrigen Einzelheiten ist die Ausführung der Erfindung nicht auf die obigen Beispiele beschränkt, sondern auch in einer Vielzahl von im fachmännischen Ermessen liegenden Abwandlungen möglich. In other details, the implementation of the invention is not limited to the examples above, but also in a variety of variations possible in the professional judgment.

Claims

Patentansprüche claims
1. Verfahren zur Spracherkennung, bei dem ein Abschnitt eines kontinuierlichen Sprachstromes von gesprochenen Wörtern durch Vergleich mit gespeicherten Mustern detektiert wird, d a d u r c h g e k e n n z e i c h n e t, daß1. A method for speech recognition, in which a section of a continuous speech stream of spoken words is detected by comparison with stored patterns, that is to say that
- in einem ersten Erfassungsschritt mittels eines ersten Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten ersten Schlüsselworts oder einer ersten Schlüsselwortsequenz geprüft,in a first detection step, the speech stream is checked for the occurrence of a predetermined first keyword or a first keyword sequence using a first speech recognition system,
- im Ansprechen auf die Erfassung eines ersten Schlüsselworts oder einer ersten Schlüsselwortsequenz dieses bzw. diese gespeichert, das erste Spracherkennungssystem deaktiviert und ein zweites Spracherkennungssystem aktiviert, - in einem zweiten Erfassungsschritt mittels des zweiten- in response to the detection of a first keyword or a first keyword sequence, the latter is saved, the first speech recognition system is deactivated and a second speech recognition system is activated, - in a second detection step by means of the second
Spracherkennungssystems der Sprachstrom auf das Auftreten eines vorbestimmten zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz geprüft,Speech recognition system, the speech stream is checked for the occurrence of a predetermined second keyword or a second keyword sequence,
- im Ansprechen auf die Erfassung des zweiten Schlüsselworts oder der zweiten Schlüsselwortsequenz dieses bzw. diese gespeichert, das zweite Spracherkennungssystem deaktiviert und das erste oder ein weiteres Spracherkennungssystem aktiviert und- In response to the detection of the second keyword or the second keyword sequence, this or these are stored, the second speech recognition system deactivated and the first or a further speech recognition system activated and
- die gespeicherten ersten und zweiten Schlüsselworte bzw. Schlüsselwortsequenzen zusammengefügt und ausgegeben oder zur Ausgabe bereitgestellt werden.- The stored first and second keywords or keyword sequences are combined and output or made available for output.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß in Abhängigkeit von der Art des ersten erfaßten Schlüsselworts bzw. der ersten Schlüsselwortsequenz ein ausgewähltes von mehreren verfügbaren zweiten Spracherkennungssystemen aktiviert wird.2. The method of claim 1, d a d u r c h g e k e n n z e i c h n e t that a selected one of several available second speech recognition systems is activated depending on the type of the first detected keyword or the first keyword sequence.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß für die Erfassung des zweiten Schlüsselworts bzw. der zweiten Schlüsselwortsequenz ein Zeitfenster im Sprachstrom vorbestimmt wird.3. The method according to claim 1 or 2, characterized in that for the detection of the second keyword or the second Keyword sequence a time window in the voice stream is predetermined.
4. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß während des ersten Erfassungsschrittes in einem Speichervorgang laufend ein jeweils letzter Abschnitt des Sprachstromes als Pufferabschnitt zwischengespeichert und der zweite Erfassungsschritt mit dem um den Pufferabschnitt verzögerten Sprachstrom ausgeführt wird, wobei die zeitliche Länge des Pufferabschnitts in Abhängigkeit von der Erfassungszeitkonstanten des ersten Spracherkennungssystems bestimmt wird.4. The method according to any one of the preceding claims, characterized in that a respective last section of the speech stream is temporarily stored as a buffer section during the first detection step in a storage process and the second detection step is carried out with the speech stream delayed by the buffer section, the length of time of the buffer section in Depending on the acquisition time constant of the first speech recognition system is determined.
5. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß als erstes Schlüsselwort bzw. erste Schlüsselwortsequenz ein solches bzw. eine solche vorbestimmt ist, auf das/die regelmäßig eine Ziffer oder ein Ziffern enthaltender Abschnitt als zweites Schlüsselwort bzw. zweite Schlüsselwortsequenz folgt, und daß als zweites Spracherkennungssystem ein an die Ziffernerkennung angepaßtes Spracherkennungssystem eingesetzt wird.5. The method according to any one of the preceding claims, characterized in that such or such is predetermined as the first keyword or first keyword sequence, the / which regularly contains a digit or a section as a second keyword or second keyword sequence, and that a speech recognition system adapted to the digit recognition is used as the second speech recognition system.
6. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß als erstes Schlüsselwort eines der Worte "Nummer", "Telefonnummer", "Datum" oder "Uhrzeit" vorbestimmt ist und die zweite Schlüsselwortsequenz eine Ziffernkette bzw. Datums- oder Uhrzeitangabe ist.6. The method of claim 5, d a d u r c h g e k e n n z e i c h n e t that one of the words "number", "telephone number", "date" or "time" is predetermined as the first keyword and the second keyword sequence is a string of digits or date or time.
7. Verfahren nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß es mehr als zwei Erfassungsschritte unter Einsatz jeweils eines spezifischen Spracherkennungssystems aufweist. 7. The method according to any one of the preceding claims, characterized in that it has more than two detection steps, each using a specific speech recognition system.
8. Verfahren nach einem der vorangehenden Ansprüche, gekennzeichnet durch die Anwendung zur Sprachsteuerung eines Computers oder eines über einen Computer gesteuerten Gerätes oder eines Telekommu- nikations- oder eines Konsumelektronik-Gerätes.8. The method according to any one of the preceding claims, characterized by the application for voice control of a computer or a device controlled by a computer or a telecommunications or consumer electronics device.
9. Vorrichtung (100; 200) zur Durchführung des Verfahrens nach einem der vorangehenden Ansprüche, mit einem ersten Spracherkennungssystem (102; 202) zur Erfas- sung des Auftretens eines vorbestimmten ersten Schlüsselwortes oder einer Schlüsselwortsequenz in einem kontinuierlichen Sprachstrom, einem zweiten Spracherkennungssystem (106; 206) zur Erfassung des Auftretens eines vorbestimmten zweiten, auf das erste Schlüsselwort oder die erste Schlüsselwortsequenz folgenden zweiten Schlüsselworts oder einer zweiten Schlüsselwortsequenz in dem kontinuierlichen Sprachstrom und einer Spracherkennungs-AblaufSteuerung (103; 203) zur initialen Aktivierung des ersten Spracherkennungssystems und zur bedingten späteren Aktivierung des zweiten Spracherkennungssystems in Abhängigkeit von einem Erfassungsergebnis des ersten Spracherkennungssystems, wobei das erste und zweite Spracherkennungssystem einen ersten bzw. zweiten Vokabularspeicher (102b, 106b; 202b, 206b) mit unterschiedlichem Wortschatz aufweisen.9. Device (100; 200) for carrying out the method according to one of the preceding claims, with a first speech recognition system (102; 202) for detecting the occurrence of a predetermined first keyword or a keyword sequence in a continuous speech stream, a second speech recognition system (106 ; 206) for detecting the occurrence of a predetermined second keyword or a second keyword sequence following the first keyword or the first keyword sequence in the continuous voice stream and a voice recognition sequence control (103; 203) for the initial activation of the first voice recognition system and for the conditional later Activation of the second speech recognition system as a function of a detection result of the first speech recognition system, the first and second speech recognition systems having first and second vocabulary memories (102b, 106b; 202b, 206b) with different words have chat.
10. Vorrichtung nach Anspruch 9, gekennzeichnet durch einen Pufferspeicher, insbesondere Ringpuffer, (105; 205, 210) zur Pufferung des kontinuierlichen Sprachstroms zur Überbrückung einer Verarbeitungszeit des ersten Spracherkennungssystems (102; 202) zur Erfassung des ersten Schlüsselworts oder der ersten Schlüsselwortsequenz.10. The device according to claim 9, characterized by a buffer memory, in particular ring buffer (105; 205, 210) for buffering the continuous speech stream to bridge a processing time of the first speech recognition system (102; 202) for detecting the first keyword or the first keyword sequence.
11 . Vorrichtung nach Anspruch 9 oder 10 , d a d u r c h g e k e n n z e i c h n e t , daß mehr als zwei Spracherkennungssysteme (202, 206, 211) zur abgestuften bedingten Erfassung von mehr als zwei miteinander verknüpften Schlüsselworten oder Schlüsselwortsequenzen vorgesehen sind.11. Apparatus according to claim 9 or 10, characterized in that more than two speech recognition systems (202, 206, 211) are provided for the graded conditional detection of more than two interrelated keywords or keyword sequences.
12. Vorrichtung nach einem der Ansprüche 9 bis 11, gekennzeichnet durch je einen jedem Spracherkennungssystem zugeordneten Schlüsselwortspeicher (104, 107; 204, 207, 212) und einen mit den Schlüsselwortspeichern verbundenen Sequenzspeicher (108; 208) zur geordneten Speicherung einer aus den Speicherinhalten der Schlüsselwortspeicher zusammengesetzten Sequenz. 12. Device according to one of claims 9 to 11, characterized by a keyword memory (104, 107; 204, 207, 212) assigned to each speech recognition system and a sequence memory (108; 208) connected to the keyword memories for the orderly storage of one of the memory contents of the Keyword memory composite sequence.
PCT/DE2000/001056 1999-06-24 2000-04-05 Voice recognition method and device WO2001001389A2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP00929282A EP1190413A2 (en) 1999-06-24 2000-04-05 Voice recognition method and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19929000.8 1999-06-24
DE19929000 1999-06-24

Publications (2)

Publication Number Publication Date
WO2001001389A2 true WO2001001389A2 (en) 2001-01-04
WO2001001389A3 WO2001001389A3 (en) 2001-03-29

Family

ID=7912410

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2000/001056 WO2001001389A2 (en) 1999-06-24 2000-04-05 Voice recognition method and device

Country Status (4)

Country Link
EP (1) EP1190413A2 (en)
CN (1) CN1365487A (en)
HU (1) HUP0201923A2 (en)
WO (1) WO2001001389A2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
CN102374864A (en) * 2010-08-13 2012-03-14 国基电子(上海)有限公司 Voice navigation equipment and voice navigation method
DE102010040553A1 (en) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Speech recognition method
DE102010049869A1 (en) * 2010-10-28 2012-05-03 Volkswagen Ag Method for providing voice interface in vehicle, involves determining hit list from stored data depending on assigned category and comparison result
CN102708858A (en) * 2012-06-27 2012-10-03 厦门思德电子科技有限公司 Voice bank realization voice recognition system and method based on organizing way
DE102013001219A1 (en) * 2013-01-25 2014-07-31 Inodyn Newmedia Gmbh Method for voice activation of a software agent from a standby mode
CN105912092A (en) * 2016-04-06 2016-08-31 北京地平线机器人技术研发有限公司 Voice waking up method and voice recognition device in man-machine interaction
WO2022125294A1 (en) * 2020-12-10 2022-06-16 Google Llc Hotphrase triggering based on a sequence of detections
DE102021005206B3 (en) 2021-10-19 2022-11-03 Mercedes-Benz Group AG Method and device for determining a multi-part keyword

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004343232A (en) 2003-05-13 2004-12-02 Nec Corp Communication apparatus and communication method
DE102007033472A1 (en) * 2007-07-18 2009-01-29 Siemens Ag Method for speech recognition
CN102332265B (en) * 2011-06-20 2014-04-16 浙江吉利汽车研究院有限公司 Method for improving voice recognition rate of automobile voice control system
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US10229676B2 (en) 2012-10-05 2019-03-12 Avaya Inc. Phrase spotting systems and methods
WO2015030474A1 (en) 2013-08-26 2015-03-05 삼성전자 주식회사 Electronic device and method for voice recognition
CN105302082A (en) * 2014-06-08 2016-02-03 上海能感物联网有限公司 Controller apparatus for on-site automatic navigation and car driving by non-specific person foreign language speech
CN104538030A (en) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 Control system and method for controlling household appliances through voice
CN105261356A (en) * 2015-10-30 2016-01-20 桂林信通科技有限公司 Voice recognition system and method
CN107331391A (en) * 2017-06-06 2017-11-07 北京云知声信息技术有限公司 A kind of determination method and device of digital variety
CN107331396A (en) * 2017-07-05 2017-11-07 北京云知声信息技术有限公司 Export the method and device of numeral
CN109003604A (en) * 2018-06-20 2018-12-14 恒玄科技(上海)有限公司 A kind of audio recognition method that realizing low-power consumption standby and system
CN110211576B (en) * 2019-04-28 2021-07-30 北京蓦然认知科技有限公司 Voice recognition method, device and system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19635754A1 (en) * 1996-09-03 1998-03-05 Siemens Ag Speech processing system and method for speech processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19635754A1 (en) * 1996-09-03 1998-03-05 Siemens Ag Speech processing system and method for speech processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Support for ViaVoice Gold for Windows 95 and NT" IBM VIAVOICE : SUPPORT, [Online] Seiten 1-11, XP002145003 Gefunden im Internet: <URL:http:/www-4.ibm.com/software/speech/s upport/faqvvg.html#5.6> [gefunden am 2000-08-15] *
DATABASE INSPEC [Online] INSTITUTE OF ELECTRICAL ENGINEERS, STEVENAGE, GB; DE GLANVILLE H: "Speak naturally to your system and correct it when it sneezes" Database accession no. 5865722 XP002145006 & BJHC&IM-BRITISH JOURNAL OF HEALTHCARE COMPUTING & INFORMATION MANAGEMENT, MARCH 1998, BJHC, UK, Bd. 15, Nr. 2, Seite 48 ISSN: 0265-5217 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
CN102374864A (en) * 2010-08-13 2012-03-14 国基电子(上海)有限公司 Voice navigation equipment and voice navigation method
DE102010040553A1 (en) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Speech recognition method
DE102010049869A1 (en) * 2010-10-28 2012-05-03 Volkswagen Ag Method for providing voice interface in vehicle, involves determining hit list from stored data depending on assigned category and comparison result
DE102010049869B4 (en) 2010-10-28 2023-03-16 Volkswagen Ag Method for providing a voice interface in a vehicle and device therefor
CN102708858A (en) * 2012-06-27 2012-10-03 厦门思德电子科技有限公司 Voice bank realization voice recognition system and method based on organizing way
DE102013001219A1 (en) * 2013-01-25 2014-07-31 Inodyn Newmedia Gmbh Method for voice activation of a software agent from a standby mode
DE102013001219B4 (en) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Method and system for voice activation of a software agent from a standby mode
CN105912092A (en) * 2016-04-06 2016-08-31 北京地平线机器人技术研发有限公司 Voice waking up method and voice recognition device in man-machine interaction
WO2022125294A1 (en) * 2020-12-10 2022-06-16 Google Llc Hotphrase triggering based on a sequence of detections
US11694685B2 (en) 2020-12-10 2023-07-04 Google Llc Hotphrase triggering based on a sequence of detections
DE102021005206B3 (en) 2021-10-19 2022-11-03 Mercedes-Benz Group AG Method and device for determining a multi-part keyword

Also Published As

Publication number Publication date
WO2001001389A3 (en) 2001-03-29
CN1365487A (en) 2002-08-21
EP1190413A2 (en) 2002-03-27
HUP0201923A2 (en) 2002-09-28

Similar Documents

Publication Publication Date Title
WO2001001389A2 (en) Voice recognition method and device
DE2953262C2 (en)
DE69827202T2 (en) A method and apparatus for counting words for continuous speech recognition for use in reliable speech announcement interruption and early speech endpointing
DE2753277C2 (en) Method and device for speech recognition
DE10015960C2 (en) Speech recognition method and speech recognition device
DE69725091T2 (en) Method and system for editing sentences during continuous speech recognition
DE2326517A1 (en) METHOD AND CIRCUIT ARRANGEMENT FOR DETECTING SPOKEN WORDS
EP0319078A2 (en) Method and apparatus for the determination of the begin and end points of isolated words in a speech signal
EP1085499A2 (en) Spelled mode speech recognition
DE3238853A1 (en) VOICE-CONTROLLABLE ACTUATOR FOR MOTOR VEHICLES
DE19851287A1 (en) Data processing system or communication terminal with a device for recognizing spoken language and method for recognizing certain acoustic objects
EP1063633B1 (en) Method of training an automatic speech recognizer
DE3215868A1 (en) Method and arrangement for recognising the words in a continuous word chain
EP0834859B1 (en) Method for determining an acoustic model for a word
DE19646634A1 (en) Command entry method using speech
EP0760151B1 (en) Process for recognising voice signals and device for implementing it
DE19514849A1 (en) Remote control of device through communications network
DE3928049A1 (en) VOICE-CONTROLLED ARCHIVE SYSTEM
EP0677835A2 (en) Process to ascertain a series of words
DE3137314A1 (en) Circuit arrangement for voice-controlled hands-free apparatuses
EP1256935A2 (en) Training process and use of a speech recognition system, speech recognizer and training system
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE10131157C1 (en) Dynamic grammatical weighting method for speech recognition system has existing probability distribution for grammatical entries modified for each identified user
DE10253868B3 (en) Test and reference pattern synchronization method e.g. for speech recognition system, has test pattern potential synchronization points associated with reference synchronization points
DE19824450C2 (en) Method and device for processing speech signals

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00809342.3

Country of ref document: CN

AK Designated states

Kind code of ref document: A2

Designated state(s): CN HU US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
AK Designated states

Kind code of ref document: A3

Designated state(s): CN HU US

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 2000929282

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10018843

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000929282

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2000929282

Country of ref document: EP