WO2018188907A1 - Processing speech input - Google Patents

Processing speech input Download PDF

Info

Publication number
WO2018188907A1
WO2018188907A1 PCT/EP2018/056945 EP2018056945W WO2018188907A1 WO 2018188907 A1 WO2018188907 A1 WO 2018188907A1 EP 2018056945 W EP2018056945 W EP 2018056945W WO 2018188907 A1 WO2018188907 A1 WO 2018188907A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing system
speech
input
voice
processing
Prior art date
Application number
PCT/EP2018/056945
Other languages
German (de)
French (fr)
Inventor
Felix Schwarz
Christian Süss
Original Assignee
Bayerische Motoren Werke Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke Aktiengesellschaft filed Critical Bayerische Motoren Werke Aktiengesellschaft
Publication of WO2018188907A1 publication Critical patent/WO2018188907A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Definitions

  • the present invention relates to a method for processing a voice input and a mobile device, in particular a motor vehicle, for carrying out such a method.
  • Processing of voice inputs in the vehicle done, for example, by a central control unit of the vehicle.
  • a data connection to a vehicle external server can be used, which takes over the processing of voice input. Both options can also be used in combination.
  • voice-controlled information system for a vehicle.
  • at least one keyword is determined from a set of predefined keywords.
  • Individual units of the information system can also be arranged outside the vehicle.
  • a current individual equipment of the vehicle can be taken into account.
  • DE 10 2012 022 630 A1 teaches a method for communication of a driver with a driver assistance system.
  • a keyword identification is provided, which can also access external source.
  • internet servers whose databases are kept up to date can be requested.
  • the object is to improve the processing of a voice input of a user of a mobile device, in particular a motor vehicle.
  • the invention is suitable for use with a variety of mobile devices
  • the invention can be used in motor vehicles, especially passenger cars, motorcycles or
  • the mobile device may also be a portable mobile device and, in particular, a so-called smartphone.
  • a portable mobile device and, in particular, a so-called smartphone.
  • the inventive method for processing a voice input of a user of a mobile device comprises the following method steps.
  • a voice input is recorded.
  • a microphone of the mobile device can be used in a manner known per se and the thus processed acoustic signal further processed, in particular digitized, be.
  • a voice input may be a variety of utterances of the user. Speech inputs can include, for example, voice commands ("Navigate Home", “Increase the volume of the radio play", “Call Martin") or questions ("What is the weather at the destination?").
  • the speech input by a first step the speech input by a first step.
  • Voice processing system processed The processing of a voice input may be accomplished in a variety of ways known in the art. As a rule, the processing will take place step by step, whereby first the audio signal representing the speech input is processed (digitized, filtered). Subsequently, a syntactic analysis can be carried out, the result of which may be a text-based reproduction of the spoken words, the meaning of which, however, has not yet been ascertained. In a further step, a semantic analysis of the (now text-based) voice input can take place.
  • the term processing of voice input is to be understood broadly.
  • the speech input processing according to the invention may be a partial processing, for example
  • the score may include a separate score for each of the aforementioned processing steps.
  • the evaluation for several or all processing steps can be done together.
  • the evaluation includes an evaluation of the
  • the evaluation of the processing may relate to this text-based data.
  • the term evaluation should be understood to mean that the assessment includes a statement of the quality of the processing of the speech input.
  • the rating may relate to the quality of the speech input itself; For example, the score may include an indication of a detected signal-to-noise ratio (SNR) of the detected acoustic signal.
  • SNR signal-to-noise ratio
  • the evaluation may also relate to the processing; For example, the evaluation may include a statement that the speech input is not syntactically could be processed.
  • the evaluation may include an indication of this reason.
  • the evaluation comprises a measure of quality or statistical uncertainty, which in particular has a predetermined value range (eg 0 for minimum quality / maximum statistical uncertainty to 1 for maximum quality / minimum statistical uncertainty).
  • a data record is created according to the invention which comprises at least data representing the speech input.
  • the record may be speech input as digitized (and
  • the record may, for example, comprise the result of the syntactic analysis as text-based data.
  • the data record is transmitted to at least one further voice processing system in the last step.
  • the invention exploits the fact that one mobile device has access to several
  • the invention is based on the idea of first using the first voice processing system for processing the voice input and then - if necessary - the at least one further
  • Speech processing system This way can be an improved
  • Speech processing can be achieved at relatively low cost.
  • the first voice processing system is a machine language processing system located in the mobile device.
  • a voice processing system may also be referred to as a local voice processing system.
  • a local voice processing system first to the local Language processing system used, which is available immediately and in particular independent of the existence of a cellular connection.
  • a voice processing system wherein transmitting the record comprises transmitting the record over a cellular connection.
  • Voice processing system for example, be accessible via the Internet.
  • the data record is then transmitted via a mobile unit of the mobile device
  • Mobile communication (e.g., WLAN and / or GPRS, UMTS, LTE or the like) transmitted to an Internet server, which provides the other language processing system or forward the record to this.
  • the voice processing system located outside the mobile device may also be referred to as an external voice processing system.
  • the advantage of such an external language processing system is that the computational power compared to the local
  • Speech processing system for processing the speech input to access information that is not available to the local language processing system.
  • the external voice processing system therefore typically has better speech processing over the local voice processing system. Therefore, the invention can be particularly advantageous by a combination of the two
  • the speech input is processed by the fast and always available local speech processing system. If the evaluation shows that the voice input could not be satisfactorily processed, the record will be sent to the external
  • the other language processing system can be a machine
  • Voice processing system include.
  • the further language processing system comprises a human participant. This one can
  • Mobile connection include a voice connection, by means of which the user of the mobile device is connected to the call center employee. It can be provided that the mobile device decides, depending on the result of the evaluation, whether a further voice processing system is a pure
  • machine language processing system or a speech processing system with a human participant to be used. If, for example, it can be determined that the voice input is correctly interpreted by machine but can not be answered with the locally available information, then it makes sense to transmit the data record to a purely external machine language processing system. If, on the other hand, it is determined that the voice input can not be understood with sufficient probability for a machine voice processing system, then a voice processing system with a human user can be selected.
  • the mobile device transmits the data record to the further voice processing system and the
  • the processing of the speech input by the first speech processing system comprises a syntactic and / or semantic analysis of the speech input.
  • a syntactic analysis should be understood to mean a processing of the speech input present as (possibly already digitized) acoustic signal, the result of which is a correctly structured sequence of individual words.
  • the syntactic analysis can also detect the language of the
  • a correct syntactic analysis result could be the text-based record "navigate home", without knowing its meaning, for example, an incorrect result of the syntactic analysis could be: "drive with wind over windows”.
  • a semantic analysis is to be understood as a processing of the speech input (or the result of the preceding syntactic analysis) whose Result reflects the meaning of the speech input.
  • proper semantic analysis of the "navigate home" voice input could yield a machine readable navigation command that includes the destination "home location parameter” destination.
  • the step of evaluating the result of the processing of the speech input by the first speech processing system comprises determining a measure of the quality of the syntactic and / or semantic analysis of the speech input.
  • the range of values of the measure is limited on both sides and predetermined.
  • the metric could be between 0 (minimum quality, processing has no result at all or result is highly unusable) and 1 (maximum quality, result of the processing is most certainly correct).
  • the measure of goodness may be configured as a confidence value that reflects a probability that the result of the processing is correct. It can be provided, for example, that whenever the confidence value of the syntactic analysis falls below a predetermined value (for example 0.5, preferably 0.8, particularly preferably 0.95), the first speech processing system will include the further speech processing system.
  • the data record comprises an audio file representing the speech input and / or a text file representing the speech input. If, as in the last-mentioned example, the syntactic analysis is unsuccessful, the data record may preferably comprise an audio file representing the speech input. If, on the other hand, speech processing fails in the semantic analysis (ie if the speech input already exists in text form in other words, but can not be interpreted), the data record may preferably include a text file representing the speech input. It can also be provided that the record audio file and
  • Text file includes.
  • the record comprises at least
  • Speech processing system and / or Parts of the result of the evaluation of the result of the speech input processing by the first speech processing system.
  • the result of this processing is at least partially transmitted to the further speech processing system.
  • the evaluation of this result is at least partially transmitted.
  • the data transmitted in this way can be used by the further voice processing system in a variety of ways.
  • one's own speech processing can be improved and / or the result of one's own speech processing can be checked.
  • the further speech processing system will only perform missing parts of the speech processing, so that the result is a "division of labor" between the first and the further speech processing system
  • the set of possible destination inputs are transmitted as part of the data set.
  • a user input for confirming the transmission of the data record to the at least one further voice processing system is requested.
  • the data set is dependent on the user input to the at least one more
  • the request of the user input may, for example, acoustically and / or visually, in particular on a display of the
  • the user input can, for example, by
  • Actuation of an operating element and / or by means of voice input Actuation of an operating element and / or by means of voice input.
  • the invention is further formed by a mobile device, in particular a motor vehicle, which is set up to carry out the method described above.
  • FIG. 1 shows an embodiment of the invention in an exemplary arrangement
  • FIG. 2 shows a flow chart of an embodiment of the method according to the invention.
  • Fig. 1 shows a schematic representation of a motor vehicle 1 10, which has a designated head unit 1 1 1 control unit.
  • the head unit 1 1 1 comprises the first voice processing system 1 1 1. It is therefore a local
  • Speech processing system 1 1 Other components, in particular one or more interior microphones, of the first voice processing system 1 1 1, which may be arranged in or outside the head unit 1 1 1, are not shown in Fig. 1. Via a data bus 1 13, the head unit 1 1 1 with a mobile radio unit 1 12 of the motor vehicle 1 10 is connected. The mobile radio unit 1 12 is set up, a
  • the cellular connection 130 via a mobile network (e.g., WLAN, GSM / GPRS / EDGE, UMTS / HSPA, LTE or the like).
  • the cellular connection 130 may include a voice connection and / or a data connection.
  • the motor vehicle 1 10 can exchange data 140 with a server 121 which can be reached via the Internet 120.
  • the server 121 houses the other language processing system 121. It is thus an external language processing system 121.
  • a call center (not shown in FIG. 1) may also be provided, the employee of which as a human participant of the further speech processing system 121 can be connected to the user of the motor vehicle 110 by means of a voice connection 130.
  • step 210 a voice input is detected by the first voice processing system 1 1 1, for which purpose preferably an interior microphone of the motor vehicle 1 10 can be used.
  • the signal thus detected can first be digitized, i.
  • step 220 the speech input (now present as a digital signal) is processed.
  • a syntactic analysis can be carried out, in which the digitized audio signal is converted into a text-based date.
  • a semantic analysis can be performed in which the meaning of the speech input is converted, for example, into the form of a machine-readable control command.
  • step 230 the result of the speech input processing 220 is evaluated. For example, a statistical confidence value representing a statistical certainty of the result of the processing 220 may be determined.
  • the syntactic analysis 220 could indeed produce a result, the confidence value is low. In other words, there is a great deal of doubt as to the correctness of the result of the syntactic analysis 220. A semantic analysis could then fail or produce an erroneous result.
  • a data record 140 is created in step 240.
  • the record 140 contains the speech input in
  • the data record 140 may contain further components, for example the previously determined confidence value.
  • step 250 a user input confirming the transmission of the
  • the user receives a message saying "Your voice input could not be processed. Press the confirm button to your
  • the record 140 is transmitted to the other language processing system 121 in step 260.
  • the other language processing system 121 could initially process the speech input by purely mechanical means. This processing can therefore be more successful than that by the first voice processing system 1 1 1, because the other language processing system 121 to a larger database and / or a greater computing power can be used for speech recognition.
  • the further language processing system 121 for technical reasons (speech recognition fails) or content-related reasons (speech input content can not be answered or edited with the available information) can not handle the voice input. It may be provided for this case that the further speech recognition system 121 establishes a voice connection between the user of the motor vehicle 110 and a human participant of the further voice processing system 121. This can be done automatically or after prior confirmation of the user.
  • Another language processing system is Another language processing system.

Abstract

The invention relates to a method for the improved processing of speech input of a user of a mobile device, particularly of a motor vehicle, comprising the steps of: capturing a speech input; processing the speech input by a first speech processing system; evaluating (230) the result of the processing of the speech input by the first speech processing system; and, depending on the result of the evaluation, creating a data record containing at least data representing the speech input; and transmitting the data record to at least one other speech processing system. (Fig. 1)

Description

Beschreibung  description
Verarbeitung einer Spracheingabe Processing a voice input
Die vorliegende Erfindung betrifft ein Verfahren zur Verarbeitung einer Spracheingabe sowie ein Mobilgerät, insbesondere ein Kraftfahrzeug, zur Durchführung eines solchen Verfahrens. The present invention relates to a method for processing a voice input and a mobile device, in particular a motor vehicle, for carrying out such a method.
Sprachsteuerung stellt eine Möglichkeit dar, dem Fahrer eines modernen Voice control represents a possibility to the driver of a modern one
Kraftfahrzeugs die Bedienung der mannigfaltigen Funktionen zu erleichtern, die ein solches Fahrzeug aufweisen kann. Bei der Verarbeitung der Spracheingaben können grundsätzlich zwei Möglichkeiten unterschieden werden. Einerseits kann die Motor vehicle to facilitate the operation of the various functions that may have such a vehicle. In the processing of the voice inputs basically two possibilities can be distinguished. On the one hand, the
Verarbeitung der Spracheingaben im Fahrzeug erfolgen, beispielsweise durch ein Zentralsteuergerät des Fahrzeugs. Andererseits kann eine Datenverbindung zu einem fahrzeugexternen Server genutzt werden, welcher die Verarbeitung der Spracheingabe übernimmt. Beide Möglichkeiten können auch kombiniert angewendet werden. Processing of voice inputs in the vehicle done, for example, by a central control unit of the vehicle. On the other hand, a data connection to a vehicle external server can be used, which takes over the processing of voice input. Both options can also be used in combination.
DE 10 2012 213 668 A1 beschreibt ein Verfahren zum Betreiben eines DE 10 2012 213 668 A1 describes a method for operating a
sprachgesteuerten Informationssystems für ein Fahrzeug. Dabei wird abhängig von einer sprachlichen Eingabe eines Fahrzeugnutzers zumindest ein Schlüsselwort aus einer Menge an vorgegebenen Schlüsselwörtern ermittelt. Einzelne Einheiten des Informationssystems können auch außerhalb des Fahrzeugs angeordnet sein. Bei der Ermittlung von Antworten kann eine aktuelle individuelle Ausstattung des Fahrzeugs berücksichtigt werden. voice-controlled information system for a vehicle. In this case, depending on a linguistic input of a vehicle user, at least one keyword is determined from a set of predefined keywords. Individual units of the information system can also be arranged outside the vehicle. When determining answers, a current individual equipment of the vehicle can be taken into account.
DE 10 2012 022 630 A1 lehrt ein Verfahren zur Kommunikation eines Fahrers mit einem Fahrerassistenzsystem. Hierbei ist eine Schlagworterkennung vorgesehen, welche auch auf externe Quelle zugreifen kann. Beispielsweise können Internet-Server angefragt werden, deren Datenbanken auf dem neuesten Stand gehalten werden. DE 10 2012 022 630 A1 teaches a method for communication of a driver with a driver assistance system. In this case, a keyword identification is provided, which can also access external source. For example, internet servers whose databases are kept up to date can be requested.
Die Fähigkeiten maschineller Sprachverarbeitungssysteme zur Verarbeitung von Spracheingaben wachsen beständig. Dennoch treten nach wie vor Situationen auf, bei denen maschinelle Sprachverarbeitungssysteme an ihre technischen Grenzen stoßen. Es kann dann wünschenswert sein, den Nutzer mit einem menschlichen The capabilities of machine language processing systems for processing voice input are steadily growing. Nevertheless, situations still occur which machine language processing systems reach their technical limits. It may then be desirable to provide the user with a human
Gesprächspartner zu verbinden. Einen derartigen Dienst bietet die Anmelderin unter dem Namen„Concierge Service" an. To connect to the other party. The applicant offers such a service under the name "Concierge Service".
Ausgehend vom Stand der Technik stellt sich die Aufgabe, die Verarbeitung einer Spracheingabe eines Nutzers eines Mobilgeräts, insbesondere eines Kraftfahrzeugs, zu verbessern. Starting from the prior art, the object is to improve the processing of a voice input of a user of a mobile device, in particular a motor vehicle.
Die Aufgabe wird gelöst bei einem Verfahren und einem Mobilgerät mit den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen der Erfindung sind The object is achieved in a method and a mobile device with the features of the independent claims. Advantageous developments of the invention are
Gegenstände der abhängigen Ansprüche. Subject of the dependent claims.
Die Erfindung eignet sich zur Nutzung mit einer Vielzahl von Mobilgeräten, The invention is suitable for use with a variety of mobile devices,
insbesondere solchen, die sowohl mit eigenständiger Rechenleistung ausgestattet sind als auch eine Mobilfunkverbindung (Datenverbindung und / oder Sprachverbindung) herstellen können. Besonders nutzbringend kann die Erfindung bei Kraftfahrzeugen eingesetzt werden, insbesondere Personenkraftwagen, Motorrädern oder in particular those that are both equipped with independent computing power as well as a mobile connection (data connection and / or voice connection) can produce. Particularly beneficial, the invention can be used in motor vehicles, especially passenger cars, motorcycles or
Lastkraftwagen. Jedoch kann es sich bei dem Mobilgerät ebenso um ein tragbares Mobilgerät und insbesondere um ein sogenanntes Smartphone handeln. Insoweit die nachfolgende Beschreibung der Erfindung und ihrer Ausführungsformen mit Bezug zu Kraftfahrzeugen erfolgt, ist dies nicht beschränkend, sondern erläuternd-beispielhaft zu verstehen. Trucks. However, the mobile device may also be a portable mobile device and, in particular, a so-called smartphone. Insofar as the following description of the invention and its embodiments is made with reference to motor vehicles, this is not limiting, but explanatory-exemplary to understand.
Das erfindungsgemäße Verfahren zur Verarbeitung einer Spracheingabe eines Nutzers eines Mobilgeräts weist folgende Verfahrensschritte auf. In einem ersten Schritt wird eine Spracheingabe erfasst. Hierzu kann in an sich bekannter Weise ein Mikrofon des Mobilgeräts genutzt werden und das damit erfasste akustische Signal weiterverarbeitet, insbesondere digitalisiert, werden. Bei einer Spracheingabe kann es sich um eine Vielzahl von Äußerungen des Nutzers handeln. Spracheingaben können beispielsweise Sprachbefehle („Navigiere nach Hause",„Erhöhe die Lautstärke der Radiowiedergabe", „Rufe bei Martin an") oder Fragen („Wie ist das Wetter am Zielort?") umfassen. In einem weiteren Schritt wird die Spracheingabe durch ein erstes The inventive method for processing a voice input of a user of a mobile device comprises the following method steps. In a first step, a voice input is recorded. For this purpose, a microphone of the mobile device can be used in a manner known per se and the thus processed acoustic signal further processed, in particular digitized, be. A voice input may be a variety of utterances of the user. Speech inputs can include, for example, voice commands ("Navigate Home", "Increase the volume of the radio play", "Call Martin") or questions ("What is the weather at the destination?"). In a further step, the speech input by a first
Sprachverarbeitungssystem verarbeitet. Die Verarbeitung einer Spracheingabe kann auf vielfältige an sich im Stand der Technik bekannte Weise erfolgen. In der Regel wird die Verarbeitung schrittweise erfolgen, wobei zunächst das die Spracheingabe repräsentierende Audiosignal verarbeitet (digitalisiert, gefiltert) wird. Anschließend kann eine syntaktische Analyse erfolgen, deren Ergebnis eine textbasierte Wiedergabe der gesprochenen Worte sein kann, deren Sinngehalt jedoch noch nicht festgestellt wurde. In einem weiteren Schritt kann eine semantische Analyse der (nunmehr textbasierten) Spracheingabe erfolgen. Für die vorliegende Erfindung ist der Begriff der Verarbeitung der Spracheingabe breit zu verstehen. Insbesondere kann die erfindungsgemäße Verarbeitung der Spracheingabe eine teilweise Verarbeitung sein, die beispielsweiseVoice processing system processed. The processing of a voice input may be accomplished in a variety of ways known in the art. As a rule, the processing will take place step by step, whereby first the audio signal representing the speech input is processed (digitized, filtered). Subsequently, a syntactic analysis can be carried out, the result of which may be a text-based reproduction of the spoken words, the meaning of which, however, has not yet been ascertained. In a further step, a semantic analysis of the (now text-based) voice input can take place. For the purposes of the present invention, the term processing of voice input is to be understood broadly. In particular, the speech input processing according to the invention may be a partial processing, for example
- nur eine Signalverarbeitung des akustischen Signals oder - Only a signal processing of the acoustic signal or
- eine Signalverarbeitung des akustischen Signals und eine syntaktische Analyse oder  a signal processing of the acoustic signal and a syntactic analysis or
- eine Signalverarbeitung des akustischen Signals und eine syntaktische und  a signal processing of the acoustic signal and a syntactic and
semantische Analyse  semantic analysis
sein kann. can be.
Im nächsten Schritt wird das Ergebnis der Verarbeitung der Spracheingabe durch das erste Sprachverarbeitungssystem bewertet. Die Bewertung kann eine getrennte Bewertung für jeden der vorstehend erwähnten Verarbeitungsschritte umfassen. In the next step, the result of the speech input processing by the first speech processing system is evaluated. The score may include a separate score for each of the aforementioned processing steps.
Ebenso kann die Bewertung für mehrere oder alle Verarbeitungsschritte zusammen erfolgen. Mit besonderem Vorteil umfasst die Bewertung eine Bewertung des Likewise, the evaluation for several or all processing steps can be done together. With particular advantage, the evaluation includes an evaluation of the
Endergebnisses der Verarbeitung der Spracheingabe. Werden also beispielsweise bei der Verarbeitung der Spracheingabe eine Signalverarbeitung sowie eine anschließende syntaktische Analyse vorgenommen, sodass das Ergebnis der Verarbeitung aus textbasierten Daten besteht, so kann die Bewertung der Verarbeitung sich auf diese textbasierten Daten beziehen. Der Begriff der Bewertung ist so zu verstehen, dass die Bewertung eine Aussage über die Qualität der Verarbeitung der Spracheingabe umfasst. Die Bewertung kann sich auf die Qualität der Spracheingabe selbst beziehen; beispielsweise kann die Bewertung eine Angabe eines festgestellten Signal-zu- Rauschleistungs-Verhältnisses (SNR) des erfassten akustischen Signals umfassen. Die Bewertung kann sich ferner auf die Verarbeitung beziehen; beispielsweise kann die Bewertung eine Aussage umfassen, dass die Spracheingabe syntaktisch nicht verarbeitet werden konnte. Wird hierfür bei der Verarbeitung ein Grund festgestellt (z.B. Nutzer spricht eine dem ersten Sprachverarbeitungssystem nicht bekannte Sprache), so kann die Bewertung eine Angabe dieses Grundes umfassen. Mit Vorteil umfasst die Bewertung eine Maßzahl der Qualität oder der statistischen Unsicherheit, welche insbesondere einen vorbestimmten Wertebereich hat (z.B. 0 für minimale Qualität / maximale statistische Unsicherheit bis 1 für maximale Qualität / minimale statistische Unsicherheit). Final result of the processing of the speech input. If, for example, signal processing and subsequent syntactic analysis are carried out during the processing of the speech input, so that the result of the processing consists of text-based data, the evaluation of the processing may relate to this text-based data. The term evaluation should be understood to mean that the assessment includes a statement of the quality of the processing of the speech input. The rating may relate to the quality of the speech input itself; For example, the score may include an indication of a detected signal-to-noise ratio (SNR) of the detected acoustic signal. The evaluation may also relate to the processing; For example, the evaluation may include a statement that the speech input is not syntactically could be processed. If a reason is found during processing (eg user speaks a language not known to the first language processing system), the evaluation may include an indication of this reason. Advantageously, the evaluation comprises a measure of quality or statistical uncertainty, which in particular has a predetermined value range (eg 0 for minimum quality / maximum statistical uncertainty to 1 for maximum quality / minimum statistical uncertainty).
In Abhängigkeit des Ergebnisses der Bewertung wird erfindungsgemäß ein Datensatz erstellt, welcher zumindest die Spracheingabe repräsentierende Daten umfasst. Depending on the result of the evaluation, a data record is created according to the invention which comprises at least data representing the speech input.
Beispielsweise kann der Datensatz die Spracheingabe als digitalisiertes (und For example, the record may be speech input as digitized (and
vorzugsweise komprimiertes) akustisches Datensignal umfassen. Alternativ oder zusätzlich kann der Datensatz beispielsweise das Ergebnis der syntaktischen Analyse als textbasierte Daten umfassen. preferably compressed) acoustic data signal. Alternatively or additionally, the record may, for example, comprise the result of the syntactic analysis as text-based data.
Weiter in Abhängigkeit des Ergebnisses der Bewertung wird im letzten Schritt der Datensatz an mindestens ein weiteres Sprachverarbeitungssystem übermittelt. Furthermore, depending on the result of the evaluation, the data record is transmitted to at least one further voice processing system in the last step.
Die Erfindung nutzt den Umstand aus, dass ein Mobilgerät Zugriff auf mehrere The invention exploits the fact that one mobile device has access to several
Sprachverarbeitungssysteme haben kann. Es liegt auf der Hand, dass die Verwendung einer Mehrzahl von Sprachverarbeitungssystemen eine Verbesserung bei der Can have voice processing systems. It is obvious that the use of a plurality of speech processing systems provides an improvement in the
Verarbeitung der Spracheingabe mit sich bringen kann. Jedoch wäre es aufwendig, stets alle verfügbaren Sprachverarbeitungssysteme parallel zur Verarbeitung der Spracheingabe zu nutzen. Der Erfindung liegt hingegen die Idee zugrunde, zunächst das erste Sprachverarbeitungssystem zur Verarbeitung der Spracheingabe zu nutzen und anschließend - falls nötig - das mindestens eine weitere Processing of the speech input. However, it would be costly to always use all available language processing systems in parallel with the processing of voice input. On the other hand, the invention is based on the idea of first using the first voice processing system for processing the voice input and then - if necessary - the at least one further
Sprachverarbeitungssystem. Auf diese Weise kann eine verbesserte Speech processing system. This way can be an improved
Sprachverarbeitung bei vergleichsweise geringem Aufwand erreicht werden. Speech processing can be achieved at relatively low cost.
Bei einer bevorzugten Ausgestaltung ist das erste Sprachverarbeitungssystem ein in dem Mobilgerät angeordnetes maschinelles Sprachverarbeitungssystem. Ein solches Sprachverarbeitungssystem kann auch als lokales Sprachverarbeitungssystem bezeichnet werden. Mit anderen Worten wird also zunächst auf das lokale Sprachverarbeitungssystem zurückgegriffen, welches unmittelbar und insbesondere unabhängig vom Bestehen einer Mobilfunkverbindung verfügbar ist. In a preferred embodiment, the first voice processing system is a machine language processing system located in the mobile device. Such a voice processing system may also be referred to as a local voice processing system. In other words, therefore, first to the local Language processing system used, which is available immediately and in particular independent of the existence of a cellular connection.
Weitere vorteilhafte Ausführungsformen sehen vor, dass das weitere Further advantageous embodiments provide that the further
Sprachverarbeitungssystem ein außerhalb des Mobilgeräts angeordnetes Voice processing system arranged outside the mobile device
Sprachverarbeitungssystem ist, wobei das Übermitteln des Datensatzes ein Übertragen des Datensatzes über eine Mobilfunkverbindung umfasst. Das weitere A voice processing system, wherein transmitting the record comprises transmitting the record over a cellular connection. The further
Sprachverarbeitungssystem kann beispielsweise über das Internet erreichbar sein. Der Datensatz wird dann mittels einer Mobilfunkeinheit des Mobilgeräts über eine Voice processing system, for example, be accessible via the Internet. The data record is then transmitted via a mobile unit of the mobile device
Mobilfunkverbindung (z.B. WLAN und / oder GPRS, UMTS, LTE oder dgl.) zu einem Internet-Server übertragen, der das weitere Sprachverarbeitungssystem bereitstellt oder den Datensatz an dieses weiterleitet. Das außerhalb des Mobilgeräts angeordnete Sprachverarbeitungssystem kann auch als externes Sprachverarbeitungssystem bezeichnet werden. Der Vorteil eines solchen externen Sprachverarbeitungssystems besteht darin, dass die Rechenleistung im Vergleich mit dem lokalen Mobile communication (e.g., WLAN and / or GPRS, UMTS, LTE or the like) transmitted to an Internet server, which provides the other language processing system or forward the record to this. The voice processing system located outside the mobile device may also be referred to as an external voice processing system. The advantage of such an external language processing system is that the computational power compared to the local
Sprachverarbeitungssystem in der Regel größer ist. Zudem kann das externe Voice processing system is usually larger. In addition, the external
Sprachverarbeitungssystem zur Verarbeitung der Spracheingabe auf Informationen zurückgreifen, die dem lokalen Sprachverarbeitungssystem nicht zur Verfügung stehen. Speech processing system for processing the speech input to access information that is not available to the local language processing system.
Das externe Sprachverarbeitungssystem weist daher in der Regel gegenüber dem lokalen Sprachverarbeitungssystem die bessere Sprachverarbeitung auf. Besonders vorteilhaft lässt sich die Erfindung daher durch eine Kombination der beiden The external voice processing system therefore typically has better speech processing over the local voice processing system. Therefore, the invention can be particularly advantageous by a combination of the two
vorgenannten Ausführungsformen ausgestalten. Zunächst wird die Spracheingabe durch das schnell und stets verfügbare lokale Sprachverarbeitungssystem verarbeitet. Sollte die Bewertung ergeben, dass die Spracheingabe nicht zufriedenstellend verarbeitet werden konnte, wird der Datensatz an das externe configure the aforementioned embodiments. First, the speech input is processed by the fast and always available local speech processing system. If the evaluation shows that the voice input could not be satisfactorily processed, the record will be sent to the external
Sprachverarbeitungssystem übermittelt. Voice processing system transmitted.
Das weitere Sprachverarbeitungssystem kann ein maschinelles The other language processing system can be a machine
Sprachverarbeitungssystem umfassen. Alternativ oder zusätzlich umfasst das weitere Sprachverarbeitungssystem einen menschlichen Teilnehmer. Dieser kann Voice processing system include. Alternatively or additionally, the further language processing system comprises a human participant. This one can
beispielsweise ein Mitarbeiter eines Callcenters sein. Im letzteren Fall kann die For example, be an employee of a call center. In the latter case, the
Mobilfunkverbindung eine Sprachverbindung umfassen, mittels der der Nutzer des Mobilgeräts mit dem Callcenter-Mitarbeiter verbunden wird. Es kann vorgesehen sein, dass das Mobilgerät in Abhängigkeit des Ergebnisses der Bewertung entscheidet, ob als weiteres Sprachverarbeitungssystem ein rein Mobile connection include a voice connection, by means of which the user of the mobile device is connected to the call center employee. It can be provided that the mobile device decides, depending on the result of the evaluation, whether a further voice processing system is a pure
maschinelles Sprachverarbeitungssystem oder ein Sprachverarbeitungssystem mit einem menschlichen Teilnehmer genutzt werden soll. Kann beispielsweise festgestellt werden, dass die Spracheingabe zwar maschinell korrekt interpretiert, aber mit den lokal verfügbaren Informationen nicht beantwortet werden kann, so bietet es sich an, den Datensatz an ein rein maschinelles externes Sprachverarbeitungssystem zu übermitteln. Wird hingegen festgestellt, dass die Spracheingabe mit hinreichender Wahrscheinlichkeit für ein maschinelles Sprachverarbeitungssystem nicht zu verstehen ist, so kann ein Sprachverarbeitungssystem mit einem menschlichen Teilnehmer gewählt werden. machine language processing system or a speech processing system with a human participant to be used. If, for example, it can be determined that the voice input is correctly interpreted by machine but can not be answered with the locally available information, then it makes sense to transmit the data record to a purely external machine language processing system. If, on the other hand, it is determined that the voice input can not be understood with sufficient probability for a machine voice processing system, then a voice processing system with a human user can be selected.
Die Entscheidung, ob als weiteres Sprachverarbeitungssystem ein rein maschinelles Sprachverarbeitungssystem oder ein Sprachverarbeitungssystem mit einem The decision as to whether a further speech processing system is a purely machine language processing system or a speech processing system having a
menschlichen Teilnehmer genutzt werden soll, muss aber nicht zwingend von dem Mobilgerät getroffen werden. Es kann ebenso vorgesehen sein, dass das Mobilgerät den Datensatz an das weitere Sprachverarbeitungssystem übermittelt und die human participant is to be used, but does not necessarily have to be met by the mobile device. It may also be provided that the mobile device transmits the data record to the further voice processing system and the
Entscheidung darüber, ob ein menschlicher Teilnehmer eingebunden werden soll oder muss, von dem weiteren Sprachverarbeitungssystem getroffen wird. Deciding whether to include a human participant or not, by the other language processing system.
In weiterer Ausgestaltung umfasst das Verarbeiten der Spracheingabe durch das erste Sprachverarbeitungssystem eine syntaktische und / oder semantische Analyse der Spracheingabe. Dabei soll unter einer syntaktischen Analyse eine Verarbeitung der als (ggf. bereits digitalisiertes) akustisches Signal vorliegenden Spracheingabe verstanden werden, deren Ergebnis eine korrekt strukturierte Folge einzelner Wörter ist. Die syntaktische Analyse kann hierfür auch eine Erkennung der Sprache der In a further refinement, the processing of the speech input by the first speech processing system comprises a syntactic and / or semantic analysis of the speech input. A syntactic analysis should be understood to mean a processing of the speech input present as (possibly already digitized) acoustic signal, the result of which is a correctly structured sequence of individual words. The syntactic analysis can also detect the language of the
Spracheingabe umfassen. Ein korrektes Ergebnis der syntaktischen Analyse kann beispielsweise der textbasierte Datensatz„Navigiere nach Hause" sein, ohne dass der Sinngehalt davon bekannt wäre. Ein nicht korrektes Ergebnis der syntaktischen Analyse könnte beispielsweise lauten:„Fahre mit Wind über Fenster". Include voice input. For example, a correct syntactic analysis result could be the text-based record "navigate home", without knowing its meaning, for example, an incorrect result of the syntactic analysis could be: "drive with wind over windows".
Unter einer semantischen Analyse soll eine Verarbeitung der Spracheingabe (bzw. des Ergebnisses der vorangehenden syntaktischen Analyse) verstanden werden, deren Ergebnis den Sinngehalt der Spracheingabe wiedergibt. Beispielsweise könnte eine ordnungsgemäße semantische Analyse der Spracheingabe„Navigiere nach Hause" einen maschinenlesbaren Navigationsbefehl ergeben, welcher das Ziel„Parameter Heimatadresse" umfasst. A semantic analysis is to be understood as a processing of the speech input (or the result of the preceding syntactic analysis) whose Result reflects the meaning of the speech input. For example, proper semantic analysis of the "navigate home" voice input could yield a machine readable navigation command that includes the destination "home location parameter" destination.
Besonders vorteilhaft ist es bei der syntaktischen und / oder semantischen Analyse, wenn der Schritt des Bewertens des Ergebnisses der Verarbeitung der Spracheingabe durch das erste Sprachverarbeitungssystem ein Bestimmen einer Maßzahl der Güte der syntaktischen und / oder semantischen Analyse der Spracheingabe umfasst. Bevorzugt ist der Wertebereich der Maßzahl beidseitig begrenzt und vorbestimmt. Beispielsweise könnte die Maßzahl zwischen 0 (minimale Güte, Verarbeitung hat gar kein Ergebnis ergeben oder Ergebnis ist höchst unbrauchbar) und 1 (maximale Güte, Ergebnis der Verarbeitung ist mit größter Sicherheit korrekt) liegen. Die Maßzahl der Güte kann als Konfidenz-Wert ausgestaltet sein, welcher eine Wahrscheinlichkeit dafür wiedergibt, dass das Ergebnis der Verarbeitung korrekt ist. Es kann beispielsweise vorgesehen sein, dass das erste Sprachverarbeitungssystem immer dann, wenn der Konfidenzwert der syntaktischen Analyse einen vorbestimmten Wert (z.B. 0,5, bevorzugt 0,8, besonders bevorzugt 0,95) unterschreitet, das weitere Sprachverarbeitungssystem einbezogen wird. It is particularly advantageous in syntactic and / or semantic analysis if the step of evaluating the result of the processing of the speech input by the first speech processing system comprises determining a measure of the quality of the syntactic and / or semantic analysis of the speech input. Preferably, the range of values of the measure is limited on both sides and predetermined. For example, the metric could be between 0 (minimum quality, processing has no result at all or result is highly unusable) and 1 (maximum quality, result of the processing is most certainly correct). The measure of goodness may be configured as a confidence value that reflects a probability that the result of the processing is correct. It can be provided, for example, that whenever the confidence value of the syntactic analysis falls below a predetermined value (for example 0.5, preferably 0.8, particularly preferably 0.95), the first speech processing system will include the further speech processing system.
Mit Vorteil umfasst der Datensatz eine die Spracheingabe repräsentierende Audiodatei und / oder eine die Spracheingabe repräsentierende Textdatei. Ist wie im zuletzt geschilderten Beispiel die syntaktische Analyse nicht erfolgreich, so kann der Datensatz bevorzugt eine die Spracheingabe repräsentierende Audiodatei umfassen. Scheitert hingegen die Sprachverarbeitung bei der semantischen Analyse (liegt also mit anderen Worten die Spracheingabe bereits in Textform vor, kann aber nicht interpretiert werden), so kann der Datensatz bevorzugt eine die Spracheingabe repräsentierende Textdatei umfassen. Es kann auch vorgesehen sein, dass der Datensatz Audiodatei und Advantageously, the data record comprises an audio file representing the speech input and / or a text file representing the speech input. If, as in the last-mentioned example, the syntactic analysis is unsuccessful, the data record may preferably comprise an audio file representing the speech input. If, on the other hand, speech processing fails in the semantic analysis (ie if the speech input already exists in text form in other words, but can not be interpreted), the data record may preferably include a text file representing the speech input. It can also be provided that the record audio file and
Textdatei umfasst. Text file includes.
Weiter bevorzugt umfasst der Datensatz zumindest More preferably, the record comprises at least
- Teile des Ergebnisses der Verarbeitung der Spracheingabe durch das erste  Parts of the result of the processing of the speech input by the first
Sprachverarbeitungssystem und / oder - Teile des Ergebnisses der Bewertung des Ergebnisses der Verarbeitung der Spracheingabe durch das erste Sprachverarbeitungssystem. Speech processing system and / or Parts of the result of the evaluation of the result of the speech input processing by the first speech processing system.
Mit anderen Worten kann vorgesehen sein, dass auch im Falle einer nicht ausreichend guten Sprachverarbeitung durch das erste Sprachverarbeitungssystem das Ergebnis dieser Verarbeitung zumindest teilweise an das weitere Sprachverarbeitungssystem übermittelt wird. Ebenso kann für diesen Fall vorgesehen sein, dass die Bewertung dieses Ergebnisses zumindest teilweise übermittelt wird. Die derart übermittelten Daten kann das weitere Sprachverarbeitungssystem auf vielfältige Weise nutzen. So kann damit etwa die eigene Sprachverarbeitung verbessert und / oder das Ergebnis der eigenen Sprachverarbeitung überprüft werden. Ferner ist denkbar, dass das weitere Sprachverarbeitungssystem nur noch fehlende Teile der Sprachverarbeitung vornimmt, sodass im Ergebnis eine„Arbeitsteilung" zwischen dem ersten und dem weiteren Sprachverarbeitungssystem entsteht. Hierdurch kann die Verarbeitungszeit des weiteren Sprachverarbeitungssystems verkürzt werden. So könnte in dem In other words, it can be provided that even in the case of insufficiently good speech processing by the first speech processing system, the result of this processing is at least partially transmitted to the further speech processing system. Likewise, it may be provided for this case that the evaluation of this result is at least partially transmitted. The data transmitted in this way can be used by the further voice processing system in a variety of ways. Thus, for example, one's own speech processing can be improved and / or the result of one's own speech processing can be checked. Furthermore, it is conceivable that the further speech processing system will only perform missing parts of the speech processing, so that the result is a "division of labor" between the first and the further speech processing system
beispielhaften Fall, dass das erste Sprachverarbeitungssystem nicht zwischen mehreren möglichen Zieleingaben unterscheiden kann, die Menge der möglichen Zieleingaben als Teil des Datensatzes übertragen werden. In an exemplary case that the first voice processing system can not distinguish between multiple possible destination inputs, the set of possible destination inputs are transmitted as part of the data set.
Bei einer besonders vorteilhaften Weiterbildung der Erfindung ist vorgesehen, dass eine Nutzereingabe zur Bestätigung der Übermittlung des Datensatzes an das mindestens eine weitere Sprachverarbeitungssystem angefordert wird. Der Datensatz wird in Abhängigkeit der Nutzereingabe an das mindestens eine weitere In a particularly advantageous embodiment of the invention, it is provided that a user input for confirming the transmission of the data record to the at least one further voice processing system is requested. The data set is dependent on the user input to the at least one more
Sprachverarbeitungssystem übermittelt. Mit anderen Worten erfolgt also die Voice processing system transmitted. In other words, so the
Übermittlung des Datensatzes an das weitere Sprachverarbeitungssystem nur nach ausdrücklicher Bestätigung durch den Nutzer. Die Anforderung der Nutzereingabe kann beispielsweise akustisch und / oder visuell, insbesondere auf einem Display des Transmission of the data set to the other language processing system only after explicit confirmation by the user. The request of the user input may, for example, acoustically and / or visually, in particular on a display of the
Mobilgeräts, dargestellt werden. Die Nutzereingabe kann beispielsweise durch Mobile device. The user input can, for example, by
Betätigung eines Bedienelements und / oder mittels Spracheingabe erfolgen. Actuation of an operating element and / or by means of voice input.
Die Erfindung wird ferner gebildet durch ein Mobilgerät, insbesondere ein Kraftfahrzeug, welches zur Durchführung des vorstehend beschriebenen Verfahrens eingerichtet ist. The invention is further formed by a mobile device, in particular a motor vehicle, which is set up to carry out the method described above.
Weitere Ausführungsformen der Erfindung werden nachfolgend anhand beispielhafter Darstellungen erläutert. Es zeigen Fig. 1 eine Ausführungsform der Erfindung in einer beispielhaften Anordnung und Further embodiments of the invention are explained below with reference to exemplary representations. Show it Fig. 1 shows an embodiment of the invention in an exemplary arrangement and
Fig. 2 ein Ablaufdiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens. 2 shows a flow chart of an embodiment of the method according to the invention.
Fig. 1 zeigt in schematischer Darstellung ein Kraftfahrzeug 1 10, welches über ein als Headunit 1 1 1 bezeichnetes Steuergerät verfügt. Die Headunit 1 1 1 umfasst das erste Sprachverarbeitungssystem 1 1 1 . Es handelt sich somit um ein lokales Fig. 1 shows a schematic representation of a motor vehicle 1 10, which has a designated head unit 1 1 1 control unit. The head unit 1 1 1 comprises the first voice processing system 1 1 1. It is therefore a local
Sprachverarbeitungssystem 1 1 1 . Weitere Komponenten, insbesondere eines oder mehrere Innenraummikrofone, des ersten Sprachverarbeitungssystems 1 1 1 , die in oder außerhalb der Headunit 1 1 1 angeordnet sein können, sind in Fig. 1 nicht dargestellt. Über einen Datenbus 1 13 ist die Headunit 1 1 1 mit einer Mobilfunkeinheit 1 12 des Kraftfahrzeugs 1 10 verbunden. Die Mobilfunkeinheit 1 12 ist eingerichtet, eine Speech processing system 1 1 1. Other components, in particular one or more interior microphones, of the first voice processing system 1 1 1, which may be arranged in or outside the head unit 1 1 1, are not shown in Fig. 1. Via a data bus 1 13, the head unit 1 1 1 with a mobile radio unit 1 12 of the motor vehicle 1 10 is connected. The mobile radio unit 1 12 is set up, a
Mobilfunkverbindung 130 über ein Mobilfunknetz (z.B. WLAN, GSM/GPRS/EDGE, UMTS/HSPA, LTE oder dgl.) herzustellen. Die Mobilfunkverbindung 130 kann eine Sprachverbindung und / oder eine Datenverbindung umfassen. Cellular connection 130 via a mobile network (e.g., WLAN, GSM / GPRS / EDGE, UMTS / HSPA, LTE or the like). The cellular connection 130 may include a voice connection and / or a data connection.
Über die Mobilfunkverbindung 130 kann das Kraftfahrzeug 1 10 Daten 140 mit einem über das Internet 120 erreichbaren Server 121 austauschen. Der Server 121 beherbergt das weitere Sprachverarbeitungssystem 121 . Es handelt sich somit um ein externes Sprachverarbeitungssystem 121 . Es kann ferner ein (in Fig. 1 nicht dargestelltes) Callcenter vorgesehen sein, dessen Mitarbeiter als menschlicher Teilnehmer des weiteren Sprachverarbeitungssystems 121 mit dem Nutzer des Kraftfahrzeugs 1 10 mittels einer Sprachverbindung 130 verbunden werden kann. Via the mobile radio connection 130, the motor vehicle 1 10 can exchange data 140 with a server 121 which can be reached via the Internet 120. The server 121 houses the other language processing system 121. It is thus an external language processing system 121. A call center (not shown in FIG. 1) may also be provided, the employee of which as a human participant of the further speech processing system 121 can be connected to the user of the motor vehicle 110 by means of a voice connection 130.
Fig. 2 zeigt einen beispielhaften Verfahrensablauf gemäß einer Ausführungsform der Erfindung. In Schritt 210 wird durch das erste Sprachverarbeitungssystem 1 1 1 eine Spracheingabe erfasst, wozu bevorzugt ein Innenraummikrofon des Kraftfahrzeugs 1 10 genutzt werden kann. Das so erfasste Signal kann zunächst digitalisiert, d.h. 2 shows an exemplary method sequence according to an embodiment of the invention. In step 210, a voice input is detected by the first voice processing system 1 1 1, for which purpose preferably an interior microphone of the motor vehicle 1 10 can be used. The signal thus detected can first be digitized, i.
abgetastet, quantisiert und ggf. gefiltert werden. sampled, quantized and if necessary filtered.
In Schritt 220 wird die (nunmehr als digitales Signal vorliegende) Spracheingabe verarbeitet. Hierzu kann unter anderem eine syntaktische Analyse durchgeführt werden, bei der das digitalisierte Audiosignal in ein textbasiertes Datum umgewandelt wird. Ferner kann eine semantische Analyse durchgeführt werden, bei der der Sinngehalt der Spracheingabe beispielsweise in die Form eines maschinenlesbaren Steuerungsbefehls umgewandelt wird. In step 220, the speech input (now present as a digital signal) is processed. For this purpose, inter alia, a syntactic analysis can be carried out, in which the digitized audio signal is converted into a text-based date. Furthermore, a semantic analysis can be performed in which the meaning of the speech input is converted, for example, into the form of a machine-readable control command.
In Schritt 230 wird das Ergebnis der Verarbeitung 220 der Spracheingabe bewertet. Beispielsweise kann ein statistischer Konfidenzwert bestimmt werden, der eine statistische Sicherheit des Ergebnisses der Verarbeitung 220 wiedergibt. Ist In step 230, the result of the speech input processing 220 is evaluated. For example, a statistical confidence value representing a statistical certainty of the result of the processing 220 may be determined. is
beispielsweise die Tonqualität der Spracheingabe sehr schlecht, etwa aufgrund hoher Umgebungsgeräusche, einer geringen Sprechlautstärke oder auch einer undeutlichen Sprechweise des Nutzers, so könnte die syntaktische Analyse 220 zwar ein Ergebnis hervorbringen, dessen Konfidenzwert aber gering ist. Mit anderen Worten bestehen dann große Zweifel an der Richtigkeit des Ergebnisses der syntaktischen Analyse 220. Eine semantische Analyse könnte dann fehlschlagen oder ein fehlerhaftes Ergebnis hervorbringen. For example, the sound quality of speech input very bad, for example, due to high ambient noise, a low speech volume or a vague speech of the user, the syntactic analysis 220 could indeed produce a result, the confidence value is low. In other words, there is a great deal of doubt as to the correctness of the result of the syntactic analysis 220. A semantic analysis could then fail or produce an erroneous result.
In Abhängigkeit des Ergebnisses der vorangegangenen Bewertung wird in Schritt 240 ein Datensatz 140 erstellt. Der Datensatz 140 enthält die Spracheingabe in Depending on the result of the previous evaluation, a data record 140 is created in step 240. The record 140 contains the speech input in
digitalisierter Form, also eine digitale Audio-Datei. Der Datensatz 140 kann weitere Bestandteile enthalten, beispielsweise den zuvor ermittelten Konfidenzwert. digitized form, ie a digital audio file. The data record 140 may contain further components, for example the previously determined confidence value.
In Schritt 250 wird eine Nutzereingabe zur Bestätigung der Übermittlung des In step 250, a user input confirming the transmission of the
Datensatzes 140 an das weitere Sprachverarbeitungssystem 121 angefordert. Record 140 requested to the other language processing system 121.
Beispielsweise erhält der Nutzer eine Meldung mit dem Inhalt„Ihre Spracheingabe konnte nicht verarbeitet werden. Drücken Sie die Bestätigungstaste, um Ihre For example, the user receives a message saying "Your voice input could not be processed. Press the confirm button to your
Spracheingabe zur weiteren Bearbeitung an unser Service-Center zu übermitteln.". Voice input to our service center for further processing. ".
Erfolgt die Nutzereingabe, drückt also beispielsweise der Nutzer die Bestätigungstaste, so wird in Schritt 260 der Datensatz 140 an das weitere Sprachverarbeitungssystem 121 übermittelt. If the user input, for example, the user presses the confirmation key, the record 140 is transmitted to the other language processing system 121 in step 260.
Das weitere Sprachverarbeitungssystem 121 könnte die Spracheingabe zunächst mit rein maschinellen Mitteln verarbeiten. Diese Verarbeitung kann deswegen erfolgreicher sein als jene durch das das erste Sprachverarbeitungssystem 1 1 1 , weil das weitere Sprachverarbeitungssystem 121 auf einen größeren Datenbestand und / oder eine größere Rechenleistung zur Spracherkennung zurückgreifen kann. Es ist aber auch denkbar, dass das weitere Sprachverarbeitungssystem 121 aus technischen Gründen (Spracherkennung schlägt fehl) oder inhaltlichen Gründen (Spracheingabe kann inhaltlich nicht mit den verfügbaren Informationen beantwortet oder bearbeitet werden) die Spracheingabe nicht verarbeiten kann. Es kann für diesen Fall vorgesehen sein, dass das weitere Spracherkennungssystem 121 eine Sprachverbindung zwischen dem Nutzer des Kraftfahrzeugs 1 10 und einem menschlichen Teilnehmer des weiteren Sprachverarbeitungssystems 121 herstellt. Dies kann automatisch oder nach vorheriger Bestätigung des Nutzers geschehen. The other language processing system 121 could initially process the speech input by purely mechanical means. This processing can therefore be more successful than that by the first voice processing system 1 1 1, because the other language processing system 121 to a larger database and / or a greater computing power can be used for speech recognition. However, it is also conceivable that the further language processing system 121 for technical reasons (speech recognition fails) or content-related reasons (speech input content can not be answered or edited with the available information) can not handle the voice input. It may be provided for this case that the further speech recognition system 121 establishes a voice connection between the user of the motor vehicle 110 and a human participant of the further voice processing system 121. This can be done automatically or after prior confirmation of the user.
Bezugszeichenliste Mobilgerät, insbesondere Kraftfahrzeug Erstes Sprachverarbeitungssystem LIST OF REFERENCES Mobile device, in particular motor vehicle. First language processing system
Mobilfunkeinheit mobile unit
Datenbus bus
Internet Internet
Weiteres Sprachverarbeitungssystem Another language processing system
Mobilfunkverbindung cellular Line
Datensatzrecord
0 Verfahrensschritte 0 process steps

Claims

Patentansprüche claims
1 . Verfahren zur Verarbeitung einer Spracheingabe eines Nutzers eines 1 . Method for processing a voice input of a user of a
Mobilgeräts (1 10), insbesondere eines Kraftfahrzeugs (1 10), mit den Schritten Mobile device (1 10), in particular a motor vehicle (1 10), with the steps
- Erfassen (210) einer Spracheingabe, Detecting (210) a voice input,
- Verarbeiten (220) der Spracheingabe durch ein erstes  - processing (220) the speech input by a first one
Sprachverarbeitungssystem (1 1 1 ),  Speech processing system (1 1 1),
- Bewerten (230) des Ergebnisses der Verarbeitung (220) der  Evaluating (230) the result of the processing (220) of
Spracheingabe durch das erste Sprachverarbeitungssystem (1 1 1 ) und, in Abhängigkeit des Ergebnisses der Bewertung (230),  Speech input by the first speech processing system (1 1 1) and, depending on the result of the evaluation (230),
- Erstellen (240) eines Datensatzes (140), welcher zumindest die  - Creating (240) a data set (140), which at least the
Spracheingabe repräsentierende Daten umfasst, und  Includes data representing voice input, and
- Übermitteln (260) des Datensatzes (140) an mindestens ein weiteres Sprachverarbeitungssystem (121 ).  - transmitting (260) the data record (140) to at least one further voice processing system (121).
2. Verfahren nach Anspruch 1 , wobei das erste Sprachverarbeitungssystem ein in dem Mobilgerät angeordnetes maschinelles Sprachverarbeitungssystem (1 1 1 ) ist. The method of claim 1, wherein the first voice processing system is a machine language processing system (1 1 1) located in the mobile device.
3. Verfahren nach einem der vorhergehenden Ansprüche, wobei das weitere 3. The method according to any one of the preceding claims, wherein the further
Sprachverarbeitungssystem ein außerhalb des Mobilgeräts angeordnetes Sprachverarbeitungssystem (121 ) ist, wobei das Übermitteln (260) des  Speech processing system is a language processing system (121) arranged outside the mobile device, wherein the transmission (260) of the
Datensatzes (140) ein Übertragen (260) des Datensatzes (140) über eine Mobilfunkverbindung (130) umfasst.  Record (140) comprises transmitting (260) of the record (140) via a cellular connection (130).
4. Verfahren nach Anspruch 3, wobei das weitere Sprachverarbeitungssystem ein maschinelles Sprachverarbeitungssystem (121 ) und / oder einen menschlichen Teilnehmer umfasst. The method of claim 3, wherein the further language processing system comprises a machine language processing system (121) and / or a human participant.
5. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verarbeiten (220) der Spracheingabe durch das erste Sprachverarbeitungssystem (1 1 1 ) eine syntaktische und / oder semantische Analyse (220) der Spracheingabe umfasst. 5. The method according to claim 1, wherein the processing (220) of the speech input by the first speech processing system (1 1 1) comprises a syntactic and / or semantic analysis (220) of the speech input.
6. Verfahren nach Anspruch 5, wobei der Schritt des Bewertens (230) des The method of claim 5, wherein the step of evaluating (230) the
Ergebnisses der Verarbeitung (220) der Spracheingabe durch das erste  Result of the processing (220) of the speech input by the first one
Sprachverarbeitungssystem (1 1 1 ) ein Bestimmen (230) einer Maßzahl der Güte der syntaktischen und / oder semantischen Analyse der Spracheingabe umfasst.  Speech processing system (1 1 1) comprises determining (230) a measure of the quality of the syntactic and / or semantic analysis of the speech input.
7. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Datensatz (140) eine die Spracheingabe repräsentierende Audiodatei und / oder eine die Spracheingabe repräsentierende Textdatei umfasst. The method of any one of the preceding claims, wherein the record (140) comprises an audio file representing the voice input and / or a text file representing the voice input.
8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Datensatz (140) zumindest 8. The method according to any one of the preceding claims, wherein the data record (140) at least
- Teile des Ergebnisses der Verarbeitung (220) der Spracheingabe durch das erste Sprachverarbeitungssystem (1 1 1 ) und / oder  Parts of the result of the processing (220) of the speech input by the first speech processing system (1 1 1) and / or
- Teile des Ergebnisses der Bewertung (230) des Ergebnisses der  Parts of the result of the evaluation (230) of the result of the
Verarbeitung (220) der Spracheingabe durch das erste  Processing (220) the speech input by the first one
Sprachverarbeitungssystem (1 1 1 )  Voice processing system (1 1 1)
umfasst.  includes.
9. Verfahren nach einem der vorhergehenden Ansprüche, mit den Schritten 9. The method according to any one of the preceding claims, comprising the steps
- Anfordern (250) einer Nutzereingabe zur Bestätigung der Übermittlung des Datensatzes (140) an das mindestens eine weitere  Requesting (250) a user input to confirm the transmission of the data record (140) to the at least one further
Sprachverarbeitungssystem (121 ) und  Speech Processing System (121) and
- Übermitteln (260) des Datensatzes (140) an das mindestens eine weitere Sprachverarbeitungssystem (121 ) in Abhängigkeit der Nutzereingabe.  - transmitting (260) the data set (140) to the at least one further voice processing system (121) as a function of the user input.
10. Mobilgerät, insbesondere Kraftfahrzeug (1 10), zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche. 10. Mobile device, in particular motor vehicle (1 10), for carrying out the method according to one of the preceding claims.
PCT/EP2018/056945 2017-04-12 2018-03-20 Processing speech input WO2018188907A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102017206281.9 2017-04-12
DE102017206281.9A DE102017206281A1 (en) 2017-04-12 2017-04-12 Processing a voice input

Publications (1)

Publication Number Publication Date
WO2018188907A1 true WO2018188907A1 (en) 2018-10-18

Family

ID=61763975

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2018/056945 WO2018188907A1 (en) 2017-04-12 2018-03-20 Processing speech input

Country Status (2)

Country Link
DE (1) DE102017206281A1 (en)
WO (1) WO2018188907A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019126818A1 (en) * 2019-10-07 2021-04-08 Bayerische Motoren Werke Aktiengesellschaft COMPUTER-IMPLEMENTED METHOD AND DATA PROCESSING SYSTEM FOR ANSWERING A VOICE CALL FROM A USER

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075724A1 (en) * 2001-03-16 2002-09-26 Koninklijke Philips Electronics N.V. Transcription service stopping automatic transcription
US20060080105A1 (en) * 2004-10-08 2006-04-13 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US20120215539A1 (en) * 2011-02-22 2012-08-23 Ajay Juneja Hybridized client-server speech recognition
DE102012022630A1 (en) 2012-11-20 2013-06-06 Daimler Ag Method for communication of driver with driver assistance system of motor vehicle positioned in autonomous driving mode, involves processing natural-language input and carrying out natural-language output of information to driver
DE102012213668A1 (en) 2012-08-02 2014-05-22 Bayerische Motoren Werke Aktiengesellschaft Method and device for operating a voice-controlled information system for a vehicle

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075724A1 (en) * 2001-03-16 2002-09-26 Koninklijke Philips Electronics N.V. Transcription service stopping automatic transcription
US20060080105A1 (en) * 2004-10-08 2006-04-13 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US20120215539A1 (en) * 2011-02-22 2012-08-23 Ajay Juneja Hybridized client-server speech recognition
DE102012213668A1 (en) 2012-08-02 2014-05-22 Bayerische Motoren Werke Aktiengesellschaft Method and device for operating a voice-controlled information system for a vehicle
DE102012022630A1 (en) 2012-11-20 2013-06-06 Daimler Ag Method for communication of driver with driver assistance system of motor vehicle positioned in autonomous driving mode, involves processing natural-language input and carrying out natural-language output of information to driver

Also Published As

Publication number Publication date
DE102017206281A1 (en) 2018-10-18

Similar Documents

Publication Publication Date Title
EP2909833B1 (en) Speech recognition in a motor vehicle
DE102019200954A1 (en) Signal processing device, system and method for processing audio signals
DE102018128006A1 (en) NATURAL LANGUAGE GENERATION BASED ON THE USER LANGUAGE STYLE
DE102016104060A1 (en) Voice profile based identity identification for in-vehicle infotainment
DE102009017176A1 (en) Navigation arrangement for a motor vehicle
DE102018103188A1 (en) Improved task completion in speech recognition
DE102017121059A1 (en) IDENTIFICATION AND PREPARATION OF PREFERRED EMOJI
DE102018108947A1 (en) Apparatus for correcting an utterance error of a user and method thereof
DE102017220266B3 (en) Method for checking an onboard speech recognizer of a motor vehicle and control device and motor vehicle
EP3095114B1 (en) Method and system for generating a control command
DE112015003382T5 (en) Speech recognition device and speech recognition method
DE102017121054A1 (en) REMOTE LANGUAGE RECOGNITION IN A VEHICLE
EP3430615B1 (en) Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input
DE102019200956A1 (en) Signal processing device, system and method for processing audio signals
DE102019102090A1 (en) VEHICLE INTERNAL MEDIA TUNING SUPPRESSION
EP3152753B1 (en) Assistance system that can be controlled by means of voice inputs, having a functional device and a plurality of voice recognition modules
DE60020504T2 (en) ADJUSTING A LANGUAGE IDENTIFIER TO CORRECTED TEXTS
EP3058565B1 (en) Voice control method and computer program product for performing the method
WO2001086634A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
WO2018188907A1 (en) Processing speech input
DE102015212650B4 (en) Method and system for computer-assisted processing of a speech input
EP3735688B1 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing
EP3787954B1 (en) Method and device for logging an item of information relating to a rail vehicle
DE102017213946B4 (en) Method for processing a recognition result of an automatic online speech recognizer for a mobile terminal
DE102016003903A1 (en) Method for speech recognition in a motor vehicle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18712868

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18712868

Country of ref document: EP

Kind code of ref document: A1