WO2005034087A1 - Selection of a voice recognition model for voice recognition - Google Patents

Selection of a voice recognition model for voice recognition Download PDF

Info

Publication number
WO2005034087A1
WO2005034087A1 PCT/EP2004/050645 EP2004050645W WO2005034087A1 WO 2005034087 A1 WO2005034087 A1 WO 2005034087A1 EP 2004050645 W EP2004050645 W EP 2004050645W WO 2005034087 A1 WO2005034087 A1 WO 2005034087A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech recognition
speech
user profile
language
terminal
Prior art date
Application number
PCT/EP2004/050645
Other languages
German (de)
French (fr)
Inventor
Sorel Stan
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2005034087A1 publication Critical patent/WO2005034087A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the invention relates to a method for selecting a speech recognition model for the recognition of in one
  • Speech signal containing speech, and a speech recognition unit and a terminal for recording the speech signal.
  • Automatic speech recognition requires a set of components or resources that must be available to a speech recognition entity to enable it to identify words in a sequence of feature vectors generated from a speech signal.
  • these resources include a so-called acoustic model, which specifies the probability of the observed feature vectors for a given sequence of words selected from the vocabulary, and a so-called language model, which defines the probability of successive described in terms of individual words in the language to be recognized.
  • speech recognition model A complete set of the resources that enable a speech recognition unit to convert spoken language into text is intended below, regardless of whether it uses the components listed above or others for the same purpose serving content - to be referred to as a "speech recognition model".
  • an acoustic model that is supposed to be suitable for recognizing the speech of different speakers must describe a “mean” or “typical” sound of the phonemes.
  • the language of different speakers of different sexes and different ages with different background noise levels can be recorded and an averaged acoustic model can be created from this.
  • the recognition of the phonemes in the language of a given speaker is the more unreliable, the further his speech differs from the acoustic model.
  • the same words are spoken by speakers with different regional dialects, sometimes with different phonemes, e.g. a phoneme in a high-level language is replaced by another in one dialect, swallowed or replaced by a combination of two phonemes.
  • the speech recognition model can be individually refined for each person.
  • an individual speech recognition model is thus created for each individual user of the program.
  • the program starts from a given basic language set for an average speaker recognition model. During its interaction with a person, the program refines this basic speech recognition model and makes it better and better for this person. This creates an individual speech recognition model for each user of the program. From this plurality of speech recognition models, the program then selects the speech recognition model individually created for this person, depending on which of the people is currently using the program. For this purpose, the person logs on to the program with a user name, and the program accesses the individual speech recognition model assigned to this user name.
  • Difficulties with automatic speech recognition are not only due to different ways of speaking by different speakers.
  • background noises are the main sources of recognition errors.
  • different speakers are excluded as a source of error, but a high background noise level still remains as a possible source of error for the speech recognition.
  • PC speech recognition programs are able to dynamically adapt the speech recognition model used for a specific user and thus gradually improve the recognition accuracy if a model originally adapted to a specific background noise spectrum is used over a long period of time is used for speech recognition in an environment with a changed noise spectrum, but as a result the adaptation to the previous noise spectrum is lost over time, so that when the latter is restored, the Detection rate deteriorates and needs to be re-trained.
  • the object of the invention is to provide a method and devices for carrying out the method which enable accurate speech recognition in speech signals from a large number of different speakers, possibly with different secondary noises contained in the speech signal. This object is achieved by the method according to claim 1, the voice recognition unit according to claim 15 and the terminal according to claim 16.
  • the method according to the invention selects from the predefined speech recognition models the one that best matches the user profile of any speaker whose speech is to be recognized. For example, it can be the case that with changing environmental conditions of the speaker, for example different or differently loud background noise, with repeated recognition of the speech of one and the same speaker, different speech recognition models are selected in each case. Also, no voice recognition model is generated for a speaker.
  • a speech recognition unit using the method according to the invention differs from the PC speech recognition programs described above, in which a speech recognition model generated specifically for the user is selected on the basis of his user name, the speech recognition model being assigned to this user from the outset.
  • a language-inherent feature of the speech signal is particularly preferably designated with at least one of the parameters.
  • Such language-inherent features can be, for example, an age group or a gender of the speaker.
  • the language-inherent feature is very particularly preferably a national language of the speaker.
  • the system is an automatic information system, with which not only one person connects via a telephone network, foreign people, for example, become foreign Mobile phones can use the information system in their respective national language, provided that the information system has a speech recognition model for this national language.
  • a language-inherent characteristic can also be used to differentiate between regional dialects of a language in order to reduce sources of error that can occur due to an accent of a speaker.
  • the terminal used to record the voice signal has a voice-oriented user interface, e.g. has a menu and the language used by this interface can be selected by the user from several languages, the language selected for the interface can advantageously be adopted as the national language of the user in the user profile stored in the terminal.
  • At least one of the parameters denotes an environment-inherent feature of the speech signal, which is, in particular, a background noise level.
  • a parameter value can also specify a type of environment in which the speaker is located.
  • the parameter value can be used to distinguish between the environments “street”, “interior of the building” or “interior of the vehicle”, in order to be able to more easily identify secondary noises contained in a speech signal and distinguish them from the spoken language.
  • the method according to the invention is particularly suitable for a system in which the voice signal is picked up by a terminal and transmitted via a data network, in particular a telephone network, to a speech recognition unit which carries out the speech recognition.
  • a speech recognition unit can, as already mentioned above, be an automatic information system.
  • a dictation system such as a voice-controlled short message generator, which converts the voice signal received by a user into a text message and sends it in a suitable format supported by the respective telephone network, for example as an SMS message, to a recipient specified by the user.
  • a mobile phone can be used as the terminal.
  • Some known mobile telephones can be set manually for the purpose of noise suppression for various background noise levels such as “normal”, “quiet” or “loud”. This setting can be used advantageously to determine the parameter value of a parameter that is an inherent characteristic of the speech signal denotes a background noise level.
  • a voice signal picked up by the terminal could be transmitted to the voice recognition unit in the same format as, for example, to another telephone in the data network.
  • telephone networks generally do not have the bandwidth required for the faithful reproduction of the voice signal, it is preferred to preprocess the voice signal into a sequence of feature vectors at the terminal, the amount of data of which is smaller than that of a digitized voice signal from which they have been received and which can be digitally transmitted in the data network without loss of quality.
  • a parameter of the user profile can be defined by the end device. This can be done, for example, by frequency analysis of the language that the terminal device uses in order to obtain the parameter values, for example for the parameters “age group” and “gender”. Some of the parameter values can also be recognized by the terminal device based on its mode of operation. If, for example, the user profile has a parameter whose parameter values specify a type of environment in which the speaker can be located and one of these environments is a vehicle interior, it is possible to use a hands-free device to which a mobile phone is connected as a terminal , advantageous to use to identify the type of environment.
  • the vehicle interior is easily recognized as the type of surroundings of the speaker by the fact that the mobile radio telephone is connected to the hands-free device.
  • the mobile radio telephone or the terminal device sends this information to the speech recognition unit by means of a correspondingly set parameter value in the user profile.
  • mobile telephones have a language-oriented user interface, usually in the form of a screen, in which options available for operating and configuring the device are shown in text form and are offered to the user for selection.
  • a language-oriented user interface usually in the form of a screen, in which options available for operating and configuring the device are shown in text form and are offered to the user for selection.
  • the terminal device advantageously sets the language that the user uses for the user profile as the national language of the user Interface.
  • the user profile can be transferred to the speech recognition unit before the speech recognition begins.
  • the end device of the speech recognition unit can be the user profile when establishing a connection between the two. Then the speech recognition unit makes the selection of the speech recognition model at the beginning of the speech recognition and executes the speech recognition with this one speech recognition model.
  • the user profile is transmitted repeatedly during the speech recognition. This gives the terminal the possibility to update the user profile if necessary, in particular to adapt it to changing environmental conditions, and to transfer it to the speech recognition unit.
  • the speech recognition unit can continuously check whether the speech recognition model chosen by it is still appropriate and, if necessary, replace it with another one. In this way, changing environmental conditions, such as e.g. a changing background noise level must be taken into account.
  • the speech recognition is carried out with a speech recognition model that is always up to date, so that the error rate of the speech recognition can be further reduced.
  • the repeated transmission of the user profile can also be used to inform a speech recognition unit of this other network about the speech recognition model to be used in the event of a handover of a mobile radio telephone to another mobile radio network.
  • FIG. 1 is a schematic representation of a system for executing the inventive method.
  • Figure 1 is a schematic representation of a system for performing the method according to the invention.
  • a language Identification unit 1 is connected via a telephone network to a mobile radio base station 6, which has an antenna 2.
  • the base station 6 is connected to a terminal 4, which is a mobile radio telephone, via a radio link 3 and the antenna 2.
  • the speech recognition unit 1 has a plurality of different speech recognition models 5 available for selection, each of which is adapted to different forms of certain features of a speech signal that correspond to the speech of a speaker or the environment in which the speech
  • Speaker speaks, more precisely, of their background noise, may be inherent.
  • the language-inherent features taken into account by the speech recognition models 5 include the gender of the speaker as well as an age group of the speaker and one spoken by the speaker
  • Each speech recognition model 5 has access to a vocabulary of its national language. With regard to the features inherent in the environment, the speech recognition models 5 are set to different types of the environment in which the speaker can be located, as well as different levels of background noise of this particular environment.
  • the set comprises five parameters P1, P2, P3, P4, P5.
  • the parameter Pl denotes the speaker's gender.
  • the parameter value Pl has the same parameter value and for all speech recognition models 5 which are provided for male speakers, the parameter Pl assumes the corresponding parameter value for male speakers.
  • the parameter P2 differentiates between predefined age groups to which the speaker can belong. Depending on which of these age groups the speaker to whom a speech recognition model 5 is set is to be assigned, the parameter P2 of this speech recognition model 5 assumes the corresponding parameter value.
  • parameter value belonging to parameter P3 is used to differentiate between three different types of environment in which the speaker can be located, namely between a vehicle interior, a building interior, and a street.
  • parameter P4 designates a level of background noise in the vicinity of the speaker. A distinction is made between a normal noise level, a low noise level and a loud noise level.
  • parameter P5 is provided, which e.g. can take five different parameter values, each of which stands for a different language.
  • the parameter values are used to differentiate between the national languages German, English, French, Italian and Spanish.
  • the mobile radio telephone 4 records a language spoken and recognized by a speaker and digitizes it, possibly including background noise that is also recorded.
  • the mobile radio telephone 4 preprocesses the digitized speech signal into a sequence of feature vectors which are sent via the radio link 3 to the base station 6 and from there to the speech recognition unit 1.
  • These feature vectors are compatible with feature vectors used by a speech model of the speech recognition unit 1 and can by the Speech recognition unit 1 can be compared to feature vectors of the speech model without further preprocessing in order to identify the words contained therein.
  • This measure which can be implemented with very little technical effort, reduces the amount of data to be transmitted between the telephone 4 and the speech recognition unit 1 to such an extent that the bandwidth of a telephone channel is sufficient to enable speech recognition in the speech recognition unit 1 with the same quality as if it were with would be connected to the end device without bandwidth limitation.
  • the mobile radio telephone 4 sends a set of parameter values via the radio link 3 to the speech recognition unit 1, which represents a user profile for the speaker.
  • the sets of parameters of the speech recognition models 5 provide information about features of the speaker and his environment to which the respective speech recognition model 5 is set, this user profile with its parameter values contains information about corresponding features of the speaker of the language to be recognized and his environment.
  • the user profile can, for example, be created entirely or partially manually, in particular entered by a user of the mobile telephone 4 via the keyboard. Once a user profile has been entered, it remains stored in the mobile phone and can be transmitted to the speech recognition unit each time the mobile phone establishes a connection.
  • Some known mobile radio telephones 4 can, for example, be set manually to different levels of background noise levels. These settings can then ver from the mobile phone 4 as a parameter value for the user profile be applied.
  • parameter values can also be created by the mobile radio telephone 4 itself. If this is equipped accordingly, it can, for example, determine a background noise level itself and create the user profile with corresponding parameter values. However, it can also carry out a frequency analysis of the speaker's language and classify the speaker into a specific age group based on a determined spectrum of the speech. Then a corresponding parameter value for identifying this age group is set in the user profile. However, it is also possible for the speech recognition unit 1 to carry out such an analysis with subsequent classification of the speaker into an age group.
  • the cellular phone 4 can recognize a type of the surroundings of the speaker, for example, from the inside of a vehicle that the cellular phone 4 is connected to a hands-free device. Accordingly, the mobile telephone 4 sets the parameter value of the parameter that characterizes the type of environment of the speaker in the user profile. The mobile telephone 4 sets the parameter of the user profile which designates the national language of the speaker to the value assigned to a language selected by the user for operating the user interface of the mobile radio telephone 4.
  • the user profile is compared by the speech recognition unit 1 with the sets of parameter values of the individual speech recognition models 5.
  • the speech recognition model 5 whose set of parameter values matches the user profile most closely is selected by the speech recognition unit 1 and used for automatic speech recognition of the speech contained in the speech signal.
  • the speech recognition unit 1 does not ensure an exact match when selecting the speech recognition model 5 between the user profile and the set of parameter values of the speech recognition model 5, but only selects the speech recognition model 5 whose set of parameter values has the best match with the user profile, operation of the speech recognition system is also ensured in the event that a speech recognition model with parameter values , which correspond exactly to those of the transmitted user profile, is not available at the speech recognition unit 1.
  • the user profile In order to enable the speech recognition unit to select a speech recognition model, the user profile must be transmitted to the speech recognition unit at least once when establishing communication. However, the profile is preferably also transmitted repeatedly during the communication. This is the prerequisite for a mobile phone that is able to automatically define certain parameters of the user profile to report the current value of these parameters to the speech recognition unit at any time and, if necessary, by changing to a different speech recognition model adapted to the current parameter values can optimize the speech recognition or, if the speech recognition unit changes as a result of a handover, the new speech recognition unit can immediately select the best-matched speech recognition model and work with it.
  • the mobile radio telephone 4 transmits the voice signal as a multi-frame message packagc, for example according to ETSI ES 201 108 vl .1.2.
  • the header of such a message packet comprises nine previously non-standardized bits, called "expansion bits" EXP1 to EXP9, which are available for functional expansions.
  • EXP1 to EXP9 nine previously non-standardized bits, called "expansion bits" EXP1 to EXP9, which are available for functional expansions.
  • One of these can be used, for example, to encode the gender of a speaker, two for encoding four different accents or dialects, one for the age group of the speaker, one for differences Decoration between operation with and without a hands-free system and the remaining four for coding up to 16 national languages.

Abstract

The invention relates to a method for selecting a voice recognition model (5) for recognising a voice contained in a voice signal. According to the invention, a user profile associated with the voice signal is received, a group of values of relevant parameters of the voice signal for voice recognition is specified; the group contained in the user profile is compared to groups of parameter values of a plurality of predetermined voice recognition models (5); the voice recognition model (5) whose group of parameter values best corresponds to the group of the user profile is selected, and voice recognition is carried out by means of said voice recognition model (5).

Description

Beschreibungdescription
Auswahl eines Spracherkennungsmodells für eine SpracherkennungSelection of a speech recognition model for speech recognition
Die Erfindung betrifft ein Verfahren zur Auswahl eines Spracherkennungsmodells für die Erkennung von in einemThe invention relates to a method for selecting a speech recognition model for the recognition of in one
Sprachsignal enthaltener Sprache, sowie eine Spracherkennungsemheit und ein Endgerat zum Aufnehmen des Sprachsignals .Speech signal containing speech, and a speech recognition unit and a terminal for recording the speech signal.
Automatische Spracherkennung erfordert einen Satz von Kompo- nenten oder Ressourcen, die einer Spracherkennungsemheit zur Verfugung stehen müssen, um sie zu befähigen, Worter in einer Folge von aus einem Sprachsignal erzeugten Merkmalsvektoren zu identifizieren. Zu diesen Ressourcen gehört neben einem Vokabular der zu erkennenden Sprache ein so genanntes akusti- sches Modell, das jeweils zu einer gegebenen Folge von aus dem Vokabular ausgewählten Wortern die Wahrscheinlichkeit der beobachteten Merkmalsvektoren angibt, und em so genanntes Sprachmodell, das die Wahrscheinlichkeit des Aufeinanderfol- gens einzelner Worter in der zu erkennenden Sprache be- schreibt Diese Ressourcen wirken zusammen, um zu einer empfangenen Folge von Merkmalsvektoren eine als die wahrscheinlichste beurteilte Wortfolge zu ermitteln.Automatic speech recognition requires a set of components or resources that must be available to a speech recognition entity to enable it to identify words in a sequence of feature vectors generated from a speech signal. In addition to a vocabulary of the language to be recognized, these resources include a so-called acoustic model, which specifies the probability of the observed feature vectors for a given sequence of words selected from the vocabulary, and a so-called language model, which defines the probability of successive described in terms of individual words in the language to be recognized. These resources work together to determine a word sequence which has been assessed as the most probable for a received sequence of feature vectors.
Em vollständiger Satz der Ressourcen, die einer Spracherkennungse heit die Umsetzung von gesprochener Sprache in Text ermöglichen, soll im Folgenden - unabhängig davon, ob er die oben aufgezahlten Komponenten oder andere dem gleichen Zweck dienende enthalt - als ein „Spracherkennungsmodell" bezeichnet werden.A complete set of the resources that enable a speech recognition unit to convert spoken language into text is intended below, regardless of whether it uses the components listed above or others for the same purpose serving content - to be referred to as a "speech recognition model".
Da der Klang der Phoneme einer Sprache für verschiedene Sprecher individuell unterschiedlich ist, muss ein akustisches Modell, das zur Erkennung der Sprache unterschiedlicher Sprecher taugen soll, einen „mittleren" oder „typischen" Klang der Phoneme beschreiben. Um ein solches Modell zu erstellen, kann die Sprache verschiedener Sprecher unterschiedlichen Geschlechts und verschiedener Altersstufen bei unterschiedli- chem Hintergrundgerauschpegel aufgezeichnet und daraus ein gemitteltes akustisches Modell erstellt werden. Es liegt auf der Hand, dass die Erkennung der Phoneme in der Sprache eines gegebenen Sprechers um so unzuverlässiger ist, je weiter dessen Sprechweise von dem akustischen Modell abweicht. Hinzu kommt, dass gleiche Worter von Sprechern mit unterschiedlichen regionalen Dialekten zum Teil mit verschiedenen Phonemen gesprochen werden, dass z.B. ein in einer Hochsprache vorhandenes Phonem in einem Dialekt durch ein anderes ersetzt ist, verschluckt wird oder durch eine Kombination von zwei Phonemen ersetzt wird.Since the sound of the phonemes of a language differs individually for different speakers, an acoustic model that is supposed to be suitable for recognizing the speech of different speakers must describe a “mean” or “typical” sound of the phonemes. In order to create such a model, the language of different speakers of different sexes and different ages with different background noise levels can be recorded and an averaged acoustic model can be created from this. It is obvious that the recognition of the phonemes in the language of a given speaker is the more unreliable, the further his speech differs from the acoustic model. In addition, the same words are spoken by speakers with different regional dialects, sometimes with different phonemes, e.g. a phoneme in a high-level language is replaced by another in one dialect, swallowed or replaced by a combination of two phonemes.
Es ist daher mit einem einzelnen Spracherkennungsmodell kaum möglich, Sprachsignale jedes beliebigen Sprechers einer Sprache befriedigend zu verarbeiten.It is therefore hardly possible with a single speech recognition model to satisfactorily process speech signals from any speaker of a language.
Sofern mit der Spracherkennung die Sprache nur einer Person oder einer kleinen Anzahl von Personen erkannt werden muss, kann das Spracherkennungsmodell für jede Person individuell verfeinert werden. So wird bei bekannten Spracherkennungspro- grammen für den PC jeweils ein individuelles Spracherkennungsmodell für jeden einzelnen Benutzer des Programms er- stellt. Das Programm geht dabei von einem vorgegebenen, auf einen durchschnittlichen Sprecher eingestellten Grund-Sprach erkennungsmodell aus. Wahrend seiner Interaktion mit einer Person verfeinert das Programm dieses Grund-Spracherkennungs- modell und stellt es speziell für diese Person immer besser ein. Somit entsteht für jeden Benutzer des Programms jeweils ein individuelles Spracherkennungsmodell. Aus dieser Mehrzahl von Spracherkennungsmodellen wählt das Programm dann je nachdem, welche der Personen das Programm gerade benutzt, das für diese Person individuell erstellte Spracherkennungsmodell aus. Dazu meldet sich die Person bei dem Programm mit einem Benutzernamen an, und das Programm greift auf das diesem Benutzernamen zugeordnete individuelle Spracherkennungsmodell zu.If only one person or a small number of people need to be recognized with speech recognition, the speech recognition model can be individually refined for each person. In known speech recognition programs for the PC, an individual speech recognition model is thus created for each individual user of the program. The program starts from a given basic language set for an average speaker recognition model. During its interaction with a person, the program refines this basic speech recognition model and makes it better and better for this person. This creates an individual speech recognition model for each user of the program. From this plurality of speech recognition models, the program then selects the speech recognition model individually created for this person, depending on which of the people is currently using the program. For this purpose, the person logs on to the program with a user name, and the program accesses the individual speech recognition model assigned to this user name.
Schwierigkeiten bei automatischen Spracherkennungen gehen a- ber nicht nur auf unterschiedliche Sprechweisen verschiedener Sprecher zurück. Neben einer Variabilltat in der Person des Sprechers sind insbesondere Hintergrundgeräusche die Hauptquellen für Erkennungsfehler. Bei den individuellen Spracherkennungsmodellen der oben erwähnten Anwendungsprogramme sind unterschiedliche Sprecher als Fehlerquelle zwar ausgeschlos- sen, doch verbleibt immer noch ein hoher Hintergrundgerausch- pegel als mögliche Fehlerquelle der Spracherkennung. Eine befriedigende Losung des Problems ist nicht bekannt: Zwar sind PC-Spracherkennungsprogramme in der Lage, das für einen bestimmten Benutzer verwendete Spracherkennungsmodell dynamisch anzupassen und so die Erkennungsgenauigkeit allmählich zu verbessern, wenn ein ursprunglich an ein bestimmtes H tei— grundgerauschspektrum angepasstes Modell über längere Zeit zur Spracherkennung in einer Umgebung mit verändertem Gerauschspektrum eingesetzt wird, doch geht dadurch im Laufe der Zeit die Anpassung an das vorherige Gerauschspektrum verloren, so dass, wenn letzteres wiederhergestellt wird, die Erkennungsrate sich verschlechtert und neu trainiert werden muss .Difficulties with automatic speech recognition are not only due to different ways of speaking by different speakers. In addition to a variable act in the person of the speaker, background noises are the main sources of recognition errors. With the individual speech recognition models of the application programs mentioned above, different speakers are excluded as a source of error, but a high background noise level still remains as a possible source of error for the speech recognition. A satisfactory solution to the problem is not known: PC speech recognition programs are able to dynamically adapt the speech recognition model used for a specific user and thus gradually improve the recognition accuracy if a model originally adapted to a specific background noise spectrum is used over a long period of time is used for speech recognition in an environment with a changed noise spectrum, but as a result the adaptation to the previous noise spectrum is lost over time, so that when the latter is restored, the Detection rate deteriorates and needs to be re-trained.
Es gibt zahlreiche Anwendungen für die automatische Spracherkennung, die in der Lage sein müssen, ohne vorheriges Trai- ning Sprache in Sprachsignalen einer Vielzahl unterschiedlicher Sprecher mit hoher Sicherheit zu erkennen, wobei sich diese Sprachsignale nicht nur im Klang der Sprache der unterschiedlichen Sprecher, sondern auch in Starke und Art von darin enthaltenen, die Erkennung erschwerenden Nebengerau- sehen unterscheiden können. Beispiele solcher Anwendungen sind z.B. automatisierte Auskunftssysteme, etwa für Telefonnummern, Fahrplane oder dergleichen, die in der Lage sein müssen, eine Frage eines Benutzers zu verstehen, um sie beantworten zu können . Aufgabe der Erfindung ist, ein Verfahren und Vorrichtungen zur Durchfuhrung des Verfahrens anzugeben, die eine treffsichere Spracherkennung in Sprachsignalen einer Vielzahl verschiedener Sprecher, gegebenenfalls mit unterschiedlichen im Ξprachsignal enthaltenen Nebengerauschen, ermöglichen. Diese Aufgabe wird durch das Verfahren nach Anspruch 1 , die Ξpracherkennungseinheit nach Anspruch 15 und das Endgerat nach Anspruch 16 gelost.There are numerous applications for automatic speech recognition which must be able to recognize speech in speech signals from a large number of different speakers with a high degree of certainty without prior training, these speech signals not only being in the sound of the speech of the different speakers, but also can differentiate between the strength and type of the secondary noise contained therein, which complicates the recognition. Examples of such applications are e.g. automated information systems, for example for telephone numbers, timetables or the like, which must be able to understand a question from a user in order to be able to answer it. The object of the invention is to provide a method and devices for carrying out the method which enable accurate speech recognition in speech signals from a large number of different speakers, possibly with different secondary noises contained in the speech signal. This object is achieved by the method according to claim 1, the voice recognition unit according to claim 15 and the terminal according to claim 16.
Das erfindungsgemaße Verfahren wählt zur Durchfuhrung der Spracherkennung aus den vorgegebenen Spracherkennungsmodellen dasjenige aus, das mit dem Benutzerprofil eines beliebigen Sprechers, dessen Sprache erkannt werden soll, am besten u- bereinstimmt . So kann es beispielsweise sein, dass mit wechselnder Umgebungsbedingung des Sprechers, z.B. unterschiedlichen bzw. unterschiedlich lauten Nebengerauschen, bei wieder- holter Erkennung der Sprache ein und desselben Sprechers jeweils verschiedene Spracherkennungsmodelle ausgewählt werden. Auch wird für einen Sprecher kein eigenes Spracherkennungsmodell generiert. Eine das erfindungsgemäße Verfahren verwendende Spracherkennungseinheit unterscheidet sich dadurch von den oben beschriebenen PC-Spracherkennungsprogrammen, bei de- nen die Auswahl eines eigens für den Benutzer generierten Spracherkennungsmodells anhand von dessen Benutzernamen erfolgt, wobei das Spracherkennungsmodell diesem Benutzer von vorneherein fest zugeordnet ist. Weil die Zuordnung eines der Spracherkennungsmodelle zu einem Sprecher, dessen Stimme ei— kannt werden soll, beim erfindungsgemaßen Verfahren jedes Mal neu bestimmt wird, macht das Verfahren die Spracherkennung flexibel für beliebige und beliebig viele Sprecher. Die spezifische Auswahl des jeweils passendsten Spracherkennungsmodells fuhrt zu einer treffsicheren Spracherkennung mit mini- mierter Fehlerquote. Bei der Erfindung kann der Vergleich des als Benutzerprofil übergebenen neuen Satzes an Parameterwerten mit den Sätzen von Parameterwerten der einzelnen Spracherkennungsmodelle sehr rasch und ohne größeren Rechenaufwand erfolgen . Besonders bevorzugt wird mit wenigstens einem der Parameter ein sprachinharentes Merkmal des Sprachsignals bezeichnet. Bei solchen sprachinharenten Merkmalen kann es sich beispielsweise um eine Altersgruppe oder ein Geschlecht des Sprechers handeln. Ganz besonders bevorzugt handelt es sich bei dem sprachinharenten Merkmal jedoch um eine Landessprache des Sprechers. Damit offenbart sich eine weitere besondere Starke des erfindungsgemaßen Verfahrens, weil es mit ihm nunmehr möglich ist, ein mehrsprachiges System zur automatischen Spracherkennung zu implementieren . Handelt es sich bei dem System um ein automatisches Auskunftssystem, mit dem nicht nur eine Person über ein Telefonnetz Verbindung aufnimmt, so wird beispielsweise auslandischen Personen mit ausländischen Mobiltelefonen eine Nutzung des Auskunftssystems in ihrer jeweiligen Landessprache ermöglicht, sofern das Auskunftssystem über ein Spracherkennungsmodell für diese Landessprache verfugt. Weiter lasst sich mit einem sprachinharenten Merkmal auch zwischen regionalen Dialekten einer Sprache differenzieren, um damit auch Fehlerquellen, die aufgrund eines Akzents eines Sprechers auftreten können, zu reduzieren.To carry out speech recognition, the method according to the invention selects from the predefined speech recognition models the one that best matches the user profile of any speaker whose speech is to be recognized. For example, it can be the case that with changing environmental conditions of the speaker, for example different or differently loud background noise, with repeated recognition of the speech of one and the same speaker, different speech recognition models are selected in each case. Also, no voice recognition model is generated for a speaker. A speech recognition unit using the method according to the invention differs from the PC speech recognition programs described above, in which a speech recognition model generated specifically for the user is selected on the basis of his user name, the speech recognition model being assigned to this user from the outset. Because the assignment of one of the speech recognition models to a speaker whose voice is to be known is determined anew each time in the method according to the invention, the method makes speech recognition flexible for any and any number of speakers. The specific selection of the most suitable speech recognition model leads to accurate speech recognition with a minimized error rate. In the invention, the comparison of the new set of parameter values transferred as the user profile with the sets of parameter values of the individual speech recognition models can be carried out very quickly and without great computational effort. A language-inherent feature of the speech signal is particularly preferably designated with at least one of the parameters. Such language-inherent features can be, for example, an age group or a gender of the speaker. However, the language-inherent feature is very particularly preferably a national language of the speaker. This reveals another particular strength of the method according to the invention because it is now possible to implement a multilingual system for automatic speech recognition. If the system is an automatic information system, with which not only one person connects via a telephone network, foreign people, for example, become foreign Mobile phones can use the information system in their respective national language, provided that the information system has a speech recognition model for this national language. Furthermore, a language-inherent characteristic can also be used to differentiate between regional dialects of a language in order to reduce sources of error that can occur due to an accent of a speaker.
Wenn das zur Aufzeichnung des Sprachsignals verwendete Endgerat eine sprachorientierte Benutzerschnittstelle, z.B. eine Menufuhrung, aufweist und die von dieser Schnittstelle verwendete Sprache durch den Benutzer unter mehreren Sprachen auswahlbar ist, so kann die für die Schnittstelle ausgewählte Sprache vorteilhaft als die Landessprache des Benutzers in dessen in dem Endgerat gespeichertes Benutzerprofil ubernom- en werden.If the terminal used to record the voice signal has a voice-oriented user interface, e.g. has a menu and the language used by this interface can be selected by the user from several languages, the language selected for the interface can advantageously be adopted as the national language of the user in the user profile stored in the terminal.
Ebenfalls besonders bevorzugt wird mit wenigstens einem der Parameter ein umgebungsmharentes Merkmal des Sprachsignals, bei dem es sich insbesondere um einen Hintergrundgerauschpegel handelt, bezeichnet. Es kann aber auch ein Parameterwert einen Typ von Umgebung spezifizieren, in der sich der Sprecher aufhalt. Beispielsweise kann mit dem Parameterwert zwischen den Umgebungen „Straße", „Gebaudeinneres" oder „Fahrzeuginneres" unterschieden werden, um für diese Umgebungen typische in einem Sprachsignal enthaltene Nebengerausche leichter identifizieren und von der gesprochenen Sprache unterscheiden zu können.Likewise particularly preferably, at least one of the parameters denotes an environment-inherent feature of the speech signal, which is, in particular, a background noise level. However, a parameter value can also specify a type of environment in which the speaker is located. For example, the parameter value can be used to distinguish between the environments “street”, “interior of the building” or “interior of the vehicle”, in order to be able to more easily identify secondary noises contained in a speech signal and distinguish them from the spoken language.
Das erfindungsgemaße Verfahren eignet sich besonders für ein System, in dem das Sprachsignal von einem Endgerat aufgenommen und über ein Datennetz, insbesondere einem Telefonnetz, zu einer Spracherkennungseinheit übertragen wird, welche die Spracherkennung durchfuhrt. Bei der Spracherkennungseinheit kann es sich, wie oben bereits erwähnt, um ein automatisches Auskunftssystem handeln. Eine andere Möglichkeit ist ein Diktiersystem wie etwa ein sprachgesteuerter Kurznachrichtengenerator, der das von einem Benutzer empfangene Sprachsignal in eine Textnachricht umwandelt und in einem geeigneten, von dem jeweiligen Telefonnetz unterstutzten Format, etwa als SMS-Nachricht, an einen von dem Benutzer angegebenen Empfanger versendet.The method according to the invention is particularly suitable for a system in which the voice signal is picked up by a terminal and transmitted via a data network, in particular a telephone network, to a speech recognition unit which carries out the speech recognition. At the speech recognition unit can, as already mentioned above, be an automatic information system. Another possibility is a dictation system, such as a voice-controlled short message generator, which converts the voice signal received by a user into a text message and sends it in a suitable format supported by the respective telephone network, for example as an SMS message, to a recipient specified by the user.
Als Endgerat kann beispielsweise ein Mobilfunktelefon heran- gezogen werden. Einige bekannte Mobilfunktelefone lassen sich manuell zum Zwecke der Gerauschunterdruckung wahlweise für verschiedene Hintergrundgerauschpegel wie beispielsweise „normal", „leise" oder „laut" einstellen. Diese Einstellung lasst sich vorteilhaft zur Bestimmung des Parameterwertes ei- nes Parameters verwenden, der als umgebungsmharentes Merkmal des Sprachsignals einen Hintergrundgerauschpegcl bezeichnet.For example, a mobile phone can be used as the terminal. Some known mobile telephones can be set manually for the purpose of noise suppression for various background noise levels such as “normal”, “quiet” or “loud”. This setting can be used advantageously to determine the parameter value of a parameter that is an inherent characteristic of the speech signal denotes a background noise level.
Im einfachsten Fall konnte ein von dem Endgerat aufgenommenes Sprachsignal an die Spracherkennungseinheit in dem gleichen Format wie etwa an ein anderes Telefon in dem Datennetz übertragen werden. Da Telefonnetze im Allgemeinen aber nicht über die für die klangtreue Wiedergabe des Sprachsignals erforderliche Bandbreite verfugen, ist es bevorzugt, bereits am Endgerat eine Vorverarbeitung des Sprachsignals in eine Folge von Merkmalsvektoren durchzufuhren, deren Datenmenge klei- ner ist als die eines digitalisierten Sprachsignals, aus dem sie erhalten wurden, und die in dem Datennetz ohne Qualitats- verlust digital übertragen werden können.In the simplest case, a voice signal picked up by the terminal could be transmitted to the voice recognition unit in the same format as, for example, to another telephone in the data network. However, since telephone networks generally do not have the bandwidth required for the faithful reproduction of the voice signal, it is preferred to preprocess the voice signal into a sequence of feature vectors at the terminal, the amount of data of which is smaller than that of a digitized voice signal from which they have been received and which can be digitally transmitted in the data network without loss of quality.
Dabei ist es möglich, das Endgerat derart vorzusehen, dass das Benutzerprofil vom Endgerat an die Spracherkennungsein- heit übertragen wird. In einem solchen Fall kann ein Parameter des Benutzerprofils vom Endgerat festgelegt werden. Dies kann z.B. durch eine Frequenzanalyse der Sprache geschehen, die das Endgerat vornimmt, um die Parameterwerte, etwa für die Parameter „Altersklasse" und „Geschlecht" daraus zu gewinnen. Einige der Parameterwerte können vom Endgerat auch anhand seiner Betriebsweise erkannt werden. Sofern das Benutzerprofil beispielsweise über einen Parameter verfugt, mit dessen Parameterwerten ein Typ der Umgebung, in welcher sich der Sprecher aufhalten kann, spezifiziert wird und eine dieser Umgebungen ein Fahrzeuginneres ist, ist es möglich, eine Freisprecheinrichtung, an die ein Mobilfunktelefon als Endgerat angeschlossen wird, vorteilhaft zur Erkennung des Typs der Umgebung zu verwenden. Dabei wird das Fahrzeuginnere als Typ der Umgebung des Sprechers auf einfache Weise an dem Umstand erkannt, dass das Mobilfunktelefon an die Freisprech- einrichtung angeschlossen ist. Das Mobilfunktelefon bzw. das Endgerat lasst diese Information der Spracherkennungseinheit durch einen entsprechend gesetzten Parameterwert im Benutzerprofil zukommen.It is possible to provide the end device in such a way that the user profile is transmitted from the end device to the speech recognition unit. In such a case, a parameter of the user profile can be defined by the end device. This can be done, for example, by frequency analysis of the language that the terminal device uses in order to obtain the parameter values, for example for the parameters “age group” and “gender”. Some of the parameter values can also be recognized by the terminal device based on its mode of operation. If, for example, the user profile has a parameter whose parameter values specify a type of environment in which the speaker can be located and one of these environments is a vehicle interior, it is possible to use a hands-free device to which a mobile phone is connected as a terminal , advantageous to use to identify the type of environment. The vehicle interior is easily recognized as the type of surroundings of the speaker by the fact that the mobile radio telephone is connected to the hands-free device. The mobile radio telephone or the terminal device sends this information to the speech recognition unit by means of a correspondingly set parameter value in the user profile.
Typischerweise haben Mobilfunktelefone eine sprachorientierte Benutzerschnittstelle, meist in Form eines Bildschirms, in der zur Bedienung und Konfigurierung des Geräts verfugbare Optionen in Textform dargestellt und dem Benutzer zur Auswahl angeboten werden. Wenn die Sprache einer solchen Schnittstelle durch den Benutzer einstellbar ist, so ist wahrscheinlich, dass die eingestellte Landessprache diejenige sein wird, in der er meist spricht, so dass das Endgerat vorteilhafterweise als Landessprache des Benutzers im Benutzerprofil diejenige Sprache setzt, die der Benutzer für die Schnittstelle gewählt hat. Das Benutzerprofil kann der Spracherkennungseinheit vor Beginn der Spracherkennung übergeben werden. Beispielsweise kann das Endgerat der Spracherkennungseinheit das Benutzer profil bei der Herstellung einer Verbindung zwischen beiden übergeben. Dann nimmt die Spracherkennungseinheit die Auswahl des Spracherkennungsmodells zu Beginn der Spracherkennung vor und fuhrt die Spracherkennung mit diesem einen Spracherken- nungsmodell aus.Typically, mobile telephones have a language-oriented user interface, usually in the form of a screen, in which options available for operating and configuring the device are shown in text form and are offered to the user for selection. If the language of such an interface can be set by the user, then it is likely that the national language set will be the one in which he speaks most, so that the terminal device advantageously sets the language that the user uses for the user profile as the national language of the user Interface. The user profile can be transferred to the speech recognition unit before the speech recognition begins. For example, the end device of the speech recognition unit can be the user profile when establishing a connection between the two. Then the speech recognition unit makes the selection of the speech recognition model at the beginning of the speech recognition and executes the speech recognition with this one speech recognition model.
Vorteilhaft ist es jedoch, wenn das Benutzerprof l wahrend der Spracherkennung wiederholt übertragen wird. Dies gibt dem Endgerat die Möglichkeit, das Benutzerprofil bei Bedarf zu aktualisieren, insbesondere es veränderten Umgebungsbedingun- gen anzupassen, und an die Spracherkennungseinheit zu übergeben. Die Spracherkennungseinheit kann anhand des wiederholt übertragenen Benutzerprofils laufend überprüfen, ob das von ihr gewählte Spracherkennungsmodell noch angemessen ist und es gegebenenfalls durch ein anderes ersetzen. Auf diese Weise können wahrend der Aufnahme des Sprachsignals sich ändernde Umgebungsbedingungen, wie z.B. ein sich ändernder Hintcr- grundgerauschpegel, berücksichtigt werden. Die Spracherkennung wird mit einem stets aktuellen Spracherkennungsmodell durchgeführt, so dass sich die Fehlerquote der Spracherken- nung weiter reduzieren lasst. Die wiederholte Übertragung des Benutzerprofils kann aber auch dazu genutzt werden, im Falle eines Handovers eines Mobilfunktelefons an ein anderes Mobilfunknetz eine Spracherkennungseinheit dieses anderen Netzes über das zu verwendende Spracherkennungsmodell zu informie- ren.However, it is advantageous if the user profile is transmitted repeatedly during the speech recognition. This gives the terminal the possibility to update the user profile if necessary, in particular to adapt it to changing environmental conditions, and to transfer it to the speech recognition unit. Using the repeatedly transmitted user profile, the speech recognition unit can continuously check whether the speech recognition model chosen by it is still appropriate and, if necessary, replace it with another one. In this way, changing environmental conditions, such as e.g. a changing background noise level must be taken into account. The speech recognition is carried out with a speech recognition model that is always up to date, so that the error rate of the speech recognition can be further reduced. However, the repeated transmission of the user profile can also be used to inform a speech recognition unit of this other network about the speech recognition model to be used in the event of a handover of a mobile radio telephone to another mobile radio network.
Nachfolgend wird die Erfindung anhand eines Ausfuhrungsbeispiels naher erläutert. Es zeigt:The invention is explained in more detail below on the basis of an exemplary embodiment. It shows:
Fig. 1 eine schematische Darstellung eines Systems zur Ausfuhrung des erfi ndungsgemaßen Verfahrens. Figur 1 ist eine schematische Darstellung eines Systems zur Ausfuhrung des erfindungsgemaßen Verfahrens. Eine Spracher kennungseinheit 1 ist über ein Telefonnetz mit einer Mobilfunk-Basisstation 6 verbunden, die über eine Antenne 2 verfügt. Über eine Funkstrecke 3 und die Antenne 2 steht die Basisstation 6 in Verbindung mit einem Endgerät 4, bei dem es sich um ein Mobilfunktelefon handelt.Fig. 1 is a schematic representation of a system for executing the inventive method. Figure 1 is a schematic representation of a system for performing the method according to the invention. A language Identification unit 1 is connected via a telephone network to a mobile radio base station 6, which has an antenna 2. The base station 6 is connected to a terminal 4, which is a mobile radio telephone, via a radio link 3 and the antenna 2.
Der Spracherkennungseinheit 1 steht eine Mehrzahl jeweils unterschiedlicher Spracherkennungsmodelle 5 zur Auswahl zur Verfügung, die an jeweils unterschiedliche Ausprägungen von bestimmten Merkmalen eines Sprachsignals angepasst sind, die der Sprache eines Sprechers oder der Umgebung, in der derThe speech recognition unit 1 has a plurality of different speech recognition models 5 available for selection, each of which is adapted to different forms of certain features of a speech signal that correspond to the speech of a speaker or the environment in which the speech
Sprecher spricht, genauer gesagt, ihrer Geräuschkulisse, inhärent sein können. Im vorliegenden Fall gehören zu den von den Spracherkennungsmodellen 5 berücksichtigten sprachinharenten Merkmalen das Geschlecht des Sprechers sowie eine Al- tersgruppe des Sprechers und eine vom Sprecher gesprocheneSpeaker speaks, more precisely, of their background noise, may be inherent. In the present case, the language-inherent features taken into account by the speech recognition models 5 include the gender of the speaker as well as an age group of the speaker and one spoken by the speaker
Landessprache. Jedes Spracherkennungsmodell 5 hat Zugriff auf ein Vokabular seiner Landessprache. Bezuglich der umgebungs- inharenten Merkmale sind die Spracherkennungsmodelle 5 auf jeweils verschiedene Typen der Umgebung, in denen sich der Sprecher aufhalten kann, sowie verschiedene Pegel von Hintergrundgeräuschen dieser jeweiligen Umgebung eingestellt.National language. Each speech recognition model 5 has access to a vocabulary of its national language. With regard to the features inherent in the environment, the speech recognition models 5 are set to different types of the environment in which the speaker can be located, as well as different levels of background noise of this particular environment.
Dabei werden alle diese Merkmale durch jeweils einen Parameter aus einer vorgegebenen Menge von Parametern bezeichnet, der bestimmte Parameterwerte annehmen kann. Im vorliegenden Fall umfasst die Menge fünf Parameter Pl, P2, P3, P4, P5. Der Parameter Pl bezeichnet je nach Parameterwert, den er annimmt, das Geschlecht des Sprechers. Bei allen Spracherkennungsmodellen 5, die für einen weiblichen Sprecher vorgesehen sind, hat der Parameterwert Pl den gleichen Parameterwert und für alle Spracherkennungsmodelle 5, die für mannliche Sprecher vorgesehen sind, nimmt der Parameter Pl den entsprechenden Parameterwert für mannliche Sprecher an. Der Parameter P2 unterscheidet zwischen vorgegebenen Altersgruppen, welchen der Sprecher angehören kann. Je nachdem, welcher dieser Altersgruppen der Sprecher, auf den ein Spracherkennungsmodell 5 eingestellt ist, zuzuordnen ist, nimmt der Parameter P2 dieses Spracherkennungsmodells 5 den entsprechenden Parameterwert an.All of these features are each designated by a parameter from a predetermined set of parameters, which can assume certain parameter values. In the present case, the set comprises five parameters P1, P2, P3, P4, P5. Depending on the parameter value that it takes, the parameter Pl denotes the speaker's gender. In all speech recognition models 5 which are provided for a female speaker, the parameter value Pl has the same parameter value and for all speech recognition models 5 which are provided for male speakers, the parameter Pl assumes the corresponding parameter value for male speakers. The parameter P2 differentiates between predefined age groups to which the speaker can belong. Depending on which of these age groups the speaker to whom a speech recognition model 5 is set is to be assigned, the parameter P2 of this speech recognition model 5 assumes the corresponding parameter value.
Auf gleiche Weise wird mit dem zum Parameter P3 gehörigen Parameterwert zwischen drei verschiedenen Typen der Umgebung, in denen sich der Sprecher aufhalten kann, unterschieden, namlich zwischen einem Fahrzeuginneren, einem Gebaudeinneren, und einer Straße.In the same way, the parameter value belonging to parameter P3 is used to differentiate between three different types of environment in which the speaker can be located, namely between a vehicle interior, a building interior, and a street.
Ebenso bezeichnet der Parameter P4 einen Pegel von Hintei— grundgerauschen in der Umgebung des Sprechers . Es wird zwischen einem normalen Ger uschpegel, einem leisen Gerauschpe- gel und einem lauten Gerauschpegel unterschieden.Likewise, parameter P4 designates a level of background noise in the vicinity of the speaker. A distinction is made between a normal noise level, a low noise level and a loud noise level.
Schließlich ist der Parameter P5 vorgesehen, der z.B. fünf verschiedene Parameterwerte annehmen kann, wobei jeder dieser Parameterwerte für eine andere Landessprache steht. Im vorliegenden Fall wird mit den Parameterwerten zwischen den Lan- dessprachen Deutsch, Englisch, Franzosisch, Italienisch und Spanisch differenziert.Finally, parameter P5 is provided, which e.g. can take five different parameter values, each of which stands for a different language. In the present case, the parameter values are used to differentiate between the national languages German, English, French, Italian and Spanish.
Im Betrieb wird vom Mobilfunktelefon 4 eine von einem Sprecher gesprochene und zu erkennende Sprache aufgenommen und, gegebenenfalls einschließlich mitaufgenommener Hintergrundge- rausche, digitalisiert. Das Mobilfunktelefon 4 nimmt eine Vorverarbeitung des digitalisierten Sprachsignals zu einer Folge von Merkmalsvektoren vor, die über die Funkstrecke 3 an die Basisstation 6 und von dort weiter an die Spracherkennungseinheit 1 gesendet werden. Diese Merkmalsvektoren sind mit von einem Sprachmodell der Spracherkennungsemheit 1 verwendeten Merkmalsvektoren kompatibel und können durch die Spracherkennungseinheit 1 ohne weitere Vorverarbeitung mit Merkmalsvektoren des Sprachmodells verglichen werden, um die darin enthaltenen Worter zu identifizieren. Durch diese mit recht geringem technischen Aufwand realisierbare Maßnahme wird die zwischen Telefon 4 und Spracherkennungseinheit 1 zu übertragende Datenmenge so weit reduziert, dass die Bandbreite eines Telefonkanals ausreicht, um eine Spracherkennung in der Spracherkennungseinheit 1 mit der gleichen Qualität zu ermögl chen, wie wenn diese mit dem Endgerat ohne Bandbrei- tenbegrenzung verbunden wäre.In operation, the mobile radio telephone 4 records a language spoken and recognized by a speaker and digitizes it, possibly including background noise that is also recorded. The mobile radio telephone 4 preprocesses the digitized speech signal into a sequence of feature vectors which are sent via the radio link 3 to the base station 6 and from there to the speech recognition unit 1. These feature vectors are compatible with feature vectors used by a speech model of the speech recognition unit 1 and can by the Speech recognition unit 1 can be compared to feature vectors of the speech model without further preprocessing in order to identify the words contained therein. This measure, which can be implemented with very little technical effort, reduces the amount of data to be transmitted between the telephone 4 and the speech recognition unit 1 to such an extent that the bandwidth of a telephone channel is sufficient to enable speech recognition in the speech recognition unit 1 with the same quality as if it were with would be connected to the end device without bandwidth limitation.
Darüber hinaus sendet das Mobilfunktelefon 4 über die Funkstrecke 3 einen Satz von Parameterwerten an die Spracherkennungseinheit 1, welcher ein Benutzerprofil für den Sprecher darstellt. So wie die Satze von Parametern der Spracherkennungsmodelle 5 Auskunft über Merkmale des Sprechers und seiner Umgebung liefern, auf die das jeweilige Spracherkennungsmodell 5 eingestellt ist, enthalt dieses Benutzerprofil mit seinen Parameterwerten Informationen über entsprechende Merkmale des Spre- chers der zu erkennenden Sprache und seiner Umgebung.In addition, the mobile radio telephone 4 sends a set of parameter values via the radio link 3 to the speech recognition unit 1, which represents a user profile for the speaker. Just as the sets of parameters of the speech recognition models 5 provide information about features of the speaker and his environment to which the respective speech recognition model 5 is set, this user profile with its parameter values contains information about corresponding features of the speaker of the language to be recognized and his environment.
Das Benutzerprofil kann beispielsweise ganz oder teilweise manuell erstellt, insbesondere von einem Benutzer des Mobiltelefons 4 über dessen Tastatur eingegeben werden. Ein einmal eingegebenes Benutzerprofil bleibt in dem Mobiltelefon ge- speichert und kann jedes Mal, wenn das Mobiltelefon eine Verbindung zu der Spracherkennungseinheit etabliert, an diese übertragen werden.The user profile can, for example, be created entirely or partially manually, in particular entered by a user of the mobile telephone 4 via the keyboard. Once a user profile has been entered, it remains stored in the mobile phone and can be transmitted to the speech recognition unit each time the mobile phone establishes a connection.
Einige bekannte Mobilfunktelefone 4 lassen sich beispielsweise manuell auf verschiedene Grade von Hintergrundgerausch- pegeln einstellen. Diese Einstellungen können dann vom Mobilfunktelefon 4 als Parameterwert für das Benutzerprofil ver wendet werden. Andererseits können Parameterwerte auch vom Mobilfunktelefon 4 selber erstellt werden. Sofern dieses entsprechend ausgestattet ist, kann es beispielsweise einen Hintergrundgerauschpegel selber bestimmen und das Benutzerprofil mit entsprechenden Parameterwerten erstellen. Es kann aber auch eine Frequenzanalyse der Sprache des Sprechers durchfuhren und den Sprecher anhand eines ermittelten Spektrums der Sprache in eine bestimmte Altersgruppe einordnen. Dann wird im Benutzerprofil ein entsprechender Parameterwert zur Kenn- Zeichnung dieser Altersgruppe gesetzt. Es ist aber auch möglich, eine solche Analyse mit anschließender Einordnung des Sprechers in eine Altersgruppe von der Spracherkennungseinheit 1 ausfuhren zu lassen. Einen Typ der Umgebung des Sprechers kann das Mobilfunktelefon 4 beispielsweise daran als das Innere eines Fahrzeuges erkennen, dass das Mobilfunktelefon 4 an einer Freisprecheinrichtung angeschlossen ist. Dementsprechend wird vom Mobilfunktelefon 4 im Benutzerprofil der Parameterwert desjenigen Parameters, der den Typ der Umgebung des Sprechers charakterisiert, gesetzt. Den die Lan- dessprache des Sprechers bezeichnenden Parameter des Benut- zerprofils setzt das Mobilfunktelefon 4 auf den einer vom Benutzer für die Bedienung der Benutzerschnittstelle des Mobil- funktelefons 4 ausgewählten Sprache zugeordneten Wert.Some known mobile radio telephones 4 can, for example, be set manually to different levels of background noise levels. These settings can then ver from the mobile phone 4 as a parameter value for the user profile be applied. On the other hand, parameter values can also be created by the mobile radio telephone 4 itself. If this is equipped accordingly, it can, for example, determine a background noise level itself and create the user profile with corresponding parameter values. However, it can also carry out a frequency analysis of the speaker's language and classify the speaker into a specific age group based on a determined spectrum of the speech. Then a corresponding parameter value for identifying this age group is set in the user profile. However, it is also possible for the speech recognition unit 1 to carry out such an analysis with subsequent classification of the speaker into an age group. The cellular phone 4 can recognize a type of the surroundings of the speaker, for example, from the inside of a vehicle that the cellular phone 4 is connected to a hands-free device. Accordingly, the mobile telephone 4 sets the parameter value of the parameter that characterizes the type of environment of the speaker in the user profile. The mobile telephone 4 sets the parameter of the user profile which designates the national language of the speaker to the value assigned to a language selected by the user for operating the user interface of the mobile radio telephone 4.
Das Benutzerprofil wird von der Spracherkennungseinheit 1 mit den Sätzen von Parameterwerten der einzelnen Spracherkennungsmodelle 5 verglichen. Dasjenige Spracherkennungsmodell 5, dessen Satz von Parameterwerten mit dem Benutzerprofil die meisten Übereinstimmungen aufweist, wird von der Spracherkennungseinheit 1 ausgewählt und zur automatischen Spracherken- nung der im Sprachsignal enthaltenen Sprache eingesetzt.The user profile is compared by the speech recognition unit 1 with the sets of parameter values of the individual speech recognition models 5. The speech recognition model 5 whose set of parameter values matches the user profile most closely is selected by the speech recognition unit 1 and used for automatic speech recognition of the speech contained in the speech signal.
Weil die Spracherkennungseinheit 1 nicht auf eine exakte U- bereinstimmung bei der Auswahl des Spracherkennungsmodells 5 zwischen Benutzerprofil und dem Satz der Parameterwerte des Spracherkennungsmodells 5 angewiesen ist, sondern lediglich dasjenige Spracherkennungsmodell 5 auswählt, dessen Satz von Parameterwerten die beste Übereinstimmung mit dem Benutzer- profil aufweist, ist ein Betrieb des Spracherkennungssystems auch für den Fall gewahrleistet, dass ein Spracherkennungsmodell mit Parameterwerten, die denen des übertragenen Benutzerprofils exakt entsprechen, an der Spracherkennungseinheit 1 nicht zur Verfugung steht.Because the speech recognition unit 1 does not ensure an exact match when selecting the speech recognition model 5 between the user profile and the set of parameter values of the speech recognition model 5, but only selects the speech recognition model 5 whose set of parameter values has the best match with the user profile, operation of the speech recognition system is also ensured in the event that a speech recognition model with parameter values , which correspond exactly to those of the transmitted user profile, is not available at the speech recognition unit 1.
Um der Spracherkennungseinheit die Auswahl eines Spracherkennungsmodells zu ermöglichen, muss das Benutzerprofil wenigstens einmal, bei der Etablierung einer Kommunikation, an die Spracherkennungseinheit übertragen werden. Vorzugsweise wird das Profil aber auch wahrend der Kommunikation wiederholt u- bertragen. Dies ist die Voraussetzung dafür, dass ein Mobiltelefon, das in der Lage ist, bestimmte Parameter des Benut- zerprofils selbsttätig festzulegen, jederzeit den aktuellen Wert dieser Parameter an die Spracherkennungseinheit melden und diese gegebenenfalls durch Wechsel auf ein anderes, den jeweils aktuellen Parameterwerten angepasstes Spracherkennungsmodell die Spracherkennung optimieren kann oder, wenn infolge eines Handovers die Spracherkennungseinheit wechselt, die neue Spracherkennungseinheit sofort das bestangepasste Spracherkennungsmodell wählen und mit diesem arbeiten kann.In order to enable the speech recognition unit to select a speech recognition model, the user profile must be transmitted to the speech recognition unit at least once when establishing communication. However, the profile is preferably also transmitted repeatedly during the communication. This is the prerequisite for a mobile phone that is able to automatically define certain parameters of the user profile to report the current value of these parameters to the speech recognition unit at any time and, if necessary, by changing to a different speech recognition model adapted to the current parameter values can optimize the speech recognition or, if the speech recognition unit changes as a result of a handover, the new speech recognition unit can immediately select the best-matched speech recognition model and work with it.
Einer bevorzugten Ausgestaltung zufolge übertragt das Mobilfunktelefon 4 das Sprachsignal als ein Multirahmen-Nachrich- tenpaket (multi-frame message packagc) z.B. nach ETSI ES 201 108 vl .1.2. Der Header eines solchen Nachrichtenpakets umfass neun bislang nicht standardisierte Bits, als „expansion bits" EXP1 bis EXP9 bezeichnet, die für Funktionserweiterungen zur Verfugung stehen. Von diesen kann z.B. eines genutzt werden, um das Geschlecht eines Sprechers zu kodieren, zwei für die Kodierung von vier verschiedenen Akzenten oder Dialekten, ei- nes für die Altersgruppe des Sprechers, eines zur Differen zierung zwischen Betrieb mit und ohne Freisprechanlage und die restlichen vier zur Kodierung von bis zu 16 Landessprachen . According to a preferred embodiment, the mobile radio telephone 4 transmits the voice signal as a multi-frame message packagc, for example according to ETSI ES 201 108 vl .1.2. The header of such a message packet comprises nine previously non-standardized bits, called "expansion bits" EXP1 to EXP9, which are available for functional expansions. One of these can be used, for example, to encode the gender of a speaker, two for encoding four different accents or dialects, one for the age group of the speaker, one for differences Decoration between operation with and without a hands-free system and the remaining four for coding up to 16 national languages.

Claims

Patentansprüche claims
1. Verfahren zur Auswahl eines Spracherkennungsmodells (5) für eine Erkennung von in einem Sprachsignal enthaltener Sprache, bei dem (a) e dem Sprachsignal zugeordnetes Benutzerprofil empfangen wird, das einen Satz von Werten einer Menge von für die Spracherkennung relevanten Parametern des Sprachsignals spezifiziert; (b) der in dem Benutzerprofil enthaltene Satz mit Sätzen von Parameterwerten einer Mehrzahl von vorgegebenen Spracherkennungsmodellen (5) verglichen wird; (c) dasjenige Spracherkennungsmodell (5) ausgewählt wird, dessen Satz von Parameterwerten am besten mit dem Satz des Benutzerprofils übereinstimmt, und die Spracherkennung mit diesem Spracherkennungsmodell (5) ausgeführt wird.1. A method for selecting a speech recognition model (5) for recognizing speech contained in a speech signal, in which (a) e user profile assigned to the speech signal is received, which specifies a set of values of a set of parameters of the speech signal relevant for speech recognition; (b) the set contained in the user profile is compared with sets of parameter values of a plurality of predefined speech recognition models (5); (c) that speech recognition model (5) is selected whose set of parameter values best matches the set of the user profile, and the speech recognition is carried out with this speech recognition model (5).
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mit wenigstens einem der Parameter em sprachmharentes Merkmal des Sprachsignals, insbesondere eine Landessprache oder ein Akzent oder eine Altersgruppe oder ein Geschlecht eines Sprechers der Sprache, bezeichnet wird. 2. The method according to claim 1, characterized in that at least one of the parameters em language-inherent feature of the speech signal, in particular a national language or an accent or an age group or a gender of a speaker of the language is referred to.
3. Verfahren nach Anspruch ?, dadurch gekennzeichnet, dass einer der Parameter eine Landessprache bezeichnet, und dass als Landessprache diejenige Sprache in dem Benutzerprofil übertragen wird, die an einer sprachorientierten Benutzerschnittstelle eines zur Aufzeichnung des Sprachsignals verwendeten Endgerats eingestellt ist.3. The method according to claim 1, characterized in that one of the parameters designates a national language, and that the national language is the language in the user profile that is set on a language-oriented user interface of a terminal device used to record the speech signal.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mit wenigstens einem der Parameter em umgebungsinharentes Merkmal des Sprachsig- nals, insbesondere ein Hintergrundgerauschpegel, bezeichnet wird. 4. The method according to any one of the preceding claims, characterized in that at least one of the parameters em environment-inherent feature of the speech signal, in particular a background noise level, is referred to.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass bei einem Parameter, der ein umgebungsinharentes Merkmal des Sprachsignals bezeichnet, jeder Parameterwert einen Typ von Umgebung spezifiziert, in der sich der Sprecher aufhalten kann.5. The method according to claim 4, characterized in that with a parameter that designates an inherent feature of the speech signal, each parameter value specifies a type of environment in which the speaker can be.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sprachsignal von einem Endgerat (4) aufgenommen und über ein Datennetz (3) zu einer Spracherkennungseinheit (1) übertragen wird, welche die Spracherkennung durchfuhrt.6. The method according to any one of the preceding claims, characterized in that the voice signal is picked up by a terminal (4) and transmitted via a data network (3) to a speech recognition unit (1) which carries out the speech recognition.
7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das Sprachsignal von einem Endgerat (4) aufgenommen und zu einer Folge von Merkmalsvektoren verarbeitet wird, und dass die Folge von Merkmalsvektoren über ein Datennetz (3) zu einer Spracherkennungsemheit (1) übertragen wird, welche die Spracherkennung durchfuhrt .7. The method according to any one of claims 1 to 5, characterized in that the voice signal is picked up by a terminal (4) and processed into a sequence of feature vectors, and that the sequence of feature vectors via a data network (3) to a speech recognition unit (1 ) is transmitted, which carries out the speech recognition.
8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass die Übertragung in dem Datennetz über einen Funkkanal erfolgt. 8. The method according to claim 6 or 7, characterized in that the transmission in the data network takes place via a radio channel.
9. Verfahren nach Anspruch 6, 7 oder 8, dadurch gekennzeichnet, dass das Benutzerprofil vom Endgerat (4) an die Spracherkennungse nheit (1) übertragen wird.9. The method according to claim 6, 7 or 8, characterized in that the user profile from the terminal (4) to the speech recognition unit (1) is transmitted.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass ein Parameter des Benutzerprofils vom Endgerat festgelegt wird.10. The method according to claim 9, characterized in that a parameter of the user profile is determined by the terminal.
11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass das Benutzerprofll über einen Funkkanal uber- tragen wird. 11. The method according to claim 9 or 10, characterized in that the user profile is transmitted via a radio channel.
12. Verfahren nach Anspruch 5 mit einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, dass ein Typ von Umgebung, in der sich der Sprecher aufhalt, daran als ein Fahrzeuginneres erkannt wird, dass das Endgerat (4) an eine Freisprecheinrichtung angeschlossen ist.12. The method according to claim 5 with one of claims 6 to 11, characterized in that a type of environment in which the speaker is located is recognized as a vehicle interior that the terminal (4) is connected to a hands-free device.
13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Benutzerprofil der Spracherkennungseinheit (1) vor Beginn der Spracherken- nung übergeben wird.13. The method according to any one of the preceding claims, characterized in that the user profile of the speech recognition unit (1) is transferred before the start of the speech recognition.
14. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Benutzerprofil wahrend der Spracherkennung wiederholt aktualisiert wird.14. The method according to any one of the preceding claims, characterized in that the user profile is updated repeatedly during the speech recognition.
15. Spracherkennungseinheit (1) zur Erkennung von in einem Sprachsignal enthaltener Sprache mit einem Spracherkennungsmodell (5), wobei die Spracherkennungseinheit (1) aus einer Mehrzahl von Spracherkennungsmodellen (5) ein passendstes mit einem Verfahren nach einem der vorhergehenden Ansprüche aussucht.15. Speech recognition unit (1) for recognizing speech contained in a speech signal with a speech recognition model (5), wherein the speech recognition unit (1) looks for a most suitable from a plurality of speech recognition models (5) with a method according to one of the preceding claims.
16. Endgerat (4) zum Aufnehmen eines Sprache enthaltenden Sprachsignals, dadurch gekennzeichnet, dass in dem End- gerat (4) ein Benutzerprofil gespeichert ist, das einen Satz von Werten einer Menge von für eine Spracherkennung relevanten Parametern des Sprachsignals spezifiz ert, und dass das Endgerat (4) das Sprachsignal und das Benutzerprofil an eine Spracherkennungseinheit (1) uber- gibt.16. Terminal (4) for recording a voice signal containing voice, characterized in that a user profile is stored in the terminal (4) which specifies a set of values of a set of parameters of the voice signal relevant for voice recognition, and that the terminal (4) transfers the voice signal and the user profile to a voice recognition unit (1).
17. Endgerat nach Anspruch 16, dadurch gekennzeichnet, dass es eine sprachorientierte Benutzerschnittstelle aufweist, dass die von dieser Schnittstelle verwendete Sprache durch den Benutzer unter mehreren Sprachen auswahlbar ist, und dass es die für die Schnittstelle ausgewählte Sprache als die Landessprache des Benutzers in dessen in dem Endgerat gespeichertes Benutzerprofil u- bermmmt . 17. The terminal according to claim 16, characterized in that it has a language-oriented user interface, that the language used by this interface can be selected by the user from a plurality of languages, and that it is the language selected for the interface as the national language of the user in whose user profile stored in the terminal device is overwhelmed.
PCT/EP2004/050645 2003-09-29 2004-04-29 Selection of a voice recognition model for voice recognition WO2005034087A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10345254.0 2003-09-29
DE10345254 2003-09-29

Publications (1)

Publication Number Publication Date
WO2005034087A1 true WO2005034087A1 (en) 2005-04-14

Family

ID=34399051

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2004/050645 WO2005034087A1 (en) 2003-09-29 2004-04-29 Selection of a voice recognition model for voice recognition

Country Status (1)

Country Link
WO (1) WO2005034087A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1096473A2 (en) * 1999-10-26 2001-05-02 Persay Inc., c/o Corporation Service Company Background model clustering for speaker identification and verification
EP1134726A1 (en) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Method for recognizing utterances of a non native speaker in a speech processing system
EP1215653A1 (en) * 2000-12-18 2002-06-19 Siemens Aktiengesellschaft Method and system for speech recognition for a small size implement
US20020138272A1 (en) * 2001-03-22 2002-09-26 Intel Corporation Method for improving speech recognition performance using speaker and channel information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1096473A2 (en) * 1999-10-26 2001-05-02 Persay Inc., c/o Corporation Service Company Background model clustering for speaker identification and verification
EP1134726A1 (en) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Method for recognizing utterances of a non native speaker in a speech processing system
EP1215653A1 (en) * 2000-12-18 2002-06-19 Siemens Aktiengesellschaft Method and system for speech recognition for a small size implement
US20020138272A1 (en) * 2001-03-22 2002-09-26 Intel Corporation Method for improving speech recognition performance using speaker and channel information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"IMPROVING SPEECH RECOGNITION ACCURACY WITH MULTIPLE PHONETIC MODELS", IBM TECHNICAL DISCLOSURE BULLETIN, IBM CORP. NEW YORK, US, vol. 38, no. 12, 1 December 1995 (1995-12-01), pages 73, XP000588077, ISSN: 0018-8689 *

Similar Documents

Publication Publication Date Title
DE69631318T2 (en) Method and device for generating background noise in a digital transmission system
DE69827667T2 (en) VOKOR BASED LANGUAGE KNOWLEDGE
DE69911723T2 (en) Automatic voice / speaker recognition via digital wireless channels
DE69910837T2 (en) ELIMINATION OF SOUND DETECTION
DE60201939T2 (en) Device for speaker-independent speech recognition, based on a client-server system
WO2002018897A1 (en) Voice-controlled arrangement and method for voice data entry and voice recognition
DE3416238A1 (en) EXTREME NARROW BAND TRANSMISSION SYSTEM
DE60127550T2 (en) METHOD AND SYSTEM FOR ADAPTIVE DISTRIBUTED LANGUAGE RECOGNITION
DE10117367B4 (en) Method and system for automatically converting text messages into voice messages
DE10006930A1 (en) System and method for speech recognition
EP1456837B1 (en) Method and device for voice recognition
EP2047668A1 (en) Method, spoken dialog system, and telecommunications terminal device for multilingual speech output
WO2004068465A1 (en) Communication system, communication emitter, and appliance for detecting erroneous text messages
WO2001086634A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
WO1999026232A1 (en) Device and methods for speaker-independent spoken name selection for telecommunications terminals
DE60315544T2 (en) Telecommunication terminal for modifying a transmitted voice signal in an existing telephone connection
EP1169841B1 (en) Generation of a reference-model directory for a voice-controlled communications device
WO2005034087A1 (en) Selection of a voice recognition model for voice recognition
DE60027140T2 (en) LANGUAGE SYNTHETIZER BASED ON LANGUAGE CODING WITH A CHANGING BIT RATE
WO2005011235A1 (en) Method and system for providing a hands-free functionality on mobile telecommunication terminals by the temporary downloading of a speech-processing algorithm
DE102004001863A1 (en) Method and device for processing a speech signal
EP1659571A2 (en) Speech dialogue system and method for running it
WO2018188907A1 (en) Processing speech input
EP4027333B1 (en) Virtual speech assistant with improved recognition accuracy
DE602004002845T2 (en) Voice activity detection using compressed speech signal parameters

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase